Untitled

Học chắt lọc ở cấp độ câu văn từ mô hình Bert cho bài toán dịch máy

Ngôn ngữ và giao tiếp là trung tâm của sự tương tác của con người. Do đó, việc dịch giữa các ngôn ngữ khác nhau đóng vai trò then chốt trong những tiến bộ về xã hội và văn hóa.
Dịch máy là một trong những ứng dụng đầu tiên có thể giải quyết bằng máy tính. Dịch máy nhằm mục đích tự động dịch câu ngôn ngữ tự nhiên bằng máy tính từ ngôn ngữ này sang ngôn ngữ khác.Do đó, các kỹ thuật khác nhau đã được phát triển để giải quyết vấn đề dịch máy, nổi bật trong đó là Dịch máy thống kê(SMT) và dịch máy sử dụng mạng neural(NMT).

SMT: sử dụng các mô hình thống kê để dự đoán bản dịch có khả năng cao nhất cho một từ(cụm từ) trong bản dịch nguồn 
Ưu điểm: Dễ triển khai, ít tốn kém về mặt tính toán

Tuy nhiên, SMT thể hiện câu nguồn và câu đích dưới dạng các tokens tượng trưng và rời rạc. Vì vậy, Bản dịch cứng nhắc, thiếu tự nhiên, gặp khó với cấu trúc phức tạp, từ đồng nghĩa, đồng âm

Neural Machine Translation (NMT): sử dụng mạng lưới thần kinh để mô hình hóa mối quan hệ giữa ngôn ngữ nguồn và ngôn ngữ đích. Ý tưởng chính đằng sau NMT là biểu diễn ý nghĩa của văn bản dưới dạng một tập hợp các giá trị số, được gọi là các giá trị nhúng, có thể được sử dụng làm đầu vào cho mạng thần kinh.

Ưu điểm: xử lý tốt hơn với ngôn ngữ có cấu trúc phức tạp, có nhiều từ đồng nghĩa, ..., cho bản dịch trôi chảy, tự nhiên ,..
Nhược điểm: yêu cầu chi phí tính toán lớn, dữ liệu đào tạo nhiều. Khó giải thích phương pháp sử dụng
Tuy nhiên, sự phát triển của công nghệ vật liệu dấn đến sự phát triển nhanh chóng của công nghệ làm chip, cùng với đó là sự phát triển của công nghệ big data đã khiến cho những nhược điểm dần được giải quyết.

, các kiến trúc ban đầu là các mô hình NMT dựa trên  RNN và CNN. Vào năm 2017, một khuôn khổ mới, NMT (Transformer) dựa trên sự tự chú ý, đã được đề xuất và thúc đẩy mạnh mẽ lĩnh vực NMT. Hiện tại, Transformer đã trở thành kiến trúc thống trị cho dịch máy, vượt qua mạng thần kinh tích chập và tái phát dựa trên NMT cả về chất lượng dịch và tốc độ đào tạo. 


Sự phát triển nhanh chóng của độ lớn dữ liệu và độ sâu của mô hình đã thách thức việc triển khai các mô hình mạng lưới thần kinh sâu lớn đặc biệt phù hợp với các thiết bị biên có bộ nhớ và khả năng tính toán hạn chế. Để giải quyết thách thức này, phương pháp nén mô hình lần đầu tiên được đề xuất để chuyển kiến thức từ một mô hình lớn sang đào tạo một mô hình nhỏ hơn mà không làm giảm hiệu suất đáng kể

 Các kỹ thuật nén mô hình phổ biến:
Pruning
      - weight: Các kết nối có weight dưới một số ngưỡng được xác 	       định trước sẽ bị cắt bớt
      - neural: Cắt tất cả các kết nối đến 1 neural 



Quantization
      - Bằng cách giảm số bit cần thiết để biểu diễn mỗi weight



Knowledge distillation
      - Là một kỹ thuật học máy nhằm mục đích chuyển việc học của một mô hình được đào tạo trước lớn, “teacher model” sang một “student model” nhỏ hơn

Kiến trúc Sequence-to-sequence với khung encoder-decoder lần đầu tiên được đề xuất vào năm 2014. Các mô hình NMT hiện tại vẫn tuân theo khung encoder-decoder .
Kiến trúc Sequence to Sequence gồm các thành phần chính
Embedding layer: ánh xạ một câu nguồn rời rạc vào các embedding liên tục X = {x1, x2,..., xm}
Encoder network: ánh xạ câu embedding nguồn X = {x1,  x2, …, xm}  thành hidden states H = {h1,  h2, …, hm}.
Decoder network: sinh hidden states mục tiêu Z = {z1, z2,…, zm }dựa trên các token đã được xử lý: y< j = {y1, y2,..., yj - 1 } tại thời điểm j-th và hidden states H.
Softmax layer: hidden states Z = {z1,  z2, …, zm} của decoder được đưa vào lớp softmax để dự đoán từng tokens ở bước thời gian j-th = p(yj|yj-1 , X).


Trong phần này,  sẽ trình bày ứng dụng kiến trúc bộ mã hóa-bộ giải mã, trong đó cả bộ mã hóa và bộ giải mã đều được triển khai dưới dạng RNN, cho nhiệm vụ dịch máy. 
Các node mạng có thể triển khai bằng LSTM hoặc GRU
LSTM và GRU là hai loại mạng thần kinh tái phát (RNN) có thể xử lý dữ liệu tuần tự, chẳng hạn như văn bản, lời nói hoặc video. Chúng được thiết kế để khắc phục vấn đề biến mất hoặc bùng nổ độ dốc ảnh hưởng đến việc đào tạo RNN tiêu chuẩn.
Hiệu suất của LSTM và GRU phụ thuộc vào nhiệm vụ, dữ liệu và siêu tham số. Nói chung, LSTM mạnh hơn và linh hoạt hơn GRU, nhưng nó cũng phức tạp hơn và dễ bị overfiting. GRU nhanh hơn và hiệu quả hơn LSTM, nhưng nó có thể không nắm bắt được sự phụ thuộc lâu dài như LSTM.
Việc lựa chọn sẽ phụ thuộc vào các yêu cầu cụ thể.
Trong quá trình đào tạo, bộ giải mã thường sẽ được điều chỉnh dựa trên các tokens trước đó trong nhãn chính thức. 
Tuy nhiên, tại thời điểm suy luận,  điều chỉnh từng đầu ra của bộ giải mã trên các tokens đã được dự đoán. 


Hạn chế của RNN nằm ở việc không thể song song quá trình training, nên sẽ khó có khả năng mở rộng lớn cho mô hình sâu hơn và dữ liệu lớn hơn. Để khắc phục điều đó 2017 kiến trúc mạng transformer ra đời với thành phần cốt lõi là self-attention. 

self-attention là thành phần cốt lõi của Transformer, có thể được xem như một ánh xạ từ các Query Q, Key K và Value V đến đầu ra. 

Cơ chế attention quan trọng được sử dụng trong Transformer: multi-head attention

Tác dụng chính:
Hiểu quan hệ giữa các từ trong một câu
Lấy thông tin từ nhiều nguồn khác nhau
Học các mối tương tác phức tạp

Embedding layer: tương tự như các mô hình NMT khác

Positional embeddings: Cung cấp mã hóa vị trí cho đầu vào

Multi-head attention: kết hợp thông tin về cùng một nhóm attention thông qua các không gian con biểu diễn khác nhau

Add & norm: residual connection và  layer normalization. Cả hai đều là chìa khóa cho kiến trúc sâu hiệu quả.

Positionwise feed-forward: biến đổi cách biểu diễn ở tất cả các vị trí sequence bằng cách sử dụng cùng một MLP.

Transformer đầy đủ sử dụng kiến trúc encoder-decoder trong có sẽ các thành phần chính như sau:

Embedding layer: tương tự như các mô hình NMT khác

Positional embeddings: Cung cấp mã hóa vị trí cho đầu vào

Multi-head attention: kết hợp thông tin về cùng một nhóm attention thông qua các không gian con biểu diễn khác nhau

Add & norm: residual connection và  layer normalization. Cả hai đều là chìa khóa cho kiến trúc sâu hiệu quả.

Positionwise feed-forward: biến đổi cách biểu diễn ở tất cả các vị trí sequence bằng cách sử dụng cùng một MLP.

BERT(Bidirectional Encoder Representations from Transformers)

Là một encoder-only Transformer che giấu ngẫu nhiên một số token nhất định trong đầu vào để tránh nhìn thấy các token khác.


Mục tiêu đào tạo trước là dự đoán token bị che giấu dựa trên contexts. Điều này cho phép BERT sử dụng đầy đủ contexts bên trái và bên phải để giúp nó tìm hiểu cách trình bày đầu vào sâu hơn và phong phú hơn
là một kỹ thuật học máy nhằm mục đích chuyển việc học của một mô hình được đào tạo trước lớn, “Teacher model” sang một “Student model” nhỏ hơn.


Student model nhỏ hơn học để bắt chước teacher model ban đầu bằng cách giảm thiểu Loss giữa đầu ra của student và teacher.
Editor is loading...