Untitled

 avatar
neyjrxdung
plain_text
a month ago
2.6 kB
1
Indexable
Never
Seq2seq
Embedding layer
Encoder network
Decoder network
Softmax layer


Trong phần này,  sẽ trình bày ứng dụng kiến ​​trúc bộ mã hóa-bộ giải mã, trong đó cả bộ mã hóa và bộ giải mã đều được triển khai dưới dạng RNN, cho nhiệm vụ dịch máy. 
Các node mạng có thể triển khai bằng LSTM hoặc GRU
LSTM và GRU là hai loại mạng thần kinh tái phát (RNN) có thể xử lý dữ liệu tuần tự, chẳng hạn như văn bản, lời nói hoặc video. Chúng được thiết kế để khắc phục vấn đề biến mất hoặc bùng nổ độ dốc ảnh hưởng đến việc đào tạo RNN tiêu chuẩn.
Hiệu suất của LSTM và GRU phụ thuộc vào nhiệm vụ, dữ liệu và siêu tham số. Nói chung, LSTM mạnh hơn và linh hoạt hơn GRU, nhưng nó cũng phức tạp hơn và dễ bị overfiting. GRU nhanh hơn và hiệu quả hơn LSTM, nhưng nó có thể không nắm bắt được sự phụ thuộc lâu dài như LSTM.
Việc lựa chọn sẽ phụ thuộc vào các yêu cầu cụ thể.
Trong quá trình đào tạo, bộ giải mã thường sẽ được điều chỉnh dựa trên các tokens trước đó trong nhãn chính thức. 
Tuy nhiên, tại thời điểm suy luận,  điều chỉnh từng đầu ra của bộ giải mã trên các tokens đã được dự đoán. 

Transformer

Embedding layer: tương tự như các mô hình NMT khác

Positional embeddings: Cung cấp mã hóa vị trí cho đầu vào

Multi-head attention: kết hợp thông tin về cùng một nhóm attention thông qua các không gian con biểu diễn khác nhau

Add & norm: residual connection và  layer normalization. Cả hai đều là chìa khóa cho kiến ​​trúc sâu hiệu quả.

Positionwise feed-forward: biến đổi cách biểu diễn ở tất cả các vị trí sequence bằng cách sử dụng cùng một MLP.

BERT(Bidirectional Encoder Representations from Transformers)
Là một encoder-only Transformer che giấu ngẫu nhiên một số token nhất định trong đầu vào để tránh nhìn thấy các token khác.


Mục tiêu đào tạo trước là dự đoán token bị che giấu dựa trên contexts. Điều này cho phép BERT sử dụng đầy đủ contexts bên trái và bên phải để giúp nó tìm hiểu cách trình bày đầu vào sâu hơn và phong phú hơn

Knowledge distillation
Student model nhỏ hơn học để bắt chước teacher model ban đầu bằng cách giảm thiểu Loss giữa đầu ra của student và teacher.
Leave a Comment