Script phần khó hiểu

 avatar
neyjrxdung
plain_text
24 days ago
888 B
2
Indexable
Never
 Như hình dưới đây là một ví dụ dễ hiểu về việc quantization bằng cách phân cụm. Các trọng số được nhóm lại với nhau thành 4 nhóm và mỗi nhóm được biểu diễn bằng trung bình cộng của chúng gọi là các centroids.. Trước đó, mô hình yêu cầu 32bit * 16 = 512bit để biểu diễn các trọng số. Sau khi phân cụm, mô hình chỉ yêu cầu 32bit * 4 + 2 * 16 = 160 bit

Gradient

giá trị sẽ tiến dần về 0 và bước cập nhật hệ số trong gradient descent trở nên vô nghĩa và các hệ số neural network sẽ không học được nữa. => Vanishing gradient
giá trị sẽ tiến dần về vô cùng và bước cập nhật hệ số trong gradient descent trở nên không chính xác và các hệ số neural network sẽ không học được nữa. => Exploding gradient
Leave a Comment