Untitled

 avatar
user_0285932
plain_text
a year ago
1.5 kB
4
Indexable
Scene text detection
Scene text: ảnh mà có text xuất hiện ở dạng tự nhiên, text là thành phần có sẵn trong ảnh. Các dữ liệu liên quan đến scene text có nhiều thách thức như độ đa dạng về font chữ, góc nhìn, màu sắc

Text detection and recognition: bài toán phát hiện và nhận diện văn bản từ ảnh
Text detection: xác định vị trí chứa văn bản trong ảnh
Bài toán trích xuất văn bản từ ảnh gồm các bài toán con
-	Text detection: phát hiện chữ trong ảnh
-	Text recognition: nhận diện chữ 


Text detection


Text recognition
-	Sử dụng mô hình Transformer
+ tìm hiểu về mô hình transformer
Mô hình dùng để xử lý các tác vụ liên quan đến xử lý ngôn ngữ tự nhiên (NLP). 
Tận dụng khả năng tính toán song song của GPU để tăng tốc độ huấn luyện cho các mô hình ngôn ngữ, đồng thời xử lý được câu dài
Kiến trúc mô hình transformer
Gồm 2 phần
Encoder:
+ input embedding: Máy tính không hiểu được chữ mà chỉ đọc được số, vector, ma trận. Do đó, ta phải biểu diễn chữ dưới dạng vector. Các từ gần nghĩa có vector gần giống nhau.
word embedding là một cách biểu diễn từ dưới dạng vectovector. Các từ được mã hóa theo cách các từ càng gần nghĩa nhau thì càng ở gần nhau trong không gian vector
+ positional encoding: 
Decoder:
Editor is loading...
Leave a Comment