Untitled

mail@pastecode.io avatar
unknown
plain_text
a year ago
6.1 kB
3
Indexable
Hãy dùng thử Mô hình AI của chúng tôi
HỌC KĨ CÀNG

DALL-E 2 thực sự hoạt động như thế nào
Mô hình DALL-E 2 đột phá của OpenAI thực sự hoạt động như thế nào? Hãy xem hướng dẫn chi tiết này để tìm hiểu chi tiết về DALL-E 2.

Ảnh của Ryan O'Connor
Ryan O'Connor
Nhà giáo dục phát triển tại AssemblyAI

Ngày 19 tháng 4 năm 2022
Mô hình đột phá DALL-E 2 của OpenAI đã ra mắt vào đầu tháng, thiết lập một tiêu chuẩn mới cho việc tạo và xử lý hình ảnh. Chỉ với một dấu nhắc văn bản ngắn, DALL-E 2 có thể tạo ra các hình ảnh hoàn toàn mới kết hợp các đối tượng riêng biệt và không liên quan theo những cách hợp lý về mặt ngữ nghĩa, giống như các hình ảnh bên dưới được tạo bằng cách nhập dấu nhắc "một bát súp là cánh cổng dẫn đến một chiều không gian khác". như nghệ thuật kỹ thuật số" .


Nhiều hình ảnh khác nhau được tạo bởi DALL-E 2 theo lời nhắc trên ( nguồn ).
DALL-E 2 thậm chí có thể sửa đổi các hình ảnh hiện có, tạo các biến thể của hình ảnh để duy trì các đặc điểm nổi bật của chúng và nội suy giữa hai hình ảnh đầu vào. Kết quả ấn tượng của DALL-E 2 khiến nhiều người thắc mắc chính xác làm thế nào một mô hình mạnh mẽ như vậy hoạt động dưới mui xe.

Trong bài viết này, chúng ta sẽ xem xét kỹ hơn cách DALL-E 2 tạo ra những hình ảnh đáng kinh ngạc như những hình ảnh trên. Rất nhiều thông tin cơ bản sẽ được cung cấp và các mức độ giải thích sẽ phù hợp với nhiều cấp độ, vì vậy bài viết này phù hợp với người đọc ở nhiều cấp độ trải nghiệm Machine Learning. Hãy đi sâu vào!

#Cách thức hoạt động của DALL-E 2: Cái nhìn toàn cảnh
Trước khi đi sâu vào chi tiết về cách thức hoạt động của DALL-E 2, chúng ta hãy tự định hướng bằng một cái nhìn tổng quan cấp cao về cách DALL-E 2 tạo ra hình ảnh. Trong khi DALL-E 2 có thể thực hiện nhiều tác vụ khác nhau, bao gồm thao tác và nội suy hình ảnh như đã đề cập ở trên, chúng tôi sẽ tập trung vào nhiệm vụ tạo hình ảnh trong bài viết này.


Cái nhìn toàn cảnh về quá trình tạo hình ảnh DALL-E 2 (được sửa đổi từ nguồn ).
Ở cấp độ cao nhất, DALL-E 2 hoạt động rất đơn giản:

Đầu tiên, lời nhắc văn bản được nhập vào bộ mã hóa văn bản được huấn luyện để ánh xạ lời nhắc tới không gian biểu diễn.
Tiếp theo, một mô hình được gọi là trước ánh xạ mã hóa văn bản sang mã hóa hình ảnh tương ứng để nắm bắt thông tin ngữ nghĩa của lời nhắc có trong mã hóa văn bản.
Cuối cùng, bộ giải mã hình ảnh ngẫu nhiên tạo ra một hình ảnh là biểu hiện trực quan của thông tin ngữ nghĩa này.
Từ góc nhìn của một con chim, đó là tất cả những gì cần làm! Tất nhiên, có rất nhiều chi tiết triển khai thú vị để thảo luận mà chúng ta sẽ đề cập bên dưới. Nếu bạn muốn biết thêm một chút chi tiết mà không đi sâu vào chi tiết hoặc bạn thích xem nội dung của mình hơn là đọc nó, vui lòng xem video phân tích DALL-E 2 của chúng tôi tại đây:


#Cách thức hoạt động của DALL-E 2: Cái nhìn chi tiết
Bây giờ là lúc đi sâu vào từng bước trên một cách riêng biệt. Hãy bắt đầu bằng cách xem cách DALL-E 2 học cách liên kết các văn bản và hình ảnh trừu tượng có liên quan.

Bước 1 - Liên kết ngữ nghĩa văn bản và hình ảnh
Sau khi nhập "gấu bông đi ván trượt ở Quảng trường Thời đại" , DALL-E 2 cho ra hình ảnh sau:


nguồn
Làm sao DALL-E 2 biết được khái niệm văn bản như “gấu bông” được thể hiện như thế nào trong không gian hình ảnh? Mối liên kết giữa ngữ nghĩa văn bản và cách biểu diễn trực quan của chúng trong DALL-E 2 được học bằng một mô hình OpenAI khác có tên CLIP ( Đào tạo lại ngôn ngữ tương phản - I mage P ).

CLIP được đào tạo về hàng trăm triệu hình ảnh và chú thích liên quan của chúng, tìm hiểu mức độ liên quan của một đoạn văn bản nhất định với hình ảnh. Nghĩa là, thay vì cố gắng dự đoán chú thích cho một hình ảnh, CLIP chỉ tìm hiểu xem bất kỳ chú thích nào có liên quan đến hình ảnh như thế nào. Mục tiêu tương phản chứ không phải dự đoán này cho phép CLIP tìm hiểu mối liên hệ giữa các cách trình bày bằng văn bản và hình ảnh của cùng một đối tượng trừu tượng. Toàn bộ mô hình DALL-E 2 phụ thuộc vào khả năng học ngữ nghĩa từ ngôn ngữ tự nhiên của CLIP, vì vậy hãy xem cách CLIP được đào tạo để hiểu hoạt động bên trong của nó.

CLIP đào tạo
Các nguyên tắc cơ bản của việc đào tạo CLIP khá đơn giản:

Đầu tiên, tất cả hình ảnh và chú thích liên quan của chúng được chuyển qua bộ mã hóa tương ứng, ánh xạ tất cả các đối tượng vào không gian m chiều.
Sau đó, độ tương tự cosine của từng cặp (hình ảnh, văn bản) được tính toán.
Mục tiêu huấn luyện là đồng thời tối đa hóa độ tương tự cosin giữa N cặp hình ảnh/chú thích được mã hóa đúng và giảm thiểu độ tương tự cosin giữa N 2 - N cặp hình ảnh/chú thích được mã hóa sai .
Quá trình đào tạo này được hiển thị dưới đây:


Tổng quan về quá trình đào tạo CLIP