DALL·E 2, Stable Diffusion, Và Midjourney Dùng như Thế Nào?

Trong vài năm qua, Trí tuệ nhân tạo (AI) đã đạt được nhiều tiến bộ và một trong những bổ sung mới cho AI là Trình tạo hình ảnh AI. Nó là một công cụ có khả năng chuyển đổi một câu lệnh đầu vào thành một bức tranh hoặc bức vẽ. Có nhiều tùy chọn cho các công cụ AI chuyển văn bản thành hình ảnh, nhưng những công cụ nổi bật là DALLE 2, Stable Diffusion và Midjourney.

DALL·E 2

DALL·E 2 là một chương trình AI do OpenAI tạo ra để tạo hình ảnh từ các mô tả văn bản. Sử dụng hơn 10 tỷ phiên bản đào tạo tham số của mô hình máy biến áp GPT-3, nó diễn giải các đầu vào ngôn ngữ tự nhiên và tạo ra hình ảnh tương ứng.

Một bức tranh sơn dầu đầy biểu cảm về một cầu thủ bóng rổ đang nhảy cầu, được mô tả như một vụ nổ của một tinh vân – được tạo ra bằng DALLE 2

Stable Diffusion

Stable Diffusion là mô hình chuyển văn bản thành hình ảnh sử dụng bộ mã hóa văn bản CLIP ViT-L/14 được cố định để điều chỉnh mô hình tại các lời nhắc văn bản. Nó tách quá trình hình ảnh thành một quá trình “khuếch tán” trong thời gian chạy – nó bắt đầu chỉ có nhiễu và dần dần cải thiện hình ảnh cho đến khi hoàn toàn không có nhiễu, dần dần tiếp cận mô tả văn bản được cung cấp.

Nhà hàng cao cấp pikachu với tầm nhìn ra Tháp Eiffel – được tạo bởi Stable Diffusion

Midjourney

Midjourney là một công cụ hỗ trợ AI khác tạo hình ảnh từ lời nhắc của người dùng. MidJourney thành thạo trong việc điều chỉnh các phong cách nghệ thuật thực tế để tạo ra hình ảnh về bất kỳ sự kết hợp nào của những thứ mà người dùng muốn. Nó xuất sắc trong việc tạo ra các môi trường, đặc biệt là các cảnh giả tưởng và khoa học viễn tưởng, với ánh sáng ấn tượng trông giống như ý tưởng nghệ thuật được kết xuất từ một trò chơi điện tử.

Cloud Castle at night, cinematic – created by Midjourney

Công nghệ đằng sau DALL·E 2

DALL·E 2 chủ yếu bao gồm 2 phần – một phần để chuyển đổi đầu vào của người dùng thành biểu diễn của hình ảnh (gọi là Trước) và một phần khác để chuyển đổi biểu diễn này thành ảnh thực tế (gọi là Bộ giải mã).

Source: https://www.youtube.com/watch?v=F1X4fHzF4mQ

Các phần nhúng văn bản và hình ảnh được sử dụng đến từ một mạng khác có tên là CLIP (Đào tạo trước hình ảnh-ngôn ngữ tương phản), cũng do OpenAI tạo ra. CLIP là một mạng thần kinh trả về chú thích tốt nhất cho hình ảnh đầu vào. Nó làm ngược lại với những gì DALLE 2 làm – chuyển đổi văn bản thành hình ảnh. Mục tiêu của CLIP là tìm hiểu mối liên hệ giữa biểu diễn trực quan và văn bản của một đối tượng.

Mục tiêu của DALL·E 2 là đào tạo hai người mẫu. Đầu tiên là Trước, được đào tạo để lấy nhãn văn bản và tạo nhúng hình ảnh CLIP. Thứ hai là Bộ giải mã, lấy hình ảnh CLIP nhúng và tạo ra hình ảnh đã học. Sau khi đào tạo, quy trình suy luận trông như thế này:

Chú thích đã nhập được chuyển đổi thành văn bản CLIP nhúng bằng mạng thần kinh.
Ưu tiên giảm kích thước của văn bản nhúng bằng cách sử dụng Phân tích thành phần chính hoặc PCA.
Nhúng hình ảnh được tạo bằng cách sử dụng nhúng văn bản.
Trong bước giải mã, một mô hình khuếch tán được sử dụng để chuyển đổi hình ảnh nhúng thành hình ảnh.
Hình ảnh được nâng cấp từ 64×64 lên 256×256 và cuối cùng là 1024×1024 bằng cách sử dụng Mạng thần kinh chuyển đổi.

Công nghệ đằng sau Stable Diffusion

Stable Diffusion

được cung cấp bởi Mô hình khuếch tán tiềm ẩn (LDM), một kỹ thuật tổng hợp văn bản thành hình ảnh tiên tiến. Trước khi hiểu cách hoạt động của LDM, chúng ta hãy xem mô hình Khuếch tán là gì và tại sao chúng ta cần LDM.

Các mô hình khuếch tán (DM) là các mô hình tổng quát dựa trên máy biến áp lấy một phần dữ liệu, chẳng hạn như hình ảnh và dần dần thêm nhiễu theo thời gian cho đến khi không thể nhận ra được. Từ thời điểm đó, họ cố gắng xây dựng lại hình ảnh về dạng ban đầu và khi làm như vậy, họ học cách tạo ảnh hoặc dữ liệu khác.

Vấn đề với DM là những DM mạnh mẽ thường tiêu tốn hàng trăm ngày GPU và việc suy luận khá tốn kém do đánh giá tuần tự. Để cho phép đào tạo DM trên các tài nguyên tính toán hạn chế mà không ảnh hưởng đến chất lượng cũng như tính linh hoạt của chúng, DM được áp dụng trong không gian tiềm ẩn của các bộ mã hóa tự động được đào tạo trước mạnh mẽ.

Đào tạo một mô hình khuếch tán trên một biểu diễn như vậy giúp đạt được điểm tối ưu giữa giảm độ phức tạp và bảo toàn chi tiết, cải thiện đáng kể độ trung thực của hình ảnh. Việc giới thiệu một lớp chú ý chéo cho kiến trúc mô hình biến mô hình khuếch tán thành một trình tạo mạnh mẽ và linh hoạt cho các đầu vào được điều chỉnh chung như văn bản và hộp giới hạn, cho phép tổng hợp dựa trên tích chập có độ phân giải cao.

Midjourney hoạt động như thế nào?

Midjourney là một công cụ tạo hình ảnh AI lấy thông tin đầu vào thông qua lời nhắc văn bản và thông số, đồng thời sử dụng thuật toán Học máy (ML) được đào tạo trên một lượng lớn dữ liệu hình ảnh để tạo ra những hình ảnh độc đáo.

Midjourney hiện chỉ có thể truy cập thông qua bot Discord trên Discord chính thức của họ. Người dùng tạo hình ảnh bằng cách sử dụng lệnh ‘/imagine’ và nhập dấu nhắc lệnh giống như bất kỳ công cụ tạo tác phẩm nghệ thuật AI nào khác. Sau đó, bot sẽ trả về một tích tắc.

So sánh giữa DALL·E 2, Stable Diffusion và Midjourney

DALL·E 2 đã được đào tạo trên hàng triệu hình ảnh có sẵn, làm cho đầu ra của nó tinh vi hơn và hoàn hảo hơn cho mục đích sử dụng của doanh nghiệp. DALL·E 2 tạo ra hình ảnh đẹp hơn nhiều so với Midjourney hoặc Stable Diffusion khi có nhiều hơn hai ký tự.

Mặt khác, Midjourney là một công cụ được biết đến nhiều nhất với phong cách nghệ thuật của nó. Midjourney sử dụng bot Discord của mình để gửi cũng như nhận cuộc gọi đến máy chủ AI và hầu hết mọi thứ đều diễn ra trên Discord. Hình ảnh thu được hiếm khi trông giống như một bức ảnh; nó có vẻ giống một bức tranh hơn.

Stable Diffusion là một mô hình mã nguồn mở mà mọi người đều có thể truy cập được. Nó cũng có hiểu biết tương đối tốt về minh họa nghệ thuật đương đại và có thể tạo ra các tác phẩm nghệ thuật có độ chi tiết cao. Tuy nhiên, nó cần giải thích lời nhắc ban đầu phức tạp. Stable Diffusion là lựa chọn tuyệt vời cho các hình minh họa phức tạp, sáng tạo nhưng lại thiếu sót khi tạo các hình ảnh chung chẳng hạn như logo.

Lời nhắc dưới đây giúp hiểu được những điểm tương đồng và khác biệt giữa từng mô hình.