Chúng tôi rất vui mừng thông báo rằng FLUX, mô hình tạo hình ảnh AI đột phá từ Black Forest Labs,Sự tích hợp này kết hợp hai công nghệ mạnh mẽ, mở ra một thế giới sáng tạo đầy tiềm năng cho các nghệ sĩ, nhà thiết kế và nhà phát triển.
Flux.1 đã xuất hiện, thiết lập một chuẩn mực mới trong thế giới các mẫu hình ảnh có trọng lượng mở. Với 12 tỷ thông số, nó vượt qua những gã khổng lồ trong ngành như Midjourney V6, Dall-E 3 của OpenAI và SD3 Ultra của Stability AI về chất lượng hình ảnh và hiệu suất.
Nhóm đằng sau Flux.1 có một lịch sử thú vị.
Họ là những nhà phát triển ban đầu của công nghệ hỗ trợ Khuếch tán ổn định và là nhà phát minh ra khuếch tán tiềm ẩn. Sau một số vấn đề nội bộ tại Stability AI, các thành viên chủ chốt trong nhóm đã rời đi để thành lập một công ty khởi nghiệp mới có tên Black Forest Labs.
Kiểu “di cư công nghệ” này thường dẫn đến sự đổi mới. Khi những cá nhân tài năng tự mình mở rộng hoạt động, họ có thể tự do theo đuổi những ý tưởng mới táo bạo mà không bị ràng buộc bởi các tổ chức lớn hơn.
Flux.1 là gì?
Flux.1 là một bộ mô hình chuyển văn bản thành hình ảnh xác định công nghệ tiên tiến nhất (SOTA) mới về chi tiết hình ảnh, tuân thủ nhanh chóng, đa dạng về phong cách và độ phức tạp của cảnh để tổng hợp văn bản thành hình ảnh.
Nó có ba biến thể:
Flux.1 Pro: Điều này mang lại hiệu suất tiên tiến trong việc tạo hình ảnh, mang lại lời nhắc hàng đầu, chất lượng hình ảnh, chi tiết hình ảnh và sự đa dạng đầu ra.
Flux.1 Dev: Đây là mẫu được chưng cất theo hướng dẫn, trọng lượng mở được thiết kế cho mục đích phi thương mại. Nó được chắt lọc từ Flux.1 Pro, đạt được chất lượng tương tự và tuân thủ nhanh chóng đồng thời hiệu quả hơn so với mẫu thông thường có cùng kích thước.
Flux.1 Schnell: Đây là mô hình nhanh nhất của họ và được thiết kế để phát triển tại địa phương và sử dụng cá nhân. Nó có sẵn công khai theo giấy phép Apache 2.0.
Tất cả các mẫu Flux.1 công cộng đều sử dụng kết hợp các khối biến áp khuếch tán song song và đa phương thức và có 12 tỷ tham số. Những mô hình này tốt hơn các mô hình khuếch tán trước đó vì chúng sử dụng phương pháp khớp dòng, một phương pháp dễ hiểu để huấn luyện các mô hình tổng hợp bao gồm khuếch tán.
Ngoài ra, các mô hình hoạt động tốt hơn và sử dụng phần cứng hiệu quả hơn bằng cách sử dụng các phần nhúng vị trí quay và các lớp chú ý song song.
Tốt hơn Midjourney?
Theo các nhà nghiên cứu, Flux.1 Pro và Flux.1 Dev vượt qua các mẫu phổ biến như Midjourney v6.0, Dall-E3 và Stable Diffusion 3 Ultra ở từng khía cạnh sau:
- Chất lượng hình ảnh
- Sự mạch lạc nhanh chóng
- Sự thay đổi về kích thước và khía cạnh
- Kiểu chữ
- Đa dạng đầu ra
- Nhưng nó có thực sự không? Hãy thử ví dụ này:
Prompt: old man with glasses portrait, photo, 50mm, f1.4, natural light, Pathéchrome
Bạn nghĩ cái nào trông đẹp nhất?
Tất cả các biến thể mẫu Flux.1 đều hỗ trợ nhiều tỷ lệ khung hình và độ phân giải đa dạng trong khoảng từ 0,1 đến 2,0 megapixel, như minh họa trong ví dụ sau.
Hình ảnh ví dụ
Hãy xem một số hình ảnh ví dụ ấn tượng được tạo bằng Flux.1 Pro. Hãy bắt đầu với hình ảnh của những người tập trung chủ yếu vào các chi tiết nhỏ, như tóc, nếp nhăn, ngón tay và tay chân.
Chất lượng rất có thể so sánh được với Midjourney ở hình ảnh bên trái. Mức độ chi tiết về các đặc điểm của con người như tóc, nếp nhăn và ngón tay rất đáng chú ý.
Prompt: A robot holding chalk looking at a blackboard that reads the following poem:”ln pixels’ dance, AI’s craft will rise, Transforming visions through machine eyes, From dreams to screens, new worlds unfurled, AI’s brush reshapes our visual world.”
Kết xuất văn bản là một trong những lĩnh vực khó nhất trong việc tạo hình ảnh AI. Ngay cả phiên bản mới nhất của Midjourney v6.1 vẫn không thành công trong các thử nghiệm ban đầu của tôi. Flux.1 có vẻ thực sự tốt, ngay cả với những văn bản dài.
Prompt: beautiful anime artwork, a cute anime catgirl that looks depressed holding a piece of paper with a smile drawn on it over her mouth, she is about to cry
Điều này có vẻ cực kỳ hứa hẹn. Tông màu nhẹ nhàng và những điểm sáng rực rỡ mang lại vẻ chuyên nghiệp, bóng bẩy sánh ngang với các tác phẩm nghệ thuật vẽ tay.
Chủ nghĩa hiện thực cấp độ tiếp theo
Một số người dùng có quyền truy cập Flux đã nhanh chóng phát hiện ra những hình ảnh này chân thực đến mức nào. Dưới đây là một số bức ảnh selfie chân thực nhất được chia sẻ trên X.
Cách truy cập Flux.1
Đối với những người muốn dùng thử Flux.1, có một số tùy chọn miễn phí:
- Fal
- Đây là một thế hệ ví dụ với Replica.
Prompt: The world’s largest black forest cake, the size of a building, surrounded by trees of the black forest
Prompt: Extreme close-up of a single tiger eye, direct frontal view. Detailed iris and pupil. Sharp focus on eye texture and color. Natural lighting to capture authentic eye shine and depth. The word “FLUX” is painted over it in big, white brush strokes with visible texture.
Sử dụng thương mại và cấp phép
Bây giờ, một số bạn có thể đang nghĩ, liệu tôi có thể bán hoặc phân phối những hình ảnh này vì mục đích thương mại không? Vâng, câu trả lời là có hoặc không, tùy thuộc vào model bạn sử dụng.
Flux.1 Pro: Việc sử dụng Flux.1 Pro cho mục đích thương mại được hỗ trợ nhưng quyền truy cập vào mô hình này hiện bị giới hạn đối với các đối tác thông qua các nền tảng như Replicate và Fal.ai.
Flux.1 Dev: Việc sử dụng hình ảnh bị hạn chế cho mục đích phi thương mại, nghĩa là bạn không thể bán hoặc phân phối hình ảnh do mô hình này tạo ra vì lợi ích thương mại.
Flux.1 Schnell: Nó có sẵn công khai theo giấy phép Apache 2.0, cho phép sử dụng linh hoạt hơn. Điều này có nghĩa là bạn có thể sử dụng Flux.1 Schnell cho cả mục đích cá nhân và thương mại, miễn là bạn tuân thủ các điều khoản của giấy phép Apache 2.0.
Tóm lại, nếu bạn đang muốn sử dụng các mẫu Flux.1 cho mục đích thương mại thì Flux.1 Pro và Flux.1 Schnell là những lựa chọn tốt nhất dành cho bạn. Flux.1 Pro cung cấp chất lượng cao nhất và có sẵn thông qua các mối quan hệ đối tác cụ thể, trong khi Flux.1 Schnell cung cấp giải pháp dễ tiếp cận hơn theo giấy phép nguồn mở.
suy nghĩ cuối cùng
Mặc dù bản chất trọng lượng mở của các mô hình Flux rất thú vị nhưng vẫn có một hạn chế thực tế cần xem xét. Việc chạy cục bộ các mô hình này cùng với mô hình ngôn ngữ lớn (LLM) đòi hỏi sức mạnh tính toán đáng kể—thường là GPU A100 trở lên. Với 12 tỷ tham số (24 GB trên ổ đĩa) cộng với bộ mã hóa văn bản 9 GB, Flux.1 vượt quá khả năng của hầu hết phần cứng cấp độ người tiêu dùng.
Mô hình tạ mở Schnell đã hoạt động rất tốt. Tôi tin chắc rằng cộng đồng sẽ nỗ lực tìm ra các kỹ thuật mới để điều chỉnh, đào tạo và mở rộng phiên bản Apache 2.0 đã được chắt lọc từng bước. Tôi rất vui mừng khi thấy những mô hình tuyệt vời, được tinh chỉnh xuất hiện và tạo ra những hình ảnh ấn tượng.
Trong các bài viết sắp tới, tôi sẽ so sánh Flux với Midjourney, Dall-E 3 và Gemini 2. Tôi cũng dự định viết hướng dẫn về cách chạy Flux Schnell trên máy cục bộ của bạn.