Models, sđôi khi được gọi tài liệu checkpoint , được đào tạo trước Stable Diffusion trọng lượng dành cho việc tạo ra một thể loại hình ảnh chung hoặc cụ thể.
Những hình ảnh mà một mô hình có thể tạo ra phụ thuộc vào dữ liệu được sử dụng để huấn luyện chúng. Một mô hình sẽ không thể tạo ra hình ảnh của một con mèo nếu không bao giờ có một con mèo trong dữ liệu đào tạo. Tương tự như vậy, nếu bạn chỉ đào tạo một mô hình với hình ảnh con mèo, nó sẽ chỉ tạo ra những con mèo.
Chúng tôi sẽ giới thiệu mô hình là gì, một số mô hình phổ biến (v1.4, v1.5, F222, Anything V3, Open Journey v4) và cách cài đặt, sử dụng và hợp nhất chúng.
Đây là phần 4 của loạt bài hướng dẫn dành cho người mới bắt đầu.
Đọc phần 1: Hướng dẫn tuyệt đối cho người mới bắt đầu.
Đọc phần 2: Cấu Trúc Câu Lệnh
Đọc phần 3: Inpainting.
Nội dung
- Các mô hình tinh chỉnh
- Tinh chỉnh là gì?
- Tại sao mọi người làm cho họ?
- Chúng được tạo ra như thế nào?
- Models
- Stable diffusion v1.4
- Stable diffusion v1.5
- F222
- Anything V3
- Open Journey
- So sánh Models
- Models tốt nhất
- DreamShaper
- Deliberate v2
- Realistic Vision v2
- ChilloutMix
- Protogen v2.2 (Anime)
- GhostMix
- Waifu-diffusion
- Inkpunk Diffusion
- Tìm thêm models
- v2 models
- Làm thế nào để cài đặt và sử dụng một model
- Hợp nhất hai models
- Ví dụ về hợp nhất model
- Các loại mô hình khác
- Bản tóm tắt
Các mô hình tinh chỉnh
Tinh chỉnh là gì?
Tinh chỉnh là một kỹ thuật phổ biến trong học máy. Nó sử dụng một mô hình được đào tạo trên tập dữ liệu rộng và đào tạo thêm một chút trên tập dữ liệu hẹp.
Một mô hình tinh chỉnh sẽ có xu hướng tạo ra các hình ảnh tương tự như tập dữ liệu của bạn trong khi vẫn duy trì tính linh hoạt của mô hình ban đầu.
Tại sao mọi người làm cho họ?
Stable diffusionlà tuyệt vời nhưng không phải là tốt ở tất cả mọi thứ. Ví dụ: nó có thể và sẽ tạo ra các hình ảnh theo phong cách anime với từ khóa “anime” trong lời nhắc. Nhưng có thể khó tạo ra hình ảnh của một thể loại anime phụ. Thay vì mày mò với lời nhắc, bạn có thể tinh chỉnh mô hình bằng các hình ảnh thuộc thể loại phụ đó.
Chúng được tạo ra như thế nào?
Hai phương pháp tinh chỉnh chính là (1) Đào tạo bổ sung và (2) Dreambooth. Cả hai đều bắt đầu với một mô hình cơ sở như Stable Diffusion v1.4 or v1.5.
Đào tạo bổ sung đạt được bằng cách đào tạo một mô hình cơ sở với một tập dữ liệu bổ sung mà bạn quan tâm. Ví dụ: bạn có thể đào tạo Stable Diffusion v1.5 với một bộ dữ liệu bổ sung về ô tô cổ điển để thiên về tính thẩm mỹ của ô tô đối với thể loại phụ.
Dreambooth,ban đầu do Google phát triển, là một kỹ thuật đưa các đối tượng tùy chỉnh vào các mô hình chuyển văn bản thành hình ảnh. Nó hoạt động với ít nhất là 3-5 hình ảnh tùy chỉnh. Bạn có thể chụp một vài bức ảnh của mình và sử dụng Dreambooth để đưa mình vào mô hình. Một mô hình được đào tạo với Dreambooth yêu cầu một từ khóa đặc biệt để tạo điều kiện cho mô hình.
Có một kỹ thuật tinh chỉnh khác ít phổ biến hơn được gọi là đảo ngược văn bản (đôi khi được gọi là nhúng).Mục tiêu tương tự như Dreambooth: Đưa một đối tượng tùy chỉnh vào mô hình chỉ với một vài ví dụ. Một từ khóa mới được tạo riêng cho đối tượng mới. Chỉ mạng nhúng văn bản được tinh chỉnh trong khi vẫn giữ nguyên phần còn lại của mô hình. Theo thuật ngữ của giáo dân, nó giống như sử dụng các từ hiện có để mô tả một khái niệm mới.
Models
Có hai nhóm models: v1 and v2. Tôi sẽ đề cập đến các mô hình v1 trong phần này và các mô hình v2 trong phần tiếp theo.
Có hàng ngàn tinh chỉnh Stable Diffusion models. Con số đang tăng lên mỗi ngày. Dưới đây là danh sách các mô hình có thể được sử dụng cho các mục đích chung.
Stable diffusion v1.4
Được phát hành vào tháng 8 năm 2022 bởi Stability AI, mô hình v1.4 được coi là mô hình Khuếch tán ổn định có sẵn công khai đầu tiên.
Bạn có thể coi v1.4 là một mô hình có mục đích chung. Hầu hết thời gian, nó là đủ để sử dụng trừ khi bạn thực sự kén chọn một số phong cách nhất định.
Stable diffusion v1.5
v1.5 image.
v1.5 được phát hành vào tháng 10 năm 2022 bởi Runway ML, một đối tác của Stability AI. Mô hình dựa trên v1.2 với đào tạo thêm.
Trang mô hình không đề cập đến cải tiến là gì. Nó tạo ra kết quả hơi khác so với v1.4 nhưng không rõ liệu chúng có tốt hơn không.
Giống như v1.4, bạn có thể coi v1.5 là kiểu máy có mục đích chung.
Theo kinh nghiệm của tôi, v1.5 là một lựa chọn tốt làm mô hình ban đầu và có thể được sử dụng thay thế cho v1.4.
F222
F222
Download link
F222 ban đầu được đào tạo để tạo ảnh khỏa thân, nhưng mọi người nhận thấy tính năng này hữu ích trong việc tạo ảnh chân dung phụ nữ đẹp với mối quan hệ các bộ phận cơ thể chính xác. Thật thú vị, trái ngược với những gì bạn có thể nghĩ, nó khá tốt trong việc tạo ra những bộ quần áo đẹp về mặt thẩm mỹ.
F222 chụp chân dung tốt. Nó có xu hướng tạo ảnh khỏa thân cao. Bao gồm các thuật ngữ tủ quần áo như “váy” và “quần jean” trong lời nhắc.
Tìm các mô hình phong cách ảnh thực tế hơn trong bài đăng này.
Anything V3
Anything v3 model.
Model Page
Anything V3 là một mô hình có mục đích đặc biệt được đào tạo để tạo ra những hình ảnh theo phong cách anime chất lượng cao. Bạn có thể sử dụng thẻ danbooru (như 1girl, tóc trắng) trong lời nhắc văn bản.
Nó rất hữu ích để tạo ra những người nổi tiếng theo phong cách amin, sau đó có thể được kết hợp hoàn hảo với các yếu tố minh họa.
Một nhược điểm (ít nhất là với tôi) là nó tạo ra những con cái có hình dạng cơ thể không cân đối. Tôi thích giảm tông màu xuống bằng F222.
Open Journey
Open Journey model.
Model Page
Open Journey là một mô hình được tinh chỉnh với hình ảnh được tạo bởi Mid Journey v4. Nó có tính thẩm mỹ khác biệt và là một mô hình đa năng tốt.
Từ khóa kích hoạt: kiểu mdjrny-v4
So sánh mô hình
Dưới đây là so sánh các mô hình này với cùng một dấu nhắc và hạt giống. All but Anything v3 tạo ra hình ảnh chân thực nhưng có tính thẩm mỹ khác nhau.
Mô hình tốt nhất
Có hàng ngàn Stable Diffusion models có sẵn. Nhiều người trong số họ là những người mẫu có mục đích đặc biệt được thiết kế để tạo ra một phong cách cụ thể. Bạn nên bắt đầu từ đâu?
Dưới đây là một số mô hình tốt nhất mà tôi tiếp tục quay lại:
DreamShaper
Dreamshaper model
Mô hình Dreamshaper được tinh chỉnh để phù hợp với phong cách minh họa chân dung nằm giữa đồ họa quang học và đồ họa máy tính. Nó rất dễ sử dụng và bạn sẽ thích nó nếu bạn thích phong cách này.
Deliberate v2
Cố ý v2 là một mô hình phải có khác (rất nhiều!) Hiển thị hình ảnh minh họa thực tế. Kết quả có thể tốt một cách đáng ngạc nhiên. Bất cứ khi nào bạn có lời nhắc tốt, hãy chuyển sang mô hình này và xem những gì bạn nhận được!
Realistic Vision v2
Realistic Vision v2 là để tạo ra bất cứ điều gì thực tế. Tìm hiểu thêm về cách tạo ra những người thực tế.
ChilloutMix
ChilloutMix là một mô hình đặc biệt để tạo ra những phụ nữ châu Á có chất lượng ảnh. Nó giống như phiên bản châu Á của F222. Sử dụng với nhúng Hàn Quốc ulzzang-6500-v1 để tạo ra các cô gái như k-pop.
Giống như F222, đôi khi nó tạo ra ảnh khỏa thân. Loại bỏ các thuật ngữ tủ quần áo như “váy” và “quần jean” trong lời nhắc và “khỏa thân” trong lời nhắc phủ định.
Protogen v2.2 (Anime)
Protogen v2.2 sang trọng. Nó tạo ra hình ảnh minh họa và phong cách anime với hương vị tốt.
GhostMix
GhostMix được đào tạo theo phong cách Ghost in the Shell, một anime kinh điển trong thập niên 90. Bạn sẽ thấy nó hữu ích để tạo ra người máy và người máy.
Waifu-diffusion
Waifu Diffusionlà một phong cách anime Nhật Bản.
Inkpunk Diffusion
Inkpunk diffusion
Download link
Inkpunk Diffusion là một mô hình được Dreambooth đào tạo với phong cách minh họa rất khác biệt.
Sử dụng từ khóa: nvinkpunk
Tìm thêm các mô hình
Bạn có thể tìm thấy nhiều mô hình hơn trong Huggingface.
Civilitai là một nguồn tuyệt vời khác để tìm kiếm các mô hình.
v2 models
Sample 2.1 image.
Stability AIđã phát hành một loạt mô hình mới phiên bản 2. Cho đến nay, các mô hình 2.0 và 2.1 đã được phát hành. Thay đổi chính trong các mô hình v2 là
- Ngoài 512×512 pixel, còn có phiên bản độ phân giải cao hơn 768×768 pixel.
- Bạn không còn có thể tạo nội dung khiêu dâm vì tài liệu khiêu dâm đã bị xóa khỏi khóa đào tạo.
Bạn có thể cho rằng mọi người đã chuyển sang sử dụng các mô hình v2. Tuy nhiên, cộng đồng Stable Diffusion nhận thấy rằng hình ảnh trông tệ hơn trong mô hình 2.0. Mọi người cũng gặp khó khăn trong việc sử dụng các từ khóa quyền lực như tên người nổi tiếng và tên nghệ sĩ.
Mô hình 2.1 đã giải quyết được một phần những vấn đề này. Những hình ảnh trông tốt hơn ra khỏi hộp. Nó dễ dàng hơn để tạo ra phong cách nghệ thuật.
Hiện tại, hầu hết mọi người vẫn chưa hoàn toàn chuyển sang mô hình 2.1. Nhiều người thỉnh thoảng sử dụng chúng nhưng dành phần lớn thời gian cho các mẫu v1.
Nếu bạn quyết định dùng thử các mô hình v2, hãy nhớ xem các mẹo này để tránh một số sự thất vọng thường gặp.
Cách cài đặt và sử dụng mô hình
Những hướng dẫn này chỉ áp dụng cho các mẫu v1. Xem hướng dẫn cho v2.0 và v2.1.
Để cài đặt một mô hình trong GUI AUTOMATIC1111, hãy tải xuống và đặt tệp điểm kiểm tra (.ckpt) vào thư mục sau
stable-diffusion-webui/models/Stable-diffusion/
Nhấn nút tải lại bên cạnh hộp thả điểm kiểm tra
Bạn sẽ thấy tệp điểm kiểm tra bạn vừa nhập có sẵn để lựa chọn. Chọn tệp điểm kiểm tra mới để sử dụng mô hình.
Ngoài ra, bạn có thể nhấn nút “iPod” bên dưới Tạo.
Bảng mô hình sẽ xuất hiện. Chọn tab Điểm kiểm tra và chọn một mô hình.
Nếu bạn chưa quen với GUI AUTOMATIC1111, thì một số kiểu máy đã được tải sẵn trong sổ ghi chép Colab có trong Hướng dẫn bắt đầu nhanh.
Hợp nhất hai mô hình
Cài đặt để hợp nhất hai mô hình.
Để hợp nhất hai mô hình bằng GUI AUTOMATIC1111, hãy chuyển đến tab Checkpoint Merger và chọn hai mô hình bạn muốn hợp nhất trong Mô hình chính (A) và Mô hình phụ (B).
Điều chỉnh hệ số nhân (M) để điều chỉnh trọng lượng tương đối của hai mô hình. Đặt nó thành 0,5 sẽ hợp nhất hai mô hình với tầm quan trọng như nhau.
Sau khi nhấn Run, mô hình hợp nhất mới sẽ có sẵn để sử dụng.
Để hợp nhất hai mô hình bằng GUI AUTOMATIC1111, hãy chuyển đến tab Checkpoint Merger và chọn hai mô hình bạn muốn hợp nhất trong Mô hình chính (A) và Mô hình phụ (B).
Điều chỉnh hệ số nhân (M) để điều chỉnh trọng lượng tương đối của hai mô hình. Đặt nó thành 0,5 sẽ hợp nhất hai mô hình với tầm quan trọng như nhau.
Sau khi nhấn Run, mô hình hợp nhất mới sẽ có sẵn để sử dụng.
Ví dụ về mô hình hợp nhất
Dưới đây là những hình ảnh mẫu từ việc hợp nhất F222 và Anything V3 với trọng số bằng nhau (0,5):
Mô hình hợp nhất nằm giữa phong cách F222 thực tế và phong cách Anything V3 của anime. Đó là một mô hình rất tốt để tạo ra nghệ thuật minh họa với hình người.
Các loại mô hình khác
Bốn loại tệp chính có thể được gọi là “mô hình”. Hãy làm rõ chúng để bạn biết mọi người đang nói về điều gì.
- Checkpoint models: Đây là những mô hình có thật Stable Diffusion models. Chúng chứa tất cả những gì bạn cần để tạo một hình ảnh. Không có tập tin bổ sung được yêu cầu. Chúng lớn, thường là 2 – 7 GB. Họ là chủ đề của bài viết này.
- Đảo ngược văn bản: Còn được gọi là nhúng. Chúng là các tệp nhỏ xác định từ khóa mới để tạo đối tượng hoặc kiểu mới. Chúng nhỏ, thường là 10 – 100 KB. Bạn phải sử dụng chúng với mô hình điểm kiểm tra.
- LoRA models: Chúng là các tệp vá nhỏ cho các mô hình điểm kiểm tra để sửa đổi kiểu. Chúng thường là 10-200 MB. Bạn phải sử dụng chúng với mô hình điểm kiểm tra.
- Hypernetworks: Chúng là các mô-đun mạng bổ sung được thêm vào các mô hình trạm kiểm soát. Chúng thường là 5 – 300 MB. Bạn phải sử dụng chúng với mô hình điểm kiểm tra.
Bản tóm tắt
Trong bài viết này, tôi đã giới thiệu các mô hình Khuếch tán ổn định là gì, chúng được tạo ra như thế nào, một số mô hình phổ biến và cách hợp nhất chúng. Sử dụng các mô hình có thể giúp cuộc sống của bạn dễ dàng hơn khi bạn có một phong cách cụ thể trong đầu.
Đây là phần 4 của loạt bài hướng dẫn dành cho người mới bắt đầu.
Đọc phần 1: Hướng dẫn tuyệt đối cho người mới bắt đầu.
Đọc phần 2: Cấu Trúc Câu Lệnh
Đọc phần 3: Inpainting.
Nguồn từ: https://medium.com/