Giao diện người dùng web (Web UI) của Stable Diffusion (được gọi tắt là AUTOMATIC1111 hoặc A1111) là GUI tiêu chuẩn dành cho người dùng cao cấp. Nhờ cộng đồng người dùng nhiệt tình, hầu hết các tính năng mới đều được thêm vào GUI Stable Diffusion miễn phí này đầu tiên. Tuy nhiên, đây không phải là phần mềm dễ sử dụng nhất. Tài liệu hướng dẫn còn thiếu. Danh sách dài các tính năng mà nó cung cấp có thể gây nản lòng.
Bài hướng dẫn này sẽ dạy bạn cách sử dụng GUI AUTOMATIC1111. Bạn có thể sử dụng nó như một bài học. Có rất nhiều ví dụ mà bạn có thể theo dõi từng bước.
Bạn cũng có thể sử dụng bài hướng dẫn này như một sách hướng dẫn tham khảo. Bạn có thể bỏ qua và xem những gì có trong đó. Quay lại khi bạn thực sự cần sử dụng một tính năng.
Bạn sẽ thấy nhiều ví dụ để minh họa tác động của một thiết lập vì tôi tin rằng đây là cách duy nhất để làm rõ ràng.
- 1. Tải và cài đặt Giao diện người dùng trang web (Web UI)
- 2. Tab Chuyển đổi văn bản thành hình ảnh (Text-to-image)
- Tab img2img
- Phác thảo (SKETCH)
- Điền vào (INPAINTING)
- Phác thảo Inpaint
- Tải lên Inpaint
- Batch
- Lấy lời nhắc từ một hình ảnh
- Nâng cấp ( UPSCALING)
- Upscalers
- Khôi phục khuôn mặt ( Face Restoration)
- Thông tin PNG
- Checkpoint merger
- Train
- Settings
- Quick Settings
1. Tải và cài đặt Giao diện người dùng trang web (Web UI)
Bạn có thể sử dụng Stable Diffusion Web UI trên Windows, Mac, hoặc Google Colab.
-
- Sổ ghi chú Google Colab 1-click
-
- Hướng dẫn cài đặt cho Mac
-
- Đọc Hướng dẫn Khởi động Nhanh để quyết định nên sử dụng Stable Diffusion nào.
2. Tab Chuyển đổi văn bản thành hình ảnh (Text-to-image)
Khi bạn khởi động GUI lần đầu, bạn sẽ thấy tab txt2img. Tab này thực hiện chức năng cơ bản nhất của Stable Diffusion: chuyển đổi gợi ý văn bản thành hình ảnh.
2.1 Sử dụng cơ bản
Đây là các thiết lập mà bạn có thể muốn thay đổi nếu đây là lần đầu tiên bạn sử dụng AUTOMATIC1111.
-
- Checkpoint Stable Diffusion: Chọn mô hình bạn muốn sử dụng. Người dùng lần đầu có thể sử dụng mô hình cơ bản v1.5.
-
- Gợi ý: Mô tả những gì bạn muốn thấy trong hình ảnh. Dưới đây là một ví dụ. Xem hướng dẫn chi tiết về xây dựng gợi ý để biết thêm.
-
- Một bức tranh siêu thực về một con mèo của Salvador Dali
-
- Gợi ý: Mô tả những gì bạn muốn thấy trong hình ảnh. Dưới đây là một ví dụ. Xem hướng dẫn chi tiết về xây dựng gợi ý để biết thêm.
-
- Chiều rộng và chiều cao: Kích thước của hình ảnh đầu ra. Khi sử dụng mô hình v1, bạn nên đặt ít nhất một cạnh là 512 pixel. Ví dụ, đặt chiều rộng là 512 và chiều cao là 768 để tạo hình ảnh dọc với tỷ lệ khung hình 2:3.
-
- Kích thước batch: Số lượng hình ảnh được tạo ra mỗi lần. Bạn nên tạo ra ít nhất một vài hình khi thử nghiệm gợi ý vì mỗi hình sẽ khác nhau.
Cuối cùng, nhấn nút Generate. Sau một thời gian ngắn chờ đợi, bạn sẽ nhận được hình ảnh của mình!
Theo mặc định, bạn sẽ nhận được một hình ảnh phụ của các hình nhỏ ghép lại.
Bạn có thể lưu hình ảnh vào bộ nhớ cục bộ của mình. Đầu tiên, chọn hình ảnh bằng cách sử dụng các hình nhỏ dưới bức tranh chính. Nhấp chuột phải vào hình ảnh để mở menu ngữ cảnh. Bạn sẽ có các tùy chọn để lưu hình ảnh hoặc sao chép hình ảnh vào clipboard.
Đó là tất cả những gì bạn cần biết về cơ bản! Phần còn lại của mục này sẽ giải thích từng chức năng một cách chi tiết hơn.
Các tham số tạo hình ảnh
Hộp thoại Stable Diffusion là menu thả xuống dùng để chọn các mô hình. Bạn cần đặt các tệp mô hình vào thư mục stable-diffusion-webui > models > Stable-diffusion. Xem thêm về cài đặt mô hình tại đây.
Nút làm mới kế bên menu thả xuống dùng để làm mới danh sách các mô hình. Nó được sử dụng khi bạn vừa thêm một mô hình mới vào thư mục mô hình và muốn cập nhật danh sách.
Hộp văn bản gợi ý (Prompt): Điền vào những gì bạn muốn thấy trong hình ảnh. Hãy chi tiết và cụ thể. Sử dụng một số từ khóa đã được kiểm nghiệm. Bạn có thể tìm thấy một danh sách ngắn tại đây hoặc một danh sách mở rộng hơn trong trình tạo gợi ý.
Hộp văn bản gợi ý tiêu cực (Negative Prompt): Điền vào những gì bạn không muốn thấy. Bạn nên sử dụng gợi ý tiêu cực khi sử dụng các mô hình v2. Bạn có thể sử dụng gợi ý tiêu cực tổng quát. Xem chi tiết trong bài viết này.
Phương pháp lấy mẫu (Sampling method): Thuật toán cho quá trình loại nhiễu. Tôi sử dụng DPM++ 2M Karras vì nó cân bằng tốt giữa tốc độ và chất lượng. Xem thêm chi tiết tại mục này. Bạn có thể muốn tránh bất kỳ bộ lấy mẫu hậu duệ nào (Những cái có chữ a) vì hình ảnh của chúng không ổn định ngay cả ở các bước lấy mẫu lớn. Điều này làm cho việc chỉnh sửa hình ảnh trở nên khó khăn.
Bước lấy mẫu (Sampling steps): Số bước lấy mẫu cho quá trình loại nhiễu. Càng nhiều càng tốt, nhưng cũng mất thời gian lâu hơn. 25 bước là phù hợp cho hầu hết các trường hợp.
Chiều rộng và chiều cao (Width and height): Kích thước của hình ảnh đầu ra. Bạn nên đặt ít nhất một cạnh là 512 pixel cho các mô hình v1. Ví dụ, đặt chiều rộng là 512 và chiều cao là 768 để tạo hình ảnh dạng chân dung với tỷ lệ khung hình 2:3. Đặt ít nhất một cạnh là 768 khi sử dụng mô hình v2-768px.
Số lượng lô (Batch count): Số lần bạn chạy pipeline tạo hình ảnh.
Kích thước lô (Batch size): Số lượng hình ảnh cần tạo mỗi lần bạn chạy pipeline.
Tổng số hình ảnh được tạo ra bằng số lượng lô nhân với kích thước lô. Thông thường, bạn sẽ thay đổi kích thước lô vì nó nhanh hơn. Bạn chỉ thay đổi số lượng lô nếu gặp vấn đề về bộ nhớ.
Scale CFG (CFG scale): Classifier Free Guidance scale là tham số để kiểm soát mức độ mà mô hình nên tuân theo gợi ý của bạn.
1 – Phần lớn bỏ qua gợi ý của bạn.
3 – Sáng tạo hơn.
7 – Cân bằng giữa việc tuân theo gợi ý và tự do.
15 – Tuân theo gợi ý hơn.
30 – Tuân thủ chặt chẽ gợi ý.
Hình ảnh dưới đây cho thấy hiệu ứng của việc thay đổi CFG với các giá trị seed cố định. Bạn không muốn đặt giá trị CFG quá cao hoặc quá thấp. Stable Diffusion sẽ bỏ qua gợi ý của bạn nếu giá trị CFG quá thấp. Màu sắc của hình ảnh sẽ bão hòa khi nó quá cao.
Hạt giống (Seed)
Hạt giống: Giá trị hạt giống được sử dụng để tạo ra tensor ngẫu nhiên ban đầu trong không gian tiềm ẩn. Thực tế, nó kiểm soát nội dung của hình ảnh. Mỗi hình ảnh được tạo ra đều có giá trị hạt giống riêng của nó. AUTOMATIC1111 sẽ sử dụng giá trị hạt giống ngẫu nhiên nếu nó được đặt là -1.
Một lý do phổ biến để cố định hạt giống là để cố định nội dung của một hình ảnh và chỉnh sửa gợi ý. Giả sử tôi đã tạo ra một hình ảnh sử dụng gợi ý sau đây.
Ảnh của phụ nữ, váy, nền đêm thành phố
Tôi thích hình ảnh này và muốn chỉnh sửa gợi ý để thêm vòng đeo tay vào cổ tay cô ấy. Bạn sẽ đặt hạt giống thành giá trị của hình ảnh này. Giá trị hạt giống nằm trong thông điệp log dưới khung bức ảnh.
Giá trị hạt giống của một hình ảnh (được đánh dấu) nằm trong thông điệp log. Sao chép giá trị này vào hộp nhập giá trị hạt giống. Hoặc sử dụng nút tái chế để sao chép giá trị hạt giống.
Bây giờ thêm từ “vòng đeo tay” vào gợi ý
Ảnh của phụ nữ, váy, nền đêm thành phố, vòng đeo tay
Bạn sẽ nhận được một bức ảnh tương tự với vòng đeo tay trên cổ tay cô ấy.
Cảnh quan có thể hoàn toàn thay đổi vì một số từ khóa đủ mạnh để thay đổi cấu trúc. Bạn có thể thử nghiệm với việc đổi một từ khóa ở bước lấy mẫu sau.
Sử dụng biểu tượng xúc xắc để đặt hạt giống trở lại thành -1 (ngẫu nhiên).
Các tùy chọn hạt giống phụ ( Extra seed)
Kiểm tra tùy chọn Extra sẽ hiển thị menu Hạt giống phụ.
Kiểm tra tùy chọn Extra sẽ hiển thị menu Hạt giống phụ.
Hạt giống biến đổi: Một giá trị hạt giống bổ sung mà bạn muốn sử dụng.
Độ mạnh biến đổi: Mức độ nội suy giữa hạt giống và hạt giống biến đổi. Đặt nó thành 0 sử dụng giá trị hạt giống. Đặt nó thành 1 sử dụng giá trị hạt giống biến đổi.
Dưới đây là một ví dụ. Giả sử bạn đã tạo ra 2 hình ảnh từ cùng một gợi ý và cài đặt. Chúng có giá trị hạt giống của riêng mình, 1 và 3.
Hình ảnh đầu tiên: Giá trị hạt giống là 1.
Hình ảnh thứ hai: Giá trị hạt giống là 3.
Bạn muốn tạo ra một hình ảnh kết hợp của hai hình ảnh này. Bạn sẽ đặt hạt giống thành 1, hạt giống biến đổi thành 3 và điều chỉnh độ mạnh biến đổi từ 0 đến 1. Trong thí nghiệm dưới đây, độ mạnh biến đổi cho phép bạn tạo ra sự chuyển đổi nội dung hình ảnh giữa hai hạt giống. Dáng đi của cô gái và nền thay đổi dần khi độ mạnh biến đổi tăng từ 0 đến 1.
Chuyển đổi hạt giống từ chiều rộng/chiều cao: Hình ảnh sẽ thay đổi đáng kể nếu bạn thay đổi kích thước hình ảnh, ngay cả khi bạn sử dụng cùng một hạt giống. Cài đặt này cố gắng giữ nguyên nội dung của hình ảnh khi thay đổi kích thước hình ảnh. Bạn sẽ đặt kích thước mới vào thanh trượt chiều rộng và chiều cao, và chiều rộng và chiều cao của hình ảnh gốc ở đây. Đặt giá trị hạt giống gốc vào hộp nhập hạt giống. Đặt độ mạnh biến đổi thành 0 để bỏ qua hạt giống biến đổi.
Giả sử bạn thích hình ảnh này có kích thước 512×800 với giá trị hạt giống là 3.
Cấu trúc sẽ thay đổi đáng kể khi bạn thay đổi kích thước hình ảnh, ngay cả khi giữ nguyên giá trị hạt giống.
Bạn sẽ nhận được một cái gì đó gần hơn với cái gốc với kích thước mới khi bạn bật tùy chọn chuyển đổi hạt giống từ chiều cao và chiều rộng. Chúng không hoàn toàn giống nhau, nhưng chúng rất gần.
Khôi phục khuôn mặt
Chức năng Khôi phục khuôn mặt sẽ áp dụng một mô hình phụ được huấn luyện để khắc phục những khuyết điểm trên khuôn mặt. Dưới đây là những ví dụ trước và sau khi áp dụng.
Bạn phải xác định mô hình khôi phục khuôn mặt nào sẽ sử dụng trước khi sử dụng Khôi phục Khuôn mặt. Đầu tiên, hãy truy cập vào tab Cài đặt. Chuyển tới phần Khôi phục khuôn mặt. Chọn một mô hình khôi phục khuôn mặt. CodeFormer là một lựa chọn tốt. Đặt CodeFormer weight thành 0 để tối đa hiệu ứng. Nhớ nhấn nút Apply settings để lưu cài đặt!
Quay trở lại tab txt2img. Đánh dấu vào Khôi phục Khuôn mặt. Mô hình khôi phục khuôn mặt sẽ được áp dụng cho mỗi hình ảnh bạn tạo ra.
Bạn có thể muốn tắt chức năng khôi phục khuôn mặt nếu thấy việc áp dụng nó ảnh hưởng đến phong cách trên khuôn mặt. Hoặc, bạn có thể tăng tham số CodeFormer weight để giảm hiệu ứng.
Tiling
Sử dụng tùy chọn Tiling để tạo ra một hình ảnh chu kì có thể lát được. Dưới đây là một ví dụ.
Họa tiết hoa
Hình ảnh này có thể được lát giống như giấy dán tường.
Kho báu thực sự của việc sử dụng Stable Diffusion là cho phép bạn tạo ra gạch lát từ bất kỳ hình ảnh nào, không chỉ là họa tiết truyền thống. Tất cả những gì bạn cần là nghĩ ra một gợi ý văn bản.
Hires. fix.
Tùy chọn khắc phục độ phân giải cao áp dụng một upsacler để mở rộng hình ảnh của bạn. Bạn cần điều này vì độ phân giải tự nhiên của Stable Diffusion là 512 pixel (hoặc 768 pixel đối với một số mô hình v2). Hình ảnh quá nhỏ cho nhiều mục đích sử dụng.
Tại sao bạn không chỉ đặt chiều rộng và chiều cao lớn hơn, như 1024 pixel? Đi chệch khỏi độ phân giải tự nhiên sẽ ảnh hưởng đến cấu trúc và tạo ra các vấn đề như tạo hình ảnh với hai cái đầu.
Vì vậy, bạn phải trước hết tạo một hình ảnh nhỏ với 512 pixel về mỗi bên. Sau đó mở rộng nó thành một cái lớn hơn.
Đánh dấu vào Hires. fix để kích hoạt khắc phục độ phân giải cao.
Upscaler: Chọn một upscaler để sử dụng. Xem bài viết này để hiểu rõ hơn.
Các tùy chọn Latent upscaler khác nhau mở rộng hình ảnh trong không gian tiềm ẩn. Điều này được thực hiện sau các bước lấy mẫu của quá trình tạo hình ảnh từ văn bản đến hình ảnh. Quy trình này tương tự như hình ảnh sang hình ảnh.
Các tùy chọn khác là sự kết hợp của các upscaler truyền thống và AI. Xem bài viết về AI upscaler để biết chi tiết.
Hires steps: Chỉ áp dụng cho latent upscalers. Đây là số lượng bước lấy mẫu sau khi mở rộng hình ảnh tiềm ẩn.
Denoising strength: Chỉ áp dụng cho latent upscalers. Tham số này có ý nghĩa giống như trong hình ảnh sang hình ảnh. Nó kiểm soát nhiễu được thêm vào hình ảnh tiềm ẩn trước khi thực hiện các bước lấy mẫu Hires.
Bây giờ hãy xem hiệu ứng của việc mở rộng hình ảnh dưới đây lên 2 lần, sử dụng latent như upscaler.
Hình ảnh gốc
Sức mạnh của latent upscaler phải cao hơn 0.5. Nếu không, bạn sẽ nhận được hình ảnh mờ.
Vì một lý do nào đó, nó phải lớn hơn 0.5 để có được một hình ảnh sắc nét. Đặt nó quá cao sẽ thay đổi hình ảnh rất nhiều.
Lợi ích của việc sử dụng một latent upscaler là không có hiện tượng mờ khi mở rộng mà các upscaler khác như ESRGAN có thể tạo ra. Bộ giải mã của Stable Diffusion tạo ra hình ảnh, đảm bảo phong cách là nhất quán. Nhược điểm là nó sẽ thay đổi hình ảnh đến một mức độ nào đó, tùy thuộc vào giá trị của sức mạnh loại bỏ nhiễu.
Yếu tố mở rộng kiểm soát số lần lớn hơn hình ảnh sẽ có. Ví dụ, đặt nó thành 2 sẽ mở rộng một hình ảnh 512-by-768 pixel lên thành 1024-by-1536 pixel.
Hoặc, bạn có thể chỉ định giá trị của “resize width to” và “resize height to” để đặt kích thước hình ảnh mới.
Bạn có thể tránh khỏi rắc rối khi đặt sức mạnh loại bỏ nhiễu đúng bằng cách sử dụng AI upscaler như ESRGAN. Nói chung, việc tách biệt txt2img và quá trình mở rộng thành hai bước mang lại cho bạn nhiều linh hoạt hơn. Tôi không sử dụng tùy chọn khắc phục độ phân giải cao nhưng sử dụng trang Extra để thực hiện mở rộng thay thế.
Các nút dưới nút “Tạo”
Từ trái sang phải:
1. Đọc các tham số cuối cùng
Nút này sẽ điền vào tất cả các trường để bạn tạo cùng một hình ảnh khi nhấn nút “Tạo”. Lưu ý rằng giá trị seed và model override sẽ được thiết lập. Nếu đây không phải là điều bạn muốn, hãy đặt giá trị seed là -1 và loại bỏ override.
2. Biểu tượng thùng rác
Xóa prompt hiện tại và prompt tiêu cực.
3. Biểu tượng model
Hiển thị các mạng lưới mở rộng. Nút này dùng để chèn hypernetworks, embeddings, và cụm từ LoRA vào trong prompt.
4. Tải kiểu
Bạn có thể chọn nhiều kiểu từ menu dropdown kiểu phía dưới. Sử dụng nút này để chèn chúng vào prompt và prompt tiêu cực.
5. Lưu kiểu
Lưu prompt và prompt tiêu cực. Bạn sẽ cần đặt tên cho kiểu.
Các hành động với tệp hình ảnh
Bạn sẽ tìm thấy một hàng các nút để thực hiện các chức năng khác nhau trên các hình ảnh đã tạo. Từ trái sang phải…
Mở thư mục
Mở thư mục xuất hình ảnh. Nó có thể không hoạt động đối với tất cả các hệ thống.
Lưu
Lưu một hình ảnh. Sau khi nhấp, nó sẽ hiển thị một liên kết tải xuống dưới các nút. Nó sẽ lưu tất cả các hình ảnh nếu bạn chọn lưới hình ảnh.
Zip
Nén hình ảnh(s) để tải xuống.
Gửi đến img2img
Gửi hình ảnh đã chọn đến tab img2img.
Gửi đến inpainting
Gửi hình ảnh đã chọn đến tab inpainting trong tab img2img.
Gửi đến extras
Gửi hình ảnh đã chọn đến tab Extras.
Tab img2img
Tab img2img là nơi bạn sử dụng các chức năng chuyển đổi hình ảnh sang hình ảnh. Hầu hết người dùng sẽ truy cập tab này để tiến hành inpainting và chuyển hình ảnh này thành hình ảnh khác.
Từ hình ảnh sang hình ảnh
Một trường hợp sử dụng hàng ngày trong tab img2img là thực hiện… chuyển đổi từ hình ảnh này sang hình ảnh khác. Bạn có thể tạo ra những hình ảnh mới tuân theo cấu trúc của hình ảnh gốc.
Bước 1: Kéo và thả hình ảnh gốc vào tab img2img trên trang img2img.
Bước 2: Điều chỉnh chiều rộng hoặc chiều cao, để hình ảnh mới có cùng tỷ lệ khung hình. Bạn nên thấy một khung hình chữ nhật trên bức vẽ hình ảnh chỉ ra tỷ lệ khung hình. Trong hình ảnh phong cảnh ở trên, tôi đặt chiều rộng là 760 trong khi giữ chiều cao ở 512.
Bước 3: Thiết lập phương pháp lấy mẫu và các bước lấy mẫu. Tôi thường sử dụng DPM++ 2M Karass với 25 bước.
Bước 4: Đặt kích thước lô là 4.
Bước 5: Viết một prompt cho hình ảnh mới. Tôi sẽ sử dụng prompt sau đây:
Một hình ảnh minh họa rõ nét về một con rồng
Bước 6: Nhấn nút Tạo để tạo hình ảnh. Điều chỉnh độ mạnh của việc giảm nhiễu và lặp lại. Dưới đây là các hình ảnh với độ mạnh giảm nhiễu khác nhau.
Nhiều cài đặt được chia sẻ với txt2img. Tôi chỉ giải thích những cái mới.
Chế độ thay đổi kích thước: Nếu tỷ lệ khung hình của hình ảnh mới không giống như hình ảnh đầu vào, có một số cách để điều chỉnh sự khác biệt.
-
- “Chỉ thay đổi kích thước” co giãn hình ảnh đầu vào để phù hợp với kích thước hình ảnh mới. Nó sẽ kéo dài hoặc ép hình ảnh.
-
- “Cắt và thay đổi kích thước” phù hợp với bức vẽ hình ảnh mới vào hình ảnh đầu vào. Các phần không vừa sẽ bị loại bỏ. Tỷ lệ khung hình của hình ảnh gốc sẽ được giữ nguyên.
-
- “Thay đổi kích thước và điền” phù hợp với hình ảnh đầu vào vào bức vẽ hình ảnh mới. Phần thêm vào sẽ được điền bằng màu trung bình của hình ảnh đầu vào. Tỷ lệ khung hình sẽ được giữ nguyên.
-
- “Chỉ thay đổi kích thước (phóng to ẩn)” tương tự như “Chỉ thay đổi kích thước”, nhưng việc co giãn được thực hiện trong không gian ẩn. Sử dụng độ mạnh giảm nhiễu lớn hơn 0.5 để tránh hình ảnh mờ.
Độ mạnh giảm nhiễu: Kiểm soát mức độ thay đổi của hình ảnh. Không có gì thay đổi nếu nó được đặt thành 0. Hình ảnh mới không tuân theo hình ảnh đầu vào nếu nó được đặt thành 1. 0.75 là một điểm khởi đầu tốt với một lượng thay đổi hợp lý.
Bạn có thể sử dụng kịch bản tích hợp “poor man’s outpainting” để mở rộng hình ảnh. Xem hướng dẫn về outpainting.
Phác thảo (SKETCH)
Thay vì tải lên một hình ảnh, bạn có thể phác thảo hình ảnh ban đầu. Bạn nên kích hoạt công cụ phác thảo màu sắc bằng cách sử dụng đối số sau khi khởi động giao diện webui. (Nó đã được kích hoạt trong sổ ghi chú Google Colab trong Hướng dẫn Bắt đầu nhanh)
–gradio-img2img-tool color-sketch
Bước 1: Điều hướng đến tab phác thảo trên trang img2img.
Bước 2: Tải lên một hình ảnh nền lên bức vẽ. Bạn có thể sử dụng các nền màu đen hoặc trắng dưới đây.
Bước 3: Phác thảo sáng tạo của bạn. Với công cụ phác thảo màu sắc được kích hoạt, bạn nên có thể phác thảo bằng màu.
Bước 4: Viết một lời nhắc.
ngôi nhà đoạt giải thưởng
Bước 5: Nhấn Generate.
Bạn không cần phải vẽ một cái gì đó từ đầu. Bạn có thể sử dụng chức năng phác thảo để chỉnh sửa một hình ảnh. Dưới đây là một ví dụ về việc loại bỏ các mái tóc dài bằng cách vẽ chúng lên và thực hiện một vòng chuyển đổi từ hình ảnh sang hình ảnh. Sử dụng công cụ nhặt màu để chọn một màu từ các khu vực xung quanh.
Điền vào (INPAINTING)
Có thể chức năng được sử dụng nhiều nhất trong tab img2img là điền vào. Bạn đã tạo ra một hình ảnh bạn thích trong tab txt2img. Nhưng có một lỗi nhỏ, và bạn muốn tạo lại nó.
Giả sử bạn đã tạo ra hình ảnh sau trong tab txt2img. Bạn muốn tạo lại khuôn mặt vì nó bị xáo trộn. Bạn có thể sử dụng nút Send to inpaint để gửi một hình ảnh từ tab txt2img đến tab img2img.
Bạn sẽ thấy hình ảnh của mình khi chuyển sang tab Inpaint của trang img2img. Sử dụng công cụ cọ để tạo một mặt nạ trên khu vực cần tái tạo.
Các tham số như kích thước hình ảnh đã được đặt chính xác vì bạn đã sử dụng chức năng “Gửi đến inpaint”. Bạn thường sẽ điều chỉnh
-
- (denoising strength) Độ mạnh của việc loại bỏ nhiễu: Bắt đầu từ 0,75. Giảm xuống để thay đổi nhiều hơn. Tăng lên để thay đổi ít hơn.
-
- Mask content: original
-
- Mask Mode: Inpaint masked
-
- Batch size: 4
Nhấn nút Generate. Chọn cái bạn thích.
Phác thảo Inpaint
Phác thảo Inpaint kết hợp việc điền vào và phác thảo. Nó cho phép bạn vẽ như trong tab phác thảo nhưng chỉ tái tạo khu vực đã vẽ. Khu vực không vẽ không thay đổi. Dưới đây là một ví dụ.
Tải lên Inpaint
Tải lên Inpaint cho phép bạn tải lên một tệp mặt nạ riêng biệt thay vì vẽ nó.
Batch
Batch cho phép bạn điền vào hoặc thực hiện chức năng từ hình ảnh sang hình ảnh cho nhiều hình ảnh.
Lấy lời nhắc từ một hình ảnh
Nút Interogate CLIP của AUTOMATIC1111 lấy hình ảnh bạn tải lên tab img2img và đoán lời nhắc. Nó hữu ích khi bạn muốn làm việc với những hình ảnh mà bạn không biết lời nhắc. Để lấy lời nhắc đoán từ một hình ảnh:
Bước 1: Điều hướng đến trang img2img.
Bước 2: Tải lên một hình ảnh vào tab img2img.
Bước 3: Nhấn nút Interrogate CLIP.
Một lời nhắc sẽ xuất hiện trong hộp văn bản lời nhắc.
Nút Interrogate DeepBooru cung cấp một chức năng tương tự, trừ khi nó được thiết kế cho hình ảnh anime.
Nâng cấp ( UPSCALING)
Bạn sẽ đi đến trang Extra để phóng to hình ảnh. Tại sao bạn cần AUTOMATIC1111 để phóng to hình ảnh? Bạn có thể sử dụng một AI upscaler thường không có sẵn trên máy tính của bạn. Thay vì phải trả phí cho dịch vụ nâng cấp AI, bạn có thể làm miễn phí ở đây.
Sử dụng cơ bản Theo các bước sau để nâng cấp hình ảnh.
Bước 1: Điều hướng đến trang Extra.
Bước 2: Tải hình ảnh lên bảng vẽ hình ảnh.
Bước 3: Đặt Tỷ lệ theo yếu tố dưới nhãn thay đổi kích thước. Hình ảnh mới sẽ lớn gấp bao nhiêu lần trên mỗi bề mặt. Ví dụ, hình ảnh 200×400 sẽ trở thành 800×1600 với tỷ lệ 4.
Bước 4: Chọn Upscaler 1. Một AI upscaler tổng quát phổ biến là R-ESRGAN 4x+.
Bước 5: Nhấn Generate. Bạn nên nhận được hình ảnh mới ở bên phải.
Hãy đảm bảo kiểm tra hình ảnh mới ở độ phân giải đầy đủ. Ví dụ, bạn có thể mở hình ảnh mới trong một tab mới và tắt chế độ tự động vừa. Upscalers có thể tạo ra những sai lệch mà bạn có thể bỏ qua nếu nó bị thu nhỏ.
Ngay cả khi bạn không cần phóng to 4 lần, ví dụ, bạn vẫn có thể phóng to nó lên 4 lần và thay đổi kích thước sau đó. Điều này có thể giúp cải thiện độ sắc nét.
Scale to: Thay vì đặt một yếu tố tỷ lệ, bạn có thể chỉ định kích thước để thay đổi kích thước trong tab “scale to”.
Upscalers
AUTOMATIC1111 cung cấp một số upscalers mặc định.
Upscalers: Menu dropdown Upscaler liệt kê một số tùy chọn được tích hợp sẵn. Bạn cũng có thể cài đặt riêng. Xem bài viết về AI upscaler để biết hướng dẫn.
Lanczos và Nearest là upscalers kiểu cũ. Chúng không mạnh mẽ nhưng hành vi là dự đoán được.
ESRGAN, R-ESRGAN, ScuNet, và SwinIR là AI upscalers. Chúng có thể tạo nội dung để tăng độ phân giải. Một số được huấn luyện cho một phong cách hạt. Cách tốt nhất để tìm hiểu nếu chúng hoạt động cho hình ảnh của bạn là thử nghiệm chúng. Tôi có thể nghe giống như một đĩa hỏng bây giờ, nhưng hãy đảm bảo nhìn vào hình ảnh một cách kỹ lưỡng ở độ phân giải đầy đủ.
Upscaler 2: Đôi khi, bạn muốn kết hợp hiệu ứng của hai upscalers. Tùy chọn này cho phép bạn kết hợp kết quả của hai upscalers. Mức độ pha trộn được kiểm soát bởi thanh trượt Visibility của Upscaler 2. Một giá trị cao hơn sẽ hiển thị nhiều hơn upscaler 2.
Không tìm thấy upscaler bạn thích? Bạn có thể cài đặt thêm upscalers từ thư viện mô hình. Xem hướng dẫn cài đặt.
Khôi phục khuôn mặt ( Face Restoration)
Bạn có thể tùy chọn khôi phục khuôn mặt trong quá trình nâng cấp. Hai tùy chọn có sẵn: (1) GFPGAN, và (2) CodeFormer. Đặt độ nhìn thấy của một trong hai để áp dụng sửa chữa. Như một quy tắc ngón tay cái, bạn nên đặt giá trị thấp nhất bạn có thể thoát khỏi để phong cách của hình ảnh không bị ảnh hưởng.
Thông tin PNG
Nhiều GUI ổn định của Diffusion, bao gồm cả AUTOMATIC1111, ghi các tham số tạo ra vào tệp hình ảnh png. Đây là một chức năng thuận tiện để lấy lại các tham số tạo ra một cách nhanh chóng.
Nếu hình ảnh được tạo ra bởi AUTOMATIC1111, bạn có thể sử dụng các nút Gửi đến để nhanh chóng sao chép các tham số đến các trang khác nhau.
Nó hữu ích khi bạn tìm thấy một hình ảnh trên web và muốn xem xét nếu lời nhắc còn trong tệp hay không.
Chức năng này có thể hữu ích ngay cả cho một hình ảnh không được tạo ra. Bạn có thể nhanh chóng gửi hình ảnh và kíích thước của nó đến một trang.
Checkpoint merger
Checkpoint merger của AUTOMATIC1111 dùng để kết hợp hai hoặc nhiều mô hình. Bạn có thể kết hợp tối đa 3 mô hình để tạo ra một mô hình mới. Thông thường, nó dùng để pha trộn các phong cách của hai hoặc nhiều mô hình. Tuy nhiên, kết quả kết hợp không được đảm bảo. Đôi khi nó có thể tạo ra các hiện tượng không mong muốn.
Train
Trang Train dùng để huấn luyện mô hình. Hiện tại, nó hỗ trợ đảo ngược văn bản (nhúng) và hypernetwork. Tôi không có nhiều may mắn sử dụng AUTOMATIC1111 để huấn luyện, vì vậy tôi sẽ không đề cập đến phần này.
Settings
Có một danh sách dài các thiết lập trên trang thiết lập của AUTOMATIC1111. Tôi sẽ không thể đi qua chúng một cách cá nhân trong bài viết này. Dưới đây là một số bạn muốn kiểm tra.
Hãy đảm bảo nhấp vào Apply settings sau khi thay đổi bất kỳ thiết lập nào.
Face Restoration Hãy chắc chắn chọn phương pháp khôi phục khuôn mặt mặc định. CodeFormer là một phương pháp tốt.
Stable Diffusion Tải xuống và chọn một VAE được phát hành bởi Stability để cải thiện mắt và khuôn mặt trong mô hình v1.
Quick Settings
Quick Settings
Bạn có thể kích hoạt các phím tắt tùy chỉnh ở đầu.
Trên trang Settings, nhấp vào Show All Pages trên bảng điều khiển bên trái.
Tìm từ Quicksettings sẽ đưa bạn đến trường Quick Setting.
Có rất nhiều thiết lập có sẵn để lựa chọn. Ví dụ, sau đây cho phép kích hoạt phím tắt cho Clip skip và các thư mục đầu ra hình ảnh tùy chỉnh.
Sau khi lưu các thiết lập và tải lại giao diện Web-UI, bạn sẽ thấy các phím tắt mới ở đầu trang.
Các thư mục đầu ra tùy chỉnh có ích cho việc tổ chức các hình ảnh.
Nguồn từ: https://medium.com/