fbpx

Tháng tám 3

Thực hành với Trình tạo video Alpha Gen-3 của RunwayML

0  comments

Một chú mèo con đáng yêu đang chơi đùa ngoài trời, tắm mình trong ánh sáng lan tỏa của cảnh hoàng hôn tuyệt đẹp.

Đột nhiên, đầu của con mèo bật ra. Nửa trước và sau của nó đi theo các hướng khác nhau. Video kết thúc.

Đó chỉ là một ví dụ về những kết quả kỳ lạ mà tôi đã thấy từ lần thử nghiệm đầu tiên về Gen-3 Alpha mới của RunwayML. Được coi là trình tạo video AI tiên tiến nhất hiện có trên thị trường, Gen-3 Alpha vừa ra mắt bản Beta riêng tư vào tuần trước.

Điều đó khiến nó trở thành một trong hai trình tạo video AI mà bạn thực sự có thể sử dụng (Sora của OpenAI, công cụ khiến mọi người choáng ngợp với những bộ phim điện ảnh và những cảnh quay tuyệt đẹp do AI tạo ra vẫn chưa có sẵn cho bất kỳ ai ngoài những người như Tyler Perry).

Mô hình mới của RunwayML hoạt động như thế nào? Con mèo con bị chia đôi của tôi có phải là một hiện tượng quang sai hay là một kết quả bình thường không? Tôi đã thử nghiệm mô hình mới để xem nó hoạt động như thế nào – và liệu nó có thể là kẻ giết Sora hay không.

Mô hình của thế giới
Gen-3 Alpha là mẫu mới nhất trong dòng máy tạo video AI của RunwayML. RunwayML đã gây chú ý với mẫu Gen-2 trước đó, đây là mẫu máy tạo video khả thi từ xa đầu tiên được cung cấp cho công chúng.

Gen-2 rất tuyệt, nhưng rất thô sơ. Đầu ra của nó trông giống video một cách mơ hồ. Nhưng những sáng tạo của Gen-2 thường thiếu chi tiết và chân thực. Động vật có nhiều mũi. Hình nền thường được hiển thị ở tiêu điểm nhẹ, có lẽ để che giấu sự thật rằng Gen-2 không biết nên đặt gì ở đó.

RunwayML cho biết Gen-3 là “một cải tiến lớn về độ trung thực, tính nhất quán và chuyển động so với Gen-2, đồng thời là một bước hướng tới việc xây dựng các Mô hình Thế giới Chung”.

Đó là một tuyên bố đầy tham vọng. Mô hình Thế giới Chung về cơ bản là các mô hình được vi tính hóa về vật lý, ánh sáng, đồ vật và các yếu tố khác của thế giới thực.

Sora của OpenAI được cho là dựa trên Mô hình Thế giới Chung được xây dựng bằng cách xem hàng tỷ giờ video, bao gồm hầu hết YouTube.

Nếu Gen-3 Alpha sử dụng một mô hình tương tự – và đạt được kết quả tốt – thì đó sẽ là sự xác thực mạnh mẽ cho ý tưởng rằng những loại mô hình này thực sự hữu ích để tạo video điện ảnh do AI tạo ra.

Vistas tuyệt đẹp, gà ngon
Tôi quyết định đưa Gen-3 Alpha vượt qua các bước phát triển của nó. Tôi đã đăng ký một tài khoản trả phí (chi phí là 15 USD mỗi tháng) và bắt đầu thử nghiệm.

Để bắt đầu, tôi quyết định cung cấp cho Gen-3 Alpha một số video gợi ý khá dễ hiểu. Không giống như Gen-2 và các hệ thống cạnh tranh bao gồm trình tạo AI của Luma, Gen-3 Alpha không cho phép bạn tải hình ảnh lên để nhắc hệ thống – nó chỉ cho phép nhắc nhở dựa trên văn bản.

Để có kết quả tốt nhất, RunwayML khuyên bạn nên viết lời nhắc theo cách siêu cụ thể.

Về cơ bản, bạn cần mô tả cảnh quay như thể bạn là một nhà quay phim, tập trung vào các thuật ngữ như “FPV”, “Quay phim macro”, “SnorriCam” hoặc các kiểu chiếu sáng như “Ánh sáng Venice” hoặc “Ánh sáng khuếch tán” để đạt được cảnh quay mà bạn muốn. muốn.

Tôi bắt đầu bằng một bức ảnh đơn giản chụp một sân gôn dọc Thái Bình Dương từ trên không. Đây là lời nhắc chính xác của tôi: “Góc rộng; Máy ảnh lia ngang qua một lỗ gôn trên sân gôn nhìn ra Thái Bình Dương vào một ngày nắng.”

Càng xa càng tốt! Ảnh trông cực kỳ chân thực và nắm bắt được tính thẩm mỹ mà tôi mong muốn. Trong đầu tôi đang nghĩ đến Half Moon Bay Golf Links, một sân gôn có thật ở Thái Bình Dương mà tôi đã chụp ảnh nhiều lần.

Đây là địa điểm trong thế giới thực:

Sự rung cảm trong video của Gen-3 Alpha được thể hiện rõ ràng. Chúng tôi có đường đi được cắt tỉa cẩn thận, những vách đá và thậm chí cả những con sóng xô vào phía sau.

Tiếp theo, tôi thử một kiểu quay phổ biến khác – video đồ ăn. Trong trường hợp này, tôi yêu cầu: “Cận cảnh; đang lướt qua đĩa gà rán trên bàn nhà hàng”

Đối với tôi nó trông giống gà picatta hơn là gà rán. Tuy nhiên, chi tiết ở đây rất ấn tượng – Gen-3 thậm chí còn mơ thấy một cốc bia và một đĩa cải Brussels làm nền để bổ sung cho món gà của chúng tôi.

Tôi cũng thích việc video này ghi lại một cách hoàn hảo hoạt động do dự, rung lắc của máy quay trong một video thực phẩm thực sự. Cảm giác này giống như thứ gì đó mà một người có thể lấy trong nhà hàng – nếu bạn tìm thấy nó trên mạng xã hội, bạn chắc chắn sẽ nghĩ nó là thật.

Cuối cùng, tôi yêu cầu Gen-3 Alpha tạo ra thứ gì đó kỳ lạ hơn một chút – một lời nhắc mà đứa con bảy tuổi của tôi mơ thấy. Tôi thấy rằng trẻ em nghĩ ra những ý tưởng hay nhất cho ảnh và video do AI tạo ra. Con trai tôi muốn nhìn thấy “một con lừa cưỡi trên một chuyến tàu”.

Đây là kết quả:

Đừng Bắt Tôi Di Chuyển
Cho đến nay, kết quả của tôi trông rất tuyệt vời. Nhưng để kiểm tra toàn bộ hệ thống, tôi quyết định đưa ra một số lời nhắc mang tính thử thách hơn.

Cụ thể, tôi bắt đầu đưa ra những lời nhắc yêu cầu nhiều hơn một cảnh quay lia đơn giản qua một vật thể hoặc một cảnh đơn giản. Thay vào đó, tôi yêu cầu động lực học – các vật thể chuyển động và tương tác.

Và đó là nơi mọi thứ sụp đổ.

Đầu tiên, tôi yêu cầu “Video trên điện thoại di động; Chú chó Bichon Frise nhảy từ ghế dài lên tủ sách rất cao”

Điều đó rất kỳ lạ! Đầu tiên, chúng ta có được thứ trông giống Yorkie – không phải Bichon. Vì lý do nào đó, video bị tua ngược.

Và khi con chó nhảy lên, bằng cách nào đó nó lại mọc ra một cái đầu khác, sau đó biến mất (trong chuyển động chậm!) khi đáp xuống giá sách.

Tiếp theo, tôi yêu cầu một phụ nữ Millennial nấu ăn. Kết quả:

Một lần nữa, việc yêu cầu các đối tượng tương tác với nhau trong khung cảnh dường như đã phá vỡ hệ thống.

Dụng cụ nấu nướng liên tục biến hình, từ một chiếc thìa có rãnh cho đến một loại thìa kim loại nào đó. Và khi tay người đó khuấy món ăn, một cái lỗ cháy dường như xuất hiện dưới đáy chảo.

Và tất nhiên là có Mèo con hai nhánh!

Đối với cái này, tôi thậm chí còn không yêu cầu động lực – tôi chỉ muốn một chú mèo con dễ thương. Nhưng khi cố gắng bắt chú mèo con chơi đùa, Gen-3 Alpha đã vô tình tạo ra một đoạn clip vô cùng đáng lo ngại (nhưng bằng cách nào đó lại hấp dẫn một cách kỳ lạ).

Chuyện gì đang xảy ra vậy?
Tại sao Gen-3 Alpha lại thất bại khi cố gắng làm cho các vật thể tương tác?

Nhìn chung, các trình tạo video AI gặp khó khăn với động lực. Như OpenAI tiết lộ, ngay cả Sora hàng đầu của nó “có thể gặp khó khăn trong việc mô phỏng tính chất vật lý của một cảnh phức tạp và có thể không hiểu các trường hợp nhân quả cụ thể (ví dụ: một chiếc bánh quy có thể không hiển thị dấu vết sau khi nhân vật cắn nó)”.

Các video ví dụ của Sora bao gồm các trường hợp một đàn chó con chơi đùa và những chú chó con mới đột nhiên xuất hiện ngẫu nhiên. Nó cũng bao gồm một đoạn video quay cảnh một người bà thổi nến trên một chiếc bánh – ngoại trừ việc bà thổi (và các thành viên trong gia đình bà vỗ tay) nhưng nến vẫn không tắt.

Những lỗi này rất giống với những lỗi tôi thấy trong quá trình thử nghiệm Gen-3 Alpha.

Điều thú vị là Dream Machine của Luma Lab dường như không gặp phải những vấn đề tương tự. Trong thử nghiệm của tôi, nó đã mắc những lỗi khác, nhưng dường như nó không gặp khó khăn nhiều với việc mô phỏng động lực học.

Tại sao vậy? Những cuộc đấu tranh này có thể đặc trưng cho cách tiếp cận Mô hình Thế giới Chung để tạo video AI.

Các mô hình như Sora và Gen-3 Alpha cố gắng mô phỏng tính chất vật lý của các cảnh mà họ đang tạo. Đây là một cách tiếp cận mạnh mẽ vì nó cho phép các mô hình tạo ra các video cực kỳ chân thực về hầu hết mọi thứ. Nhưng điều đó cũng có nghĩa là – nếu vật lý không thành công – các video trông sắc nét và rõ ràng nhưng hoàn toàn lố bịch.

Luma Lab’s không nói nhiều về cách tiếp cận mô hình của họ. Nhưng từ thử nghiệm của tôi, có vẻ như trình tạo video của họ hoạt động bằng cách tạo hình ảnh AI và sau đó phát triển nó thành video.

Điều đó rất khác với việc cố gắng mô phỏng toàn bộ thế giới trong bộ não silicon của một cỗ máy. Vật lý và tương tác có thể bị hạn chế bởi các chi tiết cụ thể của hình ảnh cơ sở.

Điều đó làm cho các hệ thống như Dream Machine có khả năng kém mạnh mẽ hơn và cũng ít có khả năng tạo video dài hơn. Nhưng nó cũng khiến họ ít mắc phải những lỗi lạ mà Runway Gen-3 Alpha thường mắc phải.

Giống như hầu hết mọi thứ trong Generative AI, vấn đề có thể liên quan đến dữ liệu đào tạo. Runway Gen-3 Alpha và Sora đã tạo ra Mô hình Thế giới Chung của họ bằng cách xem nhiều video. Điều đó rất hiệu quả khi họ mô phỏng những thứ thường xuất hiện trong video trên web — lướt qua một số món ăn hoặc hiển thị một phong cảnh đẹp.

Nhưng khi họ được yêu cầu tạo ra thứ gì đó hoàn toàn mới – chẳng hạn như chú Bichon nhảy lên giá sách – thì dữ liệu huấn luyện lại không có ở đó. Mô hình thế giới chung của họ không có khả năng hiển thị phần cụ thể đó của thế giới thực. Và thế là họ thất bại.

Tương lai
Theo thời gian, khoảng cách sẽ đóng lại. Khi các hệ thống như Gen-3 Alpha sử dụng nhiều video đào tạo hơn và hiểu biết của họ về vật lý trong thế giới thực được cải thiện, Mô hình Thế giới Chung của họ sẽ phục vụ họ rất tốt.

Một lần nữa, Mô hình Thế giới Chung cho phép mô phỏng những cảnh phức tạp hơn nhiều. Chúng cũng cho phép tạo ra những đoạn video dài hơn (Sora khoe rằng đã tạo ra những đoạn video dài tới một phút). Mô hình thế giới chung về cơ bản là tạo ra một bản sao ảo của thực tế mỗi khi nó xem một video và do đó nó có thể dành nhiều thời gian để mô phỏng mọi thứ trong thế giới ảo đó tùy thích.

Gen-3 Alpha, bất chấp những sai sót, cũng là một bước tiến lớn đối với toàn bộ không gian video AI. Thành công của RunwayML (ngoài những con chó hai đầu) khi tung ra Mô hình Thế giới Chung cho thấy rằng OpenAI sẽ có sự cạnh tranh lành mạnh trong không gian nếu cuối cùng nó cũng ra mắt Sora. Khi các mô hình của RunwayML được cải thiện, chúng có thể trở thành kẻ giết Sora.

Những người mẫu như Gen-3 Alpha cực kỳ giỏi ở một số việc nhất định (cụ thể là tạo video có độ động hạn chế và hiển thị những cảnh thường được mô tả trong video trực tuyến) và thất bại một cách ngoạn mục ở những việc khác.

Trong tương lai, General World Models có thể tạo các video dài như phim, mô phỏng thế giới ảo phức tạp với nhiều bối cảnh, nhân vật và cảnh.

Tuy nhiên, hiện tại, đó là Bifurcated Kitties!

Nguồn từ: https://medium.com/


Tags


Có thể bạn sẽ quan tâm

>