Làm video bằng AI Runway Gen-3: Chưa hoàn hảo, nhưng một 9 một 10 với Sora

Trước khi nói tới trải nghiệm sử dụng hay chính bản thân phiên bản thử nghiệm Alpha của mô hình tạo sinh video Gen-3 từ RunwayML, mời anh em xem trước đoạn clip ngắn 30 giây, chỉ sử dụng nội dung tạo ra bằng mô hình AI này. Sau khi tạo xong mấy đoạn clip ngắn chỉ vỏn vẹn 5 giây theo ý tưởng gõ vào ô prompt, mình tải về và ném chúng vào Capcut cho nhanh, chèn thêm nhạc và ghép cho khớp với nhạc, tạo ra một đoạn clip dài gần 30 giây.

Để nhắc lại thì, ngoài âm nhạc ra, không có cái gì trong clip dưới đây là thật, hoặc do con người quay hết. Tất cả đều tạo ra từ mô hình AI:
Hiện giờ thì Gen-3 Alpha đã mở cho người dùng đăng ký tài khoản và đóng tiền dịch vụ hàng tháng trên trang chủ của RunwayML, https://app.runwayml.com/, phí hàng tháng để sử dụng tất cả những dịch vụ tạo sinh nội dung từ tạo hình bằng prompt văn bản, biến hình ảnh thành video clip, hay tạo những đoạn clip ngắn từ câu lệnh văn bản, chính là chủ đề của bài viết này.Và với tính năng tạo sinh video chỉ bằng những câu lệnh văn bản theo trí tưởng tượng của người dùng, rồi AI lo nốt phần còn lại, thì trên trang web của RunwayML, có hai lựa chọn mô hình AI, Gen-2 và Gen-3 phiên bản Alpha. Gen-3 Alpha thực tế cũng mới được cập nhật cho phép mọi tài khoản đăng ký trên web của RunwayML mở cửa thử nghiệm từ ngày hôm nay 03/07.

Sau khi bỏ 15 USD phí sử dụng dịch vụ hàng tháng, anh em sẽ được sử dụng ngay những tính năng AI tạo sinh mà RunwayML nghiên cứu phát triển. Háo hức, vì giờ chưa được tự tay thử Sora, nên ngay lập tức mình gõ một câu lệnh để tạo ra một đoạn clip dài 10 giây, mô tả “một cô gái châu Á bước đi trong cánh rừng mùa đông, với bóng đèn chiếu sáng lên làn da cô gái và mặt đất.” Kết quả như thế này:

Chỉ với đoạn clip dài 10 giây này, có thể nhận ra ngay lập tức vài thế mạnh của Gen-3 Alpha:

  • Cử động nhân vật tương đối tự nhiên.
  • Ánh sáng đánh lên bề mặt các vật thể và nhân vật nhìn tương đối chân thực, nhất là trên nền tuyết và da của nhân vật.
  • AI được học những nội dung video đa dạng nên để ý được khá nhiều chi tiết về khẩu độ của ống kính trong từng cảnh. Nếu cảnh quay rộng, khẩu độ ống kính sẽ hẹp hơn, nhìn khá giống f/5.6. Nhưng khi nhân vật đi vào trung tâm khung hình, cận cảnh hơn, khẩu độ ống kính sẽ rộng hẳn ra, những bóng đèn phía sau tạo thành bokeh thực sự rất đẹp và ấn tượng. Đây chính là khả năng nhận diện không gian và chiều sâu của mô hình AI, đương nhiên là dựa trên lượng dữ liệu khổng lồ đã được dùng để huấn luyện Gen-3 trước đó.

Thứ quan trọng nhất của một đoạn video trông giống như những gì con người tạo ra, là sự đồng nhất của chi tiết hình ảnh của từng vật thể và chủ thể trong đoạn video. Với bài thử nghiệm đầu tiên, rõ ràng không nhìn ra những chi tiết phi logic về mặt vật lý hay góc độ hình ảnh. Nhưng mức độ đồng nhất của gương mặt con người lại vẫn là vấn đề khi AI phải tính toán đổi góc nhìn của nhân vật trong đoạn clip ngắn. Anh em xem kỹ có thể để ý, lúc đầu nhìn cô gái trong clip giống người gốc Đông Á, nhưng càng về cuối thì lại càng giống như người gốc Tây Á, mũi cao và mắt rất sâu.

Vừa bớt háo hức một chút, thì phát hiện ra ở góc trên bên phải màn hình trang web, có một con số token để tạo sinh hình ảnh hoặc video thông qua dịch vụ này. Cứ mỗi giây làm clip bằng Gen-3 Alpha sẽ tốn 10 token, 10 giây là 100 token. Dùng hết thì coi như cả tháng nghỉ xài, hoặc nạp thêm 10 USD cho 1000 token tạo video và hình ảnh tiếp. Tính ra, cứ mỗi token, chi phí vận hành máy chủ đám mây sẽ là khoảng 1 USD cho mỗi clip dài 10 giây, và 0.5 USD cho mỗi clip dài 5 giây.

Thấy vậy nên mình cũng phải tính toán lại prompt, không chỉ đơn giản để tạo ra những đoạn clip thử nghiệm khả năng tạo sinh hình ảnh chân thực của Gen-3 Alpha, mà còn thử ứng dụng làm ra một đoạn video ngắn có nội dung chỉ nhờ AI, rồi sau đó edit chèn nhạc và cắt ghép sao cho khớp và ưng mắt. Vậy là ý tưởng làm ra một đoạn clip mô tả cảnh vật thiên nhiên và nhà cửa của một thị trấn ở vùng Địa Trung Hải được nghĩ ra. Với một clip 30 giây, ít nhất mình sẽ cần khoảng 5 đến 6 clip dài 5 giây, vì không phải clip nào cũng dùng được hết thời lượng, vì phải cắt cúp cho khớp với beat nhạc.

Những cảnh như toàn cảnh từ bờ biển ra đến đại dương, hay những cảnh bắt chước dùng drone quay toàn cảnh thị trấn từ trên cao thực sự không có điểm gì để chê. Cách mô phỏng chi tiết chuyển động tự nhiên như sóng biển, hay những shot quay tĩnh, không có chủ thể lớn chuyển động trong video được tạo ra tương đối tự nhiên. Anh em thử xem những đoạn đó xem có nhặt được sạn do AI tạo sinh lỗi hay không nhé.

Nhưng khi có động vật hay chủ thể chuyển động trong khung hình, ngay lập tức nhận ra được vấn đề của Gen-3, chí ít là ở phiên bản thử nghiệm Alpha hiện giờ. Chẳng hạn như mình làm thử một đoạn clip 5 giây với câu lệnh “bay drone theo một chú mòng biển bay từ bờ biển ra tới đại dương, mỏng biển đang bay ở trung tâm video,” thì dù Gen-3 hiểu rất tốt chiều sâu hình ảnh, hay gọi là depth, thì nhận thức không gian, hay perception của AI vẫn còn lỗi. Nó không làm ra được một chú mòng biển bay song song với mặt biển, mà trái lại, nhìn cử động và vị trí của chú chim tương đối vô lý:

Mình không sử dụng đoạn clip trên vào clip ở đầu bài. Có một đoạn clip nữa cũng làm bị hỏng, đó là câu lệnh “cô gái mặc váy trắng đi bộ từ bờ biển ra xa, rồi quay lại cười với camera.” Cử động di chuyển của chủ thể nhân vật rất không khớp và không đúng với chuyển động của camera mô phỏng trong khung hình. Rồi đến cả cử động của tay và chân cũng không chân thực:

Có một yếu tố nữa anh em có thể nhận ra ngay trong đoạn clip mà mình chỉnh sửa ở đầu bài viết. Nếu như Gen-3 Alpha rất giỏi trong việc nhận diện và mô phỏng chiều sâu của video, nhưng chi tiết và logic thì còn phải chỉnh sửa nhiều. Chẳng hạn như đoạn clip đi bộ trong thị trấn cổ kính với đèn điện giăng ở trên để chiếu sáng. Ánh sáng phủ xuống con đường lát đá không chê vào đâu được, nhưng những cái bóng đèn thì lơ lửng trong không trung, không có chỗ treo và không có dây điện ở đâu hết.

Hoàn toàn có thể nghĩ rằng, clip lỗi vì prompt không đủ chi tiết, nhưng mình thử làm lại, giữ tham số clip cũ để tạo ra đoạn clip có bố cục không gian y hệt, nhưng được chỉnh sửa lại chi tiết, kết quả không khác nhiều lắm.

Ở một khía cạnh có phần định tính thay vì định lượng, chúng ta hoàn toàn có thể so sánh một cách cảm tính những sản phẩm mà máy móc tạo ra, mô phỏng những gì con người bấm máy và sáng tạo nên, so sánh những đoạn clip ngắn mà Gen-3 Alpha tạo ra với Sora, công cụ với mục đích tương tự của OpenAI. Khi ra mắt hồi tháng 2 vừa rồi, Sora đã khiến cả thế giới mắt tròn mắt dẹt đúng nghĩa đen khi tạo ra được những đoạn clip vô cùng chân thực về mặt không gian và chi tiết, khác biệt hẳn so với những công cụ được giới thiệu trước đó.

Nhưng suy cho cùng, Sora mới chỉ được hé lộ thông qua những đoạn clip được OpenAI công bố, hay một số rất ít các nhà nghiên cứu AI được tiếp cận với máy chủ đám mây vận hành Sora làm thử. Còn Gen-3, thì mình được tận tay trải nghiệm, được tạo ra những đoạn video ngắn theo ý muốn của chính mình.

Có lúc Gen-3 không hề thua kém Sora đối với khả năng hiểu và mô phỏng không gian khung hình video, thứ vô cùng quan trọng đối với khả năng tạo sinh video của một mô hình ngôn ngữ đa chế độ. Nhưng cũng có lúc, chi tiết video mà Gen-3 tạo ra không thể so sánh được với những gì Sora thể hiện thông qua những đoạn video giới thiệu.

Nhưng cũng đã có những đoạn video mô tả Sora đôi khi cũng chẳng hiểu logic vật lý, và điều tương tự cũng hiện diện với Gen-3 phiên bản Alpha.

Còn giờ là những dự đoán về tiềm năng của AI tạo sinh này. Anh em có thể để ý, Gen-3 làm rất tốt và đẹp những đoạn clip ngắn dạng toàn cảnh, ít chủ thể hoặc nhiều chi tiết tĩnh, như thành phố hay rừng núi. Và với khả năng tạo ra những đoạn clip từ 5 đến 10 giây (có lẽ do giới hạn của máy chủ đám mây dùng vận hành dịch vụ thử nghiệm), nếu ở độ phân giải cao, dân làm video thực sự có thể được hưởng lợi từ công cụ này, chứ hoàn toàn không có chuyện AI sẽ thay thế con người.

Chẳng hạn như anh em làm nội dung có thể mượn AI tạo ra những hậu cảnh theo ý muốn, thích thêm ý tưởng ánh sáng, chi tiết hình ảnh hay thay đổi luôn bố cục chi tiết hình ảnh cho mới lạ, mang tính ma mị hay viễn tưởng đều khả thi. Và chi phí để làm được điều này chỉ là vài chục USD chứ không phải hàng chục, hàng trăm nghìn USD để xây dựng hậu cảnh như khi làm phim.

Rồi sau khi đã có những đoạn clip được AI tạo ra vừa chi tiết vừa phần nào chân thực này, dân làm video có thể ghép chủ thể quay font xanh rồi xử lý hậu kỳ, blend màu hay chỉnh LUT và thêm những chi tiết ánh sáng, màu sắc để video khớp nhất.

Nói một cách ngắn gọn, AI tạo sinh video giờ mới ở ngưỡng sơ khai, nhưng mình nhận ra một điều, tiềm năng thay đổi, giúp ngành sản xuất nội dung trở nên đa dạng, tiết kiệm thời gian, kích thích sáng tạo và tiết kiệm chi phí sản xuất là những lợi thế vô cùng rõ ràng. Nhưng những điều đó sẽ chỉ khả thi với điều kiện những giới hạn về khả năng tạo sinh video của những mô hình AI như Sora hay Gen-3 được cải thiện trong quá trình nghiên cứu phát triển mô hình sau này.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *