Text-to-video adalah hal besar berikutnya dalam AI. Kami melihat beberapa minggu yang lalu betapa mengagumkan (dan sedikit menyeramkan) iklan Pepperoni Hugspot yang dihasilkan oleh AI. Pizza Belakangan, orang yang mengembangkan video itu memberi tahu kami bahwa mereka menggunakan alat bernama Landasan Pacu Gen-2 (terbuka di tab baru) untuk melakukan gambar bergerak dalam proyek itu. Dengan mesin teks-ke-video, mereka dapat memberikan petunjuk sederhana seperti “pria/wanita/keluarga yang bahagia makan sepotong pizza di restoran, iklan TV”, dan mendapatkan konten foto-realistis.
Saya baru saja mendapatkan akses ke versi beta publik dari Runway Gen-2 dan saya sangat terkesan dengan keluarannya yang realistis. Meskipun videonya pendek masing-masing hanya empat detik, kualitas gambarnya sangat mengesankan dan semuanya bekerja dengan mengirimkan permintaan singkat ke bot di server Discord Runway ML.
Dengan mengirimkan beberapa kata teks ke bot @Gen-2, saya bisa mendapatkan klip pendek, foto-realistis (atau gaya kartun) dari segala sesuatu mulai dari keluarga yang menikmati makan malam sushi hingga robot dengan masalah minum yang serius. Outputnya seringkali tidak persis seperti yang saya minta, tetapi selalu menarik dan lebih unggul dari NeuralInternet Text-to-Video Playground yang saya tulis minggu lalu.
Meskipun siapa pun dapat bergabung dengan server, Anda hanya akan melihat daftar ruang obrolan Gen-2 setelah Anda mendapatkan akses ke program beta (yang banyak di daftar tunggu). Ada beberapa ruangan di mana Anda dapat mengobrol dan berbagi proyek dengan pengguna lain dan kemudian ada tiga ruangan bernama Hasilkan Satu, Hasilkan Dua, dan Hasilkan Tiga tempat Anda dapat mengirim permintaan langsung ke bot @Gen-2. Moderator mendorong Anda untuk terus mengeluarkan petunjuk ke utas yang sama agar tidak membuat kekacauan di setiap ruang obrolan.
Mendorong Landasan Pacu Gen-2
Prompt Runway Gen-2 mungkin terlihat seperti “@Gen-2 Robot humanoid mabuk yang melihat ke kamera dan memuntahkan sekrup kecil dari mulutnya.” Bot akan segera merespons kembali dengan prompt Anda dan beberapa parameter yang digunakannya (mis: “upscaling”) yang dapat Anda ubah dengan mengeluarkan prompt baru (lebih lanjut tentang itu nanti). Kemudian, beberapa menit kemudian, Anda akan mendapatkan video berdurasi 4 detik berdasarkan permintaan Anda.
Inilah yang tampak seperti robot mabuk saya. Semua video dapat diputar dari dalam Discord dan Anda dapat mengunduhnya sebagai file MP4. Saya telah mengonversi secara terpisah semua sampel video yang ditampilkan dalam artikel ini menjadi GIF animasi sehingga kami dapat melihatnya dengan lebih mudah (dan tanpa iklan pra-putar).
Anda akan melihat bahwa klip di atas tidak persis seperti yang saya minta. Robot tidak memuntahkan sekrup seperti yang saya maksudkan. Sebaliknya, itu hanya menatap secangkir bir dengan mengancam. Upaya saya yang lain pada permintaan ini juga tidak persis seperti yang saya inginkan. Ketika saya meninggalkan kata “mabuk”, saya membuat robot membuka mulutnya tetapi tidak mengeluarkan apa pun.
Menggunakan Gambar Dengan Runway Gen-2 Prompts
Anda juga dapat memberi makan gambar ke bot dengan menyalin dan menempelkannya ke Discord bersama dengan perintah teks atau memasukkan URL gambar ke dalam perintah. Runway Gen-2 tidak akan benar-benar menggunakan gambar yang Anda unggah. Itu hanya akan menarik inspirasi dari gambar dalam membuat videonya sendiri. Saya mengunggah gambar diri saya berkali-kali dan itu memberi saya video orang-orang yang sedikit mirip dengan saya, tetapi jelas bukan saya.
Misalnya, ketika saya mengunggah foto diri saya dan tidak memberikan informasi lebih lanjut, itu menunjukkan seorang pria paruh baya botak dengan kacamata hitam yang bukan saya, berdiri di samping sungai dan beberapa bangunan. Mulutnya bergerak dan airnya bergerak.
Bot Runway Gen-2 lebih baik dalam menyalin emosi atau topik dari gambar yang Anda berikan. Saya menunjukkan gambar diri saya dengan ekspresi jijik di wajah saya dan meminta “orang ini melihat ke kamera dan mengucapkan ‘oh man’.”
Banyak pengguna di server Discord mengatakan bahwa mereka mencapai hasil yang luar biasa dengan menghasilkan gambar diam dengan alat AI lain seperti Midjourney atau Stable Diffusion, lalu memasukkan gambar tersebut ke CLIP Interogator 2.1 di Wajah Memelukalat yang melihat gambar dan kemudian memberi Anda petunjuk yang menurutnya mengacu pada gambar itu.
Saya mencoba proses itu, meminta Stable Diffusion membuatkan saya gambar anak laki-laki di trotoar bermain dengan robot mainan di tahun 1980-an. Saya kemudian membawa gambar itu ke CLIP Interrogator dan mendapatkan beberapa petunjuk sampel yang cukup jelas seperti “anak laki-laki berdiri di samping robot”. Tetap saja, memasukkan gambar yang sama ke prompt tidak memberikan apa yang saya inginkan. Saya mendapatkan seorang anak laki-laki dengan dua robot berdiri di depan sebuah jalan, tetapi itu bukan jalan atau anak laki-laki yang sama.
Bergerak atau Tidak Bergerak
Keterbatasan waktu itu sendiri biasanya berarti tidak banyak waktu untuk bergerak di setiap klip. Namun, selain itu, saya menemukan bahwa banyak klip memiliki sedikit gerakan di dalamnya. Seringkali, itu hanya kepala seseorang yang terayun-ayun atau cairan yang mengalir atau asap yang mengepul dari api.
Cara yang baik untuk mendapatkan lebih banyak gerakan adalah dengan memberikan prompt yang meminta jeda waktu atau panning. Ketika saya meminta time-lapse dari Islandia Volcano atau pan shot dari kereta bawah tanah New York, saya mendapat beberapa hasil yang cukup bagus. Ketika saya meminta pandangan panning dari cakrawala Taipei, awan bergerak tetapi tidak ada panning, dan kota itu jelas bukan Taipei.
Meminta untuk berlari, mengejar, atau menunggang kuda mungkin atau mungkin tidak menyelesaikan pekerjaan. Ketika saya diminta untuk “skateboard kura-kura”, saya mendapatkan sejenis hewan mirip kura-kura yang menggelinding di jalan dengan kecepatan tinggi. Tetapi ketika saya meminta petinju Intel dan AMD saling bertarung, saya mendapat gambar dua petinju yang tidak bergerak sama sekali (dan tidak ada logo Intel atau AMD).
Apa Runway Gen-2 yang Baik dan Buruk
Seperti generator gambar AI lainnya, Runway Gen-2 tidak melakukan pekerjaan yang baik dalam mereproduksi karakter, produk, atau tempat bermerek yang sangat spesifik. Ketika saya menanyakan tentang tinju Mario dan Luigi, saya mendapatkan dua karakter yang terlihat seperti tiruan dari karakter Nintendo. Saya meminta berkali-kali untuk video Godzilla dan mendapatkan beberapa kadal raksasa yang bahkan penggemar biasa pun tidak akan bingung dengan Raja Monster.
Itu sedikit lebih baik dengan referensi Minecraft. Ketika saya meminta creeper dan enderman makan pizza dan sekali lagi untuk creeper makan di McDonald’s, saya mendapatkan creeper yang terlihat bagus tetapi enderman tidak akurat. Meminta keluarga creeper makan pizza memberi saya keluarga humanoid yang terlihat seperti berasal dari Minecraft. Siapa pun yang pernah memainkan Minecraft tahu bahwa tanaman merambat adalah monster hijau dengan bintik hitam.
Alat ini buruk dengan logo. Saya memberikannya logo Perangkat Keras Tom dan memintanya untuk menggunakan logo tersebut dalam iklan dan itu mengembalikan hal aneh ini kepada saya.
Ketika saya menanyakannya untuk CPU AMD Ryzen yang terbakar, saya mendapatkan sesuatu yang tampak samar-samar seperti PCU dengan logo yang harus Anda lihat sendiri (di bawah).
Apa yang dilakukan Runway Gen-2 dengan sangat baik adalah memberi Anda gambaran umum tentang orang dan keluarga yang melakukan hal-hal seperti makan. Anda mungkin atau mungkin tidak membuat mereka makan persis seperti yang Anda inginkan. Ketika saya meminta keluarga makan cacing hidup, saya mendapat keluarga yang lebih terlihat seperti sedang makan salad. Sebuah keluarga yang sedang makan sushi di restoran pizza tahun 1970-an tampak sangat realistis.
Saya merasa terdorong untuk menunjukkan bahwa saya hampir selalu mendapatkan orang kulit putih ketika saya meminta seseorang tanpa menyebutkan etnisnya. Satu-satunya saat saya mendapatkan keluarga (atau orang) non-kulit putih tanpa secara khusus memintanya adalah ketika saya meminta keluarga untuk makan sushi. Ini adalah masalah umum dengan data pelatihan pada banyak model AI generatif.
Parameter Khusus
Ada beberapa parameter yang dapat Anda tambahkan di akhir prompt Anda di Runway Gen-2 untuk sedikit mengubah output. Saya tidak main-main dengan ini banyak.
- –kelas atas memberikan resolusi yang lebih tinggi
- –menambah membuat video lebih halus
- –cfg [number] mengontrol seberapa kreatif AI menjadi. Nilai yang lebih tinggi lebih dekat dengan apa yang Anda minta.
- –layar hijau keluarkan video dengan area layar hijau yang dapat Anda gunakan dalam pengeditan
- –benih adalah angka yang membantu menentukan hasilnya. Secara default, ini adalah nomor acak setiap saat, tetapi jika Anda menggunakan nomor yang sama lagi, Anda akan mendapatkan hasil yang serupa.
Menjahit Semuanya Bersama-sama
Jika Anda mencari contoh video Runway Gen-2 di Internet, Anda mungkin melihat banyak video yang berdurasi lebih dari 4 detik dan memiliki suara. Orang-orang membuat video ini dengan menggabungkan banyak klip 4 detik berbeda di editor video dan menambahkan suara dan musik yang mereka dapatkan di tempat lain.
Salah satu video Runway Gen-2 yang paling terkenal adalah iklan pizza Pepperoni Hugspot yang saya sebutkan di atas. Tapi, di Runway ML Discord, saya melihat banyak orang memposting tautan YouTube ke kreasi mereka. Salah satu favorit saya adalah “Spageti Teror” yang diposting ke Twitter oleh Andy McNamara. Dan iklan pengacara baru Pizza Later sangat menarik.
Intinya
Runway Gen-2 sedang dalam versi beta pribadi saat saya menulis ini, tetapi perusahaan mengatakan akan segera menyediakannya untuk semua orang, seperti yang sudah ada pada produk Gen-1-nya. Sebagai demo teknologi, ini benar-benar mengesankan dan saya dapat melihat seseorang menggunakan klip pendeknya sebagai pengganti video stok atau GIF animasi stok.
Bahkan jika waktu diperpanjang hingga 60 detik, tampaknya tidak mungkin alat ini dapat menggantikan video yang direkam secara profesional (atau bahkan amatir) dalam waktu dekat. Ketidakmampuannya untuk secara akurat mereproduksi tempat dan orang yang sangat spesifik adalah kesalahan besar, tetapi itu juga merupakan batasan yang saya lihat di setiap AI penghasil gambar sejauh ini. Namun, teknologinya ada di sana dan, seiring bertambahnya data pelatihan, ini bisa menjadi lebih mengesankan.