Dengan semua pembicaraan tentang chatbot seperti ChatGPT, mudah untuk melupakan bahwa obrolan berbasis teks hanyalah salah satu dari banyak fungsi AI. AI generatif yang ideal akan dapat bekerja di berbagai model sesuai kebutuhan, menafsirkan dan menghasilkan gambar, audio, dan video.
Masukkan Jarvis, proyek baru dari Microsoft yang menjanjikan satu bot untuk mengatur semuanya. Jarvis menggunakan ChatGPT sebagai pengontrol untuk sistem yang dapat menggunakan berbagai model lain sesuai kebutuhan untuk merespons permintaan Anda. Di sebuah kertas (terbuka di tab baru) diterbitkan oleh Universitas Cornell, peneliti Microsoft (Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu dan Yueting Zhuang) menjelaskan cara kerja framework ini. Seorang pengguna membuat permintaan ke bot, merencanakan tugas, memilih model mana yang dibutuhkan, membuat model tersebut melakukan tugas, lalu menghasilkan dan mengeluarkan respons.
Bagan di bawah ini, disediakan dalam makalah penelitian, menunjukkan bagaimana proses ini bekerja di dunia nyata. Seorang pengguna meminta bot untuk membuat gambar di mana seorang gadis sedang membaca buku dan dia diposisikan dengan cara yang sama seperti anak laki-laki dalam gambar sampel. Bot merencanakan tugas, menggunakan model untuk menginterpretasikan pose anak laki-laki di gambar asli dan kemudian menyebarkan model lain untuk menggambar hasilnya.
Microsoft memiliki halaman Github (terbuka di tab baru) tempat Anda dapat mengunduh dan mencoba Jarvis di PC yang didukung Linux. Perusahaan merekomendasikan Anda menggunakan Ubuntu (khusus versi 16 LTS yang sudah ketinggalan zaman), tetapi saya bisa mendapatkan fitur utamanya – chatbot berbasis terminal – bekerja di Ubuntu 22.04 LTS dan di Subsistem Windows untuk Linux.
Namun, kecuali Anda benar-benar menyukai ide mengotak-atik file konfigurasi, cara terbaik untuk memeriksa Jarvis adalah dengan menggunakan MemelukGPT (terbuka di tab baru)chatbot berbasis web yang telah disiapkan oleh penelitian Microsoft di Hugging Face, komunitas AI online yang menampung ribuan model sumber terbuka.
Jika Anda mengikuti langkah-langkah di bawah ini, Anda akan memiliki chatbot yang berfungsi, Anda dapat menampilkan gambar atau media lain dan memintanya untuk menampilkan gambar juga. Saya harus mencatat bahwa, seperti bot lain yang pernah saya coba, hasilnya sangat beragam.
Cara Mengatur dan Mencoba Microsoft Jarvis / HuggingGPT
1. Dapatkan Kunci API OpenAPI jika Anda belum memilikinya. Anda bisa mendapatkannya di situs web OpenAPI (terbuka di tab baru) dengan masuk dan mengeklik “Buat kunci rahasia baru”. Mendaftar gratis dan Anda akan mendapatkan jumlah kredit gratis, tetapi Anda harus membayar lebih jika menggunakannya. Simpan kunci di suatu tempat seperti di file teks, di mana Anda dapat dengan mudah mendapatkannya. Setelah Anda menyalinnya, Anda tidak akan pernah bisa mendapatkannya lagi.
2. Mendaftar untuk mendapatkan akun gratis di Hugging Face jika Anda belum memilikinya dan Gabung ke situs. Situs ini terletak di huggingface.co (terbuka di tab baru) bukan huggingface.com.
3. Arahkan ke Pengaturan -> Token Akses dengan mengklik tautan di rel kiri.
4. Klik Token Baru.
5. Beri nama token (apa-apa), pilih “tulis” sebagai peran dan klik Hasilkan.
6. Salin kunci API dan simpan di tempat yang mudah diakses.
7. Arahkan ke Memeluk halaman GPT (terbuka di tab baru)
8. Tempel kunci OpenAPI Anda Dan Memeluk Token Wajah ke dalam bidang yang sesuai. Kemudian tekan tombol kirim di samping masing-masing.
9. Masukkan permintaan Anda ke dalam kotak kueri dan klik Kirim.
Cara Setup Jarvis / Hugging GPT di Linux
Jauh lebih mudah menggunakan HuggingGPT di situs web Hugging Face. Namun, jika Anda ingin mencoba menginstalnya di PC Ubuntu lokal Anda, begini caranya. Anda juga dapat memodifikasinya untuk menggunakan lebih banyak model.
1. Instal git jika Anda belum memilikinya.
sudo apt install git
2. Klon repositori Jarvis dari direktori home Anda.
git clone https://github.com/microsoft/JARVIS
3. Arahkan ke folder Jarvis/server/configs.
cd JARVIS/server/configs
4. Edit file konfigurasi dan masukkan kunci OpenAI API Anda dan token Hugging Face jika perlu. Mereka adalah config.azure.yaml, config.default.yaml, config.gradio.yaml dan config.lite.yaml. Dalam cara ini, kami hanya akan menggunakan file gradio, Anda masuk akal untuk mengedit semuanya. Anda dapat mengeditnya menggunakan nano (mis: nano config.gradio.yaml). Jika Anda tidak memiliki kunci API ini, Anda bisa mendapatkannya bebas dari OpenAI (terbuka di tab baru)Dan Wajah Pelukan (terbuka di tab baru).
5. Instal Miniconda jika Anda belum menginstalnya. Anda harus mengunduh versi terbaru dari situs Minikonda (terbuka di tab baru). Setelah mengunduh penginstal, Anda menginstalnya dengan masuk ke folder Unduhan dan masuk pesta diikuti dengan nama skrip instal.
bash Miniconda3-latest-Linux-x86_64.sh
Anda akan diminta untuk menyetujui perjanjian lisensi dan mengonfirmasi lokasi penginstalan. Setelah Anda menginstal Miniconda, tutup dan buka kembali semua jendela terminal sehingga perintah conda sekarang berada di jalur file Anda. Jika tidak ada di jalur Anda, coba reboot.
6. Arahkan kembali ke JARVIS/server direktori.
7. Buat dan aktifkan lingkungan jarvis conda.
conda create -n jarvis python=3.8
conda activate jarvis
8. Instal beberapa dependensi dan model.
conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia
pip install -r requirements.txt
cd models
bash download.sh # required when `inference_mode` is `local` or `hybrid`.
9. Kembali ke folder JARVIS/server.
10. Jalankan perintah untuk meluncurkan server web lokal HuggingGPT menggunakan gradio.
python run_gradio_demo.py --config configs/config.gradio.yaml
Anda kemudian akan diberikan URL lokal yang dapat Anda kunjungi di browser web Anda. Dalam kasus saya, itu adalah http://127.0.0.1:7860.
11. Kunjungi URL (mis: di browser Anda. Jika Anda menggunakan Ubuntu di VM, gunakan browser di dalam VM.
12. Masukkan kunci API OpenAPI Anda ke dalam kotak di bagian atas halaman web.
13. Masukkan permintaan Anda di kotak prompt dan tekan Enter.
Menggunakan server gradio hanyalah salah satu cara yang memungkinkan untuk berinteraksi dengan Jarvis di Linux. Itu halaman Jarvis Github (terbuka di tab baru) memiliki lebih banyak pilihan. Ini termasuk menggunakan server model atau memulai obrolan berbasis baris perintah.
Saya tidak bisa membuat sebagian besar metode ini berfungsi (obrolan baris perintah berfungsi dengan baik tetapi tidak sebagus antarmuka web). Juga, Anda mungkin dapat menginstal lebih banyak model dan menjalankan pembuatan teks-ke-video (yang saya tidak bisa).
Apa yang Harus Dicoba dengan Jarvis / Hugging GPT
Bot dapat menjawab pertanyaan teks standar, bersama dengan pertanyaan yang menanyakan tentang gambar, audio, dan video. Itu juga berpotensi menghasilkan gambar, suara atau video untuk Anda. Saya katakan berpotensi karena, jika Anda menggunakan versi web, itu dibatasi oleh model gratis apa pun yang dapat diakses dari Hugging Face. Pada versi Linux, Anda mungkin dapat menambahkan beberapa model tambahan.
Ada beberapa contoh kueri yang tercantum di bawah kotak perintah yang dapat Anda klik dan coba. Ini termasuk memberinya tiga contoh gambar dan memintanya menghitung berapa banyak zebra yang ada di dalamnya, memintanya untuk menceritakan lelucon dan menunjukkan gambar kucing atau memintanya untuk membuat satu gambar yang mirip dengan yang lain.
Karena berbasis web, cara memberi makan gambar adalah dengan mengirimkan URL gambar yang sedang online. Namun, jika Anda dapat menggunakan versi Linux, Anda dapat menyimpan gambar secara lokal di folder JARVIS/server/public dan merujuknya dengan URL relatif (mis: /myimage.jpg akan ada di publik folder dan /examples/myimage.jpg akan berada di subfolder contoh publik).
Sebagian besar kueri orisinal yang saya coba ternyata tidak terlalu bagus. Pengenalan gambar sangat buruk. Ketika saya memberinya gambar SSD M.2 dan bertanya di mana saya dapat membelinya, dikatakan bahwa SSD tersebut telah diidentifikasi sebagai koper dan kemudian menyuruh saya menemukan “toko”.
Demikian pula ketika saya memberinya tangkapan layar dari Minecraft dan bertanya di mana saya bisa membelinya, ia secara salah mengklaim bahwa ia melihat layang-layang terbang di udara. Ia mengira RTX 4070 adalah foto hitam putih sebuah komputer. Dan ketika saya bertanya di mana saya bisa membelinya, dikatakan “Anda dapat membeli salah satu dari barang-barang ini dari toko online kami atau dari berbagai pengecer di dekat Anda.” tetapi tidak ada tautan sebenarnya ke toko online nyata mana pun.
Itu tidak terlalu bagus dalam menghasilkan gambar sesuai permintaan. Sebagai contoh, saya memintanya menggambar Abraham Lincoln mengendarai mobil convertible dan itu memberi saya gambaran langsung tentang mantan presiden.
Singkatnya, terlepas dari contoh spesifik yang disarankan Microsoft, sebagian besar kueri tidak berjalan dengan baik. Tetapi seperti kerangka kerja AI lainnya seperti Auto-GPT dan BabyAGI, masalahnya ada pada model yang Anda gunakan dan, seiring dengan peningkatan model, keluaran Anda juga akan meningkat. Jika Anda ingin mencoba agen otonom, lihat tutorial kami tentang cara menggunakan Auto-GPT dan cara menggunakan BabyAGI.