Obrolan Web GelapGPT Dilepaskan: Temui DarkBERT Baca Sekarang

Diposting pada

Kami masih berada di tahap awal dalam efek bola salju yang dilepaskan oleh rilis Model Bahasa Besar (LLM) seperti ChatGPT ke alam liar. Dipasangkan dengan sumber terbuka model GPT (Generative Pre-Trained Transformer) lainnya, jumlah aplikasi yang menggunakan AI meledak; dan seperti yang kita ketahui, ChatGPT sendiri dapat digunakan untuk membuat malware yang sangat canggih.

Seiring berjalannya waktu, LLM yang diterapkan hanya akan meningkat, masing-masing berspesialisasi dalam bidangnya sendiri, dilatih dengan data yang dikuratori dengan cermat untuk tujuan tertentu. Dan satu aplikasi semacam itu baru saja diluncurkan, yang dilatih berdasarkan data dari web gelap itu sendiri. DarkBERT, sebagaimana pencipta Korea Selatan menyebutnya, telah tiba — ikuti tautan untuk makalah rilis, yang memberikan pengenalan menyeluruh tentang web gelap itu sendiri.

DarkBERT didasarkan pada arsitektur RoBERTa, sebuah pendekatan AI yang dikembangkan pada tahun 2019. Ini telah mengalami semacam kebangkitan, dengan para peneliti menemukan bahwa sebenarnya memiliki lebih banyak kinerja untuk diberikan daripada yang dapat diekstraksi darinya pada tahun 2019. Tampaknya model ini sangat dilatih saat dirilisjauh di bawah efisiensi maksimumnya.

Untuk melatih model, para peneliti merayapi Dark Web melalui firewall anonim dari jaringan Tor, dan kemudian memfilter data mentah (menerapkan teknik seperti deduplikasi, penyeimbangan kategori, dan pra-pemrosesan data) untuk menghasilkan database Dark Web. DarkBERT adalah hasil dari basis data yang digunakan untuk memberi makan Model Bahasa Besar RoBERTa, sebuah model yang dapat menganalisis bagian baru dari konten Web Gelap — ditulis dalam dialeknya sendiri dan pesan berkode berat — dan mengekstrak informasi berguna darinya.

Mengatakan bahwa bahasa Inggris adalah bahasa bisnis dari Web Gelap tidak akan sepenuhnya benar, tetapi itu adalah ramuan yang cukup spesifik sehingga para peneliti percaya bahwa LLM tertentu harus dilatih tentangnya. Pada akhirnya, mereka benar: para peneliti menunjukkan bahwa DarkBERT mengungguli model bahasa besar lainnya, yang memungkinkan peneliti keamanan dan penegak hukum untuk menembus lebih dalam ke relung web. Lagipula, di situlah sebagian besar aksinya.

Seperti LLM lainnya, itu tidak berarti DarkBERT selesai, dan pelatihan dan penyetelan lebih lanjut dapat terus meningkatkan hasilnya. Bagaimana itu akan digunakan, dan pengetahuan apa yang bisa diperoleh, masih harus dilihat.