Lembah Silikon Berlomba Ciptakan Lingkungan Simulasi untuk Latih AI

Visi CEO perusahaan teknologi besar tentang agen AI yang dapat secara mandiri menggunakan aplikasi perangkat lunak untuk menyelesaikan tugas bagi manusia telah lama digembar-gemborkan. Namun, coba gunakan agen AI konsumen saat ini, baik itu ChatGPT Agent dari OpenAI atau Comet dari Perplexity, Anda akan segera menyadari betapa terbatasnya teknologi ini.
Membuat agen AI yang lebih handal mungkin membutuhkan serangkaian teknik baru yang masih terus dikembangkan industri. Salah satu teknik tersebut adalah mensimulasikan ruang kerja dengan hati-hati di mana agen dapat dilatih pada tugas multi-langkah—dikenal sebagai lingkungan pembelajaran penguatan (reinforcement learning/RL).
Lingkungan Pembelajaran Penguatan: Kunci Pengembangan Agen AI?
Mirip dengan bagaimana kumpulan data berlabel mendorong gelombang terakhir AI, lingkungan RL mulai terlihat sebagai elemen penting dalam pengembangan agen. Para peneliti, pendiri, dan investor AI mengatakan kepada TechCrunch bahwa laboratorium AI terkemuka sekarang menuntut lebih banyak lingkungan RL, dan tidak kekurangan startup yang berharap untuk memasoknya.
Dorongan untuk lingkungan RL telah menciptakan kelas baru startup yang didanai dengan baik, seperti Mechanize dan Prime Intellect, yang bertujuan untuk memimpin ruang ini. Sementara itu, perusahaan pelabelan data besar seperti Mercor dan Surge mengatakan mereka berinvestasi lebih banyak dalam lingkungan RL untuk mengimbangi pergeseran industri dari kumpulan data statis ke simulasi interaktif.
Laboratorium besar juga mempertimbangkan untuk berinvestasi besar-besaran: menurut The Information, para pemimpin di Anthropic telah membahas pengeluaran lebih dari $1 miliar untuk lingkungan RL selama tahun depan. Harapan para investor dan pendiri adalah bahwa salah satu startup ini akan muncul sebagai "Scale AI untuk lingkungan," mengacu pada kekuatan pelabelan data senilai $29 miliar yang mendukung era chatbot.
Pertanyaannya adalah apakah lingkungan RL benar-benar akan mendorong kemajuan AI.
Apa itu Lingkungan RL?
Pada intinya, lingkungan RL adalah tempat pelatihan yang mensimulasikan apa yang akan dilakukan agen AI dalam aplikasi perangkat lunak nyata. Seorang pendiri menggambarkan membangunnya dalam wawancara baru-baru ini "seperti membuat video game yang sangat membosankan."
Misalnya, sebuah lingkungan dapat mensimulasikan browser Chrome dan memberi tugas kepada agen AI untuk membeli sepasang kaus kaki di Amazon. Agen dinilai berdasarkan kinerjanya dan diberi sinyal hadiah ketika berhasil (dalam hal ini, membeli sepasang kaus kaki yang layak).
Meskipun tugas seperti itu terdengar relatif sederhana, ada banyak tempat di mana agen AI dapat tersandung. Agen mungkin tersesat menavigasi menu dropdown halaman web, atau membeli terlalu banyak kaus kaki. Dan karena pengembang tidak dapat memprediksi kesalahan apa yang akan dilakukan agen, lingkungan itu sendiri harus cukup kuat untuk menangkap perilaku yang tidak terduga, dan masih memberikan umpan balik yang berguna. Itu membuat membangun lingkungan jauh lebih kompleks daripada kumpulan data statis.
Beberapa lingkungan cukup rumit, memungkinkan agen AI untuk menggunakan alat, mengakses internet, atau menggunakan berbagai aplikasi perangkat lunak untuk menyelesaikan tugas tertentu. Yang lain lebih sempit, bertujuan untuk membantu agen mempelajari tugas-tugas spesifik dalam aplikasi perangkat lunak perusahaan.
Tantangan dan Masa Depan Lingkungan RL
Meskipun lingkungan RL sedang menjadi tren di Silicon Valley saat ini, ada banyak preseden untuk menggunakan teknik ini. Salah satu proyek pertama OpenAI pada tahun 2016 adalah membangun "RL Gyms," yang cukup mirip dengan konsep lingkungan modern. Di tahun yang sama, sistem AI AlphaGo milik Google DeepMind mengalahkan juara dunia dalam permainan papan Go. Ia juga menggunakan teknik RL dalam lingkungan yang disimulasikan.
Yang unik tentang lingkungan saat ini adalah para peneliti mencoba membangun agen AI yang menggunakan komputer dengan model transformer besar. Tidak seperti AlphaGo, yang merupakan sistem AI khusus yang bekerja dalam lingkungan tertutup, agen AI saat ini dilatih untuk memiliki kemampuan yang lebih umum. Para peneliti AI saat ini memiliki titik awal yang lebih kuat, tetapi juga tujuan yang rumit di mana lebih banyak hal dapat salah.
Pertanyaan terbuka seputar lingkungan RL adalah apakah teknik tersebut akan berkembang seperti metode pelatihan AI sebelumnya. Pembelajaran penguatan telah mendorong beberapa lompatan terbesar dalam AI selama tahun lalu, termasuk model seperti o1 OpenAI dan Anthropic's Claude Opus 4. Itu adalah terobosan yang sangat penting karena metode yang sebelumnya digunakan untuk meningkatkan model AI sekarang menunjukkan hasil yang semakin berkurang. Lingkungan adalah bagian dari taruhan besar laboratorium AI pada RL, yang banyak yang percaya akan terus mendorong kemajuan karena mereka menambahkan lebih banyak data dan sumber daya komputasi ke dalam proses tersebut.