
Memeluk Wajah dan Layanan Sekarang luncurkan BigCode, sebuah proyek untuk membuka sistem AI penghasil kode sumber

Sistem penghasil kode seperti AlphaCode dari DeepMind, CodeWhisperer dari Amazon, dan Codex dari OpenAI, yang menggerakkan layanan Copilot dari GitHub, memberikan pandangan yang menggiurkan tentang apa yang mungkin dilakukan AI saat ini dalam ranah pemrograman komputer. Namun sejauh ini, hanya segelintir sistem AI semacam itu yang tersedia secara gratis untuk umum dan bersumber terbuka — mencerminkan insentif komersial dari perusahaan yang membangunnya.
Dalam upaya untuk mengubahnya, startup AI Hugging Face dan ServiceNow Research, divisi R&D ServiceNow, hari ini meluncurkan BigCode, sebuah proyek baru yang bertujuan untuk mengembangkan sistem AI “canggih” untuk kode dalam “terbuka dan bertanggung jawab” jalan. Tujuannya adalah untuk akhirnya merilis kumpulan data yang cukup besar untuk melatih sistem penghasil kode, yang kemudian akan digunakan untuk membuat prototipe — model parameter 15 miliar, ukurannya lebih besar dari Codex (12 miliar parameter) tetapi lebih kecil dari AlphaCode (~41,4 miliar parameter) — menggunakan klaster kartu grafis internal ServiceNow. Dalam pembelajaran mesin, parameter adalah bagian dari sistem AI yang dipelajari dari data pelatihan historis dan pada dasarnya menentukan keterampilan sistem pada suatu masalah, seperti menghasilkan kode.
Terinspirasi oleh upaya BigScience Hugging Face untuk membuka sumber sistem penghasil teks yang sangat canggih, BigCode akan terbuka untuk siapa saja yang memiliki latar belakang penelitian AI profesional dan dapat meluangkan waktu untuk proyek tersebut, kata penyelenggara. Formulir aplikasi ditayangkan sore ini.
“Secara umum, kami berharap pelamar berafiliasi dengan organisasi penelitian (baik akademisi atau industri) dan mengerjakan aspek teknis/etis/hukum dari [large language models] untuk aplikasi pengkodean, ”tulis ServiceNow dalam posting blog. “Setelah [code-generating system] dilatih, kami akan mengevaluasi kemampuannya … Kami akan berusaha untuk membuat evaluasi lebih mudah dan lebih luas sehingga kami dapat mempelajari lebih lanjut tentang [system’s] kemampuan.”
Dalam mengembangkan sistem penghasil kode secara kolaboratif, yang akan bersumber terbuka di bawah lisensi yang akan memungkinkan pengembang untuk menggunakannya kembali tunduk pada syarat dan ketentuan tertentu, BigCode berusaha untuk mengatasi beberapa kontroversi yang muncul seputar praktik AI- pembuatan kode yang diberdayakan – terutama terkait penggunaan yang adil. Konservasi Kebebasan Perangkat Lunak nirlaba antara lain mengkritik GitHub dan OpenAI karena menggunakan kode sumber publik, tidak semuanya berada di bawah lisensi permisif, untuk melatih dan memonetisasi Codex. Codex tersedia melalui API berbayar OpenAI, sementara GitHub baru-baru ini mulai mengenakan biaya untuk akses ke Copilot. Untuk bagian mereka, GitHub dan OpenAI terus menegaskan bahwa Codex dan Copilot tidak bertentangan dengan persyaratan lisensi apa pun.
Penyelenggara BigCode mengatakan mereka akan bersusah payah untuk memastikan hanya file dari repositori dengan lisensi permisif yang masuk ke kumpulan data pelatihan yang disebutkan di atas. Sepanjang jalan mereka, kata mereka, mereka akan bekerja untuk membangun praktik AI yang “bertanggung jawab” untuk melatih dan berbagi sistem penghasil kode dari semua jenis, meminta umpan balik dari pemangku kepentingan terkait sebelum membuat pernyataan kebijakan.
ServiceNow dan Hugging Face tidak memberikan garis waktu kapan proyek dapat mencapai penyelesaian. Tetapi mereka mengharapkannya untuk mengeksplorasi beberapa bentuk pembuatan kode selama beberapa bulan ke depan, termasuk sistem yang melengkapi dan mensintesis kode secara otomatis dari potongan kode dan deskripsi bahasa alami dan bekerja di berbagai domain, tugas, dan bahasa pemrograman.
Dengan asumsi masalah etika, teknis, dan hukum suatu hari nanti diselesaikan, alat pengkodean bertenaga AI dapat memangkas biaya pengembangan secara substansial sambil memungkinkan pembuat kode untuk fokus pada tugas yang lebih kreatif. Menurut sebuah studi dari University of Cambridge, setidaknya setengah dari upaya pengembang dihabiskan untuk debugging dan bukan pemrograman aktif, yang merugikan industri perangkat lunak sekitar $312 miliar per tahun.