Stabilitas AI mendukung upaya untuk membawa pembelajaran mesin ke biomed

Stability AI, startup yang didukung usaha di belakang sistem AI teks-ke-gambar Stable Diffusion, mendanai upaya luas untuk menerapkan AI ke batas-batas bioteknologi. Disebut OpenBioML, proyek pertama upaya ini akan berfokus pada pendekatan berbasis pembelajaran mesin untuk pengurutan DNA, pelipatan protein, dan biokimia komputasi.

Pendiri perusahaan menggambarkan OpenBioML sebagai “laboratorium penelitian terbuka” — dan bertujuan untuk mengeksplorasi persimpangan AI dan biologi dalam pengaturan di mana siswa, profesional, dan peneliti dapat berpartisipasi dan berkolaborasi, menurut CEO Stability AI Emad Mostaque.

“OpenBioML adalah salah satu komunitas riset independen yang didukung oleh Stabilitas,” kata Mostaque kepada TechCrunch dalam wawancara email. “Stabilitas terlihat untuk mengembangkan dan mendemokratisasi AI, dan melalui OpenBioML, kami melihat peluang untuk memajukan ilmu pengetahuan, kesehatan, dan kedokteran yang canggih.”

Mengingat kontroversi seputar Stable Diffusion — sistem AI Stabilitas AI yang menghasilkan karya seni dari deskripsi teks, mirip dengan DALL-E 2 OpenAI — orang mungkin waspada terhadap usaha pertama Stabilitas AI dalam perawatan kesehatan. Startup telah mengambil pendekatan laissez-faire untuk tata kelola, memungkinkan pengembang untuk menggunakan sistem sesuka mereka, termasuk untuk deepfake selebriti dan pornografi.

Kestabilan Keputusan AI yang dipertanyakan secara etis hingga saat ini, pembelajaran mesin dalam kedokteran adalah ladang ranjau. Meskipun teknologi tersebut telah berhasil diterapkan untuk mendiagnosis kondisi seperti penyakit kulit dan mata, penelitian telah menunjukkan bahwa algoritme dapat mengembangkan bias yang menyebabkan perawatan yang lebih buruk bagi beberapa pasien. Sebuah studi April 2021, misalnya, menemukan bahwa model statistik yang digunakan untuk memprediksi risiko bunuh diri pada pasien kesehatan mental bekerja dengan baik untuk pasien kulit putih dan Asia tetapi buruk untuk pasien kulit hitam.

OpenBioML dimulai dengan wilayah yang lebih aman, dengan bijak. Proyek pertamanya adalah:

  • BioLMyang berupaya menerapkan teknik pemrosesan bahasa alami (NLP) ke bidang biologi komputasi dan kimia
  • Difusi DNAyang bertujuan untuk mengembangkan AI yang dapat menghasilkan urutan DNA dari perintah teks
  • LibreFoldyang berupaya meningkatkan akses ke sistem prediksi struktur protein AI yang serupa dengan AlphaFold 2 milik DeepMind

Setiap proyek dipimpin oleh peneliti independen, tetapi Stability AI memberikan dukungan dalam bentuk akses ke klaster lebih dari 5.000 GPU Nvidia A100 yang dihosting oleh AWS untuk melatih sistem AI. Menurut Niccolò Zanichelli, sarjana ilmu komputer di University of Parma dan salah satu peneliti utama di OpenBioML, ini akan menjadi daya pemrosesan dan penyimpanan yang cukup untuk melatih hingga 10 sistem serupa AlphaFold 2 yang berbeda secara paralel.

“Banyak penelitian biologi komputasi sudah mengarah ke rilis sumber terbuka. Namun, sebagian besar terjadi pada tingkat lab tunggal dan oleh karena itu biasanya dibatasi oleh sumber daya komputasi yang tidak mencukupi,” kata Zanichelli kepada TechCrunch melalui email. “Kami ingin mengubahnya dengan mendorong kolaborasi skala besar dan, berkat dukungan AI Stabilitas, mendukung kolaborasi tersebut dengan sumber daya yang hanya dapat diakses oleh laboratorium industri terbesar.”

Menghasilkan urutan DNA

Dari proyek OpenBioML yang sedang berlangsung, Difusi DNA – dipimpin oleh lab profesor patologi Luca Pinello di Rumah Sakit Umum Massachusetts & Sekolah Kedokteran Harvard – mungkin yang paling ambisius. Tujuannya adalah untuk menggunakan sistem AI generatif untuk mempelajari dan menerapkan aturan sekuens “regulasi” DNA, atau segmen molekul asam nukleat yang memengaruhi ekspresi gen spesifik dalam suatu organisme. Banyak penyakit dan kelainan adalah hasil dari gen yang salah regulasi, tetapi sains belum menemukan proses yang dapat diandalkan untuk mengidentifikasi — apalagi mengubah — rangkaian regulasi ini.

Difusi DNA mengusulkan menggunakan jenis sistem AI yang dikenal sebagai model difusi untuk menghasilkan sekuens DNA pengatur spesifik tipe sel. Model Difusi — yang mendukung generator gambar seperti Difusi Stabil dan DALL-E 2 OpenAI — membuat data baru (mis. urutan DNA) dengan mempelajari cara menghancurkan dan memulihkan banyak sampel data yang ada. Saat mereka diberi sampel, model menjadi lebih baik dalam memulihkan semua data yang sebelumnya mereka hancurkan untuk menghasilkan karya baru.

Stabilitas AI OpenBioML

Kredit Gambar: OpenBioML

“Difusi telah melihat kesuksesan luas dalam model generatif multimodal, dan sekarang mulai diterapkan pada biologi komputasi, misalnya untuk pembuatan struktur protein baru,” kata Zanichelli. “Dengan Difusi-DNA, kami sekarang mengeksplorasi penerapannya pada sekuens genomik.”

Jika semua berjalan sesuai rencana, proyek Difusi-DNA akan menghasilkan model difusi yang dapat menghasilkan urutan DNA pengatur dari instruksi teks seperti “Urutan yang akan mengaktifkan gen ke tingkat ekspresi maksimumnya dalam tipe sel X” dan “Urutan yang mengaktifkan gen di hati dan jantung, tetapi tidak di otak.” Model seperti itu juga dapat membantu menafsirkan komponen urutan pengaturan, kata Zanichelli — meningkatkan pemahaman komunitas ilmiah tentang peran urutan pengaturan dalam berbagai penyakit.

Perlu dicatat bahwa ini sebagian besar teoretis. Meskipun penelitian pendahuluan tentang penerapan difusi pada pelipatan protein tampak menjanjikan, ini masih sangat awal, aku Zanichelli — karena itu dorongan untuk melibatkan komunitas AI yang lebih luas.

Memprediksi struktur protein

LibreFold OpenBioML, meskipun cakupannya lebih kecil, lebih mungkin untuk segera membuahkan hasil. Proyek ini berupaya untuk mendapatkan pemahaman yang lebih baik tentang sistem pembelajaran mesin yang memprediksi struktur protein selain cara untuk memperbaikinya.

Seperti yang dibahas oleh kolega saya Devin Coldewey dalam tulisannya tentang pekerjaan DeepMind di AlphaFold 2, sistem AI yang secara akurat memprediksi bentuk protein relatif baru di tempat tetapi transformatif dalam hal potensinya. Protein terdiri dari urutan asam amino yang terlipat menjadi bentuk untuk menyelesaikan tugas yang berbeda dalam organisme hidup. Proses menentukan bentuk apa yang akan dibuat oleh urutan asam dulunya merupakan pekerjaan yang sulit dan rawan kesalahan. Sistem AI seperti AlphaFold 2 mengubahnya; berkat mereka, lebih dari 98% struktur protein dalam tubuh manusia diketahui sains saat ini, serta ratusan ribu struktur lain dalam organisme seperti E. coli dan ragi.

Namun, hanya sedikit kelompok yang memiliki keahlian teknik dan sumber daya yang diperlukan untuk mengembangkan AI semacam ini. DeepMind menghabiskan waktu berhari-hari untuk melatih AlphaFold 2 tentang unit pemrosesan tensor (TPU), perangkat keras akselerator AI Google yang mahal. Dan kumpulan data pelatihan urutan asam seringkali merupakan hak milik atau dirilis di bawah lisensi non-komersial.

Protein melipat ke dalam struktur tiga dimensi mereka. Kredit Gambar: Christoph Burgstedt/Perpustakaan Foto Sains / Getty Images

“Sayang sekali, karena jika Anda melihat apa yang dapat dibangun komunitas di atas pos pemeriksaan AlphaFold 2 yang dirilis oleh DeepMind, sungguh luar biasa,” kata Zanichelli, mengacu pada model AlphaFold 2 terlatih yang dirilis DeepMind tahun lalu. . “Misalnya, hanya beberapa hari setelah rilis, profesor Universitas Nasional Seoul Minkyung Baek melaporkan sebuah trik di Twitter yang memungkinkan model untuk memprediksi struktur kuaterner — sesuatu yang hanya dapat dilakukan oleh sedikit orang, jika ada, yang diharapkan dari model tersebut. Ada lebih banyak contoh semacam ini, jadi siapa yang tahu apa yang dapat dibangun oleh komunitas ilmiah yang lebih luas jika memiliki kemampuan untuk melatih metode prediksi struktur protein mirip AlphaFold yang sama sekali baru?”

Membangun karya RoseTTAFold dan OpenFold, dua upaya komunitas berkelanjutan untuk mereplikasi AlphaFold 2, LibreFold akan memfasilitasi percobaan “berskala besar” dengan berbagai sistem prediksi pelipatan protein. Dipelopori oleh para peneliti di University College London, Harvard dan Stockholm, fokus LibreFold adalah untuk mendapatkan pemahaman yang lebih baik tentang apa yang dapat dicapai sistem dan mengapa, menurut Zanichelli.

“LibreFold pada intinya adalah proyek untuk komunitas, oleh komunitas. Hal yang sama berlaku untuk perilisan pos pemeriksaan model dan kumpulan data, karena hanya perlu satu atau dua bulan bagi kami untuk mulai merilis kiriman pertama atau bisa memakan waktu lebih lama secara signifikan, ”katanya. “Konon, intuisiku adalah yang pertama lebih mungkin.”

Menerapkan NLP untuk biokimia

Di cakrawala waktu yang lebih lama OpenBioML Proyek BioLM, yang memiliki misi yang lebih samar yaitu “menerapkan teknik pemodelan bahasa yang diturunkan dari NLP ke urutan biokimia”. Bekerja sama dengan EleutherAI, sebuah kelompok riset yang merilis beberapa model penghasil teks open source, BioLM berharap untuk melatih dan menerbitkan “model bahasa biokimia” baru untuk berbagai tugas, termasuk menghasilkan urutan protein.

Zanichelli menunjuk ProGen Salesforce sebagai contoh jenis pekerjaan yang mungkin dilakukan BioLM. ProGen memperlakukan urutan asam amino seperti kata-kata dalam sebuah kalimat. Dilatih pada kumpulan data lebih dari 280 juta sekuens protein dan metadata terkait, model ini memprediksi kumpulan asam amino berikutnya dari yang sebelumnya, seperti model bahasa yang memprediksi akhir kalimat dari awal.

Nvidia awal tahun ini merilis model bahasa, MegaMolBART, yang dilatih pada kumpulan data jutaan molekul untuk mencari target obat potensial dan memperkirakan reaksi kimia. Meta juga baru-baru ini melatih NLP yang disebut ESM-2 pada sekuens protein, sebuah pendekatan yang diklaim perusahaan memungkinkannya untuk memprediksi sekuens lebih dari 600 juta protein hanya dalam dua minggu.

Lipatan protein meta

Struktur protein diprediksi oleh sistem Meta. Kredit Gambar: Meta

Melihat ke depan

Sementara minat OpenBioML luas (dan berkembang), Mostaque mengatakan bahwa mereka disatukan oleh keinginan untuk “memaksimalkan potensi positif pembelajaran mesin dan AI dalam biologi”, mengikuti tradisi penelitian terbuka dalam sains dan kedokteran.

“Kami ingin memungkinkan para peneliti untuk mendapatkan kontrol lebih besar atas jalur eksperimental mereka untuk pembelajaran aktif atau tujuan validasi model,” lanjut Mostaque. “Kami juga ingin mendorong kecanggihan dengan model biotek yang semakin umum, berbeda dengan arsitektur khusus dan tujuan pembelajaran yang saat ini menjadi ciri sebagian besar biologi komputasi.”

Namun — seperti yang diharapkan dari startup yang didukung VC yang baru-baru ini mengumpulkan lebih dari $100 juta — AI Stabilitas tidak melihat OpenBioML sebagai upaya filantropi murni. Mostaque mengatakan bahwa perusahaan terbuka untuk mengeksplorasi teknologi komersialisasi dari OpenBioML “jika sudah cukup canggih dan cukup aman dan pada saat yang tepat.”

Related Posts