 
   
MIT研究員瞥見了蛋白質(zhì)語言模型的內(nèi)部工作原理,他們采用一種新的方法可以揭示人工智能模型用于預(yù)測可能成為良好藥物或疫苗靶點(diǎn)的蛋白質(zhì)的特征。下面就詳細(xì)來看看吧!
在過去的幾年中,可以預(yù)測蛋白質(zhì)結(jié)構(gòu)或功能的模型已廣泛用于各種生物學(xué)應(yīng)用,例如確定藥物靶點(diǎn)和設(shè)計(jì)新的治療性抗體。
這些基于大型語言模型(llm)的模型可以非常準(zhǔn)確地預(yù)測蛋白質(zhì)對(duì)給定應(yīng)用的適用性。然而,沒有辦法確定這些模型是如何做出預(yù)測的,或者哪些蛋白質(zhì)特征在這些決定中起著最重要的作用。
在一項(xiàng)新的研究中,MIT研究人員使用一種新穎的技術(shù)來打開這個(gè)“黑盒子”,并允許他們確定蛋白質(zhì)語言模型在進(jìn)行預(yù)測時(shí)考慮了哪些特征。了解黑盒子里發(fā)生的事情可以幫助研究人員為特定任務(wù)選擇更好的模型,幫助簡化識(shí)別新藥或疫苗目標(biāo)的過程。
“我們的工作對(duì)依賴這些表征的下游任務(wù)的可解釋性有廣泛的影響,”麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室計(jì)算與生物學(xué)小組負(fù)責(zé)人、西蒙斯數(shù)學(xué)教授邦妮·伯杰(Bonnie Berger)說,她是這項(xiàng)研究的資深作者?!按送?,識(shí)別蛋白質(zhì)語言模型跟蹤的特征有可能從這些表征中揭示新的生物學(xué)見解?!?/p>
麻省理工學(xué)院的研究生Onkar Gujral是這項(xiàng)研究的主要作者,該研究發(fā)表在本周的《美國國家科學(xué)院院刊》上。麻省理工學(xué)院的研究生Mihir Bafna和麻省理工學(xué)院的生物工程教授Eric Alm也是這篇論文的作者。

打開黑匣子
2018年,伯杰和前MIT研究生特里斯坦·貝普勒博士(Tristan Bepler)推出了第一個(gè)蛋白質(zhì)語言模型。他們的模型和隨后加速AlphaFold開發(fā)的蛋白質(zhì)模型(如ESM2和OmegaFold)一樣,都是基于llm的。這些模型,包括ChatGPT,可以分析大量的文本,并找出哪些單詞最有可能一起出現(xiàn)。
蛋白質(zhì)語言模型使用類似的方法,但它們分析的不是單詞,而是氨基酸序列。研究人員已經(jīng)使用這些模型來預(yù)測蛋白質(zhì)的結(jié)構(gòu)和功能,并用于識(shí)別可能與特定藥物結(jié)合的蛋白質(zhì)等應(yīng)用。
在2021年的一項(xiàng)研究中,伯杰和他的同事使用蛋白質(zhì)語言模型來預(yù)測病毒表面蛋白質(zhì)的哪些部分不太可能發(fā)生變異,從而使病毒逃逸。這使他們能夠確定針對(duì)流感、艾滋病毒和SARS-CoV-2的疫苗的可能目標(biāo)。
然而,在所有這些研究中,都不可能知道這些模型是如何做出預(yù)測的。
伯杰說:“我們最終會(huì)得出一些預(yù)測,但我們完全不知道這個(gè)黑匣子的各個(gè)組成部分發(fā)生了什么?!?/p>
在這項(xiàng)新研究中,研究人員想要深入研究蛋白質(zhì)語言模型是如何做出預(yù)測的。就像llm一樣,蛋白質(zhì)語言模型將信息編碼為表征,表征由神經(jīng)網(wǎng)絡(luò)中不同“節(jié)點(diǎn)”的激活模式組成。這些節(jié)點(diǎn)類似于大腦中存儲(chǔ)記憶和其他信息的神經(jīng)元網(wǎng)絡(luò)。
llm的內(nèi)部工作原理并不容易解釋,但在過去的幾年里,研究人員已經(jīng)開始使用一種被稱為稀疏自動(dòng)編碼器的算法來幫助闡明這些模型是如何做出預(yù)測的。伯杰實(shí)驗(yàn)室的這項(xiàng)新研究首次在蛋白質(zhì)語言模型上使用了這種算法。
稀疏自編碼器通過調(diào)整蛋白質(zhì)在神經(jīng)網(wǎng)絡(luò)中的表示方式來工作。通常情況下,一個(gè)給定的蛋白質(zhì)將由有限數(shù)量的神經(jīng)元的激活模式來表示,例如,480個(gè)。稀疏自動(dòng)編碼器將把這種表示擴(kuò)展到更大的節(jié)點(diǎn)數(shù)量,比如20000個(gè)。
當(dāng)一種蛋白質(zhì)的信息僅由480個(gè)神經(jīng)元編碼時(shí),每個(gè)節(jié)點(diǎn)會(huì)點(diǎn)亮多個(gè)特征,因此很難知道每個(gè)節(jié)點(diǎn)正在編碼什么特征。然而,當(dāng)神經(jīng)網(wǎng)絡(luò)擴(kuò)展到20,000個(gè)節(jié)點(diǎn)時(shí),這些額外的空間以及稀疏性約束為信息提供了“擴(kuò)散”的空間?,F(xiàn)在,以前由多個(gè)節(jié)點(diǎn)編碼的蛋白質(zhì)的一個(gè)特征可以占據(jù)一個(gè)節(jié)點(diǎn)。
“在稀疏表示中,神經(jīng)元以一種更有意義的方式發(fā)光,”Gujral說?!霸趧?chuàng)建稀疏表示之前,網(wǎng)絡(luò)將信息緊密地打包在一起,以至于很難解釋神經(jīng)元?!?/p>
可說明的模型
一旦研究人員獲得了許多蛋白質(zhì)的稀疏表示,他們就會(huì)使用一個(gè)名為Claude的人工智能助手(與流行的同名Anthropic聊天機(jī)器人有關(guān))來分析這些表示。在這種情況下,他們要求Claude將稀疏表示與每種蛋白質(zhì)的已知特征(如分子功能、蛋白質(zhì)家族或細(xì)胞內(nèi)的位置)進(jìn)行比較。
通過分析成千上萬的表示,Claude可以確定哪些節(jié)點(diǎn)對(duì)應(yīng)于特定的蛋白質(zhì)特征,然后用簡單的英語描述它們。例如,該算法可能會(huì)說,“這個(gè)神經(jīng)元似乎正在檢測參與離子或氨基酸跨膜運(yùn)輸?shù)牡鞍踪|(zhì),特別是那些位于質(zhì)膜上的蛋白質(zhì)?!?/p>
這個(gè)過程使得節(jié)點(diǎn)更加“可解釋”,這意味著研究人員可以告訴每個(gè)節(jié)點(diǎn)在編碼什么。他們發(fā)現(xiàn),這些節(jié)點(diǎn)最有可能編碼的特征是蛋白質(zhì)家族和某些功能,包括幾種不同的代謝和生物合成過程。
“當(dāng)你訓(xùn)練一個(gè)稀疏的自動(dòng)編碼器時(shí),你并沒有訓(xùn)練它是可解釋的,但事實(shí)證明,通過激勵(lì)表示是真正稀疏的,最終導(dǎo)致了可解釋性,”Gujral說。
了解特定蛋白質(zhì)模型編碼的特征可以幫助研究人員為特定任務(wù)選擇正確的模型,或者調(diào)整他們給模型的輸入類型,以產(chǎn)生最佳結(jié)果。此外,分析模型編碼的特征有一天可以幫助生物學(xué)家更多地了解他們正在研究的蛋白質(zhì)。
古杰拉爾說:“在某些時(shí)候,當(dāng)模型變得更加強(qiáng)大時(shí),你可以從開放模型中學(xué)到比你已經(jīng)知道的更多的生物學(xué)知識(shí)?!?/p>
據(jù)悉,這項(xiàng)研究由美國國立衛(wèi)生研究院資助。
以上是關(guān)于MIT研究員發(fā)現(xiàn)蛋白質(zhì)語言模型的內(nèi)部工作原理的全部新聞,如果還想了解更多關(guān)于美國留學(xué)申請(qǐng)方面的相關(guān)知識(shí)的,歡迎隨時(shí)在線咨詢,托普仕留學(xué)專注美國前30高校申請(qǐng),多年名校申請(qǐng)經(jīng)驗(yàn)助力你的留學(xué)申請(qǐng)。
 相關(guān)推薦
              相關(guān)推薦
             最新資訊
              最新資訊