

MIT研究員瞥見了蛋白質(zhì)語言模型的內(nèi)部工作原理,他們采用一種新的方法可以揭示人工智能模型用于預(yù)測可能成為良好藥物或疫苗靶點的蛋白質(zhì)的特征。下面就詳細來看看吧!
在過去的幾年中,可以預(yù)測蛋白質(zhì)結(jié)構(gòu)或功能的模型已廣泛用于各種生物學應(yīng)用,例如確定藥物靶點和設(shè)計新的治療性抗體。
這些基于大型語言模型(llm)的模型可以非常準確地預(yù)測蛋白質(zhì)對給定應(yīng)用的適用性。然而,沒有辦法確定這些模型是如何做出預(yù)測的,或者哪些蛋白質(zhì)特征在這些決定中起著最重要的作用。
在一項新的研究中,MIT研究人員使用一種新穎的技術(shù)來打開這個“黑盒子”,并允許他們確定蛋白質(zhì)語言模型在進行預(yù)測時考慮了哪些特征。了解黑盒子里發(fā)生的事情可以幫助研究人員為特定任務(wù)選擇更好的模型,幫助簡化識別新藥或疫苗目標的過程。
“我們的工作對依賴這些表征的下游任務(wù)的可解釋性有廣泛的影響,”麻省理工學院計算機科學與人工智能實驗室計算與生物學小組負責人、西蒙斯數(shù)學教授邦妮·伯杰(Bonnie Berger)說,她是這項研究的資深作者?!按送?,識別蛋白質(zhì)語言模型跟蹤的特征有可能從這些表征中揭示新的生物學見解?!?/p>
麻省理工學院的研究生Onkar Gujral是這項研究的主要作者,該研究發(fā)表在本周的《美國國家科學院院刊》上。麻省理工學院的研究生Mihir Bafna和麻省理工學院的生物工程教授Eric Alm也是這篇論文的作者。
打開黑匣子
2018年,伯杰和前MIT研究生特里斯坦·貝普勒博士(Tristan Bepler)推出了第一個蛋白質(zhì)語言模型。他們的模型和隨后加速AlphaFold開發(fā)的蛋白質(zhì)模型(如ESM2和OmegaFold)一樣,都是基于llm的。這些模型,包括ChatGPT,可以分析大量的文本,并找出哪些單詞最有可能一起出現(xiàn)。
蛋白質(zhì)語言模型使用類似的方法,但它們分析的不是單詞,而是氨基酸序列。研究人員已經(jīng)使用這些模型來預(yù)測蛋白質(zhì)的結(jié)構(gòu)和功能,并用于識別可能與特定藥物結(jié)合的蛋白質(zhì)等應(yīng)用。
在2021年的一項研究中,伯杰和他的同事使用蛋白質(zhì)語言模型來預(yù)測病毒表面蛋白質(zhì)的哪些部分不太可能發(fā)生變異,從而使病毒逃逸。這使他們能夠確定針對流感、艾滋病毒和SARS-CoV-2的疫苗的可能目標。
然而,在所有這些研究中,都不可能知道這些模型是如何做出預(yù)測的。
伯杰說:“我們最終會得出一些預(yù)測,但我們完全不知道這個黑匣子的各個組成部分發(fā)生了什么?!?/p>
在這項新研究中,研究人員想要深入研究蛋白質(zhì)語言模型是如何做出預(yù)測的。就像llm一樣,蛋白質(zhì)語言模型將信息編碼為表征,表征由神經(jīng)網(wǎng)絡(luò)中不同“節(jié)點”的激活模式組成。這些節(jié)點類似于大腦中存儲記憶和其他信息的神經(jīng)元網(wǎng)絡(luò)。
llm的內(nèi)部工作原理并不容易解釋,但在過去的幾年里,研究人員已經(jīng)開始使用一種被稱為稀疏自動編碼器的算法來幫助闡明這些模型是如何做出預(yù)測的。伯杰實驗室的這項新研究首次在蛋白質(zhì)語言模型上使用了這種算法。
稀疏自編碼器通過調(diào)整蛋白質(zhì)在神經(jīng)網(wǎng)絡(luò)中的表示方式來工作。通常情況下,一個給定的蛋白質(zhì)將由有限數(shù)量的神經(jīng)元的激活模式來表示,例如,480個。稀疏自動編碼器將把這種表示擴展到更大的節(jié)點數(shù)量,比如20000個。
當一種蛋白質(zhì)的信息僅由480個神經(jīng)元編碼時,每個節(jié)點會點亮多個特征,因此很難知道每個節(jié)點正在編碼什么特征。然而,當神經(jīng)網(wǎng)絡(luò)擴展到20,000個節(jié)點時,這些額外的空間以及稀疏性約束為信息提供了“擴散”的空間?,F(xiàn)在,以前由多個節(jié)點編碼的蛋白質(zhì)的一個特征可以占據(jù)一個節(jié)點。
“在稀疏表示中,神經(jīng)元以一種更有意義的方式發(fā)光,”Gujral說?!霸趧?chuàng)建稀疏表示之前,網(wǎng)絡(luò)將信息緊密地打包在一起,以至于很難解釋神經(jīng)元?!?/p>
可說明的模型
一旦研究人員獲得了許多蛋白質(zhì)的稀疏表示,他們就會使用一個名為Claude的人工智能助手(與流行的同名Anthropic聊天機器人有關(guān))來分析這些表示。在這種情況下,他們要求Claude將稀疏表示與每種蛋白質(zhì)的已知特征(如分子功能、蛋白質(zhì)家族或細胞內(nèi)的位置)進行比較。
通過分析成千上萬的表示,Claude可以確定哪些節(jié)點對應(yīng)于特定的蛋白質(zhì)特征,然后用簡單的英語描述它們。例如,該算法可能會說,“這個神經(jīng)元似乎正在檢測參與離子或氨基酸跨膜運輸?shù)牡鞍踪|(zhì),特別是那些位于質(zhì)膜上的蛋白質(zhì)?!?/p>
這個過程使得節(jié)點更加“可解釋”,這意味著研究人員可以告訴每個節(jié)點在編碼什么。他們發(fā)現(xiàn),這些節(jié)點最有可能編碼的特征是蛋白質(zhì)家族和某些功能,包括幾種不同的代謝和生物合成過程。
“當你訓練一個稀疏的自動編碼器時,你并沒有訓練它是可解釋的,但事實證明,通過激勵表示是真正稀疏的,最終導致了可解釋性,”Gujral說。
了解特定蛋白質(zhì)模型編碼的特征可以幫助研究人員為特定任務(wù)選擇正確的模型,或者調(diào)整他們給模型的輸入類型,以產(chǎn)生最佳結(jié)果。此外,分析模型編碼的特征有一天可以幫助生物學家更多地了解他們正在研究的蛋白質(zhì)。
古杰拉爾說:“在某些時候,當模型變得更加強大時,你可以從開放模型中學到比你已經(jīng)知道的更多的生物學知識?!?/p>
據(jù)悉,這項研究由美國國立衛(wèi)生研究院資助。
以上是關(guān)于MIT研究員發(fā)現(xiàn)蛋白質(zhì)語言模型的內(nèi)部工作原理的全部新聞,如果還想了解更多關(guān)于美國留學申請方面的相關(guān)知識的,歡迎隨時聯(lián)系Tops6868或在線咨詢,托普仕留學專注美國前30高校申請,多年名校申請經(jīng)驗助力你的留學申請。