新華社快訊:瑞典皇家科學(xué)院9日宣布,將2024年諾貝爾化學(xué)獎授予三名科學(xué)家,以表彰他們在蛋白質(zhì)設(shè)計和蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域作出的貢獻。
10月9日,在瑞典斯德哥爾摩舉行的2024年諾貝爾化學(xué)獎公布現(xiàn)場,屏幕顯示獎項得主美國華盛頓大學(xué)的戴維·貝克、英國倫敦谷歌旗下人工智能公司“深層思維”的德米斯·哈薩比斯和約翰·江珀。新華社記者 彭子洋 攝
10月9日,在瑞典斯德哥爾摩舉行的2024年諾貝爾化學(xué)獎公布現(xiàn)場,屏幕顯示獎項得主美國華盛頓大學(xué)的戴維·貝克、英國倫敦谷歌旗下人工智能公司“深層思維”的德米斯·哈薩比斯和約翰·江珀。新華社記者 彭子洋 攝
化學(xué)家長期以來一直夢想著完全理解和掌握生命的化學(xué)工具——蛋白質(zhì)。這個夢想現(xiàn)在已經(jīng)觸手可及。Demis Hassabis和John M. Jumper已成功利用人工智能來預(yù)測幾乎所有已知蛋白質(zhì)的結(jié)構(gòu)。大衛(wèi)·貝克學(xué)會了如何掌握生命的構(gòu)建模塊并創(chuàng)造全新的蛋白質(zhì)。他們的發(fā)現(xiàn)潛力巨大。
生命的旺盛化學(xué)反應(yīng)如何可能?這個問題的答案就是蛋白質(zhì)的存在,蛋白質(zhì)可謂是絕妙的化學(xué)工具。它們通常由 20 種氨基酸組成,可以以無數(shù)種方式組合。以 DNA 中存儲的信息為藍(lán)圖,氨基酸在我們的細(xì)胞中連接在一起形成長串。
然后蛋白質(zhì)的魔力發(fā)生了:一串氨基酸扭曲并折疊成一種獨特的——有時是獨特的——三維結(jié)構(gòu)(圖 1)。這種結(jié)構(gòu)賦予了蛋白質(zhì)功能。有些成為可以創(chuàng)造肌肉、角或羽毛的化學(xué)構(gòu)件,而另一些則可能成為激素或抗體。其中許多會形成酶,以驚人的精確度驅(qū)動生命的化學(xué)反應(yīng)。位于細(xì)胞表面的蛋白質(zhì)也很重要,它們充當(dāng)細(xì)胞與其周圍環(huán)境之間的溝通渠道。
© Johan Jarnestad/瑞典皇家科學(xué)院這 20 種氨基酸是生命的化學(xué)組成部分,其潛力怎么強調(diào)都不為過。 2024 年諾貝爾化學(xué)獎旨在讓人們在全新的水平上理解和掌握它們。一半的獎金授予 Demis Hassabis 和 John Jumper,他們利用人工智能成功解決了化學(xué)家 50 多年來一直困擾的問題:根據(jù)氨基酸序列預(yù)測蛋白質(zhì)的三維結(jié)構(gòu)。這使得他們能夠預(yù)測幾乎所有 2 億種已知蛋白質(zhì)的結(jié)構(gòu)。獎金的另一半授予大衛(wèi)·貝克。他開發(fā)了計算機化方法來實現(xiàn)許多人認(rèn)為不可能的事情:創(chuàng)造以前不存在的蛋白質(zhì),并且在許多情況下具有全新的功能。
2024 年諾貝爾化學(xué)獎表彰了兩項不同的發(fā)現(xiàn),但正如您將看到的,它們密切相關(guān)。為了了解今年的獲獎?wù)呖朔奶魬?zhàn),我們必須回顧現(xiàn)代生物化學(xué)的黎明。
自 19 世紀(jì)起,化學(xué)家就知道蛋白質(zhì)對于生命過程很重要,但直到 20 世紀(jì) 50 年代化學(xué)工具才足夠精確,研究人員才開始更詳細(xì)地探索蛋白質(zhì)。劍橋大學(xué)研究人員John Kendrew和Max Perutz在本世紀(jì)末取得了突破性的發(fā)現(xiàn),他們成功地使用一種稱為 X 射線晶體學(xué)的方法提出了第一個蛋白質(zhì)的三維模型。為了表彰這一發(fā)現(xiàn),他們于 1962 年獲得了諾貝爾化學(xué)獎。
圖 1.蛋白質(zhì)可以由從數(shù)十個到數(shù)千個氨基酸的各種氨基酸組成。這串氨基酸折疊成三維結(jié)構(gòu),這對于蛋白質(zhì)的功能至關(guān)重要。 ©Johan Jarnestad/瑞典皇家科學(xué)院 © Johan Jarnestad/瑞典皇家科學(xué)院隨后,研究人員主要使用 X 射線晶體學(xué)(通常需要付出巨大的努力)成功生成約 200,000 種不同蛋白質(zhì)的圖像,這為 2024 年諾貝爾化學(xué)獎奠定了基礎(chǔ)。
美國科學(xué)家克里斯蒂安·安芬森還有一項早期發(fā)現(xiàn)。他利用各種化學(xué)技巧,成功地使現(xiàn)有的蛋白質(zhì)展開,然后再次折疊起來。有趣的觀察是蛋白質(zhì)每次都呈現(xiàn)完全相同的形狀。 1961年,他得出結(jié)論:蛋白質(zhì)的三維結(jié)構(gòu)完全由蛋白質(zhì)中的氨基酸序列決定。這使他于 1972 年榮獲諾貝爾化學(xué)獎。
然而,安芬森的邏輯包含一個悖論,另一位美國人賽勒斯·萊文塔爾(Cyrus Levinthal)在1969年指出。他計算出,即使蛋白質(zhì)僅由100個氨基酸組成,理論上該蛋白質(zhì)也可以呈現(xiàn)至少10 47種不同的三維結(jié)構(gòu)。如果氨基酸鏈隨機折疊,則需要比宇宙年齡更長的時間才能找到正確的蛋白質(zhì)結(jié)構(gòu)。在細(xì)胞中,只需要幾毫秒。那么這串氨基酸實際上是如何折疊的呢?
安芬森的發(fā)現(xiàn)和萊文塔爾的悖論暗示折疊是一個預(yù)定的過程。而且重要的是,有關(guān)蛋白質(zhì)如何折疊的所有信息都必須存在于氨基酸序列中。
上述見解導(dǎo)致了另一個決定性的認(rèn)識——如果化學(xué)家知道蛋白質(zhì)的氨基酸序列,他們應(yīng)該能夠預(yù)測蛋白質(zhì)的三維結(jié)構(gòu)。這是一個令人興奮的想法。如果他們成功了,他們將不再需要使用繁瑣的 X 射線晶體學(xué),并且可以節(jié)省大量時間。他們還能夠生成 X 射線晶體學(xué)不適用的所有蛋白質(zhì)的結(jié)構(gòu)。
這些合乎邏輯的結(jié)論向生物化學(xué)面臨的巨大挑戰(zhàn)提出了挑戰(zhàn):預(yù)測問題。為了鼓勵該領(lǐng)域更加快速的發(fā)展,研究人員于 1994 年啟動了一個名為“蛋白質(zhì)結(jié)構(gòu)預(yù)測批判性評估” (CASP) 的項目,該項目后來發(fā)展成為一項競賽。每隔一年,來自世界各地的研究人員就可以獲得結(jié)構(gòu)剛剛確定的蛋白質(zhì)中的氨基酸序列。然而,這些結(jié)構(gòu)對參與者保密。挑戰(zhàn)是根據(jù)已知的氨基酸序列預(yù)測蛋白質(zhì)結(jié)構(gòu)。
CASP 吸引了許多研究人員,但事實證明解決預(yù)測問題極其困難。研究人員在競賽中輸入的預(yù)測與實際結(jié)構(gòu)之間的一致性幾乎沒有任何改善。這一突破直到 2018 年才出現(xiàn),當(dāng)時一位國際象棋大師、神經(jīng)科學(xué)專家和人工智能先驅(qū)進入了該領(lǐng)域。
讓我們快速了解一下 Demis Hassabis 的背景:他四歲開始下棋,13 歲達(dá)到大師水平。在他十幾歲的時候,他開始了程序員和成功的游戲開發(fā)人員的職業(yè)生涯。他開始探索人工智能并研究神經(jīng)科學(xué),并取得了多項革命性的發(fā)現(xiàn)。他利用自己對大腦的了解為人工智能開發(fā)了更好的神經(jīng)網(wǎng)絡(luò)。 2010 年,他與他人共同創(chuàng)立了 DeepMind 公司,該公司為流行的棋盤游戲開發(fā)精湛的人工智能模型。該公司于 2014 年被出售給谷歌,兩年后,當(dāng)該公司實現(xiàn)了當(dāng)時許多人認(rèn)為的人工智能圣杯:擊敗世界上最古老的棋盤游戲之一圍棋的冠軍選手時,DeepMind 引起了全球關(guān)注。
然而,對于 Hassabis 來說,Go 并不是目標(biāo),而是開發(fā)更好的 AI 模型的手段。這場勝利之后,他的團隊已經(jīng)準(zhǔn)備好解決對人類更重要的問題,因此在 2018 年,他報名參加了第十三屆 CASP 競賽。
前幾年,研究人員預(yù)測的 CASP 蛋白質(zhì)結(jié)構(gòu)的準(zhǔn)確度最多只有 40%。借助 AI 模型 AlphaFold,Hassabis 的團隊達(dá)到了近 60%。他們贏了,優(yōu)異的成績讓很多人都大吃一驚——這是意想不到的進步,但解決方案仍然不夠好。為了獲得成功,與目標(biāo)結(jié)構(gòu)相比,預(yù)測的準(zhǔn)確度必須達(dá)到 90%。
圖 2.AlphaFold2 是如何工作的? © Johan Jarnestad/瑞典皇家科學(xué)院哈薩比斯和他的團隊繼續(xù)開發(fā) AlphaFold——但是,無論他們?nèi)绾闻Γ撍惴◤奈赐耆晒Α埧岬氖聦嵤牵麄円呀?jīng)走進了死胡同。團隊很疲憊,但一位相對較新的員工對如何改進人工智能模型有決定性的想法:約翰·詹珀 (John Jumper)。
約翰·詹珀對宇宙的迷戀促使他開始學(xué)習(xí)物理和數(shù)學(xué)。然而,2008 年,當(dāng)他開始在一家使用超級計算機模擬蛋白質(zhì)及其動力學(xué)的公司工作時,他意識到物理知識可以幫助解決醫(yī)學(xué)問題。
2011 年,當(dāng)詹珀開始攻讀理論物理學(xué)博士學(xué)位時,他對蛋白質(zhì)產(chǎn)生了新的興趣。為了節(jié)省計算機容量(大學(xué)里緊缺的東西),他開始開發(fā)更簡單、更巧妙的方法來模擬蛋白質(zhì)動力學(xué)。很快,他也接受了生物化學(xué)這一巨大挑戰(zhàn)的挑戰(zhàn)。 2017 年,當(dāng)他剛剛完成博士學(xué)位時,他聽到了谷歌 DeepMind 已經(jīng)開始秘密預(yù)測蛋白質(zhì)結(jié)構(gòu)的傳言。他向他們發(fā)送了一份工作申請。他在蛋白質(zhì)模擬方面的經(jīng)驗意味著他對如何改進 AlphaFold 有創(chuàng)造性的想法,因此,在團隊開始停滯不前后,他得到了晉升。 Jumper 和 Hassabis 共同領(lǐng)導(dǎo)了從根本上改革人工智能模型的工作。
新版本——AlphaFold2——是根據(jù)跳躍者的蛋白質(zhì)知識來著色的。該團隊還開始使用人工智能最近取得的巨大突破背后的創(chuàng)新:稱為Transformer 的神經(jīng)網(wǎng)絡(luò)。這些可以比以前更靈活的方式在大量數(shù)據(jù)中找到模式,并有效地確定應(yīng)該關(guān)注什么來實現(xiàn)特定目標(biāo)。
該團隊利用所有已知蛋白質(zhì)結(jié)構(gòu)和氨基酸序列數(shù)據(jù)庫中的大量信息對 AlphaFold2 進行了訓(xùn)練(圖 2),新的 AI 架構(gòu)開始及時為第十四屆 CASP 競賽提供良好的結(jié)果。
2020 年,當(dāng) CASP 的組織者評估結(jié)果時,他們明白生物化學(xué)長達(dá) 50 年的挑戰(zhàn)已經(jīng)結(jié)束。在大多數(shù)情況下,AlphaFold2 的表現(xiàn)幾乎與 X 射線晶體學(xué)一樣好,這令人震驚。當(dāng) CASP 創(chuàng)始人之一 John Moult 于 2020 年 12 月 4 日結(jié)束比賽時,他問道:現(xiàn)在怎么辦?
我們將回到這一點。現(xiàn)在我們要回到過去,了解 CASP 的另一位參與者。讓我們介紹 2024 年諾貝爾化學(xué)獎的另一半,它涉及從頭開始創(chuàng)造新蛋白質(zhì)的藝術(shù)。
當(dāng)大衛(wèi)·貝克開始在哈佛大學(xué)學(xué)習(xí)時,他選擇了哲學(xué)和社會科學(xué)。然而,在進化生物學(xué)課程中,他偶然發(fā)現(xiàn)了現(xiàn)在經(jīng)典教科書《細(xì)胞分子生物學(xué)》的第一版。這導(dǎo)致他改變了人生的方向。他開始探索細(xì)胞生物學(xué),最終對蛋白質(zhì)結(jié)構(gòu)著迷。 1993 年,當(dāng)他開始擔(dān)任西雅圖華盛頓大學(xué)的小組組長時,他接受了生物化學(xué)領(lǐng)域的巨大挑戰(zhàn)。通過巧妙的實驗,他開始探索蛋白質(zhì)如何折疊。當(dāng)他在 20 世紀(jì) 90 年代末開始開發(fā)可以預(yù)測蛋白質(zhì)結(jié)構(gòu)的計算機軟件:Rosetta 時,這為他提供了深刻的見解。
Baker 在 1998 年使用 Rosetta 首次參加 CASP 比賽,與其他參賽者相比,表現(xiàn)非常好。這一成功引發(fā)了一個新想法——大衛(wèi)·貝克的團隊可以反向使用該軟件。他們應(yīng)該能夠輸入所需的蛋白質(zhì)結(jié)構(gòu)并獲得有關(guān)其氨基酸序列的建議,而不是在 Rosetta 中輸入氨基酸序列并得出蛋白質(zhì)結(jié)構(gòu),這將使他們能夠創(chuàng)造出全新的蛋白質(zhì)。
蛋白質(zhì)設(shè)計領(lǐng)域——研究人員創(chuàng)造具有新功能的定制蛋白質(zhì)——于 20 世紀(jì) 90 年代末開始騰飛。在許多情況下,研究人員對現(xiàn)有的蛋白質(zhì)進行了調(diào)整,這樣它們就可以做一些事情,比如分解有害物質(zhì)或充當(dāng)化學(xué)制造業(yè)的工具。
然而,天然蛋白質(zhì)的范圍是有限的。為了增加獲得具有全新功能的蛋白質(zhì)的潛力,貝克的研究小組希望從頭開始創(chuàng)造它們。正如貝克所說:“如果你想制造一架飛機,你不能從改造一只鳥開始;而是要從改造一只鳥開始。”相反,你了解空氣動力學(xué)的首要原理,并根據(jù)這些原理建造飛行器。”
圖 3. Top7 – 第一個與所有已知現(xiàn)有蛋白質(zhì)完全不同的蛋白質(zhì)。 ©Terezia Kovalova/瑞典皇家科學(xué)院構(gòu)建全新蛋白質(zhì)的領(lǐng)域稱為從頭設(shè)計。研究小組繪制了一種具有全新結(jié)構(gòu)的蛋白質(zhì),然后讓 Rosetta 計算出哪種類型的氨基酸序列可以產(chǎn)生所需的蛋白質(zhì)。為此,Rosetta 搜索了所有已知蛋白質(zhì)結(jié)構(gòu)的數(shù)據(jù)庫,并尋找與所需結(jié)構(gòu)相似的蛋白質(zhì)短片段。 Rosetta 利用蛋白質(zhì)能量景觀的基礎(chǔ)知識優(yōu)化了這些片段并提出了氨基酸序列。
為了研究該軟件的成功程度,貝克的研究小組在產(chǎn)生所需蛋白質(zhì)的細(xì)菌中引入了擬議氨基酸序列的基因。然后他們使用 X 射線晶體學(xué)確定了蛋白質(zhì)結(jié)構(gòu)。
事實證明,羅塞塔真的可以構(gòu)建蛋白質(zhì)。研究人員開發(fā)的蛋白質(zhì)Top7幾乎與他們設(shè)計的結(jié)構(gòu)完全相同。
對于從事蛋白質(zhì)設(shè)計的研究人員來說,Top7 是晴天霹靂。那些以前從頭創(chuàng)造蛋白質(zhì)的人只能模仿現(xiàn)有的結(jié)構(gòu)。 Top7的獨特結(jié)構(gòu)在自然界中并不存在。此外,該蛋白質(zhì)含有 93 個氨基酸,比以前使用從頭設(shè)計生產(chǎn)的任何蛋白質(zhì)都要大。
貝克于 2003 年發(fā)表了他的發(fā)現(xiàn)。這是只能被描述為非凡發(fā)展的第一步。 Baker 實驗室創(chuàng)造的眾多令人驚嘆的蛋白質(zhì)中的一些如圖 4 所示。他還發(fā)布了 Rosetta 的代碼,因此全球研究社區(qū)繼續(xù)開發(fā)該軟件,尋找新的應(yīng)用領(lǐng)域。
是時候解決 2024 年諾貝爾化學(xué)獎的懸而未決的事情了。現(xiàn)在怎么辦?
圖 4.使用 Baker 的 Rosetta 程序開發(fā)的蛋白質(zhì)。 ©Terezia Kovalova/瑞典皇家科學(xué)院當(dāng) Demis Hassabis 和 John Jumper 確認(rèn) AlphaFold2 確實有效后,他們計算了所有人類蛋白質(zhì)的結(jié)構(gòu)。然后,他們預(yù)測了研究人員迄今為止在繪制地球生物圖時發(fā)現(xiàn)的幾乎所有 2 億種蛋白質(zhì)的結(jié)構(gòu)。
谷歌 DeepMind 還公開了 AlphaFold2 的代碼,任何人都可以訪問它。人工智能模型已成為研究人員的金礦。截至 2024 年 10 月,AlphaFold2 已被來自 190 個國家的超過 200 萬人使用。以前,如果有的話,通常需要數(shù)年時間才能獲得蛋白質(zhì)結(jié)構(gòu)。現(xiàn)在只需幾分鐘即可完成。人工智能模型并不完美,但它估計了其生成的結(jié)構(gòu)的正確性,因此研究人員知道預(yù)測的可靠性。圖 5 顯示了 AlphaFold2 如何幫助研究人員的眾多示例中的幾個。
2020 年 CASP 競賽結(jié)束后,當(dāng) David Baker 意識到基于 Transformer 的 AI 模型的潛力時,他在 Rosetta 中添加了一個模型,這也促進了蛋白質(zhì)的從頭設(shè)計。近年來,貝克實驗室不斷創(chuàng)造出令人難以置信的蛋白質(zhì)(圖 4)。
圖 5.使用 AlphaFold2 確定的蛋白質(zhì)結(jié)構(gòu)。 ©Terezia Kovalova/瑞典皇家科學(xué)院蛋白質(zhì)作為化學(xué)工具的驚人多功能性體現(xiàn)在生命的巨大多樣性上。我們現(xiàn)在可以如此輕松地想象這些小分子機器的結(jié)構(gòu),這真是令人難以置信。它使我們能夠更好地了解生命的運作方式,包括為什么會出現(xiàn)一些疾病、抗生素耐藥性是如何發(fā)生的或者為什么一些微生物可以分解塑料。
創(chuàng)造具有新功能的蛋白質(zhì)的能力同樣令人震驚。這可以帶來新的納米材料、靶向藥物、更快速的疫苗開發(fā)、最小的傳感器和更綠色的化學(xué)工業(yè)——僅舉幾個為人類帶來最大利益的應(yīng)用。
有關(guān)今年獎項的更多信息,包括英語科學(xué)背景,請訪問瑞典皇家科學(xué)院網(wǎng)站 www.kva.se 和 www.nobelprize.org,您可以在其中觀看新聞發(fā)布會的視頻、諾貝爾講座等等。有關(guān)諾貝爾獎和經(jīng)濟科學(xué)獎相關(guān)展覽和活動的信息,請訪問 www.nobelprizemuseum.se。
與二分之一
大衛(wèi)·貝克 (DAVID BAKER)
1962 年出生于美國華盛頓州西雅圖。 1989年獲得美國加州大學(xué)伯克利分校博士學(xué)位。美國華盛頓州西雅圖華盛頓大學(xué)教授。
“用于計算蛋白質(zhì)設(shè)計”
和另一半共同
德米斯·哈薩比斯 (DEMIS HASSABIS)
1976 年出生于英國倫敦。 2009年獲得英國倫敦大學(xué)學(xué)院博士學(xué)位。谷歌 DeepMind 首席執(zhí)行官,英國倫敦。
JOHN M. JUMPER
1985 年出生于美國阿肯色州小石城。 2017年獲得美國伊利諾伊州芝加哥大學(xué)博士學(xué)位。英國倫敦 Google DeepMind 高級研究科學(xué)家。
“用于蛋白質(zhì)結(jié)構(gòu)預(yù)測”
科學(xué)編輯: Peter Brzezinski、Heiner Linke、Johan ?qvist,諾貝爾化學(xué)委員會
文本: Ann Fernholm
譯者: Clare Barnes
插圖:Johan Jarnestad、Terezia Kovalova
編輯: Vincent von Sydow
© 瑞典皇家科學(xué)院
引用本節(jié)
MLA風(fēng)格:熱門信息。 NobelPrize.org。 2024 年諾貝爾獎外展 AB。周三。 2024 年 10 月 9 日。