人工智能水電工程驅動的性命迷信研討新范式
中國網/中國發展門戶網訊 2007年,圖靈獎得主吉姆·格雷(Jim Gray)提出了科學研討的四類范式,這些范式基礎上被科學界廣泛認可。第一范式是實驗(經驗)科學,重要通過實驗或經驗來描寫天然現象并總結規律;第二范式是理論科學,科學家通過數學模子進行歸納總結構成科學理論;第三范式是計算科學,應用計算機對科學實驗進行模擬仿真;第四范式是數據科學,應用儀器搜集或仿真計算產生的大批數據進行剖析與知識提取。科學研討的范式變革體現了人類對宇宙摸索的深度、廣度、方法和效力的演進。
性命科學的發展經歷了多個階段,其研討范式的演進也有其獨特的學科屬性。在性命科學晚期發展階段,生物學家重要通過觀察分歧生物體的形態和行為形式來摸索生物存在的普通情勢和演變的配合規律,這一階段的代表是達爾文,通過全球考核積累了大批物種的表象描寫資料,并以此提出了進化論。從20世紀中葉開始,以DNA雙螺旋結構的提醒為標志,性命科學研討進進了分子生物學時代,生物學家開始在更深層次程度研討性命的基礎組成和運作規律。在這一階段,生物學家仍重要通過對生物現象的觀察和實驗來總結規律與知識。隨著性命科學的進一個步驟發展和新型生物技術的疾速涌現,科學家可以對性命科學在分歧層級和分歧辨別率下進行更為廣泛的摸索,這也使得性命科學領域的數據呈現爆發性增長。通過高通量、多維度組學數據剖析與實驗科學結合的方法對生物過程進行加倍精細的描寫息爭析,成為現代性命科學研討的常態。
但是,性命系統具有多層面的復雜性,涵蓋了從分子、細胞到個水電師傅體分歧層次,以及個體間的種群關系、機體與環境的互作關系,展現出多層級、高維度、高度互聯、動態調控的特點。現有的實驗科學研討范式在面對這般復雜的性命系統時,往往只能從特定標準對無限數量的樣本進行觀察描寫和研討,難以周全懂得生物網絡的運作機制;并且高度依賴人的經驗和先驗知識對特定生物關系進行摸索,難以從年夜規模、多樣性、高維度數據中高效提取隱匿的關聯和機制。面對性命現象中復雜的非線性關系和難以預測的特征,人工智能(AI)技術展現出強年夜的才能,并且已經在卵白質結構預測、基因調控網絡模擬解析方面表現出顛覆性的應用潛力,將性命科學研討由實驗科學為主的第一范式推向以人工智能驅動的性命科學研討新范式——第五范式(圖1)。
本文將從AI驅動的性命科學研討典範范例、性命科學研討新范式的內涵和關鍵要素、新范式賦能的性命科學研討前沿及我國面臨的挑戰3個方面進行系統論述。
人工智能驅動的性中山區 水電行命科學研討典範范例
性命是一個多層次、多標準、動態互聯、彼此影響的復雜系統。在面對性命現象的極端復雜性、多標準跨越和時空動態變化時,傳統的性命科學研討范式往往只能從部分進手,通過實驗驗證或無限層次的組學數據剖析樹立無限生物分子和表型的關聯關系。但是,即便花費宏大本錢,也凡是只能發現特定情境下的單一線性關聯機制,與性命活動的非線性屬性在復雜度上存在顯著差中正區 水電異,難以周全懂得整個網絡的運作機制。
AI技術,尤其是深度學習和預訓練年夜模子等技術,以其優越的形式識別和特征提取才能,能夠在龐年夜的參數堆疊情況下超出人類感性推理才能,從數據中更好地輿解復雜生物系統中的規律。現代生物技術的不斷發展,使性命科學領域的數據呈現跨越式增長,在過往全球范圍性命科學研討中,人類已經積累了大批基于實驗描寫和驗證的數據,為AI破解性命科學底層規律創造了基礎]。當擁有充分且高質量的數據和適配于性命科學的算法時,AI模子就能夠在多層次的海量數據中以“低維”數據預測“高維”信息及規律,實現從基因序列和表達等低維數據到細胞、機體等高維復雜生物過程規律提醒的跨越,解析復雜的非線性關系,如生物年夜分子結構天生規律、基因表達調控機制,甚至個體發育、朽邁等多原因穿插的復雜生物系統中的底層規律。在此發展趨勢下,近年來性命科學領域涌現出了卵白質結構解析、基因調控規律解析等一批AI驅動性命科學研討發展的典範范例。
卵白中山區 水電行質結構解析范例
卵白質作為生物體內關鍵效能的執行者,其結構直接影響運輸、催化、結合和免疫效能等主要的生物過程。雖然測序技術可以提醒卵白質所包括的氨基酸序列,但任何一個已知氨基酸序列大安 區 水電 行的卵白質鏈有能夠折疊成地理數字中的任何一種能夠構象,這使得準確解析卵白質結構成為長期以來的挑戰。應用傳統技術如核磁共振、X射線晶體剖析、冷凍電可他心裡有一道坎,卻是做不到,所以這次他得去祁州。他只希望妻子能通過這半年的考驗。如果她真的能得到媽媽的認可,子顯微鏡等解析已知序列的卵白質結構方式,需求數年時間才幹描繪出單個卵白質的形狀,昂貴耗時且不克不及保證勝利解析其結構。是以,捕獲卵白質折疊的底層規她不想哭,因為在結婚之前,她告訴自己,這是她水電網自己的選擇。以後無論面對什麼樣的生活,她都不能哭,因為她是來贖罪的律從而實現對卵白質結構的精準預測,一向是結構生物學領域最主要的挑戰之一。
松山區 水電行AlphaFold 2應用基于留意力機制的深度學習算法,對大批卵白質序列和結構數據進行訓練,并結合物理學、化學和生物學的先驗知識,構建了包括特征提取、編碼、解碼模塊的卵白質結構解析模子。在2020年國際卵白質結構預測競賽(CASP14)中,AlphaFold 2獲得了矚目標成績,其卵白質三維結構預測準確性甚至可與實驗解析的結果相媲美。這一衝破為性命科學領域帶來了全新的視角和史無前例的機遇,重要體現在3點。
對藥物發現領域產生了直接影響。年夜多數藥物通過與體內卵白質特別結構域的結合而引發卵白質效能的變化,AlphaFold 2能夠疾速計算出海量目標卵白質的結構,從而有針對性地設計藥物以有用地與這些卵白質結合。
對卵白質的感性台北 水電 維修設計供給了新的能夠性。一旦AI對卵白質折疊的底層規律有了深入懂得,就可以應用這一知識設計中正區 水電行出折疊成所需結構的卵白質序列。這使得生物學家可以根據需求不受拘束設計和改革卵白質或酶的結構,如設計更高活性的基因編輯酶,甚至是天然界中不存在的卵白質結構[6]。同時也推動了人們對基因編碼信息在卵白質層面結構投射規律的懂得,并將年夜幅進步人類對性命的改革才能。
AlphaFold 2徹底改變卵白質結構解析領域的研討范式。從只能通過費時費力的傳統實驗技術解析卵白質結構轉變為低門檻、高精度、高通量地預測卵白質三維結構的新范式,證明通過將卵白質知識和AI技術相結合,可以提取和學習到高維、復雜的知識,促進對卵白質物理結構和效能的更深刻懂得。
基因調控規律解析范例
人類基因組計劃被譽為20世紀人類三年夜科學計劃之一,揭開了性命奧秘的尾聲。盡管編碼性命個體的遺傳信息存儲在DNA序列中,但每個細胞的命運和表型卻因其獨特的時空佈景而千差萬別。這種復雜的性中山區 水電行命過程由精細的基因表達調控系統所把持,而摸索性命廣泛存在的基因調控機制是繼人類基因組計劃之后最為主要的性命科學問題之一。分歧細胞的基因表達譜是懂得生物系統內基因調控活動的幻想窗口。但是,僅通過生物學實驗周全解讀基因調控機制,需求捕獲分歧生物個體的分歧細胞類型在分歧環境佈景下的對照試驗來觀察。傳統生物信息剖析方式只能處理大批數據,對年夜規模、高維度且缺少準確標注的生物組年夜數據難以捕獲數據中復雜的非線性關系。
近年來,天然語言處理技術的不斷衝破,特別是年夜語言模子的迅猛發展,能夠通過訓練語料數據使模子具有懂得人類語言描寫知識的才能,為解決這一領域問題帶來了新思緒。國際多個研討團隊借鑒年夜語言模子的訓練思緒,相繼基于數以千萬計的人類單細胞轉錄組譜數據和龐年夜的算力資源,應用Transformer等先進算法和多種生物學知識,構建了多個具有懂得基因動態關系才能的性命基礎年夜模子,如GeneCompass、scGPT、Geneformer和scFoundation等。這些性命基礎年夜模子以基因表達等底層性命活動信息為訓練基礎,應用機器來學信義區 水電行習懂得這些“低維”的性命科學數據與復雜“高維”的基因表達調控網絡、細胞命運轉變等底層性命機制之間的關聯性和對應規律,實現以低維數據對高維信息的有用模擬和預測。這種對基因表達調控網絡的模擬大安區 水電行可以在廣泛的下流任務中表現出出色機能,為深刻懂得基因調控規律供給了全新的途徑。
現有的AI驅動性命科學研討的勝利案例向我們證明,面對更深刻、更系統的性命科學問題,AI無望衝破傳統研討方式難以解決的窘境、構建從基礎生物層次到整個性命系統的投射理論體系,并進一個步驟推動性命科學向更高階段發展,開啟性命科學研討的新范式。
性命科學研討新范式的內涵和關鍵要素
隨著生物技術的不斷進步、性命科學數據的疾速增長、AI技術的飛速發展及其與性命領域的深度穿插融會,AI展現出了對性命科學知識的深刻懂得和泛化才能,不僅進步了性命科學的研討高度和廣度,也促使性命科學研討由實驗科學為主的第一范式,跨越進進AI驅動的性命科學研討新范式(第五范式,以下簡稱“新范式”)。
通過深刻分析AI驅動性命科學研討的典範范例,筆者認為,性命科學研討的新范式正如一臺智能化的新動力汽車,對標新動力汽車的電池系統、電控系統、電機系統、輔助駕駛系統大安 區 水電 行、底盤系統等焦點技術,新范式應具備性命科學年夜數據、智能算法模子、算力平臺、專家先驗知識和穿插研討團隊五年夜關鍵要素(圖2)。猶如電池系統為車輛供給能量,性命科學年夜數據為科學研討供給基礎資源;算法模子則像智能電控系統,賦能深刻懂得生物系統的運行機制;算力平臺可比方為電機系統,負責處理海量的科學數據和復雜的計算任務;專家信義區 水電行先驗知識則像輔助駕駛系統,為科學家供給標的目的引領和實施經驗;穿插研討團隊類似于底盤系統,負責整合分歧領域的知識和技巧,通過跨學科一起配合進步研討效力,推動性命科學的發展。
關鍵要素一:性命科學年夜數據
性命科學年夜數據是新范式“汽車”的“電池”系統。隨著新型生物技術的發展,具有多模態、多維度、分布疏散、關聯隱匿、多層次交匯等特點的性命科學年夜數據逐漸構成;只要對性命科學年夜數據進行有用整合并應用創新AI技術充足發掘數據,才幹夠打破人類科學家水電的認知局限、促進新發現的產生并拓展性命科學的摸索范圍。例如醫療視覺年夜模子,通過整合多來源、多模態、多任務的醫療圖像數據,實現了在少樣本和零樣本條件下的多種應用;跨物種性命基礎年夜模子GeneCompass,通過有用整合全球開源的單細胞數據,在超過1.2億個單細胞的訓練數據集上實現了對基因表達調控規律的全景式學習懂得等多個性命科學問題的剖析。
關鍵要素二:智能算法模子
智能算法模子是新范式“汽車”的“電控”系統。從浩如煙海的性命科學年夜數據中涌現性命的新規律和新知識,需求創新AI算法和模子;若何研發應用性命科學適配的AI算法、提取有用的生物特征、構建年夜規模生物過程動態模子,是當前新范式的中間問題。例如,Gerstein團隊應用貝葉斯網絡算法預測卵白質彼此感化的結果發表于Science,為經典機器學習在生物信息領域發展奠基了基礎;圖卷積神經網絡算法被用于剖析卵白質—卵白質彼此感化網絡和基因調控網絡等生物分子網絡,拓展了性命科學領域的研討標的目的;AlphaFold 2應用Transformer模子,能夠在高準確度的基礎上疾速計算出大批卵白質的結構,都展現出了AI算法模子在性命科學研討新范式中的主要性。
關鍵要素三:算力平臺
算力平臺是新范式“汽車”的“電機”系統。算力是實現AI運行的基礎,深度學習、年夜模子技術等適用于性命科學研討新范式的AI算法模子的不斷發展,使AI模子訓練需求更強年夜、更高效的算力平臺支撐。面向新范式,未來應構建能夠支撐AI賦能性命科學研討的硬件才能平臺,包含建設高速年夜容量存儲系統、構建高機能高吞吐量超級計算機、研發專門用于處理性命科學數據的芯片、設計用于加快生物模子推理和訓練的專用處理器等,為性命科學研討供給高效、靠得住的計算和處理才能,以應對性命科學領域產生的海量數據、滿足性命科學領域復雜模子構建的計算需求,保證AI在性命科學領域的應用和創新。
關鍵要素四:專家先驗知識
專家先驗知識是新范式“汽車”的“輔助駕駛”系統。新范式下,已有的性命科學知識將為AI算法模子供給寶貴的訓練約束條件、主要的佈景和特征關系,幫助解釋和懂得性命科學數據的復雜性、驗證和優化AI在性命科學領域的應用;能夠在AI算法設計和模子構建時發揮主要的指導感化,促進加倍準確、高效地解決性命科學問題,推動性命科學研討向更深刻、周全的標的目的發展。例如,通過嵌進性命科學專家先驗知識和人類注釋信息編碼,新型基因表達預訓練年夜模子[7]進步了對生物數據間復雜特征關聯關系的解釋,展現出更為優異的模子表現。
關鍵要素五:穿插研討團隊
穿插研討團隊是新范式“汽車”的“底盤”系統。新范式下,一支由AI專家、數據科學家、生物學家和醫學家等組成的多學科穿插研討團隊對于實現跨越式的性命科學發現至關主要。多元佈景緊密協作的穿插研討團隊能夠整合AI、生物學、醫學等領域的專業知識,供給多元化的視角和方式,為周全懂得息爭決性命科學中的復雜機制問題供給堅固基礎,為創新性解決計劃供給更多能夠性,從而推動性命科學領域的衝破性發現和進展。
新范式賦能的性命科學研討前沿及我國面臨的挑戰
傳統的研討范式對性命的摸索好像管中窺豹,生物學家在性命科學的分歧細分領域各自奮戰。隨著新范式的不斷發展,性命科學研討將迎來以AI預測、指導、提出假說、驗證假設為特點的新型研討模態,迸發出一批疾速發展的性命科學新范式前沿研討標的目的,并展現出新范式變革帶來的發展增益。但是,在當前條件下加快推進水電 行 台北我國性命科學研討新范式的樹立和推廣,仍面臨一系列宏大的挑戰。
新范式賦能的性命科學研討前沿
結構生物學。今朝在結構生物學領域,以AlphaFold為代表的AI應用技術仍逗留在“從序列到結構”的卵白質結構預測和設計階段,還無法實現復雜心理條件下卵白質結構和效能的模擬與預測。更高質量、更年夜規模的卵白質數據和新型算法的出現,將無望對分歧心信義區 水電理狀態和時空條件下的生物年夜分子結構和效能進行系統解析,并實現卵白質“從序列到效能”甚至“從序列到多標準彼此感化”的智能化結構解析與中正區 水電精細設計。
系統生物學。當前的組學數據剖析仍局限于較低維度的生物組學觀測程度,還未構成從基因程度到細胞程度甚至生物個體甚至群體組學程度的中山區 水電行全維度觀測。新范式將融通多維度、多模態的生物年夜數據和專家先驗知識,提取生物表型的關鍵特征,構建多標準生物過程解析模子,還原復雜生物系統運行的底層規律,構成基礎而廣泛適用的系統生物學研討新體系。
遺傳學。隨著多組學數據的積累和新型基因年夜模子的出現,遺傳學研討已進進新范式推動的疾速發展階段,基于基因表達譜數據的自監督預訓練年夜模子無望成為解析基因調控規律、預測疾病靶點的無力東西,拓展遺傳學研討的摸索邊界。
藥物設計開發。隨著AlphaFold的出現和一批分子動力學模子的發展,AI模子已經被用于預測和篩選藥物候選分子。未來新范式將進一個步驟推動該領域的發展,無望出現AI輔助的全流程藥物設計開發體系,能夠自立完成藥物結構和性質的優化設計、實現候選藥物的有用性和平安性模擬預測、天生藥物的高效分解和生產工藝計劃,極年夜加快藥物的開發和生產過程。
精準醫學。計算機視覺、天然語言處理和機器學習等AI技術已廣泛滲透到生物記憶、醫學記憶、疾病智能剖析及靶點預測等精準醫學子領域。例如,基于AI的診斷系統在準確度上已經可以媲美甚至在某些方面超過資深的臨床醫生。但是,現有的模子年夜多受制于數據的偏好性,存在魯棒性差、通用性高等問題中正區 水電,隨著新范式驅動的通用精準醫學模子的出現,將有助于加倍疾速準確地診斷疾病、解析疾病的分子機制、發現新的治療靶點,進步人類的安康程度。
我國性命科學研討新范式面臨的挑戰
面對信義區 水電行性命科學研討新范式發展的新形勢、新請求,我國仍面臨高質量性命科學數據資源體系缺少、AI關鍵技術與基礎設施缺乏、新范式下的穿插創新科研重生態匱乏等方面的宏大挑戰。
高質量性命科學數據資源體系缺少
盡管我國在性命領域的科研投進持續增添,但在一些前沿領域,我國科學家仍依賴國外高質量數據,而國內數據的建設和應用相對滯后,我國性命科學數據資源還存在分布不平衡問題,需求更好地統籌協調和資源整合,實現高質量性命科學數據資源的高效匯聚和系統化晉陞。此外,在性命科學數據的搜集、傳輸和存儲過程中,數據平安問題亟待加強,特別是生物數據的隱私和平安問題仍需求惹起重視。
面對這些挑戰,我國需求加強科學數據資源的整合與共享,推動性命科學數據資源的可持續發展,進步數據的質量和平安性,加強數據治理與供給形式的變革,推動跨領域多模態科技資源融會水電行服務才能的晉陞,以滿足新范式下科研需求的發展。
AI關鍵技術與基礎設施缺乏
我國AI驅動新科研范式的焦點技術相對匱乏,自立原創的算法、模子、東西仍待鼎力發展。針對性命科學年夜數據的海量、高維、稀少分布等特征,亟需發展復雜數據的先進計算與剖析方式。未來應開發中山區 水電加倍適合性命科學應用的硬件、軟件和新計算介質,并在性命科學和計算科學的融會過程中,摸索新的計信義區 水電算-生物交互形式。簡而言之,新范式研討對數據、網絡、算力等資源的綜合才能提出了新的請求,需求加速推進新一代信息基礎設施建設,解決算力“洽商”問題。
新范式下的穿插創新科研重生態匱乏
現有AI驅動的性命科學研討方法年夜多為課題組自發組合的“小作坊”形式,缺少新范式發展所需的穿插創新環境。american在2023年發布的《國家人工智能研發戰略計劃》更換新的資料版本中也著重強調了人工智能研討的跨學科穿插發展的主要性。是以,新范式下的科研生態應鼓勵更為廣泛的多學科“年夜穿插”“年夜融會”,樹立干濕結合、理實融合的新型研討形式,持續培養高程度復合型穿插研討人才。
在新形勢下我國也已經開始廣泛布局和推進穿插學科的發展。《中華國民共和國國平易近經濟和社會發展第十四個五年規劃和2035年遠景目標綱要》中指出要推動互聯網、年夜數據、人工智能同等各產業的深度融會。結合我國性命科學領域的實際發展情況,我國性命科學領域發展更應著眼于將AI賦能性命科學研討的范式變革融進我國新時代的國家發展遠景布局中,實現以點帶面的整體效應樹立加倍開放的新型科研生態和發展環境。
近年來,性命科學領域正經歷著史無前例的巨變,這一領域的發展不僅遭到生物技術和信息技術的雙重推動,更遭到AI技術進步的宏大影響。這一變革的焦點在于從傳統的重要依賴于人經驗一回事。哪天,如果她和夫家發生爭執,對方拿來傷害她,那豈不是捅了她的心,往她的傷口上撒鹽?的假說和實驗驅動的科研范式向年夜數據和AI驅動的新研討范式的演變。這意味著我們不再僅僅依賴于實驗和假說,而是通過年夜數據剖析和AI技術主動提醒性命的奧秘。更廣泛的,這個演變將廣泛改變或促進分歧層面的科學研討活動的變革,涵蓋了認識論、方式論、研討組織情勢、經濟社會及倫理法令等眾多層面。
綜合而言,我們正身臨著一個充滿變革和盼望的時代,性命科學的改革與科技的進步配合繪信義區 水電制出人類對性命奧秘更深層次摸索的未來藍圖。可以預見,隨著通用AI的進一個步驟發展,性命科學研討將在不遠的未來實現干濕融會、人機協同的新形式,迎來AI自驅抽象新知識、新規律的“預人所未見,思人所未思”的科學新時代。
(作者:李鑫,中國科學院動物研討所 北京干細胞與再生醫學研討院;于漢超,中國科學院前沿科學與教導局。《中國科學院院刊》供稿)