人工智能重塑科學與工程研究_第1頁
人工智能重塑科學與工程研究_第2頁
人工智能重塑科學與工程研究_第3頁
人工智能重塑科學與工程研究_第4頁
人工智能重塑科學與工程研究_第5頁
已閱讀5頁,還剩73頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

人工智能重塑科學與工程研究朱霖潮浙江大學計算機科學與技術學院人工智能研究所zhulinchao@ZHEJIANGUNIVERSITYl科學研究方法l以蛋白質結構預測為例lAI驅動科學研究的全過程l小結ZHEJIANGUNIVERSITYl第一范式:經驗驅動——基于觀察和歸納的實驗研究l以經驗主義和人的思考為主導的科學研究范式l實驗是開展研究的主要手段l起源可追溯至古希臘和中國的早期實驗方法l數千年文明史中,人類絕大多數技術發展源于對自然現象的觀察和實驗總結甲骨文反映了早期古人通過觀察自然現象(如天氣、農作物生長、天象等),并進行記錄的做法。亞里斯多德認為自由落體運動中,伽利略的落體實驗:通過實驗物體越重,下落越快;物體越輕,驗證物體落下速度與質量無關下落越慢。開普勒發現行星的移動遵守著三條定律ZHEJIANGUNIVERSITYl第二范式:理論驅動——基于科學假設和邏輯演繹的理論研究l當實驗條件不具備時,第一范式難以為繼l不再局限于描述經驗事實,使用數學工具研究更精確的自然現象l從“知其然”到“知其所以然”,對自然界規律做出背后原理性的解釋l探索第一性原理(FirstPrinciple提供精確描述自然規律的語言,形成可分析的理論模型牛頓定律薛定諤方程歐幾里德《幾何原本》ZHEJIANGUNIVERSITYl第三范式:計算驅動——以計算和仿真為主導的科學研究l肯尼斯·威爾遜博士(計算物理學家、諾貝爾獎獲得者)指出,計算是與理論和實驗并列的科學方法之一l高性能計算機和大規模并行計算興起l利用計算機精確、大規模求解方程組l探索無法通過實驗和理論推導解決的復雜問題l將量子力學方程轉換為計算機高效求解的形式l處理復雜多電子體系問題原子結構電荷密度原子結構波函數哈密頓量波函數密度泛函理論(DFT)有限元仿真的汽車碰撞測試超級計算機系統ZHEJIANGUNIVERSITYl第四范式:數據驅動——數據密集型科學研究方法l圖靈獎獲得者吉姆·格雷提出數據密集型科學研究l利用海量數據采集取代傳統觀察,以機器學習、統計學等技術替代人類歸納l大數據:例如,美國國家海洋和大氣管理局每天收集數十T的環境數據,包含衛星、雷達、船舶、氣象l傳統模式(先提出假設再驗證)vs.讓數據本身”說話”天文大數據大型強子對撞機(LHC)實驗數據統計ZHEJIANGUNIVERSITYl第五范式:智能驅動(AIforScience)——人工智能驅動的科學研究l計算驅動范式準但不夠快,擅長處理小規模的科學問題l數據驅動范式中,AI主要作為數據分析工具;然而僅靠統計分析,難以在復雜系統的研究上實現突破l第五范式中,AI驅動科學發現的全過程,包括提出假設、設計實驗等,應對計算復雜性高的組合爆炸問題,實現實驗、理論、計算和數據科研范式的融合的各個階段來重塑科學發現1。知識:改變科學家獲取和傳遞知識的方式數據:生成、提取和標注大規模科學數據集實驗:模擬、加速并指導復雜實驗模型:建模復雜系統及其組件的相互作用解決方案:為大規模搜索問題提供方案ZHEJIANGUNIVERSITY觀察海量數據客觀現象假設實驗數據收集數據分析觀察海量數據無無無數據收集數據分析AIAI總結無無無數據收集數據分析AIAI總結建模關系挖掘關系挖掘AIAI規則發現實驗實驗仿真仿真AIAI實驗輔助開普勒定律開普勒定律牛頓定律...天氣預測天氣預測模擬核試驗...瘟疫傳播規律瘟疫傳播規律交通改善...蛋白質結構預測藥物快速發明快速天氣預測...9斯托克斯方程氣壓梯度力的向量式湍流系統量和動量傳遞(由剪切應力τ表示)為地轉方程從左到右分別是地轉相對渦度、行星渦度和伸展渦度。二維DarcyFlow方程標量場標量場向量場向量場二維Navier-Stokes方程二維Diffusion-Reaction方程三維Maxwell方程湍流煙霧仿真塑形鍛造仿真機翼空氣流動仿真光聲成像仿真血管液體流動仿真10地球氣候狀態預測地球淺水狀態預測地下水流狀態預測l飛機機型設計的優化流程l首先確定需要優化的設計參數,然后進行CFD分析評估氣動性能,確定多個優化目標,進行參數敏感性分析l根據結果實施最優約束設計變更,通過形態變換調整機身外形,最終得到空氣動力學性能更優的機型設計l華為云盤古氣象模型是首個精度超過傳統數值預報方法的AIl氣象模型能夠提供全球氣象秒級預報,其氣象預測結果包括ZHEJIANGUNIVERSITY人工智能重塑科學與工程研究——以蛋白質結構預測為例l生命的基本構件和功能執行者l結構決定功能l主要結構(Primarystructure):由氨基酸殘基(Aminoacidresidue)通過肽鍵(Peptidebond)連接形成的多肽鏈(Polypeptidechain)l二級結構(Secondarystructures多肽鏈局部折疊形成的規則結構,包括α螺旋(αhelix)和β折疊(βsheet)l三級結構(Tertiarystructure):整個多肽鏈在三維空間中的折疊結構l四級結構(Quaternarystructure):由多個蛋白質亞基組合在一起形成的復合蛋白質結構l疾病與蛋白質結構異常l藥物開發與蛋白質靶點l蛋白質折疊l序列決定結構:蛋白質的氨基酸序列包含了所有必要的信息,決定了其最終三維結構。l一條線性氨基酸鏈如何在水溶液中自發折疊成特定的三維結構?l折疊機制的復雜性:蛋白質折疊涉及多種分子力的精確平衡:氫鍵形成、疏水相互作用(疏水核心的形成)、范德華力、靜電相互作用、熵效應、溶劑效應l直接觀察蛋白質折疊過程極其困難l建立完整的折疊理論困難l從計算角度看,蛋白質折疊問題搜索空間巨大,需要模擬復雜的物理和化學過程l頭計算折疊過程十分緩慢l早期挑戰與背景l結構預測的可靠性問題:1980年代末到1990年代初,lJohnMoult和JanPedersen的愿景l完全透明、公正的“盲測”競賽lCASP的建立與運作機制l獨特的盲測機制lCASP的演變與影響):):):l引起轟動但尚未完全突破l“AlphaFold時刻”:CASP14上的驚人表現l《科學》雜志評為2021年度科學突破l技術方案:采用端到端架構lTransformer變體:包含多個交替的行(序列)和列(殘基位置)注意力機制l三角乘法更新操作維護殘基間距離和角度的幾何一致性l預測每個氨基酸殘基的主鏈角度(φ,ψ,ω)和側鏈角度(χ)l使用前饋網絡預測3D坐標框架l采用等變神經網絡保持空間變換不變性lLDDT(局部距離差異測試)損失:評估局部結構準確性lTM-score(模板建模評分)損失:評估全局結構相似性l幾何約束損失:確保蛋白質物理合理性l大衛·貝克(DavidBaker)表彰其在計算蛋l人工智能應用于基礎科學研究首次獲得諾貝爾獎,標志著llJohnHopfield,Neuralnetworksandphysicalsystemswithemergentcollectivecomputationalabilities(《具有涌現集體計算能力的神經網絡和物理系統》),1982,PNAS1949年赫布(Hebbiantheory)提出:神經元之物理學視角優化神經網絡而得到局部最優解。llAckleyDavidH,HintonGeoffreyE,SejnowskiTerrenceJ,AlearningalgorithmforBoltzmannmachines,Cognitivescience,Elsevier,9(1):147–169,1985Boltzmann機能夠達到全局優化原因在于基于統計物理所設計的Mon一定的概率重新設置神經元的值,選擇的概率保證網絡收斂于由“能量”完全確定的熱從神經網絡的生物學機制闡釋到物理學可計算模擬l蛋白質結構預測:存在近50年的科學難題結構預測精度從之前的40-50%提高到90lAlphaFold是科學嗎?l盡管AlphaFold2可以精確預測結構,但它并不能解釋蛋白質如何折疊或為何采取特定結構l傳統研究試圖通過理解基本物理過程來解決蛋白質折疊問題,DeepMind通過關注結果而非l如果你能治愈癌癥,你關心它是如何真正工作的嗎?l蛋白質折疊只是“冰山一角”l模擬整個細胞l突變解釋ZHEJIANGUNIVERSITYAI驅動科學研究的全過程多尺度空間PDB(蛋白質數據庫)中的結構數量l1982年有100個結構l1993年有1,000個結構l1999年有10,000個l2014年有100,000個l數據量大、類型多,包括蛋白質序列、學術出版物、電子醫療記錄、基因測序和影像等任務多l環境科學領域l航空航天領域l醫療健康領域l材料科學領域l地質學與資源勘探領域l各學科發展出各自專業術語、研究方法和理論l學科壁壘和專業分化使得研究人員難以全面掌ZHEJIANGUNIVERSITYZHEJIANGUNIVERSITYStageLevel5:Organizations,AIthatcandotheworkofanorganization.StageLevel4:Innovators,AIthatcanaidininvention.StageLevel3:Agents,systemsthatcantakeactions.StageLevel2:Reasoners,human-levelproblemsolving.StageLevel1:Chatbots,AIwithconversationallanguage.ITYZHEJIANGITYZHEJIANGUNIVERSAI驅動科學研究的全過程知識:改變科學家獲取和傳遞知識的方式數據:生成、提取和標注大規模科學數據集實驗:模擬、加速并指導復雜實驗l挑戰l科學知識呈指數級增長,專業化程度不斷提高l跨學科合作需求增加,但知識壁壘阻礙學習與交流l自動文獻管理與分析l圖表理解與信息提取l結合圖像、表格、公式和文本,分析復雜科學文獻l代碼輔助生成與優化l使用大模型將難維護的代碼進行轉換與注釋l推理->科研助手(ScienceCopilot)專業領域知識迭代頻繁,模型難以及時學習新推理鏈條專業領域知識迭代頻繁,模型難以及時學習新推理鏈條行業知識更新快挑戰1.3:推理成本高推理模型消耗大量思考時間,計算資源需求大挑戰1.3:推理成本高推理模型消耗大量思考時間,計算資源需求大推理模型在輸出答案之前需要花費大量時間思考,導致實時性差。并且難度越大的問題思考時間越長,因此消耗更多的推理資源。復雜推理資源消耗大挑戰1.1:數據更新快UNIVERSZHEJUNIVERSITY推理結論多樣且非唯一最優,難以構建精準的獎勵函數評估推理結論質量挑戰1.2挑戰1.2:獎勵難定義推理結論評估困難,難以定義獎勵標準挑戰二:如何實現復雜科研流程的智能執行UNIVERSZHEJUNIVERSITYDeepresearch以OpenAIo3推理模型作為支撐,能夠獨立完成聯網資料查詢,海量信息處理,綜合報告生成。依托其強大的搜索分析能力,在金融、政策、工程等領域都能提供可靠的幫助。幫我查找過去10年,GDP前十的發達國家的的iOS和Android市場占有率,將這些信息整理成表格。GDP排名前10的發達經濟體手機OS市場份額Deepresearch在Humanity’sLastExam數據集上和其他模型的對比OpenAIo1推理模型OpenAIo1和DeepSeek-R1相比GPT-4o等,具有更高的性能Deepresearch以OpenAIo3作為基礎,通過合理的工作流在復雜任務上取得了當前最好性能挑戰三:如何抑制推理大模型的幻覺現象UNIVERSZHEJUNIVERSITY當前推理大模型知識邊界不確定當前推理大模型知識邊界不確定,難以把握知識覆蓋范圍和可靠程度,推理幻覺嚴重思考長度達6672,最終答案仍有錯誤問:8,8,3,4算24點已深度思考(用時312秒)嗯,今天老師布置了一個算24點的題目,四個數字是8、8、3、4。我得好好想想怎么用這四個數字通過加減乘除來得到24。首先,我應該回憶一下算24點的基本方法,通常是先嘗試用乘法或者除法來得到較大的數,或者組合出能夠相互抵消的情況,比如3×8=24這樣的組合。不過這里有兩個8,一個3和一個4,可能需要結合其他運算。首先,我先把這四個數字列出來:8、8、3、4。我需要用每個數字各一次,通過加減乘除以及可能的括號來組合它們得到24。讓我嘗試不同的組合方式。首先,我注意到如果有兩個8的話,或許可以先用這兩個8進行某種運算。比如8+8=16,不過這樣的話剩下的3和4要怎么處理呢?16加上3和4的話,16+3+4=23,不夠。或者16乘以(4-3)=16×1=16,還是不夠。或者16乘以3再除以4的話,16×3=48,48÷4=12,還是不夠。或者16×(4+3)/某個數,但這樣可能也不太行。......或者,用減法來調整,比如8×4=32,然后用剩下的8和3來減,比如32-8=24,但這樣用了三個數字,剩下的3沒用上。或者32-(8-3)=32-5=27,也不對。再試試其他的組合方式,比如用8、8、4這三個數先組合,比如8+8+4=20,然后20+3=23,不夠。或者8×8=64,64÷4=16,然后16+3=19,還是不夠。或者8×(4-(8/3)),不過這樣會涉及到分數,可能比較復雜,而且結果可能不是不是24。有沒有可能用加減乘除混合運算?比如,8×3=24,然后剩下的8和4如何組合成0,這樣24+0=24。但如何用8和4得到0呢?比如8-8=0,但這里已經用了兩個8,剩下的還有3和4。不對,因為題目中每個數字只能用一次。所以,這樣的話,可能不行。再想想,可能用減法來調整。例如,8×4=32,然后32減去(8-3)=5,得到32-5=27,還是不對。或者8×3=24,然后用剩下的8和4組成0,但同樣的問題,無法用剩下的兩個數得到0。….ITYZHEJIANGITYZHEJIANGUNIVERSAI驅動科學研究的全過程知識:改變科學家獲取和傳遞知識的方式數據:生成、提取和標注大規模科學數據集實驗:模擬、加速并指導復雜實驗l包含超過2.14億個蛋白質結構l基于主動學習的數據清洗與合成13.基于密度泛函理論驗證穩定性l提供了超過220萬種無機材料蒸餾階段蒸餾階段階段3+階段4DeepSeekV3BaseDeepSeekR1R1-階段3+階段4DeepS

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論