中國科學院團隊利用AI大模型訓練技術解決同步輻射海量數據處理
編輯 | X
X 射線疊層相干衍射成像(X-ray ptychography)是一種理論上能夠實現衍射極限分辨率的相干衍射成像技術,已廣泛應用于材料、生命、半導體、能源等多種科學領域研究。
新一代同步輻射光源可提供高相干度和高亮度的X射線,推動相干成像技術向高通量多維度方向發展,使得 ptychography 在大體積樣本的精細結構研究和功能表征方面具有極佳的應用前景。然而,新的實驗模式與應用場景帶來了海量數據在線解析的技術挑戰,單次實驗的原始衍射圖譜數據量可達 PB 量級,成為第四代同步輻射光源上科學實驗的最大數據源之一。此外,其相位恢復問題也是同步輻射數據處理領域最為困難的問題之一。
人工智能方法作為大數據分析和處理的利器,保持了傳統算法的優勢,并且突出體現了在海量實驗數據在線分析方面的能力。
作為一種相對耗時的掃描成像技術,ptychography 的主要目標之一是實現實時分析。但是目前傳統的 ptychography 重建算法很難實現在線重建的需求。研究團隊基于卷積神經網絡,提出了分組卷積的神經網絡解碼器結構,使得網絡的訓練以及重建速度更快,重建效果更好。神經網絡可以學習從衍射圖到真實物體的映射過程。得益于未來光源數據體量和質量的進一步提升,網絡規模、參數量、訓練數據量將進一步增加,給網絡的性能以及泛化能力帶來提升。
中國科學院高能同步輻射光源(HEPS)光束線軟件團隊開發了一個名為 PtyNet 的卷積神經網絡框架,用于從 X 射線 Ptychography 實驗數據中恢復出物體的精確投影。在強大的計算集群的支持下,PtyNet 可以快速地從同步輻射光源獲取數據進行訓練,并快速地對用戶的實驗數據進行圖像重建。
圖 1
該研究以「An efficient ptychography reconstruction strategy through fine-tuning of large pre-trained deep learning model」為題,于 2023 年 11 月 9 日發表在iScience。
由于不同實驗數據所恢復的目標物體不同,團隊還引入了微調策略對網絡參數進行進一步優化。無監督的微調策略使網絡擁有更強大的泛化能力和更高的重建分辨率。同步輻射光源可以為網絡提供足夠的數據量以得到一個更強大的預訓練模型。即使對于一個未出現在網絡內的新樣品,網絡也可以成功地進行重建(圖2)。
圖 2
未來,該團隊將繼續進行將卷積神經網絡應用于 X 射線相干成像領域的研究。利用微調以及大模型的策略,開發出一個相干成像的大模型。模型自身可以識別出不同的成像任務并且給出恢復結果。用戶只需輸入少量線站參數即可進行實時重建。
面對未來 EB 量級數據的挑戰,HEPS 正在積極推動「大型科學軟件框架 + AI for Science」的創新科研范式,并建立了一支專業的科學軟件團隊,開展實驗控制、大數據采集與處理、人工智能、前沿學科算法、多尺度圖像處理與數據挖掘等跨領域研究,為建設「智慧光源」奠定了基礎。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。