首頁 > AI資訊 > 最新資訊 > AMD與約翰霍普金斯大學聯手:AI實驗室copilot自動化科研,成本節約84%!

AMD與約翰霍普金斯大學聯手:AI實驗室copilot自動化科研,成本節約84%!

新火種    2025-01-15

圖片

編輯 | 2049

科學研究,尤其是機器學習領域的研究,往往需要大量的時間和資源投入,從最初的構思到最終的結果產出,每一步都充滿了挑戰。

近年來,大型語言模型(Large Language Models,LLMs)在自然語言處理和代碼生成方面取得了顯著進展,這為自動化科學研究提供了新的可能性。然而,現有的自動化研究工具通常只能處理單個環節,如文獻綜述或實驗設計,無法實現全流程的自動化。

針對這一問題,來自 AMD 和約翰霍普金斯大學的研究團隊提出了一種名為 Agent Laboratory 的創新框架。該框架利用 LLM 作為研究助手,能夠從文獻綜述到實驗設計和報告撰寫全流程自動化,顯著加速科學研究過程。

該框架不僅支持全自動模式,還創新性地提供了 co-pilot 協作模式,允許研究人員在關鍵節點提供反饋和指導,實現人機協同研究。

該研究以「Agent Laboratory: Using LLM Agents as Research Assistants」為題,于 2025 年 1 月 8 日發布在 arXiv 預印本平臺。

圖片

研究背景

現代 AI 研究正面臨著效率與創新的雙重挑戰。研究人員往往需要在有限的時間和資源約束下,權衡和篩選最具潛力的研究方向。

現有的自動化研究工具存在明顯局限:ResearchAgent 雖然能夠生成研究想法和實驗設計,但缺乏實際執行能力;The AI Scientist 雖然可以生成和執行代碼,但其生成的研究論文質量有待提高。更重要的是,這些系統都采用完全自動化的方式,無法有效整合人類研究者的專業判斷和創造性思維。

技術創新

Agent Laboratory 創新地提出了一個三階段的研究輔助框架。首先是文獻綜述階段,系統會根據研究者提供的主題自動檢索和分析相關文獻。其次是實驗階段,包括實驗規劃、數據準備和運行實驗三個環節。最后是報告撰寫階段,系統能夠基于實驗結果生成規范的研究論文。

系統的核心是一個多智能體協作框架,包括多個專業化的語言模型代理:PhD 代理負責文獻綜述和研究規劃,Postdoc 代理負責實驗設計和結果解釋,ML 工程師代理專注于代碼實現,Professor 代理則負責論文評審和質量控制。

圖片

圖示:Agent Laboratory 整體框架。(來源:論文)

系統的另一個核心創新是 mle-solver 模塊,它通過五個關鍵組件實現代碼的自動生成和優化:

Command Execution:通過 REPLACE 和 EDIT 操作生成和修改代碼Code Execution:執行代碼并驗證其正確性Program Scoring:使用 LLM reward model 評估代碼質量Self Reflection:基于執行結果進行自我改進Performance Stabilization:通過多樣性采樣確保代碼質量穩定

在論文生成方面,系統采用了創新的 paper-solver 模塊,集成了自動化審稿功能。該功能在 500 篇 ICLR 2022 論文的評估中,達到了與人類審稿人相當的準確率(65% 對比 66%),在 F1 分數上甚至超過了人類表現(0.57 對比 0.49)。

圖片

圖示:Agent Laboratory 工作流程。(來源:論文)

實驗驗證

研究團隊通過多維度實驗評估了 Agent Laboratory 的性能。在模型對比中,o1-preview 在有用性方面表現最佳,評分達到 4.4/5;在報告質量方面得分為 3.4/5,與 o1-mini(3.2/5)相近;o1-mini 在實驗質量方面領先,得分為 3.2/5;而 gpt-4o 雖然在各項指標上表現較弱,但其運行成本顯著降低,每篇論文僅需 2.33 美元,比現有自動化研究方法節省 84%。

特別值得注意的是,研究發現人類評估和自動化評估存在顯著差異。自動評估給出的平均分數為 6.1/10,而人類評估僅為 3.8/10,這一發現強調了在評估系統性能時需要更多地依靠人類專家判斷。在 MLE-Bench 部分挑戰任務中,系統展現了優異的實踐能力,獲得了 4 枚獎牌(2 金 1 銀 1 銅)。

圖片

圖示:實驗結果。(來源:論文)

結語

Agent Laboratory 的創新意義在于重新定義了 AI 輔助研究的范式。通過靈活的自動化程度和人機協作模式,系統既能提供高效的研究支持,又能保持人類研究者的創造性主導地位。

雖然當前系統在自動評估準確性和論文質量方面仍有改進空間,但其顯著的成本優勢和實用性已經證明了其在加速科學研究方面的潛力。隨著系統的進一步完善,它有望成為推動科學發現加速的重要工具。

論文鏈接:https://arxiv.org/abs/2501.04227

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章