首頁 > AI資訊 > 最新資訊 > 李沐老師回歸B站!帶著大模型創業成果填坑來了

李沐老師回歸B站!帶著大模型創業成果填坑來了

新火種    2024-06-07

終于,AI大神李沐回來了!帶著他的大模型創業最新成果——

一個專門為復雜場景角色扮演設計的大模型,名為Higgs-Llama-3-70B。

李沐老師回歸B站!帶著大模型創業成果填坑來了

得知消息的不少網友已激動在評論區催更,李沐老師也回應,視頻坑還是會填的:

李沐老師回歸B站!帶著大模型創業成果填坑來了李沐老師回歸B站!帶著大模型創業成果填坑來了李沐老師回歸B站!帶著大模型創業成果填坑來了

那沐神到底干啥去了?這就透過Higgs-Llama-3-70B瞧一瞧。

定睛一看,Higgs-Llama-3-70B是沐神去年聯合創立的公司Boson AI,推出的Higgs開源系列大模型中的第一個,基于Llama 3打造,做了完整的SFT、RLHF。

它不僅能在角色扮演任務上表現優異,在通用領域上的指令遵循和推理方面也很有競爭力。

左擊Claude3,右打Gemini

團隊在兩個新基準測試MMLU-Pro和Arena-hard上展示了Higgs-Llama-3-70B的能力。

他們還特地強調所有基準測試終將導致過擬合,已盡量從微調數據中排除了基準測試數據及其訓練示例。

具體來說,MMLU-Pro是MMLU的擴展,團隊認為MMLU-Pro是在模型完成訓練之后發布,較少受到其他已發布模型的過擬合影響。

拿來做比較的模型也都一水的很強。

而Higgs-Llama-3-70B的表現優于谷歌在5月I/O大會上最新推出的模型Gemini-1.5-Flash、Claude3家族“中杯”Claude-3-Sonnet以及Llama3-70B-instruct。

李沐老師回歸B站!帶著大模型創業成果填坑來了

再來看Arena-hard,該基準包含了來自Chatbot競技場的500個具有挑戰性的真實用戶查詢。

Higgs-Llama-3-70B的表現排名第四:

李沐老師回歸B站!帶著大模型創業成果填坑來了

除此之外,使用相同的base model,Higgs-Llama-3-70B在6個基準測試中均優于LLama-3-70B-Instruct。

李沐老師回歸B站!帶著大模型創業成果填坑來了

雖然距離GPT-4o還有不小的差距,但值得注意的是沐神團隊放出的只是通用能力的基準測試,并且強調并未針對性刷榜。

而且Higgs-Llama-3-70B畢竟是為角色扮演專門設計的,相關效果展示團隊未具體給出。

團隊表示Higgs-Llama-3-70B只是個開胃菜,將進一步探討角色扮演性能、訓練后的處理流程、零基礎建立數據中心、在云端使用GPU以及未來整合多個服務提供商的策略。

之后也會發布更多Higgs系列模型。

開發角色扮演Agent

這次李沐大模型創業方向終于浮出水面,倒是一定程度印證了之前關于沐神創業方向的猜想。

此前有消息爆料,從亞馬遜首席科學家的職務上離職后,李沐聯手其導師、另一位亞馬遜出身AI大牛Alex Smola創辦了創業公司Boson AI。而公司方向是利用大模型能力,做和游戲娛樂有關的項目。

這回官方終于給出了個準信兒,確實跟游戲沾邊:

李沐老師回歸B站!帶著大模型創業成果填坑來了

目前官網主頁也已更新Higgs-Llama-3-70B模型。

李沐老師回歸B站!帶著大模型創業成果填坑來了

還曬出了團隊創始成員,除李沐和Alex Smola外,還有四位成員。

李沐老師回歸B站!帶著大模型創業成果填坑來了

李沐和Alex Smola,新火種此前也有介紹過。

李沐,是二者之間大家比較熟悉的那一位。自己有很厲害的經歷,加上在小破站傳道授業,打下了響當當的知名度。

李沐老師回歸B站!帶著大模型創業成果填坑來了

而Alex Smola,更是一個AI屆的神級大牛。

直接上數據:Smola在Google Scholar上的被引用次數,超過17萬次。其中,被引次數前三的所著論文,被引數統統破萬。

李沐老師回歸B站!帶著大模型創業成果填坑來了

除了是ML著作《動手學深度學習》的主要作者外,Smola這些年的履歷也很值得好好了解一番——

1996年,Smola在慕尼黑工業大學完成碩士學業,而后又在柏林工業大學拿下計算機科學博士學位。博士畢業后,他先后去往柏林GMD軟件工程和計算機體系結構研究所、NICTA(澳大利亞信息與通信技術研究中心)工作。

2004年起,Smola在NICTA的統計機器學習項目中,擔任高級首席研究員和項目負責人;到了2008年,Smola選擇入職雅虎研究院。

2012年春天到2014年年底,2年多的時間里,Smola的工作地點是谷歌研究院。

期間,他開始擔任CMU的教授。也是這個時候,他成為了李沐的博士導師,二人結緣。

2016年7月,Smola成為了亞馬遜的一員,致力于構建AI和機器學習工具。首要任務之一,是讓AWS和開發者社區建立和保持聯系,讓更多的開發者共同建設亞馬遜深度學習庫MXNet。

離職創業前,Smola在亞馬遜擔任的職位是杰出科學家和副總裁。

值得一提的是,由于Smola在分布式深度學習框架領域曾提出并行LDA(Latent Dirichlet Allocation)的框架——這是參數服務器概念的最早來源,因此,Smola也被業界稱為參數服務器之父。

其他四位成員如下。

Shuai Zheng,2019年從香港科技大學獲得計算機科學博士學位。

之后就職亞馬遜,領導亞馬遜的分布式系統和LLM訓練工作,包括開發可擴展的分布式訓練和推理架構、具有數千億參數的更智能模型,以及更快的分布式優化算法。

李沐老師回歸B站!帶著大模型創業成果填坑來了

施行健,2014年本科畢業于上海交通大學,2018年獲香港科技大學博士學位。

曾擔任亞馬遜擔任高級應用科學家,領導過兩個項目:AutoGluon Multimodal和DeepEarth。

其中AutoGluon Multimodal通過應用基礎模型,突破了傳統自動機器學習工具的限制。DeepEarth致力于為地球科學領域構建基礎模型。之前他還參與了如Apache/MXNet等開源項目。

李沐老師回歸B站!帶著大模型創業成果填坑來了

Yi Zhu,加州大學默塞德分校博士學位。

同樣曾在亞馬遜AI團隊,擔任高級應用科學家。研究主要關注大語言模型、多模態學習、自監督學習和視頻理解,曾參與AutoGluon、GluonCV等開源項目。

李沐老師回歸B站!帶著大模型創業成果填坑來了

Yizhi Liu,2012年畢業于浙江大學計算機系。

曾先后在百度實習,擔任聚勝萬合首席軟件工程師、奇虎360技術部經理,之后成為亞馬遜高級軟件開發工程師。

李沐老師回歸B站!帶著大模型創業成果填坑來了

△領英主頁尚未更新

最后,新火種認識的一位團隊成員推薦大家用不同的人設、persona來測試Higgs-Llama-3-70B,“可能有驚喜哦”。

以及One more thing …

大神李沐創業,肯定是不缺投資的,新火種聽聞,知名技術創業者已經打錢支持了。

不過一切以官方信息為準吧。祝福李沐老師一切順利~

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章