文心4.5和X1大模型已至,誰說百度不發“一言”?
圖片系AI生成
3月16日,文心大模型兩周年之際,百度如約發布了國內首個原生多模態大模型文心4.5,以及深度思考模型X1。與以往不同,百度本次沒有選擇召開發布會,而是直接宣布模型在文心一言官網上線,免費向用戶開放,文心大模型4.5也面向企業用戶和開發者開放,在百度智能云千帆大模型平臺即可調用API。據悉,文心大模型4.5、X1也將陸續上線百度搜索、文小言APP等產品。
價格方面,文心大模型4.5的API調用輸入價格為0.004元/千tokens,輸出0.016元/千tokens,約為GPT4.5價格的1%;文心大模型X1定價為輸入0.002元/千tokens,輸出0.008元/千tokens,即將在千帆平臺上線。
盡管4.5文心大模型是一個中間版本,是基于4.0版本的強化,但是通常而言,官方會出面做發布并解讀產品、技術亮點,OpenAI在日前也舉辦了GPT4.5的線上發布會,本次百度的策略更顯特殊。
行業氣氛有些微妙,百度可能比以往任何時刻都需要再度證明自己。
百度糾偏,想要繼續站在舞臺中央
如果說DeepSeek的到來,給全球所有大模型公司都提了個醒,那么百度則通過一系列的動作,展示了應該如何留在大模型的牌桌上。
原來的百度是有些“偶像包袱”的。自OpenAI發布ChatGPT以來,百度是更早推出同類大模型產品的國內廠商,All in AI的戰略也被視為具備前瞻性,憑借超前的眼光、技術儲備等資源,百度被視作“中國OpenAI”。
科技行業不缺少新敘事,其魅力就在于不可預知性,大模型行業領先優勢可能只能維持半年,當巨頭們紛紛下重注投入生成式AI,行業又達成一個新觀點,“大模型是巨頭企業的游戲”,可隨后DeepSeek開源、低成本的大模型引起了新的風潮,包括OpenAI、百度等在內的全球所有AI企業發現,大模型的未來言之尚早。
就像百度創始人李彥宏此前所說,“創新不能被計劃,你不知道創新何時到來,你所能做的就是營造一個有利于創新的環境。”百度此前的成功在于建立了一個適合創新的環境,但是如今的百度需要甩掉“偶像包袱”,用實際行動證明自己還有留在牌桌的籌碼。
好的一面是,李彥宏不惜推翻自己此前的判斷,快速又堅決地推動了一系列動作,文心一言完全免費、文心4.5將在6月30日正式開源,百度核心業務搜索接入DeepSeek等。
據悉,在本次文心4.5和X1大模型發布之后,百度后續還會有文心4.5系列模型,以及下半年更先進的下一代模型5.0版本。
即便與兩年前的自己對比,百度都有了明顯提速,有百度內部人士表示,無論是文心4.5全面免費,還是PC和移動雙端直接上現貨,百度管理層幾乎實在半天之內就做出決策。
但這也不意味著百度完全失去了自己的節奏,文心4.5主打的原生多模態,X1主打的多功能調用,研發儲備都需要數月甚至一年,證明百度只是加快了自己的節奏,而不是失去了對技術的嗅覺。
長遠來看,百度可能有一些預判失誤,比如跟隨OpenAI的過早商業化決策失誤,但這不影響一些大模型產業的基本邏輯,更前沿的大模型仍在路上,生態的重要性繼續提高。
人工智能時代的技術棧,芯片層、框架層、模型層和應用層協同優化,才能大幅提升效率,百度從昆侖芯到飛槳深度學習框架,再到文心預訓練大模型,各個層面都有布局,從而降低成本,提高創新效率。
回到本次發布,為何百度選擇“一言不發”,而是產品全量上線?上述百度內部人士表示,“發言不如發產品,現在百度說什么外界可能都覺得不對,最簡單粗暴的方法就是用產品說話,4.5是升級,但比5.0重要性差很多,大家更有危機感了,戰略調整、技術迭代的效果需要一段時間顯現?!?/p>
作為百度重新證明自己的階段產品,原生多模態大模型文心4.5,以及深度思考模型X1,透露出百度哪些動向?
文心4.5更聰明了,原生多模態才是重點
文心大模型4.5有兩個關鍵詞,國內首個萬億級參數的原生多模態大模型,Scaling Law告訴我們,參數越大模型智能越強,但是參數量到了一定級別,模型智能的提升收益大幅下降。
文心4.5的策略是通過多個模態聯合建模實現協同優化,具備更精進的語言能力,理解、生成、邏輯、記憶能力全面提升,并且去幻覺、邏輯推理、代碼能力顯著提升。
文心大模型4.5的多項基準測試成績優于GPT4.5、DeepSeek-V3等,并在平均分上以79.6分高于GPT4.5的79.14。
其中需要格外強調的是“原生多模態”,李彥宏此前在人民網上發文有所預告,原生多模態大模型,打破之前先訓練單模態模型再拼接的方式,通過統一架構實現文本、圖像、音頻、視頻等多模態數據的?原生級融合,實現對復雜世界的統一理解,這是邁向通用人工智能(AGI)的重要一步。
簡單來說,原生多模態大語言模型是從訓練階段開始,模型就利用大量不同模態的數據進行預訓練,不僅可以在輸入和輸出端實現多模態,而且還具備強大的多模態推理能力以及跨模態遷移能力。
微軟早些時間提到,基于多模態數據原生訓練的每一種單模態能力,都應該超越只在單模態數據上訓練的模型的性能。更重要的是,在不同模態數據學習的過程中,模型應該能夠涌現出新的能力。
從行業維度看,GPT-4尚不是原生多模態大模型,它的多模態能力是模型轉化實現,比如通過語音識別模型將語音轉換為文字,或者通過圖像識別模型提取圖像內容,然后利用GPT-4的大型語言模型生成回答。回答完畢后,系統決定是向用戶返回一張圖片、一段文字,還是通過語音合成技術返回一段語音輸出,直到GPT-4o,OpenAI顯現出原生多模態的能力。
谷歌在模型能力整理滯后GPT的情況下,押注原生多模態更早,在預訓練階段的多模態數據統一輸入,將文本/語音/圖像/視頻的數據統一輸入到一個預訓練模型,然后利用額外的多模態數據對其進行微調以進一步提高其有效性。
百度文心4.5也實現了一系列創新,例如多模態異構專家擴展技術,能根據模態特點構建模態異構專家,結合自適應模態感知損失函數,解決不同模態梯度不均衡問題,提升多模態融合能力。
其他如FlashMask 動態注意力掩碼技術,有效提升長序列建模能力和訓練效率,優化長文處理能力和多輪交互表現;時空維度表征壓縮技術,大幅提升多模態數據訓練效率,增強了從長視頻中吸取世界知識的能力;基于知識點的大規模數據構建技術,可構建高知識密度預訓練數據,提升模型學習效率,大幅降低模型幻覺;以及基于自反饋的Post-training技術,提升強化學習穩定性和魯棒性,大幅提升預訓練模型對齊人類意圖能力。
文心4.5的能力也可以從圖片和視頻理解,、圖片生成、RAG測試、邏輯測試、文本創作等方面體現。文心4.5支持上傳文檔、圖片、音頻和視頻文件,兼容常見的格式,目前在文件大小上有所限制,例如單個視頻文件大小不超過20M,可能與效率和成本有關。
鈦媒體App實測了一些應用場景,上傳視頻并要求文心4.5介紹視頻內容,以及要求文心4.5給出視頻的文字版,都能夠給出準確回答。以及上傳電影《肖申克的救贖》片段,溫馨4.5亦能識別電影片段,并給出可能的電影情節。當然了,如果文心4.5給出合適的配樂,它也能根據視頻的調性給出建議,說明了其跨模態的輸出能力。
深度思考X1,AI Agent的雛形
文心X1由百度2023年10月發布的慢思考技術發展而來,具備更強的理解、規劃、反思、進化能力,并同樣支持多模態。
以電車難題為例,深度思考的文心X1給出了一個詳細的回答,最終選擇了拉下操縱桿,將列車切換到另一條軌道,它的結論是:在封閉條件下,基于功利主義最大化生存數量的原則,選擇犧牲1人拯救5人。但需警惕此類邏輯被濫用,并持續反思其倫理邊界。
文心X1 是能力更全面的深度思考模型,在觀點輸出上更為直接,“端水”現象有所減少,針對復雜問題,能夠結合聯網搜索最新信息,詳細拆解給出全面的回復,譬如規劃旅游項目,可行性更高且更符合要求。
鈦媒體APP了解到,其采用了遞進式強化學習訓練方法,且基于思維鏈和行動鏈端到端訓練,同時建立了統一的評估系統,融合多種類型的獎勵機制,在中文知識問答、文學創作、文稿寫作、日常對話、邏輯推理、復雜計算及工具調用等方面表現不錯。
其中,多工具調用能力值得關注,也是文心X1的特色之一。目前,X1已支持高級搜索、文檔問答、圖片理解、AI繪圖、代碼解釋器、網頁鏈接讀取、TreeMind樹圖、百度學術檢索、商業信息查詢、加盟信息查詢、詞云生成等多款工具,對于大模型應用落地是一個利好。
X1也證明了一件事,大模型本身能力的進化,實際上會淘汰掉一部分Agent,如果Agent能夠被大模型原生替代,那就說明這部分Agent的價值太淺,在此領域創業注定失敗。
前不久爆火并陷入爭議的Manus等產品,在未來一段時間就將面臨類似的煩惱,Manus的成功并并非大模型原創性突破,而是對現有技術的工程化整合,如Claude模型、Computer Use、MCP協議等,其核心創新在于將虛擬機環境與多智能體協同架構結合,使Agent能夠像人類一樣操作計算機完成復雜任務。
這也透露出百度另一個方向,篤定AI Agent。李彥宏也提到,推理大模型涌現出讓人驚嘆的深度思考能力,它將推動人工智能的一個重要應用方向,即“AI智能體”的落地,2025年可能會成為AI智能體爆發的元年。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。