百川新模型沖頂中文測試基準!首款AI助手“百小應”同時發布,“最懂搜索”
王小川在搜索時期種下的種子,在大模型時代又開花了。
他創業的百川智能,剛剛發布了自家首款AI應用,to C的“百小應”。
乍一看,這就是個當下大熱門的AI助手,但官方強調,這個AI助手啊,它懂搜索,還會引導式提問。
你別說,當“搜索”和“王小川”這兩個詞放到一起的時候,就格外讓人想仔細一探究竟。
百小應不僅可以隨時回答用戶提出的各種問題,速讀文件、整理資料、輔助創作等,還具備多輪搜索、定向搜索等能力,能更精準地理解和滿足用戶需求。
百川解釋,讓模型掌握專業的搜索技能,是為了給用戶“提供專業、豐富的知識和資源”。
并且,它還支持用戶通過語音進行交互。

我們試過了,大家現在可以在iOS商店、安卓應用市場、百川智能官網下載百小應App,或者通過Ying.ai的Web端免費使用。
而百小應背后,是百川智能終于亮相的新一代基座大模型,Baichuan 4。看到前面能語音交互就能隱隱猜到,這次百川推出的大模型具備多模態能力。
一經發布就立刻上戰場了,丟給SuperCLUE(通用大模型綜合性中文測評基準),以總得分80.64分刷新了國內紀錄,中文綜合能力測試更是以1.51分的優勢險勝GPT-4-Turbo-0125。

亮出Baichuan 4,連同發布懂搜索、會提問的AI助手百小應,朝規劃的超級模型和超級應用更進一步,百川智能今年一改以往月更上新的頻率,原來是憋了個大活……
百小應,百川智能成立一年多來推出的首款AI應用。
和大多數AI助手一樣,它也是個通才,無論是長文本閱讀還是多模態理解,都是它具備的基礎能力。
不過還是想先跟大家一起來看一下它區別于所有AI助手產品最特別的點,百小應它懂搜索、會提問。
怎么個懂搜索法?融合Baichuan 4通用能力和百川搜索技術,百川展示了百小應的3種懂法。
一是會定向搜索。
提一個問題,百小應能精準定位問題領域,然后直奔權威站點提取重點信息,豐富輸出。
主打一個快速和準確。
二是能多輪搜索。
每一個問題,百小應都能針對它進行逐步解析,搞清楚問題背后到底想要的是什么,然后再給出關鍵答案。
相比單輪搜索,在市場調研、產業分析等復雜場景下,多輪搜索能夠有效地獲取更專業、更有深度的信息。

三是可以提供嵌入式搜索結果。
簡單來說,就是與其它AI在單次搜索后“總結網頁信息”的簡單調用不同,百小應是將搜索結果作為觀點、論據直接應用到問答結果中。
“像Perplexity那種,叫總結搜索結果,我們認為那個方向應該是搜索2.0要做的工作,搜索引擎公司自己就能干,不是我們要做的。”

同時在輸出時,百小應比較講求結構化輸出。
也就是將關鍵信息以描述+表格的形式來給出,讓回答更清晰,重點一目了然。

多輪、定向、嵌入搜索等技術加持,得到的結果就是百小應懂搜索。
團隊明確了解,模型+搜索技術的融合確實可以提升模型回答的準確性、降低幻覺,但只有技術是不夠的,需要產品設計上有配套的解決方案。
就上手體驗的初步感觀來說,懂搜索帶來的好處,既能提高AI輸出回答的準確性、時效性,降低幻覺;也能增加回答中的觀點、案例、數據等,使模型的回答更豐富、更鮮活。

說完百小應懂搜索,再來說說它會提問是怎么個情況。
非專業提示詞工程師,一般和AI對話時的需求描述都比較籠統,不會特別精確。
百小應會提問就是針對這種情況準備的,在用戶問題的基礎上,通過提問一步步引導,幫助用戶清晰表達自身需求。

上面這些對百小應產品設計理念的思考和技術實現都是為了降低普通人使用AI助手的門檻,對普通用戶來說還是很友好的。
當然了,說到底是為了最后給出一個用戶真正用得上的答案。
前面提到,百小應對長文本閱讀和多模態理解也是得心應手,下面放幾個showcase,大家也可以自己上手體驗一下(捉蟲和找bug,簡直是大模型時代咱們最喜聞樂見的事兒了)。
多模態測試結果,還比較nice,博物館里的半面雕塑頭像也能精準識別出:

長文本能力,讓它讀財報也順利過關:

一通體驗下來,感覺日常對話、辦公場景、搜索求知、多模態識別……百小應的可應用場景還是挺多的。
但百川智能創始人兼CEO大膽開麥,這并不是他此前提到過會推出的超級應用。
用他的話說,百小應目前是個AI助手,是大模型時代,用戶手里的應用從“工具”化身“伙伴”的中間態。
整個過程,是逐步發展、逐步滿足用戶需求的過程。

開頭咱就提到過,百小應背后,是百川智能推出的Baichuan系列模型最新版本Baichuan 4。
也是百川智能入局大模型以來推出的第一款多模態模型。
相較前代基座模型Baichuan 3(今年1月底發布),Baichuan 4在各項能力上的提升還挺明顯。
其中指令跟隨提升20%,信息理解提升9%,知識問答提升15%,創作提升16%,邏輯推理提升15%;專項能力方面,數學提升14%,代碼提升9%。
首戰告捷,在OpenAI長期霸榜的SuperCLUE綜合基準上,Baichuan 4一出手就拿下了第一:
總得分80.64分,超過前一個榜一大模型0.61分。
真的是險勝……
然而分差雖小,但眾所周知在大模型時代,哪怕0.01分也顯得彌足珍貴。

怎么做到的呢?
訓練過程中,Baichuan 4引入的技術優化手段,包含基于model-based+human-based的協同數據篩選優化,對長文本建模位置編碼科學的Scaling-law,有效提升了模型對數據的利用。
對齊階段,團隊重點優化Baichuan 4模型Reasoning、Planning、Instruct Following能力,通過Loss驅動的數據選取與訓練,多階段爬坡,多模型參數融合等方式。
不僅如此,團隊在這一階段還提出了Sequential Preference Optimization(SPO)方法,通過順序微調LLMs以與人類偏好的多個維度保持一致,關鍵指標和模型穩定性得到顯著提升。
同時突破RLHF和RLAIF融合的RLxF強化學習對齊技術,大幅提升模型的指令遵循等能力。
此外,Baichuan 4還具備行業領先的多模態能力,在MMMU、MMBench-EN、CMMMU、MMBench-CN、MathVista等評測基準上表現優異,領先Gemini Pro、Claude3-Sonnet等多模態模型。

不過,這次Baichuan 4可沒走開源路線。
王小川大方對此做出了回應:“去年我們率先挑起開源,是百川團隊入局大模型的投名狀,當時國內開源環境非常不成熟。我們挑起開源這件事,也對國內開源行業產生了重要貢獻,現在開源領域已經有很多玩家在競爭了”。
朋友們,要相信市場的調節機制啊——王小川說。
Baichuan 4閉源了,但API供應依舊。
新一代基座模型對外開放后,一口氣開放四款模型API,分別是Baichuan 4、Baichuan3-Turbo、Baichuan3-Turbo-128k、Assistant API。
同時也分旗艦版和專業版,旗艦版全量開放Baichuan 4的各項能力;專業版則為Baichuan3-Turbo,價格比旗艦版實惠,性能比Baichuan 2更好,且針對企業的高頻應用場景做了針對性優化。
有趣的是,雖然Assistant API也直接開放給企業用戶免費試用,但面對近期熱火朝天的大模型價格戰,百川的態度很明確:
什么,價格戰?婉拒了哈。

一來,王小川明確自家主要是吃to C這碗飯的,云廠商的價格戰,對百川沒啥影響。
二來,他立場堅定,認為未來肯定會卷,但大家現在太狠了,“在中國市場,API服務其實對創業公司是走不通的”。
王小川進一步闡述自己的觀點:
“如果只是從商業角度來看的話,中國當前的商業環境里面To B比To C大概本身就小了10倍,在美國,中國B端市場這樣的情況是不存在的;
其次,在做數據時會發現,你現在收的是人民幣,但花的算力卻是美元,這其實又有一個中美API服務市場的巨大區別。”
對于百川智能而言,內部一致認為一定要做有差異化的事情。
“只是卷價格的話,可能頭部創業公司走低價是一個優勢,但你想價格低就變成競爭力的話,往市場走這樣其實是不夠的。”
去年,王小川幾度對外公開發言,表示2024年有可能會誕生若干大模型超級應用。
不出意外的話,這或許是大勢所趨,行業中,不少大模型創業公司確實早就在to C端出牌了。
但在價格戰上不慌不忙的百川智能,在推出應用這塊,也呈現出一種徐徐圖之的心態。
王小川一笑,說:“我不覺得百小應發得晚,相反,我覺得發早了。我認為模型應用還需要更多時間的打磨。”
他表示,模型應用百萬級的DAU,還遠遠夠不上“超級應用”的稱號。大家之前發布應用,更多是對自家模型進行展示,到現在,用戶反而不知道這些應用在干啥了。
所以,百小應亮相的時間無所謂是早是晚,而是百川智能挑了個機會把它丟到行業里,讓團隊可以更具體地把它運轉起來。

在邁向超級應用之前,百川智能把百小應派遣為第一位上戰場接受審閱的戰士,也有自己的道理。
如上文提到的,百川智能認為,不同于信息時代工具屬性的產品,大模型創造的是新物種。
讓AI從工具變為伙伴,基于大模型打造AI助手更像是在“造人”。
就像人能夠使用工具、會思考,能聽、能讀、會看、會寫等一樣,AI助手類產品隨著模型能力的持續提升,也應該具備相應的能力。
搜索作為當下大模型最重要的工具,不僅能讓大模型實時獲取最新信息,還能有效解決大模型的幻覺問題,是大模型的關鍵技術之一,也是百川智能的重點探索方向——去年發布Baichuan-53B的時候,團隊就已經提出了搜索增強的理念,RAG技術也一直處于第一梯隊。

基于這個理念,百川選擇了懂搜索的AI助手來作為團隊在to C場景打響的第一槍。
所以,百小應身上的差異化的百川味道,非常一目了然——
AI伙伴中間態+Baichuan模型優勢+搜狗搜索功底沉淀+過往產品經驗積累。

至于首款應用亮相后的未來是什么,王小川淺淺透露了一丟丟。
愿景自然是超級模型和超級應用,得可靠,且一定需要和搜索做結合。
突破點應該是讓AI像(每個)行業的職業人士,把這個職業里的數據密度、思維度加進去,讓它足夠可用。
下一步的更迭方向嘛——嘿,王小川賣了個關子,橫問豎問他就是不說。
不過發布會后的溝通環節,他隱隱約約有露出馬腳啦!
他提到,為什么要讓AI助手會提問,一個原因是為了日后的超級應用做積累,舉的例子就是“你去看病說我發燒了,AI直接給你一個結果,一定是不可行的嘛”。
他還提到圖靈獎獲得者、Ilya的老師Geoffrey Hinton最近接受的采訪,老爺子稱醫療保健是最有前途的AI應用領域(他建議大家都去看看這個采訪)。
醫療,嗯,這個思路果然很王小川。
反正,且讓咱們試著玩著百小應,多等一會兒吧……
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。