理想首個AI應用實測:視覺識別媲美GPT,內容創作太拉胯
誰曾想,ChatGPT最大的對手會是一家汽車廠商打造的人工智能App呢?
2023年6月,理想汽車推出了自研認知大模型“Mind GPT”,它以“理想同學”App的形式出現在理想汽車的車機中,支持通過自然語言交流、發送指令。2024年,Mind GPT升級到3.0,帶來了行業領先的自然語言任務執行功能。理想汽車創始人李想在2024年25日舉行的AI Talk特別活動中提到,理想同學已經是理想車主們最愛的功能之一,如今理想要讓更多用戶用上理想同學。
(圖源:理想同學)
今日,理想同學App如期登陸App Store。為了弄清楚車企打造的首個通用人工智能應用程序到底表現如何,雷科技第一時間下載了這款應用,并將它與Kimi、豆包、ChatGPT等熱門應用來了一場比拼。
理想的極簡風,刮到了“理想同學”上?
理想同學App的設計相當簡潔,但卻不夠明了。App圖標是簡筆畫風格的一雙眼睛,有人覺得這和蔚來的Nomi有點像,對比下來,小雷感覺蔚來Nomi還是要更可愛一些。可相比起其他AI應用的“賽博風”,理想同學倒是有幾分親近感。
(圖源:雷科技制圖)
啟動App后,理想同學會跳出歡迎界面,隨后就是注冊/登陸請求。理想同學沒有限制必須理想車主才能使用,因此小雷的整個登陸過程都是相對順利的。相較之下,豆包的登陸更像是開始一場游戲,它需要你建立昵稱、性別等個人資料,Kimi、ChatGPT和理想同學都沒有這個要求。
雖然理想同學整體就是黑+白配色,沒有啟動廣告、也沒有任何內容推薦,甚至連教程都沒有。或許理想是默認多數會下載理想同學的用戶都不是“新手小白”。
(圖源:雷科技制圖)
有趣的是,理想同學的推薦問題往往都是投資、科技類話題,而豆包則是偏生活常識類,這或許就是它們各自定位的巨大差異。另外,Kimi、豆包都會將能夠實現的功能放在輸入框附近,這能讓用戶快速了解到它們到底能做些什么。比如豆包把AI生圖、AI翻譯、AI寫作都列了出來,Kimi也把翻譯和寫作單獨顯示,但理想同學卻沒有這么做。
當你開始提問后,理想同學會顯示一段非常炫酷的動畫,展示它理解、搜索、學習、總結的過程。在開始回答問題后,這段思考過程會被折疊。小雷認為這段動畫沒有什么必要存在,畢竟每個大模型的生成過程幾乎都是一樣的,這段動畫也說明不了什么,而且還相當占位置。
(圖源:雷科技制圖)
只能說,對于這個剛剛上線的人工智能應用來說,理想算是很努力地做減法,走極簡化風格使其在視覺上足夠高級,但這類應用最重要的還是要“好用”,而不是“好看”。不夠直觀的交互,上手門檻就被無形中抬高了不少。
對壘Kimi、豆包:基礎相當,創作拉胯,視覺還行
聊完設計與使用上的體驗,也是時候到實測環節了。
本輪測試主要分為三個環節,包括基礎問答、內容生成和連續交流。小雷為理想同學挑選的對手有豆包、Kimi和ChatGPT。話不多說,我們直接開始PK吧。
第一輪是基礎問答橫評,我們選擇了理想同學推薦的“馬斯克xAI為何能吸引60億美元投資”這個話題,對四款人工智能應用進行提問。
總結速度方面,理想同學從開始搜索到生成回到大約花費了3秒時間,而豆包、Kimi分別需要6、7秒時間,ChatGPT和理想同學的生成時間相近。而內容上,四款應用都有從市場、背景、技術戰略等多方面進行論述,但只有Kimi能夠結合xAI當前的狀況詳細描述,比如提到xAI截至5月已經融資超120億美元,這節省了我們后續提問的時間。
(圖源:雷科技制圖,從左到右為:Kimi、理想同學、豆包、GPT)
整體來看,目前主流人工智能應用在基礎問答基本都做得不錯,比如資料檢索能力、整合能力和生成能力,即便是初出茅廬的理想同學也能穩拿六十分。當然,體驗下來,小雷認為Kimi的優勢在于總結的資料更全面,豆包的優勢是能直接推薦今日頭條、抖音上的解說視頻。
第二輪是內容生成,我們挑選了“雷科技即將前往美國參展CES2025,請根據這個由頭編寫一篇宣傳導語”這個任務,讓四個人工智能應用自由發揮,幫我們寫一篇宣傳語,看看他們各自的表現如何。
從生成的內容上看,豆包和理想同學都能了解到小雷的需求是“宣傳導語”,因此內容篇幅不會太長,滿足社交平臺或文章尾部的宣傳需求;Kimi的內容是四款人工智能應用中最長的,甚至還包括了“2025年1月7日-10日”這個準確的時間,但可惜就是太長了,而且還把雷科技認錯成參展商。至于ChatGPT,內容就比較平平無奇了,而且AI味也很重,實用性不佳。
(圖源:雷科技制圖,從左到右為:理想同學、豆包、Kimi、GPT)
我們又將理想同學推薦的問題“谷歌AI如何在生成視頻和圖像上實現突破”為命題作文,要求四款應用按照這個主題寫一篇文章。不過,測試下來,Kimi、豆包、ChatGPT都能按要求寫一篇文章,雖然水平參差不齊,但至少還是能完成要求,而理想同學則是回答了這個問題,并不能獨立完成寫作。
(圖源:雷科技制圖,從左到右為:Kimi、豆包、理想同學、GPT)
這樣看來,理想同學倒不是完全不能寫作,只是過大的命題對于它而言還是有一定難度,從內容完成度來看,其實也只有豆包算得上是完成了一篇正規的文章寫作,Kimi更多還是以資料舉證為主,沒有分析和論述。只能說,理想同學在寫作這塊還是得加油。
值得一提的是,目前Kimi和理想同學都不支持圖像生成,其實也算是時下主流廠商推出的人工智能應用里比較罕見的不支持圖像生成模型技術的應用了。
(圖源:雷科技制圖)
第三輪,我們迎來了這次體驗的重頭戲:視覺模型對比。由于Kimi不支持視覺模型、豆包只支持語音模型,這次的對比主要還是理想同學和ChatGPT之間的對決。
理想同學和ChatGPT都能通過攝像頭對現實物體進行識別,但兩者的處理方式有些區別,前者只有在用戶發出需求時才會給予回應,例如識別物品是什么、人物是誰等;而ChatGPT更傾向于實時交流,只要攝像頭采集到畫面,它就會開始與你交流。
(圖源:雷科技制圖,左為GPT、右為理想同學)
體驗下來,單純聊物體的識別能力的話,兩者可以說幾乎沒有差距,像是生活中常見的礦泉水、電腦,都能認出來。而犯的錯誤也幾乎一樣,比如認不出新款的手機,或是冷門的數碼產品等。但是在速度上,理想同學的表現還是很不錯的,而且它的語音識別能力很強,能準確分析你是真的在向他提問還是在與旁人交談,避免了錯誤的實時分析。
而在植物的識別上,理想同學能夠識別出園區種植的觀賞性植物是冬麥,并且給出了一些簡單易懂的資料,而GPT卻認為那些草是韭菜。當我繼續追問“這些觀賞性植物真的是韭菜嗎?”,GPT建議我可以詢問工作人員。不得不說,理想同學在這方面的識別能力幾乎是完勝ChatGPT。
(圖源:雷科技制圖,左為理想同學、右為GPT)
當然,理想同學也并不是方方面面都勝于ChatGPT,比如我問它今天的天氣看起來怎么樣時,理想同學始終會引用氣象資料來判斷,而非識別實景;ChatGPT就會告訴我現在的天氣看起來不錯,但可能需要穿件外套,避免著涼。
對比下來,理想同學作為一款剛剛上線的人工智能應用,在處理基礎任務時已經和Kimi、豆包、ChatGPT這些老玩家相差無幾,但要說到文字創作、內容生成,可能還是略顯生澀。而理想同學目前最大的優勢是視覺模型表現很不錯,這可能是Mind GPT的數據模型與大量的視覺需求有關。
車企下場做AI應用,醉翁之意不在酒?
在日前舉辦的“AI Talk”特別直播活動中,李想透露自Mind GPT在理想汽車上線后,“理想同學”累計喚醒次數達23.8億次,任務完成率96%,用戶滿意度96.2%。作為車企推出的車機AI助手,能夠這樣的喚醒率,表現確實不錯。
但理想為何要把車機的AI助手搬到應用市場上,與一眾老玩家們硬碰硬呢?
實際上,李想在2023年就曾通過內部信提到理想汽車的未來愿景——至2030年,要成為全球領先的人工智能企業。在“AI Talk”活動中,理想也宣布全面進軍AI市場,理想造的汽車也不是“汽車”,而是“人工智能機器人”。這其中最重要的一環,自然是大模型技術。
時下,幾乎所有人工智能企業都擁有公開的AI應用,百度的文心一言、谷歌的Gemini,即便是沒有造出一款全新的AI應用,也計劃在主流產品中全面AI化改造,例如馬斯克的“xAI”計劃。因此,想要大眾認可理想是一家人工智能企業,最好的辦法就是通過部署一款每個用戶都能輕松下載到、使用到的應用——理想同學。
(圖源:雷科技制圖)
對于理想而言,理想同學上線應用市場,這意味著將會有更多普通用戶加入其中,共同訓練Mind GPT,使它變得更加完善,無論應對任何場景,都能有更好的應對方式。此前,Mind GPT主攻的場景是“任務主導型AI”,即用戶給一個清晰的指令,理想同學負責執行便可。但這對于要“造人工智能機器人”這個愿景而言,還遠遠不夠。
而體驗下來,理想同學距離Kimi、豆包、ChatGPT等專業AI玩家仍有不小差距,尤其是面向創作方向的特性,理想同學差的不是一星半點。假如理想要讓消費者們認可“理想是一家人工智能企業”,或許要加快理想同學升級,跟上主流AI應用腳步。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。