首頁 > AI資訊 > 最新資訊 > 星火3.0VSGPT3.5,百「模」?fàn)幜鲿r(shí)代來臨

星火3.0VSGPT3.5,百「模」?fàn)幜鲿r(shí)代來臨

新火種    2023-10-27

原文來源:多鯨

圖片來源:由無界AI生成

近日,在第六屆世界聲博會暨2023科大訊飛全球1024開發(fā)者節(jié)上,科大訊飛董事長劉慶峰宣布,星火認(rèn)知大模型V3.0正式發(fā)布,全面對標(biāo)GPT3.5。此外,星火V3.0亦升級了啟發(fā)式對話、AI人設(shè)等功能,從而為用戶提供更個(gè)性化的AI助手。

每逢各大公司大模型有「大動作」的時(shí)候,ChatGPT便總是被「拉出來溜一圈」。那么,教育作為大模型落地「最通順的」場景之一,星火認(rèn)知大模型V3.0在這一方面可以和GPT3.5較量一下手腕嗎?筆者選取了2022年普通高等學(xué)校招生全國統(tǒng)一考試(甲卷)語文題目,探了探兩者的中文水平。同時(shí),從教師端的角度出發(fā),想要成為老師的「個(gè)性化AI助手」,也需要一定的教學(xué)設(shè)計(jì)能力。

想要在中文水平上進(jìn)行測評,一套高考卷子可能是不錯的試金石。在GPT-3.5問世之初,既有人通過不同學(xué)科的卷子來測試其水平,表現(xiàn)不俗,今日不妨再通過高考卷來比一比大模型在中文方面的數(shù)據(jù)庫、邏輯推理和寫作能力。

(1)文化常識

《詩經(jīng)·衛(wèi)風(fēng)·氓》中男女主人公有過偷悅的往昔,「_______________,_______________」,就是對他們小時(shí)候歡樂相處的描寫。

「雖九死尤未悔」?似乎不太對勁。這一題,訊飛星火直接給出了正確的答案。

(2)古文閱讀

古文節(jié)選自《戰(zhàn)國策·秦策二》

請對這一段長句進(jìn)行斷句,并用現(xiàn)代文解釋意思。

不榖不煩一兵不傷一人而得商于之地六百里寡人自以為智矣諸士大夫皆賀子獨(dú)不賀何也

正確答案為:B. 不榖不煩一兵/不傷一人/而得商于之地六百里/寡人自以為智矣/諾士大夫皆賀/子獨(dú)不賀/何也。

訊飛星火成功斷句3處,而GPT-3.5則僅成功1處。而且在「子獨(dú)不賀」的翻譯上,盡管沒有上下文的語境,訊飛星火能夠精準(zhǔn)切分謂語和賓語的位置,實(shí)現(xiàn)了整句成功的翻譯。

(3)作文寫作

題目要求:

《紅樓夢》寫到「大觀園試才題對額」時(shí)有一個(gè)情節(jié),為元妃(賈元春)省親修建的大觀園竣工后,眾人給園中橋上亭子的匾額題名。有人主張從歐陽修《醉翁亭記》「有亭翼然」一句中,取「翼然」二字;賈政認(rèn)為「此亭壓水而成」,題名「還須偏于水」,主張從「瀉出于兩峰之間」中拈出一個(gè)「瀉」字,有人即附和題為「瀉玉」;賈寶玉則覺得用「沁芳」更為新雅,賈政點(diǎn)頭默許。「沁芳」二字,點(diǎn)出了花木映水的佳境,不落俗套;也契合元妃省親之事,蘊(yùn)藉含蓄,思慮周全。

?以上材料中,眾人給匾額題名,或直接移用,或借鑒化用,或根據(jù)情境獨(dú)創(chuàng),產(chǎn)生了不同的藝術(shù)效果。這個(gè)現(xiàn)象也能在更廣泛的領(lǐng)域給人以啟示,引發(fā)深入思考。請你結(jié)合自己的學(xué)習(xí)和生活經(jīng)驗(yàn),寫一篇文章。

這是一篇高考作文題,需要結(jié)合題意對于文章內(nèi)容進(jìn)一步擴(kuò)展,請撰寫一篇800字左右的作文。

初看,兩篇文章作為高考作文題目皆有一個(gè)通病。作文并非材料分析題,兩篇文章于開頭都大篇幅地對于材料內(nèi)容進(jìn)行了一通解析,在文章結(jié)構(gòu)和寫作策略上都不是上策。

接著看文章邏輯,這一點(diǎn)兩個(gè)大模型的能看出「從借鑒到創(chuàng)新」的遞進(jìn)意味,然而,「借鑒和創(chuàng)新」的關(guān)系卻涇渭分明。在星火大模型這里,「借鑒與創(chuàng)新并非孤立存在,而是相互促進(jìn)、相互融合的」,而GPT確認(rèn)為「借鑒和獨(dú)創(chuàng)需要平衡博弈」。顯然,考場經(jīng)驗(yàn)告訴我們,前者更得閱卷老師青睞,而后者想要立論,恐怕就劍走偏鋒了。

再看素材使用,與考場作文相比,兩篇文章的素材使用的廣度和深度都顯得不夠充分,然而。比起GPT純粹的說理,星火引用了兩篇古詩詞,險(xiǎn)勝一招。

最后看主題升華,如果說訊飛星火的作文能夠從藝術(shù)創(chuàng)作的角度延宕開來,則「借鑒與創(chuàng)新的融合」,絕對將「精準(zhǔn)狙擊」文章的核心主題,可惜的是,通篇都在談?wù)撍囆g(shù)創(chuàng)作。在這一點(diǎn)上,GPT的作文從學(xué)習(xí)生活談到創(chuàng)業(yè)、市場、教育政策,顯得更加磅礴大氣。

總而言之,這篇作文的撰寫,兩家大模型各有優(yōu)劣,但是都未能到達(dá)「優(yōu)秀」的水平。

通過不同身份的認(rèn)定,大模型既能是「答題者」,也能是「出題人」。這也意味著,大模型多元的綜合能力,為打造老師個(gè)性化AI教學(xué)助手提供了有利的支撐。

而其中最關(guān)鍵的步驟之一,即是對于教學(xué)整體流程的把控能力。為此,筆者向兩個(gè)大模型提出了語文、數(shù)學(xué)以及物理學(xué)科的教案設(shè)計(jì)要求,幾次嘗試后發(fā)現(xiàn)兩者差別不大,流程設(shè)計(jì)完整而略微欠缺與實(shí)際課文相結(jié)合的部分。比較之下,選擇了生物中的人類免疫系統(tǒng)教學(xué)將兩者進(jìn)行比對。

有趣的是,星火大模型提出了一個(gè)具體的實(shí)驗(yàn)設(shè)計(jì),相比較GPT的回答,其考慮到了生物學(xué)科的實(shí)操性的特點(diǎn)。不過,在筆者記憶中,高中課本上并為出現(xiàn)過類似的實(shí)驗(yàn)。按照經(jīng)驗(yàn),細(xì)菌繁殖要形成肉眼可見的菌落,至少需要等到數(shù)個(gè)小時(shí)的時(shí)間。這個(gè)實(shí)驗(yàn)設(shè)計(jì)固然是想讓人明確感受到藥劑的影響,但顯然不符合常理。這也可見,大模型的回答也會有「幻覺」。

相比之下,GPT的課程設(shè)計(jì)則更加「上價(jià)值」,除了對于課程本身的介紹之外,還引導(dǎo)同學(xué)們思考了疫苗與人類社會的關(guān)系,在內(nèi)容上更加完整。

比完教案設(shè)計(jì),內(nèi)容課件也是令老師們頭疼的一點(diǎn)。由于GPT3.5只能生成文本,這一題就交由星火大模型來完成。

從目錄頁來看,人體免疫系統(tǒng)的幾個(gè)知識點(diǎn)羅列地較為清晰明確了。課件中,對于知識點(diǎn)的呈列以及重點(diǎn)突出也一定程度上比較清晰。不過,在「自然殺傷細(xì)胞與抗病毒功能」一頁,文本出現(xiàn)了一些擾亂的文字,前后的知識點(diǎn)也呈現(xiàn)出了一定程度上的重復(fù)和冗雜。在展示配圖上,「圖文內(nèi)容無關(guān)」的問題卻很明顯,各種畫風(fēng)、各種主題和各種職業(yè)都出現(xiàn)在了插圖中,而沒有生物課本上的示例圖。

當(dāng)然,由于教學(xué)課本和課綱設(shè)置都有其標(biāo)準(zhǔn),當(dāng)選擇其他主體時(shí),矛盾和問題就不會顯得這么尖銳。比如寫一個(gè)對于某種水果或者動物的介紹,那種違和感就稍微減淡了一些。不過,其中的問題,也投射出對于未來AI教育輔助工具的期待。恐怕現(xiàn)下,如果有老師需要制作課件PPT,AI不會是首選。

無獨(dú)有偶,在不久前的百度世界大會2023上,百度正式官宣發(fā)布了文心一言4.0版本。百度創(chuàng)始人、董事長兼首席執(zhí)行官李彥宏表示:這是迄今為止最強(qiáng)大的文心大模型,能實(shí)現(xiàn)基礎(chǔ)模型的全面升級,在理解、生成、邏輯和記憶能力上都有著顯著提升。用李彥宏的話來講,文心大模型4.0的綜合水平與GPT4相比,已經(jīng)毫不遜色。

百度大會十日不到,星火認(rèn)知大模型V3.0正式發(fā)布,全面對標(biāo)GPT3.5。

今天早些時(shí)候,DoNews公眾號發(fā)文《劍指GPT-4,百度文心4.0究竟有多強(qiáng)?》,通過業(yè)界普遍使用的語言理解、推理、生成、記憶四個(gè)維度的考察以及國家公務(wù)員考試《行測》真題,測評文心大模型4.0與目前仍免費(fèi)的GPT-3.5在中文領(lǐng)域的實(shí)際水平。根據(jù)測評結(jié)果來看,文心大模型4.0整體水平優(yōu)于GPT-3.5,尤其在理解和生成兩方面,表現(xiàn)令人驚喜。

而筆者幾個(gè)問題比較下來,確實(shí)可以看到在中文輸出方面星火認(rèn)知大模型V3.0的準(zhǔn)確率更高,整體表現(xiàn)占上風(fēng)。當(dāng)然,測評問題有限,綜合判定還需要更多比較。

自今年三月以來,每有一家大模型發(fā)布,ChatGPT都會被「拉出來溜一圈」,從各種維度來進(jìn)行比較。但回到其模式的本質(zhì),對話始終是大模型用戶的核心訴求之一。關(guān)于這一點(diǎn),教育與大模型的適配度,已經(jīng)是公認(rèn)的契合,因此這半年多來,大模型與教育結(jié)合落地的動作不少,包括搭載大模型的智能硬件設(shè)備、接入大模型的在線學(xué)習(xí)平臺等,也有諸如學(xué)而思研發(fā)的數(shù)學(xué)大模型。

一方面,教育公平化、惠普化逐漸推進(jìn),學(xué)習(xí)個(gè)性化需求上升,技術(shù)正是解決這些痛點(diǎn)的良藥;另一方面,教育行業(yè)資本創(chuàng)投沉寂已久,AI+教育承載了太多期待。

盛名之下,也引發(fā)了一些憂慮。

自從今年初chatGPT面世以來,國內(nèi)外各廠商的百模大戰(zhàn)就拉開了序幕。相關(guān)數(shù)據(jù)顯示,截至10月23日,國內(nèi)大模型數(shù)量已經(jīng)達(dá)到130個(gè),已經(jīng)超出美國的114個(gè),位居全球首位。「百模大戰(zhàn)」已不再是種夸張的修辭,而是客觀現(xiàn)實(shí)。

在C端,各家大模型圍繞各種場景,不斷挖掘著其應(yīng)用的想象力。在GPT-3.5頁面上,這四個(gè)功能就顯得有些簡樸了。

然而,隨著外形雷同、功能相似的AI繪畫、AI聊天機(jī)器人等AIGC應(yīng)用涌入市場,人們對這些應(yīng)用的新鮮感逐漸消散,趣味性有余而專業(yè)性不足。

目前,大模型的應(yīng)用已經(jīng)由C端拓展向B端。各家公司紛紛推出面向企業(yè)的「大模型商店」,通過B端業(yè)務(wù)緩解研發(fā)成本過高帶來的壓力。不過,由于生態(tài)建設(shè)以及用戶馴化還尚需時(shí)日,談大模型賺錢,對于各家公司來說或許還為時(shí)尚早。

也許,國產(chǎn)大模型未必要跟GPT比較,誰能在激烈的市場中獲得更高的「留」量,誰能真正實(shí)現(xiàn)在場景中的實(shí)際應(yīng)用,才能跑到最后。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章