Meta的生成式人工智能工具,與ChatGPT和谷歌Bard相比如何?
圖片來源:OMAR MARQUES/SOPA IMAGES/LIGHTROCKET VIA GETTY IMAGES
人工智能(AI)聊天機器人的隊列越來越擁擠。今年7月,Facebook母公司Meta發布了其在生成式AI領域的最新產品:LLaMa 2。
顧名思義,LLaMa 2是Meta發布的第二版LLaMa——LLaMa是“Large Language Model Meta AI”(大型語言模型Meta AI)的縮寫。根據Meta的說法,用于訓練新版LLaMa的數據量比前一版多了40%,上下文長度是前一版的兩倍。
不過LLaMa 2與ChatGPT、必應聊天(Bing Chat)或谷歌Bard等其他一些文本生成式AI工具相比又如何呢?
我試用了LLaMa 2,想了解一下它對于生成式AI工具能夠協助完成的一些常見任務的執行情況。我發現它是一個強大的開源模型,有很大潛力能被改造和定制以提供不同的體驗。然而,作為面向消費者的創新性AI(寫作和研究等)工作助手,LLaMA 2能發揮一定的作用,但相比現有的一些機器人還稱不上是一款卓越的工具。
另一種AI機器人
關于LLaMa 2需要了解的一件事是,它的主要用途并不是作為一個聊天機器人。LLaMa 2是一款通用大型語言模型,可供開發者下載和定制——這也是Meta首席執行官馬克·扎克伯格完善和改進該模型計劃的一部分。
這意味著如果你想將LLaMa 2用作聊天機器人,你就需要使用Hugging Face等平臺上提供的LLaMa 2特殊演示版。我們使用的版本HuggingChat是由開發者社區通過將LLaMa 2部署到Hugging Face上創建的。還有其他平臺可以試用不同的基于LLaMa 2的聊天機器人,不過HuggingChat是一個專門的聊天機器人,旨在成為ChatGPT的開源替代品。
Hugging Face的技術總監菲利普?施密德對《財富》雜志表示,盡管HuggingChat可媲美其他AI機器人,但這種比較并不十分恰當。LLaMa 2的特點在于它能夠根據特定需求被改造,且這個過程無需昂貴的成本。該模型尚未像必應聊天等產品一樣針對特定目的進行微調。
LLaMa 2也沒有連接互聯網。這意味著它的“知識”截至2022年12月。這比ChatGPT的截止日期2021年9月離現在更近。HuggingChat聊天機器人的創建者為其增加了搜索網頁的選項,但這項功能還處在發展的初期,無法賦予LLaMa 2與其他網頁搜索聊天機器人同等的能力。如果你需要從互聯網上獲得最新的信息,最好使用必應聊天或谷歌Bard這類工具。
Facebook研究人員在一篇宣布推出LLaMa 2的論文中寫道,論文中的人類評估結果顯示,LLaMa 2模型通常比現有的其他開源模型表現更佳,并且性能非常接近ChatGPT等閉源模型。該論文承認,LLaMa 2目前還不能與OpenAI最先進的大型語言模型GPT4相提并論。
對LLaMa 2進行測試
我讓LLaMa 2機器人給我的同事寫一封電子郵件,告訴他們我要出城。它生成了一份符合職場簡練和正式風格的像樣的備忘錄。
既然它可以寫電子郵件,那能否駕馭敏感話題(如拒絕一份工作)呢?我讓LLaMa 2機器人給我起草一封回復郵件,說我不能接受這份工作。結果它寫了一篇沒有人情味的三段式短文,這份回復郵件或許會被當成是人類寫的,但肯定絲毫不能撫平對方因遭到拒絕產生的挫敗感。
于是我再次要求它執行這一指令,并且要求它寫得更加具體、有人情味且充滿歉意。然后它生成了一封冗長、或許太過正式的郵件,不過這次的郵件是可用的。當有需要時,LLaMa 2演示版似乎可以假裝懊悔。
LLaMa 2是能夠完成這類任務的,尤其是當你提示它具體信息時。它可以寫出不錯的摘要,如果需要的話,它還能輕松地幫忙起草一份備忘錄。只要向LLaMa 2提供具體的名稱、時間和理由,它就能夠禮貌拒絕參加某場會議或書寫一封特定的正式郵件。
我發現,相比ChatGPT,LLaMa 2的文筆尚可,卻過于正式。我寧愿使用ChatGPT,因為它更善于在語言中融入幾分人情味。LLaMa的語言則有些生硬和千篇一律,難以勝任這類任務。
對于更具創造性或“文學性”的寫作任務,LLaMa 2瑕瑜互見。它很難遵循字數指示。如果我讓LLaMa 2寫一篇150字的短文,它往往會寫出190字。它可以根據建議的主題寫俳句或16行詩,但詩篇是否出彩卻很難說。你覺得“電路熱鬧忙碌,處理器加速數字沖突,雙重交響樂”是一首俳句佳作嗎?
我讓LLaMa 2以“2020年新聞業困境”為主題寫作,結果它卻寫了一首相當糟糕的16行詩。雖然聊天機器人并非以文筆雅正聞名(而且我也不夠資格來評價詩作),但那首詩卻給我一種半生不熟的感覺。全詩沒有押韻,即使它當中含有“墨跡斑斑的可憐蟲,第四等級曾經的驕傲”等有趣的詩句并且主題連貫,但我無論如何也不認為它是一首好詩。
在研究能力方面,LLaMa 2并沒有達到標準
我還向LLaMa 2機器人詢問了一些客觀事實,讓它跟我描述中國的房地產危機。LLaMa 2給出了一系列要點,總結了中國的市場背景、社會問題和基礎設施狀況。當我要求它提供更多信息時,它甚至還能詳細闡述房價情況和新冠疫情的影響。
接著,我要求LLaMa 2給我一份50字的摘要,并附上引文。結果它給出71字,并在每句話的末尾用括號附上了刊物的名稱。我打開“網頁搜索”功能(允許LLaMa 2從網頁獲取資料),然后再次提出指令。這次它給出了50字,但每個鏈接都指向不存在的頁面。
2023年7月,當我問及中國房地產危機的情況時,LLaMa 2再次因提供錯誤信息和更多無效鏈接而顯示一大堆令人摸不著頭腦的道歉話語。
鑒于LLaMa 2的知識截止日期為2022年12月且搜索功能存在缺陷,最好不要使用它來進行重要研究。目前的LLaMa 2模型還只是一個演示版,但也需要進行一定的微調。這個規則適用于所有生成式AI工具——一定要研究清楚它能創造什么。對于LLaMa 2這項AI工具來說,這樣做尤為重要。它在提供引文時出現了幻覺,并且具有知識截止點。如果我要求它概括或精簡信息或修改文本,它會越來越傾向于出現幻覺而提供虛假信息。
你應該利用LLaMa 2嗎?
Hugging Face上的LLaMa 2演示版不同于ChatGPT、谷歌Bard和必應聊天等其他聊天機器人。作為一款聊天機器人的早期版本,它有成功的希望,但仍然很不完善。LLaMa 2演示版不適合用于研究,而且有一些“欺騙性”時刻(請原諒這里使用擬人化)。
如果我想使用LLaMa 2演示版來完成測試和撰寫備忘錄之外的事情,我將不得不篩選冗長、有時甚至未完成的文本。
話說如此,使用AI聊天機器人的理由也舉不勝舉,而且像基于LLaMa 2的HuggingChat這類工具也在不斷地調整和更新。因此我希望你親自試用一下這個機器人,看看它是否更符合你的需求。只是要注意它的局限性。(財富中文網)
譯者:中慧言-劉嘉歡
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。