首頁 > AI資訊 > 最新資訊 > 新物種?新風口?2023年人工智能發展到哪一步了?

新物種?新風口?2023年人工智能發展到哪一步了?

新華財經    2024-01-04

  新華財經北京12月29日電 2022年11月底ChatGPT-3.5版本上線后,AI發展進入全新紀元。越來越多的資源投入多模態大模型的開發之中,百行千業將面臨AI帶來的全面沖擊與變革,而AI本身的演化也在過去的一年,以日新月異的速度讓人目不暇接。

  目前多模態AI可以閱讀文本、圖片、視頻,與人類無障礙交流;可以根據圖片內容提供設備故障維修建議;可以解讀冷笑話的笑點;新一代敏捷機器人可以手握雞蛋翻轉跳躍。人工智能迅速破圈,不僅讓眾多職場人感到了“失業危機”,甚至程序員也深感“將來替代你的不是AI,而是會使用AI的人”。

  被理解與被超越,“能力恐慌”之外,AI還帶來了“生存恐慌”。OpenAI創始人之一兼首席科學家Ilya、Grok和SpaceX的老板馬斯克以及眾多AI領域頂級科學家都認為,AI發展強大后可能會威脅人類的生存。目前四大頭部平臺ChatGPT、Bard、Claude和Grok發展迅猛并競爭激烈。國內四大通用平臺豆包、文心一言、通義千問和騰訊混元的性能也逐漸追了上來。

  Gemini Ultra 和GPT-4 Turbo的多模態融合更為強大

  谷歌CEO Pichai認為,目前正在進行的AI變革,其影響程度將遠遠超過移動互聯網或者更早的互聯網。根據谷歌官方報告披露,Bard支持模型升級為Gemini,其采用了全新的底層架構,相較于ChatGPT采用的通用型Transformer架構,Gemini基于多模態數據處理搭建了全新的架構,這意味著它是AI多模態大模型的原生架構,可以更好地理解、操作與結合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。從技術指標上來看,Gemini在絕大多數領域的表現均優于GPT-4;從實際使用感受上來看,Bard在多數情景下的交互結果確實更加優秀。

  Gemini開創了AI多模態原生的概念。在此之前,正如OpenAI的報告中提到的,Transformer是一個便于擴大規模的模塊,能夠用于生成大型數據訓練模型。因此同類模型,大多需要訓練不同模態的單獨組件,然后將它們組合在一起,大致模仿多模態下的AI的某些功能。因此,這些非多模態原生的模型在某些任務方面(單一模態,比如文字)表現良好,但在綜合概念性和復雜的多模態推理上則難以應對。補充一點,Transformer也是谷歌團隊率先研發的神經網絡模型。目前谷歌迎頭趕上,有可能會促使GPT-5更快面向公眾開放。

  AI編程能力不斷提高,開發者增值業務不斷被顛覆。從OpenAI開發者大會之后的初創公司反饋來看,大量基于大模型的API進行低代碼量開發的應用,基本被淘汰掉了。畢竟通過自然語言提需求,程序就已經寫好了。通過AI賦能降低傳統IT公司代碼交付成本的業務,很可能在AI一輪一輪的升級過程中逐步退出市場。目前AI可以理解、解釋并生成世界上最受歡迎的編程語言(如Python、Java、C++和Go)中的高質量代碼,并且具備跨語言工作并理解復雜信息的能力。谷歌在報告中估計,基于Gemini 的代碼生成系統 AlphaCode 2,還擅長解決競爭性編程問題,包括涉及復雜數學和理論計算機科學的問題,甚至在編程競賽中的表現優于 85% 的競賽參與者,甚至有專家估計AI能達到Top0.2%的水平。

  國內頭部互聯網平臺也紛紛推出多模態大模型底座,迎頭追趕先進水平

  受制于AI算力芯片的制約,國內多模態大模型的發展暫時落后于美國。盡管困難重重,2023年我國人工智能領域的成果也依然讓人目不暇接。2023年6月16日,我國首個AI框架聯合倡議在上海人工智能框架生態峰會上發布,這標志著國內企業和科研機構正在聯合突圍,打造中國的原生AI底層架構,其重要性堪比AI領域的操作系統。

  12月22日,百度文心一言、騰訊混元大模型、阿里云通義千問、360智腦四款國產大模型首批通過官方評測,通用性、智能性等維度達到國家相關標準。“大模型標準符合性評測”由工信部中國電子技術標準化研究院發起,為國內首個官方評測標準。從底層架構出發,以客觀標準為引,我國大模型已經涵蓋文本、語音、圖像、視覺等多模態領域,并圍繞通用性、智能性、安全性等維度立體展開。

  豆包是基于字節跳動的云雀模型開發的人工智能,底層也是基于Transformer結構的語言模型。豆包具有良好的訪問便利性,是一款免費向公眾開放,且整合了文本、圖片和拓展功能的AI工具。通過官方評測的首批大模型中,阿里云通義千問是唯一的開源模型,其性能表現及安全性得到了大范圍的公開檢驗。12月1日開源后,通義千問在海外權威排行榜HuggingFace上,超越Meta公司的開源大模型Llama2問鼎榜首,成為業界公認的性能強大的開源大模型。

  百度文心一言是中國市場第一個公開發布的ChatGPT競品,其基礎模型目前已經迭代到文心大模型4.0版本。騰訊混元大模型在商業模式上進行了探索,面向B端發布了一系列行業基礎大模型,客戶只要加入自己的場景數據,就可以生成契合自身業務需要的專屬模型,目前涵蓋了金融、政府、文旅、傳媒、教育等。“360智腦”在安全方面具有優勢,原生安全是其特色。

  在顛覆中被“顛覆”,AI商業變現三條路徑

  人工智能版本迭代太快,各路商業私服也在“需求爆滿”和“門可羅雀”的跌宕起伏中度過了漫長的2023年。我們梳理了三條主要賽道,以幫助對未來的AI商業賦能路徑有更清晰的認識,它們是語言模型外圍應用、圖像視頻生成和多媒體內容造假。關于最后一條賽道,盡管充滿了法律和倫理道德的風險和爭議,然而卻是技術和市場關注的重點之一。我國對電信詐騙的打擊取得了卓有成效的戰果,然而AI對于光影、音頻和面部細節的仿真已經到了專業人員難分真假的地步,這對于整個社會體系的正常運轉都會是一項巨大的挑戰,值得警惕。

  回顧2023年波瀾壯闊的AI創業大潮。首先,圍繞GPT做AI插件的公司估值大漲,本質就是在大模型的加持下,拓展應用范圍和進行本地化的部署,并打包成具有市場價值的軟件產品。其中比較核心的技術就是向量數據庫和與之相關的檢索AI增強。各種企業內部大量非結構化數據資產如何利用和盤活一直是個行業難題,在LLM大模型的聚合框架下,可以為非結構化數據創建和索引向量字段,并構建支持快速近似最近鄰查詢的向量索引,為這些數據提供了先進的語義搜索和檢索增強功能。在AI的加持下,經過一定量的開發工作,可以為用戶構架本地向量數據庫,盤活非結構化數據,并對用戶內部查詢結果進行預處理,并提供更精確和高效的搜索結果。

  檢索增強(RAG)技術解決了GPT針對特定領域知識庫不全的問題。在大模型進行商業化本地部署的時候,彌合大模型的常識與客戶背景知識之間的差距非常重要,RAG因此被視為對向量數據庫的重要突破。客戶的需求如果是一道考題,AI就是能力超強的學生,RAG的部署將原本的閉卷考試變成了開卷考試。類似的商業場景包括,語義搜索、問題回答、商品推薦,甚至無需直接提供私有數據給大模型,就可以被AI賦能。

  其次,商業插畫、PPT設計和圖像轉視頻等領域。AI繪畫無論在畫質還是對細節的把控上都已經逼近或者超越了人類的極限。Midjourney、Stable Diffusion和DALL·E在升級優化中,各項能力你追我趕。作為免費開源和插件眾多的Stable Diffusion,是創業公司打造爆款應用的首選。2023年爆火的“妙鴨相機”就是基于證件照底板參數,用戶進行微調打造屬于用戶個性化最美證件照的APP,一度引發眾多用戶排隊支付9.9元生成美美的證件照。

  最后,造假。目前的專業化AI工具,可以根據少量音頻、視頻和照片的學習,生成以假亂真的聲音、圖片和視頻,甚至可以調整仿真人物的面部表情和嘴型,來達到匹配語音的程度。當前充斥網絡的名人搞笑視頻,大多都是使用這種技術制作的。比如:So-vits可以根據某個人的音頻資料生成專屬模型來模仿這個人的聲音,2023年爆火的孫燕姿AI翻唱各種歌曲就是用它做的。Sad-talker可以將一張人物照片和某段音頻進行匹配,讓人物開口說話。Video-retalking可以將一段人物說話的視頻與指定的音頻進行匹配,改變原視頻的講話內容,合成效果更自然。HeyGen整合了各種造假技術,更容易生成一段虛假視頻。這些騙人的技術確實會給社會帶來危害,但是用在合法合規的影視和廣告領域,也許會開創一片商業藍海。

  在顛覆中被顛覆,核心數據和數據更新能力才是王道。年初估值飆升的向量數據庫公司和檢索增強企業,在OpenAI公司推出GPT內置向量數據庫和內置檢索增加插件之后,GPT Agents和GPTS直接將GPT生態圈的估值全面歸零。市場就是這么殘酷,不是你不明白,而是AI升級太快。在可以預期的GPT-5和Gemini的后續版本中,AI已經升級為超級智能體,一旦某條商業路徑被初創公司走通,經過AI迭代模仿的升級版馬上就會出現。展望未來,純技術之路的商業價值保質期將越來越短,而技術與原生數據、知識庫和專利庫相結合的細分領域優質項目將會體現出更強大的生命力。

(文章來源:新華財經)

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章