首頁 > AI資訊 > 最新資訊 > 2024年,開源AI潛力更大?

2024年,開源AI潛力更大?

新火種    2024-11-17

開源社區(qū)為人工智能發(fā)展做了什么?

開源(OS)正在驅(qū)動生成式 AI 的創(chuàng)新。得益于像 GitHub 和 Hugging Face 等學(xué)術(shù)研究平臺,我們得以見證 AI 技術(shù)的蓬勃發(fā)展。但值得注意的是,OpenAI、Anthropic 等越來越多的科技公司選擇不公開模型的代碼和權(quán)重。

指責大型科技公司閉源的聲音從未停止,昨天,前特斯拉 AI 總監(jiān),OpenAI 的創(chuàng)始成員 Andrej Karpathy 發(fā)了一條推特暗指「閉源」對人才的限制:

在人工智能領(lǐng)域,我認為你數(shù)不出來 30 個 30 歲以下的聞名者。在公司結(jié)構(gòu)圖里,他們在 CEO 的 5 層之下。他們通常不上 Twitter,他們的 LinkedIn 沒有維護,他們不上播客,他們可能曾經(jīng)發(fā)表過文章,但現(xiàn)在不再發(fā)表。他們是今天的愛因斯坦,直接發(fā)明和創(chuàng)造奇跡。我希望他們不被隱藏在大科技公司和初創(chuàng)公司里,以換取豐厚的薪水,但事實就是如此。

圖片

Meta 首席 AI 科學(xué)家、圖靈獎獲得者 Yann LeCun 也立馬附和道:

如果他們在一家實行開源研究的公司工作,他們的名字就會出現(xiàn)在論文和 Github 上,他們會在會議和研討會上發(fā)表演講,他們會被邀請在學(xué)術(shù)界舉辦研討會,他們甚至可能會獲獎。但是他們沒有選擇這樣,我們將再也無法聽到他們的聲音。

圖片

盡管閉源的技術(shù)巨頭為 AI 技術(shù)開發(fā)投入了大量金錢、計算資源、數(shù)據(jù)等成本,但開源社區(qū)的發(fā)展速度和成果表現(xiàn)總能迎頭趕上。

最近,數(shù)據(jù)洞察初創(chuàng)公司 Synaptic 對開源社區(qū) 2023 年的發(fā)展情況進行了全面細致的歸納總結(jié),以下是總結(jié)文章的核心內(nèi)容。

2023 年,一份由谷歌泄露的內(nèi)部文件吸引了大批「吃瓜群眾」。谷歌觀察到開源 AI 已經(jīng)巧妙而有效地搶占了谷歌和 OpenAI 等大型科技公司的市場份額,并且開源 AI 在速度、適應(yīng)性、隱私性和整體效率等方面都更強。有些開源 AI 模型,如 Mistral、Llama 在受歡迎程度和性能方面正在迅速超越閉源模型。

圖片

因此,開源 AI 吸引了來自開發(fā)人員、研究人員和投資者的極大興趣。2023 年,Github 見證了開發(fā)者對生成式 AI 項目的貢獻同比增長了 148%。過去 2 年,開源 AI 領(lǐng)域接收的投資超過 80 億美元。

OS AI 生態(tài)系統(tǒng):

AI 項目和貢獻者大幅增長

對于生成式 AI 模型而言,「開源」意味著模型的源代碼、所有用于訓(xùn)練模型權(quán)重和參數(shù)都是可公開訪問、可用、可修改的,并且允許轉(zhuǎn)載。

基于這個定義,開源人工智能棧包括構(gòu)建生成式 AI 應(yīng)用程序的一套綜合工具,其中包含基礎(chǔ)模型(如 Llama、Mistral)、開發(fā)工具和框架(如 Langchain、Fixie)、模型訓(xùn)練平臺(如 Weights & Biases、Anyscale)和監(jiān)控工具(Datadog、Seldon)。

更多的開發(fā)人員和新項目持續(xù)加入,開源 AI 蓬勃發(fā)展

開源的生成式 AI 項目正在顯著增長,貢獻者數(shù)量也在不斷增加。去年,Github 的貢獻者數(shù)量同比增長 148%,通生成式 AI 項目總數(shù)同比增長 248%。截至 2023 年,Github 上有 6 萬個通用人工智能項目,Huggingface 上有超過 40 萬個模型。

貢獻者不再局限于美國和歐洲,來源越來越全球化

大多數(shù)開源項目確實來自美國和歐洲,然而,在 2023 年,對生成式 AI 貢獻最多的個人開發(fā)者卻來自印度和日本。到 2027 年,印度預(yù)計將超過美國,成為 Github 上最大的開發(fā)者社區(qū)。

圖片

第一季度后觀光團熱度減退,深度貢獻者數(shù)量穩(wěn)步增加

2023 這一年,生成式 AI 經(jīng)歷了從「廣泛炒作」到「更加專注和價值為導(dǎo)向的參與」到「幻滅低谷」三個階段的轉(zhuǎn)變。年初 ChatGPT 掀起的 AI 熱潮在第一季度達到頂點后逐步「退燒」,最初的興奮讓位于長期專注的研究。

在 GitHub 代碼庫中,標星數(shù)量的增長趨勢也出現(xiàn)了相似的變化 —— 自第一季度以來,增長速度開始放緩。與此同時,專注于研發(fā)的開發(fā)者數(shù)量穩(wěn)步增長,2023 年累計增加了 148%。

圖片

Python 是開源 AI 的首選語言

盡管 Javascript 是 2023 年度 Github 上最受歡迎的編程語言,但在 AI 領(lǐng)域,Python 卻成為了首選。這得益于 Python 內(nèi)置的如 TensorFlow 和 PyTorch 等綜合機器學(xué)習庫,它們?yōu)闄C器學(xué)習項目提供了強大的支持,并能擴展到各種生成式 AI 項目中。Python 在數(shù)據(jù)處理方面的靈活性以及其獨立于平臺的特性,使其成為各種 AI 項目的理想選擇。

Mojo 是 Python 的一個變種,它兼?zhèn)?Python 的實用性與 C++ 的性能,越來越受開發(fā)者的歡迎。在 2023 年的第四季度,Mojo 在 Github 上的 Star 數(shù)增長了 73%,這說明 Mojo 受到了開發(fā)人員們的喜愛。

圖片

AI 代碼倉庫傾向于更具保護性的許可

有相當一部份 AI 代碼倉庫使用 Apache 許可證,開發(fā)人員可以根據(jù)該許可證對衍生項目申請專利。Apache 許可證具備完備的法條,因此相比其他許可證能提供更好的專利保護。盡管在 Github 上最受歡迎的是開源的 MIT 許可證,但可以預(yù)見的是,生成式 AI 開發(fā)者希望通過更具保護性的許可來保護他們的心血。

市場趨勢:多個項目 / 初創(chuàng)公司

在生成式 AI 技術(shù)堆棧中涌現(xiàn)

圖片

基礎(chǔ)模型和開發(fā)工具是初創(chuàng)公司的重點領(lǐng)域

在生成式 AI 領(lǐng)域,超過 60% 的新公司都選擇了基礎(chǔ)模型和開發(fā)者工具作為核心項目。這是 AI 堆棧的核心要素,也是構(gòu)成、部署和管理各種用途的生成式 AI 應(yīng)用的基礎(chǔ)。模型訓(xùn)練、微調(diào)工具、監(jiān)控工具和云計算服務(wù)等其他領(lǐng)域的創(chuàng)新圍繞著這些核心要素展開。

高質(zhì)量的開源 AI 減少了對專有技術(shù)大公司的依賴,但數(shù)據(jù)是關(guān)鍵

開源 AI 技術(shù)的數(shù)量和質(zhì)量的不斷增強,為開發(fā)人員和初創(chuàng)企業(yè)提供了與專有技術(shù)的大公司競爭的實力。Mixtral 8x7B 在聊天對話以及整體性能方面均優(yōu)于閉源的 GPT 3.5。其他模型如 Llama、Yi 也不遑多讓。

然而,閉源大型科技公司仍具備一個重要優(yōu)勢:它們能夠獲得大量數(shù)據(jù)資源。最近的一些開源模型(如 Llama-2 或 Mistral 7B)并未公開其訓(xùn)練數(shù)據(jù),這表明數(shù)據(jù)很可能是生成式 AI 取得突破的關(guān)鍵專有要素。

投資概況:2022-23 年融資活動強勁

由于對大量數(shù)據(jù)、研究人力和計算資源的嚴重依賴,與普通企業(yè)相比,開源 AI 需要更大的資金投入。

圖片

2022 至 23 年,有 75% 的開源 AI 初創(chuàng)公司獲得了資本投資?;A(chǔ)模型和模型訓(xùn)練 / 微調(diào)軟件吸引了 70% 以上的投資資金。

英偉達是人工智能芯片的領(lǐng)先制造商,也是該領(lǐng)域的戰(zhàn)略投資者,它領(lǐng)投了 Mistral AI 和 Adept AI 等頂級初創(chuàng)公司。

基礎(chǔ)模型:開源模型的普及程度

和性能正在趕超閉源模型

基礎(chǔ)模型的開放程度各不相同,例如,Llama-2 的代碼可以公開訪問,但其訓(xùn)練數(shù)據(jù)尚未公開。當模型的核心組件(源代碼、訓(xùn)練權(quán)重和參數(shù))可公開獲取,且使用、修改和發(fā)布不受限制時,模型才是真正的「開源」模型。

圖片

開源 LLM Falcon 和 Bloom 獲得了大量擁護

阿布扎比技術(shù)創(chuàng)新研究所(Abu Dhabi's Technology Innovation Institute)開發(fā)的大型語言模型 Falcon 和合作研究組織 BigScience 創(chuàng)建的 BLOOM 在 Huggingface 上的下載量最高,超過了 Meta 的 Llama2。

近期推出的 Mistral AI 模型 Mistral 7B 和 Mixtral 8x7B 也很受歡迎,在 Huggingface 上的下載量超過了許多成熟的模型。

圖片

開源模型并不落后于閉源模型

雖然 GPT4 和 Claude 等閉源大模型在聊天機器人排行榜上名列前茅,但 Mistral、Vicuna、Yi、Llama 等開源模型正在迎頭趕上,這對生態(tài)系統(tǒng)來說是個好兆頭。

不過根據(jù) MMLU 基準,閉源模型仍然領(lǐng)先一步。MMLU 基準包含人文、社會科學(xué)和 STEM 等 57 個學(xué)科的知識和解決問題的技能測試,衡量的是一個模型的綜合性能,在這方面,GPT 和 Gemini 等閉源模型仍然優(yōu)于開源模型。

開源開發(fā)提高了模型的效率

使用開源人工智能的初創(chuàng)公司并不像大型科技公司那樣擁有豐富的數(shù)據(jù)資源或計算能力,因此它們有動力創(chuàng)建更高效的模型,以更低的計算需求提供高質(zhì)量的結(jié)果。Mixtral 8x7B 是一個 85B 參數(shù)的「專家混合」模型,其算力僅相當于一個 14B 模型。就效率和效果而言,它優(yōu)于所有其他開源模型,包括更大的 Llama-2 70B。這對于模型的本地應(yīng)用(如移動語音助手)至關(guān)重要。

Github 數(shù)據(jù)顯示開發(fā)人員的興趣所在

圖片

作為開發(fā)人員與開源 AI 項目互動并做出貢獻的主要平臺,GitHub 的數(shù)據(jù)往往可以反映開源項目的吸引力。

AutoGPT、Modular 的 Mojo 受到了開發(fā)人員的高度關(guān)注。

AutoGPT 是一款基于 GPT-4 構(gòu)建的自主人工智能助手,受到了開發(fā)人員的極大關(guān)注。該模型能夠充當 AI 智能體,將大型任務(wù)分解為各種子任務(wù),而無需用戶輸入,然后將這些子任務(wù)鏈接在一起并按順序執(zhí)行以產(chǎn)生更大的結(jié)果。AutoGPT 還能夠連接到互聯(lián)網(wǎng),從而可以檢索其任務(wù)的最新信息。

Modular 的 Mojo 是 Python 的變體,專為高性能 AI 應(yīng)用程序量身定制,平衡了 C++ 和 Rust 等語言的效率與 Python 的簡單性。Mojo 的核心目標是簡化 AI 開發(fā)、無縫集成 AI/ML 基礎(chǔ)設(shè)施并提供強大的性能。

圖片

此外,Pytorch、Huggingface、AutoGPT 和 Supabase 在 Github 項目參與度方面脫穎而出。

展望未來

1、開源不僅僅是生成式 AI 的「游樂場」,它還是創(chuàng)新的前沿。

開源人工智能正在積極創(chuàng)新。2023 年,Github 的貢獻者年增長率為 148%,生成式 AI 項目的年增長率為 248%,HuggingFace 擁有超過 40 萬個模型。生成式 AI 的開源堆棧在各個類別(從基礎(chǔ)模型到基礎(chǔ)設(shè)施和工具)都具有競爭力或優(yōu)于專有產(chǎn)品。

2、開源模型在性能上與旗艦版專有模型相差不遠,并且在效率上處于領(lǐng)先地位,以較低的計算量和數(shù)據(jù)量就能實現(xiàn)其性能。

Mistral、Vicuna、Yi 和 Llama 等開源模型正在迅速追趕 GPT-4 和 Claude 等閉源模型,Mixtral-8x7B 在 Elo 和 MMLU 評級中甚至超過了 GPT-3.5。開源社區(qū)正在構(gòu)建計算效率更高的模型,這對于在邊緣設(shè)備(例如手機)上本地部署人工智能至關(guān)重要。

3、獲取高質(zhì)量、豐富的數(shù)據(jù)將成為 OS AI 模型的限制功能。

數(shù)據(jù)將成為大模型開發(fā)的關(guān)鍵戰(zhàn)場。最近的模型,例如以「開源」形式發(fā)布的 Llama-2、Mistral-7B,選擇不公開其模型訓(xùn)練數(shù)據(jù)。當然,大型科技公司將在數(shù)據(jù)方面擁有顯著的優(yōu)勢。合成數(shù)據(jù)平臺(如 Gretel)可以潛在地增強訓(xùn)練和微調(diào),但預(yù)計數(shù)據(jù)保護將會加強。

4、大量關(guān)于 AI 智能體的開發(fā)正在進行,預(yù)計基于 AI 智能體的應(yīng)用程序很快就會上市。

雖然 AI 智能體在面向客戶的應(yīng)用程序中仍然處于實驗階段和新生階段,但 Github 數(shù)據(jù)表明開發(fā)人員對智能體有濃厚且持續(xù)的興趣。截至目前,Github 上有 70 多個 AI Agent 存儲庫,其中 AutoGPT、Bloop、XAgent 等存儲庫獲得了顯著的關(guān)注度(8-10K+ star)和參與度(30 + 個貢獻者)。AI 智能體絕對是一個值得關(guān)注的領(lǐng)域。

5、預(yù)計優(yōu)秀的開源人工智能項目將在 2024 年吸引大筆融資。

開源人工智能領(lǐng)域的初創(chuàng)公司已經(jīng)看到了一些非常大的交易和跨階段的活躍融資。Mistral AI 在最近完成4.87 億美元的交易后成為 AI 獨角獸。AutoGPT、Supabase 和 DeciAI 準備在未來 1-2 年內(nèi)進行幾輪融資。

參考鏈接:

https://synaptic.com/resources/free-weights-open-source-ai.html?continueFlag=d8af5585700ff63ab0513fb2db85ed31

https://twitter.com/karpathy/status/1748816969858720232

https://twitter.com/ylecun/status/1748858074855580097

相關(guān)推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。

熱門文章