首頁 > AI資訊 > 行業(yè)動態(tài) > 剛剛!字節(jié)跳動豆包上線圖片理解,大模型走向多模態(tài)|鈦媒體AGI

剛剛!字節(jié)跳動豆包上線圖片理解,大模型走向多模態(tài)|鈦媒體AGI

新火種    2024-12-15

(圖片來源:林志佳拍攝)

(圖片來源:林志佳拍攝)

國內(nèi)活躍度最高的AI大模型應(yīng)用正走向“多元化”。

12月3日消息,鈦媒體AGI獲悉,字節(jié)跳動豆包日前上線了一項實用功能——圖片理解。目前,豆包APP及豆包PC新增照片及相機按鈕,上傳圖片后可識別圖片內(nèi)容。

相比普通的OCR識別(光學(xué)字符識別)技術(shù),豆包的“圖片理解”并非識別文字,而是識別圖片信息。比如,問一個景點在哪里,問動漫人物是誰,豆包都能流暢進行回答。

再比如,早前,馬斯克創(chuàng)立的人工智能公司xAI宣布為Grok增加了圖像理解功能,而馬斯克本人也出來官宣了,并發(fā)布以下圖片,稱“Grok現(xiàn)在能夠理解圖像了,甚至還可以解釋笑話”。

這是一幅四格漫畫,內(nèi)容是一個關(guān)于物理學(xué)家和牛頓的笑話。把這個四格漫畫發(fā)給豆包,也能看到它對這個笑話的解析。

1. 第一格:文字:“HOW DO WE KNOW IF THEY'RE ACTUALLY DEAD OR JUST PRETENDING”(我們怎么知道他們是真的死了還是只是假裝?)圖像:兩個人站在戰(zhàn)場上,周圍有許多倒地的士兵。

2. 第二格:文字:“PHYSICISTS”(物理學(xué)家),圖像:兩個人開始觀察和思考。

3. 第三格:文字:“Discovered”(發(fā)現(xiàn)了),圖像:兩個人似乎有了某種發(fā)現(xiàn),表情變得興奮。

4. 第四格:文字:“Isaac Newton invented gravity”(艾薩克·牛頓發(fā)明了重力),圖像:兩個人得出結(jié)論,表情滿意。

笑話解析:這個笑話諷刺了物理學(xué)家有時會提出一些看似荒謬但卻基于科學(xué)理論的解釋。漫畫中的兩個人在戰(zhàn)場上看到士兵倒地,他們沒有考慮士兵是死是活,而是思考這背后的科學(xué)原理。最后,他們得出結(jié)論是牛頓發(fā)明了重力,暗示士兵是因為重力而倒地。這種思維方式幽默地表現(xiàn)了物理學(xué)家對科學(xué)原理的執(zhí)著和有時不切實際的思考方式。

你認(rèn)為,上述這個解析結(jié)果怎么樣?符合事實嗎?

事實上,隨著AI大模型狂飆兩年,企業(yè)越來越多瞄向更實用的落地場景,“圖片理解”就是其中一項,它可以解決一些搜索、查找評估、文本寫作等場景的需求,這使得大模型更加貼近實用場景需求。

QuestMobile最新數(shù)據(jù)顯示,2024年10月,AI原生應(yīng)用行業(yè)月活躍用戶規(guī)模達到8976萬,同比增長373.0%。用于情感陪伴、職場辦公、趣味休閑、文案寫作、教育學(xué)習(xí)、生活助手、圖像生成、行業(yè)顧問等場景中。

公開資料顯示,字節(jié)跳動的豆包App已經(jīng)成為中國日活用戶最高的AI大模型產(chǎn)品。

同時,截止到2024年10月,在網(wǎng)頁端訪問量方面,Kimi智能助手、文心一言、豆包、通義千問分別達到2863萬、2111萬、1688萬、1012萬;在移動端AI原生應(yīng)用方面,行業(yè)月活規(guī)??倲?shù)達到8976萬,同比增長373%,其中,豆包、Kimi智能助手、文小言月活躍用戶分別為4839萬、1650萬、1179萬。

隨著AI浪潮的興起,各大廠商都在積極探索與AI大模型融合發(fā)展的新契機,AI有望引領(lǐng)全球新一輪科技創(chuàng)新周期,從而促使效率進一步增長。

據(jù)Statista數(shù)據(jù)顯示,預(yù)計到2030年,全球AI領(lǐng)域規(guī)模將超過1.8萬億美元。

(作者|林志佳,編輯|胡潤峰)

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章