亚洲欧美中文在线视频 ,国产一级片一区二区三区,99热国产在线

首頁(yè) > AI資訊 > 行業(yè)動(dòng)態(tài) > 多模態(tài)CoT思維鏈架構(gòu)來了，現(xiàn)已開源｜來自廈大&騰訊優(yōu)圖

多模態(tài)CoT思維鏈架構(gòu)來了，現(xiàn)已開源｜來自廈大&騰訊優(yōu)圖

新火種 2024-05-29

多模態(tài)大模型，也有自己的CoT思維鏈了！

廈門大學(xué)&騰訊優(yōu)圖團(tuán)隊(duì)提出一種名為“領(lǐng)唱員（Cantor）”的決策感知多模態(tài)思維鏈架構(gòu)，無需額外訓(xùn)練，性能大幅提升。

多模態(tài)CoT思維鏈架構(gòu)來了，現(xiàn)已開源｜來自廈大&騰訊優(yōu)圖

在 ScienceQA 上，基于GPT-3.5的Cantor準(zhǔn)確率達(dá)到了82.39%，相比基于GPT-3.5的思維鏈方法提升了4.08%。

在更具挑戰(zhàn)性的MathVista上，基于Gemini的Cantor準(zhǔn)確率比原始Gemini提高了5.9%。

目前Cantor論文已上傳arXiv，代碼也已經(jīng)開源。（地址在文末領(lǐng)取）

多模態(tài)專屬思維鏈

思想鏈（Chain-of-Thought, CoT）是一種廣泛應(yīng)用的提示方法，通過添加中間推理步驟，可以顯著增強(qiáng)大模型的推理能力。

然而，在視覺推理任務(wù)中，模型不僅需要把握問題背后的總體邏輯，還需結(jié)合圖像信息進(jìn)行具體分析。

多模態(tài)思維鏈應(yīng)運(yùn)而生。

現(xiàn)有的多模態(tài)思維鏈方法通常將問題分解為多個(gè)相關(guān)的子任務(wù)，并調(diào)用各種外部工具依次處理。

然而，由于視覺信息不足和低級(jí)感知工具的局限性，這種范式在決策中面臨潛在的“決策幻覺”，以及低級(jí)感知工具無法提供高級(jí)推理信息的挑戰(zhàn)。

Cantor架構(gòu)賦予多模態(tài)大語言模型（MLLM）或大語言模型（LLM）像合唱團(tuán)中的領(lǐng)唱員一樣的協(xié)調(diào)能力：

首先使MLLM或LLM同時(shí)處理視覺和文本上下文，形成全面的理解并進(jìn)行決策感知，避免決策幻覺。

隨后，將具體任務(wù)分配給MLLM 扮演的“專家”，以獲得高級(jí)的認(rèn)知信息以進(jìn)一步輔助推理。

圖中（a）展示了不同視覺信息對(duì)決策的影響：

在沒有視覺上下文的情況下，詢問GPT-3.5燒杯的最大刻度，會(huì)由于缺乏圖像信息而無法回答，出現(xiàn)決策幻覺，要求提供更多信息。基于LLM的Cantor通過字幕引入了視覺語境，避免了決策幻覺，提出了合理的解決方法。基于MLLM的Cantor通過圖像加強(qiáng)了視覺語境，進(jìn)一步提高了決策質(zhì)量，將子任務(wù)具體化。

圖中（b）展示了不同視覺工具的比較：

對(duì)于目標(biāo)檢測(cè)相關(guān)的子任務(wù)，傳統(tǒng)方法使用的低級(jí)感知工具（如檢測(cè)器）只能獲得基本數(shù)據(jù)（如坐標(biāo)）。這些低級(jí)線索需要后續(xù)的進(jìn)一步整合才能得到有用信息，這會(huì)增加推理負(fù)擔(dān)。由MLLM扮演的高級(jí)認(rèn)知專家可以直接獲得高級(jí)推理信息（如目標(biāo)的相對(duì)數(shù)量關(guān)系），有助于后續(xù)推理。決策生成+執(zhí)行兩步驟

Cantor的架構(gòu)如下，它包含兩個(gè)主要步驟：決策生成和執(zhí)行。

前者對(duì)問題進(jìn)行分析與解耦，結(jié)合各種專家模塊特性，生成合理的決策。

后者調(diào)用各種專家模塊執(zhí)行子任務(wù)，并匯總信息加以思考，生成最終答案。

團(tuán)隊(duì)具體設(shè)計(jì)了四種專家模塊：

TextIntel Extract：此模塊會(huì)按要求針對(duì)性地提取圖像中的文本。它對(duì)于包含文本和圖形元素混合的圖像特別有用。ObjectQuant Locator：此模塊用于識(shí)別并定位圖像中的對(duì)象。它在比較數(shù)量和識(shí)別空間關(guān)系等方面有優(yōu)勢(shì)。VisionIQ Analyst：此模塊用于處理和解釋視覺數(shù)據(jù)，它能夠處理任何與圖像內(nèi)容相關(guān)的查詢，善于分析圖像。ChartSense Expert：此模塊專門分析和解釋圖表中的信息。它可以提取數(shù)據(jù)點(diǎn)，了解趨勢(shì)，并識(shí)別圖表中的標(biāo)題、軸、標(biāo)簽和圖例等關(guān)鍵組件。

多模態(tài)CoT思維鏈架構(gòu)來了，現(xiàn)已開源｜來自廈大&騰訊優(yōu)圖

決策生成部分讓MLLM或LLM扮演決策生成器，也就是充當(dāng)決策大腦，先對(duì)問題進(jìn)行分析，并結(jié)合各專家模塊特點(diǎn)，分配子任務(wù)，并給出分配理由。

例如要比較兩瓶溶液的溫度大小時(shí)，Cantor會(huì)先分析粒子溫度與粒子動(dòng)能的關(guān)系，分析粒子動(dòng)能的表達(dá)式為1/2mv^2。并結(jié)合圖像信息與專家模塊特點(diǎn)，為TextIntel Extractor和ObjectQuant Locator分別分配子任務(wù)：

1、提取樣品A和樣品B中每個(gè)顆粒的質(zhì)量和速度。2、哪個(gè)樣品的粒子數(shù)量更多？

該步驟有以下特點(diǎn)：

最初，LLM或MLLM被用作決策生成器，充當(dāng)決策的大腦。

接下來，團(tuán)隊(duì)提供多個(gè)專家模塊，以完成各種類型的子任務(wù)，充當(dāng)決策的四肢。這種集成確保了決策生成既全面又精細(xì)，能夠充分利用了每個(gè)模塊的優(yōu)勢(shì)。

此后，決策生成器根據(jù)從原理分析中獲得的見解，為選定的專家模塊量身定制任務(wù)，這種動(dòng)態(tài)的任務(wù)分配提高了Cantor的效率和性能。

執(zhí)行又分為模塊化執(zhí)行和匯總執(zhí)行兩步：

一是模塊化執(zhí)行：

在這個(gè)階段Cantor通過調(diào)用各種專家模塊來完成決策生成階段分配的子任務(wù)，以獲得補(bǔ)充信息。

值得注意的是，團(tuán)隊(duì)只使用MLLM來扮演各種專家模塊，以獲得高級(jí)的認(rèn)知信息輔助推理（如數(shù)量的大小關(guān)系，位置的相對(duì)關(guān)系）。

例如，對(duì)應(yīng)上一步分配的子任務(wù)，TextIntel Extractor和ObjectQuant Locator分別獲得以下答案：

1、樣品A：質(zhì)量44u，速度1,400m/s。樣品B：質(zhì)量46u，速度1,400m/s。2、兩個(gè)樣品的粒子數(shù)量相同。

二是匯總執(zhí)行：

在這個(gè)階段Cantor匯總子任務(wù)和子答案的信息，并結(jié)合基本原理，生成最終答案。

其中包括了三個(gè)關(guān)鍵，首先通過提示，讓MLLM或LLM扮演一個(gè)知識(shí)淵博并且善于整合信息的答案生成器，這既保證他的專業(yè)性，能對(duì)問題有基本判斷，又保證他能更好地整合信息。

其次為了可解釋性，展示模型的思維過程并提高其思維能力，要求它先生成為答案的基本原理，然后生成相應(yīng)的選項(xiàng)。

最后要求Cantor保持理性與批判性，不要完全依賴模塊執(zhí)行獲得的信息。

免訓(xùn)練也能超越微調(diào)方法

Cantor分為兩個(gè)版本，Cantor（GPT-3.5）將GPT-3.5作為決策生成器和答案生成器，以及Cantor（Gemini）將Gemini Pro 1.0作為決策生成器和答案生成器。

團(tuán)隊(duì)在ScienceQA和MathVista兩個(gè)復(fù)雜的視覺推理數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。

在ScienceQA上的實(shí)驗(yàn)結(jié)果如下：

結(jié)果顯示使用GPT-3.5作為基本LLM進(jìn)行決策和回答，Cantor的準(zhǔn)確率達(dá)到82.39%，比GPT-3.5提示的思想鏈（CoT）提高了4.08%。

使用Gemini作為決策生成器和答案生成器，Cantor的準(zhǔn)確率達(dá)到84.96%，大大超過了所有免訓(xùn)練方法，甚至優(yōu)于UnifiedQA（CoT）和MM-CoT等微調(diào)方法。

團(tuán)隊(duì)進(jìn)一步展示了ScienceQA中IMG類的性能，該類的所有問題都包括了圖像上下文。

可以看出，基于GPT-3.5的Cantor在各種問題上都顯著超過了基線，甚至超過了一些著名的MLLMs，如SPHINX和LLaVA-1.5。

Cantor（Gemini）性能相比于基線也得到了顯著增長(zhǎng)。

MathVista是一個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集，它將各種數(shù)學(xué)推理任務(wù)與可視化任務(wù)集成在一起。

上表比較了不同方法的性能。從一般的視覺問題回答到專業(yè)的數(shù)學(xué)問題，Cantor在幾乎所有類型的問題中都大大超過了基線。

這表明，正確的決策和模塊化專家可以激發(fā)他們細(xì)粒度、深入的視覺理解和組合推理能力。

值得注意的是，Cantor（GPT-3.5）甚至超過了基于CoT和PoT的GPT-4。

團(tuán)隊(duì)進(jìn)一步展示了Gemini與Cantor（Gemini）的具體例子比較：

可以看出Cantor通過任務(wù)分配，以及讓Gemini進(jìn)行角色扮演，做到了原來難以做到的事情，并且正確得出了答案。

值得注意的是，即使Gemini在一些問題上答對(duì)了，但是它的推理過程其實(shí)是有問題的，相比之下Cantor沒有出現(xiàn)這個(gè)問題。

Tags:

架構(gòu) 思維

相關(guān)推薦

免責(zé)聲明: 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法，不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。交易和投資涉及高風(fēng)險(xiǎn)，讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前，請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

多模態(tài)CoT思維鏈架構(gòu)來了，現(xiàn)已開源｜來自廈大&騰訊優(yōu)圖

華為云發(fā)布AI原生云基礎(chǔ)設(shè)施架構(gòu)

報(bào)道：OpenAI考慮調(diào)整公司架構(gòu)，以提高對(duì)投資者的吸引力

聯(lián)發(fā)科擁抱PC市場(chǎng)：為微軟AI筆記本設(shè)計(jì)Arm架構(gòu)芯片

OpenAI公開破解GPT-4思維的新方法，Ilya也參與了！

AI算力暴增至120TOPS英特爾LunarLake架構(gòu)解析

熱門文章

多模態(tài)CoT思維鏈架構(gòu)來了，現(xiàn)已開源｜來自廈大&#038;騰訊優(yōu)圖

華為云發(fā)布AI原生云基礎(chǔ)設(shè)施架構(gòu)

報(bào)道：OpenAI考慮調(diào)整公司架構(gòu)，以提高對(duì)投資者的吸引力

聯(lián)發(fā)科擁抱PC市場(chǎng)：為微軟AI筆記本設(shè)計(jì)Arm架構(gòu)芯片

OpenAI公開破解GPT-4思維的新方法，Ilya也參與了！

AI算力暴增至120TOPS英特爾LunarLake架構(gòu)解析

熱門文章

多模態(tài)CoT思維鏈架構(gòu)來了，現(xiàn)已開源｜來自廈大&騰訊優(yōu)圖