首頁 > AI資訊 > 行業(yè)動態(tài) > OpenAI語音轉錄工具被曝嚴重幻覺:轉錄100小時,一半兒在瞎扯

OpenAI語音轉錄工具被曝嚴重幻覺:轉錄100小時,一半兒在瞎扯

新火種    2024-10-29

OpenAI的AI語音轉寫工具,那個號稱近乎“人類水平”的Whisper,被曝幻覺嚴重——

100多小時轉錄,被工程師發(fā)現(xiàn)約一半都在瞎扯。

更嚴重的是,美聯(lián)社還爆料有醫(yī)療機構利用Whisper來轉錄醫(yī)生與患者的會診,瞬間引發(fā)大量網(wǎng)友關注。

OpenAI語音轉錄工具被曝嚴重幻覺:轉錄100小時,一半兒在瞎扯

據(jù)悉,明尼蘇達州的曼卡托診所和洛杉磯兒童醫(yī)院在內(nèi)的超過30000名臨床醫(yī)生和40個衛(wèi)生系統(tǒng)已開始使用法國AI診療公司Nabla基于Whisper打造的工具。

而且他們已經(jīng)轉錄了大概700萬次醫(yī)療就診。

網(wǎng)友紛紛表示這就有點嚇人了。

OpenAI語音轉錄工具被曝嚴重幻覺:轉錄100小時,一半兒在瞎扯OpenAI語音轉錄工具被曝嚴重幻覺:轉錄100小時,一半兒在瞎扯

值得一提的是,OpenAI之前早就警告過,該工具不應在“高風險領域”中使用。

OpenAI語音轉錄工具被曝嚴重幻覺:轉錄100小時,一半兒在瞎扯

針對最新爆料,有OpenAI發(fā)言人回應,OpenAI會在模型更新中加入相應的反饋機制。

OpenAI被督促趕緊解決此問題

Whisper是OpenAI老早前推出的開源自動語音識別(ASR)系統(tǒng),于2022年9月發(fā)布。

OpenAI語音轉錄工具被曝嚴重幻覺:轉錄100小時,一半兒在瞎扯

它采用簡單的端到端方式,基于編碼器-解碼器Transformer架構。輸入音頻將被分成30秒的塊,轉化為梅爾倒譜(音頻特征提取方式之一,log-Mel spectrogram),然后傳入編碼器。

經(jīng)過68萬小時的多語言和多任務監(jiān)督網(wǎng)絡數(shù)據(jù)的訓練,Whisper可以進行多語言轉錄。

Whisper推出后得到廣泛應用,如今GitHub已攬獲70.2k標星:

OpenAI語音轉錄工具被曝嚴重幻覺:轉錄100小時,一半兒在瞎扯

據(jù)悉,它還被集成在ChatGPT的一些版本中,同時也是Oracle和微軟云計算平臺的一項內(nèi)置服務,而這些平臺為全球數(shù)千家公司提供服務。

此外,僅在上個月,HuggingFace上的一個最新版本W(wǎng)hisper就被下載了超420萬次。HuggingFace社區(qū)的機器學習工程師Sanchit Gandhi表示,Whisper是最受歡迎的開源語音識別模型。

而現(xiàn)在,據(jù)美聯(lián)社報道,很多研究人員和工程師反映,在工作中他們經(jīng)常遇到Whisper產(chǎn)生的幻覺。

例如,密歇根大學的一位研究員在嘗試改進模型之前,發(fā)現(xiàn)其檢查的每10份音頻轉錄中有8份出現(xiàn)了幻覺。

一位機器學習工程師指出,在他分析的超過100小時Whisper轉錄中,大約一半出現(xiàn)了幻覺。

還有一位開發(fā)者表示,在他使用Whisper創(chuàng)建的26,000份轉錄中,幾乎每一份都發(fā)現(xiàn)了幻覺。

……

這種問題甚至存在于錄制良好的短音頻樣本中。

在最近的一項研究中,計算機科學家們在審查的超過13000個清晰音頻片段中發(fā)現(xiàn)了187個幻覺。

工程師和研究人員表示,他們從未見過其它任何AI驅動的轉錄工具像Whisper這樣頻繁地產(chǎn)生幻覺。

Whisper幻覺嚴重的原因目前尚未可知,但有軟件開發(fā)者表示,這些虛構內(nèi)容往往發(fā)生在停頓、有背景聲音或音樂播放時。

OpenAI語音轉錄工具被曝嚴重幻覺:轉錄100小時,一半兒在瞎扯

之前,OpenAI就有提醒:

然鵝,美聯(lián)社表示,這一警告并未阻止一些醫(yī)院或醫(yī)療中心使用Whisper等語音轉文字模型——

包括明尼蘇達州的曼卡托診所和洛杉磯兒童醫(yī)院在內(nèi),已經(jīng)有超30000名臨床醫(yī)生和40個醫(yī)療系統(tǒng)已經(jīng)開始使用由Nabla公司基于Whisper開發(fā)的工具。

Nabla CTO Martin Raison稱,該工具針對醫(yī)療語言對模型進行了微調(diào),用于轉錄和總結患者的交流。

目前,該工具已被用于轉錄約700萬次醫(yī)療就診。

在得知Whisper可能會產(chǎn)生幻覺后,Nabla表示正在解決此問題,不過:

此外,據(jù)了解,Whisper還被用來為聾人和聽力障礙者創(chuàng)建字幕。

OpenAI語音轉錄工具被曝嚴重幻覺:轉錄100小時,一半兒在瞎扯

Whisper幻覺嚴重問題被發(fā)現(xiàn)后,有人敦促OpenAI趕緊解決此問題。

今年2月離開OpenAI的研究員William Saunders也開麥了:

有OpenAI發(fā)言人回應稱,公司持續(xù)研究如何減少幻覺現(xiàn)象,并感謝研究人員的發(fā)現(xiàn),同時補充道OpenAI會在模型更新中融入相應反饋機制。

參考鏈接:[1]https://apnews.com/article/ai-artificial-intelligence-health-business-90020cdf5fa16c79ca2e5b6c4c9bbb14[2]https://x.com/AP/status/1850150400424345858

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內(nèi)容相關的任何行動之前,請務必進行充分的盡職調(diào)查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。

熱門文章