首頁 > AI資訊 > 最新資訊 > 機器學習泰斗邁克爾·喬丹院士:AI難以替代人

機器學習泰斗邁克爾·喬丹院士:AI難以替代人

新火種    2023-09-08

出品 | 搜狐科技

作者 | 漢雨棣

運營編輯 | 劉于嘉

“如果你問ChatGPT說,你剛剛寫的內容你確定嗎?它完全無法回答這個問題。”

9月7日舉行的2023 Inclusion·外灘大會上,機器學習泰斗,美國科學院、美國工程院、美國藝術與科學院三院院士邁克爾·喬丹(Michael I.Jordan)教授提出了上述問題,并表示金融科技是不確定的技術,而ChatGPT不具備“確定”的技術,無法對不確定性進行量化,但人類則非常擅長處理類似的問題,擅長溝通以及應對不確定的信息。

邁克爾·喬丹教授直言,他不認為有一種所謂的超級電腦會替代人,應該把技術看作是一個工具來賦能人類,建議

“AI的本質是集體,而不是個人。AI也不會替代人。” 邁克爾·喬丹教授表示,我們需要建立一個協作式、去中心化的系統來實現集體智能,并設計一個機制使之公平、穩定、可擴展。“我們在日常生活中經常遇到不確定性,讓去中心化的系統能夠幫助我們更好、有效地應對日常和世界當中的不確定性,這才是我們亟待解決的問題。”

以下是演講全文:

非常高興來到今天的2023INCLUSION·外灘大會。感謝主辦方,也要感謝我的朋友們,給我了很多的啟發和靈感,非常感謝。

大家應該都聽說過自然語言模型,ChatGPT就是一個典型的例子,還有很多其他類似的模型,未來還會陸續出現在市場上,應該說它們表現非常的出色,他們的功能是我們從來沒有以想象過的,而且能夠涉及很多的話題。但是,這里我比較感興趣的一點就是“不確定性”,如果你問ChatGPT說,你剛剛寫的內容你確定嗎?它完全無法回答這個問題。因為它的技術上是存在問題的,而這個問題其實它還沒有真正的有效的解決。而人在講到“不確定”的時候,是非常擅長處理這些類似的問題,怎么去溝通不確定的信息以及應對。

所以,目前的技術缺乏一個根本的點,對于金融、對于金融科技這點是至關重要的,因為金融科技歸根結底講的是不確定性的技術。如果說不確定性應對不好,你不可能有非常好的金融科技技術。所以,ChatGPT它也沒有辦法對不確定性進行量化,所以我們需要去解決這個問題,我們要找到一個可能的方法去應對這些挑戰。

現在講到技術的時候,人們很多對話的內容,人工智能會替代人,用機器來替代人,會有這樣一種所謂的超級電腦,超級電腦智能,我覺得不是這樣的,我們有很多的人,他們是可以賦能的,我們應該用技術看作是一個工具來賦能人類。所以,我

如果說把這兩個問題結合在一起,我們怎么去應對在一個協作式的、去中心化的系統當中來實現集體智能,我們可以設計這樣一個集體智能體,也可以去解決這個不確定性,我們在日常生活中經常遇到不確定性,能夠有機體的去中心化的系統能夠幫助我們更好的有效應對日常和世界當中的不確定性,這才是我們亟待解決的問題,你不要去想什么基點、AI,我覺得這個不是關鍵點,我剛剛講的問題才是我們要去著重去解決的問題。

我今天想跟大家介紹一下我的研究項目,因為我畢竟是做研究的。這個是我的一些UC伯克利的同事,他們和我一起共同從事這個項目的研究,我想通過這個例子跟大家講講怎么有效的應對AI系統當中的不確定性。如果應對不當,會出現哪些嚴重后果?

大家都應該知道ChatGPT,但是大家應該也了解Aipha Fold,這也是一個AI系統,它主要是用于蛋白質結果預測的,它們的預測能力強于人,應該說一定程度上是有智能的。但是它依賴的是人的數據,依賴的是有標記的蛋白質結構數據,這個可以用于藥品的開發、藥品的監管。在生物科技領域得到了廣泛的應用。建議大家要注意這幾個數字,有了這樣一個新的技術我們可以實現上億級蛋白質結構的預測。比如說,它可以結合很多的氨基酸的數據,進行上億級別的預測,做的非常好,反正比人要做的好。如果用人的X晶體結構技術的話,只能做幾十萬的預測。但是,我們要區分這樣一個基準真實的數據,還有電腦產生的數據,這兩者有差別嗎?會不會產生問題?

我給大家舉一個例子。在2004年有這樣一篇論文,這篇論文主要是以做分子生物學的研究,主要是要了解內在的趨勢是不是有一個病例可以去發現。我們都知道蛋白質是有蛋白鏈的,但是蛋白鏈的結構是什么樣的?其實就決定了蛋白的功能,比如說它在2004年的時候,當時我們有一種假設,蛋白質是存在叫固有的無序性,也就是蛋白質的無序性和具有生物學功能的磷酸化有沒有關系?這種關聯是什么意思?就是數據上的關聯性。所以我們當時做了一些技術上的研究,他們把所有的PBB(音),當時只有1萬個蛋白結構的數據點,然后他們來計算了一下幾率,我們說固有無序性和磷酸化之間的幾率比。當時他們沒有辦法有足夠的數據來作出一個決定,所以就在2004年的時候是一個開放的問題。到了2022年的時候我們看到有其他的研究者回答這個問題,我們現在沒有真實世界的數據,但是我們有一個Aiphha ford給我們的預測數據。所以我們可以用預測數據,而不是真實世界蛋白質的數據,很多科學家都在這樣做,把預測數據作為真實據來用。這可能是很好的,因為預測是非常準確的,它們可以代替真實世界的數據。所以,他們做了這樣一個基因組的研究,當時有2億個蛋白結構的預測,一個實際的數據是只有1萬,一個是有2億的預測數據。所以如果你是一個統計學家,你看這個數字你會比較擔心。首先是什么?你注意到,這并不是蛋白,它可以不僅用于蛋白,而且可以用于電流的預測,或者說在銀行行業,不僅是科學界。所以新的預測系統可以用于科學研究的方方面面。如果只是一個預測,一個人在一個商界當中會輸什么,這不是很大的問題。但是有的情況下,如果你有偏差,系統性偏差是一個很大的問題。

什么叫系統性偏差?我們有一些小的偏差,比如說Aiphha ford就是一個小錯誤。左邊是系統預測的結構,右邊真實世界蛋白質在右邊的,一個蛋白質差別就比較大了。但是在這邊就是有一個偏差或者系統性的偏差。問題是我們要檢測這樣一個假設,我們來做一個預測,我們發現其實非常的重要,我拿這張圖是比較技術性的,我回講的比較詳細。在X軸方面,我們有一個幾率比,固有無序性和磷酸化之間的關系,如果這個幾率比是等于1,分子、分母是一樣的,它沒有一個統計學的關聯性。如果不是1,如果大于1就是有關聯性,在統計學當中,你不僅有一個預測,而且有一個期間,所以幾率比的所有的可能的數字。大家看到這個紫色的部分這叫推算,這就是使用所有預算的執行區間,總共有2億個數據點,大家看執行區間是非常小的,也就是說你是非常自信的,你非常確定,當你使用Aipha Fold預測的時候。但是問題是,如果真相(虛線),我們做了很多的工作轉到這樣一根虛線,我們可以看到A預測值的執行區間對可信度非常高,但是結果非常錯誤,在紫色線和虛線之間是完全分開的。雖然機器對他的預測是非常自信,但是這個預測是完全錯誤的,即便Aipha Fold是一個非常好的,總體來說是比較高的系統。所以,統計學家就說,我們不用Aipha Fold,就要用實際觀測到的科學數據。如果是這樣做的話,我們是上面的確信的區間。但是這個確信區間太大了,我們說灰色的部分,即使20年之后,它依然沒有辦法找到這樣一個效果。

所以,我們現在有一個很大的問題,我們可以用Aipha Fold,但是錯誤很大。如果不用Aipha Fold,就沒有辦法很快做科學實驗。我們有一個方法叫預測驅動的推理,它是給你真正的能夠找到一個高可信的值,就是藍色的這塊,這是我們用的新的技術,也就是我們講的PPI預測驅動的推理。我來給大家講一下,給大家舉一個例子,一般我們的問題是有的時候我們是有一個科學家給我們的標簽數據,還有大量的類標簽數據,這是來自AI。如何把這兩個一起用,用一個魯棒性非常高的實驗確保沒有偏差,怎么做?最終目標就是確保我們做數學,用一個很好的自信,用一個很高的概率找到真相,這就是我們解決的問題。

現在我們要實現這一點,我們給大家舉一些例子,這個問題有多重要。我們說這是一個科學的問題,就是基因表達。如果我有一個基因序列,把它放到細胞當中,它是不是會表達成蛋白呢?在右手邊,大家可以看到,如果用計算預測的話,它的執行區間少,就是紫色的部分,但是它沒有覆蓋到虛線的真相。藍色這一部分一它找到了真相,而且依然是非常曉得一個確信區間。這是加州的人口調查,他們就會問眾人一些問題,這就好象一個保險公司問的問題,用你的收入來預測這個人有沒有一個個人保險,這是政府比較感興趣的事情,是不是可以有數字的比較好的執行區間。如果是紫色的部分,如果你用計算機的方法來做預測的話,看到執行區間非常小,但是完全的錯誤,沒有找到虛線部分,離虛線非常遠的距離,這個讓大家感到吃驚。但是一個小小的個體錯誤,它可能會產生很大的系統性錯誤,我們都知道這一點。然后我們看藍色的這執行區間,它是覆蓋了真相,它沒有紫色那么小,但是因為它下面的系統不是非常準確。也就是說,現在的大的語言系統是沒有辦法知道自己是不是非常的確定。

這個就是投票,我們都知道選舉當中投票的結果,還有用計算機視覺檢測星系的體系。這是同樣的現象,如果只是計算機的預測的話,可以看到執行區間非常小,但是離真相非常遠。這個是用計算機視覺測試,可以看到左手邊有很多我們做過的例子,在天體不同的區域可以看到不同的現象不停的出現。

這是我最后一個PPT,我們如何來做?我們比較技術的話,大家感興趣可以線下談。但是我要說,這個工作都是在icapu(音)上,我們所有的文件都在里面,我們把所有AI相關的文獻都放在ArXiv(全稱為The arXiv,是一個免費的在線科學預印本存儲庫)上面,這是國際上最好文獻合作的機構,我到中國來是20年前,當時沒有人讀我們的論文,但是5年之前,所有人都在讀我們的論文,所有的人都有了解我們這個論文當中的細節,開始問我們。所以ArXiv對于中國研究是有很多的很好的影響力,因為很多學生他可以成為研究合作的一部分。

我非常簡單的跟大家解釋一下這是什么概念。我們有一個芯,還有AI預測的值,這個值是上標是F。我們可以看到在人口當中這個是不同的,或者在極當中是不一樣的。我們可以預測這兩者之間的差別,我們可以有這樣一個+或者減,要獲得執行區間,這是需要一個修政值的執行區間,這是一個關于修正值的區間,我們的系統是可以獲得的,而且可以把所有做出修正。這樣一些經過修正的數字,就是我們新的一個可預測的數字。我講的非常快,但是這是一個非常新的系統,他也是我們一些系統性的偏差。

這是我最后一張幻燈片,這是我個人對AI的一些看法,今天大家都聽到,我并沒有覺得AI會替代人,它只不過就是一個新的工程系統,科技就是一個非常很好的新的工程系統,為每個人是普適,而且是公平、公正、透明、穩定的,這些特性是整個工程系統的特點,而不是系統當中個體的特點。所以AI它是關于一個集體,而不是關于一個個體。謝謝大家。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章