AI極簡史:文字如何生出萬物?
哈羅德·科恩花了 42 年把 AARON 鑄成“另一半自己”。它是一段被畫家造出來的計算機程序,或許也可以叫做 AI 系統。先是花了 20 年學會黑白簡筆畫,1995 年,它第一次表演上色,以一個龐大的機器模樣(長 2.4 米,寬 1.8 米)。它先用機械臂上的鋼筆勾勒線條,然后在調色板上混合顏料,創造出自定義的顏色,再使用筆刷進行涂抹,就好像在機床上織布。2016 年,科恩去世,AARON 也停止了呼吸。
他們都沒見到《太空歌劇院》的誕生,這幅 AI 作的畫在藝術比賽上拿了一等獎。2022 年,使喚 AI 畫畫變得格外簡單——只要會打字就行。AI 畫畫也不再是一筆一筆地勾勒線條、涂抹顏色,而是像一臺反應有點遲緩的彩色電視機,從一片灰白雪花噪聲中慢慢地騰出畫面。

AARON創作的首幅上色作品,1995

《太空歌劇院》,使用AI工具Midjourney創作,2022
不過,恰好是在科恩去世的 2016 年,AI 畫畫所依托的“文本生成圖像”(text to image)技術在深度學習領域邁出了第一步,小小的一步——生成比豆腐塊還小的極模糊的圖像,仔細一看,還很拙劣。比方說讓它畫一只站在草地上的羊,它就在綠色背景中放置一個灰色的不明形狀的物體,就像一塊污漬。

Generative Adversarial text to image synthesis, 2016
這些小豆腐塊兒的光芒還是太微弱了。
但 AI 的步速很快。2017年,基于 GAN 的偽造人臉已經可以以假亂真。2020年,擴散模型(Diffusion Model) 降低了圖像生成模型的訓練難度,還能生成比 GAN 更多元的圖像。2021年,OpenAI 推出了 CLIP,它學到了文本和圖像之間的對應關系。2022 年,AI 畫家誕生,不過沒想到,這不是 2022 年最重要的 AI 新聞。
還是先讓我們回到 2016 年吧。這一年最大的新聞是,谷歌旗下的人工智能公司 DeepMind 創造的 AlphaGO 以 4:1 擊敗了韓國傳奇棋手李世石,人們仿佛看到原本只存在于科幻小說的強大的人工智能,在棋盤上空活了過來。
同一年,或許普通人沒有太過在意,一家成立僅有半年的新公司 OpenAI(盡管它出身煊赫,是由特斯拉的創始人馬斯克聯合其他硅谷明星投資人注入 10 億美金創立的非營利機構)宣布,他們的長遠目標之一,是開發對人類友好的通用人工智能系統,簡單來說,這個系統能像人一樣推理和反應從而讓人以為它是人。作為一個非營利組織,該公司的第一份聲明稱,公司要“為所有人而非股東創造價值”。
技術在往前發展。2017 年誕生了 Transformer,如今看來,那是個極其重要的時刻。
這個和變形金剛同名的小玩意兒是由谷歌團隊創造的一種全新的模型結構,同樣威力巨大。它能更好的理解上下文,更重要的是,此前 NLP (自然語言處理)的主流模型 RNN 天生是個時序結構,處理起句子來就好像在只開了一個窗口的銀行排長隊,處理完上一個詞才能處理下一個,而 Transformer 對句子里的每個詞可以同時進行處理,也就是所謂的并行化。它為后來的暴力出奇跡的大模型時代提供了可能性。
此前深度學習的主流仍是使用有標簽的數據進行訓練,效果好,但代價高昂。比如說一句話的情緒是積極還是消極?為了打上準確的標簽,研究者必須付錢請人來做。于是數據集的規模一直沒法大幅度提升。既然 Transformer 能很好地消化上下文的內容,2018年,GPT、BERT 開始利用大規模的無標簽的數據對模型進行預訓練,在這個階段,它們或是給定一串詞讓模型預測下一個詞是什么,或是干脆在句子中間挖掉一個詞,讓模型重新給填上,如此這般,把價格更為低廉的無標簽的文字引入了模型的訓練。
OpenAI 的創始人之一 Sam Altman 接受《紐約客》采訪時曾說:“成為一臺機器有一定的優勢。人類被輸入-輸出率所限制,每秒只學習 2 比特,丟失大量數據。而對機器而言,我們看起來肯定像是被減速的鯨歌。” BERT 用了 3300M 的文字來做預訓練,這些文字來自書本和維基百科,質量較高,即使對人來說可能要看上幾年時間,對機器來講,仍算克制。
和 Open AI 推出的初代 GPT 相比,谷歌研發的 BERT 是更風光的那個,因為經過有標簽的數據微調之后,它的表現更佳。BERT 很快被用來改進谷歌的搜索引擎,被谷歌描述為“搜索歷史上最大的飛躍”。
模型更大,效果就會更好,用于取得突破性成果的計算資源每 3、4 個月翻一番。OpenAI 需要足夠的資本來匹配或超過這種指數級增長,“在經濟上維持一個非營利組織是站不住腳的”。2019 年 3 月,OpenAI 通過設立一個利潤上限(投資者的回報率不得超過 100 倍)掀掉了 “非營利組織”的帽子。不久之后,它宣布了微軟的 10 億美金投資。從此也背上了一定的商業化壓力。

OpenAI 在 2019 年推出了 GPT-2,一個更大版本的 GPT-1,反響平平,在 2020 年推出了 GPT-3,一個更大版本的 GPT-2,終于大力出奇跡,激起千層浪。據專業測算,訓練一個 GPT-3 模型的第一階段需要“355 個 GPU 年”,僅這一階段的訓練費用高達 450 萬美元。
微軟為 OpenAI 提供著資金和算力支持。2021 年 OpenAI 發表的 CLIP 模型學會了圖片和其文字描述的對應關系,啟發了很多后續應用,包括 AI 畫畫。
2022年中,OpenAI 放出了它神乎其技的 AI 畫家,DALL-E 2,但只進行了小規模內測。于是它的低配版——DALL-E mini 變成了網友們趁手的新玩具,它聽得懂人話,生成的圖片雖然粗糙但是有趣,一時間成了互聯網上的“梗圖之王”。當時少有大眾覺得 AI 能做出真的藝術創造,頂多拿來解悶罷了。僅過了一個多月,Midjourney、Stable Diffusion 和 DALL-E 2等 AI 畫畫工具接連向公眾開放,人們終于意識到,AI 能畫畫,而且畫得超乎想象的好。設計師會失業么?畫家又如何看待這件事?到處都是這樣的討論。
但站在 2022 年的末尾談 AI 畫畫,已經感到有些過時了。ChatGPT 搶走了這些 AI 畫家的風頭。
這個聊天機器人是鬼精靈,玩游戲、寫代碼、講心靈雞湯,無所不能,甚至還能寫點小詩(盡管很平庸)。它能記住對話,進入情景,遵從指令,還展現了初級的推理能力,讓人感嘆“圖靈測試已經被畫上了句點”。有研究者評論“ChatGPT / GPT-3.5 是一種劃時代的產物,它與之前常見的語言模型的區別,幾乎是導彈與弓箭的區別”。
ChatGPT 當然還不完美,也談不上能馬上取代搜索引擎,因為它生成的答案還時有錯誤。也有消息稱,此前谷歌內部已經開發出了強大的聊天機器人,但出于安全考慮,尚未對公眾開放。大公司的謹慎給了小公司機會,Stability AI,這家公司 8 月份推出“文本轉為圖片”的生成器(Stable Diffusion),已經融資 1.01 億美元。
無論如何,OpenAI 離他們 2016 年立下的那個長遠目標更近了。人們因為看見了 ChatGPT 所以相信。2016 年 Sam Altman 接受《紐約客》采訪時把一個人工智能算法比作一個人類嬰兒,“嬰兒學習任何有意義的事情都要好幾年”,而他認為 OpenAI 的使命是“照顧好自己的「神童」,一直等到他可以由世界來「撫養」”。按照這個約定,他們已經照顧了 GPT 系列 4 年。
人工智能的奇點臨近了,很多人這樣講。就好像站在一塊不斷隆起的土地上,不知道明天它會把你帶向何方。或許我們每個人都要經歷那個在自己最引以為傲的事情上被 AI 打敗的時刻,正如 6 年前李世石和 AlphaGO 交鋒的第一局,他撫摸棋盒邊緣,終于落白子投降的那一刻。那一場的裁判,同樣被 AlphaGO 打敗的歐洲圍棋冠軍杯的冠軍樊麾說,AlphaGo 是面鏡子,在它面前棋手不得不直面赤身裸體的自己。
或許通用人工智能到來的時候,所有人都不得不直面那個最簡單的問題,我是誰?
文本還可以生出這些……
文本生文本、文本生圖像,已然不稀奇。讓我們來談點更時髦的吧,那些快要破土而出的新技術,文本可以生出萬物。
首先,逃離平面,文本能生成 3D 模型了。

OpenAI, Point·E
不僅如此,谷歌聲稱,他們能用極少的圖片(甚至單張圖片)生成 3D 模型,拳打腳踢攝影測量法。
Google, 3DiM(01:14)稍微偏離一點兒軌道,寫一段描述,AI 能生成對應的聲效。比如,“在風中吹口哨”“警報聲和嗡嗡作響的引擎接近后又走遠”。Meta AI, AudioGen(00:50)不管你信不信,AI 還能根據配樂起舞。或許不久之后,AI 就能給 KPOP 編舞了。Stanford University, EDGE(00:05)步子邁得大一些,當然,已經有人在讓 AI 做視頻了,盡管還很短。Google, Imagen Video(00:05)為視頻創作者提供 AI 工具的網站 Runway 宣布舉辦第一屆 AI 電影節,要求電影的核心需要為AI生成。是的,AI已經走到這一步了。毫無疑問,未來,AI 的文本煉金術能讓創作的成本變得更低,人們可以不太費力地得到符合工業水準的產品。Joe Penna,一個電影導演,為了生成電影需要用到的特定的演員、地點、道具,他和朋友們一起開發了 DreamBooth 的民間版本,它能夠做到輸入文字,生成關于特定事物(比如你家沙發上的一只玩具小熊)的一組圖像。漫畫家,或者畫工拙劣的編劇,也完全可以將 AI 當做自己的草稿本,由此掀開他的“宏偉巨著”。
我們還做了這些……
這一年,我們做了一系列關于 AI 的報道。其中一些,可能已經過時了。
標題黨的終極形態是怎樣的?我們用AI做了個實驗
天下苦標題黨久矣。以 AI 為鏡子,我們能從標題中看出人們怎樣的無意識偏見?
騙過百萬網友的AI照片,你分辨得出來嗎?
AI 生成的照片已經能以假亂真,你能分辨得出來嗎?(連事實核查記者都錯了一道!)
這個“雙11”,我被AI促銷電話轟炸
AI 飛入尋常百姓家,首先飛進促銷電話里。
告訴我,到底要操作多少步才能找到人工客服?
AI 還是我們通往人工客服路上的惡狠狠的絆腳石。
幫學生寫論文拿了“A”的AI,究竟寫得怎么樣?
AI 幫學生寫論文拿了 A ,于是我們便去試了試它。AI 生成觀點型文章大差不差,但是對于事實卻時常有錯漏。已經有新技術在幫助解決這個問題,比如 RETRO Transformer 和 WebGPT。

- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。