非洲大陸本土語言占全球語言三分之一,兩名女子瞄準AI軟件市場
在南非約翰內(nèi)斯堡 Rosebank 社區(qū)的一個共享辦公空間內(nèi),杰德·阿博特(Jade Abbott)打開了一個網(wǎng)頁,向 ChatGPT 輸入提示,要求它用祖魯語(isiZulu)從 1 數(shù)到 10。在她的祖國南非,有超過 1000 萬人使用這種語言。計算機科學家兼研究員阿博特表示,結(jié)果“好壞參半且令人捧腹”。

(來源:COURTESY OF LELAPA AI)
之后她又用祖魯語的文字輸入了幾個句子,并要求聊天機器人將它們翻譯成英語。ChatGPT 給出的答案跟正確答案毫無關(guān)系。盡管在沒有太多可用于訓練的數(shù)據(jù)的情況下,人們一直在努力將一些小語種納入人工智能模型中,但對阿博特來說,這些結(jié)果表明該技術(shù)“實際上仍然無法獲取我們的語言”。
阿博特的經(jīng)歷反映了不會說英語的非洲人所面臨的情況,包括 ChatGPT 在內(nèi)的許多語言模型對于使用人數(shù)較少的語言(尤其是非洲語言)表現(xiàn)不佳。但阿博特和生物醫(yī)學工程師佩羅諾米·莫伊洛亞(Pelonomi Moiloa)共同成立了一家名為 Lelapa AI 的新公司,該公司正嘗試利用機器學習來創(chuàng)建專門為非洲人服務的工具。
Vulavula 是 Lelapa 公司近日發(fā)布的一款新人工智能工具,可將語音轉(zhuǎn)換為文本,并檢測書面文本中的人名和地名。這對于總結(jié)文檔或在線搜索某人可能很有用。目前,它可以識別南非使用的四種語言:祖魯語、南非語(Afrikaans)、塞索托語(Sesotho)和英語,并且該團隊正在努力將非洲各地的其他語言納入其中。
該工具可以單獨使用,也可以集成到 ChatGPT 和在線對話聊天機器人等現(xiàn)有人工智能工具中。該團隊希望 Vulavula(在聰加語中的意思是“說話”)將使那些目前不支持非洲語言的工具變得支持一部分非洲語言。
Lelapa AI 首席執(zhí)行官兼聯(lián)合創(chuàng)始人莫伊洛亞表示,缺乏適用于非洲語言并識別非洲人名和地點的人工智能工具,使非洲人民無法獲得經(jīng)濟機會。對她來說,致力于構(gòu)建以非洲為中心的人工智能解決方案,這是幫助非洲人民利用人工智能技術(shù)抓住巨大潛在優(yōu)勢的一種方式。 “我們正在努力解決真正的問題,并將權(quán)力重新交到我們的人民手中,”她說。

“我們等不及他們了”
世界上有成千上萬種語言,其中僅非洲就有 1000 到 2000 種語言。據(jù)估計,非洲大陸的本土語言占世界語言的三分之一。盡管以英語為母語的人僅占全球人口的 5%,但英語顯然在互聯(lián)網(wǎng)上占據(jù)主導地位,而且現(xiàn)在也開始在人工智能工具中占據(jù)主導地位。
糾正這種不平衡狀況的一些努力已經(jīng)存在,比如 OpenAI 的 GPT-4 已包含冰島語等小語種。2020 年 2 月,谷歌翻譯開始支持約 7500 萬人使用的五種新語言。但非洲人工智能研究人員表示,翻譯質(zhì)量很差,該工具經(jīng)常把非洲語言弄錯,距離準確地通過數(shù)字化方式表達非洲語言還有很長的路要走。
2023 年早些時候,在盧旺達基加利舉行的非洲頂級人工智能會議上,埃塞俄比亞計算機科學家阿斯梅拉什·特卡·哈德古(Asmelash Teka Hadgu)與阿博特使用 ChatGPT 進行了相同的實驗。
當他用母語提格雷尼亞語向聊天機器人提問時,得到的答案都是亂碼。“它生成的單詞沒有任何意義。” 哈德古說。他是 Lesan 的聯(lián)合創(chuàng)始人,Lesan 是一家總部位于德國柏林的人工智能初創(chuàng)公司,正在開發(fā)埃塞俄比亞語言的翻譯工具。
Lelapa AI 和 Lesan 只是開發(fā)非洲語言語音識別工具的兩家初創(chuàng)公司。2023 年 2 月,Lelapa AI 籌集了 250 萬美元的種子資金,該公司計劃在 2025 年進行下一輪融資。
但非洲企業(yè)家表示,他們面臨許多重大障礙,包括缺乏資金、接觸投資者的機會有限以及訓練人工智能學習多種非洲語言方面的困難。 “在非洲科技初創(chuàng)公司中,人工智能獲得的資金最少。”AJALA 的創(chuàng)始人阿巴克·阿登勒(Abake Adenle)說道,AJALA 是一家總部位于倫敦的初創(chuàng)公司,為非洲語言提供語音自動化服務。
哈德古表示,由于潛在市場規(guī)模小、缺乏政治支持以及互聯(lián)網(wǎng)基礎設施薄弱,致力于開發(fā)支持非洲語言產(chǎn)品的人工智能初創(chuàng)公司經(jīng)常被投資者忽視。然而,哈德古表示,包括 Lesan、GhanaNLP 和 Lelapa AI 在內(nèi)的非洲小型初創(chuàng)公司正在發(fā)揮重要作用。“大型科技公司還沒精力關(guān)注我們的語言。”他說,“但我們不能指望他們。”

非洲人工智能的典范
Lelapa AI 人工智能團隊的數(shù)據(jù)科學家武科西·馬里瓦特(Vukosi Marivate)表示,該公司正試圖為非洲的人工智能模型創(chuàng)建一個新的范式。Lelapa AI 不像西方公司那樣單獨利用從互聯(lián)網(wǎng)收集的數(shù)據(jù)來訓練模型,而是與語言學家和當?shù)厣鐓^(qū)進行線上和線下合作,收集數(shù)據(jù)、對其進行注釋,并識別該工具可能存在問題的用例 。
Lelapa AI 的自然語言處理研究員博納文圖爾·多索(Bonaventure Dossou) 表示,與語言學家合作使他們能夠開發(fā)出一種針對特定情境且與文化相關(guān)的模型。 “嵌入文化敏感性和語言觀點可以使技術(shù)系統(tǒng)變得更好。”多索說。例如,Lelapa AI 團隊構(gòu)建了針對特定語言的情緒和語氣分析算法。
馬里瓦特和他在 Lelapa AI 的同事設想了一個人工智能技術(shù)為非洲人服務并代表非洲人的未來。 2019 年,馬里瓦特和阿博特創(chuàng)立了 Masakhane,這是一項所謂的“草根倡議(grassroots initiative)”,旨在促進非洲語言的自然語言研究。該倡議現(xiàn)在有數(shù)千名志愿者、程序員和研究人員共同努力構(gòu)建以非洲為中心的自然語言模型。
馬里瓦特表示,Vulavula 和其他人工智能工具是非洲人為非洲人打造的,這一點很重要:“我們是我們自己語言的守護者。我們應該成為適用于我們語言的技術(shù)的構(gòu)建者。”
支持:Ren
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務必進行充分的盡職調(diào)查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。