當AI客服遇上「圖文混排」提問,京東給電商AI來了場摸底考試
機器之心原創作者:張倩
當買家非要「看圖說話」,AI 客服要怎么破?對于很多人來說,決定自己網購體驗的,除了快遞的速度,還有AI客服咨詢的流暢和智能水平。隨著人機對話技術的發展,越來越多的電商企業開始用 AI 客服來回答用戶的問題。雖然AI客服在文本對話中已經可以流暢回應,并切實幫助用戶解答問題,但隨著圖片等多模態信息在對話中越來越頻繁地出現,當前的 AI 客服正面臨愈發嚴峻的挑戰,不僅要理解文字內容,還要理解圖片等多模態內容。AI客服在多模態場景的應用,還需要進一步的技術突破。
為了推動跨模態智能對話與人機交互技術的發展,京東 AI 研究院聯合北京智源人工智能研究院在2018年首屆任務導向型對話挑戰賽、2019年基于知識增強的任務導向型對話挑戰賽的基礎上,共同舉辦2020 年多模態任務導向型多輪對話挑戰賽。本次大賽聚焦大規模真實復雜零售場景下多模態人機交互問題,通過打造多模態對話系統提升人機交互的自然度和體驗。這次比賽 5 月 25 日開賽,9 月 15 日截止模型提交,總共歷時 17 周,報名參賽選手共 734 人。最終,來自騰訊 AI Lab 的團隊脫穎而出,摘得大賽一等獎;來自眾多企業、高校、研究機構的團隊也在此次大賽中展現出非凡的實力。
前段時間,中國計算語言學大會(CCL 2020)技術評測研討會智源 - 京東多模態對話挑戰大賽任務研討會在線召開。在此次研討會上,主辦方京東 AI 研究院對本年的對話大賽進行了全方位的回顧與總結,幾支獲獎團隊也受邀分享了此次大賽的比賽方案。賽題設置和輔助信息本次大賽考察的是多模態對話場景的問答問題。其中,「多模態」指的是對話 session 中用戶提出的問題至少包含一張圖片信息。
整個場景包含 n 輪對話,參賽者可以拿到用戶在此輪對話中提出的問題 Q_n 和此輪對話前 n-1 輪的對話歷史信息,然后根據上下文和此輪問題給出通順、邏輯一致且含有豐富知識的答案,以滿足用戶期望。最終評測采用自動評測、人工評測與技術方案評價相結合的方式進行。由于在真實的線上服務場景中,用戶發送的是多模態的圖文信息,客服一般回復的都是文本信息。所以,本次大賽考察的重點是多模態的上下文語義理解、單模態的文本應答這樣一個任務場景。
為了挑戰這一難題,大賽構建了JDDC 2.0 (Jing Dong Dialogue Corpus 2.0) 數據集。該數據集由服飾品類和小家電品類線上金牌客服的含有多模態信息的對話日志組成,是首個中文多模態對話數據集,包含多模態對話 24.6 萬段,平均會話長度為 14 輪。為了使參賽者更方便地使用對話中的圖片信息,數據集選取了 5000 段小家電類對話和 5000 段服飾類對話,對其中所包含的圖片進行了人工分類打標,共提供了 1.69 萬張圖片的 58 類標簽。此外,數據集還提供了對話中所涉及的商品知識庫信息。整個知識庫一共包含商品知識三元組 21.9 萬條,其中含商品實體共 3 萬多個,分別屬于 231 種商品,包含 759 種商品屬性關系。商品屬性關系準確詳盡,不僅包含商品基本屬性信息,還包含商品賣點信息,可應用于商品屬性應答、商品推薦等場景。
賽題難點這場比賽的難點體現在多個方面。首先是長尾問題。在電商情景中,用戶提出的問題五花八門,非常見問題可能占了很大比例。例如,在一個電磁爐的銷售案例中,多數用戶會問如何調節功率,但偶爾也有客戶會問怎么設置溫度。對于這類非常見問題,模型的表現可能不盡如人意。第二個問題是上下文建模。購物場景中的對話輪次通常比較長,且前后內容相關性很強。如果模型只看當前或近幾輪的交互,就會出現邏輯細節上的矛盾。因此,只有有效建模上下文,才能準確表達上下文中的細節信息。第三個問題是多模態特征提取和融合。多模態特征的提取方式分為很多種,可以利用整張圖像提取特征,也可以只利用感興趣區域(ROI)或圖片上的文字。
究竟哪種提取方式更有效還是一個需要探討的問題。提取完成后,我們還要考慮這些特征要怎么與文本模態特征進行融合。第四個問題是情感交流。在真實的業務場景中,用戶可能本身就有一種不滿或委屈的情緒,這就需要模型在解決問題的同時還要能夠與用戶有比較好的情感交流,提供更貼心的服務。最后一個是決策問題。有些商品不可避免地有些小瑕疵,也不影響使用,一般人工客服都會選擇對顧客進行小額經濟補償。如果模型選擇每單都讓顧客退貨的話,就會造成一定的社會資源浪費。這種場景對模型的決策能力提出了很高的要求。獲獎團隊解決方案此次比賽涌現的解決方案利用了當前比較熱門的一些技術點,比如對 Transformer、大規模參數語言模型、生成式模型、大規模預訓練模型和多模態知識的運用。
在架構方面,優勝團隊要么使用基于 Transformer 的語言模型,要么直接使用 Transformer 構建編解碼器。由此可見,Transformer 已經取代 RNN 成為自然語言處理最主流的特征抽取器。在模型規模方面,多個獲獎團隊選擇了 Bert、GPT、UniLM 這樣的大規模參數語言模型,利用更多的參數得到更好的對話效果。在模型類別方面,優勝隊伍幾乎一邊倒地使用了生成式模型,這也說明在語料充足的情況下,各種以 Transformer 為基礎的生成模型在對話生成的語言流暢程度、應答相關性等方面表現與檢索式模型沒有區別,甚至會更有優勢。
在預訓練模型方面,第一名和第四名都使用了大規模數據預訓練的 BERT 模型作為基礎,這兩個模型在人工單項評分中應答的滿意率也略高一些,可見大規模預訓練模型有助于進一步提升系統性能。在知識方面,恰當融合多模態知識的參賽模型在某些場景下能夠彌補單模態的信息缺失,提供更加滿意的答案。接下來,我們來看一下排名前二的優勝團隊的具體解決方案。
騰訊 AI Lab:
基于預訓練語言模型和結構化知識庫的多模態對話生成模型第一名是來自騰訊 AI Lab 的團隊(Arrival),他們構建了「基于預訓練語言模型和結構化知識庫的多模態對話生成模型」。該方案充分利用對話中的多模態信息與知識信息構建了基于預訓練 BERT 的對話生成模型,并取得了良好效果。方案的第一個階段是通過領域適應預訓練構建一個面向結構化知識庫的對話模型,其中涉及知識庫預訓練、序列預訓練、回復預訓練等步驟。第二個階段是訓練出能夠同時支持多模態信息和知識信息的生成模型。首先,使用 ResNet 模型抽取圖片特征并通過 K-means 實現圖片聚類,將圖片抽象化為 200 類 token 信息。然后,將這些信息融入先前訓練好的面向結構化知識庫的對話模型中,通過訓練產生能夠同時支持多模態信息和知識信息的生成模型。
云從科技:
基于 GPT 模型的多模態融合方法及系統第二名是來自云從科技的團隊,他們構建了「基于 GPT 模型的多模態融合方法及系統」,使用多模態方式打造 GPT 對話模型。在該方案中,模型采用上下文串接的方式將對話涉及的商品知識三元組放在對話的開頭,作為對話的背景知識。然后,采用 ResNet 模型提取多模態圖片中的特征。接下來,利用模型 Embedding 層向量疊加的方式將圖片特征與文本特征相融合。最后,將這些融合后的多模態數據輸入 GPT 結構為核心實現的編解碼一體化模型,完成對話生成任務。其他獲獎團隊的解決方案也都有各自的亮點,此處不一一贅述。
除了這些解決方案之外,本次大賽構建的首個中文多模態對話數據集 JDDC 2.0 也將在比賽結束后向公眾開放,這些真實零售場景中的脫敏數據對于產學研融合和多輪對話發展將起到重要的推動作用。為解決真實場景對話的各種挑戰,京東 AI 已經連續舉辦了三屆對話大賽,明年也會在同個時間周期舉辦 2021 年的對話大賽,歡迎各路高手前來 PK。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。