2023大模型前沿技術講習班·第四期暨智源FlagOpen大模型開源體系與應用
大模型前沿技術講習班第一季第四期(S01E04)將在 2023年10月28日至29日線下召開,本期主題聚焦于“智源FlagOpen大模型開源體系與應用”。
智源研究院 FlagOpen(飛智)大模型技術開源體系旨在打造全面支撐大模型技術發展的開源算法體系和一站式基礎軟件平臺,支持協同創新和開放競爭,共建共享大模型時代的“新Linux”開源開放生態。FlagOpen 包含大模型算法、模型、數據、工具、評測等重要組成部分,國內外開發者基于FlagOpen可以快速開啟各種大模型的嘗試、開發和研究工作,企業可以低門檻進行大模型研發。同時,FlagOpen大模型基礎軟件開源體系正逐步實現對多種深度學習框架、多種AI芯片的完整支持,支撐AI大模型軟硬件生態的百花齊放。本次講習班將由智源研究院研究員擔綱介紹 FlagOpen 的近期進展以及落地實踐。
FlagOpen 官網: https://flagopen.baai.ac.cn/
授課
時間
主題
大綱
授課
專家
10月28日
09:30-
10:30
《悟道·天鷹Aquila 語言大模型及開源生態》
智源研究院推出的悟道·天鷹Aquila語言大模型,是首個具備中英雙語知識、支持商用許可協議、國內數據合規需求的開源語言大模型,并且正在持續完善訓練數據、優化訓練方法、提升模型性能,持續開源開放。本次報告將介紹 Aquila系列模型的進展及應用實踐。
報告提綱:
1. 語言大模型的發展歷程
2. 語言大模型的基本概念
3. Aquila 系列模型介紹
Aquila 基礎模型
AquilaChat 對話模型
AquilaCode 代碼生成模型
4. 基于FlagAI的Aquila系列模型實踐
劉廣
張博文
10月28日
10:40-
11:40
《多模態大模型及其應用》
多模態大模型是綜合利用多種模態類型(文本,圖像,音頻)的信息來進行任務處理的大模型,涵蓋了多模態檢索、生成、編輯等具有實用價值的任務。本次報告將介紹智源研究院推出的AltCLIP多語言CLIP模型,AltDiffusion多語言文生圖模型和CoIE指令鏈多屬性編輯模型。
報告提綱:
1. 基礎理論
多模態預訓練大模型的發展歷程
多模態預訓練大模型的常見結構和預訓練任務
2. 系列模型介紹
AltCLIP - 多語言文圖匹配模型
模型基本結構
基于AltCLIP模型的實踐
AltDiffusion - 多語言文生圖模型
模型基本結構
基于AltDiffusion模型的實踐
CoIE 指令鏈多屬性編輯模型
模型基本結構
基于CoIE模型的實踐
張振鐸
吳欣雅
10月28日?
14:00-
15:30
《鏈接大模型與外部知識,語義向量模型 BAAI General Embedding(BGE) 及應用實踐》
語義向量是連接大語言模型與世界知識的橋梁。語義向量檢索可以高效地為大語言模型補充世界知識和本地知識;同時,精準且通用的語義表征能力對于提升大語言模型的事實性、實現其長期記憶、以及快速構建大語言模型面向垂直領域的應用都具備深遠的意義。本次報告將介紹智源研究院語義向量模型 BAAI General Embedding(BGE) 及應用實踐。
報告提綱:
1. 基礎理論
語義檢索基礎
面向語義表征的預訓練語言模型
2. 應用實踐
BGE模型代碼解析
BGE模型結合大語言模型的應用
劉政
肖詩濤
9月23日
15:40-
17:10
《FlagEval 大模型評測體系及開放平臺》
模型評測是模型生產生命周期中非常重要的一環,隨著近年來基礎模型相關理論和技術的高速發展,但傳統的評測方法和基準在基礎模型評測上正面臨失效的困境,因此研發面向基礎模型的評測方法和工具就顯得更為重要。FlagEval 大模型開源評測體系創新構建了“能力-任務-指標”三維評測框架,嘗試細粒度刻畫基礎模型的認知能力邊界。
報告提綱:
1. FlagEval 項目建設背景
2. FlagEval 大語言模型評測體系
大語言模型評測存在的難點
評測框架介紹
主流開源模型能力評測結果及解讀
楊熙
10月29日
09:30-
10:30
《FlagData大模型數據處理工具集》
在大模型時代,訓練數據的重要性被提升到了一個新的高度。訓練數據是模型能力的重要來源,提升數據質量對于提升大模型的性能具有重要的意義。當前在大模型開發的過程中,對海量的預訓練數據進行分析、清洗和過濾已經成為一項重要的工作內容。FlagData大模型數據處理工具集,提供了數據標注、分析、清洗等流程在內的全流程工具,能夠為大模型開發中的數據工作提供幫助。
報告提綱:
1. 大模型時代的數據處理
2. 數據處理工作中的難點
3. FlagData工具集
4. 總結與展望
張正
10月29日
10:40-
11:40
《從視覺到多模態基礎模型》
語言基礎模型率先取得突破,如何構建通用的視覺和多模態基礎模型,成為現在視覺領域關注的熱點問題。本次報告將圍繞視覺上下文學習、圖文對比學習、生成式多模態預訓練等技術,介紹大規模視覺表征、通才視覺模型、通才多模態模型等最新研究進展和應用實踐。
報告提綱:
1. 基礎算法
圖文對比學習
上下文視覺學習
生成式多模態預訓練
2. 應用實踐
EVA-CLIP在開放視覺識別中的應用
SegGPT 分割模型使用實踐
Emu在多模態理解和生成中的應用
王鑫龍
_結營儀式
_報名通道
“
授課專家
劉廣,北京郵電大學博士,北京智源人工智能研究院NLP和多模態研究中心負責人,負責飛智FlagAI開源項目以及訓練悟道·天鷹Aquila系列基礎模型,主持科技創新2030-“新一代人工智能”重大項目課題,在人工智能領域學術會議和期刊上發表論文,發明專利申請十余項,主要研究方向是預訓練大模型和多模態文圖生成等方向。
張博文,北京科技大學博士,北京人工智能研究院NLP和多模態研究中心研究員,悟道·天鷹Aquila系列基礎模型核心參與者,主持開發AquilaCode系列開源模型,FlagAI開源項目和FlagEval核心開發者。在自然語言處理、信息檢索、人工智能領域頂級學術會議和期刊SIGIR, ACL, CIKM, ICASSP, Information Sciences等發表論文多篇。
張振鐸,北京智源人工智能研究院NLP和多模態研究中心研究員,清華大學碩士,FlagAI開源項目和悟道·天鷹Aquila模型的核心參與者,負責BAAI InstructFace開源項目的開發工作。主要研究方向包括圖像識別、視頻識別和檢索、多模態生成、大模型預訓練等領域,在計算機視覺、人工智能領域頂級學術會議和期刊發表論文多篇。
吳欣雅,北京智源人工智能研究院NLP和多模態研究中心研究員,北京郵電大學碩士,FlagAI開源項目和悟道·天鷹Aquila模型的核心參與者,負責Alt-diffusion開源項目的開發工作。主要研究方向包括大模型,多模態預訓練,文圖生成等方向。
劉政,北京智源人工智能研究院信息檢索與知識計算組負責人,香港科技大學博士,曾擔任MSRA主管研究員、華為2012實驗室技術專家等職務,主持研發BAAI General Embedding等開源模型,參與開發BING Ads、Microsoft News、Huawei Petal Search等多個商用信息檢索系統開發;在自然語言處理、信息檢索、與數據挖掘領域等領域的頂級刊物發表論文數十篇。
肖詩濤,北京智源人工智能研究院信息檢索與知識計算組研究員;北京郵電大學碩士;智源FlagEmbedding項目核心開發者,主持開發BAAI General Embedding等開源模型;在KDD、SIGIR、ACL、EMNLP等頂級學術會議發表多篇論文。
楊熙,北京智源人工智能研究院技術平臺智能評測組負責人。北京大學博士,中科院計算所博士后。FlagEval核心貢獻者,主要研究多領域、多維度的基礎模型評測方法及工具。
張正,北京智源人工智能研究院數據研究組負責人,清華大學博士,研究領域為自然語言處理、大模型和對話系統,曾主持國家重點研發計劃課題和國家自然科學基金項目,參與組織了FlagData的開發工作。
王鑫龍, 智源研究院視覺模型研究中心負責人。本科畢業于同濟大學,博士畢業于澳大利亞阿德萊德大學,師從沈春華教授。他的研究興趣是計算機視覺和基礎模型,近幾年研究工作包括視覺感知 (SOLO, SOLOv2),視覺表征 (DenseCL, EVA),視覺通才模型(Painter, SegGPT),多模態表征(EVA-CLIP),多模態通才模型(Emu)。曾獲Google PhD Fellowship和阿德萊德大學博士研究獎章。
“
往期講習班焦點回顧
講習班第一季的前三期均已在線下成功召開,來自頂尖科研領域及相關應用方向的權威專家聯合授課。他們有:曠視科技主任研究員張祥雨,微軟亞洲研究院高級研究員吳晨飛,南京航空航天大學教授李丕績,哈爾濱工業大學教授張偉男,上海交通大學助理研究員陳露,中國人民大學準聘助理教授李崇軒,中國人民大學準聘助理教授林衍凱,哈爾濱工業大學教授車萬翔,科大訊飛研究院資深科學家崔一鳴,騰訊AI Lab專家研究員涂兆鵬,第四范式強化學習科學家黃世宇,以及中科院自動化所研究員劉靜。
/ 現場一瞥 /
“
注冊須知
課程形式:所有專家均在現場授課,學員親臨現場參與,如外地學員有困難,可申請線上聽課。按照報名及付費順序,優先錄取線下學員。名額滿額后,僅提供線上通道。
教學地點:智源大廈綜合報告廳(北京市海淀區成府路150號)
授課時間:每日上午09:30-12:00,下午14:00-17:00
課后錄播:課程結束后,所有學員將在一定期限內獲得在線回放視頻(含教學課件)。
注冊費:第四期(S01E04)每人1999元,學生優惠999元;購買第一季(S01E01-04,共四期)套票每人4999元,學生2999元。
所有線下學員將獲贈一本《自然語言處理 基于預訓練模型的方法》圖書
線下學員參與Q&A時還可獲贈書籍等禮品
成為學員,可獲得AI職位服務推薦機會,請在報名時選擇
唯一報名通道
“
申請全額獎學金
如滿足以下任一條件,可在報名后申請全額獎學金:
開源項目作者:GitHub開源AI項目(文檔類300 Star以上、項目類50 Star以上)主要貢獻者
基于FlagOpen發表論文或創建開源項目(5 Star以上)
成為OpenLabel數據標注共享平臺優秀貢獻者
加入BAAI實習計劃,或成為優秀學員
“
注意事項
報名費用將用于會議費、報名費、學習費、資料費、茶歇費、書籍費、結業證書費、現場茶歇、飲用水、線上會議室等
食宿及交通需自理
報名后,工作人員將邀請加入學員微信群
講習班支持開具發票,類型包括:會議費、會議注冊費、培訓費、專票等
講習班提供邀請函,入群后領取
如需開發票,請在報名并加入微信群后填寫對應表單
如對課程有任何問題,請聯系editor@baai.ac.cn
點擊
閱讀原文
立即報名講習班
第一期:/uploads/pic/20230919/3694319550200
第二期:/uploads/pic/20230919/4698389866414
第三期:/uploads/pic/20230919/8712043160614?
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。