首頁 > 北大

北大

  • 用語言對齊多模態信息,北大騰訊等提出LanguageBind,刷新多個榜單

    北京大學與騰訊等機構的研究者們提出了多模態對齊框架 ——LanguageBind。該框架在視頻、音頻、文本、深度圖和熱圖像等五種不同模態的下游任務中取得了卓越的性能,刷榜多項評估榜單,這標志著多模態學習領域向著「大一統」理念邁進了重要一步。在現代社會,信息傳遞和交流不再局限于單一模態。

  • 北大通知:開放多項AI應用

    每經AI快訊,北京大學計算中心發布通知,北大本地化部署的deepseek滿血版R1和V3已深度適配教學應用場景,向校內多項人工智能應用北大問學、AIMD、化小北、金融AI助教提供服務。每日經濟新聞

  • 3B模型不輸7BLLaVA!北大多模態MoE模型登GitHub熱榜

    混合專家(MoE)架構已支持多模態大模型,開發者終于不用卷參數量了!北大聯合中山大學、騰訊等機構推出的新模型MoE-LLaVA,登上了GitHub熱榜。它僅有3B激活參數,表現卻已和7B稠密模型持平,甚至部分指標比13B的模型還要好。

  • 北大等發布多模態版o1!首個慢思考VLM將開源,視覺推理超閉源

    北大等出品,首個多模態版o1開源模型來了——代號LLaVA-o1,基于Llama-3.2-Vision模型打造,超越傳統思維鏈提示,實現自主“慢思考”推理。在多模態推理基準測試中,LLaVA-o1超越其基礎模型8.9%,并在性能上超越了一眾開閉源模型。新模型具體如何推理,直接上實例,比如問題是:傳統

  • 訓練130億大模型僅3天,北大提出Chat-UniVi統一圖片和視頻理解

    北京大學和中山大學等機構研究者提出了統一的視覺語言大模型 ——Chat-UniVi。通過構建圖片和視頻統一表征,該框架使得一個 LLM 能夠在圖片和視頻的混合數據下訓練,并同時完成圖片和視頻理解任務。更重要的是,該框架極大降低了視覺語言模型訓練和推理的開銷,

  • 北大提出首個通用指令導航大模型系統|CoRL24

    想象一下當你躺在沙發上,只需要不假思索地說出指令,機器人就能幫你干活,是不是聽起來就十分愜意?如今這種科幻電影中的場景正在變為現實,來自北京大學的助理教授、博士生導師董豪團隊近日提出首個通用指令導航大模型系統InstructNav。不論是尋找物體,走到指定位置,還是滿足抽象的人類需求,只要你說出指令

  • 協鑫集團攜手北大、NVIDIA發布光伏功率預測大模型

    人民財訊3月21日電,3月17日至21日,2025 NVIDIA GTC(英偉達GPU技術大會)在美國加州圣何塞召開。在本次GTC大會上,協鑫集團聯合北京大學、NVIDIA達成產學研深度協同,聯合推出基于NVIDIA Earth-2平臺的光伏功率預測大模型,這標志著能源行業智能化轉型取得突破性進展。

  • 微軟聯手北大,發布PPTC大模型測試基準

    DoNews11月7日消息,據品玩引述 HuggingFace 頁面報道,微軟研究院聯手北京大學,共同發布了一款名為 PPTC 的大模型測試基準,可以用于測試大模型在PPT 生成方面的能力。研究團隊表示,PPTC包含 279 個涵蓋不同主題的多回合會話和數百條涉及多模式操作的說明。研究團隊還提出了P