北大張大慶教授:無線感知賦予具身智能“第六感官”,6G時代手機隔空測心跳
毫無疑問,具身智能已成為時下最流行的技術趨勢之一。但相較于人類基礎能力,如大腦、耳目和四肢的協同,機器人執行物理任務時仍然顯得笨拙。△來源新火種智庫《中國AIGC產業全景報告》如何讓機器人更靈活的「動」起來?作為一切行為的起點,感知系統就顯得尤為關鍵。
毫無疑問,具身智能已成為時下最流行的技術趨勢之一。但相較于人類基礎能力,如大腦、耳目和四肢的協同,機器人執行物理任務時仍然顯得笨拙。△來源新火種智庫《中國AIGC產業全景報告》如何讓機器人更靈活的「動」起來?作為一切行為的起點,感知系統就顯得尤為關鍵。
北京大學與騰訊等機構的研究者們提出了多模態對齊框架 ——LanguageBind。該框架在視頻、音頻、文本、深度圖和熱圖像等五種不同模態的下游任務中取得了卓越的性能,刷榜多項評估榜單,這標志著多模態學習領域向著「大一統」理念邁進了重要一步。在現代社會,信息傳遞和交流不再局限于單一模態。
每經AI快訊,北京大學計算中心發布通知,北大本地化部署的deepseek滿血版R1和V3已深度適配教學應用場景,向校內多項人工智能應用北大問學、AIMD、化小北、金融AI助教提供服務。每日經濟新聞
混合專家(MoE)架構已支持多模態大模型,開發者終于不用卷參數量了!北大聯合中山大學、騰訊等機構推出的新模型MoE-LLaVA,登上了GitHub熱榜。它僅有3B激活參數,表現卻已和7B稠密模型持平,甚至部分指標比13B的模型還要好。
北大等出品,首個多模態版o1開源模型來了——代號LLaVA-o1,基于Llama-3.2-Vision模型打造,超越傳統思維鏈提示,實現自主“慢思考”推理。在多模態推理基準測試中,LLaVA-o1超越其基礎模型8.9%,并在性能上超越了一眾開閉源模型。新模型具體如何推理,直接上實例,比如問題是:傳統
AI 科技評論報道編輯 | 陳大鑫近日,由北京大學崔斌教授數據與智能實驗室( Data and Intelligence Research LAB, DAIR)開發的通用黑盒優化系統 OpenBox 開源發布!相比于SMAC3,Hyperopt等現有開源系統,OpenBox支持更通用的黑盒優化場景,
北京大學和中山大學等機構研究者提出了統一的視覺語言大模型 ——Chat-UniVi。通過構建圖片和視頻統一表征,該框架使得一個 LLM 能夠在圖片和視頻的混合數據下訓練,并同時完成圖片和視頻理解任務。更重要的是,該框架極大降低了視覺語言模型訓練和推理的開銷,
想象一下當你躺在沙發上,只需要不假思索地說出指令,機器人就能幫你干活,是不是聽起來就十分愜意?如今這種科幻電影中的場景正在變為現實,來自北京大學的助理教授、博士生導師董豪團隊近日提出首個通用指令導航大模型系統InstructNav。不論是尋找物體,走到指定位置,還是滿足抽象的人類需求,只要你說出指令
人民財訊3月21日電,3月17日至21日,2025 NVIDIA GTC(英偉達GPU技術大會)在美國加州圣何塞召開。在本次GTC大會上,協鑫集團聯合北京大學、NVIDIA達成產學研深度協同,聯合推出基于NVIDIA Earth-2平臺的光伏功率預測大模型,這標志著能源行業智能化轉型取得突破性進展。
DoNews11月7日消息,據品玩引述 HuggingFace 頁面報道,微軟研究院聯手北京大學,共同發布了一款名為 PPTC 的大模型測試基準,可以用于測試大模型在PPT 生成方面的能力。研究團隊表示,PPTC包含 279 個涵蓋不同主題的多回合會話和數百條涉及多模式操作的說明。研究團隊還提出了P