北大具身智能成果入選CVPR’24:只需一張圖一個指令,就能讓大模型玩轉機械臂
只靠一張物體圖片,大語言模型就能控制機械臂完成各種日常物體操作嗎?北大最新具身大模型研究成果ManipLLM將這一愿景變成了現實:在提示詞的引導下,大語言模型在物體圖像上直接預測機械臂的操作點和方向。
只靠一張物體圖片,大語言模型就能控制機械臂完成各種日常物體操作嗎?北大最新具身大模型研究成果ManipLLM將這一愿景變成了現實:在提示詞的引導下,大語言模型在物體圖像上直接預測機械臂的操作點和方向。
OpenAI CEO山姆·奧特曼展望GPT的未來版本,表示日后人們將能用所有人都能懂的自然語言對它下指令,這將是未來人們與電腦打交道的方式。
“即夢”作為一個全新的品牌,其核心功能包括圖片生成、智能畫布和視頻生成,旨在為用戶提供更為便捷、智能的創作體驗。
“據我們所知,EchoSpeech 是第一個使用眼鏡框來進行無聲語音識別的工作。論文發表之后我們收到了很多郵件。在發信人中,有即將被移除聲帶的癌癥患者、有語音障礙的孩子、也有來自醫生的。這些反饋激勵著我們更加努力地將本次成果帶出實驗室,做出真正能夠改變人類生活的產品?!鼻迦A大學校友、目前正在美國康奈
想象一下當你躺在沙發上,只需要不假思索地說出指令,機器人就能幫你干活,是不是聽起來就十分愜意?如今這種科幻電影中的場景正在變為現實,來自北京大學的助理教授、博士生導師董豪團隊近日提出首個通用指令導航大模型系統InstructNav。不論是尋找物體,走到指定位置,還是滿足抽象的人類需求,只要你說出指令
北京大學董豪團隊具身導航最新成果來了:無需額外建圖和訓練,只需說出導航指令,如:我們就能控制機器人靈活移動。在此,機器人靠的是主動與大模型構成的“專家團隊”溝通完成指令分析、視覺感知、完成估計和決策測試等一系列視覺語言導航關鍵任務。目前項目主頁和論文都已上線,代碼即將推出:機器人如何根據人類指令導航
What???一直低調行事的國內初創公司,旗下模型悄悄地躍升成國內第一、世界第五(僅排在o1系列和Claude 3.5之后)!而且是前十名中的唯一一家國產公司。(該榜上國產第二名是阿里開源的qwen2.5-72b-instruct,總榜第13)。而且它登上的這個排行榜LiveBench,雖然現在還沒
要點:1. 北大研究團隊開發了一種具身導航系統,使機器人可以根據口頭指令在室內環境中移動,無需額外訓練或建圖。2. 這一系統涉及多個關鍵任務,包括指令分析、視覺感知、完成估計和決策測試,由大模型專家團隊協同完成。3. DiscussNav系統通過與大模型專家互動,使機器人能夠根據人類指令移動,解決了
OpenAI全量開放GPT-4o圖像生成能力,這回免費用戶第一時間上車!一夜之間,各種實測結果刷屏。最驚艷的莫過于對文本的處理能力。比如,4o可以100%還原文字內容,且指定文字擺放位置。還能像連續劇一樣,一邊準確生成文字,一邊變換人物動作。
一項研究發現:無需任何訓練,GPT-4V就能直接像人類一樣與智能手機進行交互,完成各種指定命令。比如讓它在50-100美元的預算內購買一個打奶泡的工具。它就能像下面這樣一步一步地完成選擇購物程序(亞馬遜)并打開、點擊搜索欄輸入“奶泡器”、找到篩選功能選擇預算區間、