首頁 > 多模態

多模態

  • AI2南郵校友等打造Unified-IO2:首個視覺/語言/音頻/動作多模態模型

    首個視覺、語言、音頻和動作多模態模型Unified-IO 2來了!它能夠完成多種多模態的任務,在超過30個基準測試中展現出了卓越性能。首個具備理解和創造圖像、文本、音頻以及動作能力的自回歸多模態模型來了!來自艾倫人工智能研究所、伊利諾伊大學厄巴納-香檳分校、華盛頓大學的學者提出了Unif

  • ChatGPT多模態能力引發熱潮,但自家論文揭示GPT-4V仍存缺陷

    撰文:Kyle Wiggers來源:TechCrunch由無界 AI工具生成當 OpenAI 首次發布其旗艦文本生成人工智能模型 GPT-4 時,該公司吹捧了該模型的多模態性 -- 換句話說,它不僅能理解文本,還能理解圖像。OpenAI 表示,GPT-4 可以為相對復雜的圖片添加字幕,甚至

  • 谷歌視覺語言模型PaLI-3問世,參數僅5B,更小、更快、更強

    在多模態(視覺語言)大模型領域,拼參數贏性能的同時,追求參數更小、速度更快、性能更強是另一條研究路徑。由無界 AI生成在大模型時代,視覺語言模型(VLM)的參數已經擴展到了數百甚至數千億,使得性能持續增加。與此同時,更小規模的模型仍然很重要,它們更易于訓練和服務,更加環境友好,并為模型設計