首頁 > 音頻

音頻

  • 字節(jié)讓達(dá)芬奇和蒙娜麗莎“隔空吵架”,只需一張圖、一段音頻

    AIGC在視頻生成領(lǐng)域展現(xiàn)出非凡的潛力。近期, 字節(jié)跳動(dòng)智能創(chuàng)作團(tuán)隊(duì)和得克薩斯大學(xué)達(dá)拉斯分校又提出了一項(xiàng)名為DREAM-Talk的基于擴(kuò)散模型框架:接收一段驅(qū)動(dòng)的音頻序列、一張給定的人像圖片和一個(gè)情感風(fēng)格的例子(一段有情感的講話面部視頻)作為輸入,

  • 抖音發(fā)布2024直播治理報(bào)告:引入音頻審核大模型,強(qiáng)化違規(guī)內(nèi)容治理

    DoNews12月27日消息,12月27日,抖音發(fā)布2024年直播治理報(bào)告,全面闡釋抖音直播治理的理念、方法及最新成果。過去一年,抖音圍繞完善主播管理機(jī)制、強(qiáng)化內(nèi)容識(shí)別技術(shù)、線上線下聯(lián)動(dòng)治理、重點(diǎn)人群保護(hù)等方面,努力為廣大網(wǎng)友打造安全可信、風(fēng)清氣正的網(wǎng)絡(luò)直播環(huán)境。主播管理精細(xì)化運(yùn)營,機(jī)構(gòu)需承擔(dān)管理責(zé)

  • 現(xiàn)在,用音頻也能指揮GAN生成圖像了

    CLIP大家都不陌生吧?由OpenAI于今年1月份推出,能夠?qū)崿F(xiàn)文本描述與圖片的精準(zhǔn)匹配?,F(xiàn)在,有人“靈機(jī)一動(dòng)”,從CLIP中學(xué)習(xí)了一種音頻表示方法。用這個(gè)方法搭配VQGAN-CLIP,就能實(shí)現(xiàn)聲音到圖像的轉(zhuǎn)變!

  • 貝爾金CES2025推出全新音頻概念、內(nèi)容創(chuàng)作者工具和充電解決方案

    拉斯維加斯2025年1月8日 /美通社/ -- 2025年1月5日 – 擁有40年歷史的知名消費(fèi)電子品牌貝爾金(Belkin)今日發(fā)布了一系列全新產(chǎn)品,涵蓋移動(dòng)電源、音頻及未來創(chuàng)新產(chǎn)品線,彰顯了貝爾金在設(shè)計(jì)上的卓越表現(xiàn)、對(duì)高品質(zhì)的堅(jiān)持以及對(duì)制造負(fù)責(zé)任產(chǎn)品的承諾。貝爾金將在2025年CES官方媒體活動(dòng)

  • 喜馬拉雅盧恒:AIGC生成的音頻內(nèi)容日均播放量超250萬小時(shí)

    10月24-25日,由聲網(wǎng)和RTE(實(shí)時(shí)互動(dòng))開發(fā)者社區(qū)聯(lián)合主辦的RTE2023第九屆實(shí)時(shí)互聯(lián)網(wǎng)大會(huì)在北京舉辦,在主論壇上,喜馬拉雅首席科學(xué)家盧恒表示,作為全國最大的有聲內(nèi)容平臺(tái),喜馬拉雅從文本處理到音頻內(nèi)容生成的過程中都使用了大量的人工智能技術(shù)。盧恒表示,目前,AIGC(人工智能自動(dòng)生成內(nèi)容技術(shù))

  • OpenAI首次展示音頻模型VoiceEngine15秒即可復(fù)制原音

    財(cái)聯(lián)社3月30日電,OpenAI在官網(wǎng)首次展示了全新自定義音頻模型“Voice Engine”。 用戶只需要提供15秒左右的參考聲音,通過Voice Engine就能生成幾乎和原音一模一樣的全新音頻,在清晰度、語音連貫、音色、自然度等方面比市面上多數(shù)產(chǎn)品都強(qiáng)很多。

  • 一個(gè)開源庫搞定各類文本到音頻生成,Meta發(fā)布AudioCraft

    近來,Meta 發(fā)布并開源了多個(gè) AI 模型,例如 Llama 系列模型、分割一切的 SAM 模型。這些模型推動(dòng)了開源社區(qū)的研究進(jìn)展?,F(xiàn)在,Meta 又開源了一個(gè)能夠生成各種音頻的 PyTorch 庫 ——AudioCraft,并公開了其技術(shù)細(xì)節(jié)。代碼地址:https://github.com/fa