當前,新一輪科技革命和產(chǎn)業(yè)變革迅猛發(fā)展,人工智能等新技術(shù)方興未艾。如何迎接數(shù)字時代的機遇與挑戰(zhàn),攜手邁進更加美好的“數(shù)字未來”。11月19日至22日,在2024年世界互聯(lián)網(wǎng)大會烏鎮(zhèn)峰會期間,人民網(wǎng)《對話企業(yè)家》欄目邀請互聯(lián)網(wǎng)企業(yè)相關(guān)負責人分享創(chuàng)新故事、解讀前沿熱點、洞察智慧未來。
趣丸科技副總裁、總編輯任少峰。 人民網(wǎng)記者 任峰濤攝
聚焦當下,人工智能技術(shù)在聲音領(lǐng)域取得了哪些成果?展望未來,AIGC技術(shù)還有望在哪些場景落地應(yīng)用?11月20日,“人民之夜@烏鎮(zhèn)咖薈”在浙江烏鎮(zhèn)成功舉辦,趣丸科技副總裁、總編輯任少峰在現(xiàn)場接受了人民網(wǎng)記者專訪。
人民網(wǎng):在聲音領(lǐng)域,人工智能技術(shù)目前取得了哪些成果?
任少峰:首先是開源語音大模型。例如,趣丸科技與香港中文大學深圳校區(qū)合作研發(fā)的開源語音大模型“MaskGCT”,它訓練于10萬小時數(shù)據(jù)集Emilia,是全球最大且最為多樣的高質(zhì)量多語種語音數(shù)據(jù)集之一,精通中英日韓法德6種語言的跨語種合成,可用于聲音克隆、語音生成,降低視頻制作、內(nèi)容播報等場景中的語音錄制成本,使更多相關(guān)從業(yè)者從中受益。
其次是音樂生成大模型“天譜樂(TemPolor)”。用戶通過提供關(guān)鍵詞、音頻、照片或視頻等素材,即可在平臺上生成包含人聲、唱詞、樂器,多種曲風的歌曲。目前,這項技術(shù)已應(yīng)用于短視頻和影視創(chuàng)作,如影視公司自制微短劇的配樂。未來,行業(yè)將繼續(xù)降低這項技術(shù)門檻,讓它實現(xiàn)更加“普惠化”發(fā)展。
人民網(wǎng):今后人工智能技術(shù)還有哪些潛在的應(yīng)用場景?
任少峰:我從已經(jīng)有了一定基礎(chǔ)的場景,到未來可能發(fā)揮作用的場景進行展望:
一是兼具可視化數(shù)字形象以及實時交互能力的智能客服系統(tǒng)。目前我們已經(jīng)開發(fā)了一站式數(shù)字人生成平臺,僅需一張照片便可以生成獨特的數(shù)字人“分身”,根據(jù)給定知識庫自主為用戶解答問題。
二是為中小型商家提供數(shù)字人直播帶貨服務(wù)。僅需每月支付一定服務(wù)費,即可實現(xiàn)24 小時不間斷直播。
三是促進文化出海。智能翻譯系統(tǒng)可將海量微短劇翻譯為其他國家語言,同時精準對應(yīng)音色、口型與表情,從而降低人力成本,助力文化傳播。
四是人物、物體和場景的三維重建。它的應(yīng)用場景包括家居設(shè)計、游戲設(shè)計等領(lǐng)域,可以顯著提高生產(chǎn)效率。此外,這項技術(shù)還有望與3D打印機相結(jié)合,將AIGC重建的模型轉(zhuǎn)化為實物。
人民網(wǎng):當前人工智能技術(shù)應(yīng)用場景拓展存在哪些難點?
任少峰:結(jié)合我們的日常工作經(jīng)驗,當前人工智能技術(shù)應(yīng)用場景拓展存在的“堵點”主要有三個方面,首先是人工智能團隊任務(wù)繁重,既要進行基礎(chǔ)技術(shù)研究又要承接產(chǎn)品需求;其次是人工智能技術(shù)應(yīng)用端行業(yè)缺乏將人工智能與業(yè)務(wù)相結(jié)合的具體思路;三是缺乏能將技術(shù)與應(yīng)用結(jié)合起來的“中游”咨詢機構(gòu)、中介機構(gòu),希望未來社會各界能在促進技術(shù)與應(yīng)用融合方面做出更多嘗試。
Copyright ? 2001-2024 湖北荊楚網(wǎng)絡(luò)科技股份有限公司 All Rights Reserved
營業(yè)執(zhí)照 - 增值電信業(yè)務(wù)許可證 - 互聯(lián)網(wǎng)出版機構(gòu) - 網(wǎng)絡(luò)視聽節(jié)目許可證 - 廣播電視節(jié)目許可證
關(guān)于我們 - 版權(quán)聲明 - 合作咨詢
版權(quán)為 荊楚網(wǎng) www.cnhubei.com 所有 未經(jīng)同意不得復制或鏡像