論壇:2025年7月26日-28日
展覽:2025年7月26日-29日
地點:世博中心、世博展覽館、徐匯西岸等
清亮的原聲吉他掃弦配上律動感強勁的鼓組,滿滿青春的活力撲面而來;朗朗上口的歌詞由極具穿透力的高亢女聲傳遞。日前發(fā)布的本次大會英文主題曲《AI For Good》悠揚大氣而又不失動感,一經(jīng)公布就立即收獲了廣大好評,但不少細(xì)心的聽眾發(fā)現(xiàn)這首歌的詞曲演唱均是“空白”。沒錯,這首“抓耳”歌曲從作詞、作曲到人聲演唱全流程均是由國內(nèi)自主研發(fā)的音樂大模型(“音潮”音樂大模型)獨立全棧完成。作品以“科技向善”為核心,通過音樂語言傳遞AI與人類共生的未來愿景。
“音潮”音樂大模型是由國內(nèi)新銳的大模型公司自由量級全鏈路自研。該模型采用行業(yè)領(lǐng)先的AR+NAR架構(gòu),擁有強大的多模態(tài)表征能力和創(chuàng)新的重建模型。前者能夠捕捉全局動態(tài)變化并進行高保真重建。后者則深入學(xué)習(xí)了音樂信號與其他信息的結(jié)構(gòu)性差異,對信號中的音樂特征獨立建模,建立復(fù)合評價維度,克服了傳統(tǒng)方案在處理時所遇到的音樂細(xì)節(jié)丟失難題。這也讓“音潮”音樂大模型生成具有豐富編曲層次、工業(yè)級制作聽感的高質(zhì)量音樂。
同時,為了讓生成的效果從“平面”走向“沉浸”,團隊還專門研發(fā)了能直接對雙聲道信號進行聯(lián)合建模的Diffusion Transformer(DiT)。該模型的核心在于其獨特的注意力機制,能有效捕捉并同步左右聲道間的相位、強度差異與時間延遲。因此,生成的音頻不再是單聲道的簡單復(fù)制,而是擁有了真實、自然的寬度和深度,為聽者構(gòu)建出可信的聲場空間。
正是這些黑科技,帶來了這首《AI For Good》的驚人效果,也證明了中國的音樂大模型已具備駕馭國際盛會藝術(shù)表達的成熟度。
(來源:世界人工智能大會)