華語樂壇,難道要重生了?!
【資料圖】
最近差評(píng)君我在刷B站視頻的時(shí)候,突然發(fā)現(xiàn)出現(xiàn)在我推薦頁上的老歌手們又多了起來。
這類視頻大多是以唱歌為主,有周杰倫的,有孫燕姿的,林俊杰的,甚至還有丁真郭德綱什么的。
只不過在這些視頻的標(biāo)題里,都會(huì)帶有一個(gè)“AI”標(biāo)簽。
這類視頻不僅非常多,關(guān)鍵是它們的播放量都還不差。
AI鄧麗君的一首《反方向的鐘》,喜獲50萬+播放。
AI周杰倫的一首“日系新歌”《單相思》,也是獲得了80萬+的播放量。
而且曾經(jīng)6年不發(fā)新專的杰倫,因?yàn)檫@個(gè)AI替身,在這一兩個(gè)月里發(fā)的“新歌”的量,估摸著已經(jīng)超過前十年發(fā)的量的總和了。。。
至于曾經(jīng)的“冷門歌手孫燕姿”,更是靠著AI替身,以一首《下雨天》,榮獲超83萬的播放量。
而且,這個(gè)AI孫燕姿,各種各樣的風(fēng)格曲目都有,從流行到搖滾,就沒有AI孫燕姿掌控不了的曲風(fēng)。
哪曾想到,原本已經(jīng)脫離歌壇很久的孫燕姿,到了2023年,自己居然靠著AI替身,再次火了一把。一下子從曾經(jīng)那個(gè)“冷門歌手”,變成了“2023最火爆華語歌手”。
可能也是看著現(xiàn)在華語歌壇有點(diǎn)拉,就連相聲界的郭老師,都來湊熱鬧了,直接來了一首《 a lot 》。
把相聲的基本功,“說、學(xué)、逗、唱”中的“說唱”演繹的淋漓盡致。
匪幫說唱配上于謙和郭德綱老師的“匪幫梗”,整個(gè)視頻立馬就有了一種“德云社廠牌”的氣質(zhì),還有網(wǎng)友在評(píng)論里戲稱郭老師為“ GodGang ”。。。
整個(gè)形勢,就好像要回到20幾幾年那會(huì)的華語樂壇大爆發(fā)時(shí)代。
如果說,現(xiàn)在的新四大天王,把華語樂壇整成了華語哥譚。
那這個(gè) AI 替身,可是真的把華語樂壇曾經(jīng)的一絲輝煌給重現(xiàn)了。
所以這類 AI 視頻到底是個(gè)啥東西?為什么在這兩個(gè)月的時(shí)間里突然就爆發(fā)了?
差評(píng)君我仔細(xì)研究了一下,最后得出結(jié)論,讓AI華語樂壇出現(xiàn)爆發(fā)式生長的,離不開這么一個(gè)開源項(xiàng)目:
So-vits-svc。
So-vits-svc源于21年的另一個(gè)叫做Vits的開源項(xiàng)目。
Vits是一種語音合成方法。
簡單來說,就是可以對(duì)人的聲學(xué)特征進(jìn)行模擬,然后就可以直接用文本生成你模擬好的語音。
這個(gè)Vits雖然開源的早,但它沒火起來只有一個(gè)原因,就是對(duì)普通用戶來說,太難用了。
由于是文本生成語音,首先就得對(duì)需要訓(xùn)練的語音進(jìn)行文本標(biāo)記,特別不巧的是,訓(xùn)練Vits的模型又需要大量的語料才能獲得比較好的效果,這個(gè)數(shù)量大概在數(shù)千至上萬條5-10秒左右的音頻。
所以,Vits效果好是好,但愿意折騰它的普通用戶也不多。
到了2022年,一位叫“Rcell”的B站用戶在Vits的基礎(chǔ)上,結(jié)合了soft-vc、VIsinger等一系列項(xiàng)目,So-vits-svc就此誕生。
和Vits不同的是,So-vits不能通過文本直接合成語音,而是需要一段原始音頻,然后利用這個(gè)原始音頻,擬合成你想要的人的音色。
不過So-vits在訓(xùn)練聲學(xué)特征時(shí),需要的訓(xùn)練數(shù)據(jù)也相對(duì)較少,最短十幾分鐘,就能訓(xùn)練出一個(gè)能用的模型了。
到了今年三月,這個(gè)So-vits的項(xiàng)目迭代到4.0版本,更加易用,效果更好,再加上很多UP自發(fā)整理的整合包,這才讓B站的AI視頻出現(xiàn)了大爆發(fā)的趨勢。
那這個(gè)So-vits項(xiàng)目易用到了什么程度呢?
差評(píng)君這里給大家做一個(gè)演示。
咱們直接把差評(píng)君的嘴替,蛋不利多醬的配音拿來訓(xùn)練,首先這些音頻要經(jīng)過切片和預(yù)處理,方便訓(xùn)練。
一切準(zhǔn)備完畢后,就可以開始訓(xùn)練需要的聲學(xué)模型啦,直接點(diǎn)擊文件里面的推理,整個(gè)訓(xùn)練過程就開始了
在訓(xùn)練完成后,就能得到這樣的聲學(xué)模型。
有了模型就可以對(duì)音頻進(jìn)行推理了,我們先準(zhǔn)備一段咱們需要擬合的干音,在這里就是一段唱歌的聲音。
然后按照提示輸入數(shù)值,等待推理完成即可。
最后在/results里的.flac文件,就是咱們通過訓(xùn)練蛋蛋的模型擬合出來的聲音了。
之后我還找到了一個(gè)叫d-id的網(wǎng)站,這是一個(gè)可以將輸入文本或音頻轉(zhuǎn)化為嘴型動(dòng)畫的網(wǎng)站,直接把圖片和音頻上傳,就能在短時(shí)間內(nèi)生成符合音頻信息的視頻。
把音頻和視頻合成,制作就結(jié)束了,整個(gè)過程幾乎涉及不到什么有難度的點(diǎn)。
給大家看看成品,雖然這個(gè)過程花費(fèi)時(shí)間不多,但整體的唱歌效果也還行,除了這選的曲子有點(diǎn)一言難盡之外。。。
,時(shí)長03:16
其實(shí)使用別人的聲音來唱歌也不是一件稀奇的事情。
B站的鬼畜視頻大家應(yīng)該都看過吧?
鬼畜視頻和這類AI視頻有個(gè)共同點(diǎn),就是它們都是用別人的聲音來調(diào)教音頻從而達(dá)到唱歌的效果。
但是傳統(tǒng)鬼畜的方式,制作過程繁雜,最后出來的效果也和個(gè)人調(diào)音技術(shù)有很大的關(guān)系。
而這類AI視頻,制作流程不但簡單,聲音的擬合效果也只取決于你訓(xùn)練的模型的好壞。
那這一對(duì)比下來,別的先不說,鬼畜區(qū)以后不得被AI視頻干爆啊?
在一些AI視頻下面,甚至已經(jīng)有些網(wǎng)友在評(píng)論區(qū)哭喊,調(diào)音鬼畜要被AI代替了。。。
但差評(píng)君在詢問了B站小編后,發(fā)現(xiàn)其實(shí)現(xiàn)在很多人對(duì)AI類的視頻并沒有很大的擔(dān)憂。
小編認(rèn)為技術(shù)服務(wù)于創(chuàng)意,AI帶來的生產(chǎn)力提升也是一件好事,單調(diào)的AI原詞現(xiàn)在也就是圖個(gè)新鮮勁,不會(huì)對(duì)鬼畜區(qū)造成長遠(yuǎn)的影響。
這類AI視頻,雖然在聲音的還原上,相比傳統(tǒng)鬼畜有極大優(yōu)勢,但是在內(nèi)容多樣性上,卻遠(yuǎn)遠(yuǎn)不如傳統(tǒng)鬼畜的方式。
咱就以最近很火的鬼畜素材 “ 泰褲辣 ” 舉例。
整段原視頻不過幾十秒,比較有梗的也就是這句“泰!褲!辣!”。
在傳統(tǒng)鬼畜的制作流程中,只需要把音頻截下來,然后對(duì)一些比較有梗的詞語進(jìn)行重組拼貼,再進(jìn)行調(diào)音。
然后對(duì)上口型的畫面,一個(gè)鬼畜視頻就完成了。
但如果想要用AI來做視頻的話,對(duì)這類素材,首先就是音頻素材量不夠,短短幾十秒的音頻素材,完全不足以支撐訓(xùn)練出聲學(xué)特征。
其次就是無法還原“梗”,最有梗的這句“泰!褲!辣!”,AI擬聲完全沒辦法保留素材的原味。
就算你能訓(xùn)練出聲學(xué)模型,當(dāng)你把聲音擬合到這個(gè)干聲上時(shí),你所有的語氣,唱調(diào),歌詞,都會(huì)變成和原始干聲一樣。
這就少了很多樂趣了。
我們?cè)倩剡^頭來看看鬼畜區(qū)的大部分視頻,很多鬼畜視頻的素材也就是一小段比較有趣的對(duì)話,比如九轉(zhuǎn)大腸,雞湯來了還有華強(qiáng)買瓜。
這些短短幾分鐘的素材全都不足以支撐AI訓(xùn)練出聲學(xué)模型,自然也就沒人會(huì)拿這些素材去做AI鬼畜了。
能被拿來做AI訓(xùn)練的,一般都是擁有很多音頻訓(xùn)練集的人物,比如一些主播、配音演員還有歌手。
那這些歌手和主播就能被替代嘛?
只能說,目前可能還很難,但未來,誰也說不準(zhǔn)。
B站就有一位翻唱區(qū)的UP,自己把自己的聲音練了一個(gè)AI模型出來。
在聽了最終的效果之后,直呼被AI版的自己爆殺。
評(píng)論區(qū)的觀眾更是發(fā)出驚嘆,本來以為AI最不能取代的就是藝術(shù)類了,結(jié)果,現(xiàn)在最可能被取代的,就是藝術(shù)類工作。。。
不過,差評(píng)君之所以說現(xiàn)在還比較難取代的原因,主要是因?yàn)椋壳暗腁I還不能做到對(duì)聲音的完全定制化。
比如歌手在唱歌的時(shí)候經(jīng)常會(huì)有一些臨時(shí)的歌詞改編啊,轉(zhuǎn)調(diào)啊等等,這些AI目前還無法做到。
而且AI視頻還有一點(diǎn)致命的缺點(diǎn),你想要用AI唱歌,你首先得擁有這首歌的干音。。。
這個(gè)干音要么你自己唱,要么有歌手自己放出來,要么靠自己慢慢去調(diào)音,但這么一來,這些歌不還是人唱的嘛。。。
另外,AI工具潛藏著的使用安全問題,可能也會(huì)在日后讓人們限制它的使用范圍,由于這類AI工具簡單易用,這也就意味著它降低了某些人利用這些軟件做壞事的門檻。
在軟件的命令行界面,從作者為了規(guī)范責(zé)任,寫了這么一大串使用細(xì)則來看就知道,他們是真的怕!
你想想看,只要獲取了你數(shù)十分鐘的音頻錄音,我就能通過飧鋈砑茨D獬瞿闥禱暗納簟?
那么通過這種方式來進(jìn)行電信詐騙的話,可信度就提升了很多,畢竟再怎么防,也很難會(huì)想到自己的身邊熟人的聲音,居然是用AI合成的。
不過工具畢竟只是工具,有人拿它來電信詐騙,也有人會(huì)拿它來紀(jì)念親人。
而且這類的視頻也已經(jīng)不少了,許多UP自己通過AI技術(shù)把已故藝術(shù)家們“復(fù)活”,比如這個(gè)使用AI技術(shù)讓相聲大師馬三立來講新相聲的視頻。
在評(píng)論區(qū)里有不少人聽著聽著,就流淚了。
感慨科技就應(yīng)該在這個(gè)方向上使用。
還有UP,因?yàn)橄肽钭约阂压实哪棠蹋谑峭ㄟ^這種方式“復(fù)活”了她。
和自己的奶奶進(jìn)行了一個(gè)隔空對(duì)話。
在AI鄧麗君的唱歌視頻下面,也有很多人對(duì)這種數(shù)字生命表達(dá)了感慨。
從嘲笑,到理解到愛上,最后成為數(shù)字生命。
這種種例子,不免讓人感慨,技術(shù)不同的使用方式,帶給人的是不同的體驗(yàn)。
隨著AI技術(shù)的發(fā)展,我們可以大膽暢想,在不遠(yuǎn)的將來,或許我們也能擁有這樣的數(shù)字生命,把已故的親人保留下來,哪怕只是和他對(duì)上幾句話,那也足夠慰藉了。