歌詞文件的生成方法及裝置的制造方法_2

文檔序號：9811933閱讀：來源：國知局

明另一個實施例提供的一種音頻特征提取過程的示意圖；
[0068] 圖4是本發(fā)明另一個實施例提供的一種歌詞文件的生成過程的示意圖；
[0069] 圖5是本發(fā)明另一個實施例提供的一種歌詞文件的生成裝置的結(jié)構(gòu)示意圖；
[0070] 圖6是本發(fā)明另一個實施例提供的一種用于歌詞文件的生成服務器。
【具體實施方式】
[0071] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚，下面將結(jié)合附圖對本發(fā)明實施方式作進一步地詳細描述。
[0072] 請參考圖1A，其示出了本發(fā)明實施例提供的歌詞文件的生成方法所涉及的實施環(huán) 境的結(jié)構(gòu)示意圖，該實施環(huán)境包括第一客戶端11、服務器12和至少一個第二客戶端13。 [0073]第一客戶端11通過無線或者有線網(wǎng)絡(luò)和服務器12連接，第一客戶端11可以為能夠訪問多媒體網(wǎng)站的電子設(shè)備，該電子設(shè)備可以為電腦，智能手機、平板電腦或者其他電子設(shè) 備。
[0074]服務器12可以為多媒體網(wǎng)站的一個或者多個網(wǎng)站服務器，還可以是一個云計算中心。
[0075] 第二客戶端13通過無線或者有限網(wǎng)絡(luò)和服務器12連接，第二客戶端13可以為能夠訪問多媒體網(wǎng)站的電子設(shè)備，該電子設(shè)備可以為電腦，智能手機、平板電腦或者其他電子設(shè) 備。
[0076] 本發(fā)明實施例提供的一種歌詞文件的生成方法，參見圖1B，本實施例提供的方法流程包括：
[0077] 101、獲取目標音頻文件及參考音頻文件，該目標音頻文件與參考音頻文件為同一音頻文件的不同版本。
[0078] 102、分別對目標音頻文件和參考音頻文件進行特征提取，得到第一音頻特征和第二音頻特征。
[0079] 103、根據(jù)第一音頻特征和第二音頻特征，計算目標音頻文件與參考音頻文件之間的時間偏差。
[0080] 104、根據(jù)時間偏差，調(diào)整參考音頻文件對應歌詞文件的時間戳，得到目標音頻文件對應的歌詞文件。
[0081] 本發(fā)明實施例提供的方法，對于同一音頻文件的不同版本，通過調(diào)整參考音頻文件對應的歌詞文件，即可為目標音頻文件生成對應的歌詞文件，無需重復生成多個歌詞文件，提高了音頻文件的制作效率，降低了制作成本。
[0082]在本發(fā)明的另一個實施例中，分別對目標音頻文件和參考音頻文件進行特征提取，得到第一音頻特征和第二音頻特征，包括：
[0083] 采用預設(shè)頻率對目標音頻文件進行重采樣；
[0084] 將重采樣后的目標音頻文件劃分為多個音頻片段，每個音頻片段中包含預設(shè)數(shù)量個采樣點；
[0085] 對于任意相鄰的第一音頻片段和第二音頻片段，采用漢寧窗函數(shù)進行處理，得到第一加窗音頻片段和第二加窗音頻片段；
[0086] 對第一加窗音頻片段和第二加窗音頻片段分別進行快速傅里葉變換FFT，得到第一音頻片段對應的第一頻譜和第二音頻片段對應的第二頻譜；
[0087] 對第一頻譜和第二頻譜分別進行映射，得到第一音頻片段對應的多個第一頻率點和第二音頻片段對應的多個第二頻率點，第一頻率點和第二頻率點的數(shù)量相同；
[0088] 根據(jù)多個第一頻率點和多個第二頻率點，獲取第一音頻片段的音頻特征值；
[0089] 對多個音頻片段的音頻特征值進行組合，得到第一音頻特征。
[0090] 在本發(fā)明的另一個實施例中，對第一頻譜和第二頻譜分別進行映射，得到第一音頻片段對應的第一頻率點和第二音頻片段對應的第二頻率點，包括：
[0091] 對于第一頻譜，根據(jù)預設(shè)數(shù)量個采樣點和預設(shè)頻率，計算每個采樣點對應的頻率范圍；
[0092] 將小于指定范圍的頻率范圍進行線性映射，得到多個線性頻率點；
[0093] 將大于指定范圍的頻率范圍，應用以下公式，進行對數(shù)映射，得到多個對數(shù)頻率占 .
[0095]其中，Binne3W表示對數(shù)頻率點，Bin表示大于指定范圍的任一頻率范圍，△ f表示相鄰兩個采樣點對應的頻率范圍之間的頻率間隔，frrf表示參考頻率，*表示乘號；
[0096] 將多個線性頻率點和多個對數(shù)頻率點作為多個第一頻率點。
[0097] 在本發(fā)明的另一個實施例中，根據(jù)多個第一頻率點和多個第二頻率點，獲取第一音頻片段的音頻特征值，包括：
[0098] 獲取第一音頻片段對應的每個第一頻率點的能量值，并獲取第二音頻片段對應的每個第二頻率點的能量值；
[0099]獲取第一音頻片段上每個第一頻率點的能量值與第二音頻片段上位置相同的第二頻率點的能量值之差，作為第一音頻片段的音頻特征值。
[0100]在本發(fā)明的另一個實施例中，根據(jù)第一音頻特征和第二音頻特征，計算目標音頻文件與參考音頻文件之間的時間偏差，包括：
[0101] 計算第一音頻特征和第二音頻特征之間的互相關(guān)函數(shù)；
[0102] 根據(jù)互相關(guān)函數(shù)，計算第一音頻特征和第二音頻特征之間的時間偏差，作為目標音頻文件與參考音頻文件之間的時間偏差。
[0103] 在本發(fā)明的另一個實施例中，計算第一音頻特征和第二音頻特征之間的互相關(guān)函數(shù)，包括：
[0104] 對于第一音頻特征和第二音頻特征，應用以下公式，計算互相關(guān)函數(shù)：
[0105] Rxy=IFFT(conj(FFT(x))*FFT(y))
[0106] 其中，X表示第一音頻特征，y表示第二音頻特征，Rxy表示互相關(guān)函數(shù)，conj表示共輒運算符，IFFT表示反傅里葉變換，F(xiàn)FT表示傅里葉變換，*表示乘號。
[0107] 在本發(fā)明的另一個實施例中，根據(jù)互相關(guān)函數(shù)，計算第一音頻特征和第二音頻特征之間的時間偏差，包括：
[0108] 計算互相關(guān)函數(shù)的最大值；
[0109] 獲取互相關(guān)函數(shù)的最大值對應的位置偏差；
[0110] 對于位置偏差，應用以下公式，計算第一音頻特征和第二音頻特征之間的時間偏差：
[0111] i=m〇/ko
[0112] 其中，τ表示第一音頻特征和第二音頻特征之間的時間偏差，mo表示互相關(guān)函數(shù)的最大值所對應的位置偏差，ko表示預設(shè)頻率，/表示除號。
[0113] 上述所有可選技術(shù)方案，可以采用任意結(jié)合形成本發(fā)明的可選實施例，在此不再 --贅述。
[0114] 本發(fā)明實施例提供了一種歌詞文件的生成方法，參見圖2,本實施例提供的方法流程包括：
[0115] 201、服務器獲取目標音頻文件及參考音頻文件。
[0116] 其中，服務器維護一個音頻文件數(shù)據(jù)庫，該音頻文件數(shù)據(jù)庫中存儲著多個不同版本的音頻文件，這些音頻文件可能是同一歌手在不同演唱會中所錄制的，也可能是不同歌手所錄制，這些不同版本的音頻文件對應的歌詞文件具有相同的內(nèi)容，但這些音頻文件因錄制年代、錄制的碼率不同，導致這些音頻文件的播放時間并不相同。
[0117] 由于音頻文件數(shù)據(jù)庫中存儲的音頻文件的數(shù)量較多，為了便于對多個音頻文件進行區(qū)分，服務器在存儲每個音頻文件時，會存儲每個音頻文件的歌曲名、歌手、錄制時間等信息，因此，當服務器從音頻文件數(shù)據(jù)庫中，獲取任一音頻文件的不同版本時，可按照歌曲名，從音頻文件數(shù)據(jù)庫中，與該歌曲名相同的多個音頻文件，并從多個音頻文件中隨機選取兩個音頻文件，一個作為參考音頻文件，另一個作為目標音頻文件，進而采用人工的方式為所選取的參考音頻文生成歌詞文件。為了提高歌詞文件的生成效率，節(jié)省歌詞文件的制作成本，本發(fā)明采用人工的方式為參考音頻文件生成歌詞文件之后，通過調(diào)整參考音頻文件對應歌詞文件的時間戳，即可為目標音頻文件生成歌詞文件。
[0118] 202、服務器對目標音頻文件進行特征提取，得到第一音頻特征。
[0119]在音頻處理領(lǐng)域，每個音頻文件都具有多個音頻特征，例如時域特征、頻域特征、韻律特征、音色特征等，本發(fā)明實施例以從目標音頻文件中提取頻域能量值作為第一音頻特征、從參考音頻文件中提取的音域能量值作為第二音頻特征為例進行說明。對于服務器從目標音頻文件中提取第一音頻特征的具體過程，可參見下述步驟2021~2027:
[0120] 2021、服務器采用預設(shè)頻率對目標音頻文件進行重采樣。
[0121] 由于目標音頻文件和參考音頻文件在錄制時碼率是不同的，而不同碼率的音頻文件之間不僅很難計算時間偏差，而且對不同碼率的音頻文件處理的計算量較大，為此，在本實施例中，服務器需要采用預設(shè)頻率對目標音頻文件進行重采樣，將目標音頻文件和參考音頻文件重采樣到同一速率。其中，預設(shè)頻率可以為22.05kHz (千赫茲）、32kHz、44.1kHz、 48kHz等，本實施例以預設(shè)頻率為44.1kHz為例。
[0122] 2022、服務器將重采樣后的目標音頻文件劃分為多個音頻片段，每個音頻片段中包含預設(shè)數(shù)量個采樣點。
[0123] 在音頻處理領(lǐng)域，音頻文件實質(zhì)上是由多個采樣點組成的聲音信號。受限于服務器的處理能力，服務器還以預設(shè)數(shù)量為單位，將重采樣后的目標音頻文件劃分為多個音頻片段，每個音頻片段中包含預設(shè)數(shù)量個采樣點。本實施例將重采樣后的目標音頻文件劃分后的每個音頻片段作為一幀，這樣重采樣后的目標音頻文件由多幀音頻片段組成。其中，預設(shè)數(shù)量可以為1 〇〇〇個、2000個、3000個等，本實施例以預設(shè)數(shù)量為2048為例，也即是，每個音頻片段中包括2048個采樣點。例如，目標音頻文件中第1個采樣點~第2048個采樣點組成一個音頻片段，第2049個采樣點~4096個采樣點組成一個音頻片段，……。
[0124] 2023、對于任意相鄰的第一音頻片段和第二音頻片段，服務器采用漢寧窗函數(shù)進行處理，得到第一加窗音頻片段和第二加窗音頻片段。
[0125] 在從目標音頻片段中提取第一音頻特征時，以對重采樣后的目標音頻片段所劃分的多個音頻片段中任意相鄰的兩個音頻片段第一音頻片段和第二音頻片段為例。為了防止每個音頻片段的能量泄露，確保對音頻片段進行FFT變換得到的頻譜光滑、無凸起，在對第一音頻片段和第二音頻片段進行FFT變換之前，服務器還將采用漢寧窗函數(shù)對第一音頻片段和第二音頻片段進行處理，得到第一加窗音頻片段和第二加窗音頻片段。其中，漢寧窗函數(shù)又稱升余旋窗函數(shù)，可以看作3個矩形時間窗函數(shù)的頻譜之和，可以消除高頻干擾和漏能。
[0126] 2024、服務器對第一加窗音頻片段和第二加窗音頻片段分別進行快速傅里葉變換 FFT，得到第一音頻片段對應的第一頻譜和第二音頻片段對應的第二頻譜。
[0127] 其中，F(xiàn)FT是離散傅里葉變換的快速算法，它是根據(jù)離散傅里葉變換的奇、偶、虛、實等特性，對離散傅里葉變換的算法的改進。當采用FFT對第一加窗音頻片段進行

完整全部詳細技術(shù)資料下載

當前第2頁1 2 3 4 5

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

license文件生成方法相關(guān)技術(shù)

生體魔力生成裝置相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

歌詞文件的生成方法及裝置的制造方法_2