基于云平臺的演講內(nèi)容提取方法及裝置的制造方法
【專利摘要】一種基于云平臺的演講內(nèi)容提取方法及裝置,包括:采集演講的音視頻,將采集到的音視頻緩存到PC中,并進(jìn)行預(yù)處理;發(fā)送預(yù)處理后的音視頻及相關(guān)資料包括演講幻燈片、相關(guān)閱讀材料等到服務(wù)器;服務(wù)器對接收的音頻進(jìn)行語音切分、把音頻按說話人分割;進(jìn)行自動語音識別把分割后的音頻轉(zhuǎn)換為文字,語音識別使用聲學(xué)自適應(yīng)和語言模型自適應(yīng);從語音識別的文本中提取關(guān)鍵字和生成內(nèi)容筆記。該方法通過語音識別把音頻識別成能反復(fù)閱讀的文本形式,使用語言模型自適應(yīng)和聲學(xué)模型自適應(yīng)提高識別準(zhǔn)確率。并進(jìn)行知識整合,避免把時間花在閱讀冗余信息上。本發(fā)明還公開了一種基于云平臺的演講內(nèi)容提取裝置,包括演講錄制模塊、材料發(fā)送模塊、語音分割模塊、語音識別模塊和關(guān)鍵字和內(nèi)容筆記提取模塊。
【專利說明】
基于云平臺的演講內(nèi)容提取方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及的是一種文字處理領(lǐng)域的技術(shù),具體是一種基于云平臺的演講內(nèi)容提 取方法及裝置。
【背景技術(shù)】
[0002] 在信息時代,技術(shù)的發(fā)展和進(jìn)步使得我們每天能得到來自世界各地、古往今來的 信息,運(yùn)些信息的數(shù)量遠(yuǎn)超過人們可W聯(lián)聽消化的范圍。為了幫助人們更高效的獲取信息, 語音信號處理和自然語言處理技術(shù)能有效自動處理海量信息,并提取出其中的關(guān)鍵信息和 內(nèi)容W供人們快速閱覽。
[0003] 在生活中,每個人每天都通過媒體、課堂等渠道聯(lián)聽著大量的信息,把運(yùn)些信息提 取成能反復(fù)閱讀的文本形式變得至關(guān)重要,它使得人們能快速的閱讀學(xué)習(xí),語言模型自適 應(yīng)和聲學(xué)模型自適應(yīng)方法提高了語音識別的準(zhǔn)確率。并進(jìn)行知識整合,避免把時間花在閱 讀冗余信息上。
[0004] 經(jīng)過現(xiàn)有的技術(shù)檢索發(fā)現(xiàn),中國專利文獻(xiàn)CN102292766B,公開了一種"用于語音處 理的方法和裝置",該方法和裝置設(shè)及用于提供用于語音識別自適應(yīng)的復(fù)合模型的架構(gòu)的 方法、裝置和計算機(jī)程序產(chǎn)品,基于特定發(fā)音者的語音特征選擇模型來提高識別準(zhǔn)確率。但 該方法不設(shè)及對于語言模型自適應(yīng)來提高對于專業(yè)詞匯的準(zhǔn)確率。
[0005] 進(jìn)一步檢索發(fā)現(xiàn),中國專利文獻(xiàn)號CN102122506A,公開了 一種"語音識別的方法", 該系統(tǒng)利用捜索引擎檢索相關(guān)的文本訓(xùn)練語言模型,能夠提高語音識別率,降低人工校對 的工作量。但是該方法需利用外部捜索引擎,耗時較長,不利于處理大量語音。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明針對現(xiàn)有技術(shù)存在的上述不足,提出一種基于云平臺的演講內(nèi)容提取方法 及裝置,通過語音識別把音頻識別成能反復(fù)閱讀的文本形式,使用語言模型自適應(yīng)和聲學(xué) 模型自適應(yīng)提高識別準(zhǔn)確率。并進(jìn)行知識整合,避免把時間花在閱讀冗余信息上。
[0007] 本發(fā)明是通過W下技術(shù)方案實現(xiàn)的:
[000引本發(fā)明設(shè)及一種基于云平臺的演講內(nèi)容提取方法,包括:
[0009] 步驟1)采集演講的音視頻,將采集到的音視頻緩存到PC中,并進(jìn)行預(yù)處理;
[0010] 步驟2)發(fā)送預(yù)處理后的音視頻及相關(guān)資料包括演講幻燈片、相關(guān)閱讀材料等到服 務(wù)器;
[0011] 步驟3)服務(wù)器對接收的音頻進(jìn)行語音切分、把音頻按說話人分割;
[0012] 步驟4)進(jìn)行自動語音識別把分割后的音頻轉(zhuǎn)換為文字,語音識別使用聲學(xué)自適應(yīng) 和語言模型自適應(yīng);
[0013] 步驟5)從語音識別的文本中提取關(guān)鍵字和生成內(nèi)容筆記。
[0014] 所述的采集,優(yōu)選使用麥克風(fēng)、攝像頭等設(shè)備采集演講的音視頻,利用有線或無線 網(wǎng)絡(luò)同時緩存到PC中;
[0015] 使用PC對音頻進(jìn)行語音增強(qiáng)去除噪音,并對音視頻進(jìn)行壓縮處理。
[0016] 所述的語音切分的方式為服務(wù)器對接收的音頻進(jìn)行語音活動檢測,按照語音的停 頓進(jìn)行切分;所述的按說話人分割語音的方式為識別每段語音的說話人,按說話人分割音 頻。
[0017] 所述的聲學(xué)自適應(yīng)包括對錄音環(huán)境、噪音類型、說話人類型等的適應(yīng);
[0018] 所述的語言模型自適應(yīng)包括對課件和相關(guān)閱讀材料中專業(yè)詞匯的適應(yīng)。
[0019] 所述的提取包括:提取語音識別的文本中跟演講內(nèi)容相關(guān)的關(guān)鍵字,并根據(jù)文本 中每句與演講內(nèi)容的相關(guān)度提取與演講相關(guān)的筆記。
[0020] 本發(fā)明設(shè)及一種實現(xiàn)上述方法的演講內(nèi)容提取裝置,包括:用于采集演講音視頻, 將采集到的音視頻緩存到教室的PC機(jī)中,并進(jìn)行預(yù)處理的演講錄制模塊、用于發(fā)送預(yù)處理 后的音視頻及相關(guān)資料包括演講幻燈片、相關(guān)閱讀材料等到服務(wù)器的材料發(fā)送模塊、用于 對接收的音頻進(jìn)行語音切分、把音頻按說話人分割的語音分割模塊、用于進(jìn)行自動語音識 別把分割后的音頻轉(zhuǎn)換為文字,語音識別使用聲學(xué)自適應(yīng)和語言模型自適應(yīng)的語音識別模 塊W及用于服務(wù)器從文字中提取關(guān)鍵字和生成內(nèi)容筆記的關(guān)鍵字和內(nèi)容筆記提取模塊。
[0021] 所述的演講錄制模塊用于使用麥克風(fēng)、攝像頭等設(shè)備采集演講的音視頻,利用有 線或無線網(wǎng)絡(luò)同時緩存到PC中,使用PC對音頻進(jìn)行語音增強(qiáng)去除噪音,并對音視頻進(jìn)行壓 縮處理。
[0022] 所述的語音切分用于對接收的音頻進(jìn)行語音活動檢測,按照語音的停頓進(jìn)行切 分;所述的按說話人分割語音用于識別每段語音的說話人,按說話人分割音頻。
[0023] 所述的語音識別模塊用于使用自動語音識別得到每句音頻對應(yīng)的文本,所述的聲 學(xué)自適應(yīng)用于對錄音環(huán)境、噪音類型、說話人類型等的適應(yīng);所述的語言模型自適應(yīng)用于對 演講幻燈片和相關(guān)閱讀材料中專業(yè)詞匯的適應(yīng)。
[0024] 所述的關(guān)鍵字和內(nèi)容筆記提取模塊用于提取語音識別的文本中跟演講內(nèi)容相關(guān) 的關(guān)鍵字,并根據(jù)文本中每句與演講內(nèi)容的相關(guān)度提取與演講相關(guān)的筆記。 技術(shù)效果
[0025] 與現(xiàn)有技術(shù)相比,本發(fā)明通過語音識別把音頻識別成能反復(fù)閱讀的文本形式,使 用語言模型自適應(yīng)和聲學(xué)模型自適應(yīng)提高識別準(zhǔn)確率。并進(jìn)行知識整合,避免把時間花在 閱讀冗余信息上。
【附圖說明】
[0026] 圖1為本發(fā)明方法流程圖;
[0027] 圖2是本發(fā)明裝置結(jié)構(gòu)示意圖。
【具體實施方式】 實施例1
[002引本實施例包括W下步驟:
[0029] 101、采集演講的音視頻,將采集到的音視頻緩存到PC中,并進(jìn)行預(yù)處理;
[0030] 在本發(fā)明實例中,采集演講的音視頻,將采集到的音視頻緩存到PC中,并進(jìn)行預(yù)處 理包括使用麥克風(fēng)、攝像頭等設(shè)備采集演講的音視頻,利用有線或無線網(wǎng)絡(luò)同時緩存到PC 中;使用PC對音頻進(jìn)行語音增強(qiáng)去除噪音,并對音視頻進(jìn)行壓縮處理。
[0031] 102、發(fā)送預(yù)處理后的音視頻及相關(guān)資料包括演講幻燈片、相關(guān)閱讀材料等到服務(wù) 器;
[0032] 103、服務(wù)器對接收的音頻進(jìn)行語音切分、把音頻按說話人分割;
[0033] 在本發(fā)明實例中,所述的語音切分的方式為服務(wù)器對接收的音頻進(jìn)行語音活動檢 測,按照語音的停頓進(jìn)行切分;所述的按說話人分割語音的方式為識別每段語音的說話人, 按說話人分割音頻。
[0034] 104、進(jìn)行自動語音識別把分割后的音頻轉(zhuǎn)換為文字,語音識別使用聲學(xué)自適應(yīng)和 語言模型自適應(yīng);
[0035] 在本發(fā)明實例中,所述的聲學(xué)自適應(yīng)包括對錄音環(huán)境、噪音類型、說話人類型等的 適應(yīng);所述的語言模型自適應(yīng)包括對演講幻燈片和相關(guān)閱讀材料中專業(yè)詞匯的適應(yīng)。
[0036] 105、從語音識別的文本中提取關(guān)鍵字和生成內(nèi)容筆記。
[0037] 在本發(fā)明實例中從語音識別的文本中從語音識別的文本中提取關(guān)鍵字和生成內(nèi) 容筆記包括:提取語音識別的文本中跟演講內(nèi)容相關(guān)的關(guān)鍵字,并根據(jù)文本中每句與演講 內(nèi)容的相關(guān)度提取與演講相關(guān)的筆記。 實施例2
[0038] 如圖2所示,為本發(fā)明實施例提供的基于交互式輸入的數(shù)據(jù)捜索裝置結(jié)構(gòu)示意圖, 該裝置包括:演講錄制模塊21材料發(fā)送模塊22語音分割模塊23語音識別模塊24和關(guān)鍵字和 內(nèi)容筆記提取模塊25。
[0039] 所述的演講錄制模塊21,用于采集演講音視頻,將采集到的音視頻緩存到教室的 PC機(jī)中,并進(jìn)行預(yù)處理;
[0040] 所述的演講錄制模塊21用于使用麥克風(fēng)、攝像頭等設(shè)備采集演講的音視頻,利用 有線或無線網(wǎng)絡(luò)同時緩存到PC中,使用PC對音頻進(jìn)行語音增強(qiáng)去除噪音,并對音視頻進(jìn)行 壓縮處理。
[0041] 例如使用攝像機(jī)對一堂深度學(xué)習(xí)課程進(jìn)行錄制,教師佩戴領(lǐng)夾式麥克風(fēng),回答問 題的學(xué)生使用無線話筒,緩存錄制的視頻和音頻至教室的PC中,使用濾波法如自適應(yīng)抵消 法去除背景音如空調(diào)噪音、施工噪音等,壓縮音視頻使得文件大小適合網(wǎng)絡(luò)傳輸。
[0042] 所述的材料發(fā)送模塊22,用于發(fā)送預(yù)處理后的音視頻及相關(guān)資料包括演講幻燈 片、相關(guān)閱讀材料等到服務(wù)器。
[0043] 具體地,傳輸語音增強(qiáng)、壓縮后的音視頻、深度學(xué)習(xí)幻燈片和深度學(xué)習(xí)閱讀材料等 到HTTP服務(wù)器。
[0044] 所述的語音分割模塊23,用于對接收的音頻進(jìn)行語音切分、把音頻按說話人分割。
[0045] 所述的語音分割模塊23中語音切分用于對接收的音頻進(jìn)行語音活動檢測,按照語 音的停頓進(jìn)行切分;按說話人分割語音用于識別每段語音的說話人,按說話人分割音頻。
[0046] 具體地,根據(jù)短時能量和過零率檢測切分出有語音的部分,并提取每段語音的i- vector識別說話人為老師和不同的學(xué)生。
[0047] 所述的語音識別模塊24,用于進(jìn)行自動語音識別把分割后的音頻轉(zhuǎn)換為文字,語 音識別使用聲學(xué)自適應(yīng)和語言模型自適應(yīng)。
[0048] 所述的語音識別模塊24用于使用自動語音識別得到每句音頻對應(yīng)的文本,所述的 聲學(xué)自適應(yīng)用于對錄音環(huán)境、噪音類型、說話人類型等的適應(yīng);所述的語言模型自適應(yīng)用于 對演講幻燈片和相關(guān)閱讀材料中專業(yè)詞匯的適應(yīng)。
[0049] 具體地,訓(xùn)練聲學(xué)模型時把音頻按i-vector進(jìn)行聚類,對每個聚類的音頻訓(xùn)練一 個基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型,識別音頻時找到其i-vector最近的聚類,并使用此聚類 的聲學(xué)模型。
[0050] 使用海量文本提取每個詞的逆向文件頻率,使用TF-IDF統(tǒng)計深度學(xué)習(xí)課件和擴(kuò)展 閱讀中的關(guān)鍵詞。如對于擴(kuò)展閱讀"梯度下降(GD)是最小化風(fēng)險函數(shù)、損失函數(shù)的一種常用 方法,隨機(jī)梯度下降和批量梯度下降是兩種迭代求解思路。批量梯度下降---最小化所有訓(xùn) 練樣本的損失函數(shù),使得最終求解的是全局的最優(yōu)解,即求解的參數(shù)是使得風(fēng)險函數(shù)最小。 隨機(jī)梯度下降---最小化每條樣本的損失函數(shù),雖然不是每次迭代得到的損失函數(shù)都向著 全局最優(yōu)方向,但是大的整體的方向是向全局最優(yōu)解的,最終的結(jié)果往往是在全局最優(yōu)解 附近。",可W提取出出擴(kuò)展閱讀中的關(guān)鍵字"梯度下降","隨機(jī)梯度下降","批量梯度下 降","損失函數(shù)"等,而一些常用的詞如"常用方法',"一種","最小化"等則會因為TF-IDF權(quán) 值太低而不被列為關(guān)鍵詞。
[0051] 使用基于遞歸神經(jīng)網(wǎng)絡(luò)的語言模型計算一句話的復(fù)雜度(perplexity)時,假設(shè)模 型參數(shù)是9,則復(fù)雜度perplexity的原計算公式為;
其中:N 為此句子的長度,對于此領(lǐng)域內(nèi)的關(guān)鍵字,則復(fù)雜度perplexity可寫為: ....-
<j.
[0052] 當(dāng)Wi為此領(lǐng)域的關(guān)鍵字,則q(wi)為1,否則為0。^為超參數(shù)。使用此方法可W提高對 于專業(yè)詞匯的識別率。
[0053] 關(guān)鍵字和內(nèi)容筆記提取模塊25,用于服務(wù)器從文字中提取關(guān)鍵字和生成內(nèi)容筆 記。
[0054] 所述的關(guān)鍵字和內(nèi)容筆記提取模塊25用于提取語音識別的文本中跟演講內(nèi)容相 關(guān)的關(guān)鍵字,并根據(jù)文本中每句與演講內(nèi)容的相關(guān)度提取與演講相關(guān)的筆記。
[0055] 在此例中,比如經(jīng)過語音識別W后的文本是"對于很多機(jī)器學(xué)習(xí)算法,包括線性回 歸、邏輯回歸、神經(jīng)網(wǎng)絡(luò)等等,算法的實現(xiàn)都是通過得出某個代價函數(shù)或者某個最優(yōu)化的目 標(biāo)來實現(xiàn)的,然后使用梯度下降運(yùn)樣的方法來作為優(yōu)化算法求得代價函數(shù)的最小值。當(dāng)我 們的訓(xùn)練集較大時,批量梯度下降算法則顯得計算量非常大。假設(shè)你有一千萬張貓的圖片, 進(jìn)行一次批量梯度下降算法相當(dāng)于看一遍運(yùn)一千萬張照片,而我們需要找一些耗時更短的 方法找到大多數(shù)貓的特性。在本次課程中,我想介紹一種跟批量梯度下降不同的方法:隨機(jī) 梯度下降。"
[0056] 類似的,通過TF-IDF分析,我們可W得出在日常文本中出現(xiàn)很少而在此段語音識 別結(jié)果中出現(xiàn)較多的詞"梯度下降","隨機(jī)梯度下降","神經(jīng)網(wǎng)絡(luò)"作為關(guān)鍵詞,并得到他們 的TF-IDF權(quán)值。
[0057] 之后計算句子的權(quán)值為句子中每個詞TF-IDF權(quán)值的平均值,并輸出權(quán)值最高的句 子作為內(nèi)容筆記,"對于很多機(jī)器學(xué)習(xí)算法,包括線性回歸、邏輯回歸、神經(jīng)網(wǎng)絡(luò)等等,算法 的實現(xiàn)都是通過得出某個代價函數(shù)或者某個最優(yōu)化的目標(biāo)來實現(xiàn)的,然后使用梯度下降運(yùn) 樣的方法來作為優(yōu)化算法求得代價函數(shù)的最小值。當(dāng)我們的訓(xùn)練集較大時,批量梯度下降 算法則顯得計算量非常大。在本次課程中,我想介紹一種跟批量梯度下降不同的方法:隨機(jī) 梯度下降。"
[0058] 本發(fā)明實施例提供的裝置,通過語音識別把音頻識別成能反復(fù)閱讀的文本形式, 使用語言模型自適應(yīng)和聲學(xué)模型自適應(yīng)提高識別準(zhǔn)確率。并進(jìn)行知識整合,避免把時間花 在閱讀冗余信息上。
[0059] 本領(lǐng)域普通技術(shù)人員可W理解實現(xiàn)上述實施例的全部或部分步驟可W通過硬件 來完成,也可W通過程序來指令相關(guān)的硬件完成,該程序可W存儲于一種計算機(jī)可讀存儲 介質(zhì)中,上述提到的存儲介質(zhì)可W是只讀存儲器,磁盤或光盤等。
[0060] 上述具體實施可由本領(lǐng)域技術(shù)人員在不背離本發(fā)明原理和宗旨的前提下W不同 的方式對其進(jìn)行局部調(diào)整,本發(fā)明的保護(hù)范圍W權(quán)利要求書為準(zhǔn)且不由上述具體實施所 限,在其范圍內(nèi)的各個實現(xiàn)方案均受本發(fā)明之約束。
【主權(quán)項】
1. 一種基于云平臺的演講內(nèi)容提取方法,其特征在于,包括: 步驟1)采集演講的音視頻,將采集到的音視頻緩存到PC中,并進(jìn)行預(yù)處理; 步驟2)發(fā)送預(yù)處理后的音視頻及相關(guān)資料包括演講幻燈片、相關(guān)閱讀材料等到服務(wù) 器; 步驟3)服務(wù)器對接收的音頻進(jìn)行語音切分、把音頻按說話人分割; 步驟4)進(jìn)行自動語音識別把分割后的音頻轉(zhuǎn)換為文字,語音識別使用聲學(xué)自適應(yīng)和語 目模型自適應(yīng); 步驟5)從語音識別的文本中提取關(guān)鍵字和生成內(nèi)容筆記。2. 根據(jù)權(quán)利要求1所述的方法,其特征是,所述的采集包括:使用麥克風(fēng)、攝像頭等設(shè)備 采集演講的音視頻,利用有線或無線網(wǎng)絡(luò)同時緩存到PC中;使用PC對音頻進(jìn)行語音增強(qiáng)去 除噪音,并對音視頻進(jìn)行壓縮處理。3. 根據(jù)權(quán)利要求1所述的方法,其特征是,所述的語音切分的方式為服務(wù)器對接收的音 頻進(jìn)行語音活動檢測,按照語音的停頓進(jìn)行切分;所述的按說話人分割語音的方式為識別 每段語音的說話人,按說話人分割音頻。4. 根據(jù)權(quán)利要求1所述的方法,其特征是,所述的聲學(xué)自適應(yīng)包括對錄音環(huán)境、噪音類 型、說話人類型等的適應(yīng);所述的語言模型自適應(yīng)包括對演講幻燈片和相關(guān)閱讀材料中專 業(yè)詞匯的適應(yīng)。5. 根據(jù)權(quán)利要求1所述的方法,其特征是,所述的提取包括:提取語音識別的文本中跟 演講內(nèi)容相關(guān)的關(guān)鍵字,并根據(jù)文本中每句與演講內(nèi)容的相關(guān)度提取與演講相關(guān)的筆記。6. -種實現(xiàn)上述任一權(quán)利要求所述方法的演講內(nèi)容提取裝置,其特征在于,包括: 演講錄制模塊,用于采集演講音視頻,將采集到的音視頻緩存到教室的PC機(jī)中,并進(jìn)行 預(yù)處理、 材料發(fā)送模塊,用于發(fā)送預(yù)處理后的音視頻及演講幻燈片、相關(guān)閱讀材料到服務(wù)器、 語音分割模塊,用于對接收的音頻進(jìn)行語音切分、把音頻按說話人分割、 語音識別模塊,用于進(jìn)行自動語音識別把分割后的音頻轉(zhuǎn)換為文字,語音識別使用聲 學(xué)自適應(yīng)和語言模型自適應(yīng)、 關(guān)鍵字和內(nèi)容筆記提取模塊,用于服務(wù)器從文字中提取關(guān)鍵字和生成內(nèi)容筆記。7. 根據(jù)權(quán)利要求6所述的裝置,其特征是,所述的演講錄制模塊通過麥克風(fēng)、攝像頭采 集演講的音視頻,利用有線或無線網(wǎng)絡(luò)同時緩存到PC中,使用PC對音頻進(jìn)行語音增強(qiáng)去除 噪音,并對音視頻進(jìn)行壓縮處理。8. 根據(jù)權(quán)利要求6所述的裝置,其特征是,所述的語音切分對接收的音頻進(jìn)行語音活動 檢測,按照語音的停頓進(jìn)行切分;所述的按說話人分割語音用于識別每段語音的說話人,按 說話人分割音頻。9. 根據(jù)權(quán)利要求6所述的裝置,其特征是,所述的語音識別模塊用于使用自動語音識別 得到每句音頻對應(yīng)的文本,所述的聲學(xué)自適應(yīng)用于對錄音環(huán)境、噪音類型、說話人類型的適 應(yīng);所述的語言模型自適應(yīng)用于對演講幻燈片和相關(guān)閱讀材料中專業(yè)詞匯的適應(yīng)。10. 根據(jù)權(quán)利要求6所述的裝置,其特征是,所述的關(guān)鍵字和內(nèi)容筆記提取模塊用于提 取語音識別的文本中跟演講內(nèi)容相關(guān)的關(guān)鍵字,并根據(jù)文本中每句與演講內(nèi)容的相關(guān)度提 取與演講相關(guān)的筆記。
【文檔編號】G10L15/30GK105957531SQ201610260647
【公開日】2016年9月21日
【申請日】2016年4月25日
【發(fā)明人】俞凱, 謝其哲, 吳學(xué)陽, 李文博, 郭運(yùn)奇
【申請人】上海交通大學(xué)