實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的方法及系統(tǒng)的制作方法

文檔序號(hào)：2825194閱讀：2261來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語(yǔ)音識(shí)別技術(shù)領(lǐng)域，具體涉及一種實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的方法及系統(tǒng)。
背景技術(shù)：
目前，語(yǔ)音識(shí)別系統(tǒng)大多采用基于統(tǒng)計(jì)模式識(shí)別的方法，首先將語(yǔ)音輸入的時(shí)域聲波轉(zhuǎn)化為一種數(shù)字化的矢量特征來(lái)描述區(qū)分不同的發(fā)音，基于該聲音特征對(duì)所有的發(fā)音建立一個(gè)聲學(xué)模型；同時(shí)，對(duì)于大詞表連續(xù)語(yǔ)音識(shí)別系統(tǒng)來(lái)說(shuō)，需要一個(gè)語(yǔ)言模型，該模型中包括所識(shí)別語(yǔ)言中的常用文字的使用方法。一般連續(xù)語(yǔ)音識(shí)別系統(tǒng)的工作過(guò)程可以描述為，在巨大的字、詞、短語(yǔ)或句子的空間中，找出與給定輸入聲音特征序列相匹配具有最大概率的字、詞、短語(yǔ)或句子，作為識(shí)別結(jié)果，同時(shí)可采用上下文產(chǎn)生裝置利用上述識(shí)別結(jié)果修改當(dāng)前上下文，便于下一個(gè)語(yǔ)音采樣所用。由于語(yǔ)音可以通過(guò)語(yǔ)氣的強(qiáng)弱、語(yǔ)音的停頓以及語(yǔ)調(diào)的升降變換來(lái)變現(xiàn)平穩(wěn)、感嘆、疑問(wèn)、喜悅等多種情感，而將語(yǔ)音識(shí)別為文字時(shí)，就失去了發(fā)音的輔助信息，無(wú)法將這些情感像運(yùn)用語(yǔ)言一樣表達(dá)得那樣生動(dòng)。同時(shí)講話人采用不一樣的情感語(yǔ)氣進(jìn)行發(fā)音，會(huì)使得短語(yǔ)或句子具有不同的意思。例如，“你還沒(méi)聽(tīng)懂我的意思?！焙汀澳氵€沒(méi)聽(tīng)懂我的意思？，，這兩句話由于語(yǔ)氣不同，句意也發(fā)生改變，前者是陳述一個(gè)事實(shí)，后者則為表示疑問(wèn)的反問(wèn)句，并包含感到意外的意思，而這兩句話從文字上的區(qū)別僅是標(biāo)點(diǎn)符號(hào)的不同。可見(jiàn)標(biāo)點(diǎn)符號(hào)在句子中起的作用至關(guān)重要，在語(yǔ)音識(shí)別中添加標(biāo)點(diǎn)符號(hào)是十分必要的。然而在當(dāng)前的連續(xù)語(yǔ)音識(shí)別系統(tǒng)中，對(duì)于自動(dòng)添加標(biāo)點(diǎn)符號(hào)的研究并不多，大多是當(dāng)語(yǔ)音識(shí)別時(shí)，中間有停頓的地方識(shí)別為逗號(hào)，結(jié)束時(shí)自動(dòng)添加句號(hào)，整個(gè)句子都被視為陳述語(yǔ)氣，這種方式在某些情形下并不能正確傳達(dá)出講話者語(yǔ)義和情感。為此，現(xiàn)有技術(shù)中提出了一種利用人在發(fā)音過(guò)程中產(chǎn)生的噪聲，將這些噪聲與標(biāo)點(diǎn)符號(hào)相對(duì)應(yīng)，實(shí)現(xiàn)在連續(xù)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的方案。但是該方案在實(shí)際應(yīng)用中依然存在一定的問(wèn)題，因?yàn)橛脩舻牟町愋约皹?biāo)點(diǎn)符號(hào)的多樣性，并不是所有用戶都會(huì)在講話中產(chǎn)生足夠的噪聲，因此這種方案中標(biāo)點(diǎn)符號(hào)的添加缺乏準(zhǔn)確性和靈活性。

發(fā)明內(nèi)容
本發(fā)明實(shí)施例針對(duì)上述現(xiàn)有技術(shù)存在的問(wèn)題，提供一種實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的方法及系統(tǒng)，以簡(jiǎn)單方便地實(shí)現(xiàn)標(biāo)點(diǎn)符號(hào)的自動(dòng)添加，并提高標(biāo)點(diǎn)符號(hào)添加的準(zhǔn)確性和靈活性。為此，本發(fā)明實(shí)施例提供如下技術(shù)方案—種實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的方法，包括采集用戶語(yǔ)音信號(hào)；對(duì)所述用戶語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別，生成包含多個(gè)語(yǔ)句的文字序列；依次計(jì)算所述文字序列中語(yǔ)句間的停頓位置的時(shí)長(zhǎng)；
4
如果所述時(shí)長(zhǎng)小于預(yù)設(shè)的門限值，則在所述停頓位置添加逗號(hào)；如果所述時(shí)長(zhǎng)大于或等于所述門限值，則利用預(yù)先生成的分類器，確定所述停頓位置前的語(yǔ)句的語(yǔ)氣類型，并根據(jù)所述類型在所述停頓位置添加標(biāo)點(diǎn)符號(hào)。一種實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的系統(tǒng)，包括信號(hào)采集單元，用于采集用戶語(yǔ)音信號(hào)；語(yǔ)音識(shí)別單元，用于對(duì)所述用戶語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別，生成包含多個(gè)語(yǔ)句的文字序列；計(jì)算單元，用于依次計(jì)算所述文字序列中語(yǔ)句間的停頓位置的時(shí)長(zhǎng)；判斷單元，用于判斷所述時(shí)長(zhǎng)是否小于預(yù)設(shè)的門限值；第一標(biāo)點(diǎn)符號(hào)添加單元，用于在所述判斷單元判斷所述時(shí)長(zhǎng)小于預(yù)設(shè)的門限值，在所述停頓位置添加逗號(hào)；語(yǔ)句類型確定單元，用于在所述判斷單元判斷所述時(shí)長(zhǎng)大于或等于所述門限值，利用預(yù)先生成的分類器，確定所述停頓位置前的語(yǔ)句的語(yǔ)氣類型；第二標(biāo)點(diǎn)符號(hào)添加單元，用于根據(jù)所述語(yǔ)句類型確定單元確定的語(yǔ)句類型在所述停頓位置添加標(biāo)點(diǎn)符號(hào)。本發(fā)明實(shí)施例提供的實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的方法及系統(tǒng)，通過(guò)對(duì)采集的用戶語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別，生成包含多個(gè)語(yǔ)句的文字序列；依次計(jì)算該文字序列中語(yǔ)句間的停頓位置的時(shí)長(zhǎng)；如果該時(shí)長(zhǎng)小于預(yù)設(shè)的門限值，則在該停頓位置添加逗號(hào)；如果該時(shí)長(zhǎng)大于或等于所述門限值，則確定該停頓位置前的語(yǔ)句的語(yǔ)氣類型，并根據(jù)確定的語(yǔ)句類型在該停頓位置添加標(biāo)點(diǎn)符號(hào)。從而簡(jiǎn)單高效地實(shí)現(xiàn)標(biāo)點(diǎn)符號(hào)的自動(dòng)添加，并保證了標(biāo)點(diǎn)符號(hào)添加的準(zhǔn)確性和靈活性。

為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見(jiàn)地，下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，還可以根據(jù)這些附圖獲得其他的附圖。圖1是本發(fā)明實(shí)施例實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的方法的流程圖；圖2是本發(fā)明實(shí)施例中訓(xùn)練分類器的流程圖；圖3是本發(fā)明實(shí)施例中根據(jù)已訓(xùn)練的分類器確定語(yǔ)句的語(yǔ)氣類型的流程圖；圖4是本發(fā)明實(shí)施例實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的系統(tǒng)的一種結(jié)構(gòu)示意圖；圖5是本發(fā)明實(shí)施例實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的系統(tǒng)的另一種結(jié)構(gòu)示意圖。
具體實(shí)施例方式為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明實(shí)施例的方案，下面結(jié)合附圖和實(shí)施方式對(duì)本發(fā)明實(shí)施例作進(jìn)一步的詳細(xì)說(shuō)明。本發(fā)明實(shí)施例實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的方法及系統(tǒng)，通過(guò)對(duì)采集的用戶語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別，生成包含多個(gè)語(yǔ)句的文字序列；依次計(jì)算該文字序列中語(yǔ)句間的停頓位置的時(shí)長(zhǎng)；如果該時(shí)長(zhǎng)小于預(yù)設(shè)的門限值，則在該停頓位置添加逗號(hào)；如果該時(shí)長(zhǎng)大于或等于所述門限值，則確定該停頓位置前的語(yǔ)句的語(yǔ)氣類型，并根據(jù)確定的語(yǔ)句類型在該停頓位置添加標(biāo)點(diǎn)符號(hào)。從而簡(jiǎn)單高效地實(shí)現(xiàn)標(biāo)點(diǎn)符號(hào)的自動(dòng)添加，并保證了標(biāo)點(diǎn)符號(hào)添加的準(zhǔn)確性和靈活性。如圖1所示，是本發(fā)明實(shí)施例實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的方法的流程圖，包括以下步驟步驟101，采集用戶語(yǔ)音信號(hào)?？梢岳矛F(xiàn)有的一些語(yǔ)音信號(hào)采集工具進(jìn)行采集，將用戶語(yǔ)音信號(hào)表示為語(yǔ)音采樣。例如，利用Windows語(yǔ)音采集工具采集語(yǔ)音信號(hào)，將采集的數(shù)據(jù)保存WAV (Wave Audio Files，波形聲音文件)格式。當(dāng)然，還可以采用其他采樣格式，比如，PCM(Pulse Code Modulation，脈沖編碼調(diào)制)、RAW格式、SND格式、以及MP3 (Moving Picture Experts Group Audio Layer III)格式等。步驟102，對(duì)所述用戶語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別，生成包含多個(gè)語(yǔ)句的文字序列。在具體應(yīng)用中，可以根據(jù)應(yīng)用需要，采用不同的語(yǔ)音識(shí)別方法，比如，可以采用以下任意一種方法(I)DTff (Dynamic Time Warping，動(dòng)態(tài)時(shí)間規(guī)整)方法說(shuō)話人信息不僅有穩(wěn)定因素(發(fā)聲器官的結(jié)構(gòu)和發(fā)聲習(xí)慣)，而且有時(shí)變因素(語(yǔ)速、語(yǔ)調(diào)、重音和韻律)。DTW將識(shí)別模板與參考模板進(jìn)行時(shí)間對(duì)比，按照某種距離測(cè)度得出兩模板間的相似程度。(2) VQ(Vector Quantization，矢量量化)方法將每個(gè)人的特定文本訓(xùn)練成碼本，識(shí)別時(shí)將測(cè)試文本按此碼本進(jìn)行編碼，以量化產(chǎn)生的失真度作為判決標(biāo)準(zhǔn)。(3)HMM(Hidden Markov Model，馬爾可夫模型)方法是一種基于轉(zhuǎn)移概率和輸出概率的隨機(jī)模型，它將語(yǔ)音看成由可觀察到的符號(hào)序列組成的隨機(jī)過(guò)程，符號(hào)序列則是發(fā)聲系統(tǒng)狀態(tài)序列的輸出。在使用隱馬爾可夫模型識(shí)別時(shí)，為每個(gè)說(shuō)話人建立發(fā)聲模型，通過(guò)訓(xùn)練得到狀態(tài)轉(zhuǎn)移概率矩陣和符號(hào)輸出概率矩陣。識(shí)別時(shí)計(jì)算未知語(yǔ)音在狀態(tài)轉(zhuǎn)移過(guò)程中的最大概率，根據(jù)最大概率對(duì)應(yīng)的模型進(jìn)行判決。對(duì)于與文本無(wú)關(guān)的說(shuō)話人識(shí)別一般采用各態(tài)歷經(jīng)型HMM ；對(duì)于與文本有關(guān)的說(shuō)話人識(shí)別一般采用從左到右型HMM。HMM不需要時(shí)間規(guī)整，可節(jié)約判決時(shí)的計(jì)算時(shí)間和存儲(chǔ)量，在目前被廣泛應(yīng)用。其缺點(diǎn)是訓(xùn)練時(shí)計(jì)算量較大。(4) ANN (Artificial Neural Networks，人工神經(jīng)網(wǎng)絡(luò)方法)它在某種程度上模擬了生物的感知特性，是一種分布式并行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型，具有自組織和自學(xué)習(xí)能力、很強(qiáng)的復(fù)雜分類邊界區(qū)分能力以及對(duì)不完全信息的魯棒性，其性能近似理想的分類器。當(dāng)然，還可以采用其他方法，具體采用哪種語(yǔ)音識(shí)別方法本發(fā)明實(shí)施例不做限定。而且具體的語(yǔ)音識(shí)別過(guò)程與現(xiàn)有技術(shù)類似，在此不再贅述。經(jīng)過(guò)語(yǔ)音識(shí)別處理，可以將采集的用戶語(yǔ)音信號(hào)生成一個(gè)文字序列，在該文字序列中包含了一個(gè)或多個(gè)語(yǔ)句，如果有多個(gè)語(yǔ)句，則在前、后語(yǔ)句間有一定時(shí)長(zhǎng)的停頓，不同停頓位置的時(shí)長(zhǎng)可能相同，也可能不同。步驟103，依次計(jì)算所述文字序列中語(yǔ)句間的停頓位置的時(shí)長(zhǎng)。步驟104，判斷所述時(shí)長(zhǎng)是否小于預(yù)設(shè)的門限值；如果是，則執(zhí)行步驟105 ；否則，執(zhí)行步驟106。
上述門限值可以根據(jù)不同的語(yǔ)速來(lái)確定，比如在正常的語(yǔ)速下設(shè)為0. 2s，如果語(yǔ)速較慢，則設(shè)為0. 3s，對(duì)此本發(fā)明實(shí)施例不做限定。步驟105，在所述停頓位置添加逗號(hào)。人在講話時(shí)，為使講話層次分明，突出重點(diǎn)，吸引聽(tīng)話人的注意力，會(huì)根據(jù)講話內(nèi)容的標(biāo)點(diǎn)有意識(shí)的停頓。通常，在一句話結(jié)束時(shí)會(huì)停頓時(shí)間較長(zhǎng)，而在一句話之間的停頓時(shí)間會(huì)較短。因此，如果停頓位置的時(shí)長(zhǎng)很短，小于設(shè)定的門限值，則表明句子沒(méi)有結(jié)束，可以直接進(jìn)行標(biāo)點(diǎn)符號(hào)的添加，即在該停頓位置添加逗號(hào)。步驟106，利用預(yù)先生成的分類器，確定所述停頓位置前的語(yǔ)句的語(yǔ)氣類型。如果停頓位置的時(shí)長(zhǎng)較長(zhǎng)，超過(guò)了預(yù)設(shè)的門限值，則確定句子結(jié)束。而不管是對(duì)漢語(yǔ)還是其他語(yǔ)言，比如英語(yǔ)、日語(yǔ)等語(yǔ)言中，一句話的結(jié)束可以有多種不同的標(biāo)點(diǎn)符號(hào)來(lái)標(biāo)識(shí)，而且，標(biāo)點(diǎn)符號(hào)具有的含義與人的情感之間有直接的聯(lián)系，比如，當(dāng)人在講話時(shí)采用感嘆語(yǔ)氣時(shí)，一般句子結(jié)尾為感嘆號(hào)；講話人采用疑問(wèn)語(yǔ)氣時(shí)，句子結(jié)尾為問(wèn)號(hào)；講話人采用陳述語(yǔ)氣時(shí)，句子結(jié)尾為句號(hào)。因此，在本發(fā)明實(shí)施例中，可以在確定句子結(jié)束后，根據(jù)停頓位置前的語(yǔ)句的語(yǔ)氣類型來(lái)添加相應(yīng)的標(biāo)點(diǎn)符號(hào)，從而保證其正確性。步驟107，根據(jù)所述類型在所述停頓位置添加標(biāo)點(diǎn)符號(hào)。在本發(fā)明實(shí)施例中，可以將語(yǔ)句的語(yǔ)氣類型劃分為三種，分別是陳述句、疑問(wèn)句和感嘆句。相應(yīng)地，在所述停頓位置添加標(biāo)點(diǎn)符號(hào)時(shí)根據(jù)該類型添加相應(yīng)的標(biāo)點(diǎn)符號(hào)，即如果所述類型為陳述句，則在所述停頓位置添加句號(hào)；如果所述類型為疑問(wèn)句，則在所述停頓位置添加問(wèn)號(hào)；如果所述類型為感嘆句，則在所述停頓位置添加感嘆號(hào)?？梢?jiàn)，本發(fā)明實(shí)施例實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的方法，通過(guò)對(duì)采集的用戶語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別，生成包含多個(gè)語(yǔ)句的文字序列；依次計(jì)算該文字序列中語(yǔ)句間的停頓位置的時(shí)長(zhǎng)；如果該時(shí)長(zhǎng)小于預(yù)設(shè)的門限值，則在該停頓位置添加逗號(hào)；如果該時(shí)長(zhǎng)大于或等于所述門限值，則利用預(yù)先生成的分類器，確定該停頓位置前的語(yǔ)句的語(yǔ)氣類型，并根據(jù)確定的語(yǔ)句類型在該停頓位置添加標(biāo)點(diǎn)符號(hào)。從而簡(jiǎn)單高效地實(shí)現(xiàn)標(biāo)點(diǎn)符號(hào)的自動(dòng)添加，并保證了標(biāo)點(diǎn)符號(hào)添加的準(zhǔn)確性和靈活性。前面提到，在本發(fā)明實(shí)施例中，如果確定了語(yǔ)句結(jié)束，則需要根據(jù)語(yǔ)句的語(yǔ)氣類型來(lái)添加相應(yīng)的標(biāo)點(diǎn)符號(hào)，具體地，可以利用預(yù)先生成的分類器(包括文本分類器和/或聲學(xué)分類器)，確定所述語(yǔ)句的語(yǔ)氣類型。下面對(duì)其原理及具體實(shí)現(xiàn)過(guò)程進(jìn)行詳細(xì)說(shuō)明。一般地，文字文本之所以能表達(dá)一定的情感和語(yǔ)義，除了與文字本身具有的含義有關(guān)，更與文本中采用的語(yǔ)氣詞和標(biāo)點(diǎn)符號(hào)具有直接的聯(lián)系。另外，語(yǔ)音信號(hào)之所以能夠傳遞情感信息，語(yǔ)氣不同能表達(dá)不同的含義，是因?yàn)槠渲邪四芊从城楦胁町惖奶卣鳎晫W(xué)特征在情感信息傳遞中起到關(guān)鍵作用，語(yǔ)音情感變化主要通過(guò)聲學(xué)特征的差異得到體現(xiàn)。因此，在本發(fā)明實(shí)施例中，可以采用分別訓(xùn)練文本分類器和聲學(xué)分類器的方式，當(dāng)然，也可以采用同時(shí)訓(xùn)練文本分類器和聲學(xué)分類器的方式，利用所述文本分類器和聲學(xué)分類器對(duì)用戶語(yǔ)音進(jìn)行文本辨析和語(yǔ)音特性辨析，準(zhǔn)確地判斷出語(yǔ)音語(yǔ)氣，提高添加標(biāo)點(diǎn)符號(hào)的準(zhǔn)確性。如圖2所示，是本發(fā)明實(shí)施例中訓(xùn)練分類器的流程圖，該分類器的訓(xùn)練過(guò)程，采用同時(shí)訓(xùn)練文本分類器和聲學(xué)分類器的方式，充分保證分類的準(zhǔn)確性。該流程包括以下步驟步驟201，收集文本語(yǔ)料。在具體應(yīng)用中，可以由人工從網(wǎng)絡(luò)或書(shū)籍上收集各種文本語(yǔ)料，也可以由應(yīng)用軟件從網(wǎng)絡(luò)上收集各種文本語(yǔ)料，每條語(yǔ)料不僅包含文字內(nèi)容，而且還包含相應(yīng)的標(biāo)點(diǎn)符號(hào)。所述文本語(yǔ)料主要以逗號(hào)、感嘆號(hào)、問(wèn)號(hào)和句號(hào)為標(biāo)志，劃分為句子單元。所述文本語(yǔ)料包括不同的語(yǔ)氣句子類型，如陳述句、感嘆句、疑問(wèn)句等，各句子的長(zhǎng)度及聲調(diào)可以相同或不同。步驟202，從所述文本語(yǔ)料中提取關(guān)鍵詞。具體地，可以針對(duì)句子標(biāo)點(diǎn)符號(hào)為句號(hào)、問(wèn)號(hào)、感嘆號(hào)的語(yǔ)句，分別統(tǒng)計(jì)其中出現(xiàn)頻率較高、而在其他標(biāo)點(diǎn)對(duì)應(yīng)的文本中出現(xiàn)較少的詞語(yǔ)，例如疑問(wèn)語(yǔ)氣中的“為什么”、 “嗎”、“誰(shuí)”、“哪個(gè)”等，統(tǒng)計(jì)出現(xiàn)頻率較高的若干個(gè)詞，構(gòu)成一維向量空間。其中關(guān)鍵詞的挑選準(zhǔn)則為對(duì)于三類標(biāo)點(diǎn)符號(hào)C1 (句號(hào))、C2(問(wèn)號(hào))、C3(嘆號(hào))對(duì)應(yīng)的語(yǔ)料，挑選其中每類語(yǔ)料中出現(xiàn)的后驗(yàn)概率最大的若干前N個(gè)詞，公式如下
Q; = arg[maxPiC1 | w)] = arg[max 尸]n^f.topNw.topNK1J
P(C1)
i=\W表示文本語(yǔ)料的個(gè)數(shù)，Ci表示不同語(yǔ)氣的語(yǔ)料的個(gè)數(shù)。其中，i = 1,2,3,P(Cjw)為一句語(yǔ)料中找到的關(guān)鍵詞屬于第i類的概率。對(duì)于N 的選取可以根據(jù)語(yǔ)料的多少以及識(shí)別率的好壞進(jìn)行不同選擇，比如，N取20。步驟203，根據(jù)提取的關(guān)鍵詞訓(xùn)練生成文本分類器。具體地，可以將提取的關(guān)鍵詞以類型為句號(hào)、感嘆號(hào)、問(wèn)號(hào)結(jié)尾的文本中出現(xiàn)的關(guān)鍵詞組成一個(gè)矢量，每種語(yǔ)氣僅保留前N個(gè)最有區(qū)分性的詞語(yǔ)，例如，從感嘆句中挑選的關(guān)鍵詞為啊、吧、唉、哎呀、哦、天哪...；從問(wèn)句中挑選的關(guān)鍵詞為為什么、誰(shuí)、哪里、哪一個(gè)、什么、怎么樣、多少、星期幾...；從陳述句中挑選的關(guān)鍵詞為知道了、是的吧、很好的...，共組成長(zhǎng)度為M的矢量(M、N為正整數(shù))。在前面得到的M個(gè)元素的基礎(chǔ)上，對(duì)于測(cè)試訓(xùn)練集中的所有文本語(yǔ)料，分析每個(gè)句子中各個(gè)關(guān)鍵詞是否出現(xiàn)，如果出現(xiàn)，則在上述M維矢量中對(duì)應(yīng)的位置填上1，其余的位置設(shè)為0。然后利用以這些矢量和對(duì)應(yīng)的標(biāo)點(diǎn)符號(hào)為類別，以最大熵為準(zhǔn)則，訓(xùn)練出文本分類器。步驟204，獲取不同的錄音人對(duì)所述文本語(yǔ)料錄音生成的語(yǔ)音文件。比如，對(duì)收集的文本語(yǔ)料，選取5名男性和5名女性錄音人，每個(gè)人按照日常說(shuō)話的方式讀出所述文本語(yǔ)料的內(nèi)容，并且根據(jù)不同的句型采用不同的語(yǔ)氣朗讀。同時(shí)，保證錄音人對(duì)于每種語(yǔ)氣需要讀大體相當(dāng)數(shù)量的文本。對(duì)錄音后的文件按照16KHz采樣率、16bit 量化進(jìn)行A/D變換，以WAV格式保存該文件。步驟205，確定所述語(yǔ)音文件中的發(fā)音語(yǔ)氣。具體地，可以通過(guò)對(duì)所述語(yǔ)音文件進(jìn)行語(yǔ)氣分析，確定所述語(yǔ)音文件中的發(fā)音語(yǔ)氣。所述語(yǔ)氣分析包括包括韻律分析和頻譜分析。上述韻律分析包括基頻提取和規(guī)整、一階、二階基頻差分。其中，基頻提取和規(guī)整可以采用I^raat基頻提取算法，計(jì)算每一幀位置對(duì)應(yīng)的基頻值以及計(jì)算該句的基頻平均值 (基頻值為0的位置不參與計(jì)算)，然后將所有基頻值減去整體的均值。上述頻譜分析包括計(jì)算平均頻率幅度、共振峰參數(shù)提取。其中，計(jì)算平均頻率幅度即對(duì)于每一幀數(shù)據(jù)，采用離散傅里葉變換(DFT)，計(jì)算出每一幀數(shù)據(jù)平均幅度，即公式
權(quán)利要求
1.一種實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的方法，其特征在于，包括采集用戶語(yǔ)音信號(hào)；對(duì)所述用戶語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別，生成包含多個(gè)語(yǔ)句的文字序列；依次計(jì)算所述文字序列中語(yǔ)句間的停頓位置的時(shí)長(zhǎng)；如果所述時(shí)長(zhǎng)小于預(yù)設(shè)的門限值，則在所述停頓位置添加逗號(hào)；如果所述時(shí)長(zhǎng)大于或等于所述門限值，則利用預(yù)先生成的分類器，確定所述停頓位置前的語(yǔ)句的語(yǔ)氣類型，并根據(jù)所述類型在所述停頓位置添加標(biāo)點(diǎn)符號(hào)。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述類型包括陳述句、疑問(wèn)句和感嘆句；所述根據(jù)所述類型在所述停頓位置添加標(biāo)點(diǎn)符號(hào)包括如果所述類型為陳述句，則在所述停頓位置添加句號(hào)；如果所述類型為疑問(wèn)句，則在所述停頓位置添加問(wèn)號(hào)；如果所述類型為感嘆句，則在所述停頓位置添加感嘆號(hào)。
3.根據(jù)權(quán)利要求1或2所述的方法，其特征在于，所述方法還包括預(yù)先收集文本語(yǔ)料；根據(jù)所述文本語(yǔ)料通過(guò)訓(xùn)練方式生成所述分類器，所述分類器包括文本分類器和/ 或聲學(xué)分類器。
4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述根據(jù)所述文本語(yǔ)料通過(guò)訓(xùn)練方式生成文本分類器包括從所述文本語(yǔ)料中提取關(guān)鍵詞；根據(jù)提取的關(guān)鍵詞訓(xùn)練生成文本分類器。
5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述根據(jù)所述文本語(yǔ)料通過(guò)訓(xùn)練方式生成聲學(xué)分類器包括獲取不同的錄音人對(duì)所述文本語(yǔ)料錄音生成的語(yǔ)音文件；確定所述語(yǔ)音文件中的發(fā)音語(yǔ)氣；以所述發(fā)音語(yǔ)氣為分類目標(biāo)訓(xùn)練生成聲學(xué)分類器。
6.一種實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的系統(tǒng)，其特征在于，包括信號(hào)采集單元，用于采集用戶語(yǔ)音信號(hào)；語(yǔ)音識(shí)別單元，用于對(duì)所述用戶語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別，生成包含多個(gè)語(yǔ)句的文字序列；計(jì)算單元，用于依次計(jì)算所述文字序列中語(yǔ)句間的停頓位置的時(shí)長(zhǎng)；判斷單元，用于判斷所述時(shí)長(zhǎng)是否小于預(yù)設(shè)的門限值；第一標(biāo)點(diǎn)符號(hào)添加單元，用于在所述判斷單元判斷所述時(shí)長(zhǎng)小于預(yù)設(shè)的門限值，在所述停頓位置添加逗號(hào)；語(yǔ)句類型確定單元，用于在所述判斷單元判斷所述時(shí)長(zhǎng)大于或等于所述門限值，利用預(yù)先生成的分類器，確定所述停頓位置前的語(yǔ)句的語(yǔ)氣類型；第二標(biāo)點(diǎn)符號(hào)添加單元，用于根據(jù)所述語(yǔ)句類型確定單元確定的語(yǔ)句類型在所述停頓位置添加標(biāo)點(diǎn)符號(hào)。
7.根據(jù)權(quán)利要求6所述的系統(tǒng)，其特征在于，所述類型包括陳述句、疑問(wèn)句和感嘆句；所述第二標(biāo)點(diǎn)符號(hào)添加單元，具體用于在所述語(yǔ)句類型確定單元確定的語(yǔ)句類型為陳述句時(shí)，在所述停頓位置添加句號(hào)；為疑問(wèn)句時(shí)，在所述停頓位置添加問(wèn)號(hào)；為感嘆句時(shí)，在所述停頓位置添加感嘆號(hào)。
8.根據(jù)權(quán)利要求6或7所述的系統(tǒng)，其特征在于，所述系統(tǒng)還包括語(yǔ)料收集單元，用于收集文本語(yǔ)料；分類器生成單元，用于根據(jù)所述文本語(yǔ)料通過(guò)訓(xùn)練方式生成分類器。所述語(yǔ)句類型確定單元，具體用于利用所述分類器生成單元預(yù)先生成的分類器，確定所述停頓位置前的語(yǔ)句的語(yǔ)氣類型。
9.根據(jù)權(quán)利要求8所述的系統(tǒng)，其特征在于，所述分類器生成單元包括文本分類器訓(xùn)練單元和/或聲學(xué)分類器訓(xùn)練單元；所述文本分類器訓(xùn)練單元，用于根據(jù)所述文本語(yǔ)料通過(guò)訓(xùn)練方式生成文本分類器；所述聲學(xué)分類器訓(xùn)練單元，用于根據(jù)所述文本語(yǔ)料通過(guò)訓(xùn)練方式生成聲學(xué)分類器。
10.根據(jù)權(quán)利要求9所述的系統(tǒng)，其特征在于，所述文本分類器訓(xùn)練單元包括關(guān)鍵詞提取子單元，用于從所述語(yǔ)料收集單元收集的文本語(yǔ)料中提取關(guān)鍵詞；第一訓(xùn)練子單元，用于根據(jù)所述關(guān)鍵詞提取子單元提取的關(guān)鍵詞訓(xùn)練生成文本分類器。
11.根據(jù)權(quán)利要求10所述的系統(tǒng)，其特征在于，所述聲學(xué)分類器訓(xùn)練單元包括語(yǔ)音文件獲取子單元，用于獲取不同的錄音人對(duì)所述語(yǔ)料收集單元收集的文本語(yǔ)料錄音生成的語(yǔ)音文件；語(yǔ)氣確定子單元，用于確定所述語(yǔ)音文件中的發(fā)音語(yǔ)氣；第二訓(xùn)練子單元，用于以所述語(yǔ)氣確定子單元確定的發(fā)音語(yǔ)氣為分類目標(biāo)訓(xùn)練生成聲學(xué)分類器。
全文摘要
本發(fā)明涉及語(yǔ)音識(shí)別技術(shù)領(lǐng)域，公開(kāi)了一種實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的方法及系統(tǒng)，該方法包括采集用戶語(yǔ)音信號(hào)；對(duì)所述用戶語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別，生成包含多個(gè)語(yǔ)句的文字序列；依次計(jì)算所述文字序列中語(yǔ)句間的停頓位置的時(shí)長(zhǎng)；如果所述時(shí)長(zhǎng)小于預(yù)設(shè)的門限值，則在該停頓位置添加逗號(hào)；如果所述時(shí)長(zhǎng)大于或等于所述門限值，則利用預(yù)先生成的分類器，確定所述停頓位置前的語(yǔ)句的語(yǔ)氣類型，并根據(jù)所述類型在所述停頓位置添加標(biāo)點(diǎn)符號(hào)。利用本發(fā)明，可以簡(jiǎn)單方便地實(shí)現(xiàn)標(biāo)點(diǎn)符號(hào)的自動(dòng)添加，并提高標(biāo)點(diǎn)符號(hào)添加的準(zhǔn)確性和靈活性。
文檔編號(hào)G10L15/26GK102231278SQ201110156209
公開(kāi)日2011年11月2日申請(qǐng)日期2011年6月10日優(yōu)先權(quán)日2011年6月10日
發(fā)明者俞健, 劉慶峰, 王智國(guó), 胡國(guó)平, 胡郁, 蔣成林, 陳志剛, 魏思申請(qǐng)人:安徽科大訊飛信息科技股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳志剛;蔣成林;俞健;魏思;胡郁;胡國(guó)平;王智國(guó);劉慶峰
技術(shù)所有人：安徽科大訊飛信息科技股份有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語(yǔ)音識(shí)別自動(dòng)添加字幕相關(guān)技術(shù)

語(yǔ)音識(shí)別算法及其實(shí)現(xiàn)相關(guān)技術(shù)

語(yǔ)音識(shí)別是如何實(shí)現(xiàn)的相關(guān)技術(shù)

如何實(shí)現(xiàn)語(yǔ)音識(shí)別相關(guān)技術(shù)

java實(shí)現(xiàn)語(yǔ)音識(shí)別相關(guān)技術(shù)

語(yǔ)音識(shí)別實(shí)現(xiàn)相關(guān)技術(shù)

python實(shí)現(xiàn)語(yǔ)音識(shí)別相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的方法及系統(tǒng)的制作方法