專利名稱:實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語(yǔ)音識(shí)別技術(shù)領(lǐng)域,具體涉及一種實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的方法及系統(tǒng)。
背景技術(shù):
目前,語(yǔ)音識(shí)別系統(tǒng)大多采用基于統(tǒng)計(jì)模式識(shí)別的方法,首先將語(yǔ)音輸入的時(shí)域聲波轉(zhuǎn)化為一種數(shù)字化的矢量特征來(lái)描述區(qū)分不同的發(fā)音,基于該聲音特征對(duì)所有的發(fā)音建立一個(gè)聲學(xué)模型;同時(shí),對(duì)于大詞表連續(xù)語(yǔ)音識(shí)別系統(tǒng)來(lái)說(shuō),需要一個(gè)語(yǔ)言模型,該模型中包括所識(shí)別語(yǔ)言中的常用文字的使用方法。一般連續(xù)語(yǔ)音識(shí)別系統(tǒng)的工作過(guò)程可以描述為,在巨大的字、詞、短語(yǔ)或句子的空間中,找出與給定輸入聲音特征序列相匹配具有最大概率的字、詞、短語(yǔ)或句子,作為識(shí)別結(jié)果,同時(shí)可采用上下文產(chǎn)生裝置利用上述識(shí)別結(jié)果修改當(dāng)前上下文,便于下一個(gè)語(yǔ)音采樣所用。由于語(yǔ)音可以通過(guò)語(yǔ)氣的強(qiáng)弱、語(yǔ)音的停頓以及語(yǔ)調(diào)的升降變換來(lái)變現(xiàn)平穩(wěn)、感嘆、疑問(wèn)、喜悅等多種情感,而將語(yǔ)音識(shí)別為文字時(shí),就失去了發(fā)音的輔助信息,無(wú)法將這些情感像運(yùn)用語(yǔ)言一樣表達(dá)得那樣生動(dòng)。同時(shí)講話人采用不一樣的情感語(yǔ)氣進(jìn)行發(fā)音,會(huì)使得短語(yǔ)或句子具有不同的意思。例如,“你還沒(méi)聽(tīng)懂我的意思?!焙汀澳氵€沒(méi)聽(tīng)懂我的意思?,, 這兩句話由于語(yǔ)氣不同,句意也發(fā)生改變,前者是陳述一個(gè)事實(shí),后者則為表示疑問(wèn)的反問(wèn)句,并包含感到意外的意思,而這兩句話從文字上的區(qū)別僅是標(biāo)點(diǎn)符號(hào)的不同。可見(jiàn)標(biāo)點(diǎn)符號(hào)在句子中起的作用至關(guān)重要,在語(yǔ)音識(shí)別中添加標(biāo)點(diǎn)符號(hào)是十分必要的。然而在當(dāng)前的連續(xù)語(yǔ)音識(shí)別系統(tǒng)中,對(duì)于自動(dòng)添加標(biāo)點(diǎn)符號(hào)的研究并不多,大多是當(dāng)語(yǔ)音識(shí)別時(shí),中間有停頓的地方識(shí)別為逗號(hào),結(jié)束時(shí)自動(dòng)添加句號(hào),整個(gè)句子都被視為陳述語(yǔ)氣,這種方式在某些情形下并不能正確傳達(dá)出講話者語(yǔ)義和情感。為此,現(xiàn)有技術(shù)中提出了一種利用人在發(fā)音過(guò)程中產(chǎn)生的噪聲,將這些噪聲與標(biāo)點(diǎn)符號(hào)相對(duì)應(yīng),實(shí)現(xiàn)在連續(xù)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的方案。但是該方案在實(shí)際應(yīng)用中依然存在一定的問(wèn)題,因?yàn)橛脩舻牟町愋约皹?biāo)點(diǎn)符號(hào)的多樣性,并不是所有用戶都會(huì)在講話中產(chǎn)生足夠的噪聲,因此這種方案中標(biāo)點(diǎn)符號(hào)的添加缺乏準(zhǔn)確性和靈活性。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例針對(duì)上述現(xiàn)有技術(shù)存在的問(wèn)題,提供一種實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的方法及系統(tǒng),以簡(jiǎn)單方便地實(shí)現(xiàn)標(biāo)點(diǎn)符號(hào)的自動(dòng)添加,并提高標(biāo)點(diǎn)符號(hào)添加的準(zhǔn)確性和靈活性。為此,本發(fā)明實(shí)施例提供如下技術(shù)方案—種實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的方法,包括采集用戶語(yǔ)音信號(hào);對(duì)所述用戶語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別,生成包含多個(gè)語(yǔ)句的文字序列;依次計(jì)算所述文字序列中語(yǔ)句間的停頓位置的時(shí)長(zhǎng);
4
如果所述時(shí)長(zhǎng)小于預(yù)設(shè)的門限值,則在所述停頓位置添加逗號(hào);如果所述時(shí)長(zhǎng)大于或等于所述門限值,則利用預(yù)先生成的分類器,確定所述停頓位置前的語(yǔ)句的語(yǔ)氣類型,并根據(jù)所述類型在所述停頓位置添加標(biāo)點(diǎn)符號(hào)。一種實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的系統(tǒng),包括信號(hào)采集單元,用于采集用戶語(yǔ)音信號(hào);語(yǔ)音識(shí)別單元,用于對(duì)所述用戶語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別,生成包含多個(gè)語(yǔ)句的文字序列;計(jì)算單元,用于依次計(jì)算所述文字序列中語(yǔ)句間的停頓位置的時(shí)長(zhǎng);判斷單元,用于判斷所述時(shí)長(zhǎng)是否小于預(yù)設(shè)的門限值;第一標(biāo)點(diǎn)符號(hào)添加單元,用于在所述判斷單元判斷所述時(shí)長(zhǎng)小于預(yù)設(shè)的門限值, 在所述停頓位置添加逗號(hào);語(yǔ)句類型確定單元,用于在所述判斷單元判斷所述時(shí)長(zhǎng)大于或等于所述門限值, 利用預(yù)先生成的分類器,確定所述停頓位置前的語(yǔ)句的語(yǔ)氣類型;第二標(biāo)點(diǎn)符號(hào)添加單元,用于根據(jù)所述語(yǔ)句類型確定單元確定的語(yǔ)句類型在所述停頓位置添加標(biāo)點(diǎn)符號(hào)。本發(fā)明實(shí)施例提供的實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的方法及系統(tǒng),通過(guò)對(duì)采集的用戶語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別,生成包含多個(gè)語(yǔ)句的文字序列;依次計(jì)算該文字序列中語(yǔ)句間的停頓位置的時(shí)長(zhǎng);如果該時(shí)長(zhǎng)小于預(yù)設(shè)的門限值,則在該停頓位置添加逗號(hào);如果該時(shí)長(zhǎng)大于或等于所述門限值,則確定該停頓位置前的語(yǔ)句的語(yǔ)氣類型,并根據(jù)確定的語(yǔ)句類型在該停頓位置添加標(biāo)點(diǎn)符號(hào)。從而簡(jiǎn)單高效地實(shí)現(xiàn)標(biāo)點(diǎn)符號(hào)的自動(dòng)添加,并保證了標(biāo)點(diǎn)符號(hào)添加的準(zhǔn)確性和靈活性。
為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,還可以根據(jù)這些附圖獲得其他的附圖。圖1是本發(fā)明實(shí)施例實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的方法的流程圖;圖2是本發(fā)明實(shí)施例中訓(xùn)練分類器的流程圖;圖3是本發(fā)明實(shí)施例中根據(jù)已訓(xùn)練的分類器確定語(yǔ)句的語(yǔ)氣類型的流程圖;圖4是本發(fā)明實(shí)施例實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的系統(tǒng)的一種結(jié)構(gòu)示意圖;圖5是本發(fā)明實(shí)施例實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的系統(tǒng)的另一種結(jié)構(gòu)示意圖。
具體實(shí)施例方式為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明實(shí)施例的方案,下面結(jié)合附圖和實(shí)施方式對(duì)本發(fā)明實(shí)施例作進(jìn)一步的詳細(xì)說(shuō)明。本發(fā)明實(shí)施例實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的方法及系統(tǒng),通過(guò)對(duì)采集的用戶語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別,生成包含多個(gè)語(yǔ)句的文字序列;依次計(jì)算該文字序列中語(yǔ)句間的停頓位置的時(shí)長(zhǎng);如果該時(shí)長(zhǎng)小于預(yù)設(shè)的門限值,則在該停頓位置添加逗號(hào);如果該時(shí)長(zhǎng)大于或等于所述門限值,則確定該停頓位置前的語(yǔ)句的語(yǔ)氣類型,并根據(jù)確定的語(yǔ)句類型在該停頓位置添加標(biāo)點(diǎn)符號(hào)。從而簡(jiǎn)單高效地實(shí)現(xiàn)標(biāo)點(diǎn)符號(hào)的自動(dòng)添加,并保證了標(biāo)點(diǎn)符號(hào)添加的準(zhǔn)確性和靈活性。如圖1所示,是本發(fā)明實(shí)施例實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的方法的流程圖,包括以下步驟步驟101,采集用戶語(yǔ)音信號(hào)??梢岳矛F(xiàn)有的一些語(yǔ)音信號(hào)采集工具進(jìn)行采集,將用戶語(yǔ)音信號(hào)表示為語(yǔ)音采樣。例如,利用Windows語(yǔ)音采集工具采集語(yǔ)音信號(hào),將采集的數(shù)據(jù)保存WAV (Wave Audio Files,波形聲音文件)格式。當(dāng)然,還可以采用其他采樣格式,比如,PCM(Pulse Code Modulation,脈沖編碼調(diào)制)、RAW格式、SND格式、以及MP3 (Moving Picture Experts Group Audio Layer III)格式等。步驟102,對(duì)所述用戶語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別,生成包含多個(gè)語(yǔ)句的文字序列。在具體應(yīng)用中,可以根據(jù)應(yīng)用需要,采用不同的語(yǔ)音識(shí)別方法,比如,可以采用以下任意一種方法(I)DTff (Dynamic Time Warping,動(dòng)態(tài)時(shí)間規(guī)整)方法說(shuō)話人信息不僅有穩(wěn)定因素(發(fā)聲器官的結(jié)構(gòu)和發(fā)聲習(xí)慣),而且有時(shí)變因素(語(yǔ)速、語(yǔ)調(diào)、重音和韻律)。DTW將識(shí)別模板與參考模板進(jìn)行時(shí)間對(duì)比,按照某種距離測(cè)度得出兩模板間的相似程度。(2) VQ(Vector Quantization,矢量量化)方法將每個(gè)人的特定文本訓(xùn)練成碼本,識(shí)別時(shí)將測(cè)試文本按此碼本進(jìn)行編碼,以量化產(chǎn)生的失真度作為判決標(biāo)準(zhǔn)。(3)HMM(Hidden Markov Model,馬爾可夫模型)方法是一種基于轉(zhuǎn)移概率和輸出概率的隨機(jī)模型,它將語(yǔ)音看成由可觀察到的符號(hào)序列組成的隨機(jī)過(guò)程,符號(hào)序列則是發(fā)聲系統(tǒng)狀態(tài)序列的輸出。在使用隱馬爾可夫模型識(shí)別時(shí),為每個(gè)說(shuō)話人建立發(fā)聲模型,通過(guò)訓(xùn)練得到狀態(tài)轉(zhuǎn)移概率矩陣和符號(hào)輸出概率矩陣。識(shí)別時(shí)計(jì)算未知語(yǔ)音在狀態(tài)轉(zhuǎn)移過(guò)程中的最大概率,根據(jù)最大概率對(duì)應(yīng)的模型進(jìn)行判決。對(duì)于與文本無(wú)關(guān)的說(shuō)話人識(shí)別一般采用各態(tài)歷經(jīng)型HMM ;對(duì)于與文本有關(guān)的說(shuō)話人識(shí)別一般采用從左到右型HMM。HMM不需要時(shí)間規(guī)整,可節(jié)約判決時(shí)的計(jì)算時(shí)間和存儲(chǔ)量,在目前被廣泛應(yīng)用。其缺點(diǎn)是訓(xùn)練時(shí)計(jì)算量較大。(4) ANN (Artificial Neural Networks,人工神經(jīng)網(wǎng)絡(luò)方法)它在某種程度上模擬了生物的感知特性,是一種分布式并行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型,具有自組織和自學(xué)習(xí)能力、 很強(qiáng)的復(fù)雜分類邊界區(qū)分能力以及對(duì)不完全信息的魯棒性,其性能近似理想的分類器。當(dāng)然,還可以采用其他方法,具體采用哪種語(yǔ)音識(shí)別方法本發(fā)明實(shí)施例不做限定。 而且具體的語(yǔ)音識(shí)別過(guò)程與現(xiàn)有技術(shù)類似,在此不再贅述。經(jīng)過(guò)語(yǔ)音識(shí)別處理,可以將采集的用戶語(yǔ)音信號(hào)生成一個(gè)文字序列,在該文字序列中包含了一個(gè)或多個(gè)語(yǔ)句,如果有多個(gè)語(yǔ)句,則在前、后語(yǔ)句間有一定時(shí)長(zhǎng)的停頓,不同停頓位置的時(shí)長(zhǎng)可能相同,也可能不同。步驟103,依次計(jì)算所述文字序列中語(yǔ)句間的停頓位置的時(shí)長(zhǎng)。步驟104,判斷所述時(shí)長(zhǎng)是否小于預(yù)設(shè)的門限值;如果是,則執(zhí)行步驟105 ;否則, 執(zhí)行步驟106。
上述門限值可以根據(jù)不同的語(yǔ)速來(lái)確定,比如在正常的語(yǔ)速下設(shè)為0. 2s,如果語(yǔ)速較慢,則設(shè)為0. 3s,對(duì)此本發(fā)明實(shí)施例不做限定。步驟105,在所述停頓位置添加逗號(hào)。人在講話時(shí),為使講話層次分明,突出重點(diǎn),吸引聽(tīng)話人的注意力,會(huì)根據(jù)講話內(nèi)容的標(biāo)點(diǎn)有意識(shí)的停頓。通常,在一句話結(jié)束時(shí)會(huì)停頓時(shí)間較長(zhǎng),而在一句話之間的停頓時(shí)間會(huì)較短。因此,如果停頓位置的時(shí)長(zhǎng)很短,小于設(shè)定的門限值,則表明句子沒(méi)有結(jié)束,可以直接進(jìn)行標(biāo)點(diǎn)符號(hào)的添加,即在該停頓位置添加逗號(hào)。步驟106,利用預(yù)先生成的分類器,確定所述停頓位置前的語(yǔ)句的語(yǔ)氣類型。如果停頓位置的時(shí)長(zhǎng)較長(zhǎng),超過(guò)了預(yù)設(shè)的門限值,則確定句子結(jié)束。而不管是對(duì)漢語(yǔ)還是其他語(yǔ)言,比如英語(yǔ)、日語(yǔ)等語(yǔ)言中,一句話的結(jié)束可以有多種不同的標(biāo)點(diǎn)符號(hào)來(lái)標(biāo)識(shí),而且,標(biāo)點(diǎn)符號(hào)具有的含義與人的情感之間有直接的聯(lián)系,比如,當(dāng)人在講話時(shí)采用感嘆語(yǔ)氣時(shí),一般句子結(jié)尾為感嘆號(hào);講話人采用疑問(wèn)語(yǔ)氣時(shí),句子結(jié)尾為問(wèn)號(hào);講話人采用陳述語(yǔ)氣時(shí),句子結(jié)尾為句號(hào)。因此,在本發(fā)明實(shí)施例中,可以在確定句子結(jié)束后,根據(jù)停頓位置前的語(yǔ)句的語(yǔ)氣類型來(lái)添加相應(yīng)的標(biāo)點(diǎn)符號(hào),從而保證其正確性。步驟107,根據(jù)所述類型在所述停頓位置添加標(biāo)點(diǎn)符號(hào)。在本發(fā)明實(shí)施例中,可以將語(yǔ)句的語(yǔ)氣類型劃分為三種,分別是陳述句、疑問(wèn)句和感嘆句。相應(yīng)地,在所述停頓位置添加標(biāo)點(diǎn)符號(hào)時(shí)根據(jù)該類型添加相應(yīng)的標(biāo)點(diǎn)符號(hào),即 如果所述類型為陳述句,則在所述停頓位置添加句號(hào);如果所述類型為疑問(wèn)句,則在所述停頓位置添加問(wèn)號(hào);如果所述類型為感嘆句,則在所述停頓位置添加感嘆號(hào)??梢?jiàn),本發(fā)明實(shí)施例實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的方法,通過(guò)對(duì)采集的用戶語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別,生成包含多個(gè)語(yǔ)句的文字序列;依次計(jì)算該文字序列中語(yǔ)句間的停頓位置的時(shí)長(zhǎng);如果該時(shí)長(zhǎng)小于預(yù)設(shè)的門限值,則在該停頓位置添加逗號(hào);如果該時(shí)長(zhǎng)大于或等于所述門限值,則利用預(yù)先生成的分類器,確定該停頓位置前的語(yǔ)句的語(yǔ)氣類型,并根據(jù)確定的語(yǔ)句類型在該停頓位置添加標(biāo)點(diǎn)符號(hào)。從而簡(jiǎn)單高效地實(shí)現(xiàn)標(biāo)點(diǎn)符號(hào)的自動(dòng)添加,并保證了標(biāo)點(diǎn)符號(hào)添加的準(zhǔn)確性和靈活性。前面提到,在本發(fā)明實(shí)施例中,如果確定了語(yǔ)句結(jié)束,則需要根據(jù)語(yǔ)句的語(yǔ)氣類型來(lái)添加相應(yīng)的標(biāo)點(diǎn)符號(hào),具體地,可以利用預(yù)先生成的分類器(包括文本分類器和/或聲學(xué)分類器),確定所述語(yǔ)句的語(yǔ)氣類型。下面對(duì)其原理及具體實(shí)現(xiàn)過(guò)程進(jìn)行詳細(xì)說(shuō)明。一般地,文字文本之所以能表達(dá)一定的情感和語(yǔ)義,除了與文字本身具有的含義有關(guān),更與文本中采用的語(yǔ)氣詞和標(biāo)點(diǎn)符號(hào)具有直接的聯(lián)系。另外,語(yǔ)音信號(hào)之所以能夠傳遞情感信息,語(yǔ)氣不同能表達(dá)不同的含義,是因?yàn)槠渲邪四芊从城楦胁町惖奶卣鳎晫W(xué)特征在情感信息傳遞中起到關(guān)鍵作用,語(yǔ)音情感變化主要通過(guò)聲學(xué)特征的差異得到體現(xiàn)。因此,在本發(fā)明實(shí)施例中,可以采用分別訓(xùn)練文本分類器和聲學(xué)分類器的方式,當(dāng)然,也可以采用同時(shí)訓(xùn)練文本分類器和聲學(xué)分類器的方式,利用所述文本分類器和聲學(xué)分類器對(duì)用戶語(yǔ)音進(jìn)行文本辨析和語(yǔ)音特性辨析,準(zhǔn)確地判斷出語(yǔ)音語(yǔ)氣,提高添加標(biāo)點(diǎn)符號(hào)的準(zhǔn)確性。如圖2所示,是本發(fā)明實(shí)施例中訓(xùn)練分類器的流程圖,該分類器的訓(xùn)練過(guò)程,采用同時(shí)訓(xùn)練文本分類器和聲學(xué)分類器的方式,充分保證分類的準(zhǔn)確性。該流程包括以下步驟步驟201,收集文本語(yǔ)料。在具體應(yīng)用中,可以由人工從網(wǎng)絡(luò)或書(shū)籍上收集各種文本語(yǔ)料,也可以由應(yīng)用軟件從網(wǎng)絡(luò)上收集各種文本語(yǔ)料,每條語(yǔ)料不僅包含文字內(nèi)容,而且還包含相應(yīng)的標(biāo)點(diǎn)符號(hào)。 所述文本語(yǔ)料主要以逗號(hào)、感嘆號(hào)、問(wèn)號(hào)和句號(hào)為標(biāo)志,劃分為句子單元。所述文本語(yǔ)料包括不同的語(yǔ)氣句子類型,如陳述句、感嘆句、疑問(wèn)句等,各句子的長(zhǎng)度及聲調(diào)可以相同或不同。步驟202,從所述文本語(yǔ)料中提取關(guān)鍵詞。具體地,可以針對(duì)句子標(biāo)點(diǎn)符號(hào)為句號(hào)、問(wèn)號(hào)、感嘆號(hào)的語(yǔ)句,分別統(tǒng)計(jì)其中出現(xiàn)頻率較高、而在其他標(biāo)點(diǎn)對(duì)應(yīng)的文本中出現(xiàn)較少的詞語(yǔ),例如疑問(wèn)語(yǔ)氣中的“為什么”、 “嗎”、“誰(shuí)”、“哪個(gè)”等,統(tǒng)計(jì)出現(xiàn)頻率較高的若干個(gè)詞,構(gòu)成一維向量空間。其中關(guān)鍵詞的挑選準(zhǔn)則為對(duì)于三類標(biāo)點(diǎn)符號(hào)C1 (句號(hào))、C2(問(wèn)號(hào))、C3(嘆號(hào))對(duì)應(yīng)的語(yǔ)料,挑選其中每類語(yǔ)料中出現(xiàn)的后驗(yàn)概率最大的若干前N個(gè)詞,公式如下
Q; = arg[maxPiC1 | w)] = arg[max 尸]n^f.topNw.topNK1J
P(C1)
i=\W表示文本語(yǔ)料的個(gè)數(shù),Ci表示不同語(yǔ)氣的語(yǔ)料的個(gè)數(shù)。其中,i = 1,2,3,P(Cjw)為一句語(yǔ)料中找到的關(guān)鍵詞屬于第i類的概率。對(duì)于N 的選取可以根據(jù)語(yǔ)料的多少以及識(shí)別率的好壞進(jìn)行不同選擇,比如,N取20。步驟203,根據(jù)提取的關(guān)鍵詞訓(xùn)練生成文本分類器。具體地,可以將提取的關(guān)鍵詞以類型為句號(hào)、感嘆號(hào)、問(wèn)號(hào)結(jié)尾的文本中出現(xiàn)的關(guān)鍵詞組成一個(gè)矢量,每種語(yǔ)氣僅保留前N個(gè)最有區(qū)分性的詞語(yǔ),例如,從感嘆句中挑選的關(guān)鍵詞為啊、吧、唉、哎呀、哦、天哪...;從問(wèn)句中挑選的關(guān)鍵詞為為什么、誰(shuí)、哪里、哪一個(gè)、什么、怎么樣、多少、星期幾...;從陳述句中挑選的關(guān)鍵詞為知道了、是的吧、很好的...,共組成長(zhǎng)度為M的矢量(M、N為正整數(shù))。在前面得到的M個(gè)元素的基礎(chǔ)上,對(duì)于測(cè)試訓(xùn)練集中的所有文本語(yǔ)料,分析每個(gè)句子中各個(gè)關(guān)鍵詞是否出現(xiàn),如果出現(xiàn),則在上述M維矢量中對(duì)應(yīng)的位置填上1,其余的位置設(shè)為0。然后利用以這些矢量和對(duì)應(yīng)的標(biāo)點(diǎn)符號(hào)為類別,以最大熵為準(zhǔn)則,訓(xùn)練出文本分類器。步驟204,獲取不同的錄音人對(duì)所述文本語(yǔ)料錄音生成的語(yǔ)音文件。比如,對(duì)收集的文本語(yǔ)料,選取5名男性和5名女性錄音人,每個(gè)人按照日常說(shuō)話的方式讀出所述文本語(yǔ)料的內(nèi)容,并且根據(jù)不同的句型采用不同的語(yǔ)氣朗讀。同時(shí),保證錄音人對(duì)于每種語(yǔ)氣需要讀大體相當(dāng)數(shù)量的文本。對(duì)錄音后的文件按照16KHz采樣率、16bit 量化進(jìn)行A/D變換,以WAV格式保存該文件。步驟205,確定所述語(yǔ)音文件中的發(fā)音語(yǔ)氣。具體地,可以通過(guò)對(duì)所述語(yǔ)音文件進(jìn)行語(yǔ)氣分析,確定所述語(yǔ)音文件中的發(fā)音語(yǔ)氣。所述語(yǔ)氣分析包括包括韻律分析和頻譜分析。上述韻律分析包括基頻提取和規(guī)整、一階、二階基頻差分。其中,基頻提取和規(guī)整可以采用I^raat基頻提取算法,計(jì)算每一幀位置對(duì)應(yīng)的基頻值以及計(jì)算該句的基頻平均值 (基頻值為0的位置不參與計(jì)算),然后將所有基頻值減去整體的均值。上述頻譜分析包括計(jì)算平均頻率幅度、共振峰參數(shù)提取。其中,計(jì)算平均頻率幅度即對(duì)于每一幀數(shù)據(jù),采用離散傅里葉變換(DFT),計(jì)算出每一幀數(shù)據(jù)平均幅度,即公式
權(quán)利要求
1.一種實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的方法,其特征在于,包括 采集用戶語(yǔ)音信號(hào);對(duì)所述用戶語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別,生成包含多個(gè)語(yǔ)句的文字序列; 依次計(jì)算所述文字序列中語(yǔ)句間的停頓位置的時(shí)長(zhǎng); 如果所述時(shí)長(zhǎng)小于預(yù)設(shè)的門限值,則在所述停頓位置添加逗號(hào); 如果所述時(shí)長(zhǎng)大于或等于所述門限值,則利用預(yù)先生成的分類器,確定所述停頓位置前的語(yǔ)句的語(yǔ)氣類型,并根據(jù)所述類型在所述停頓位置添加標(biāo)點(diǎn)符號(hào)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述類型包括陳述句、疑問(wèn)句和感嘆句;所述根據(jù)所述類型在所述停頓位置添加標(biāo)點(diǎn)符號(hào)包括 如果所述類型為陳述句,則在所述停頓位置添加句號(hào); 如果所述類型為疑問(wèn)句,則在所述停頓位置添加問(wèn)號(hào); 如果所述類型為感嘆句,則在所述停頓位置添加感嘆號(hào)。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述方法還包括 預(yù)先收集文本語(yǔ)料;根據(jù)所述文本語(yǔ)料通過(guò)訓(xùn)練方式生成所述分類器,所述分類器包括文本分類器和/ 或聲學(xué)分類器。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述文本語(yǔ)料通過(guò)訓(xùn)練方式生成文本分類器包括從所述文本語(yǔ)料中提取關(guān)鍵詞; 根據(jù)提取的關(guān)鍵詞訓(xùn)練生成文本分類器。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述文本語(yǔ)料通過(guò)訓(xùn)練方式生成聲學(xué)分類器包括獲取不同的錄音人對(duì)所述文本語(yǔ)料錄音生成的語(yǔ)音文件; 確定所述語(yǔ)音文件中的發(fā)音語(yǔ)氣; 以所述發(fā)音語(yǔ)氣為分類目標(biāo)訓(xùn)練生成聲學(xué)分類器。
6.一種實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的系統(tǒng),其特征在于,包括 信號(hào)采集單元,用于采集用戶語(yǔ)音信號(hào);語(yǔ)音識(shí)別單元,用于對(duì)所述用戶語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別,生成包含多個(gè)語(yǔ)句的文字序列;計(jì)算單元,用于依次計(jì)算所述文字序列中語(yǔ)句間的停頓位置的時(shí)長(zhǎng); 判斷單元,用于判斷所述時(shí)長(zhǎng)是否小于預(yù)設(shè)的門限值;第一標(biāo)點(diǎn)符號(hào)添加單元,用于在所述判斷單元判斷所述時(shí)長(zhǎng)小于預(yù)設(shè)的門限值,在所述停頓位置添加逗號(hào);語(yǔ)句類型確定單元,用于在所述判斷單元判斷所述時(shí)長(zhǎng)大于或等于所述門限值,利用預(yù)先生成的分類器,確定所述停頓位置前的語(yǔ)句的語(yǔ)氣類型;第二標(biāo)點(diǎn)符號(hào)添加單元,用于根據(jù)所述語(yǔ)句類型確定單元確定的語(yǔ)句類型在所述停頓位置添加標(biāo)點(diǎn)符號(hào)。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述類型包括陳述句、疑問(wèn)句和感嘆句;所述第二標(biāo)點(diǎn)符號(hào)添加單元,具體用于在所述語(yǔ)句類型確定單元確定的語(yǔ)句類型為陳述句時(shí),在所述停頓位置添加句號(hào);為疑問(wèn)句時(shí),在所述停頓位置添加問(wèn)號(hào);為感嘆句時(shí), 在所述停頓位置添加感嘆號(hào)。
8.根據(jù)權(quán)利要求6或7所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括語(yǔ)料收集單元,用于收集文本語(yǔ)料;分類器生成單元,用于根據(jù)所述文本語(yǔ)料通過(guò)訓(xùn)練方式生成分類器。所述語(yǔ)句類型確定單元,具體用于利用所述分類器生成單元預(yù)先生成的分類器,確定所述停頓位置前的語(yǔ)句的語(yǔ)氣類型。
9.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述分類器生成單元包括文本分類器訓(xùn)練單元和/或聲學(xué)分類器訓(xùn)練單元;所述文本分類器訓(xùn)練單元,用于根據(jù)所述文本語(yǔ)料通過(guò)訓(xùn)練方式生成文本分類器;所述聲學(xué)分類器訓(xùn)練單元,用于根據(jù)所述文本語(yǔ)料通過(guò)訓(xùn)練方式生成聲學(xué)分類器。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,所述文本分類器訓(xùn)練單元包括關(guān)鍵詞提取子單元,用于從所述語(yǔ)料收集單元收集的文本語(yǔ)料中提取關(guān)鍵詞;第一訓(xùn)練子單元,用于根據(jù)所述關(guān)鍵詞提取子單元提取的關(guān)鍵詞訓(xùn)練生成文本分類器。
11.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述聲學(xué)分類器訓(xùn)練單元包括語(yǔ)音文件獲取子單元,用于獲取不同的錄音人對(duì)所述語(yǔ)料收集單元收集的文本語(yǔ)料錄音生成的語(yǔ)音文件;語(yǔ)氣確定子單元,用于確定所述語(yǔ)音文件中的發(fā)音語(yǔ)氣;第二訓(xùn)練子單元,用于以所述語(yǔ)氣確定子單元確定的發(fā)音語(yǔ)氣為分類目標(biāo)訓(xùn)練生成聲學(xué)分類器。
全文摘要
本發(fā)明涉及語(yǔ)音識(shí)別技術(shù)領(lǐng)域,公開(kāi)了一種實(shí)現(xiàn)語(yǔ)音識(shí)別中自動(dòng)添加標(biāo)點(diǎn)符號(hào)的方法及系統(tǒng),該方法包括采集用戶語(yǔ)音信號(hào);對(duì)所述用戶語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別,生成包含多個(gè)語(yǔ)句的文字序列;依次計(jì)算所述文字序列中語(yǔ)句間的停頓位置的時(shí)長(zhǎng);如果所述時(shí)長(zhǎng)小于預(yù)設(shè)的門限值,則在該停頓位置添加逗號(hào);如果所述時(shí)長(zhǎng)大于或等于所述門限值,則利用預(yù)先生成的分類器,確定所述停頓位置前的語(yǔ)句的語(yǔ)氣類型,并根據(jù)所述類型在所述停頓位置添加標(biāo)點(diǎn)符號(hào)。利用本發(fā)明,可以簡(jiǎn)單方便地實(shí)現(xiàn)標(biāo)點(diǎn)符號(hào)的自動(dòng)添加,并提高標(biāo)點(diǎn)符號(hào)添加的準(zhǔn)確性和靈活性。
文檔編號(hào)G10L15/26GK102231278SQ201110156209
公開(kāi)日2011年11月2日 申請(qǐng)日期2011年6月10日 優(yōu)先權(quán)日2011年6月10日
發(fā)明者俞健, 劉慶峰, 王智國(guó), 胡國(guó)平, 胡郁, 蔣成林, 陳志剛, 魏思 申請(qǐng)人:安徽科大訊飛信息科技股份有限公司