語音輸入系統(tǒng)和方法
【專利摘要】本發(fā)明提供了一種語音輸入系統(tǒng)和方法。所述語音輸入方法,包括:將采集的語音按照預(yù)定時(shí)間間隔分隔成多個(gè)分段;當(dāng)通過單音對(duì)應(yīng)拼音的分類器判斷出分段的語音信息的置信度超過預(yù)定閾值時(shí),把置信度超過預(yù)定閾值的語音分段判別為對(duì)應(yīng)一個(gè)單字的拼音;根據(jù)拼音識(shí)別規(guī)則來識(shí)別與得到的拼音序列對(duì)應(yīng)的漢字,其中,所述拼音序列對(duì)應(yīng)于所采集的語音。
【專利說明】語音輸入系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音識(shí)別技術(shù)。更具體地講,涉及一種語音輸入系統(tǒng)和方法。
【背景技術(shù)】
[0002]目前手持式設(shè)備上的輸入方式一般都是通過鍵盤或觸摸屏進(jìn)行輸入。為了給用戶提供交互方式,往往需要通過為某種操作預(yù)留特定的輸入鍵的方式來進(jìn)行用戶與設(shè)備之間的交互。對(duì)于一些復(fù)雜的操作,在設(shè)備上無法預(yù)留過多的輸入鍵,只能通過復(fù)用某些操作鍵以及組合一些操作鍵的方式來實(shí)現(xiàn),或者通過復(fù)雜的菜單分級(jí)的策略,用戶往往要進(jìn)行多次菜單操作才能實(shí)現(xiàn)所需的功能。這些輸入方式,一來容易引起誤操作,二來實(shí)現(xiàn)的功能依然有限,無法滿足用戶的實(shí)際需求。
[0003]與傳統(tǒng)的通過鍵盤以及觸摸屏輸入方式不同,語音輸入作為一種最自然的交互方式,無需占用額外的硬件及尺寸方面的資源,只通過一個(gè)簡(jiǎn)單的麥克風(fēng)即可實(shí)現(xiàn)動(dòng)態(tài)擴(kuò)展的虛擬界面來完成多種輸入操作。這樣對(duì)于手持設(shè)備的所有操作均可以通過語音輸入來實(shí)現(xiàn),無需對(duì)某種功能指定特殊的鍵,因而在不增加設(shè)備外觀尺寸的前提下能夠最大程序的豐富手持式設(shè)備的交互樂趣。
[0004]在現(xiàn)有的語音輸入方法中,用戶點(diǎn)擊語音輸入的開始按鈕之后錄入語音,點(diǎn)擊結(jié)束按鈕并將語音上傳到服務(wù)器端,并接收其返回的解析得到的文字信息。
[0005]然而,這樣的語音輸入方法會(huì)造成如下問題:1、語音傳輸占用帶寬,在網(wǎng)絡(luò)信號(hào)不好的時(shí)候發(fā)送語音的過程會(huì)耗時(shí)或失?。?、一次輸入完畢,用戶對(duì)輸入結(jié)果沒有很好的預(yù)期,只有看到返回結(jié)果才知道是否輸入成功。
[0006]因此,需要一種能夠提供語音輸入的準(zhǔn)確性和效率的語音輸入方法。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的在于提供一種提供更高準(zhǔn)確性和更高效率的語音輸入系統(tǒng)和方法。
[0008]為了實(shí)現(xiàn)上述目的,提供了一種語音輸入方法,包括:將采集的語音按照預(yù)定時(shí)間間隔分隔成多個(gè)分段;當(dāng)通過單音對(duì)應(yīng)拼音的分類器判斷出分段的語音信息的置信度超過預(yù)定閾值時(shí),把置信度超過預(yù)定閾值的語音分段判別為對(duì)應(yīng)一個(gè)單字的拼音;根據(jù)拼音識(shí)別規(guī)則來識(shí)別與得到的拼音序列對(duì)應(yīng)的漢字,其中,所述拼音序列對(duì)應(yīng)于所采集的語音。
[0009]所述對(duì)應(yīng)一個(gè)單字的拼音可以是一個(gè)或多個(gè)拼音。
[0010]在所述對(duì)應(yīng)一個(gè)單字的拼音是多個(gè)拼音時(shí),所述方法可還包括:將所述多個(gè)拼音顯示在屏幕上,并且用戶可針對(duì)所述對(duì)應(yīng)一個(gè)單字的多個(gè)拼音選取期望的拼音。
[0011]在所述對(duì)應(yīng)一個(gè)單字的拼音是多個(gè)拼音時(shí),所述方法可還包括:對(duì)所述多個(gè)拼音進(jìn)行拼音糾錯(cuò)以得到正確的拼音。
[0012]所述語音輸入方法可還包括:如果在自檢查的開始時(shí)間過去預(yù)定時(shí)間的時(shí)間段內(nèi)不存在超過預(yù)定閾值的置信度的分段,則將檢查的起始時(shí)間重新設(shè)置為自檢查的開始時(shí)間過去短于所述預(yù)定時(shí)間的時(shí)間段作為重新設(shè)置的開始時(shí)間,并從所述重新設(shè)置的開始時(shí)間檢查分段的語音信息。
[0013]根據(jù)本發(fā)明的另一方面,提供了一種語音輸入系統(tǒng),包括:語音分段單元,用于將采集的語音按照預(yù)定時(shí)間間隔分隔成多個(gè)分段;置信度判別單元當(dāng)通過單音對(duì)應(yīng)拼音的分類器判斷出分段的語音信息的置信度超過預(yù)定閾值時(shí),把置信度超過預(yù)定閾值的語音分段判別為對(duì)應(yīng)一個(gè)單字的拼音;漢字識(shí)別單元,根據(jù)拼音識(shí)別規(guī)則來識(shí)別與得到的拼音序列對(duì)應(yīng)的漢字,其中,所述拼音序列對(duì)應(yīng)于所采集的語音。
[0014]所述對(duì)應(yīng)一個(gè)單字的拼音可以是一個(gè)或多個(gè)拼音。
[0015]所述語音輸入系統(tǒng)可還包括:拼音顯示單元,在所述對(duì)應(yīng)一個(gè)單字的拼音是多個(gè)拼音時(shí),用于將所述多個(gè)拼音顯示在屏幕上,并且用戶針對(duì)所述對(duì)應(yīng)一個(gè)單字的多個(gè)拼音選取期望的拼音。
[0016]所述語音輸入系統(tǒng)可還包括:拼音糾錯(cuò)單元,在所述對(duì)應(yīng)一個(gè)單字的拼音是多個(gè)拼音時(shí),對(duì)所述多個(gè)拼音進(jìn)行拼音糾錯(cuò)以得到正確的拼音。
[0017]在自檢查的開始時(shí)間過去預(yù)定時(shí)間的時(shí)間段內(nèi)不存在超過預(yù)定閾值的置信度的分段的情況下,置信度判別單元可還用于將檢查的起始時(shí)間重新設(shè)置為自檢查的開始時(shí)間過去短于所述預(yù)定時(shí)間的時(shí)間段作為重新設(shè)置的開始時(shí)間,并從所述重新設(shè)置的開始時(shí)間檢查分段的語音信息。
[0018]將在接下來的描述中部分闡述本發(fā)明另外的方面和/或優(yōu)點(diǎn),還有一部分通過描述將是清楚的,或者可以經(jīng)過本發(fā)明的實(shí)施而得知。
【專利附圖】
【附圖說明】
[0019]通過下面結(jié)合附圖進(jìn)行的描述,本發(fā)明的上述和其他目的和特點(diǎn)將會(huì)變得更加清楚,其中:
[0020]圖1是示出根據(jù)本發(fā)明第一實(shí)施例的語音輸入方法的流程圖;
[0021]圖2是示出根據(jù)本發(fā)明第二實(shí)施例的語音輸入方法的流程圖;
[0022]圖3是示出根據(jù)本發(fā)明第一實(shí)施例的語音輸入系統(tǒng)的框圖;
[0023]圖4是示出根據(jù)本發(fā)明第二實(shí)施例的語音輸入系統(tǒng)的框圖。
【具體實(shí)施方式】
[0024]現(xiàn)在,詳細(xì)描述本發(fā)明的實(shí)施例,其示例在附圖中表示,其中,相同的標(biāo)號(hào)始終表示相同的部件。以下通過參考附圖描述實(shí)施例以解釋本發(fā)明。
[0025]圖1是示出根據(jù)本發(fā)明第一實(shí)施例的語音輸入方法的流程圖。
[0026]如圖1所示,在步驟S101,在用戶開始語音錄入之后,客戶端進(jìn)行語音采集并可將采集到的語音存儲(chǔ)在其緩存器中。
[0027]在步驟S102,客戶端從錄入開始時(shí)間起按照預(yù)定時(shí)間間隔將采集的語音分隔成多個(gè)分段。所述預(yù)定時(shí)間間隔可表示為t,例如0.1s。
[0028]在步驟S103,客戶端從錄入開始時(shí)間依次檢查所述多個(gè)分段內(nèi)的語音信息,直到通過單音對(duì)應(yīng)拼音的分類器判斷出置信度超過第一預(yù)定閾值(例如,S)時(shí),把檢查的語音分段判別為對(duì)應(yīng)一個(gè)單字的拼音。此時(shí)語音分段的長(zhǎng)度可表示為n*t (即,檢查到上次截止時(shí)間開始的第η段的時(shí)候發(fā)現(xiàn)n*t時(shí)間段內(nèi)的語音對(duì)應(yīng)到了一個(gè)單字的拼音)。其中,η表示第η分段,t表示預(yù)定時(shí)間間隔。即表示采集的η個(gè)分段的語音對(duì)應(yīng)一個(gè)單字的拼音。
[0029]這里的單音對(duì)應(yīng)拼音的分類器可由客戶端從服務(wù)器端下載。另外,這里的單音對(duì)應(yīng)拼音的分類器可由現(xiàn)有技術(shù)中的分類器來實(shí)現(xiàn),例如,分類器能夠自動(dòng)將語音輸入數(shù)據(jù)劃分到已知類別(即,不同的拼音),因此這里不對(duì)其進(jìn)行詳細(xì)描述。
[0030]判別出對(duì)應(yīng)一個(gè)單字的拼音之后,在步驟S104,將該拼音進(jìn)行記錄并顯示到客戶端的屏幕上。同時(shí)將上述語音緩存的處理起始時(shí)刻更新到下一時(shí)間分段,即總時(shí)間軸上的(n+1) *t處,并開始下一輪的語音匹配。
[0031]可選擇地,在語音輸入中間或結(jié)束了以后,用戶可以隨時(shí)暫停語音輸入并查看單字識(shí)別的成功情況,并(傳統(tǒng)輸入或語音輸入)更改錯(cuò)誤的音。
[0032]在步驟S105,確定是否完成全部語音分段的判別。
[0033]如果在步驟S105確定沒有完成全部語音分段的判別,則返回步驟S103繼續(xù)對(duì)剩余語音分段進(jìn)行判別。否則,執(zhí)行步驟S106以根據(jù)拼音識(shí)別規(guī)則來識(shí)別與得到的拼音序列對(duì)應(yīng)的漢字?,F(xiàn)有技術(shù)中存在多種根據(jù)拼音序列得到漢字的技術(shù)(比如現(xiàn)有的搜索引擎糾錯(cuò)功能)。例如,根據(jù)拼音序列得到漢字,就是糾錯(cuò)的一種。比如在百度輸入‘fenleiqi’會(huì)提示是不是要找‘分類器’?,F(xiàn)有的搜索引擎糾錯(cuò)功能的原理有多種,例如:1、如果用戶檢索‘fenleiqi’,但是沒有結(jié)果,這是用戶會(huì)再檢索‘分類器’,那這兩者作為關(guān)聯(lián)檢索詞就會(huì)作為糾錯(cuò)的依據(jù);2、事先維護(hù)一個(gè)漢字到拼音的對(duì)應(yīng)關(guān)系和不同拼音對(duì)應(yīng)到某些漢字的可能性(大量文本統(tǒng)計(jì)就能做到),當(dāng)輸入拼音的時(shí)候就能得到最可能出現(xiàn)的漢字是什么。
[0034]應(yīng)該理解步驟S106可由客戶端執(zhí)行也可以由服務(wù)器端執(zhí)行。因此,通過將拼音序列的編碼信息而非語音信號(hào)的編碼信息提交給服務(wù)器端,使得占用比較少的帶寬。
[0035]可選擇地,客戶端也可以將原始語音和拼音序列一起發(fā)送給服務(wù)器端,由服務(wù)器端來識(shí)別與得到的拼音序列對(duì)應(yīng)的漢字。在服務(wù)器端拼音序列的引入,將可以指導(dǎo)原始語音信息的解析,提高解析的精確度。具體來說就是有當(dāng)存在多種可能的解析結(jié)論時(shí),對(duì)應(yīng)結(jié)論的拼音和客戶端傳輸?shù)钠匆粼较嗨?,則該結(jié)論的置信度越大。比如用戶說了一句:“王上”但是發(fā)音不標(biāo)準(zhǔn),直接語音解析可能就得到了“黃山”。結(jié)合步驟S104客戶端上可以更改錯(cuò)誤的拼音,那么在服務(wù)器解析語言的時(shí)候就能得到進(jìn)一步的指導(dǎo)。現(xiàn)有技術(shù)中存在多種對(duì)于相似性的評(píng)價(jià)方式,例如拼音對(duì)應(yīng)的字母序列的編輯距離等。編輯距離就是兩個(gè)字符串通過最少的步數(shù)添加、刪除、替換字母互換的步數(shù)。比如“huangshan”和“huangshang”的編輯距離為1,后者比前者多了一個(gè)字符。
[0036]另外,拼音序列和語音信號(hào)的對(duì)應(yīng)關(guān)系可以進(jìn)一步的作為后續(xù)語音識(shí)別模塊的訓(xùn)練依據(jù),從而提高服務(wù)器端的在線語音識(shí)別能力。
[0037]圖2是示出根據(jù)本發(fā)明第二實(shí)施例的語音輸入方法的流程圖。
[0038]圖2中的步驟S201-S202與圖1中的步驟S101-S102相同,因此在此不再贅述。
[0039]在步驟S203,客戶端從錄入開始時(shí)間依次檢查所述多個(gè)分段內(nèi)的語音信息,直到通過單音對(duì)應(yīng)拼音的分類器判斷出置信度超過第二預(yù)定閾值S’(第二預(yù)定閾值S’〈第一預(yù)定閾值S)時(shí),把檢查的語音分段判別為對(duì)應(yīng)一個(gè)單字的多個(gè)拼音。此時(shí)語音分段的長(zhǎng)度可表示為n*t。其中,η表示第η分段,t表示預(yù)定時(shí)間間隔。即表示采集的η個(gè)分段的語音對(duì)應(yīng)一個(gè)單字的拼音。例如,當(dāng)用戶語音輸入“黃”時(shí),可能給出符合條件S’的‘wang’或‘huang’的拼音。[0040]判別出對(duì)應(yīng)一個(gè)單字的多個(gè)拼音之后,在步驟S204,將該多個(gè)拼音進(jìn)行記錄并顯示到客戶端的屏幕上。同時(shí)將上述語音緩存的處理起始時(shí)刻更新到下一時(shí)間分段,即總時(shí)間軸上的(n+1) *t處,并開始下一輪的語音匹配。
[0041]可選擇地,用戶可針對(duì)單字的多個(gè)拼音選取期望的拼音。
[0042]如果在用戶沒有選擇期望的拼音的情況下,在步驟S205,針對(duì)所述多個(gè)拼音進(jìn)行糾錯(cuò)。例如,在上述步驟S203中,當(dāng)用戶語音輸入“黃”時(shí),給出符合條件S’的‘wang’或‘huang’的拼音,同時(shí)對(duì)于語音‘河’給出拼音‘he’。通過拼音糾錯(cuò),可確定‘huanghe’是概率更高的詞對(duì)應(yīng)的音。因而通過拼音糾錯(cuò)可選用‘huanghe’這個(gè)拼音序列。應(yīng)該理解步驟S205可由客戶端執(zhí)行也可以由服務(wù)器端執(zhí)行(B卩,客戶端將得到的多個(gè)拼音發(fā)送給服務(wù)器端,由服務(wù)器端進(jìn)行糾錯(cuò))。
[0043]在步驟S206,確定是否完成全部語音分段的判別。
[0044]如果在步驟S206確定沒有完成全部語音分段的判別,則返回步驟S203繼續(xù)對(duì)剩余語音分段進(jìn)行判別。否則,執(zhí)行步驟S207以根據(jù)拼音識(shí)別規(guī)則來識(shí)別與得到的拼音序列對(duì)應(yīng)的漢字。應(yīng)該理解步驟S207可由客戶端執(zhí)行也可以由服務(wù)器端執(zhí)行。
[0045]另一方面,預(yù)定分段的輸入語音可能對(duì)應(yīng)于噪聲或靜音等情況。下面將對(duì)這種情況進(jìn)行描述。
[0046]在客戶端按照預(yù)定時(shí)間間隔從錄入開始時(shí)間將采集的語音分隔成多個(gè)分段(所述預(yù)定時(shí)間間隔可表示為t,例如0.1s)之后,客戶端從錄入開始時(shí)間依次檢查所述多個(gè)分段內(nèi)的語音信息,如果在N*t的時(shí)間內(nèi)(N為預(yù)設(shè)閾值,比如10,對(duì)應(yīng)ls),該片段語音無法匹配到任何單字的拼音,那么這段時(shí)間可能對(duì)應(yīng)了噪聲或靜音等情況。
[0047]S卩,如果起始時(shí)刻為i*t,在(i+N)*t時(shí)刻發(fā)現(xiàn)N*t的時(shí)間段內(nèi)無法匹配到任何單字的拼音。則將起始時(shí)刻重置為(i+M) *t (其中M為小于N的整數(shù))并重新開始執(zhí)行如圖1中的步驟S103或圖2中的步驟S203以判別對(duì)應(yīng)一個(gè)單字的拼音。
[0048]這里,之所以不將起始時(shí)刻重置為(i+N) *t是因?yàn)榭赡?N-M) *t的這段時(shí)間對(duì)應(yīng)了半個(gè)字的音,而沒有被識(shí)別,但是前面的M*t的時(shí)間基本上可以確定沒有對(duì)應(yīng)某個(gè)實(shí)際的字)。比如t為0.1,N為10,M為5。整條語音的長(zhǎng)度是3秒。其中0-0.8秒是靜默期或噪聲期,第0.8-0.12秒用戶發(fā)了一個(gè)‘黃’的音,在1.2-1.5秒又是靜默期,在1.5-2.0秒用戶發(fā)音‘山’。那么從O到1.0秒的時(shí)候,用戶的‘黃’這個(gè)音還沒有發(fā)完,識(shí)別不出來,同時(shí)I秒已經(jīng)達(dá)到了,所以歷史的這一秒不對(duì)應(yīng)到某個(gè)漢字。那么就從(N-M) *5=0.5秒開始再作檢測(cè)。0.5-1.2秒因?yàn)槟軝z測(cè)到完整的用戶發(fā)音‘黃’,所以得到了 ‘huang’這個(gè)拼音。再?gòu)?.2秒往后檢測(cè)繼續(xù)檢測(cè)到‘shan’這個(gè)音。
[0049]圖3是示出根據(jù)本發(fā)明第一實(shí)施例的語音輸入系統(tǒng)的框圖。
[0050]如圖3所示,根據(jù)本發(fā)明第一實(shí)施例的語音輸入系統(tǒng)包括:語音采集單元301、語音分段單元302、置信度判別單元303、拼音顯示單元304、漢字識(shí)別單元305。
[0051]在用戶開始語音錄入之后,語音采集單元301進(jìn)行語音采集并可將采集到的語音存儲(chǔ)在其緩存器中。
[0052]語音分段單元302從錄入開始時(shí)間起按照預(yù)定時(shí)間閾值將采集的語音分隔成多個(gè)分段。
[0053]置信度判別單元303從錄入開始時(shí)間依次檢查所述多個(gè)分段內(nèi)的語音信息,直到通過單音對(duì)應(yīng)拼音的分類器判斷出置信度超過第一預(yù)定閾值(例如,S)時(shí),把檢查的語音分段判別為對(duì)應(yīng)一個(gè)單字的拼音。
[0054]同樣,置信度判別單元303可從語音中識(shí)別出對(duì)應(yīng)噪聲或靜音等情況。
[0055]拼音顯示單元304將判別的拼音顯示在屏幕上。
[0056]漢字識(shí)別單元305用于識(shí)別與拼音序列對(duì)應(yīng)的漢字,所述拼音序列對(duì)應(yīng)于采集的語音。
[0057]應(yīng)該理解,根據(jù)本發(fā)明第一實(shí)施例的語音輸入系統(tǒng)中的語音采集單元301、語音分段單元302、置信度判別單元303、拼音顯示單元304和漢字識(shí)別單元305可在客戶端實(shí)現(xiàn),或者語音采集單元301、語音分段單元302、置信度判別單元303、拼音顯示單元304可在客戶端實(shí)現(xiàn),而漢字識(shí)別單元305可在服務(wù)器端實(shí)現(xiàn)。
[0058]圖4是示出根據(jù)本發(fā)明第二實(shí)施例的語音輸入系統(tǒng)的框圖。
[0059]根據(jù)本發(fā)明第二實(shí)施例的語音輸入系統(tǒng)包括:語音采集單元401、語音分段單元402、置信度判別單元403、拼音顯示單元404、漢字識(shí)別單元405。
[0060]在用戶開始語音錄入之后,語音采集單元401進(jìn)行語音采集并可將采集到的語音存儲(chǔ)在其緩存器中。
[0061]語音分段單元402從錄入開始時(shí)間起按照預(yù)定時(shí)間閾值將采集的語音分隔成多個(gè)分段。
[0062]置信度判別單元403從錄入開始時(shí)間依次檢查所述多個(gè)分段內(nèi)的語音信息,直到通過單音對(duì)應(yīng)拼音的分類器判斷出置信度超過第二預(yù)定閾值S’(第二預(yù)定閾值S’〈第一預(yù)定閾值S)時(shí),把檢查的語音分段判別為對(duì)應(yīng)一個(gè)單字的多個(gè)拼音。
[0063]在判別出多個(gè)拼音的情況下,拼音顯示單元404將判別的多個(gè)拼音顯示在屏幕上??捎捎脩翎槍?duì)所述多個(gè)拼音選取期望的拼音。
[0064]同樣,置信度判別單元403可從語音中識(shí)別出對(duì)應(yīng)噪聲或靜音等情況。
[0065]漢字識(shí)別單元405用于識(shí)別與拼音序列對(duì)應(yīng)的漢字,所述拼音序列對(duì)應(yīng)于采集的語音。
[0066]根據(jù)本發(fā)明的語音輸入系統(tǒng)還可包括拼音糾錯(cuò)單元406。在用戶沒有針對(duì)所述多個(gè)拼音選取期望的拼音的情況下,拼音糾錯(cuò)單元406可對(duì)所述多個(gè)拼音進(jìn)行拼音糾錯(cuò)以得到正確的拼音。
[0067]應(yīng)該理解,根據(jù)本發(fā)明第二實(shí)施例的語音輸入系統(tǒng)中的語音采集單元401、語音分段單元402、置信度判別單元403、拼音顯示單元404、漢字識(shí)別單元405和拼音糾錯(cuò)單元406可在客戶端實(shí)現(xiàn),或者語音采集單元401、語音分段單元402、置信度判別單元403、拼音顯示單元404可在客戶端實(shí)現(xiàn),而漢字識(shí)別單元405和拼音糾錯(cuò)單元406可在服務(wù)器端實(shí)現(xiàn);或者只有漢字識(shí)別單元405在服務(wù)器端實(shí)現(xiàn)。
[0068]根據(jù)本發(fā)明實(shí)施例的語音輸入系統(tǒng)和方法,通過將拼音傳輸?shù)椒?wù)器端,因此可以減小帶寬的占用。另外,在將拼音和原始語音傳輸?shù)椒?wù)器端的情況下,可以提升語音識(shí)別的準(zhǔn)確性。
[0069]盡管已經(jīng)參照本發(fā)明的實(shí)施例具體顯示和描述了本發(fā)明,但是本領(lǐng)域的技術(shù)人員應(yīng)該理解,在不脫離由權(quán)利要求限定的本發(fā)明的精神和范圍的情況下,可以對(duì)其進(jìn)行形式和細(xì)節(jié)上的各種改變。
【權(quán)利要求】
1.一種語音輸入方法,包括: 將采集的語音按照預(yù)定時(shí)間間隔分隔成多個(gè)分段; 當(dāng)通過單音對(duì)應(yīng)拼音的分類器判斷出分段的語音信息的置信度超過預(yù)定閾值時(shí),把置信度超過預(yù)定閾值的語音分段判別為對(duì)應(yīng)一個(gè)單字的拼音; 根據(jù)拼音識(shí)別規(guī)則來識(shí)別與得到的拼音序列對(duì)應(yīng)的漢字,其中,所述拼音序列對(duì)應(yīng)于所采集的語音。
2.如權(quán)利要求1所述的語音輸入方法,其中,所述對(duì)應(yīng)一個(gè)單字的拼音是一個(gè)或多個(gè)拼音。
3.如權(quán)利要求2所述的語音輸入方法,其中,在所述對(duì)應(yīng)一個(gè)單字的拼音是多個(gè)拼音時(shí),所述方法還包括:將所述多個(gè)拼音顯示在屏幕上,并且用戶針對(duì)所述對(duì)應(yīng)一個(gè)單字的多個(gè)拼音選取期望的拼音。
4.如權(quán)利要求2所述的方法,其中,在所述對(duì)應(yīng)一個(gè)單字的拼音是多個(gè)拼音時(shí),所述方法還包括:對(duì)所述多個(gè)拼音進(jìn)行拼音糾錯(cuò)以得到正確的拼音。
5.如權(quán)利要求1所述的語音輸入方法,還包括:如果在自檢查的開始時(shí)間過去預(yù)定時(shí)間的時(shí)間段內(nèi)不存在超過預(yù)定閾值的置信度的分段,則將檢查的起始時(shí)間重新設(shè)置為自檢查的開始時(shí)間過去短于所述預(yù)定時(shí)間的時(shí)間段作為重新設(shè)置的開始時(shí)間,并從所述重新設(shè)置的開始時(shí)間檢查分段的語音信息。
6.—種語音輸入系統(tǒng),包括: 語音分段單元,用于將采集的語音按照預(yù)定時(shí)間間隔分隔成多個(gè)分段; 置信度判別單元當(dāng)通過單音對(duì)應(yīng)拼音的分類器判斷出分段的語音信息的置信度超過預(yù)定閾值時(shí),把置信度超過預(yù)定閾值的語音分段判別為對(duì)應(yīng)一個(gè)單字的拼音; 漢字識(shí)別單元,根據(jù)拼音識(shí)別規(guī)則來識(shí)別與得到的拼音序列對(duì)應(yīng)的漢字,其中,所述拼音序列對(duì)應(yīng)于所采集的語音。
7.如權(quán)利要求6所述的語音輸入系統(tǒng),其中,所述對(duì)應(yīng)一個(gè)單字的拼音是一個(gè)或多個(gè)拼音。
8.如權(quán)利要求7所述的語音輸入系統(tǒng),還包括:拼音顯示單元,在所述對(duì)應(yīng)一個(gè)單字的拼音是多個(gè)拼音時(shí),用于將所述多個(gè)拼音顯示在屏幕上,并且用戶針對(duì)所述對(duì)應(yīng)一個(gè)單字的多個(gè)拼音選取期望的拼音。
9.如權(quán)利要求7所述的語音輸入系統(tǒng),還包括:拼音糾錯(cuò)單元,在所述對(duì)應(yīng)一個(gè)單字的拼音是多個(gè)拼音時(shí),對(duì)所述多個(gè)拼音進(jìn)行拼音糾錯(cuò)以得到正確的拼音。
10.如權(quán)利要求6所述的語音輸入系統(tǒng),其中,在自檢查的開始時(shí)間過去預(yù)定時(shí)間的時(shí)間段內(nèi)不存在超過預(yù)定閾值的置信度的分段的情況下,置信度判別單元還用于將檢查的起始時(shí)間重新設(shè)置為自檢查的開始時(shí)間過去短于所述預(yù)定時(shí)間的時(shí)間段作為重新設(shè)置的開始時(shí)間,并從所述重新設(shè)置的開始時(shí)間檢查分段的語音信息。
【文檔編號(hào)】G10L15/04GK103559880SQ201310552972
【公開日】2014年2月5日 申請(qǐng)日期:2013年11月8日 優(yōu)先權(quán)日:2013年11月8日
【發(fā)明者】王光遠(yuǎn) 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司