欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種用于交互控制的語(yǔ)音虛擬鍵盤的構(gòu)建和使用方法

文檔序號(hào):2821620閱讀:200來(lái)源:國(guó)知局
專利名稱:一種用于交互控制的語(yǔ)音虛擬鍵盤的構(gòu)建和使用方法
技術(shù)領(lǐng)域
本發(fā)明公開了一種通過(guò)少量詞匯的精確識(shí)別(語(yǔ)音虛擬鍵盤)和多次交互來(lái)實(shí)現(xiàn)低速率高精度語(yǔ)音輸入和語(yǔ)音控制的方法。本發(fā)明屬于計(jì)算機(jī)多媒體信息輸入和控制領(lǐng)域,尤其是通過(guò)語(yǔ)音信息來(lái)實(shí)施控制的多媒體技術(shù)領(lǐng)域。
隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,語(yǔ)音輸入技術(shù)及其處理技術(shù)已經(jīng)被廣泛地應(yīng)用到了社會(huì)生活的各個(gè)方面。但是由于語(yǔ)音輸入有非常多不確定性和復(fù)雜性,現(xiàn)在的計(jì)算機(jī)系統(tǒng)還難以滿足對(duì)語(yǔ)音分辨的準(zhǔn)確性的要求,尤其是用于實(shí)時(shí)控制的、計(jì)算處理能力并不是十分強(qiáng)大的計(jì)算機(jī)系統(tǒng),因此語(yǔ)音輸入更多地用于語(yǔ)音轉(zhuǎn)換和保存、傳輸?shù)炔恍枰馕稣Z(yǔ)音含義的領(lǐng)域,相對(duì)而言語(yǔ)音用于人機(jī)交互控制領(lǐng)域,其語(yǔ)音解析的準(zhǔn)確性是目前的主要問(wèn)題?,F(xiàn)有技術(shù)的解決方法,主要是通過(guò)多次學(xué)習(xí)使用者的對(duì)于每一個(gè)音節(jié)的發(fā)信特征,來(lái)提高系統(tǒng)對(duì)使用者的語(yǔ)音解析的準(zhǔn)確性。但是這種方法存在著三個(gè)問(wèn)題難以解決第一是應(yīng)用前需要事先學(xué)習(xí),即使用者需要多次反復(fù)朗讀全部標(biāo)準(zhǔn)語(yǔ)音表,供給計(jì)算機(jī)系統(tǒng)解析并構(gòu)建使用者的發(fā)音數(shù)據(jù)庫(kù),甚至需要采集使用者在不同的環(huán)境、健康狀況等條件下的發(fā)音特征,才能構(gòu)建比較完整的數(shù)據(jù)庫(kù),這無(wú)疑大大增加了使用者使用的難度,使這種最簡(jiǎn)單的控制方式變得非常復(fù)雜,大大地限制了語(yǔ)音控制的普及使用;第二是要求計(jì)算機(jī)系統(tǒng)的軟件要有很強(qiáng)的智能性,即使在使用者的發(fā)音都能夠被準(zhǔn)確解析、辨認(rèn)的條件下,還能夠通過(guò)前后文的聯(lián)系來(lái)準(zhǔn)確分辨同音多意的詞組或者語(yǔ)句,因而不僅要求計(jì)算機(jī)系統(tǒng)具有十分強(qiáng)大的數(shù)據(jù)處理和運(yùn)算能力,還要有非常智能化的軟件的支持;第三是由于前兩點(diǎn),現(xiàn)有語(yǔ)音輸入還是針對(duì)專有使用者,還不能使用到口音紛繁的公眾場(chǎng)合。如果再把這些要求聯(lián)合起來(lái),除非使用功能強(qiáng)大、結(jié)構(gòu)復(fù)雜、造價(jià)高昂的專用系統(tǒng),才有可能實(shí)現(xiàn)語(yǔ)音控制,而對(duì)于廉價(jià)的控制系統(tǒng),目前幾乎無(wú)法實(shí)現(xiàn)。
本發(fā)明的目的,就是根據(jù)現(xiàn)有語(yǔ)音控制系統(tǒng)的缺點(diǎn)和不足,提供了一種通過(guò)在系統(tǒng)中構(gòu)建“語(yǔ)音虛擬鍵盤”,來(lái)實(shí)現(xiàn)人機(jī)交互控制或交互式低速率語(yǔ)音輸入的方法;該方法包括在人機(jī)交互系統(tǒng)中構(gòu)建語(yǔ)音虛擬鍵盤的方法,以及該語(yǔ)音虛擬鍵盤在系統(tǒng)中的使用方法。
本發(fā)明所述的語(yǔ)音虛擬鍵盤,實(shí)質(zhì)上是一個(gè)由少量詞語(yǔ)如阿拉伯?dāng)?shù)字0-9以及“是”、“否”等發(fā)音比較明確的詞語(yǔ)構(gòu)成的數(shù)量極少的“指令詞庫(kù)”數(shù)據(jù)庫(kù),在計(jì)算機(jī)等待指令或等待選擇的狀態(tài)時(shí),語(yǔ)音被系統(tǒng)只用來(lái)匹配指令詞庫(kù),從而進(jìn)行精確交互?!爸噶钤~庫(kù)”數(shù)據(jù)庫(kù)可在應(yīng)用本專利的產(chǎn)品出廠前針對(duì)當(dāng)?shù)氐目谝纛A(yù)設(shè),也可被單一用戶重新構(gòu)建,構(gòu)建的方法如下A.設(shè)定該語(yǔ)音虛擬鍵盤的鍵元素內(nèi)容和數(shù)量,并按照一定的方式編碼排列;B.按照上述編碼排列順序選定每一個(gè)鍵元素,并使用某種能被使用者明確感知的方式,提示依次使用者朗讀每個(gè)鍵元素;C.計(jì)算機(jī)系統(tǒng)對(duì)于所接收到的、使用者對(duì)應(yīng)于每個(gè)鍵元素的發(fā)音進(jìn)行解析,并將解析得到的結(jié)果,存儲(chǔ)到計(jì)算機(jī)系統(tǒng)內(nèi)非易失性存儲(chǔ)器內(nèi)的特定空間內(nèi),并將該解析結(jié)果與所對(duì)應(yīng)的鍵元素相關(guān)聯(lián);D.當(dāng)全部鍵元素全部被使用者朗讀達(dá)到設(shè)定的次數(shù)之后,計(jì)算機(jī)系統(tǒng)對(duì)全部的發(fā)音解析結(jié)果進(jìn)行整理,構(gòu)成一個(gè)對(duì)應(yīng)于該使用者的鍵元素?cái)?shù)據(jù)庫(kù),即該虛擬語(yǔ)音鍵盤的用戶指令詞庫(kù)。
該語(yǔ)音虛擬鍵盤應(yīng)用在以計(jì)算機(jī)為控制核心的人機(jī)交互系統(tǒng)上,要求計(jì)算機(jī)系統(tǒng)上已經(jīng)構(gòu)建包含有與同一使用者相對(duì)應(yīng)的語(yǔ)音數(shù)據(jù)庫(kù),以及與控制目的或?qū)ο笙嚓P(guān)的目標(biāo)數(shù)據(jù)庫(kù);因此在系統(tǒng)中的使用方法或步驟如下啟動(dòng)語(yǔ)音交互控制功能;B.使用者朗讀與被控制對(duì)象或者目的相關(guān)的關(guān)鍵詞;C.計(jì)算機(jī)系統(tǒng)解析用戶的發(fā)音,然后在與使用者對(duì)應(yīng)的語(yǔ)音數(shù)據(jù)庫(kù)中搜索、比較,得到與該使用者的關(guān)鍵詞發(fā)音相對(duì)應(yīng)的數(shù)據(jù)代碼;D.用上述代碼為標(biāo)的搜索所述的目標(biāo)數(shù)據(jù)庫(kù);E.判斷是否得到相符合的結(jié)果如果搜索得到了相關(guān)的數(shù)據(jù),繼續(xù)執(zhí)行步驟E,如果沒(méi)有搜索得到相關(guān)數(shù)據(jù),則跳轉(zhuǎn)執(zhí)行步驟H;F.通過(guò)某種容易別用戶感知的方式,利用語(yǔ)音虛擬鍵盤內(nèi)所包含的鍵元素?cái)?shù)據(jù)庫(kù)為標(biāo)識(shí),按照一定規(guī)則或順序輸出搜索結(jié)果,并用語(yǔ)音方式提示使用者利用語(yǔ)音虛擬鍵盤包含的鍵元素,使用語(yǔ)音指令來(lái)確認(rèn)或者選擇所述的輸出結(jié)果;G.不斷精確解析外部的各種聲音輸入,將解析結(jié)果與用戶指令詞庫(kù)即鍵元素?cái)?shù)據(jù)庫(kù)中的使用者的發(fā)音指令數(shù)據(jù)相比較,判定使用者是否確認(rèn)或者選擇;如果判定使用者已經(jīng)確認(rèn)或者選擇,則繼續(xù)執(zhí)行步驟H;如果使用者沒(méi)有確認(rèn)或者選擇,則跳轉(zhuǎn)執(zhí)行步驟I;H.判定使用者確認(rèn)或選擇的結(jié)果是否是最終目標(biāo)數(shù)據(jù)如果所述數(shù)據(jù)不是最終目標(biāo)數(shù)據(jù),則進(jìn)一步搜索目標(biāo)數(shù)據(jù)庫(kù),得到更接近最終目標(biāo)數(shù)據(jù)的搜索結(jié)果,然后重復(fù)步驟E、F輸出,供使用者再次確認(rèn)或者選擇;如果使用者確認(rèn)或選擇的一警示是最終的目標(biāo)數(shù)據(jù),就將目標(biāo)數(shù)據(jù)輸出到系統(tǒng)的其他部分進(jìn)行下一步操作,并結(jié)束本次交互控制的操作;I.根據(jù)控制服務(wù)程序的設(shè)定,或者提示用戶重新操作,或者重新設(shè)置操作入口進(jìn)行其他操作,或者終止本次交互控制的操作。
由上面的技術(shù)方案可以看到,由于本發(fā)明使用了詞匯量很少的“語(yǔ)音虛擬鍵盤”,來(lái)實(shí)現(xiàn)從多種可能的目標(biāo)結(jié)果中選擇的人機(jī)交互方式,因此具有以下的優(yōu)點(diǎn)第一,由于計(jì)算機(jī)系統(tǒng)需要精確解析辨認(rèn)的只有“語(yǔ)音虛擬鍵盤”的語(yǔ)音,詞語(yǔ)的數(shù)量大為減少、發(fā)音簡(jiǎn)單,而且也不需要前后結(jié)合來(lái)理解使用者語(yǔ)音的真正含義,因此解析的準(zhǔn)確率得到了極大的提高,針對(duì)單一用戶幾乎能100%正確分辨,而針對(duì)各種口音的公眾場(chǎng)所應(yīng)用可達(dá)到一定口音范圍內(nèi)的100%正確分辨;第二,由于可以通過(guò)“給出一組相關(guān)結(jié)果供用戶選擇”的方式來(lái)實(shí)現(xiàn)交互控制,因此不再要求計(jì)算機(jī)系統(tǒng)高速運(yùn)行進(jìn)行一次到位的精確的解析,這一方面降低了對(duì)計(jì)算機(jī)系統(tǒng)軟硬件配置的要求而降低了系統(tǒng)的成本、容易普及推廣;另一方面也只需要使用者朗讀一兩遍標(biāo)準(zhǔn)發(fā)音表,就能基本上實(shí)現(xiàn)用戶語(yǔ)音含義的模糊辨認(rèn);同時(shí)由于虛擬語(yǔ)音鍵盤中包含的指令的數(shù)量很少且發(fā)音簡(jiǎn)單,即使系統(tǒng)要求多次采集使用者在不同情況下的指令發(fā)音,也很容易完成,因此使用者使用前的朗讀等準(zhǔn)備工作量大大減少,最大限度地減輕了使用者的準(zhǔn)備工作的時(shí)間和強(qiáng)度。
本發(fā)明雖然操作速度比較慢,但識(shí)別精度高,完全滿足實(shí)用要求,針對(duì)個(gè)人可應(yīng)用于汽車導(dǎo)航、燈光控制、玩具等領(lǐng)域,針對(duì)公共場(chǎng)所可取代各種鍵盤按鍵觸摸屏等,既減少交叉接觸傳播疾病又簡(jiǎn)化外觀延長(zhǎng)使用壽命。
下面結(jié)合附

圖1、2所示的實(shí)施例,來(lái)詳細(xì)說(shuō)明本發(fā)明的技術(shù)方案。
圖1構(gòu)建語(yǔ)音虛擬鍵盤的一般程序流程2使用語(yǔ)音虛擬鍵盤的人機(jī)交互控制系統(tǒng)的一般工作流程圖本發(fā)明中所涉及的語(yǔ)音虛擬鍵盤,其實(shí)質(zhì)上就是一個(gè)用戶控制指令集。這個(gè)指令集可以由數(shù)字構(gòu)成,類似電話機(jī)上的撥號(hào)鍵盤,由0-9個(gè)數(shù)字和兩個(gè)確認(rèn)健構(gòu)成,在此確認(rèn)健可以用“是”、“否”來(lái)替代電話機(jī)上的“*”和“#”??;也可以根據(jù)特殊需要,由部分字母構(gòu)成,如26個(gè)英文字母中的全部或者部分,或者其他語(yǔ)言的字符。語(yǔ)音虛擬鍵盤中每個(gè)虛擬鍵位,即選擇“鍵元素”的基本原則是發(fā)音要盡可能簡(jiǎn)單,盡可能是在所屬語(yǔ)言中是單音節(jié)的發(fā)音。語(yǔ)音虛擬鍵盤的構(gòu)建過(guò)程,實(shí)質(zhì)上就是一個(gè)對(duì)使用者朗讀指令集的發(fā)音的采集解析過(guò)程,利用采集到的使用者的指令發(fā)音構(gòu)建成為一個(gè)“用戶指令詞庫(kù)”,供系統(tǒng)檢索調(diào)用。圖1給出了這個(gè)語(yǔ)音虛擬鍵盤的一般構(gòu)建方法。
啟動(dòng)語(yǔ)音用戶語(yǔ)音指令采集的步驟101后,系統(tǒng)就進(jìn)入了錄音采集的狀態(tài)。首先要通過(guò)步驟102設(shè)置鍵元素104,即“虛擬鍵盤”中包含有虛擬的“按鍵”的數(shù)量M。這個(gè)過(guò)程是由計(jì)算機(jī)系統(tǒng)根據(jù)系統(tǒng)控制的要求來(lái)自動(dòng)設(shè)定的,如前面所列舉的可能情況。對(duì)于漢語(yǔ)指令,一般來(lái)說(shuō)只要設(shè)置0-9個(gè)數(shù)字鍵和“是”、“否”兩個(gè)功能健就可以滿足絕大部分要求;對(duì)于英語(yǔ),也可以使用單音節(jié)的字母,當(dāng)然也可以使用英文字母。之所以推薦使用單音節(jié)的指令,是因?yàn)閱我艄?jié)的發(fā)音更容易被系統(tǒng)正確識(shí)別,因此最好能避免使用多音節(jié)的指令,在確實(shí)必要的時(shí)候再使用。完成了鍵元素字符集的設(shè)置之后,系統(tǒng)進(jìn)入提示輸出準(zhǔn)備步驟103。因使用者只能一個(gè)一個(gè)地朗讀指令字符的發(fā)音,所以應(yīng)該按照一定規(guī)則設(shè)置整個(gè)鍵元素字符集的輸出給使用者朗讀、采集的順序,以及輸出的初始值m=1,然后進(jìn)入順序輸出狀態(tài)105,提示用戶現(xiàn)在正在采集的發(fā)音是哪個(gè)指令字符,為使用者隨后朗讀該指令字符做好準(zhǔn)備。這里提示的方式可以是聲音、顯示圖形,但由于是以語(yǔ)音功能為主的系統(tǒng),所以最好用語(yǔ)音的方式提醒用戶,避免使用其他終端輸出設(shè)備而增加系統(tǒng)的造價(jià)。當(dāng)然,因?yàn)檫@個(gè)過(guò)程是一個(gè)一次性的過(guò)程,因此也可以借助PC計(jì)算機(jī)等其他設(shè)備來(lái)輔助完成。由于在大部分情況下,使用者對(duì)同一個(gè)字符的每一次發(fā)音都是有差異的,因此在此設(shè)置了一個(gè)多次重復(fù)采集同一個(gè)指令字符N次的循環(huán)步驟106以及循環(huán)初始值設(shè)置步驟107,設(shè)置循環(huán)的初始值n=1,以盡可能全面地采集使用者對(duì)該指令字符的發(fā)音特征。上面的步驟完成以后,系統(tǒng)進(jìn)入用戶提示步驟108,提示使用者朗讀該字符,隨后進(jìn)入聲音采集和解析步驟109,解析用戶對(duì)該指令字符的發(fā)音,并將解析得到的結(jié)果或者特征值通過(guò)存儲(chǔ)步驟110,存儲(chǔ)到系統(tǒng)內(nèi)與指令字符的序號(hào)m相對(duì)應(yīng)的指令組內(nèi)。當(dāng)然,這里的存儲(chǔ)介質(zhì)應(yīng)該是系統(tǒng)內(nèi)的非易失性的存儲(chǔ)器,或者可以存儲(chǔ)到非易失性存儲(chǔ)器的緩存器內(nèi)。而后,通過(guò)步驟111判定這次循環(huán)是否完成,即n是否等于N?如果n≠N,則說(shuō)明還沒(méi)有達(dá)到指定的循環(huán)次數(shù),則通過(guò)步驟112將n加上1,返回步驟108進(jìn)行下一次循環(huán);如果n=N,則說(shuō)明已經(jīng)達(dá)到了指定的循環(huán)次數(shù),則執(zhí)行下一步113,判定指令字符是否是按預(yù)定的順序最后一個(gè)要采集的字符,即是否m=M?如果m≠M(fèi),則說(shuō)明還沒(méi)有全部完成使用者對(duì)指令符號(hào)發(fā)音的采集,執(zhí)行步驟114,令m=m+1,返回步驟105,輸出下一個(gè)指令字符,采集使用者的發(fā)音;如果m=M,則說(shuō)明已經(jīng)完成了上述的采集,就最后執(zhí)行步驟115,對(duì)采集到的使用者的全部指令字符的發(fā)音作最后整理,構(gòu)建形成一個(gè)“用戶指令詞庫(kù)”數(shù)據(jù)庫(kù),并相應(yīng)地存儲(chǔ)到非易失性存儲(chǔ)器內(nèi),并結(jié)束本項(xiàng)構(gòu)建過(guò)程。
當(dāng)然,上述多次循環(huán)采集同一個(gè)指令字符的多次發(fā)音不是必須的,因?yàn)槿绻O(shè)定的指令字符集中每個(gè)字符的發(fā)音有比較明顯的差異,或者使用者的發(fā)音比較準(zhǔn)確,一般一次采集就基本上能夠滿足一般的要求,達(dá)到很高的解析準(zhǔn)確率。另外,如果如圖1所示那樣多次采集,在循環(huán)中還可以插入用戶干涉的步驟,以方便使用者自己取消有外界干擾的或者自認(rèn)為發(fā)音不準(zhǔn)確的某些次數(shù)據(jù)采集結(jié)果。
使用上述方法構(gòu)建的語(yǔ)音虛擬鍵盤可以應(yīng)用在很多領(lǐng)域,尤其適用于使用者不方便用手操作的領(lǐng)域,或者因空間有限不容易安裝其他輸入終端設(shè)備的場(chǎng)所,例如汽車導(dǎo)航系統(tǒng);以及肢體殘疾者的計(jì)算機(jī)控制。圖2是上述語(yǔ)音虛擬鍵盤在人機(jī)交互控制系統(tǒng)中應(yīng)用的一般方法。在使用該語(yǔ)音虛擬鍵盤的系統(tǒng)內(nèi),還需要安裝有兩個(gè)數(shù)據(jù)庫(kù)第一個(gè)是控制目標(biāo)數(shù)據(jù)庫(kù),這個(gè)數(shù)據(jù)庫(kù)中包含有與系統(tǒng)的目標(biāo)任務(wù)相關(guān)的所有中間和最終數(shù)據(jù)。例如在汽車導(dǎo)航系統(tǒng)中,這個(gè)數(shù)據(jù)庫(kù)就要包含有能被該系統(tǒng)識(shí)別的全部地名、組織機(jī)構(gòu)等的名稱;而如果是協(xié)助肢體殘疾的使用者操作計(jì)算機(jī)的系統(tǒng),就要包含打開、關(guān)閉、磁盤、搜索、文件夾等等大量與計(jì)算機(jī)操作相關(guān)的命令詞。這個(gè)數(shù)據(jù)庫(kù)是根據(jù)系統(tǒng)的設(shè)計(jì)任務(wù)、要求實(shí)現(xiàn)的功能等目標(biāo)來(lái)確定的,不需要使用者參與。
第二個(gè)數(shù)據(jù)庫(kù)是用戶語(yǔ)音數(shù)據(jù)庫(kù)。這個(gè)數(shù)據(jù)庫(kù)要求包含使用者對(duì)于上述第一個(gè)數(shù)據(jù)庫(kù)中所有詞語(yǔ)的發(fā)音的特征數(shù)據(jù),通過(guò)計(jì)算機(jī)系統(tǒng)采集使用者朗讀標(biāo)準(zhǔn)發(fā)音表的發(fā)音來(lái)構(gòu)建,與上述語(yǔ)音虛擬鍵盤的“用戶指令詞庫(kù)”的構(gòu)建方法基本相同,但是對(duì)準(zhǔn)確度的要求沒(méi)有那樣嚴(yán)格,一般能達(dá)到通常的“語(yǔ)音文字錄入”所能達(dá)到的準(zhǔn)確度就足夠了,因此使用者朗讀一至二遍標(biāo)準(zhǔn)發(fā)音表就能滿足一般要求。當(dāng)然,如果能多次采集更準(zhǔn)確些,在人機(jī)交互控制時(shí)系統(tǒng)的反應(yīng)時(shí)間會(huì)更短,也更精確一些。
從圖2中可以看到,語(yǔ)音鍵盤的主要作用,就是為使用者提供一個(gè)選擇或者確認(rèn)輸出結(jié)果的手段,而這里的輸出結(jié)果,是根據(jù)使用者輸入的關(guān)鍵詞從數(shù)據(jù)庫(kù)中檢索得到的結(jié)果,下面按步驟來(lái)說(shuō)明使用方法。當(dāng)人機(jī)交互功能啟動(dòng)后,系統(tǒng)進(jìn)入“監(jiān)聽”步驟201,等待使用者輸入關(guān)鍵詞。當(dāng)系統(tǒng)接收到使用者的語(yǔ)音命令后,首先精確解析使用者的語(yǔ)音命令的步驟202,然后將解析的結(jié)果與“用戶語(yǔ)音數(shù)據(jù)庫(kù)”203內(nèi)保存的用戶語(yǔ)音相比較,得到與用戶語(yǔ)音關(guān)鍵詞中發(fā)音相對(duì)應(yīng)的命令代碼,最后再使用這個(gè)命令代碼作為標(biāo)的,搜索目標(biāo)數(shù)據(jù)庫(kù)204,檢索到與用戶的發(fā)音相對(duì)應(yīng)的單詞。然后,進(jìn)入判斷步驟205,判斷是否得到檢索結(jié)果如果得到了相應(yīng)的目標(biāo)數(shù)據(jù),就跳轉(zhuǎn)到步驟208,并通過(guò)步驟209添加上適當(dāng)?shù)妮o助說(shuō)明語(yǔ)音后輸出,供使用者選擇(多個(gè)結(jié)果輸出)或者確認(rèn)(單一結(jié)果輸出)。如果輸出的單個(gè)目標(biāo)數(shù)據(jù),就提示使用者使用“語(yǔ)音虛擬鍵盤”中的功能鍵來(lái)確認(rèn)或者否認(rèn)輸出結(jié)果;如果是多個(gè)目標(biāo)數(shù)據(jù),則使用“語(yǔ)音虛擬鍵盤”中的數(shù)字鍵等能夠體現(xiàn)一定順序的鍵元素添加在每個(gè)輸出結(jié)果前面,供使用者選擇。這里的輔助說(shuō)明詞語(yǔ)的作用是讓使用者更容易理解輸出的內(nèi)容。例如在汽車導(dǎo)航系統(tǒng)中,可以添加上“請(qǐng)您確認(rèn)您想去的地方是不是”、“請(qǐng)您從下列目標(biāo)中選擇你想去的目的地”等詞語(yǔ)。如果沒(méi)有檢索到目標(biāo)結(jié)果,則進(jìn)入步驟206,再次模糊解析使用者輸入的關(guān)鍵詞,然后采用與步驟202相同的方法,再次檢索數(shù)據(jù)庫(kù)203,得到相對(duì)應(yīng)的命令代碼后模糊檢索目標(biāo)數(shù)據(jù)庫(kù)204,得到與使用者輸入的關(guān)鍵詞相對(duì)應(yīng)的目標(biāo)數(shù)據(jù)。但是這個(gè)步驟要求系統(tǒng)要具備一定的智能,不僅能夠檢索到與用戶的發(fā)音相對(duì)應(yīng)的單詞,還應(yīng)該在找不到完整的對(duì)應(yīng)目標(biāo)數(shù)據(jù)的時(shí)候,能夠把與用戶的發(fā)音相對(duì)應(yīng)的一些零散的音節(jié)智能合成,構(gòu)成有意義、與用戶輸入的關(guān)鍵詞最接近的多個(gè)目標(biāo)數(shù)據(jù)輸出。隨后,進(jìn)入步驟207,判斷經(jīng)過(guò)上面的處理后,是否有相應(yīng)的目標(biāo)數(shù)據(jù)輸出。如果有目標(biāo)數(shù)據(jù)輸出,則如前面一樣,經(jīng)輸出步驟208添加上適當(dāng)?shù)妮o助說(shuō)明后,使用“虛擬語(yǔ)音鍵盤”中的鍵元素按照一定順序標(biāo)定各個(gè)目標(biāo)數(shù)據(jù),通過(guò)語(yǔ)音的方式輸出各個(gè)目標(biāo)數(shù)據(jù)供使用者選擇。如果經(jīng)過(guò)這樣處理后依然沒(méi)有得到可供選擇的目標(biāo)數(shù)據(jù),則說(shuō)明使用者輸入的語(yǔ)音關(guān)鍵詞有問(wèn)題,則跳轉(zhuǎn)執(zhí)行步驟217,根據(jù)系統(tǒng)的設(shè)定,或者提示用戶重新操作,或者重新設(shè)置操作入口,或者終止本次服務(wù),或者執(zhí)行其他操作。
經(jīng)過(guò)步驟208輸出目標(biāo)數(shù)據(jù)之后,系統(tǒng)進(jìn)入判斷步驟210,判斷是否檢測(cè)得到用戶的聲音指令。如果在一定時(shí)間內(nèi)沒(méi)有檢測(cè)到聲音輸入,既可以返回步驟208,繼續(xù)提示用戶選擇或確認(rèn),也可以通過(guò)步驟217設(shè)置其他合適的操作;如果檢測(cè)到了有聲音輸入,則經(jīng)過(guò)聲音解析步驟211精確解析輸入的聲音,然后將解析結(jié)果與構(gòu)成語(yǔ)音虛擬鍵盤的“用戶指令詞庫(kù)”數(shù)據(jù)庫(kù)212相比較,通過(guò)判斷步驟213判斷輸入的聲音是否與該詞庫(kù)中的某個(gè)鍵元素相匹配如果不匹配,既可以在一定時(shí)間內(nèi)不響應(yīng)輸入的信息,等待使用者重新輸入輸入聲音指令,以防止其他外部干擾產(chǎn)生誤操作(這部分圖中未畫出),也可以仿照上面的方式跳轉(zhuǎn)到步驟208或者217,進(jìn)行相應(yīng)的操作。這兩個(gè)判斷步驟210和213的否定輸出端口所指向的操作,圖中給出或者未給出的操作都是各種可能的選擇之一,其設(shè)定的操作應(yīng)該以方便使用者使用本系統(tǒng)為原則來(lái)設(shè)定,不應(yīng)局限于上述的各種可能。如果得到了匹配的數(shù)據(jù),則執(zhí)行步驟214,進(jìn)一步判定使用者所選擇或者確認(rèn)的目標(biāo)數(shù)據(jù)是否是最終可以被執(zhí)行的最終目標(biāo)數(shù)據(jù)。當(dāng)然,這一步不是一個(gè)明顯要設(shè)定的步驟,因?yàn)榭梢栽谀繕?biāo)數(shù)據(jù)庫(kù)中的將目標(biāo)數(shù)據(jù)分類紀(jì)錄,就可以明確地被系統(tǒng)識(shí)別是否是最終可被執(zhí)行的目標(biāo)數(shù)據(jù),在此以一個(gè)明確的步驟提出來(lái),目的是希望能更清楚地說(shuō)明系統(tǒng)的工作流程。例如在汽車導(dǎo)航系統(tǒng)中,用戶說(shuō)出了“三(四)環(huán)路”這個(gè)地名,由于“三”和“四”的發(fā)音有些相近,所以系統(tǒng)經(jīng)過(guò)模糊檢索后,提示用戶選擇“1.三環(huán)路”和“2.四環(huán)路”等待用戶確定,用戶通過(guò)虛擬鍵盤的指令詞“2”選擇了“四環(huán)路”,但四環(huán)路很難作為一個(gè)確定的地名,因?yàn)榘牡赜蛱珡V了,所以應(yīng)該在目標(biāo)數(shù)據(jù)庫(kù)中按照“中間數(shù)據(jù)”的分類來(lái)存儲(chǔ),這樣系統(tǒng)事先就很容易判定所輸出的數(shù)據(jù)都是“中間目標(biāo)數(shù)據(jù)”而非可以使用電子地圖、GPS定位系統(tǒng)等方式執(zhí)行的“最終目標(biāo)數(shù)據(jù)”。如果判定的結(jié)果是“最終目標(biāo)數(shù)據(jù)”,系統(tǒng)則通過(guò)步驟216,向其他執(zhí)行機(jī)構(gòu)輸出該數(shù)據(jù),供系統(tǒng)完成預(yù)定的任務(wù);如果判定不是“最終目標(biāo)數(shù)據(jù)”,則通過(guò)步驟215,仿照前面的方法再次搜索目標(biāo)數(shù)據(jù)庫(kù),然后將搜索得到的結(jié)果通過(guò)步驟210再次輸出,供用戶選擇或者確認(rèn)。如果第二次檢索的結(jié)果還是中間目標(biāo)數(shù)據(jù),則再次通過(guò)步驟215重復(fù)上述過(guò)程,直到得到最終的目標(biāo)數(shù)據(jù)。如上面的舉例所示,第二次搜索的結(jié)果可能是“1.東北三;2.西三環(huán)……4.北三環(huán)”,當(dāng)使用者確定是“4”后,可能還要再次輸出“1.北三環(huán)東路;2.北三環(huán)中路;3.北三環(huán)西路”供用戶選擇。當(dāng)然,這里的“中間目標(biāo)數(shù)據(jù)”和“最終目標(biāo)數(shù)據(jù)”的分類也不是絕對(duì)的,比如可以在系統(tǒng)及數(shù)據(jù)庫(kù)中設(shè)定“北三環(huán)”路上的某個(gè)標(biāo)志性建筑或者路口等標(biāo)的物作為導(dǎo)航的目標(biāo),如果出發(fā)點(diǎn)距離北三環(huán)比較遠(yuǎn),就可以提示使用者是否不再進(jìn)行進(jìn)一步的檢索,或者隨后在行進(jìn)的路上再近距離地再次檢索。如果這樣,在圖2所示的流程圖中就可以插入一個(gè)使用者干涉的環(huán)節(jié),中斷檢索而確認(rèn)中間目標(biāo)數(shù)據(jù)作為可執(zhí)行的目標(biāo)。
在本發(fā)明中,所述的“語(yǔ)音命令”和“語(yǔ)音指令”是不同的,他們的區(qū)別在于語(yǔ)音命令是使用者希望達(dá)到的目的,數(shù)據(jù)量相對(duì)較大,系統(tǒng)解析后通過(guò)與“用戶語(yǔ)音數(shù)據(jù)庫(kù)”中的預(yù)先記錄的數(shù)據(jù)相比較來(lái)獲得、確認(rèn)信息,相對(duì)準(zhǔn)確度的要求不很嚴(yán)格;而語(yǔ)音指令則是在人機(jī)交互過(guò)程中,使用者僅僅使用“語(yǔ)音虛擬鍵盤”中所包含的、數(shù)量有限的特定單詞來(lái)選擇或者確認(rèn)計(jì)算機(jī)所輸出的信息,數(shù)據(jù)量相對(duì)很小,系統(tǒng)解析后通過(guò)與“用戶指令詞庫(kù)”中記錄的數(shù)據(jù)來(lái)確認(rèn)信息,而且相對(duì)要求準(zhǔn)確度很高。
綜合上述對(duì)語(yǔ)音虛擬鍵盤的構(gòu)建和在人機(jī)交互控制系統(tǒng)中的使用方法的描述,可以看到構(gòu)建語(yǔ)音虛擬鍵盤的過(guò)程,實(shí)質(zhì)上就是計(jì)算機(jī)系統(tǒng)學(xué)習(xí)特定的使用者對(duì)“設(shè)定的指令字符”的發(fā)音的學(xué)習(xí)的過(guò)程;而“語(yǔ)音虛擬鍵盤”的使用方法,就是使用者利用所述的指令字符,對(duì)計(jì)算機(jī)輸出的可選項(xiàng)進(jìn)行選擇、確認(rèn)的過(guò)程。因此,圖1、圖2所給出的程序流程只是一個(gè)總體過(guò)程的概括,或者說(shuō)是眾多具體流程結(jié)構(gòu)中的一種,其中還包含有一些非必須的細(xì)節(jié),系統(tǒng)設(shè)計(jì)者完全可以根據(jù)系統(tǒng)的目標(biāo)任務(wù),參照上述原則來(lái)設(shè)計(jì)特定的系統(tǒng)。
另外,在一個(gè)特定的系統(tǒng)中,還可以構(gòu)建多個(gè)“語(yǔ)音虛擬鍵盤”供多個(gè)使用者共用一套系統(tǒng)。如在私家汽車導(dǎo)航系統(tǒng)中,可以為家庭的每一個(gè)擁有駕駛執(zhí)照的成員建立一套“語(yǔ)音虛擬鍵盤”,供其實(shí)施自動(dòng)導(dǎo)航的操作;與此對(duì)應(yīng),系統(tǒng)中還要建立多個(gè)與之相對(duì)應(yīng)的“用戶語(yǔ)音數(shù)據(jù)庫(kù)”,以便系統(tǒng)能夠正確解析不同的成員語(yǔ)音命令。
權(quán)利要求
1.一種構(gòu)建用于交互控制的語(yǔ)音虛擬鍵盤的方法,該方法包含有以下步驟A.設(shè)定該語(yǔ)音虛擬鍵盤的鍵元素內(nèi)容和數(shù)量,并按照一定的方式編碼排列;B.按照上述編碼排列順序選定每一個(gè)鍵元素,并使用某種能被使用者明確感知的方式,提示依次使用者朗讀每個(gè)鍵元素;C.計(jì)算機(jī)系統(tǒng)對(duì)于所接收到的、使用者對(duì)應(yīng)于每個(gè)鍵元素的發(fā)音進(jìn)行解析,并將解析得到的結(jié)果,存儲(chǔ)到計(jì)算機(jī)系統(tǒng)內(nèi)非易失性存儲(chǔ)器內(nèi)的特定空間內(nèi),并將該解析結(jié)果與所對(duì)應(yīng)的鍵元素相關(guān)聯(lián);D.當(dāng)全部鍵元素全部被使用者朗讀達(dá)到設(shè)定的次數(shù)之后,計(jì)算機(jī)系統(tǒng)對(duì)全部的發(fā)音解析結(jié)果進(jìn)行整理,構(gòu)成一個(gè)對(duì)應(yīng)于該使用者的鍵元素?cái)?shù)據(jù)庫(kù),即該虛擬語(yǔ)音鍵盤的用戶指令詞庫(kù)。
2.權(quán)利要求1所述的構(gòu)建語(yǔ)音虛擬鍵盤的方法,在步驟B、C中還包含以下步驟E.當(dāng)計(jì)算機(jī)系統(tǒng)選定某個(gè)鍵元素要求使用者朗讀時(shí),多次提示用戶重復(fù)朗讀該鍵元素;與此相對(duì)應(yīng),計(jì)算機(jī)系統(tǒng)多次解析使用者的有效發(fā)音,并將每個(gè)解析結(jié)果都與該鍵元素相關(guān)聯(lián)。
3.權(quán)利要求2所述的構(gòu)建語(yǔ)音虛擬鍵盤的方法,在步驟D中還包含以下步驟F.計(jì)算機(jī)系統(tǒng)將上述與某個(gè)鍵元素相關(guān)聯(lián)的解析結(jié)果再次進(jìn)行解析,找到該使用者朗讀某個(gè)鍵元素的發(fā)音的、具有普遍意義的特征值;并用這個(gè)普遍意義的特征值作為該鍵元素的相關(guān)數(shù)據(jù)來(lái)構(gòu)建鍵元素?cái)?shù)據(jù)庫(kù)。
4.一種用于交互控制的語(yǔ)音虛擬鍵盤的使用方法,應(yīng)用在以計(jì)算機(jī)為控制核心的系統(tǒng)上,該計(jì)算機(jī)系統(tǒng)上已經(jīng)構(gòu)建了與特定的使用者相對(duì)應(yīng)的語(yǔ)音虛擬鍵盤,并且包含有與同一使用者相對(duì)應(yīng)的語(yǔ)音數(shù)據(jù)庫(kù),以及與控制目的或?qū)ο笙嚓P(guān)的目標(biāo)數(shù)據(jù)庫(kù);該使用方法包含有如下步驟A.啟動(dòng)語(yǔ)音交互控制功能;B.使用者朗讀與被控制對(duì)象或者目的相關(guān)的關(guān)鍵詞;C.計(jì)算機(jī)系統(tǒng)解析用戶的發(fā)音,然后在與使用者對(duì)應(yīng)的語(yǔ)音數(shù)據(jù)庫(kù)中搜索、比較,得到與該使用者的關(guān)鍵詞發(fā)音相對(duì)應(yīng)的數(shù)據(jù)代碼;D.用上述代碼為標(biāo)的搜索所述的目標(biāo)數(shù)據(jù)庫(kù);E.判斷是否得到相符合的結(jié)果如果搜索得到了相關(guān)的數(shù)據(jù),繼續(xù)執(zhí)行步驟E,如果沒(méi)有搜索得到相關(guān)數(shù)據(jù),則跳轉(zhuǎn)執(zhí)行步驟H;F.通過(guò)某種容易別用戶感知的方式,利用語(yǔ)音虛擬鍵盤內(nèi)所包含的鍵元素?cái)?shù)據(jù)庫(kù)為標(biāo)識(shí),按照一定規(guī)則或順序輸出搜索結(jié)果,并用語(yǔ)音方式提示使用者利用語(yǔ)音虛擬鍵盤包含的鍵元素,使用語(yǔ)音指令來(lái)確認(rèn)或者選擇所述的輸出結(jié)果;G.不斷精確解析外部的各種聲音輸入,將解析結(jié)果與用戶指令詞庫(kù)即鍵元素?cái)?shù)據(jù)庫(kù)中的使用者的發(fā)音指令數(shù)據(jù)相比較,判定使用者是否確認(rèn)或者選擇;如果判定使用者已經(jīng)確認(rèn)或者選擇,則繼續(xù)執(zhí)行步驟H;如果使用者沒(méi)有確認(rèn)或者選擇,則跳轉(zhuǎn)執(zhí)行步驟I;H.判定使用者確認(rèn)或選擇的結(jié)果是否是最終目標(biāo)數(shù)據(jù)如果所述數(shù)據(jù)不是最終目標(biāo)數(shù)據(jù),則進(jìn)一步搜索目標(biāo)數(shù)據(jù)庫(kù),得到更接近最終目標(biāo)數(shù)據(jù)的搜索結(jié)果,然后重復(fù)步驟E、F輸出,供使用者再次確認(rèn)或者選擇;如果使用者確認(rèn)或選擇的一警示是最終的目標(biāo)數(shù)據(jù),就將目標(biāo)數(shù)據(jù)輸出到系統(tǒng)的其他部分進(jìn)行下一步操作,并結(jié)束本次交互控制的操作;I.根據(jù)控制服務(wù)程序的設(shè)定,或者提示用戶重新操作,或者重新設(shè)置操作入口進(jìn)行其他操作,或者終止本次交互控制的操作。
5.權(quán)利要求4所述的用于交互控制的語(yǔ)音虛擬鍵盤的使用方法,在步驟C、D、E中還包含以下步驟J.計(jì)算機(jī)系統(tǒng)精確解析用戶的發(fā)音,然后在與使用者對(duì)應(yīng)的語(yǔ)音數(shù)據(jù)庫(kù)中搜索、比較,得到與該使用者的關(guān)鍵詞發(fā)音相對(duì)應(yīng)的數(shù)據(jù)代碼;K.利用步驟H的精確解析結(jié)果代碼為標(biāo)的,搜索所述的目標(biāo)數(shù)據(jù)庫(kù),如果得到了相符合的結(jié)果,則執(zhí)行步驟F,如果沒(méi)有得到相符合的結(jié)果,繼續(xù)執(zhí)行步驟L;L.計(jì)算機(jī)系統(tǒng)模糊解析用戶的發(fā)音,然后在與使用者對(duì)應(yīng)的語(yǔ)音數(shù)據(jù)庫(kù)中搜索、比較,得到與該使用者的關(guān)鍵詞發(fā)音相對(duì)應(yīng)的數(shù)據(jù)代碼;M.利用步驟K的模糊解析結(jié)果代碼為標(biāo)的,搜索所述的目標(biāo)數(shù)據(jù)庫(kù),如果得到了相符合的結(jié)果,繼續(xù)執(zhí)行步驟F,如果沒(méi)有得到相符合的結(jié)果,則跳轉(zhuǎn)執(zhí)行步驟I。
6.權(quán)利要求4所述的用于交互控制的語(yǔ)音虛擬鍵盤的使用方法,在步驟F中所述的語(yǔ)音輸出的步驟中,還包含有添加與所屬目標(biāo)數(shù)據(jù)相關(guān)的輔助說(shuō)明的詞語(yǔ)的步驟,并將輔助說(shuō)明的詞語(yǔ)與目標(biāo)結(jié)果結(jié)合起來(lái)一同輸出。
全文摘要
本發(fā)明公開了一種通過(guò)少量詞匯的精確識(shí)別(語(yǔ)音虛擬鍵盤)和多次交互來(lái)實(shí)現(xiàn)語(yǔ)音輸入和控制的方法。本發(fā)明使用由少量詞語(yǔ)如數(shù)字0-9以及“是”、“否”詞語(yǔ)構(gòu)成的數(shù)量極少的指令詞庫(kù)數(shù)據(jù)庫(kù)。當(dāng)計(jì)算機(jī)模糊或精確檢索到用戶語(yǔ)音輸入的目標(biāo)命令后,利用指令詞庫(kù)內(nèi)的鍵元素排序輸出檢索結(jié)果供用戶選擇或確認(rèn),然后高精度匹配用戶的選擇或確認(rèn)的指令詞,實(shí)現(xiàn)交互控制。本發(fā)明可應(yīng)用于汽車導(dǎo)航、過(guò)程控制等領(lǐng)域,替代鍵盤等輸入設(shè)備。
文檔編號(hào)G10L15/22GK1629934SQ200410039109
公開日2005年6月22日 申請(qǐng)日期2004年2月6日 優(yōu)先權(quán)日2004年2月6日
發(fā)明者劉新斌 申請(qǐng)人:劉新斌
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
昌邑市| 当雄县| 伊川县| 枣阳市| 自贡市| 福贡县| 遂川县| 诏安县| 汉沽区| 灵川县| 龙陵县| 顺义区| 翁牛特旗| 松阳县| 侯马市| 凤台县| 怀集县| 株洲县| 竹溪县| 武冈市| 雅江县| 都匀市| 固阳县| 蒲江县| 明水县| 十堰市| 台南县| 建湖县| 舟山市| 江城| 澜沧| 罗山县| 咸宁市| 台东市| 烟台市| 尼玛县| 贵港市| 新密市| 驻马店市| 崇文区| 贵阳市|