專(zhuān)利名稱(chēng):語(yǔ)音輸入裝置的制作方法
技術(shù)領(lǐng)域:
本實(shí)用新型涉及一種計(jì)算機(jī)語(yǔ)音輸入技術(shù),特別的涉及將說(shuō)話語(yǔ)音轉(zhuǎn)變?yōu)橄鄳?yīng)文 字的語(yǔ)音輸入裝置。
背景技術(shù):
計(jì)算機(jī)的出現(xiàn)給人們書(shū)寫(xiě)文字和寫(xiě)作提供了巨大的方便,它使得任何稍微懂得計(jì) 算機(jī)的人都可以方便地寫(xiě)任何文件、書(shū)信。迄今為止,用計(jì)算機(jī)書(shū)寫(xiě)文字的最好和使用最為 普遍的方法是用鍵盤(pán)。但是這方法有兩個(gè)缺點(diǎn),一是速度慢,尤其是用戶鍵盤(pán)輸入中文,因 為鍵盤(pán)本質(zhì)上是為輸入西方文字而設(shè)計(jì)的;二是要求使用者有必要的鍵盤(pán)輸入的訓(xùn)練和技 巧,尤其是具有較高輸入速度要求的時(shí)候。由于用鍵盤(pán)輸入文字速度慢,而人們說(shuō)話的速度遠(yuǎn)遠(yuǎn)快于鍵盤(pán)輸入的速度,所以 它不適于做會(huì)議、談話的記錄。而對(duì)于沒(méi)有經(jīng)過(guò)專(zhuān)門(mén)訓(xùn)練的人,用鍵盤(pán)來(lái)快速輸入篇幅比較 長(zhǎng)的中文,是一項(xiàng)非常困難的工作。美國(guó)的IBM公司在過(guò)去一些年做了不少語(yǔ)音識(shí)別和語(yǔ)音合成的研究工作,在此基 礎(chǔ)上開(kāi)發(fā)出了名為“VIAV0ICE”的語(yǔ)音識(shí)別技術(shù)和產(chǎn)品。它是個(gè)開(kāi)發(fā)成熟而使用較廣的技 術(shù),目前已應(yīng)用在許多公司的手機(jī)和其它電子產(chǎn)品上,用于接收用戶發(fā)出的語(yǔ)音指令。但是 該技術(shù)識(shí)別短語(yǔ)和單詞的量有限,識(shí)別的正確率約在50-70%之間。由于錯(cuò)誤比例太大,使 用起來(lái)很不方便,所以除了用在手機(jī)指令系統(tǒng),其他使用場(chǎng)合很少見(jiàn)到。此外其他幾個(gè)公司 也做過(guò)類(lèi)似語(yǔ)音輸入的嘗試,結(jié)果并不比IBM技術(shù)更好,因此其技術(shù)基本不為市場(chǎng)所接受, 產(chǎn)品也無(wú)人問(wèn)津。VIAV0ICE和其他現(xiàn)存語(yǔ)音識(shí)別與輸入技術(shù)內(nèi)容總的來(lái)說(shuō),都是用查字典(數(shù)據(jù) 庫(kù))的方式完成的。即對(duì)一種語(yǔ)言,建立一個(gè)詞匯發(fā)音與對(duì)應(yīng)詞匯文字的盡可能完全的數(shù) 據(jù)庫(kù)。用戶說(shuō)出的話被話筒收入后,輸入計(jì)算機(jī)轉(zhuǎn)為數(shù)值音頻信號(hào)。對(duì)于相應(yīng)于音頻信號(hào) 中每個(gè)字詞的音素,其技術(shù)通過(guò)查找數(shù)據(jù)庫(kù)把相應(yīng)的詞尋找出來(lái),由此把語(yǔ)音輸入轉(zhuǎn)換為 文字。然而由于對(duì)應(yīng)一個(gè)音素,往往有多個(gè)字或者詞,而僅憑查數(shù)據(jù)庫(kù)無(wú)法確定應(yīng)該取 哪一個(gè),所以上述產(chǎn)品都默認(rèn)采取數(shù)據(jù)庫(kù)中的第一個(gè)字或詞。VIAV0ICE和其他現(xiàn)存語(yǔ)音識(shí)別與輸入技術(shù)的另外一個(gè)出錯(cuò)的來(lái)源是噪音的干擾。 當(dāng)人說(shuō)出的話語(yǔ)通過(guò)話筒輸入電腦而轉(zhuǎn)化為數(shù)值音素時(shí),由于話筒質(zhì)量問(wèn)題、音頻采集過(guò) 程和數(shù)模轉(zhuǎn)化,不可避免地都會(huì)產(chǎn)生噪音,這些噪音疊加在語(yǔ)音信號(hào)上,在輸入音素中占相 當(dāng)大的比例,從而導(dǎo)致偽語(yǔ)音輸入信號(hào),必然導(dǎo)致語(yǔ)音識(shí)別容易出現(xiàn)錯(cuò)誤。
實(shí)用新型內(nèi)容本實(shí)用新型的目的在于提供一種能夠?qū)崿F(xiàn)語(yǔ)音輸入高識(shí)別率、智能識(shí)別輸入的裝置。實(shí)現(xiàn)本實(shí)用新型目的的技術(shù)方案是[0010]一種語(yǔ)音輸入裝置,包括語(yǔ)音收集器、數(shù)模轉(zhuǎn)換音卡、Z變換集成電路模塊、智能語(yǔ)音識(shí)別器、存儲(chǔ)器和顯示模塊,上述語(yǔ)音收集器與數(shù)模轉(zhuǎn)換音卡連接,數(shù)模轉(zhuǎn)換音卡與Z變 換集成電路模塊連接,Z變換集成電路模塊與存儲(chǔ)器連接,智能語(yǔ)音識(shí)別器與存儲(chǔ)器連接, 顯示模塊與存儲(chǔ)器連接。上述智能語(yǔ)音識(shí)別器具有智能語(yǔ)言識(shí)別核心,存儲(chǔ)器包括字詞數(shù)據(jù)庫(kù)、語(yǔ)法數(shù)據(jù) 庫(kù)、慣用法數(shù)據(jù)庫(kù)和文章領(lǐng)域、風(fēng)格與內(nèi)容信息數(shù)據(jù)庫(kù),上述智能語(yǔ)言識(shí)別核心分別與字詞 數(shù)據(jù)庫(kù)、語(yǔ)法數(shù)據(jù)庫(kù)、慣用法數(shù)據(jù)庫(kù)和文章領(lǐng)域、風(fēng)格與內(nèi)容信息數(shù)據(jù)庫(kù)連接。本實(shí)用新型具有如下好處1、提供了一個(gè)高分辨率和高質(zhì)量的語(yǔ)音輸入技術(shù),使 得計(jì)算機(jī)和其他電子器件的語(yǔ)音輸入的錯(cuò)誤率大大降低,語(yǔ)音輸入文字成為一項(xiàng)可以普遍 接受使用,代替鍵盤(pán)輸入的一項(xiàng)快速簡(jiǎn)單的文字輸入和文章書(shū)寫(xiě)的方式;2、使用本實(shí)用新 型技術(shù),可使用計(jì)算機(jī)和其他電子器材(如手機(jī),掌上電腦等)對(duì)會(huì)議,交談做實(shí)時(shí)快速的 記錄,大大提高這類(lèi)場(chǎng)合的文字記錄的速度。
圖1為本實(shí)用新型示意圖。圖2為圖1中智能語(yǔ)言識(shí)別核心與數(shù)據(jù)庫(kù)的連接示意框圖。
具體實(shí)施方式
見(jiàn)圖1和2,本實(shí)用新型裝置包括高質(zhì)量的輸入話筒、高分辨率的數(shù)模轉(zhuǎn)換音卡、 Z變換集成電路模塊、智能語(yǔ)音識(shí)別器、存儲(chǔ)器和顯示模塊,上述輸入話筒與數(shù)模轉(zhuǎn)換音卡 連接,數(shù)模轉(zhuǎn)換音卡與Z變換集成電路模塊連接,Z變換集成電路模塊與存儲(chǔ)器連接,智能 語(yǔ)音識(shí)別器與存儲(chǔ)器連接,顯示模塊與存儲(chǔ)器連接。智能語(yǔ)音識(shí)別器具有智能語(yǔ)言識(shí)別核 心,存儲(chǔ)器包括字詞數(shù)據(jù)庫(kù)、語(yǔ)法數(shù)據(jù)庫(kù)、慣用法數(shù)據(jù)庫(kù)和文章領(lǐng)域、風(fēng)格與內(nèi)容信息數(shù)據(jù) 庫(kù)各個(gè)單元,智能語(yǔ)言識(shí)別核心分別與字詞數(shù)據(jù)庫(kù)、語(yǔ)法數(shù)據(jù)庫(kù)、慣用法數(shù)據(jù)庫(kù)和文章領(lǐng) 域、風(fēng)格與內(nèi)容信息數(shù)據(jù)庫(kù)各單元連接。在語(yǔ)音輸入過(guò)程中,用戶的說(shuō)話通過(guò)輸入話筒轉(zhuǎn)化成電流信號(hào),并輸入到數(shù)模轉(zhuǎn) 換音卡中,轉(zhuǎn)換成數(shù)字音頻信號(hào)。由于語(yǔ)音輸入環(huán)境及技術(shù)處理問(wèn)題,數(shù)字音頻信號(hào)中混有 噪音,分背景噪音、話筒反映噪音和數(shù)模轉(zhuǎn)換噪音,這些噪音會(huì)影響對(duì)語(yǔ)音的判斷,并可能 造成語(yǔ)音識(shí)別的錯(cuò)誤。Z變換集成電路用來(lái)對(duì)經(jīng)過(guò)數(shù)字音頻信號(hào)進(jìn)行Z變換及Z變換的逆 變換,Z變換為數(shù)學(xué)上的離散數(shù)值變換,經(jīng)過(guò)Z變換后的數(shù)字音頻信號(hào)由原來(lái)的按時(shí)間領(lǐng)域 分布改變?yōu)榘搭l率領(lǐng)域分布,這樣可以方便的區(qū)分出噪音頻率和需要輸入的語(yǔ)音頻率,并 把噪音頻率去除,然后再進(jìn)行Z變換的逆變換,把過(guò)濾后的音頻信號(hào)回復(fù)到按時(shí)間領(lǐng)域分 布的狀態(tài),此時(shí)原來(lái)存在的噪音被去除了。語(yǔ)音的識(shí)別工作由語(yǔ)音識(shí)別器完成,語(yǔ)音識(shí)別器中存有多種話音數(shù)據(jù)庫(kù),包括吳 語(yǔ)音字?jǐn)?shù)據(jù)庫(kù)、廣東話音字?jǐn)?shù)據(jù)庫(kù)、四川話音字?jǐn)?shù)據(jù)庫(kù)、普通話音字?jǐn)?shù)據(jù)庫(kù)、英國(guó)英語(yǔ)數(shù)據(jù) 庫(kù)和美國(guó)英語(yǔ)數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)可以由用戶選擇使用,可以設(shè)定默認(rèn)的使用數(shù)據(jù)庫(kù)種類(lèi) 或者設(shè)定兩個(gè)以上的數(shù)據(jù)庫(kù)作為使用范圍。經(jīng)過(guò)過(guò)濾的語(yǔ)音數(shù)字音頻信號(hào)由語(yǔ)音識(shí)別器進(jìn)行識(shí)別,首先對(duì)語(yǔ)音進(jìn)行判斷,將 代表單個(gè)獨(dú)立詞的音素區(qū)分開(kāi),然后對(duì)照選定的話音字?jǐn)?shù)據(jù)庫(kù),找出對(duì)應(yīng)該因素的字、詞,由于限定了語(yǔ)音字?jǐn)?shù)據(jù)庫(kù),可以較準(zhǔn)確的找出對(duì)應(yīng)的字、詞。當(dāng)用戶說(shuō)完一個(gè)句子或者一個(gè) 段落時(shí),智能語(yǔ)音識(shí)別器需要再次對(duì)這個(gè)句子或者段落進(jìn)行整體識(shí)別,參照上下文確定每 一個(gè)字、詞。此時(shí)智能語(yǔ)音識(shí)別器的智能語(yǔ)言識(shí)別核心需要調(diào)用字詞數(shù)據(jù)庫(kù)、語(yǔ)法數(shù)據(jù)庫(kù)、 慣用法數(shù)據(jù)庫(kù)和判斷文章的領(lǐng)域、風(fēng)格與內(nèi)容信息數(shù)據(jù)庫(kù)的相關(guān)內(nèi)容,對(duì)句子或者段落的 不流暢、有歧義的地方進(jìn)行糾正,以獲得最符合語(yǔ)音來(lái)源者本意的文字,并且最終通過(guò)顯示 單元顯示出來(lái),當(dāng)然也可以將這些文字材料直接輸出到用戶選擇的通道,比如直接存入文 件,或者通過(guò)網(wǎng)絡(luò)傳送出去。 智能語(yǔ)言識(shí)別核心調(diào)用的文章的領(lǐng)域、風(fēng)格與內(nèi)容信息數(shù)據(jù)庫(kù)能夠在識(shí)別過(guò)程 中,隨著輸入的語(yǔ)言增多而不斷補(bǔ)充其內(nèi)容,這些增加的內(nèi)容又可以被智能語(yǔ)言識(shí)別核心 調(diào)用,即領(lǐng)域、風(fēng)格與內(nèi)容信息數(shù)據(jù)庫(kù)具有自我學(xué)習(xí)功能。
權(quán)利要求1. 一種語(yǔ)音輸入裝置,其特征在于包括語(yǔ)音收集器、數(shù)模轉(zhuǎn)換音卡、Z變換集成電路 模塊、智能語(yǔ)音識(shí)別器、存儲(chǔ)器和顯示模塊,上述語(yǔ)音收集器與數(shù)模轉(zhuǎn)換音卡連接,數(shù)模轉(zhuǎn) 換音卡與Z變換集成電路模塊連接,Z變換集成電路模塊與存儲(chǔ)器連接,智能語(yǔ)音識(shí)別器與 存儲(chǔ)器連接,顯示模塊與存儲(chǔ)器連接。
專(zhuān)利摘要本實(shí)用新型涉及一種計(jì)算機(jī)語(yǔ)音輸入技術(shù),特別的涉及將說(shuō)話語(yǔ)音轉(zhuǎn)變?yōu)橄鄳?yīng)文字的語(yǔ)音輸入裝置。目的在于提供一種能夠?qū)崿F(xiàn)語(yǔ)音輸入高識(shí)別率、智能識(shí)別輸入的裝置。一種語(yǔ)音輸入裝置,包括語(yǔ)音收集器、數(shù)模轉(zhuǎn)換音卡、Z變換集成電路模塊、智能語(yǔ)音識(shí)別器、存儲(chǔ)器和顯示模塊,上述語(yǔ)音收集器與數(shù)模轉(zhuǎn)換音卡連接,數(shù)模轉(zhuǎn)換音卡與Z變換集成電路模塊連接,Z變換集成電路模塊與存儲(chǔ)器連接,智能語(yǔ)音識(shí)別器與存儲(chǔ)器連接,顯示模塊與存儲(chǔ)器連接。
文檔編號(hào)G06F3/16GK201853219SQ20102020949
公開(kāi)日2011年6月1日 申請(qǐng)日期2010年5月31日 優(yōu)先權(quán)日2010年5月31日
發(fā)明者劉彤 申請(qǐng)人:劉彤