本發(fā)明涉及電子字典檢索方法,尤其涉及一種利用語(yǔ)音查詢漢字的字典檢索方法及系統(tǒng)。
背景技術(shù):
傳統(tǒng)的紙質(zhì)字典檢索是利用拼音或部首的方式進(jìn)行檢索。而隨著人們工作、學(xué)習(xí)方式的改變以及移動(dòng)互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,目前人們學(xué)習(xí)的方式正由傳統(tǒng)的紙質(zhì)逐漸轉(zhuǎn)向電子式學(xué)習(xí),通過(guò)移動(dòng)終端進(jìn)行電子式學(xué)習(xí),使人們可以隨時(shí)隨地的學(xué)習(xí),為此紙質(zhì)字典也進(jìn)行了電子字典的拓展。
現(xiàn)有的中文電子字典查詢方法需要先輸入待查詢的字,才能查到該字的解釋,不會(huì)拼音、輸入法選字繁瑣等都會(huì)給檢索造成不便甚至不能完成檢索,因而市場(chǎng)需要電子字典檢索的進(jìn)一步改進(jìn),或出現(xiàn)一種新的檢索方式;
已經(jīng)出現(xiàn)的有語(yǔ)音識(shí)別進(jìn)行檢索的方式。然而,中文拼音有4個(gè)單調(diào),漢字、拼音、音調(diào)、語(yǔ)境造就了中文的博大精深,但這也不可避免的形成了不同的漢字的拼音和音調(diào)一致,也就是所謂的同音字,中文的漢字因此有很多都具有同音字。比如在商務(wù)印書(shū)館出版的第11版《新華字典》中,經(jīng)官方統(tǒng)計(jì),共收錄了包括繁體字和異體字在內(nèi)的共計(jì)約13720個(gè)漢字,而漢字的不帶聲調(diào)的音節(jié)數(shù)量約為416個(gè),即使帶聲調(diào)后的音節(jié)也只有1327個(gè)。根據(jù)不帶聲調(diào)的音節(jié)歸并同音字,那么13720個(gè)漢字中的12794個(gè)漢字以音節(jié)進(jìn)行查詢時(shí)都會(huì)有超過(guò)10個(gè)以上的同音字作為目標(biāo)待查漢字的干擾項(xiàng),其中最多的一個(gè)有300個(gè)以上的同音字。
通過(guò)識(shí)別單個(gè)目標(biāo)漢字發(fā)音的方式來(lái)輸入目標(biāo)待查漢字時(shí),會(huì)由于大量同音字的存在而出現(xiàn)輸入效率低下的問(wèn)題。
而對(duì)于一本字典,字是其最重要的查詢項(xiàng),現(xiàn)有的字典只能提供詞語(yǔ)或句子的語(yǔ)音輸入查詢,針對(duì)單個(gè)漢字的語(yǔ)音輸入查詢因?yàn)樾瘦^低而較少使用。
一般的單音節(jié)檢索方法,根據(jù)候選字的常見(jiàn)頻率來(lái)展示候選字,這種展示對(duì)于詞典用戶效果不佳,原因是大部分字典使用者都是想查低頻字、不認(rèn)識(shí)或生僻字等非常見(jiàn)的字;因此一個(gè)更準(zhǔn)確的理解用戶查詞目的,以盡量減少用戶候選字?jǐn)?shù)量的方法非常有必要,如何快速的篩選出待查漢字提高檢索效率也十分必要。
技術(shù)實(shí)現(xiàn)要素:
鑒于目前存在的上述不足,本發(fā)明提供一種利用語(yǔ)音查詢漢字的字典檢索方法及系統(tǒng),能夠在線語(yǔ)音識(shí)別檢索對(duì)應(yīng)的漢字,利用含有目標(biāo)待查漢字的詞語(yǔ)、短語(yǔ)或句子的方式進(jìn)行查詢,大大提高了檢索的效率,檢索速度快,便捷性高。
為達(dá)到上述目的,本發(fā)明的實(shí)施例采用如下技術(shù)方案:
一種利用語(yǔ)音查詢漢字的字典檢索方法,所述利用語(yǔ)音查詢漢字的字典檢索方法包括以下步驟:
獲取含有目標(biāo)漢字的語(yǔ)音輸入信息;
對(duì)語(yǔ)音輸入信息進(jìn)行識(shí)別并匹配出候選漢字;
從候選漢字中選擇目標(biāo)漢字進(jìn)行檢索。
依照本發(fā)明的一個(gè)方面,所述含有目標(biāo)漢字的語(yǔ)音輸入信息為:含有目標(biāo)漢字的詞語(yǔ)或短語(yǔ)或句子語(yǔ)音。
依照本發(fā)明的一個(gè)方面,所述獲取含有目標(biāo)漢字的語(yǔ)音輸入信息包括:通過(guò)語(yǔ)音輸入模塊提示用戶輸入含目標(biāo)漢字的詞語(yǔ)或短語(yǔ)或句子語(yǔ)音,并通過(guò)該語(yǔ)音輸入模塊獲取用戶輸入的語(yǔ)音信息。
依照本發(fā)明的一個(gè)方面,所述對(duì)語(yǔ)音信息進(jìn)行識(shí)別并匹配出候選漢字包括:
對(duì)所述語(yǔ)音輸入信息進(jìn)行語(yǔ)音識(shí)別處理,以獲得與所述語(yǔ)音輸入信息相對(duì)應(yīng)的語(yǔ)言字符串;
根據(jù)所述語(yǔ)言字符串,在與對(duì)應(yīng)的輸入詞庫(kù)中進(jìn)行匹配查詢,以獲得與所述語(yǔ)言字符串相匹配的一個(gè)或多個(gè)輸入候選文本;
將所述一個(gè)或多個(gè)輸入候選文本中至少一個(gè)提供給用戶為候選漢字。
依照本發(fā)明的一個(gè)方面,所述對(duì)語(yǔ)音信息進(jìn)行識(shí)別并匹配出候選漢字包括:
進(jìn)行語(yǔ)音識(shí)別,獲得一段最大可能性的詞語(yǔ)、短語(yǔ)或者句子的漢字序列;
將該漢字序列的重復(fù)漢字過(guò)濾得到一個(gè)不重復(fù)的漢字序列;
將該漢字序列在前端輸出為候選漢字。
依照本發(fā)明的一個(gè)方面,所述對(duì)語(yǔ)音信息進(jìn)行識(shí)別并匹配出候選漢字包括:
進(jìn)行語(yǔ)音識(shí)別,獲得一段最大可能性的詞語(yǔ)、短語(yǔ)或者句子的漢字序列;
將該漢字序列的重復(fù)漢字過(guò)濾得到一個(gè)不重復(fù)的漢字序列;
將獲得的漢字序列轉(zhuǎn)換成一組或多組音節(jié)序列;
將該音節(jié)序列與已構(gòu)建的詞語(yǔ)庫(kù)、短語(yǔ)庫(kù)內(nèi)詞語(yǔ)或短語(yǔ)的音節(jié)序列進(jìn)行匹配;
將最開(kāi)始識(shí)別出的漢字連同映射匹配的同音節(jié)詞語(yǔ)或短語(yǔ)中的漢字一同在前端輸出為候選漢字。
依照本發(fā)明的一個(gè)方面,所述從候選漢字中選擇目標(biāo)漢字進(jìn)行檢索包括:如候選漢字中有目標(biāo)漢字,則選擇目標(biāo)漢字進(jìn)行查字;如候選漢字中無(wú)目標(biāo)漢字,則重新輸入語(yǔ)音進(jìn)行識(shí)別,直至候選漢字中有目標(biāo)漢字。
依照本發(fā)明的一個(gè)方面,所述利用語(yǔ)音查詢漢字的字典檢索方法包括以下步驟:調(diào)取目標(biāo)漢字解析,完成檢索。
一種利用語(yǔ)音查詢漢字的字典檢索系統(tǒng),所述利用語(yǔ)音查詢漢字的字典檢索系統(tǒng)包括:
語(yǔ)音輸入模塊,用于獲取含有目標(biāo)漢字的語(yǔ)音輸入信息;
語(yǔ)音識(shí)別模塊,用于對(duì)語(yǔ)音輸入信息進(jìn)行識(shí)別并匹配出候選漢字;
檢索模塊,用于從候選漢字中選擇目標(biāo)漢字進(jìn)行檢索;
數(shù)據(jù)庫(kù)模塊,用于提供候選漢字庫(kù)。
依照本發(fā)明的一個(gè)方面,所述語(yǔ)音輸入模塊包括:輸入提示模塊,用于提示用戶輸入含目標(biāo)漢字的詞語(yǔ)或短語(yǔ)或句子語(yǔ)音。
依照本發(fā)明的一個(gè)方面,所述數(shù)據(jù)庫(kù)模塊包括:用于映射匹配的詞語(yǔ)庫(kù)或短語(yǔ)庫(kù)。
本發(fā)明實(shí)施的優(yōu)點(diǎn):本發(fā)明所述的利用語(yǔ)音查詢漢字的字典檢索方法包括以下步驟:獲取含有目標(biāo)漢字的語(yǔ)音輸入信息;對(duì)語(yǔ)音輸入信息進(jìn)行識(shí)別并匹配出候選漢字;從候選漢字中選擇目標(biāo)漢字進(jìn)行檢索;進(jìn)一步的,是通過(guò)識(shí)別含有目標(biāo)漢字的詞語(yǔ)、短語(yǔ)或者句子的語(yǔ)音輸入信息,由于中文存在的同音字太多,單個(gè)音節(jié)辨識(shí)度低導(dǎo)致檢索不準(zhǔn)確,造成單個(gè)漢字的語(yǔ)音檢索效率低;而詞語(yǔ)或句子中尤其是詞語(yǔ)的辨識(shí)度高,利用包含目標(biāo)漢字的多音節(jié)詞語(yǔ)、短語(yǔ)或句子進(jìn)行語(yǔ)音輸入,再將語(yǔ)音進(jìn)行識(shí)別匹配,在語(yǔ)音識(shí)別結(jié)果輸出之前先把最大可能匹配漢字轉(zhuǎn)換為一組音節(jié)序列并進(jìn)行同音節(jié)詞語(yǔ)或短語(yǔ)的映射,將映射的同音節(jié)詞語(yǔ)或短語(yǔ)連同之前識(shí)別的漢字與中文編碼字符集映射輸出,供用戶選擇進(jìn)入對(duì)應(yīng)的釋義檢索。可有效減少目標(biāo)待查漢字的同音字對(duì)目標(biāo)漢字的干擾,用戶的候選字?jǐn)?shù)量大幅下降,從而可以實(shí)現(xiàn)更高效的字典檢索。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例一所述的利用語(yǔ)音查詢漢字的字典檢索方法示意圖;
圖2為本發(fā)明實(shí)施例二所述的利用語(yǔ)音查詢漢字的字典檢索方法示意圖;
圖3為本發(fā)明實(shí)施例三所述的利用語(yǔ)音查詢漢字的字典檢索方法示意圖;
圖4為本發(fā)明實(shí)施例四所述的利用語(yǔ)音查詢漢字的字典檢索方法示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
實(shí)施例一
如圖1所示,一種利用語(yǔ)音查詢漢字的字典檢索方法,所述利用語(yǔ)音查詢漢字的字典檢索方法包括以下步驟:
步驟s1:獲取含有目標(biāo)漢字的語(yǔ)音輸入信息;
所述步驟s1獲取含有目標(biāo)漢字的語(yǔ)音輸入信息的具體實(shí)施方式可為:通過(guò)語(yǔ)音識(shí)別模塊進(jìn)行語(yǔ)音輸入信息獲取,語(yǔ)音識(shí)別模塊是語(yǔ)音識(shí)別sdk插件或在線語(yǔ)音識(shí)別api,如基于開(kāi)源語(yǔ)音識(shí)別引擎cmusphinx開(kāi)發(fā)的語(yǔ)音識(shí)別sdk插件、科大訊飛的語(yǔ)音識(shí)別在線api等。
在實(shí)際應(yīng)用中,錄入語(yǔ)音的語(yǔ)言有多種方式,優(yōu)選采用普通話輸入語(yǔ)音。
步驟s2:對(duì)語(yǔ)音輸入信息進(jìn)行識(shí)別并匹配出候選漢字;
所述步驟s2對(duì)語(yǔ)音輸入信息進(jìn)行識(shí)別并匹配出候選漢字包括:
對(duì)所述語(yǔ)音輸入信息進(jìn)行語(yǔ)音識(shí)別處理,以獲得與所述語(yǔ)音輸入信息相對(duì)應(yīng)的語(yǔ)言字符串;
根據(jù)所述語(yǔ)言字符串,在與對(duì)應(yīng)的輸入詞庫(kù)中進(jìn)行匹配查詢,以獲得與所述語(yǔ)言字符串相匹配的一個(gè)或多個(gè)輸入候選文本;
將所述一個(gè)或多個(gè)輸入候選文本中至少一個(gè)提供給用戶為候選漢字。
步驟s3:從候選漢字中選擇目標(biāo)漢字進(jìn)行檢索。
在實(shí)際應(yīng)用中,檢索載體字典是一種電子字典,包括在線字典和離線字典。
在實(shí)際應(yīng)用中,從候選漢字中選擇目標(biāo)漢字進(jìn)行檢索包括:如候選漢字中有目標(biāo)漢字,則選擇目標(biāo)漢字進(jìn)行查字;如候選漢字中無(wú)目標(biāo)漢字,則重新輸入語(yǔ)音進(jìn)行識(shí)別,直至候選漢字中有目標(biāo)漢字。
實(shí)施例二
如圖2所示,一種利用語(yǔ)音查詢漢字的字典檢索方法,所述利用語(yǔ)音查詢漢字的字典檢索方法包括以下步驟:
步驟s1:獲取含有目標(biāo)漢字的語(yǔ)音輸入信息;
所述步驟s1獲取含有目標(biāo)漢字的語(yǔ)音輸入信息的具體實(shí)施方式可為:通過(guò)語(yǔ)音識(shí)別模塊進(jìn)行語(yǔ)音輸入信息獲取,語(yǔ)音識(shí)別模塊是語(yǔ)音識(shí)別sdk插件或在線語(yǔ)音識(shí)別api,如基于開(kāi)源語(yǔ)音識(shí)別引擎cmusphinx開(kāi)發(fā)的語(yǔ)音識(shí)別sdk插件、科大訊飛的語(yǔ)音識(shí)別在線api等。
在實(shí)際應(yīng)用中,錄入語(yǔ)音的語(yǔ)言有多種方式,優(yōu)選采用普通話輸入語(yǔ)音。
在實(shí)際應(yīng)用中,所述含有目標(biāo)漢字的語(yǔ)音輸入信息為:含有目標(biāo)漢字的詞語(yǔ)或短語(yǔ)或句子語(yǔ)音。通過(guò)語(yǔ)音輸入模塊提示用戶輸入含目標(biāo)漢字的詞語(yǔ)或短語(yǔ)或句子語(yǔ)音,并通過(guò)該語(yǔ)音輸入模塊獲取用戶輸入的語(yǔ)音信息。
步驟s2:對(duì)語(yǔ)音輸入信息進(jìn)行識(shí)別并匹配出候選漢字;
所述步驟s2對(duì)語(yǔ)音輸入信息進(jìn)行識(shí)別并匹配出候選漢字包括:
對(duì)語(yǔ)音信息進(jìn)行識(shí)別并匹配出候選漢字包括:
進(jìn)行語(yǔ)音識(shí)別,獲得一段最大可能性的詞語(yǔ)、短語(yǔ)或者句子的漢字序列;
將該漢字序列的重復(fù)漢字過(guò)濾得到一個(gè)不重復(fù)的漢字序列;
將該漢字序列在前端輸出為候選漢字。
利用詞語(yǔ)或短語(yǔ)檢索時(shí),通過(guò)轉(zhuǎn)換的一組音節(jié)反向檢索同音詞語(yǔ)或短語(yǔ),將可能的同音詞語(yǔ)或短語(yǔ)一并輸出,避免只選一個(gè)詞語(yǔ)或短語(yǔ)造成的目標(biāo)漢字包含失敗,提高了檢索的效率。
可以根據(jù)需要自動(dòng)屏蔽或跳過(guò)常用字的輸出,直接輸出不常用的字。
步驟s3:從候選漢字中選擇目標(biāo)漢字進(jìn)行檢索。
在實(shí)際應(yīng)用中,檢索載體字典是一種電子字典,包括在線字典和離線字典。
在實(shí)際應(yīng)用中,從候選漢字中選擇目標(biāo)漢字進(jìn)行檢索包括:如候選漢字中有目標(biāo)漢字,則選擇目標(biāo)漢字進(jìn)行查字;如候選漢字中無(wú)目標(biāo)漢字,則重新輸入語(yǔ)音進(jìn)行識(shí)別,直至候選漢字中有目標(biāo)漢字。
實(shí)施例三
如圖3所示,一種利用語(yǔ)音查詢漢字的字典檢索方法,所述利用語(yǔ)音查詢漢字的字典檢索方法包括以下步驟:
步驟s1:獲取含有目標(biāo)漢字的語(yǔ)音輸入信息;
所述步驟s1獲取含有目標(biāo)漢字的語(yǔ)音輸入信息的具體實(shí)施方式可為:通過(guò)語(yǔ)音識(shí)別模塊進(jìn)行語(yǔ)音輸入信息獲取,語(yǔ)音識(shí)別模塊是語(yǔ)音識(shí)別sdk插件或在線語(yǔ)音識(shí)別api,如基于開(kāi)源語(yǔ)音識(shí)別引擎cmusphinx開(kāi)發(fā)的語(yǔ)音識(shí)別sdk插件、科大訊飛的語(yǔ)音識(shí)別在線api等。
在實(shí)際應(yīng)用中,錄入語(yǔ)音的語(yǔ)言有多種方式,優(yōu)選采用普通話輸入語(yǔ)音。
在實(shí)際應(yīng)用中,所述含有目標(biāo)漢字的語(yǔ)音輸入信息為:含有目標(biāo)漢字的詞語(yǔ)或短語(yǔ)或句子語(yǔ)音。通過(guò)語(yǔ)音輸入模塊提示用戶輸入含目標(biāo)漢字的詞語(yǔ)或短語(yǔ)或句子語(yǔ)音,并通過(guò)該語(yǔ)音輸入模塊獲取用戶輸入的語(yǔ)音信息。
步驟s2:對(duì)語(yǔ)音輸入信息進(jìn)行識(shí)別并匹配出候選漢字;
所述步驟s2對(duì)語(yǔ)音輸入信息進(jìn)行識(shí)別并匹配出候選漢字包括:
進(jìn)行語(yǔ)音識(shí)別,獲得一段最大可能性的詞語(yǔ)、短語(yǔ)或者句子的漢字序列;
將該漢字序列的重復(fù)漢字過(guò)濾得到一個(gè)不重復(fù)的漢字序列;
將獲得的漢字序列轉(zhuǎn)換成一組或多組音節(jié)序列;
將該音節(jié)序列與已構(gòu)建的詞語(yǔ)庫(kù)、短語(yǔ)庫(kù)內(nèi)詞語(yǔ)或短語(yǔ)的音節(jié)序列進(jìn)行匹配;
將最開(kāi)始識(shí)別出的漢字連同映射匹配的同音節(jié)詞語(yǔ)或短語(yǔ)中的漢字一同在前端輸出為候選漢字。
所述詞語(yǔ)庫(kù)、短語(yǔ)庫(kù),為電子形式存儲(chǔ)的詞語(yǔ)庫(kù)、短語(yǔ)庫(kù),收錄了現(xiàn)有的詞語(yǔ)、短語(yǔ)。
所述的詞語(yǔ)庫(kù)、短語(yǔ)庫(kù)可在后臺(tái)實(shí)時(shí)更新。
所述的詞語(yǔ),為包含至少兩個(gè)漢字的詞語(yǔ),可以是成語(yǔ),也可以是實(shí)詞、虛詞以及包含有實(shí)詞或虛詞的詞語(yǔ),實(shí)詞包括名詞、動(dòng)詞、形容詞、數(shù)詞、量詞;虛詞包括副詞、介詞、連詞、助詞、擬聲詞和嘆詞。
所述的短語(yǔ),包括主謂短語(yǔ)、動(dòng)賓短語(yǔ)、偏正短語(yǔ)、補(bǔ)語(yǔ)、聯(lián)合短語(yǔ)以及其他短語(yǔ)。
所述的詞語(yǔ)庫(kù)、短語(yǔ)庫(kù)采用現(xiàn)有的數(shù)據(jù)庫(kù)技術(shù)進(jìn)行構(gòu)建,比如可以采用sqlite、oracle、cdb數(shù)據(jù)庫(kù)等現(xiàn)有的數(shù)據(jù)庫(kù)技術(shù)建庫(kù),cdbsqlite數(shù)據(jù)庫(kù)是一種云開(kāi)源的輕量級(jí)關(guān)系型數(shù)據(jù)庫(kù),簡(jiǎn)易的cdb數(shù)據(jù)庫(kù)包括索引和數(shù)據(jù)文件,索引主鍵為音節(jié)序列,為一個(gè)key鍵,value值鍵內(nèi)存儲(chǔ)著數(shù)據(jù)文件,數(shù)據(jù)文件包括名稱、類型、音節(jié)等等鍵,轉(zhuǎn)換的一串音節(jié)與key鍵匹配再指向?qū)?yīng)的value值并與其中的音節(jié)匹配,value值中的音節(jié)映射有對(duì)應(yīng)的詞語(yǔ)或短語(yǔ),遍歷詞語(yǔ)庫(kù)或短語(yǔ)庫(kù)完成同音節(jié)詞語(yǔ)或短語(yǔ)的匹配。所述key鍵包括key值、數(shù)據(jù)指針和下一條記錄的key記錄指針,數(shù)據(jù)指針指向數(shù)據(jù)文件中具體value值的記錄位置。所述索引和數(shù)據(jù)文件是分離的,這樣動(dòng)態(tài)擴(kuò)容的時(shí)候不用做太多數(shù)據(jù)遷移和位置計(jì)算。
所述的句子,由字和詞語(yǔ)組成,是具有一定語(yǔ)調(diào)并表達(dá)一個(gè)完整意思的語(yǔ)言單位。
步驟s3:從候選漢字中選擇目標(biāo)漢字進(jìn)行檢索。
在實(shí)際應(yīng)用中,檢索載體字典是一種電子字典,包括在線字典和離線字典。
在實(shí)際應(yīng)用中,從候選漢字中選擇目標(biāo)漢字進(jìn)行檢索包括:如候選漢字中有目標(biāo)漢字,則選擇目標(biāo)漢字進(jìn)行查字;如候選漢字中無(wú)目標(biāo)漢字,則重新輸入語(yǔ)音進(jìn)行識(shí)別,直至候選漢字中有目標(biāo)漢字。
實(shí)施例四
如圖4所示,一種利用語(yǔ)音查詢漢字的字典檢索方法,所述利用語(yǔ)音查詢漢字的字典檢索方法包括以下步驟:
步驟s1:獲取含有目標(biāo)漢字的語(yǔ)音輸入信息;
所述步驟s1獲取含有目標(biāo)漢字的語(yǔ)音輸入信息的具體實(shí)施方式可為:通過(guò)語(yǔ)音識(shí)別模塊進(jìn)行語(yǔ)音輸入信息獲取,語(yǔ)音識(shí)別模塊是語(yǔ)音識(shí)別sdk插件或在線語(yǔ)音識(shí)別api,如基于開(kāi)源語(yǔ)音識(shí)別引擎cmusphinx開(kāi)發(fā)的語(yǔ)音識(shí)別sdk插件、科大訊飛的語(yǔ)音識(shí)別在線api等。
在實(shí)際應(yīng)用中,錄入語(yǔ)音的語(yǔ)言有多種方式,優(yōu)選采用普通話輸入語(yǔ)音。
在實(shí)際應(yīng)用中,所述含有目標(biāo)漢字的語(yǔ)音輸入信息為:含有目標(biāo)漢字的詞語(yǔ)或短語(yǔ)或句子語(yǔ)音。通過(guò)語(yǔ)音輸入模塊提示用戶輸入含目標(biāo)漢字的詞語(yǔ)或短語(yǔ)或句子語(yǔ)音,并通過(guò)該語(yǔ)音輸入模塊獲取用戶輸入的語(yǔ)音信息。
步驟s2:對(duì)語(yǔ)音輸入信息進(jìn)行識(shí)別并匹配出候選漢字;
所述步驟s2對(duì)語(yǔ)音輸入信息進(jìn)行識(shí)別并匹配出候選漢字包括:
進(jìn)行語(yǔ)音識(shí)別,獲得一段最大可能性的詞語(yǔ)、短語(yǔ)或者句子的漢字序列;
將該漢字序列的重復(fù)漢字過(guò)濾得到一個(gè)不重復(fù)的漢字序列;
將獲得的漢字序列轉(zhuǎn)換成一組或多組音節(jié)序列;
將該音節(jié)序列與已構(gòu)建的詞語(yǔ)庫(kù)、短語(yǔ)庫(kù)內(nèi)詞語(yǔ)或短語(yǔ)的音節(jié)序列進(jìn)行匹配;
將最開(kāi)始識(shí)別出的漢字連同映射匹配的同音節(jié)詞語(yǔ)或短語(yǔ)中的漢字一同在前端輸出為候選漢字。
所述詞語(yǔ)庫(kù)、短語(yǔ)庫(kù),為電子形式存儲(chǔ)的詞語(yǔ)庫(kù)、短語(yǔ)庫(kù),收錄了現(xiàn)有的詞語(yǔ)、短語(yǔ)。
所述的詞語(yǔ)庫(kù)、短語(yǔ)庫(kù)可在后臺(tái)實(shí)時(shí)更新。
所述的詞語(yǔ),為包含至少兩個(gè)漢字的詞語(yǔ),可以是成語(yǔ),也可以是實(shí)詞、虛詞以及包含有實(shí)詞或虛詞的詞語(yǔ),實(shí)詞包括名詞、動(dòng)詞、形容詞、數(shù)詞、量詞;虛詞包括副詞、介詞、連詞、助詞、擬聲詞和嘆詞。
所述的短語(yǔ),包括主謂短語(yǔ)、動(dòng)賓短語(yǔ)、偏正短語(yǔ)、補(bǔ)語(yǔ)、聯(lián)合短語(yǔ)以及其他短語(yǔ)。
所述的詞語(yǔ)庫(kù)、短語(yǔ)庫(kù)采用現(xiàn)有的數(shù)據(jù)庫(kù)技術(shù)進(jìn)行構(gòu)建,比如可以采用sqlite、oracle、cdb數(shù)據(jù)庫(kù)等現(xiàn)有的數(shù)據(jù)庫(kù)技術(shù)建庫(kù),cdbsqlite數(shù)據(jù)庫(kù)是一種云開(kāi)源的輕量級(jí)關(guān)系型數(shù)據(jù)庫(kù),簡(jiǎn)易的cdb數(shù)據(jù)庫(kù)包括索引和數(shù)據(jù)文件,索引主鍵為音節(jié)序列,為一個(gè)key鍵,value值鍵內(nèi)存儲(chǔ)著數(shù)據(jù)文件,數(shù)據(jù)文件包括名稱、類型、音節(jié)等等鍵,轉(zhuǎn)換的一串音節(jié)與key鍵匹配再指向?qū)?yīng)的value值并與其中的音節(jié)匹配,value值中的音節(jié)映射有對(duì)應(yīng)的詞語(yǔ)或短語(yǔ),遍歷詞語(yǔ)庫(kù)或短語(yǔ)庫(kù)完成同音節(jié)詞語(yǔ)或短語(yǔ)的匹配。所述key鍵包括key值、數(shù)據(jù)指針和下一條記錄的key記錄指針,數(shù)據(jù)指針指向數(shù)據(jù)文件中具體value值的記錄位置。所述索引和數(shù)據(jù)文件是分離的,這樣動(dòng)態(tài)擴(kuò)容的時(shí)候不用做太多數(shù)據(jù)遷移和位置計(jì)算。
所述的句子,由字和詞語(yǔ)組成,是具有一定語(yǔ)調(diào)并表達(dá)一個(gè)完整意思的語(yǔ)言單位。
步驟s3:從候選漢字中選擇目標(biāo)漢字進(jìn)行檢索。
在實(shí)際應(yīng)用中,檢索載體字典是一種電子字典,包括在線字典和離線字典。
在實(shí)際應(yīng)用中,從候選漢字中選擇目標(biāo)漢字進(jìn)行檢索包括:如候選漢字中有目標(biāo)漢字,則選擇目標(biāo)漢字進(jìn)行查字;如候選漢字中無(wú)目標(biāo)漢字,則重新輸入語(yǔ)音進(jìn)行識(shí)別,直至候選漢字中有目標(biāo)漢字。
步驟s4:調(diào)取目標(biāo)漢字解析,完成檢索。
實(shí)施例五
一種利用語(yǔ)音查詢漢字的字典檢索系統(tǒng),所述利用語(yǔ)音查詢漢字的字典檢索系統(tǒng)包括:
語(yǔ)音輸入模塊,用于獲取含有目標(biāo)漢字的語(yǔ)音輸入信息;
語(yǔ)音識(shí)別模塊,用于對(duì)語(yǔ)音輸入信息進(jìn)行識(shí)別并匹配出候選漢字;
檢索模塊,用于從候選漢字中選擇目標(biāo)漢字進(jìn)行檢索;
數(shù)據(jù)庫(kù)模塊,用于提供候選漢字庫(kù)。
在實(shí)際應(yīng)用中,所述語(yǔ)音輸入模塊包括:輸入提示模塊,用于提示用戶輸入含目標(biāo)漢字的詞語(yǔ)或短語(yǔ)或句子語(yǔ)音。
在實(shí)際應(yīng)用中,所述數(shù)據(jù)庫(kù)模塊包括:用于映射匹配的詞語(yǔ)庫(kù)或短語(yǔ)庫(kù)。
實(shí)施例六
漢字的詞語(yǔ)、短語(yǔ)語(yǔ)音檢索
目標(biāo)待查漢字“羈”;
用戶想知道“羈”的解釋及常用方式,進(jìn)行“羈”的字典檢索,用戶先用“羈”組成一個(gè)詞語(yǔ)“羈押”。
輸入語(yǔ)音采用具有語(yǔ)音識(shí)別功能的終端或移動(dòng)終端自帶、自裝的語(yǔ)音識(shí)別模塊。
利用語(yǔ)音識(shí)別模塊輸入“羈押”的語(yǔ)音,目標(biāo)漢字“羈”。
如語(yǔ)音識(shí)別最可能的結(jié)果是“積壓”,則將“積壓”轉(zhuǎn)換為音節(jié)[jīyā],再將這一音節(jié)[jīyā]與構(gòu)建的詞語(yǔ)庫(kù)、短語(yǔ)庫(kù)內(nèi)的詞語(yǔ)或短語(yǔ)音節(jié)進(jìn)行匹配,匹配出同音節(jié)的詞語(yǔ)“羈押”,然后把“羈押”、“積壓”與字符編碼映射輸出一組漢字“積、壓、羈、押”,選擇目標(biāo)漢字“羈”進(jìn)入檢索。
如果未識(shí)別得到目標(biāo)漢字,則再次組詞輸入語(yǔ)音,經(jīng)過(guò)一次或多次循環(huán)輸出含有目標(biāo)漢字“羈”的匹配結(jié)果。
匹配結(jié)果在前端輸出一組含有目標(biāo)漢字“羈”的結(jié)果,選擇目標(biāo)漢字檢索進(jìn)入對(duì)應(yīng)的釋義內(nèi)容。
實(shí)施例七
漢字的句子語(yǔ)音檢索
目標(biāo)待查漢字“懟”;
用戶想了解“懟”的釋義,進(jìn)行“懟”的在線詞典檢索,用戶需先用“懟”組合一個(gè)句子,如:我今天又被懟了。
通過(guò)語(yǔ)音識(shí)別模塊輸入“我今天又被懟了”的語(yǔ)音;
語(yǔ)音分析模塊按句子進(jìn)行分析語(yǔ)音,分解其中的詞語(yǔ)“今天”并提取出來(lái),再對(duì)剩余部分進(jìn)行分解,進(jìn)行識(shí)別并與字符編碼匹配,逐字顯示的結(jié)果之一是“我、今、天、又、被、懟、了”,結(jié)果也可以是“我、今、天、又、被、對(duì)、了”,輸出最大可能漢字“我、今、天、又、被、懟、了”,如顯示的結(jié)果無(wú)目標(biāo)漢字,則重新組詞,循環(huán)進(jìn)行s1、s2步驟,直至出現(xiàn)目標(biāo)漢字“懟”。
本發(fā)明實(shí)施的優(yōu)點(diǎn):本發(fā)明所述的利用語(yǔ)音查詢漢字的字典檢索方法包括以下步驟:獲取含有目標(biāo)漢字的語(yǔ)音輸入信息;對(duì)語(yǔ)音輸入信息進(jìn)行識(shí)別并匹配出候選漢字;從候選漢字中選擇目標(biāo)漢字進(jìn)行檢索;進(jìn)一步的,是通過(guò)識(shí)別含有目標(biāo)漢字的詞語(yǔ)、短語(yǔ)或者句子的語(yǔ)音輸入信息,由于中文存在的同音字太多,單個(gè)音節(jié)辨識(shí)度低導(dǎo)致檢索不準(zhǔn)確,造成單個(gè)漢字的語(yǔ)音檢索效率低;而詞語(yǔ)或句子中尤其是詞語(yǔ)的辨識(shí)度高,利用包含目標(biāo)漢字的多音節(jié)詞語(yǔ)、短語(yǔ)或句子進(jìn)行語(yǔ)音輸入,再將語(yǔ)音進(jìn)行識(shí)別匹配,在語(yǔ)音識(shí)別結(jié)果輸出之前先把最大可能匹配漢字轉(zhuǎn)換為一組音節(jié)序列并進(jìn)行同音節(jié)詞語(yǔ)或短語(yǔ)的映射,將映射的同音節(jié)詞語(yǔ)或短語(yǔ)連同之前識(shí)別的漢字與中文編碼字符集映射輸出,供用戶選擇進(jìn)入對(duì)應(yīng)的釋義檢索??捎行p少目標(biāo)待查漢字的同音字對(duì)目標(biāo)漢字的干擾,用戶的候選字?jǐn)?shù)量大幅下降,從而可以實(shí)現(xiàn)更高效的字典檢索。
以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本領(lǐng)域技術(shù)的技術(shù)人員在本發(fā)明公開(kāi)的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。