一種文字的輸入方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種文字的輸入方法和系統(tǒng),以解用戶需要長時(shí)間才能查找到欲輸入的候選項(xiàng),并且輸入效率較低的問題。所述的方法包括:接收編碼字符串中目標(biāo)音節(jié)對應(yīng)輸入的語音數(shù)據(jù);其中,所述語音數(shù)據(jù)用于對所述目標(biāo)音節(jié)所匹配的目標(biāo)文字進(jìn)行描述;將所述語音數(shù)據(jù)識別為自然語言文本;并通過語義分析從所述自然語言文本中提取出目標(biāo)文字;將所述目標(biāo)文字作為語義候選項(xiàng),并結(jié)合語義候選項(xiàng)展示所述編碼字符串對應(yīng)的各候選項(xiàng)。
【專利說明】一種文字的輸入方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及輸入法技術(shù),特別是涉及一種文字的輸入方法和系統(tǒng)。
【背景技術(shù)】
[0002]隨著移動互聯(lián)網(wǎng)技術(shù)的發(fā)展,輸入法作為人和智能終端交互的工具其作用越來越重要。因此也產(chǎn)生了諸如五筆,拼音,筆畫,雙拼等多種輸入方式,各種輸入方式都在盡量用盡可能少的輸入,輸出盡可能多的文字,從而方便用戶的輸入。
[0003]當(dāng)前越來越多的用戶使用移動終端,移動終端為了便于攜帶,通常采用的是簡化的鍵盤,即九鍵構(gòu)成的鍵盤。在使用該九鍵鍵盤進(jìn)行輸入時(shí),由于每個(gè)鍵位對應(yīng)的字母較多,造成了通過鍵位輸入一個(gè)編碼字符串后,輸入法會匹配多個(gè)同音或不同音的候選項(xiàng)。
[0004]在用戶利用輸入法輸入的過程中,雖然匹配的候選項(xiàng)在排序上已經(jīng)反應(yīng)了用戶使用各候選項(xiàng)的頻率,但移動終端的候選項(xiàng)展示區(qū)域大小非常有限,對于排序靠后的候選項(xiàng),用戶需要不斷翻頁進(jìn)行查找,導(dǎo)致用戶需要長時(shí)間才能查找到欲輸入的候選項(xiàng),降低了輸入效率。
【發(fā)明內(nèi)容】
[0005]本發(fā)明實(shí)施例提供了一種文字的輸入方法和系統(tǒng),以解用戶需要長時(shí)間才能查找到欲輸入的候選項(xiàng),并且輸入效率較低的問題。
[0006]為了解決上述問題,本發(fā)明實(shí)施例公開了一種文字的輸入方法,包括:
[0007]接收編碼字符串中目標(biāo)音節(jié)對應(yīng)輸入的語音數(shù)據(jù);其中,所述語音數(shù)據(jù)用于對所述目標(biāo)音節(jié)所匹配的目標(biāo)文字進(jìn)行描述;
[0008]將所述語音數(shù)據(jù)識別為自然語言文本;并通過語義分析從所述自然語言文本中提取出目標(biāo)文字;
[0009]將所述目標(biāo)文字作為語義候選項(xiàng),并結(jié)合語義候選項(xiàng)展示所述編碼字符串對應(yīng)的各候選項(xiàng)。
[0010]可選的,所述通過語義分析從所述自然語言文本中提取出目標(biāo)文字,包括:采用預(yù)置的分詞詞庫對所述自然語言文本進(jìn)行切分,確定所述自然語言文本的分詞結(jié)果;采用語義模型對所述分詞結(jié)果進(jìn)行分析,從所述分詞結(jié)果中提取出所述語音數(shù)據(jù)描述的目標(biāo)文字。
[0011]可選的,所述采用預(yù)置的分詞詞庫確定所述自然語言文本進(jìn)行切分,確定所述自然語言文本的分詞結(jié)果,包括:采用預(yù)置的分詞詞庫對所述自然語言文本進(jìn)行元素分析,確定至少一種備選切分結(jié)果;對每種備選切分結(jié)果進(jìn)行概率計(jì)算,并將概率最大的切分結(jié)果作為分詞結(jié)果。
[0012]可選的,所述采用語義模型對所述分詞結(jié)果進(jìn)行分析,從所述分詞結(jié)果中提取出所述語音數(shù)據(jù)描述的目標(biāo)文字,包括:通過所述語義模型對所述分詞結(jié)果進(jìn)行分析,提取出所述分詞結(jié)果中的關(guān)鍵詞和描述詞;依據(jù)所述描述詞對所述關(guān)鍵詞進(jìn)行修正,將修正后的關(guān)鍵詞作為所述目標(biāo)文字。
[0013]可選的,所述語義模型,包括以下至少一種:以詞定字模型、拆分模型和語義篩選模型。
[0014]可選的,所述依據(jù)所述描述詞對所述關(guān)鍵詞進(jìn)行修正,將修正后的關(guān)鍵詞作為所述目標(biāo)文字,包括:若所述語義模型為以詞定字模型,則從所述描述詞中查找所述關(guān)鍵詞的同音詞;將所述關(guān)鍵詞修正為所述同音詞,作為所述目標(biāo)文字。
[0015]可選的,所述依據(jù)所述描述詞對所述關(guān)鍵詞進(jìn)行修正,將修正后的關(guān)鍵詞作為所述目標(biāo)文字,包括:若所述語義模型為拆分模型,則對所述描述詞進(jìn)行構(gòu)詞組合,獲取構(gòu)成的文字;將所述關(guān)鍵詞修正為所述構(gòu)成的文字,作為所述目標(biāo)文字。
[0016]可選的,所述依據(jù)所述描述詞對所述關(guān)鍵詞進(jìn)行修正,將修正后的關(guān)鍵詞作為所述目標(biāo)文字,包括:若所述語義模型為語義篩選模型,則對所述描述詞進(jìn)行語義分析,篩選得到與描述詞匹配的至少一個(gè)匹配文字;根據(jù)所述匹配文字分別對所述關(guān)鍵詞進(jìn)行修正,將修正后的關(guān)鍵詞作為所述目標(biāo)文字。
[0017]可選的,將所述目標(biāo)文字作為語義候選項(xiàng)之前,還包括:計(jì)算所述目標(biāo)文字與所述語音數(shù)據(jù)的關(guān)聯(lián)度;則將所述目標(biāo)文字作為語義候選項(xiàng),并結(jié)合語義候選項(xiàng)展示所述編碼字符串對應(yīng)的各候選項(xiàng),包括:將所述目標(biāo)文字作為語義候選項(xiàng);依據(jù)所述關(guān)聯(lián)度將所述語義候選項(xiàng)與當(dāng)前的候選項(xiàng)進(jìn)行合并,構(gòu)成所述編碼字符串對應(yīng)的候選項(xiàng)并展示。
[0018]相應(yīng)的,本發(fā)明實(shí)施例還公開了一種文字的輸入系統(tǒng),包括:
[0019]接收模塊,用于接收編碼字符串中目標(biāo)音節(jié)對應(yīng)輸入的語音數(shù)據(jù);其中,所述語音數(shù)據(jù)用于對所述目標(biāo)音節(jié)所匹配的目標(biāo)文字進(jìn)行描述;
[0020]識別并提取模塊,用于將所述語音數(shù)據(jù)識別為自然語言文本;并通過語義分析從所述自然語言文本中提取出目標(biāo)文字;
[0021]展示模塊,用于將所述目標(biāo)文字作為語義候選項(xiàng),并結(jié)合語義候選項(xiàng)展示所述編碼字符串對應(yīng)的各候選項(xiàng)。
[0022]可選的,所述識別并提取模塊,包括:切分子模塊,用于采用預(yù)置的分詞詞庫對所述自然語言文本進(jìn)行切分,確定所述自然語言文本的分詞結(jié)果;分析并提取子模塊,用于采用語義模型對所述分詞結(jié)果進(jìn)行分析,從所述分詞結(jié)果中提取出所述語音數(shù)據(jù)描述的目標(biāo)文字。
[0023]可選的,所述切分子模塊,包括:分析單元,用于采用預(yù)置的分詞詞庫對所述自然語言文本進(jìn)行元素分析,確定至少一種備選切分結(jié)果;結(jié)果確定單元,用于對每種備選切分結(jié)果進(jìn)行概率計(jì)算,并將概率最大的備選切分結(jié)果作為分詞結(jié)果。
[0024]可選的,所述分析并提取子模塊,包括:分析并提取單元,用于通過所述語義模型對所述分詞結(jié)果進(jìn)行分析,提取出所述分詞結(jié)果中的關(guān)鍵詞和描述詞;修正單元,用于依據(jù)所述描述詞對所述關(guān)鍵詞進(jìn)行修正,將修正后的關(guān)鍵詞作為所述目標(biāo)文字。
[0025]可選的,所述語義模型,包括以下至少一種:以詞定字模型、拆分模型和語義篩選模型。
[0026]可選的,所述修正單元,用于在所述語義模型為以詞定字模型時(shí),從所述描述詞中查找所述關(guān)鍵詞的同音詞;將所述關(guān)鍵詞修正為所述同音詞,作為所述目標(biāo)文字。
[0027]可選的,所述修正單元,用于在所述語義模型為拆分模型時(shí),對所述描述詞進(jìn)行構(gòu)詞組合,獲取構(gòu)成的文字;將所述關(guān)鍵詞修正為所述構(gòu)成的文字,作為所述目標(biāo)文字。
[0028]可選的,所述修正單元,用于在所述語義模型為語義篩選模型時(shí),對所述描述詞進(jìn)行語義分析,篩選得到與描述詞匹配的至少一個(gè)匹配文字;采用所述匹配文字分別對所述關(guān)鍵詞進(jìn)行修正,將修正后的關(guān)鍵詞作為所述目標(biāo)文字。
[0029]可選的,所述的系統(tǒng)還包括:關(guān)聯(lián)度計(jì)算模塊,用于計(jì)算所述目標(biāo)文字與所述語音數(shù)據(jù)的關(guān)聯(lián)度;則所述展示模塊,包括:語義候選項(xiàng)確定子模塊,用于將所述目標(biāo)文字作為語義候選項(xiàng);結(jié)合并展示子模塊,用于將所述語義候選項(xiàng)與當(dāng)前的候選項(xiàng)進(jìn)行合并,構(gòu)成所述編碼字符串對應(yīng)的候選項(xiàng)并展示。
[0030]與現(xiàn)有技術(shù)相比,本發(fā)明包括以下優(yōu)點(diǎn):
[0031]本發(fā)明輸入語音數(shù)據(jù)對該目標(biāo)音節(jié)匹配的目標(biāo)文字進(jìn)行語義描述,并將該語音數(shù)據(jù)識別為自然語言文本,進(jìn)而提取出目標(biāo)音節(jié)對應(yīng)的目標(biāo)文字并反饋給客戶端,從而快速的獲取用戶想要輸入的字詞,提高了用戶選取候選項(xiàng)的效率;并結(jié)合語義候選項(xiàng)展示所述編碼字符串對應(yīng)的各候選項(xiàng),從而給用戶提供更多樣的匹配結(jié)果,進(jìn)一步提高了用戶的輸入效率。
[0032]本發(fā)明實(shí)施例中采用語義模型對輸入的自然語言進(jìn)行語義分析,快速地從中提取了描述的目標(biāo)文字,并將目標(biāo)文字作為語義候選項(xiàng),從而給用戶提供更多樣的匹配結(jié)果,增強(qiáng)了輸入的擴(kuò)展性,方便了用戶的后續(xù)輸入。
【專利附圖】
【附圖說明】
[0033]圖1是本發(fā)明實(shí)施例一提供的文字的輸入方法流程圖;
[0034]圖2是本發(fā)明實(shí)施例一提供的文字的輸入方法可選流程圖;
[0035]圖3是本發(fā)明實(shí)施例一提供的文字的輸入方法中服務(wù)器的處理流程圖;
[0036]圖4是本發(fā)明實(shí)施例二提供的文字的輸入系統(tǒng)結(jié)構(gòu)圖;
[0037]圖5是本發(fā)明實(shí)施例二提供的文字的輸入系統(tǒng)的第一種可選結(jié)構(gòu)圖;
[0038]圖6是本發(fā)明實(shí)施例二提供的文字的輸入系統(tǒng)中識別并提取模塊的可選結(jié)構(gòu)圖;
[0039]圖7是本發(fā)明實(shí)施例二提供的文字的輸入系統(tǒng)的第二種可選結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0040]為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和【具體實(shí)施方式】對本發(fā)明作進(jìn)一步詳細(xì)的說明。
[0041]實(shí)施例一
[0042]本發(fā)明實(shí)施例提供了一種文字的輸入方法,在客戶端進(jìn)行文字輸入時(shí),若輸入的編碼字符串中目標(biāo)音節(jié)所匹配的文字在候選項(xiàng)中排序靠后,不易查找,可以輸入語音數(shù)據(jù)對該目標(biāo)音節(jié)匹配的目標(biāo)文字進(jìn)行描述,將語音數(shù)據(jù)上傳至服務(wù)器,服務(wù)器可以將該語音數(shù)據(jù)識別為自然語言文本,并通過對自然語言文本進(jìn)行語義分析提取出目標(biāo)文字,并將目標(biāo)文字反饋給客戶端,從而可以通過服務(wù)器快速的獲取用戶想要輸入的候選項(xiàng),節(jié)省了時(shí)間,提高了用戶的輸入效率。并且,客戶端會將提取的目標(biāo)文字作為語義候選項(xiàng),并結(jié)合語義候選項(xiàng)展示所述輸入的編碼字符串對應(yīng)的各候選項(xiàng),從而給用戶提供更多樣的匹配結(jié)果,增強(qiáng)了輸入的擴(kuò)展性,方便了用戶輸入。
[0043]用戶使用輸入法進(jìn)行文字輸入時(shí),輸入法會根據(jù)目標(biāo)音節(jié)對用戶輸入的編碼字符串進(jìn)行匹配,并顯示候選項(xiàng),若用戶無法比較快速的從候選項(xiàng)中查找到想要輸入的文字,可以通過輸入語音數(shù)據(jù),再通過語音數(shù)據(jù)快速的獲取想要輸入的文字。具體包括如下步驟:
[0044]參照圖1,給出了本發(fā)明實(shí)施例一提供的文字的輸入方法流程圖。
[0045]步驟101,接收編碼字符串中目標(biāo)音節(jié)對應(yīng)輸入的語音數(shù)據(jù)。
[0046]其中,所述語音數(shù)據(jù)用于對所述目標(biāo)音節(jié)所匹配的目標(biāo)文字進(jìn)行描述。
[0047]步驟102,將所述語音數(shù)據(jù)識別為自然語言文本;并通過語義分析從所述自然語言文本中提取出目標(biāo)文字。
[0048]步驟103,將所述目標(biāo)文字作為語義候選項(xiàng),并結(jié)合語義候選項(xiàng)展示所述編碼字符串對應(yīng)的各候選項(xiàng)。
[0049]本發(fā)明實(shí)施例中,為了提高問題的輸入速度,上述方法可以由客戶端和服務(wù)器共同執(zhí)行,即客戶端在執(zhí)行步驟101后可以將語音數(shù)據(jù)傳輸給服務(wù)器,然后服務(wù)器執(zhí)行步驟102,再將該目標(biāo)文字反饋給客戶端,由客戶端執(zhí)行步驟103,展示各候選項(xiàng)供用戶選擇。從而可以通過客戶端和服務(wù)器快速的實(shí)現(xiàn)文字輸入。
[0050]但是,在其他實(shí)施例中,也存在一些特殊的情況,例如網(wǎng)絡(luò)比較不穩(wěn)定,數(shù)據(jù)傳輸速度較低,甚至客戶端無法連接服務(wù)器等情況,因此上述步驟101至步驟103也可以僅由客戶端完成,從而僅由客戶端也可以快速的實(shí)現(xiàn)文字的輸入。
[0051]綜上,在文字輸入時(shí),若輸入的編碼字符串中目標(biāo)音節(jié)所匹配的文字在候選項(xiàng)中不易查找,可以輸入語音數(shù)據(jù)對該目標(biāo)音節(jié)匹配的目標(biāo)文字進(jìn)行描述,然后將該語音數(shù)據(jù)識別為自然語言文本,并通過對自然語言文本進(jìn)行語義分析提取出目標(biāo)文字,從而快速的獲取用戶想要輸入的候選項(xiàng),節(jié)省了時(shí)間,提高了用戶的輸入效率。并且,可以將提取的目標(biāo)文字作為語義候選項(xiàng),并結(jié)合語義候選項(xiàng)展示所述輸入的編碼字符串對應(yīng)的各候選項(xiàng),從而給用戶提供更多樣的匹配結(jié)果,方便了用戶輸入。
[0052]下面,給出服務(wù)器和客戶端的一種處理流程,以整體論述本實(shí)施例的文字輸入方法。
[0053]參照圖2,給出了本發(fā)明實(shí)施例一提供的文字的輸入方法可選流程圖。
[0054]步驟201,客戶端對接收的編碼字符串進(jìn)行匹配,并展示匹配得到的各候選項(xiàng)。
[0055]客戶端可以接收用戶輸入的編碼字符串,然后對該編碼字符串進(jìn)行匹配,得到相應(yīng)的候選項(xiàng)。將選定的音節(jié)作為目標(biāo)音節(jié),則目標(biāo)音節(jié)至少對應(yīng)于部分的編碼字符串。
[0056]例如,在接收編碼字符串并完成匹配后,可以展示各匹配的候選項(xiàng),如音節(jié)為ji,對應(yīng)匹配的候選項(xiàng)為“即、級、及、機(jī)、集……”。此時(shí)比較靠前的候選項(xiàng)中沒有用戶想要輸入的目標(biāo)文字“冀”,則可以將音節(jié)ji作為目標(biāo)音節(jié)。
[0057]在此種情況下,本實(shí)施例結(jié)合用戶輸入的語音得到目標(biāo)音節(jié)對應(yīng)的候選項(xiàng),即用戶可以采用輸入的語音數(shù)據(jù)對該目標(biāo)音節(jié)所匹配的目標(biāo)文字進(jìn)行描述,即輸入的編碼字符串中目標(biāo)音節(jié)對應(yīng)的語音數(shù)據(jù),然后將該語音數(shù)據(jù)發(fā)送給服務(wù)器,通過語音數(shù)據(jù)進(jìn)行語義分析快速的確定目標(biāo)文字。
[0058]步驟202,客戶端接收編碼字符串中目標(biāo)音節(jié)對應(yīng)輸入的語音數(shù)據(jù),并向服務(wù)器上傳所述語音數(shù)據(jù)。
[0059]客戶端接收該語音數(shù)據(jù),本實(shí)施例中為通過移動終端的話筒輸入的語音數(shù)據(jù),并將該語音數(shù)據(jù)上傳至服務(wù)器,通過服務(wù)器進(jìn)行語音識別,其中,所述語音數(shù)據(jù)用于對目標(biāo)音節(jié)所匹配的目標(biāo)文字進(jìn)行描述。
[0060]步驟203,服務(wù)器將所述語音數(shù)據(jù)識別為自然語言文本。
[0061]步驟204,服務(wù)器通過語義分析從所述自然語言文本中提取出目標(biāo)文字,并將目標(biāo)文字反饋給客戶端;
[0062]服務(wù)器將接收到語音數(shù)據(jù)識別為自然語言文本后,可以通過語義分析從所述自然語言文本中提取出目標(biāo)文字。如服務(wù)器在解析語音數(shù)據(jù)時(shí),解析出的拼音串為“jin4cha2ji4delji4”,則對應(yīng)自然語言文本為“晉察冀的及”,通過語義分析可以進(jìn)行切分等操作,得到分詞結(jié)果為“晉察冀”、“的”和“及”,再去掉停用詞和無意義的虛詞確定描述詞為“晉察冀”,關(guān)鍵詞為“及”,通過描述詞對關(guān)鍵詞進(jìn)行校正,從而確定校驗(yàn)后的關(guān)鍵詞為“冀”,即目標(biāo)文字為“冀”。將“冀”作為返回結(jié)果反饋給客戶端。
[0063]步驟205,客戶端將所述目標(biāo)文字作為語義候選項(xiàng),并結(jié)合語義候選項(xiàng)展示所述編碼字符串對應(yīng)的各候選項(xiàng)。
[0064]然后客戶端可以獲取客戶端反饋的目標(biāo)文字,然后將目標(biāo)文字作為語義候選項(xiàng),并結(jié)合語義候選項(xiàng)對步驟101中原有匹配得到的候選項(xiàng)進(jìn)行調(diào)整或合并,從而重新顯示編碼字符串對應(yīng)的各候選項(xiàng)。
[0065]綜上所述,在客戶端進(jìn)行文字輸入時(shí),若目標(biāo)音節(jié)匹配的目標(biāo)文字在候選項(xiàng)中不易查找,可以通過語音數(shù)據(jù)對該目標(biāo)音節(jié)匹配的文字以自然語言的形式進(jìn)行描述,再將目標(biāo)音節(jié)上傳至服務(wù)器,從而服務(wù)器可以將該語音數(shù)據(jù)識別成自然語言文本,并通過語義分析從該自然語言文本中識別出語音數(shù)據(jù)描述的該目標(biāo)音節(jié)對應(yīng)的目標(biāo)文字,并反饋給客戶端,從而可以通過服務(wù)器快速的獲取用戶想要輸入的候選項(xiàng),節(jié)省了用戶查找候選項(xiàng)的時(shí)間,提高了文字輸入效率。并且,客戶端會將描述的目標(biāo)文字作為語義候選項(xiàng),結(jié)合語義候選項(xiàng)和原有編碼字符串匹配得到的各候選項(xiàng)進(jìn)行展示,從而給用戶提供了更多樣的編碼字符串的匹配結(jié)果,方便了用戶輸入。
[0066]本實(shí)施例中,用戶可以通過語音數(shù)據(jù)對想要輸入的目標(biāo)文字進(jìn)行描述,對該語音數(shù)據(jù)進(jìn)行語義分析,分析出用戶所描述的目標(biāo)文字,從而將目標(biāo)文字排在各候選項(xiàng)的前面,下面給出服務(wù)器側(cè)的處理流程,具體包括如下步驟:
[0067]參照圖3,給出了本發(fā)明實(shí)施例一提供的文字的輸入方法中服務(wù)器的處理流程圖。
[0068]子步驟S301,將客戶端上傳的語音數(shù)據(jù)識別為自然語言文本。
[0069]在服務(wù)器在接收到客戶端上傳的語音數(shù)據(jù)后,會對該語音數(shù)據(jù)進(jìn)行解析,S卩服務(wù)器會通過語音識別引擎對該語音數(shù)據(jù)進(jìn)行語音識別,從而得到識別出的自然語言文本。可以理解的是該自然語言文本就是對客戶端中目標(biāo)音節(jié)匹配的文字進(jìn)行描述的文字。
[0070]其中,語音識別引擎可以通過如下方法構(gòu)建:
[0071]首先對獲取的語音訓(xùn)練數(shù)據(jù)作為語料進(jìn)行預(yù)處理(如去噪等),并將預(yù)處理完畢的數(shù)據(jù)進(jìn)行特征提取,提取語音中各語音元素的特征;然后將特征提取之后的語音數(shù)據(jù)進(jìn)行模型訓(xùn)練,如采用隱馬爾可夫模型(Hidden Markov Model, HMM)進(jìn)行訓(xùn)練,從而形成模板庫。在語音識別引擎經(jīng)過足夠多的訓(xùn)練之后,即可將客戶端輸入的語音數(shù)據(jù)進(jìn)行特征提取之后輸入至語音模型,語音模型會根據(jù)模型中的模板庫對語音數(shù)據(jù)進(jìn)行模式匹配,給出最優(yōu)解的匹配結(jié)果,即概率最大的識別結(jié)果,從而獲得該語音數(shù)據(jù)對應(yīng)的自然語言文本。
[0072]由于語音元素之間并不是孤立存在的,包括字間的停頓,都可以成為分割語音片段的依據(jù)。而語音片段之間的關(guān)系,也決定了解析出的漢字的準(zhǔn)確性。在采用語音識別引擎進(jìn)行語音數(shù)據(jù)的識別時(shí),如識別出自然語言文本“動物的那個(gè)它”時(shí),語音識別系統(tǒng)會通過元素的讀音和元素間的關(guān)系,給出正確的解析,并給出注音(dong4wu4delna4ge4tal),其中4代表四聲,I代表一聲。Dong4wu4對應(yīng)可以取出相關(guān)詞條:“動物”、“動務(wù)”等,tal對應(yīng)可以獲取到的文字:“他”、“她”、“它”等,然后對該自然語言文本進(jìn)行語義分析時(shí),根據(jù)大量的數(shù)據(jù)統(tǒng)計(jì)(如采用貝葉斯模型),“動物”和“它”的共現(xiàn)頻率是最大的。所以語音識別的結(jié)果,即識別出的自然語言文本為“動物的那個(gè)它”。
[0073]其中,所述共現(xiàn)頻率可以理解為兩個(gè)詞匯在依據(jù)話、一個(gè)段落或一篇文章中共同出現(xiàn)的頻率。
[0074]本實(shí)施例中,服務(wù)器通過語音識別出語音數(shù)據(jù)對應(yīng)的自然語言文本后,還會對該自然語言文本進(jìn)行語義分析,以從該自然語言文本中獲取描述的目標(biāo)文字。具體如下:
[0075]在本發(fā)明一個(gè)可選實(shí)施例中,上述步驟204中服務(wù)器通過語義分詞從所述自然語言文本中提取出目標(biāo)文字,包括如下子步驟:
[0076]子步驟S302,采用預(yù)置的分詞詞庫對所述自然語言文本進(jìn)行切分,確定所述自然語言文本的分詞結(jié)果。
[0077]由于自然語言文本可以對目標(biāo)字節(jié)匹配的目標(biāo)文字進(jìn)行描述,因此其中通常存在一些可以進(jìn)行描述的詞匯,從而可以首先采用預(yù)置的分詞詞庫對該自然語言文本進(jìn)行切分,獲取其中的各個(gè)詞匯,即可以將該自然語言文本切分成至少兩個(gè)分詞,構(gòu)成分詞結(jié)果。
[0078]在本發(fā)明的一個(gè)可選實(shí)施例中,采用預(yù)置的分詞詞庫確定所述自然語言文本進(jìn)行切分,確定所述自然語言文本的分詞結(jié)果,包括以下子步驟:采用預(yù)置的分詞詞庫對所述自然語言文本進(jìn)行元素分析,確定至少一種備選切分結(jié)果;對每種備選切分結(jié)果進(jìn)行概率計(jì)算,并將概率最大的切分結(jié)果作為分詞結(jié)果。
[0079]如上述解析出的自然語言文本為“計(jì)算機(jī)的計(jì)”,則可以采用分詞詞庫對該自然語言文本進(jìn)行元素分析,然后根據(jù)分析出的元素對其進(jìn)行切分,獲取到備選切分結(jié)果。其中,分詞詞庫用于為分詞算法提供分詞的依據(jù)。本發(fā)明實(shí)施例中,元素可以是各詞的詞性,如名詞、助詞、形容詞等,又如元素可以是構(gòu)成句子的各部分,如主語、謂語、賓語等。因此在采用分詞詞庫對自然語言文本時(shí),如“計(jì)算機(jī)的計(jì)”中,可以分析出“計(jì)算機(jī)”為名詞、“的”為助詞,“計(jì)”是單獨(dú)的一個(gè)字,可以認(rèn)為是名詞或其他詞等。當(dāng)然,在切分時(shí)不只有一種備選切分結(jié)果,也可能切分為“計(jì)”、“算”、“機(jī)”、“的”、“計(jì)”,每一個(gè)元素都是一種其他詞。然后可以對每一種備選切分結(jié)果進(jìn)行概率計(jì)算,即針對所述備選切分結(jié)果中每一個(gè)詞,計(jì)算其切分的概率,從而得到切分成此種備選切分結(jié)果的概率,然后從各備選切分結(jié)果中獲取概率最大的作為本次分詞的分詞結(jié)果,如分詞結(jié)果為“計(jì)算機(jī)”、“的”、“計(jì)”。
[0080]通過上述方法,實(shí)現(xiàn)了對該自然語言文本的切分,從而可以獲知該自然語言文本的結(jié)構(gòu),但是此時(shí)還不能確定描述的文字,因此需要進(jìn)一步對分詞結(jié)果進(jìn)行分析以識別出描述的目標(biāo)文字。
[0081]子步驟S303,采用語義模型對所述分詞結(jié)果進(jìn)行分析,從所述分詞結(jié)果中提取出所述語音數(shù)據(jù)描述的目標(biāo)文字。
[0082]采用語義模型對分詞結(jié)果進(jìn)行分析,通過語義分析分詞結(jié)果中各詞,以及詞與詞之間的關(guān)聯(lián)關(guān)系,提取出自然語言文本中的關(guān)鍵詞,并對該關(guān)鍵詞進(jìn)行校正,從而確定正確的文字,即為語音數(shù)據(jù)描述的目標(biāo)文字,也即目標(biāo)音節(jié)匹配的目標(biāo)文字。
[0083]其中,語義模型用于基于語義對詞的集合(至少兩個(gè)詞)、一段文字等自然語言文本進(jìn)行分析和校正,以便獲取其中的關(guān)鍵詞。
[0084]在本發(fā)明另一個(gè)可選實(shí)施例中,服務(wù)器采用所述語義模型對所述分詞結(jié)果進(jìn)行分析,從所述分詞結(jié)果中提取出所述語音數(shù)據(jù)描述的目標(biāo)文字,包括以下子步驟:服務(wù)器通過所述語義模型對所述分詞結(jié)果進(jìn)行分析,提取出所述分詞結(jié)果中的關(guān)鍵詞和描述詞;依據(jù)所述描述詞對所述關(guān)鍵詞進(jìn)行修正,將修正后的關(guān)鍵詞作為所述目標(biāo)文字。
[0085]首先,通過語義模型對該分詞結(jié)果進(jìn)行分析,從而提取出分詞結(jié)果中的關(guān)鍵詞和描述詞。其中,為了能夠?qū)ζヅ涞奈淖诌M(jìn)行描述,因此分詞結(jié)果中的各詞往往具有一定的關(guān)聯(lián)關(guān)系,如具有解釋、構(gòu)造或包含等關(guān)系,如自然語言文本“計(jì)算機(jī)的計(jì)”分詞結(jié)果為“計(jì)算機(jī)”、“的”、“計(jì)”,此時(shí)對該分詞結(jié)果進(jìn)行分析,其中,停用詞、助詞,如“的”可以認(rèn)為是無意義的因此可以忽略,而“計(jì)算機(jī)”和“計(jì)”具有包含關(guān)系,從而可以認(rèn)定被包含的是關(guān)鍵詞,包含的是描述詞,即關(guān)鍵詞為“計(jì)”,描述詞為“計(jì)算機(jī)”,當(dāng)然對“計(jì)算機(jī)的計(jì)”進(jìn)行語義分析時(shí),由于“的”的分隔也可以認(rèn)為“計(jì)算機(jī)”和“計(jì)”具有解釋的關(guān)系,則被解釋的“計(jì)”為關(guān)鍵詞,解釋的“計(jì)算機(jī)”為描述詞。
[0086]其中,關(guān)鍵詞與語音數(shù)據(jù)描述的目標(biāo)文字相關(guān),如該關(guān)鍵詞與目標(biāo)文字同音,如描述的文字是“計(jì)”,則其可以就是該描述的文字“計(jì)”,也可以同音字,從而對關(guān)鍵詞進(jìn)行修正可以得到描述的文字,如關(guān)鍵詞為“即”,則后續(xù)通過修正可以確定描述的文字為“計(jì)”。
[0087]然后就可以采用描述詞對關(guān)鍵詞進(jìn)行修正,將修正后的關(guān)鍵詞作為所述語音數(shù)據(jù)描述的目標(biāo)文字。例如可以計(jì)算關(guān)鍵詞和描述詞之間的關(guān)聯(lián)度,從而依據(jù)關(guān)聯(lián)度對關(guān)鍵詞進(jìn)行修正,或確定描述詞中關(guān)鍵詞的同音詞,依據(jù)該同音詞對關(guān)鍵詞進(jìn)行修正,即確定關(guān)鍵詞正確與否,并確定正確的關(guān)鍵詞。
[0088]其中,關(guān)聯(lián)度是關(guān)鍵詞和描述詞之間相關(guān)的程度,可以根據(jù)語義分析的分析結(jié)果進(jìn)行評價(jià),本實(shí)施例中,采用語義模型中兩者的共現(xiàn)頻率進(jìn)行衡量,也可以依據(jù)語義模型中分析兩者意義的相近性進(jìn)行度量。其中,語義模型可以通過機(jī)器學(xué)習(xí)的方法訓(xùn)練抓取得到的全網(wǎng)數(shù)據(jù),并通過不斷的迭代優(yōu)化精度得到。
[0089]本發(fā)明實(shí)施例中,語義模型也可以根據(jù)應(yīng)用場景的不同而不同對自然語言文本進(jìn)行語義分析,因此語義模型可以包括以下至少一種:以詞定字模型、拆分模型和語義篩選模型。
[0090]I)以詞定字模型
[0091]以詞定字模型用于根據(jù)描述詞中的組成元素確定相應(yīng)的關(guān)鍵詞,如自然語言文本為“ABC的A”,其中A、B、C各代表一個(gè)字,并且ABC合在一起是個(gè)詞條,“的”后方的“A”對應(yīng)的音節(jié)“ei”與詞條中的某個(gè)組成元素同音,則可以確定“A”對應(yīng)的文字為A,又如自然語言文本為“DE的E”,其中D、E各代表一個(gè)字,DE合并在一起也是個(gè)詞條,“的”后方的“E”對應(yīng)的音節(jié)與詞條中的某個(gè)組成元素同音,從而“E”對應(yīng)的文字為E。
[0092]依據(jù)所述描述詞對所述關(guān)鍵詞進(jìn)行修正,將修正后的關(guān)鍵詞作為所述目標(biāo)文字,包括以下子步驟:若所述語義模型為以詞定字模型,則服務(wù)器從所述描述詞的組成元素中查找所述關(guān)鍵詞的同音詞;將所述關(guān)鍵詞修正為所述同音詞,作為所述目標(biāo)文字。
[0093]若語義模型為以詞定字模型,在分析出關(guān)鍵詞和描述詞后,采用描述詞對關(guān)鍵詞進(jìn)行修正時(shí),由于其為以詞定字模型,因此關(guān)鍵詞往往應(yīng)當(dāng)與描述詞具有強(qiáng)關(guān)聯(lián)性,如關(guān)鍵詞與描述詞中的某些組成元素是同音詞。因此可以從描述詞中依次查找各元素,查找到與所述關(guān)鍵詞的同音詞,從而采用該同音詞對關(guān)鍵詞進(jìn)行修正,即將所述關(guān)鍵詞修正為該同音詞,即所述同音詞就是所述目標(biāo)文字。
[0094]例如,若自然語言文本為“計(jì)算機(jī)的季”,分詞結(jié)果為“計(jì)算機(jī)”、“的”、“季”,此時(shí)在描述詞“計(jì)算機(jī)”的各字符中查找關(guān)鍵詞“季”的同音詞,將關(guān)鍵詞“季”修正為所述同音詞為“計(jì)”,然后采用修改后“計(jì)”作為關(guān)鍵詞即作為目標(biāo)文字。其中,本發(fā)明實(shí)施例中從“計(jì)算機(jī)”中獲取同音字包括“計(jì)”和“機(jī)”,其中,“計(jì)”與關(guān)鍵詞“季”同樣為4聲,“機(jī)”為I聲,則“計(jì)”的關(guān)聯(lián)度高于“機(jī)”的關(guān)聯(lián)度,從而可以確定可以用于修正的同音詞為“計(jì)”,則修正后的關(guān)鍵詞為“計(jì)”,即確定“計(jì)”為目標(biāo)文字。
[0095]2)拆分模型
[0096]拆分模型中包括既定的構(gòu)詞詞典,從而通過構(gòu)詞詞典可以以不同的字形特征構(gòu)成相應(yīng)的詞匯、文字等。例如,針對漢字的構(gòu)詞詞典,由于漢字是由部首構(gòu)成的,簡單漢字可能只有一個(gè)部首,如“言”,“人”等,而有些漢字可能需要至少兩個(gè)部首才能構(gòu)成,如“李” “張”等。為了對目標(biāo)音節(jié)匹配的目標(biāo)文字進(jìn)行描述,有時(shí)用戶可能會按照構(gòu)詞方法進(jìn)行描述,如解析出自然語言文本為“木子李”,“弓長張”等,從而在此種情況下,就可以采用拆分模型中的構(gòu)詞詞典,根據(jù)構(gòu)詞詞典中的漢字的結(jié)構(gòu)和字形特征對自然語言文本進(jìn)行分析和校驗(yàn)。
[0097]依據(jù)所述描述詞對所述關(guān)鍵詞進(jìn)行修正,將修正后的關(guān)鍵詞作為所述目標(biāo)文字,包括:若所述語義模型為拆分模型,則對所述描述詞進(jìn)行構(gòu)詞組合,獲取構(gòu)成的文字;將所述關(guān)鍵詞修正為所述構(gòu)成的文字,作為目標(biāo)文字。
[0098]若語義模型為拆分模型,則在分析出關(guān)鍵詞和描述詞后,采用描述詞對關(guān)鍵詞進(jìn)行修正時(shí),由于其為拆分模型,通過對描述詞進(jìn)行構(gòu)詞可以獲取關(guān)鍵詞對應(yīng)的正確文字,即正確的目標(biāo)文字,因此可以對描述詞進(jìn)行構(gòu)詞組合,得到構(gòu)成的文字,然后采用構(gòu)成的文字對關(guān)鍵詞進(jìn)行修正,其中若關(guān)鍵詞與所述構(gòu)成的文字相同,則構(gòu)成的文字即為修正后的關(guān)鍵詞,將構(gòu)成的文字作為目標(biāo)文字。
[0099]如自然語言文本為“三金的那個(gè)鑫”,劃分出的描述詞為“三金”,關(guān)鍵詞為“鑫”,采用拆分模型中的構(gòu)詞詞典對描述詞“三金”進(jìn)行構(gòu)詞,根據(jù)既定的構(gòu)詞詞典得到構(gòu)成的文字為“鑫”,構(gòu)成的文字與關(guān)鍵詞一致,不用對關(guān)鍵詞進(jìn)行修正,當(dāng)然,也可以配置為無論關(guān)鍵詞與構(gòu)成的文字是否一致,都進(jìn)行修正,本發(fā)明實(shí)施例對此不作限定。從而得到構(gòu)成的目標(biāo)文字為“鑫”。
[0100]3)語義篩選模型
[0101]采用以詞定字模型或拆分模型對分詞結(jié)果進(jìn)行分析時(shí),語音數(shù)據(jù)對應(yīng)的自然語言文本由于人們的習(xí)慣表述往往具有一定的格式,可通過模板的形式進(jìn)行匹配,提取出同音詞或構(gòu)成的文字,進(jìn)而將關(guān)鍵詞修正為目標(biāo)文字。但用戶輸入的語音數(shù)據(jù)往往不具備既定的格式,實(shí)際處理中并不能對于語音數(shù)據(jù)進(jìn)行格式的限制,因此在不滿足以詞定字模型或拆分模型時(shí),本發(fā)明實(shí)施例還提供了語義篩選模型,通過語義分析對描述詞和關(guān)鍵詞進(jìn)行分析,從而確定修正后的關(guān)鍵詞。
[0102]依據(jù)所述描述詞對所述關(guān)鍵詞進(jìn)行修正,將修正后的關(guān)鍵詞作為所述目標(biāo)文字,包括:若所述語義模型為語義篩選模型,則對所述描述詞進(jìn)行語義分析,篩選得到與描述詞匹配的至少一個(gè)匹配文字;根據(jù)所述匹配文字分別對所述關(guān)鍵詞進(jìn)行修正,將修正后的關(guān)鍵詞作為所述目標(biāo)文字。
[0103]若語義模型為語義篩選模型,則在分析出關(guān)鍵詞和描述詞后,采用描述詞對關(guān)鍵詞進(jìn)行修正時(shí),由于其為語義篩選模型,因此通過對描述詞進(jìn)行語義分析,根據(jù)分析結(jié)果確定至少一種匹配文字,如自然語言文本為“女的那個(gè)他”,則描述詞為“女”、“的”、“那個(gè)”,關(guān)鍵詞為“他”,從而服務(wù)器通過對抓取的全網(wǎng)海量數(shù)據(jù)的分析,去掉無意義的停用詞“的”和“那個(gè)”,再通過語義分析“女”和“他”的讀音“ta”的關(guān)系,讀音“ta”應(yīng)該指代是第三人稱,可以從音節(jié)“ta”的候選項(xiàng)中得到匹配的人稱指示代詞為“他”、“它”或“她”,然后分別計(jì)算“女”和每一個(gè)匹配文字的關(guān)聯(lián)度分值,確定“女”和“她”的關(guān)聯(lián)度最大,則采用關(guān)聯(lián)度最大的“她”對關(guān)鍵詞“他”進(jìn)行修正,即修正后的關(guān)鍵詞為“她”,從而確定語音數(shù)據(jù)描述的目標(biāo)文字為“她”。
[0104]通過上述語義模型對關(guān)鍵詞和描述詞進(jìn)行分詞,可以確定語音數(shù)據(jù)描述的目標(biāo)文字,從而得到服務(wù)器確定的目標(biāo)音節(jié)匹配的目標(biāo)文字。
[0105]本發(fā)明實(shí)施例中,計(jì)算所述目標(biāo)文字與所述語音數(shù)據(jù)的關(guān)聯(lián)度;則將所述目標(biāo)文字作為語義候選項(xiàng),并結(jié)合語義候選項(xiàng)展示所述編碼字符串對應(yīng)的各候選項(xiàng),包括:將所述目標(biāo)文字作為語義候選項(xiàng);依據(jù)所述關(guān)聯(lián)度將所述語義候選項(xiàng)與當(dāng)前的候選項(xiàng)進(jìn)行合并,構(gòu)成所述編碼字符串對應(yīng)的候選項(xiàng)并展示。
[0106]從而若由服務(wù)器和客戶端共同完成上述方法,則服務(wù)器向客戶端反饋語音數(shù)據(jù)描述的目標(biāo)文字時(shí),還可以反饋該文字的關(guān)聯(lián)度,以更準(zhǔn)確的確定該目標(biāo)文字的展示位置,從而在本發(fā)明另一個(gè)可選實(shí)施例中,上述方法中服務(wù)器在向客戶端進(jìn)行反饋時(shí),可以包括如下子步驟:
[0107]子步驟S304,服務(wù)器從語義模型中獲取所述目標(biāo)文字,以及所述目標(biāo)文字與所述語音數(shù)據(jù)的關(guān)聯(lián)度。
[0108]子步驟S305,將所述目標(biāo)文字和所述關(guān)聯(lián)度構(gòu)成返回結(jié)果,并將所述返回結(jié)果反饋給客戶端。
[0109]由于語音數(shù)據(jù)的質(zhì)量各有不同,服務(wù)器的語義分析的能力也是有限度的,因此為了確保匹配的準(zhǔn)確性,在確定該語音數(shù)據(jù)描述的目標(biāo)文字后,還可以計(jì)算該目標(biāo)文字與語音數(shù)據(jù)的關(guān)聯(lián)度,其中若采用語音模型分析中已經(jīng)計(jì)算出該文字的關(guān)聯(lián)度,則可以不重復(fù)計(jì)算,然后將該所述描述的目標(biāo)文字和關(guān)聯(lián)度添加到返回結(jié)果中,然后從該返回結(jié)果獲取目標(biāo)文字和關(guān)聯(lián)度反饋給客戶端。
[0110]因此,在本發(fā)明的另一個(gè)可選實(shí)施例中,上述步驟205包括如下子步驟:客戶端從所述返回結(jié)果中獲取所述目標(biāo)文字和所述關(guān)聯(lián)度;將所述描述的文字作為語義候選項(xiàng);依據(jù)所述關(guān)聯(lián)度將所述語義候選項(xiàng)與當(dāng)前的候選項(xiàng)進(jìn)行合并,構(gòu)成所述編碼字符串對應(yīng)的候選項(xiàng)并展示。
[0111]如上述步驟204中反饋給客戶端的返回結(jié)果中為目標(biāo)文字為“冀”,關(guān)聯(lián)度為80%,從而可以將該目標(biāo)文字“冀”作為候選項(xiàng)之一,并將顯示在各候選項(xiàng)中第二個(gè)位置上,即顯示各候選項(xiàng)為“即、冀、級、及、機(jī)、集……”。
[0112]實(shí)際處理中,依據(jù)所述關(guān)聯(lián)度將所述語義候選項(xiàng)與所述客戶端中當(dāng)前的各候選項(xiàng)進(jìn)行結(jié)合,構(gòu)成所述編碼字符串對應(yīng)的各候選項(xiàng)并展示,包括以下幾種方法:
[0113]1、僅展示編碼字符串中目標(biāo)音節(jié)對應(yīng)的各候選項(xiàng),依據(jù)關(guān)聯(lián)度配置語義候選項(xiàng)的展示位置并進(jìn)行展示,將語義候選項(xiàng)與已匹配完畢的字符結(jié)合,形成最終的待上屏文字。
[0114]用戶輸入編碼字符串為“ zhaobudaota ”,其中“ zhaobudao ”已匹配為“找不到”,在客戶端當(dāng)前的候選項(xiàng)中沒有目標(biāo)音節(jié)“ta”對應(yīng)目標(biāo)文字,此時(shí)可以先選擇部分匹配結(jié)果“找不到”,則待上屏區(qū)域的顯示為“找不到ta”。通過錄入語音數(shù)據(jù)解析出自然語言文本“動物的那個(gè)他”,通過語義分析得到目標(biāo)文字為“它”,關(guān)聯(lián)度為85%,從而客戶端在得到返回結(jié)果后,可以將“它”作為語義候選項(xiàng)與已匹配的字符“找不到”結(jié)合,形成最終的待上屏文字。依據(jù)關(guān)聯(lián)度可以將語義候選項(xiàng)“它”配置于候選項(xiàng)中較前的位置,如第一位或第二位。
[0115]2、展示編碼字符串對應(yīng)的各候選項(xiàng),即將語義候選項(xiàng)與當(dāng)前的候選項(xiàng)合并,構(gòu)成用戶輸入的編碼字符串對應(yīng)的候選項(xiàng),依據(jù)關(guān)聯(lián)度配置編碼字符串對應(yīng)的候選項(xiàng)的展示位置并進(jìn)行展示。
[0116]用戶輸入的編碼字符串為“zhaobudaota”,其中“zhaobudao”候選項(xiàng)中,匹配為“找不到”時(shí)的關(guān)聯(lián)度最高,在客戶端當(dāng)前的候選項(xiàng)中沒有目標(biāo)音節(jié)“ta”對應(yīng)目標(biāo)文字,此時(shí)可以不進(jìn)行選擇,則待上屏區(qū)域的顯示為“zhaobudaota”。通過錄入語音數(shù)據(jù)解析出自然語言文本“動物的那個(gè)他”,通過語義分析得到目標(biāo)文字為“它”,關(guān)聯(lián)度為85%,從而客戶端在得到返回結(jié)果后,將語義候選項(xiàng)與當(dāng)前的候選項(xiàng)合并作為用戶輸入的編碼字符串的候選項(xiàng),即將語義候選項(xiàng)“它”與當(dāng)前的候選項(xiàng)中關(guān)聯(lián)度最高的“找不到”合并,構(gòu)成編碼字符串對應(yīng)的候選項(xiàng)“找不到它”,并依據(jù)關(guān)聯(lián)度確定編碼字符串的候選項(xiàng)“找不到它”的展示位置,如第一位等進(jìn)行展示。
[0117]下面通過幾個(gè)例子具體論述本實(shí)施例提供的方法:
[0118]1、拆分模型的應(yīng)用
[0119]在輸入法的客戶端中接收輸入“946” (九鍵狀態(tài)下),此時(shí)用戶想用輸入的音節(jié)為“xin”,即想得到“鑫”。但是候選項(xiàng)中首位是“因”,“鑫”的候選比較靠后,需要不斷翻頁進(jìn)行查找。
[0120]用戶可以觸發(fā)語音輸入,通過拆字輸入格式,錄入語音數(shù)據(jù)“金金金鑫”,客戶端通過網(wǎng)絡(luò)將語音數(shù)據(jù)發(fā)送到服務(wù)器。
[0121]服務(wù)器通過識別得到的自然語言文本“三金的鑫”,再通過構(gòu)詞詞典分析得到目標(biāo)文字“鑫”,并給出關(guān)聯(lián)度90%。
[0122]服務(wù)器將“鑫”和關(guān)聯(lián)度90%構(gòu)成返回結(jié)果,通過網(wǎng)絡(luò)返回給客戶端。
[0123]客戶端根據(jù)目標(biāo)文字“鑫”對應(yīng)的關(guān)聯(lián)度,將目標(biāo)文字“鑫”調(diào)整到編碼字符串中對應(yīng)的候選項(xiàng)的首候選進(jìn)行顯示。
[0124]2、語義篩選模型的應(yīng)用
[0125]在輸入法的客戶端中接收輸入“9468” (九鍵狀態(tài)下),此時(shí)用戶想用輸入的音節(jié)為“zhou”,即想得到“舟”。但是候選項(xiàng)中首位是“心疼”,“舟”的候選比較靠后,需要不斷翻頁進(jìn)行查找。
[0126]用戶可以觸發(fā)語音輸入,通過語義輸入格式,錄入語音數(shù)據(jù)“小船的那個(gè)舟”,客戶端通過網(wǎng)絡(luò)將語音數(shù)據(jù)發(fā)送到服務(wù)器。
[0127]服務(wù)器通過識別得到自然語言文本“小船的那個(gè)粥”。再通過語義分析,將關(guān)鍵字“粥”修正為“舟”,得到目標(biāo)文字“舟”,并給出關(guān)聯(lián)度60%。
[0128]服務(wù)器將目標(biāo)文字“舟”和關(guān)聯(lián)度60%構(gòu)成返回結(jié)果,通過網(wǎng)絡(luò)返回給客戶端。
[0129]客戶端根據(jù)目標(biāo)文字“舟”對應(yīng)的關(guān)聯(lián)度,將目標(biāo)文字“舟”調(diào)整到編碼字符串中對應(yīng)的候選項(xiàng)的首屏末位進(jìn)行顯示。
[0130]綜上所述,本發(fā)明實(shí)施例中服務(wù)器可以將客戶端上傳的語音數(shù)據(jù)識別成自然語言文本,從而獲取該語音數(shù)據(jù)對客戶端中目標(biāo)音節(jié)匹配的目標(biāo)文字進(jìn)行語義描述,再通過分詞詞庫切分、采用語義模型進(jìn)行語義分析等,從該自然語言文本中提取出目標(biāo)文字,然后將該目標(biāo)文字反饋給客戶端,從而可以通過服務(wù)器快速的獲取用戶想要輸入的字詞,提高了用戶選取候選項(xiàng)的效率。
[0131]其次,本發(fā)明實(shí)施例中服務(wù)器可以采用語義模型對分析結(jié)果進(jìn)行分析,從而確定關(guān)鍵詞和描述詞,為了確保準(zhǔn)確性,還可以采用描述詞對關(guān)鍵詞進(jìn)行進(jìn)一步的修正,從而可以將修正后的關(guān)鍵詞作為目標(biāo)文字,從而給用戶提供更多樣的匹配結(jié)果,增強(qiáng)了輸入的擴(kuò)展性,方便后續(xù)用戶的輸入。
[0132]再次,本發(fā)明實(shí)施例中語義模型包括以下至少一種:以詞定字模型、拆分模型和語義篩選模型。從而可以為分詞結(jié)果選擇合適的語義模型,通過語義模型進(jìn)行快速的分析、校驗(yàn),在保證分析的準(zhǔn)確率的基礎(chǔ)上,提高分析的速度,提高效率。
[0133]本實(shí)施例提供了由客戶端和服務(wù)器共同執(zhí)行的過程,在其他實(shí)施例中,在網(wǎng)絡(luò)不暢或是沒有網(wǎng)絡(luò)的環(huán)境下也可以由客戶端單獨(dú)執(zhí)行上述過程,客戶端調(diào)用本地存儲的語音識別引擎和語義模型,對輸入的語音數(shù)據(jù)進(jìn)行識別,并將識別得到的自然語言文本進(jìn)行語義分析,提取出目標(biāo)文字,將目標(biāo)文字直接作為語義候選項(xiàng)在編碼字符串對應(yīng)的各候選項(xiàng)中進(jìn)行優(yōu)先顯示??蛻舳藛为?dú)執(zhí)行的具體執(zhí)行邏輯與上述方法基本一致,因此不再贅述。
[0134]實(shí)施例二
[0135]參照圖4,給出了本發(fā)明實(shí)施例二提供的文字的輸入系統(tǒng)結(jié)構(gòu)圖。
[0136]相應(yīng)的,本發(fā)明實(shí)施例還提供了一種文字的輸入系統(tǒng),
[0137]接收模塊31,用于接收編碼字符串中目標(biāo)音節(jié)對應(yīng)輸入的語音數(shù)據(jù);其中,所述語音數(shù)據(jù)用于對所述目標(biāo)音節(jié)所匹配的目標(biāo)文字進(jìn)行描述;
[0138]識別并提取模塊41,用于將所述語音數(shù)據(jù)識別為自然語言文本;并通過語義分析從所述自然語言文本中提取出目標(biāo)文字;
[0139]展示模塊32,用于將所述目標(biāo)文字作為語義候選項(xiàng),并結(jié)合語義候選項(xiàng)展示所述編碼字符串對應(yīng)的各候選項(xiàng)。
[0140]實(shí)際處理中,上述系統(tǒng)可以僅配置于客戶端中,在網(wǎng)絡(luò)不暢或是沒有網(wǎng)絡(luò)的環(huán)境下也可以由客戶端單獨(dú)執(zhí)行上述過程,客戶端通過識別并提取模塊41調(diào)用本地存儲的語音識別引擎和語義模型,對接收模塊31輸入的語音數(shù)據(jù)進(jìn)行識別,并將識別得到的自然語言文本進(jìn)行語義分析,提取出目標(biāo)文字,在展示模塊32中將目標(biāo)文字直接作為語義候選項(xiàng)在編碼字符串對應(yīng)的各候選項(xiàng)中進(jìn)行優(yōu)先顯示。也可以如圖5所示,由服務(wù)器4和客戶端3構(gòu)成該系統(tǒng),其中:
[0141]客戶纟而3包括:接收t吳塊31和展不t吳塊32。
[0142]服務(wù)器4包括:識別并提取模塊41。
[0143]綜上所述,在進(jìn)行文字輸入時(shí),若編碼字符串中目標(biāo)音節(jié)匹配的文字在候選項(xiàng)中不易查找,可以輸入語音數(shù)據(jù)對該目標(biāo)音節(jié)匹配的目標(biāo)文字進(jìn)行描述,從而可以將該語音數(shù)據(jù)識別為自然語言文本,并通過語義分析提取出目標(biāo)文字,快速的獲取用戶想要輸入的字詞,節(jié)省時(shí)間,提供輸入的效率。并且,還可以將目標(biāo)文字作為語義候選項(xiàng),并結(jié)合語義候選項(xiàng)展示所述編碼字符串對應(yīng)的各候選項(xiàng),從而給用戶提供更多樣的匹配結(jié)果,方便用戶輸入。
[0144]參照圖6,給出了本發(fā)明實(shí)施例二提供的文字的輸入系統(tǒng)中識別并提取模塊的可選結(jié)構(gòu)圖。
[0145]在本發(fā)明一個(gè)可選實(shí)施例中,識別并提取模塊41具有如下結(jié)構(gòu):
[0146]識別并提取模塊41,包括:
[0147]切分子模塊411,用于采用預(yù)置的分詞詞庫對所述自然語言文本進(jìn)行切分,確定所述自然語言文本的分詞結(jié)果;
[0148]分析并提取子模塊412,用于采用語義模型對所述分詞結(jié)果進(jìn)行分析,從所述分詞結(jié)果中提取出所述語音數(shù)據(jù)描述的目標(biāo)文字。
[0149]可選的,所述切分子模塊411,包括:
[0150]分析單元4111,用于采用預(yù)置的分詞詞庫對所述自然語言文本進(jìn)行元素分析,確定至少一種備選切分結(jié)果;
[0151]結(jié)果確定單元4112,用于對每種備選切分結(jié)果進(jìn)行概率計(jì)算,并將概率最大的備選切分結(jié)果作為分詞結(jié)果。
[0152]可選的,所述分析并提取子模塊412,包括:
[0153]分析并提取單元4121,用于通過所述語義模型對所述分詞結(jié)果進(jìn)行分析,提取出所述分詞結(jié)果中的關(guān)鍵詞和描述詞;
[0154]修正單元4122,用于依據(jù)所述描述詞對所述關(guān)鍵詞進(jìn)行修正,將修正后的關(guān)鍵詞作為所述目標(biāo)文字。
[0155]可選的,所述語義模型,包括以下至少一種:以詞定字模型、拆分模型和語義篩選模型。
[0156]可選的,所述修正單元4122,用于在所述語義模型為以詞定字模型時(shí),從所述描述詞中查找所述關(guān)鍵詞的同音詞;將所述關(guān)鍵詞修正為所述同音詞,作為所述目標(biāo)文字。
[0157]可選的,所述修正單元4122,用于在所述語義模型為拆分模型時(shí),則對所述描述詞進(jìn)行構(gòu)詞組合,獲取構(gòu)成的文字;將所述關(guān)鍵詞修正為所述構(gòu)成的文字,作為所述目標(biāo)文字。
[0158]可選的,所述修正單元4122,用于在所述語義模型為語義篩選模型時(shí),對所述描述詞進(jìn)行語義分析,篩選得到與描述詞匹配的至少一個(gè)匹配文字;采用所述匹配文字分別對所述關(guān)鍵詞進(jìn)行修正,將修正后的關(guān)鍵詞作為所述目標(biāo)文字。
[0159]參照圖7,給出了本發(fā)明實(shí)施例二提供的文字的輸入系統(tǒng)的第二種可選結(jié)構(gòu)圖。
[0160]可選的,所述系統(tǒng)還包括:
[0161]關(guān)聯(lián)度計(jì)算模塊42,用于計(jì)算所述目標(biāo)文字與所述語音數(shù)據(jù)的關(guān)聯(lián)度;
[0162]展示模塊32,包括:
[0163]語義候選項(xiàng)確定子模塊321,用于將所述目標(biāo)文字作為語義候選項(xiàng);
[0164]展示子模塊322,用于將所述語義候選項(xiàng)與當(dāng)前的各候選項(xiàng)進(jìn)行合并,構(gòu)成所述編碼字符串對應(yīng)的候選項(xiàng)并展示。
[0165]其中,若是由客戶端3和服務(wù)器4構(gòu)成該文字的輸入系統(tǒng),則上述關(guān)聯(lián)度計(jì)算模塊42可以配置于服務(wù)器4中。
[0166]綜上所述,本發(fā)明實(shí)施例中服務(wù)器可以將客戶端上傳的語音數(shù)據(jù)解析成自然語言文本,從而獲取該語音數(shù)據(jù)對客戶端中目標(biāo)音節(jié)匹配的目標(biāo)文字的描述,再通過分詞詞庫切分、采用語義模型進(jìn)行語義分析等處理,從該自然語言文本中提取出目標(biāo)文字,然后將該目標(biāo)文字反饋給客戶端,從而可以通過服務(wù)器快速的獲取用戶想要輸入的字詞,節(jié)省時(shí)間,提供輸入的效率。
[0167]其次,本發(fā)明實(shí)施例中服務(wù)器可以采用語義模型對分析結(jié)果進(jìn)行分析,從而確定關(guān)鍵詞和描述詞,為了確保準(zhǔn)確性,還可以采用描述詞對關(guān)鍵詞進(jìn)行進(jìn)一步的修正,從而可以將修正后的關(guān)鍵詞作為目標(biāo)文字,從而給用戶提供更多樣的匹配結(jié)果,增強(qiáng)了輸入的擴(kuò)展性,方便后續(xù)用戶的輸入。
[0168]再次,本發(fā)明實(shí)施例中語義模型包括以下至少一種:以詞定字模型、拆分模型和語義篩選模型。從而可以為分詞結(jié)果選擇合適的語義模型,通過語義模型進(jìn)行快速的分析、校驗(yàn),在保證分析的準(zhǔn)確率的基礎(chǔ)上,提高分析的速度,提高效率。
[0169]對于系統(tǒng)實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。
[0170]本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即可。
[0171]本發(fā)明可以在由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計(jì)算環(huán)境中實(shí)踐本發(fā)明,在這些分布式計(jì)算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中,程序模塊可以位于包括存儲設(shè)備在內(nèi)的本地和遠(yuǎn)程計(jì)算機(jī)存儲介質(zhì)中。
[0172]最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、商品或者設(shè)備中還存在另外的相同要素。
[0173]以上對本發(fā)明所提供的一種文字輸入方法和系統(tǒng),進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實(shí)施方式】及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
【權(quán)利要求】
1.一種文字的輸入方法,其特征在于,包括: 接收編碼字符串中目標(biāo)音節(jié)對應(yīng)輸入的語音數(shù)據(jù);其中,所述語音數(shù)據(jù)用于對所述目標(biāo)音節(jié)所匹配的目標(biāo)文字進(jìn)行描述; 將所述語音數(shù)據(jù)識別為自然語言文本;并通過語義分析從所述自然語言文本中提取出目標(biāo)文字; 將所述目標(biāo)文字作為語義候選項(xiàng),并結(jié)合語義候選項(xiàng)展示所述編碼字符串對應(yīng)的各候選項(xiàng)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過語義分析從所述自然語言文本中提取出目標(biāo)文字,包括: 采用預(yù)置的分詞詞庫對所述自然語言文本進(jìn)行切分,確定所述自然語言文本的分詞結(jié)果; 采用語義模型對所述分詞結(jié)果進(jìn)行分析,從所述分詞結(jié)果中提取出所述語音數(shù)據(jù)描述的目標(biāo)文字。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述采用預(yù)置的分詞詞庫確定所述自然語言文本進(jìn)行切分,確定所述自然語言文本的分詞結(jié)果,包括: 采用預(yù)置的分詞詞庫對所述自然語言文本進(jìn)行元素分析,確定至少一種備選切分結(jié)果; 對每種備選切分結(jié)果進(jìn)行概率計(jì)算,并將概率最大的切分結(jié)果作為分詞結(jié)果。
4.根據(jù)權(quán)利要求2或3所述的方法,其特征在于,所述采用語義模型對所述分詞結(jié)果進(jìn)行分析,從所述分詞結(jié)果中提取出所述語音數(shù)據(jù)描述的目標(biāo)文字,包括: 通過所述語義模型對所述分詞結(jié)果進(jìn)行分析,提取出所述分詞結(jié)果中的關(guān)鍵詞和描述詞; 依據(jù)所述描述詞對所述關(guān)鍵詞進(jìn)行修正,將修正后的關(guān)鍵詞作為所述目標(biāo)文字。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述語義模型,包括以下至少一種:以詞定字模型、拆分模型和語義篩選模型。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述依據(jù)所述描述詞對所述關(guān)鍵詞進(jìn)行修正,將修正后的關(guān)鍵詞作為所述目標(biāo)文字,包括: 若所述語義模型為以詞定字模型,則從所述描述詞中查找所述關(guān)鍵詞的同音詞; 將所述關(guān)鍵詞修正為所述同音詞,作為所述目標(biāo)文字。
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述依據(jù)所述描述詞對所述關(guān)鍵詞進(jìn)行修正,將修正后的關(guān)鍵詞作為所述目標(biāo)文字,包括: 若所述語義模型為拆分模型,則對所述描述詞進(jìn)行構(gòu)詞組合,獲取構(gòu)成的文字; 將所述關(guān)鍵詞修正為所述構(gòu)成的文字,作為所述目標(biāo)文字。
8.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述依據(jù)所述描述詞對所述關(guān)鍵詞進(jìn)行修正,將修正后的關(guān)鍵詞作為所述目標(biāo)文字,包括: 若所述語義模型為語義篩選模型,則對所述描述詞進(jìn)行語義分析,篩選得到與描述詞匹配的至少一個(gè)匹配文字; 根據(jù)所述匹配文字分別對所述關(guān)鍵詞進(jìn)行修正,將修正后的關(guān)鍵詞作為所述目標(biāo)文字。
9.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,將所述目標(biāo)文字作為語義候選項(xiàng)之前,還包括: 計(jì)算所述目標(biāo)文字與所述語音數(shù)據(jù)的關(guān)聯(lián)度; 則將所述目標(biāo)文字作為語義候選項(xiàng),并結(jié)合語義候選項(xiàng)展示所述編碼字符串對應(yīng)的各候選項(xiàng),包括: 將所述目標(biāo)文字作為語義候選項(xiàng); 依據(jù)所述關(guān)聯(lián)度將所述語義候選項(xiàng)與當(dāng)前的候選項(xiàng)進(jìn)行合并,構(gòu)成所述編碼字符串對應(yīng)的候選項(xiàng)并展示。
10.一種文字的輸入系統(tǒng),其特征在于,包括: 接收模塊,用于接收編碼字符串中目標(biāo)音節(jié)對應(yīng)輸入的語音數(shù)據(jù);其中,所述語音數(shù)據(jù)用于對所述目標(biāo)音節(jié)所匹配的目標(biāo)文字進(jìn)行描述; 識別并提取模塊,用于將所述語音數(shù)據(jù)識別為自然語言文本;并通過語義分析從所述自然語言文本中提取出目標(biāo)文字; 展示模塊,用于將所述目標(biāo)文字作為語義候選項(xiàng),并結(jié)合語義候選項(xiàng)展示所述編碼字符串對應(yīng)的各候選項(xiàng)。
11.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述識別并提取模塊,包括: 切分子模塊,用于采用預(yù)置的分詞詞庫對所述自然語言文本進(jìn)行切分,確定所述自然語言文本的分詞結(jié)果; 分析并提取子模塊,用于采用語義模型對所述分詞結(jié)果進(jìn)行分析,從所述分詞結(jié)果中提取出所述語音數(shù)據(jù)描述的目標(biāo)文字。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其特征在于,所述切分子模塊,包括: 分析單元,用于采用預(yù)置的分詞詞庫對所述自然語言文本進(jìn)行元素分析,確定至少一種備選切分結(jié)果; 結(jié)果確定單元,用于對每種備選切分結(jié)果進(jìn)行概率計(jì)算,并將概率最大的備選切分結(jié)果作為分詞結(jié)果。
13.根據(jù)權(quán)利要求11或12所述的系統(tǒng),其特征在于,所述分析并提取子模塊,包括: 分析并提取單元,用于通過所述語義模型對所述分詞結(jié)果進(jìn)行分析,提取出所述分詞結(jié)果中的關(guān)鍵詞和描述詞; 修正單元,用于依據(jù)所述描述詞對所述關(guān)鍵詞進(jìn)行修正,將修正后的關(guān)鍵詞作為所述目標(biāo)文字。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,所述語義模型,包括以下至少一種:以詞定字模型、拆分模型和語義篩選模型。
15.根據(jù)權(quán)利要求14所述的系統(tǒng),其特征在于,所述修正單元,用于在所述語義模型為以詞定字模型時(shí),從所述描述詞中查找所述關(guān)鍵詞的同音詞;將所述關(guān)鍵詞修正為所述同音詞,作為所述目標(biāo)文字。
16.根據(jù)權(quán)利要求14所述的系統(tǒng),其特征在于,所述修正單元,用于在所述語義模型為拆分模型時(shí),對所述描述詞進(jìn)行構(gòu)詞組合,獲取構(gòu)成的文字;將所述關(guān)鍵詞修正為所述構(gòu)成的文字,作為所述目標(biāo)文字。
17.根據(jù)權(quán)利要求14所述的系統(tǒng),其特征在于,所述修正單元,用于在所述語義模型為語義篩選模型時(shí),對所述描述詞進(jìn)行語義分析,篩選得到與描述詞匹配的至少一個(gè)匹配文字;采用所述匹配文字分別對所述關(guān)鍵詞進(jìn)行修正,將修正后的關(guān)鍵詞作為所述目標(biāo)文字。
18.根據(jù)權(quán)利要求10或11所述的系統(tǒng),其特征在于,還包括: 關(guān)聯(lián)度計(jì)算模塊,用于計(jì)算所述目標(biāo)文字與所述語音數(shù)據(jù)的關(guān)聯(lián)度; 則所述展示模塊,包括: 語義候選項(xiàng)確定子模塊,用于將所述目標(biāo)文字作為語義候選項(xiàng); 結(jié)合并展示子模塊,用于將所述語義候選項(xiàng)與當(dāng)前的候選項(xiàng)進(jìn)行合并,構(gòu)成所述編碼字符串對應(yīng)的候選項(xiàng)并展示。
【文檔編號】G06F3/023GK104166462SQ201310185321
【公開日】2014年11月26日 申請日期:2013年5月17日 優(yōu)先權(quán)日:2013年5月17日
【發(fā)明者】張雷, 張霓, 王堅(jiān) 申請人:北京搜狗科技發(fā)展有限公司