一種專(zhuān)業(yè)系統(tǒng)輸入智能提示系統(tǒng)的制作方法
【專(zhuān)利摘要】本發(fā)明提供一種專(zhuān)業(yè)系統(tǒng)輸入智能提示系統(tǒng),它包括分詞分字模塊、單詞和漢字索引模塊、單詞預(yù)測(cè)模塊、用戶交互模塊,其中分字模塊、單詞和漢字索引模塊、單詞預(yù)測(cè)模塊設(shè)置在服務(wù)端,用戶交互模塊設(shè)置在客戶端,服務(wù)端作為獨(dú)立的服務(wù)與專(zhuān)業(yè)系統(tǒng)分離,客戶端作為專(zhuān)業(yè)系統(tǒng)的擴(kuò)展組件被專(zhuān)業(yè)系統(tǒng)使用。采用本發(fā)明系統(tǒng)能夠在用戶與專(zhuān)業(yè)系統(tǒng)交互過(guò)程中,在用戶還未完全做出完整輸入的情況下給出用戶可能想要的提示信息,并且可以在用戶不斷交互過(guò)程中,系統(tǒng)不斷更新自身知識(shí)結(jié)構(gòu),提示用戶更為準(zhǔn)確的信息,同時(shí)提供了可以集成到其它系統(tǒng)的能力,以擴(kuò)展其它應(yīng)用的通用性。
【專(zhuān)利說(shuō)明】一種專(zhuān)業(yè)系統(tǒng)輸入智能提示系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于信息處理領(lǐng)域,具體涉及一種專(zhuān)業(yè)系統(tǒng)輸入智能提示系統(tǒng)。
【背景技術(shù)】
[0002]在大多數(shù)計(jì)算機(jī)軟件系統(tǒng)中,都會(huì)涉及到由用戶輸入文字信息與系統(tǒng)交互的過(guò)程。大多數(shù)軟件系統(tǒng)交互方式都是由用戶直接通過(guò)文本框輸入文字信息,再由系統(tǒng)根據(jù)輸入結(jié)果進(jìn)行查詢,這些查詢結(jié)果中會(huì)存在大量的冗余信息,并非用戶真正想要的,很難做到精確定位用戶所期望的信息。另一方面系統(tǒng)可能會(huì)要求用戶輸入特定格式的數(shù)據(jù),用戶可能會(huì)經(jīng)常輸入錯(cuò)誤。出現(xiàn)這一問(wèn)題的原因主要有兩個(gè)方面。一方面,大多數(shù)用戶在與系統(tǒng)交互過(guò)程中很難很快把自己的想法轉(zhuǎn)換成系統(tǒng)所能理解的信息,因此輸入不準(zhǔn)確。另一方面,系統(tǒng)給予用戶輸入的提示不足,導(dǎo)致用戶輸入不準(zhǔn)確。因而,需要提出一種軟件系統(tǒng)輸入智能提示方法,在用戶輸入過(guò)程中給予用戶提示,讓用戶逐步明確其想法來(lái)解決這一問(wèn)題。
[0003]與本發(fā)明相關(guān)的現(xiàn)有技術(shù)的第一種方法所采用的實(shí)現(xiàn)方式是給出一個(gè)靜態(tài)示例文本,給用戶一些提示和指導(dǎo),幫助用戶輸入正確的信息。
[0004]如果采用上述第一種處理方式就會(huì)存在以下問(wèn)題。首先,靜態(tài)示例文本所表達(dá)的信息量很少,如果用戶不理解或者想表達(dá)的信息超出了示例范圍,用戶輸入還是很難達(dá)到系統(tǒng)所要求的輸入形式。最后,靜態(tài)示例文本字?jǐn)?shù)有限,導(dǎo)致概括性太高,用戶理解靜態(tài)示例文本的難度較大,從而加大了用戶使用系統(tǒng)的難度。
[0005]與本發(fā)明相關(guān)的現(xiàn)有技術(shù)第二種方法是針對(duì)特定的輸入場(chǎng)景,定制高級(jí)查詢或者定制的輸入框,要求用戶以特定的方式進(jìn)行輸入。
[0006]如果采用上述第二種處理方式就會(huì)存在以下問(wèn)題。首先,針對(duì)特定場(chǎng)景必定導(dǎo)致方法沒(méi)有擴(kuò)展性,適應(yīng)性差。其次,定制化的高級(jí)查詢或者定制的輸入框必定增加了系統(tǒng)交互的復(fù)雜性。最后,這種方式只是更加明確限制了用戶輸入,卻沒(méi)有給予用戶足夠提示,即未根本解決問(wèn)題。
【發(fā)明內(nèi)容】
[0007]本發(fā)明要解決的技術(shù)問(wèn)題是:提供一種專(zhuān)業(yè)系統(tǒng)輸入智能提示系統(tǒng),解決現(xiàn)有技術(shù)中用戶在專(zhuān)業(yè)系統(tǒng)的輸入過(guò)程中不能給出更為精確的提示,導(dǎo)致用戶和系統(tǒng)交互存在障礙的問(wèn)題。
[0008]本發(fā)明為解決上述技術(shù)問(wèn)題所采取的技術(shù)方案為:一種專(zhuān)業(yè)系統(tǒng)輸入智能提示系統(tǒng),其特征在于:它包括分詞分字模塊、單詞和漢字索引模塊、單詞預(yù)測(cè)模塊、用戶交互模塊,其中分字模塊、單詞和漢字索引模塊、單詞預(yù)測(cè)模塊設(shè)置在服務(wù)端,用戶交互模塊設(shè)置在客戶端,服務(wù)端作為獨(dú)立的服務(wù)與專(zhuān)業(yè)系統(tǒng)分離,客戶端作為專(zhuān)業(yè)系統(tǒng)的擴(kuò)展組件被專(zhuān)業(yè)系統(tǒng)使用;
分詞分字模塊,用于從外部數(shù)據(jù)源收集到的樣本庫(kù)進(jìn)行分詞,將文本樣本數(shù)據(jù)分割成以英文單詞和漢字為單位的數(shù)據(jù)集合; 單詞和漢字索引模塊,用于從英文單詞和漢字為單位的數(shù)據(jù)集合中,將英文單詞轉(zhuǎn)換成字母序列,將漢字轉(zhuǎn)換成拼音序列,再將這些序列以前綴樹(shù)的數(shù)據(jù)結(jié)構(gòu)進(jìn)行存儲(chǔ),樹(shù)中每一個(gè)節(jié)點(diǎn)將索引其可以關(guān)聯(lián)到的所有漢字和英文單詞集合;
單詞預(yù)測(cè)模塊,用于建立數(shù)據(jù)集合和輸入樣本之間的條件概率模型,將所有符合要求的所預(yù)測(cè)的漢字或英文單詞按照發(fā)生的概率進(jìn)行排序,按概率從高到低輸出預(yù)測(cè)結(jié)果;用戶交互模塊,用于提供文本框給用戶進(jìn)行輸入,當(dāng)用戶在文本框內(nèi)輸入字母、單詞或漢字時(shí),接收用戶的輸入,發(fā)送給單詞和漢字索引模塊,最后接收單詞預(yù)測(cè)模塊的預(yù)測(cè)結(jié)果顯示到提示視圖中,并且將用戶輸入的內(nèi)容發(fā)送給分詞分字模塊進(jìn)行更新。
[0009]按上述方案,所述的分詞分字模塊包括輸入樣本模塊、語(yǔ)言分類(lèi)模塊和拆分模塊;
輸入樣本模塊,用于從樣本庫(kù)按照指定的規(guī)則提取文本信息,整理成數(shù)據(jù)集合,在提取文本信息的同時(shí)將其緯度信息作為數(shù)據(jù)來(lái)源附加信息附加在文本信息中;
語(yǔ)言分類(lèi)模塊,用于將整理好的數(shù)據(jù)集合按語(yǔ)言進(jìn)行分類(lèi);
拆分模塊,用于按照不同的語(yǔ)言所定義的不同分詞分字規(guī)則進(jìn)行分詞分字,分割成以英文單詞和漢字為單位的數(shù)據(jù)集合,數(shù)據(jù)集合中的英文單詞和漢字均帶有數(shù)據(jù)來(lái)源附加信肩、0
[0010]按上述方案,所述的單詞和漢字索引模塊包括索引樹(shù)建立模塊和索引模塊;
索引樹(shù)建立模塊,用于將分詞分字模塊提供的以漢字和英文單詞為單位的數(shù)據(jù)集合轉(zhuǎn)換成拼音序列和字母序列,再將這些序列以前綴樹(shù)的數(shù)據(jù)結(jié)構(gòu)進(jìn)行存儲(chǔ);前綴樹(shù)根據(jù)數(shù)據(jù)來(lái)源附加信息先進(jìn)行分類(lèi),每個(gè)類(lèi)中進(jìn)行按拼音和/或字母序列生成樹(shù)的分支;當(dāng)漢字為多音字時(shí),分別出現(xiàn)在相應(yīng)的序列中;
索引模塊,用于建立一個(gè)輸入框的位置和數(shù)據(jù)來(lái)源附加信息的對(duì)應(yīng)關(guān)系,通過(guò)輸入框的位置和數(shù)據(jù)來(lái)源附加信息的對(duì)應(yīng)關(guān)系,先從前綴樹(shù)中選擇分類(lèi),再根據(jù)輸入拼音和字母序列快速?gòu)纳鲜銮熬Y樹(shù)中索引到其能夠關(guān)聯(lián)到的所有漢字和英文單詞,并按漢字和英文單詞的使用頻次排序輸出,頻次相同則按照字母排序。
[0011]按上述方案,所述的單詞預(yù)測(cè)模塊包括單詞矩陣計(jì)算模塊、詞序概率統(tǒng)計(jì)模塊和預(yù)測(cè)結(jié)果模塊;
單詞矩陣計(jì)算模塊,用于根據(jù)數(shù)據(jù)集合生成一個(gè)用以表達(dá)英文單詞與英文單詞、漢字與漢字、英文單詞與漢字兩兩之間關(guān)系的矩陣,采用十字鏈表的方式進(jìn)行存儲(chǔ);
詞序概率統(tǒng)計(jì)模塊,用于建立上述兩兩之間關(guān)系的條件概率模型?(…卜1),即#表示其中一個(gè)漢字或英文單詞,艱2表示另一個(gè)漢字或英文單詞,^1發(fā)生的條件下蝴2發(fā)生的概率即為? 42 | ^1),將概率結(jié)果填入上述矩陣內(nèi),其中4和…如果在同一個(gè)數(shù)據(jù)來(lái)源附加信息下則其發(fā)生概率更大;
預(yù)測(cè)結(jié)果模塊,用于在接收到輸入了一個(gè)字母的情況下,通過(guò)單詞和漢字索引模塊索引到其下關(guān)聯(lián)到的漢字或英文單詞排序結(jié)果,再根據(jù)詞序概率統(tǒng)計(jì)模塊得到的每一個(gè)漢字或英文單詞的下一個(gè)漢字或英文單詞的概率,最終按概率結(jié)果進(jìn)行從高到低排序。
[0012]按上述方案,所述的用戶交互模塊包括預(yù)測(cè)監(jiān)聽(tīng)器、提示視圖和樣本庫(kù)更新模塊;
預(yù)測(cè)監(jiān)聽(tīng)器,用于監(jiān)聽(tīng)用戶的輸入行為,每當(dāng)用戶輸入了一個(gè)字母,就會(huì)從單詞預(yù)測(cè)模塊獲取預(yù)測(cè)結(jié)果;
提示視圖,用于提供一個(gè)顯示排序結(jié)果的界面;
樣本庫(kù)更新模塊,用于記錄用戶的輸入行為,并更新樣本庫(kù),通知分詞分字模塊更新以英文單詞和漢字為單位的數(shù)據(jù)集合;這個(gè)更新過(guò)程由用戶根據(jù)專(zhuān)業(yè)系統(tǒng)的運(yùn)行情況設(shè)定更新周期,同時(shí)提供一個(gè)探針,在專(zhuān)業(yè)系統(tǒng)的數(shù)據(jù)源發(fā)生變化的情況下,系統(tǒng)進(jìn)行更新處理。
[0013]本發(fā)明的有益效果為:采用本發(fā)明系統(tǒng)能夠在用戶與專(zhuān)業(yè)系統(tǒng)交互過(guò)程中,在用戶還未完全做出完整輸入的情況下給出用戶可能想要的提示信息,并且可以在用戶不斷交互過(guò)程中,系統(tǒng)不斷更新自身知識(shí)結(jié)構(gòu),提示用戶更為準(zhǔn)確的信息,同時(shí)提供了可以集成到其它系統(tǒng)的能力,以擴(kuò)展其它應(yīng)用的通用性。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0014]圖1為本發(fā)明一實(shí)施例的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0015]下面結(jié)合具體實(shí)例和附圖對(duì)本發(fā)明做進(jìn)一步說(shuō)明。
[0016]為了給用戶一個(gè)更為精準(zhǔn)的交互性提示,系統(tǒng)需要預(yù)測(cè)用戶可能輸入的內(nèi)容,首先需要從以往經(jīng)驗(yàn)或者系統(tǒng)設(shè)計(jì)者收集到的文本樣本數(shù)據(jù)中進(jìn)行分詞,即從樣本庫(kù)中分割成以單詞、漢字為單位的單詞集合,這個(gè)過(guò)程需要考慮不同語(yǔ)言之間的差異,如:英語(yǔ)會(huì)以空格來(lái)區(qū)分兩個(gè)單詞,而中文則需要對(duì)單個(gè)漢字進(jìn)行劃分。
[0017]在完成了分詞分字從樣本中產(chǎn)生了系統(tǒng)中可能會(huì)用到的文字集合后,為了方便用戶輸入,用戶只需輸入單詞或者漢字的幾個(gè)字母即可。這樣做可以起到更快將用戶想法與系統(tǒng)內(nèi)信息結(jié)合的目的。這就需要建立一個(gè)字母到單詞和漢字的索引。
[0018]在建立完單詞和漢字索引后,用戶可以很快通過(guò)一個(gè)或多個(gè)字母即可檢索到一組與之匹配的單詞或漢字,但是這些單詞或漢字那些應(yīng)該才是用戶最可能需要的詞,以及輸入完成這個(gè)單詞或漢字后,其下一個(gè)單詞或漢字最可能是哪一個(gè)。
[0019]依據(jù)上述原理,本實(shí)施例提供一種專(zhuān)業(yè)系統(tǒng)輸入智能提示系統(tǒng),如圖1所示,包括分詞分字模塊、單詞和漢字索引模塊、單詞預(yù)測(cè)模塊、用戶交互模塊,其中分字模塊、單詞和漢字索引模塊、單詞預(yù)測(cè)模塊設(shè)置在服務(wù)端,用戶交互模塊設(shè)置在客戶端,服務(wù)端作為獨(dú)立的服務(wù)與專(zhuān)業(yè)系統(tǒng)分離,客戶端作為專(zhuān)業(yè)系統(tǒng)的擴(kuò)展組件被專(zhuān)業(yè)系統(tǒng)使用。這樣做方便了系統(tǒng)集成,可以使本系統(tǒng)能夠更方便的集成到專(zhuān)業(yè)系統(tǒng)中。
[0020]分詞分字模塊,用于從外部數(shù)據(jù)源收集到的樣本庫(kù)進(jìn)行分詞,將文本樣本數(shù)據(jù)分割成以英文單詞和漢字為單位的數(shù)據(jù)集合。
[0021]分詞分字模塊包括輸入樣本模塊、語(yǔ)言分類(lèi)模塊和拆分模塊;輸入樣本模塊,用于從樣本庫(kù)按照指定的規(guī)則提取文本信息,整理成數(shù)據(jù)集合,在提取文本信息的同時(shí)將其緯度信息作為數(shù)據(jù)來(lái)源附加信息附加在文本信息中;語(yǔ)言分類(lèi)模塊,用于將整理好的數(shù)據(jù)集合按語(yǔ)言進(jìn)行分類(lèi);拆分模塊,用于按照不同的語(yǔ)言所定義的不同分詞分字規(guī)則進(jìn)行分詞分字,分割成以英文單詞和漢字為單位的數(shù)據(jù)集合,數(shù)據(jù)集合中的英文單詞和漢字均帶有數(shù)據(jù)來(lái)源附加信息。
[0022]單詞和漢字索引模塊,用于從英文單詞和漢字為單位的數(shù)據(jù)集合中,將英文單詞轉(zhuǎn)換成字母序列,將漢字轉(zhuǎn)換成拼音序列,再將這些序列以前綴樹(shù)的數(shù)據(jù)結(jié)構(gòu)進(jìn)行存儲(chǔ),樹(shù)中每一個(gè)節(jié)點(diǎn)將索引其可以關(guān)聯(lián)到的所有漢字和英文單詞集合。
[0023]單詞和漢字索引模塊包括索引樹(shù)建立模塊和索引模塊;索引樹(shù)建立模塊,用于將分詞分字模塊提供的以漢字和英文單詞為單位的數(shù)據(jù)集合轉(zhuǎn)換成拼音序列和字母序列,再將這些序列以前綴樹(shù)的數(shù)據(jù)結(jié)構(gòu)進(jìn)行存儲(chǔ);前綴樹(shù)根據(jù)數(shù)據(jù)來(lái)源附加信息先進(jìn)行分類(lèi),每個(gè)類(lèi)中進(jìn)行按拼音和/或字母序列生成樹(shù)的分支;當(dāng)漢字為多音字時(shí),分別出現(xiàn)在相應(yīng)的序列中;索引模塊,用于建立一個(gè)輸入框的位置和數(shù)據(jù)來(lái)源附加信息的對(duì)應(yīng)關(guān)系,通過(guò)輸入框的位置和數(shù)據(jù)來(lái)源附加信息的對(duì)應(yīng)關(guān)系,先從前綴樹(shù)中選擇分類(lèi),再根據(jù)輸入拼音和字母序列快速?gòu)纳鲜銮熬Y樹(shù)中索引到其能夠關(guān)聯(lián)到的所有漢字和英文單詞,并按漢字和英文單詞的使用頻次排序輸出,頻次相同則按照字母排序。
[0024]單詞預(yù)測(cè)模塊,用于建立數(shù)據(jù)集合和輸入樣本之間的條件概率模型,將所有符合要求的所預(yù)測(cè)的漢字或英文單詞按照發(fā)生的概率進(jìn)行排序,按概率從高到低輸出預(yù)測(cè)結(jié)果。
[0025]單詞預(yù)測(cè)模塊包括單詞矩陣計(jì)算模塊、詞序概率統(tǒng)計(jì)模塊和預(yù)測(cè)結(jié)果模塊;單詞矩陣計(jì)算模塊,用于根據(jù)數(shù)據(jù)集合生成一個(gè)用以表達(dá)英文單詞與英文單詞、漢字與漢字、英文單詞與漢字兩兩之間關(guān)系的矩陣,采用十字鏈表的方式進(jìn)行存儲(chǔ);詞序概率統(tǒng)計(jì)模塊,用于建立上述兩兩之間關(guān)系的條件概率模型?4表示其中一個(gè)漢字或英文單詞,…表示另一個(gè)漢字或英文單詞,^1發(fā)生的條件下…發(fā)生的概率即為?(舊卜1),將概率結(jié)果填入上述矩陣內(nèi),其中4和…如果在同一個(gè)數(shù)據(jù)來(lái)源附加信息下則其發(fā)生概率更大;預(yù)測(cè)結(jié)果模塊,用于在接收到輸入了一個(gè)字母的情況下,通過(guò)單詞和漢字索引模塊索引到其下關(guān)聯(lián)到的漢字或英文單詞排序結(jié)果,再根據(jù)詞序概率統(tǒng)計(jì)模塊得到的每一個(gè)漢字或英文單詞的下一個(gè)漢字或英文單詞的概率,最終按概率結(jié)果進(jìn)行從高到低排序。
[0026]用戶交互模塊,用于提供文本框給用戶進(jìn)行輸入,當(dāng)用戶在文本框內(nèi)輸入字母、單詞或漢字時(shí),接收用戶的輸入,發(fā)送給單詞和漢字索引模塊,最后接收單詞預(yù)測(cè)模塊的預(yù)測(cè)結(jié)果顯示到提示視圖中,并且將用戶輸入的內(nèi)容發(fā)送給分詞分字模塊進(jìn)行更新。
[0027]用戶交互模塊包括預(yù)測(cè)監(jiān)聽(tīng)器、提示視圖和樣本庫(kù)更新模塊;預(yù)測(cè)監(jiān)聽(tīng)器,用于監(jiān)聽(tīng)用戶的輸入行為,每當(dāng)用戶輸入了一個(gè)字母,就會(huì)從單詞預(yù)測(cè)模塊獲取預(yù)測(cè)結(jié)果;提示視圖,用于提供一個(gè)顯示排序結(jié)果的界面;樣本庫(kù)更新模塊,用于記錄用戶的輸入行為,并更新樣本庫(kù),通知分詞分字模塊更新以英文單詞和漢字為單位的數(shù)據(jù)集合;這個(gè)更新過(guò)程由用戶根據(jù)專(zhuān)業(yè)系統(tǒng)的運(yùn)行情況設(shè)定更新周期,同時(shí)提供一個(gè)探針,在專(zhuān)業(yè)系統(tǒng)的數(shù)據(jù)源發(fā)生變化的情況下(例如產(chǎn)生了新的字當(dāng)所產(chǎn)生的新的字的數(shù)量達(dá)到了用戶設(shè)定的閾值的時(shí)候),系統(tǒng)進(jìn)行更新處理。
[0028]以上實(shí)施例僅用于說(shuō)明本發(fā)明的計(jì)算思想和特點(diǎn),其目的在于使本領(lǐng)域內(nèi)的技術(shù)人員能夠了解本發(fā)明的內(nèi)容并據(jù)以實(shí)施,本發(fā)明的保護(hù)范圍不限于上述實(shí)施例。所以,凡依據(jù)本發(fā)明所揭示的原理、設(shè)計(jì)思路所作的等同變化或修飾,均在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種專(zhuān)業(yè)系統(tǒng)輸入智能提示系統(tǒng),其特征在于:它包括分詞分字模塊、單詞和漢字索引模塊、單詞預(yù)測(cè)模塊、用戶交互模塊,其中分字模塊、單詞和漢字索引模塊、單詞預(yù)測(cè)模塊設(shè)置在服務(wù)端,用戶交互模塊設(shè)置在客戶端,服務(wù)端作為獨(dú)立的服務(wù)與專(zhuān)業(yè)系統(tǒng)分離,客戶端作為專(zhuān)業(yè)系統(tǒng)的擴(kuò)展組件被專(zhuān)業(yè)系統(tǒng)使用; 分詞分字模塊,用于從外部數(shù)據(jù)源收集到的樣本庫(kù)進(jìn)行分詞,將文本樣本數(shù)據(jù)分割成以英文單詞和漢字為單位的數(shù)據(jù)集合; 單詞和漢字索引模塊,用于從英文單詞和漢字為單位的數(shù)據(jù)集合中,將英文單詞轉(zhuǎn)換成字母序列,將漢字轉(zhuǎn)換成拼音序列,再將這些序列以前綴樹(shù)的數(shù)據(jù)結(jié)構(gòu)進(jìn)行存儲(chǔ),樹(shù)中每一個(gè)節(jié)點(diǎn)將索引其可以關(guān)聯(lián)到的所有漢字和英文單詞集合; 單詞預(yù)測(cè)模塊,用于建立數(shù)據(jù)集合和輸入樣本之間的條件概率模型,將所有符合要求的所預(yù)測(cè)的漢字或英文單詞按照發(fā)生的概率進(jìn)行排序,按概率從高到低輸出預(yù)測(cè)結(jié)果; 用戶交互模塊,用于提供文本框給用戶進(jìn)行輸入,當(dāng)用戶在文本框內(nèi)輸入字母、單詞或漢字時(shí),接收用戶的輸入,發(fā)送給單詞和漢字索引模塊,最后接收單詞預(yù)測(cè)模塊的預(yù)測(cè)結(jié)果顯示到提示視圖中,并且將用戶輸入的內(nèi)容發(fā)送給分詞分字模塊進(jìn)行更新。
2.根據(jù)權(quán)利要求1所述的一種專(zhuān)業(yè)系統(tǒng)輸入智能提示系統(tǒng),其特征在于:所述的分詞分字模塊包括輸入樣本模塊、語(yǔ)言分類(lèi)模塊和拆分模塊; 輸入樣本模塊,用于從樣本庫(kù)按照指定的規(guī)則提取文本信息,整理成數(shù)據(jù)集合,在提取文本信息的同時(shí)將其緯度信息作為數(shù)據(jù)來(lái)源附加信息附加在文本信息中; 語(yǔ)言分類(lèi)模塊,用于將整理好的數(shù)據(jù)集合按語(yǔ)言進(jìn)行分類(lèi); 拆分模塊,用于按照不同的語(yǔ)言所定義的不同分詞分字規(guī)則進(jìn)行分詞分字,分割成以英文單詞和漢字為單位的數(shù)據(jù)集合,數(shù)據(jù)集合中的英文單詞和漢字均帶有數(shù)據(jù)來(lái)源附加信肩、O
3.根據(jù)權(quán)利要求1所述的一種專(zhuān)業(yè)系統(tǒng)輸入智能提示系統(tǒng),其特征在于:所述的單詞和漢字索引模塊包括索弓I樹(shù)建立模塊和索弓I模塊; 索引樹(shù)建立模塊,用于將分詞分字模塊提供的以漢字和英文單詞為單位的數(shù)據(jù)集合轉(zhuǎn)換成拼音序列和字母序列,再將這些序列以前綴樹(shù)的數(shù)據(jù)結(jié)構(gòu)進(jìn)行存儲(chǔ);前綴樹(shù)根據(jù)數(shù)據(jù)來(lái)源附加信息先進(jìn)行分類(lèi),每個(gè)類(lèi)中進(jìn)行按拼音和/或字母序列生成樹(shù)的分支;當(dāng)漢字為多音字時(shí),分別出現(xiàn)在相應(yīng)的序列中; 索引模塊,用于建立一個(gè)輸入框的位置和數(shù)據(jù)來(lái)源附加信息的對(duì)應(yīng)關(guān)系,通過(guò)輸入框的位置和數(shù)據(jù)來(lái)源附加信息的對(duì)應(yīng)關(guān)系,先從前綴樹(shù)中選擇分類(lèi),再根據(jù)輸入拼音和字母序列快速?gòu)纳鲜銮熬Y樹(shù)中索引到其能夠關(guān)聯(lián)到的所有漢字和英文單詞,并按漢字和英文單詞的使用頻次排序輸出,頻次相同則按照字母排序。
4.根據(jù)權(quán)利要求1所述的一種專(zhuān)業(yè)系統(tǒng)輸入智能提示系統(tǒng),其特征在于:所述的單詞預(yù)測(cè)模塊包括單詞矩陣計(jì)算模塊、詞序概率統(tǒng)計(jì)模塊和預(yù)測(cè)結(jié)果模塊; 單詞矩陣計(jì)算模塊,用于根據(jù)數(shù)據(jù)集合生成一個(gè)用以表達(dá)英文單詞與英文單詞、漢字與漢字、英文單詞與漢字兩兩之間關(guān)系的矩陣,采用十字鏈表的方式進(jìn)行存儲(chǔ); 詞序概率統(tǒng)計(jì)模塊,用于建立上述兩兩之間關(guān)系的條件概率模型P (w2 Iwl),即Wl表示其中一個(gè)漢字或英文單詞,w2表示另一個(gè)漢字或英文單詞,wl發(fā)生的條件下w2發(fā)生的概率即為P (w2 I wl),將概率結(jié)果填入上述矩陣內(nèi),其中wl和《2如果在同一個(gè)數(shù)據(jù)來(lái)源附加信息下則其發(fā)生概率更大; 預(yù)測(cè)結(jié)果模塊,用于在接收到輸入了一個(gè)字母的情況下,通過(guò)單詞和漢字索引模塊索引到其下關(guān)聯(lián)到的漢字或英文單詞排序結(jié)果,再根據(jù)詞序概率統(tǒng)計(jì)模塊得到的每一個(gè)漢字或英文單詞的下一個(gè)漢字或英文單詞的概率,最終按概率結(jié)果進(jìn)行從高到低排序。
5.根據(jù)權(quán)利要求1所述的一種專(zhuān)業(yè)系統(tǒng)輸入智能提示系統(tǒng),其特征在于:所述的用戶交互模塊包括預(yù)測(cè)監(jiān)聽(tīng)器、提示視圖和樣本庫(kù)更新模塊; 預(yù)測(cè)監(jiān)聽(tīng)器,用于監(jiān)聽(tīng)用戶的輸入行為,每當(dāng)用戶輸入了一個(gè)字母,就會(huì)從單詞預(yù)測(cè)模塊獲取預(yù)測(cè)結(jié)果; 提示視圖,用于提供一個(gè)顯示排序結(jié)果的界面; 樣本庫(kù)更新模塊,用于記錄用戶的輸入行為,并更新樣本庫(kù),通知分詞分字模塊更新以英文單詞和漢字為單位的數(shù)據(jù)集合;這個(gè)更新過(guò)程由用戶根據(jù)專(zhuān)業(yè)系統(tǒng)的運(yùn)行情況設(shè)定更新周期,同時(shí)提供一個(gè)探針,在專(zhuān)業(yè)系統(tǒng)的數(shù)據(jù)源發(fā)生變化的情況下,系統(tǒng)進(jìn)行更新處理。
【文檔編號(hào)】G06F17/30GK104317961SQ201410647575
【公開(kāi)日】2015年1月28日 申請(qǐng)日期:2014年11月14日 優(yōu)先權(quán)日:2014年11月14日
【發(fā)明者】何雙江 申請(qǐng)人:武漢日電光通信工業(yè)有限公司