欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種生成糾錯(cuò)數(shù)據(jù)庫(kù)的方法、自動(dòng)糾錯(cuò)的方法和系統(tǒng)的制作方法

文檔序號(hào):6463159閱讀:228來(lái)源:國(guó)知局
專利名稱:一種生成糾錯(cuò)數(shù)據(jù)庫(kù)的方法、自動(dòng)糾錯(cuò)的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)字符處理的技術(shù)領(lǐng)域,特別是涉及一種生成針對(duì)字符數(shù) 據(jù)的糾錯(cuò)數(shù)據(jù)庫(kù)的方法和裝置,以及一種自動(dòng)糾錯(cuò)的方法和系統(tǒng)。
背景技術(shù)
目前隨著互聯(lián)網(wǎng)技術(shù)應(yīng)用的越來(lái)越廣泛,人們很多的日常工作和娛樂(lè)都在 網(wǎng)絡(luò)上進(jìn)行,用戶越來(lái)越頻繁的需要通過(guò)計(jì)算機(jī)輸入信息而完成人機(jī)交互。但 是用戶在很多情況下有可能輸入了錯(cuò)誤信息,需要進(jìn)行糾錯(cuò)。例如,由于碰觸了其他的鍵盤按鍵而導(dǎo)致輸入錯(cuò)誤;由于記憶不準(zhǔn)確而導(dǎo)致輸入錯(cuò)誤(包括中 文字符輸入和英文字符輸入)等等。傳統(tǒng)的拼寫校正研究早在上個(gè)世紀(jì)中葉就已開始,但主要是針對(duì)文本處理 的,給出的建議也往往不只一個(gè),現(xiàn)在的典型應(yīng)用包括Microsoft Word里的 糾錯(cuò)模塊等等。但是目前的大部分研究都是基于英文的,英文查詢糾錯(cuò)研究主 要基于噪音信道模型和一些判別訓(xùn)練模型,使用到的特征包括編輯距離、發(fā)音 相似度、各種詞典資源、語(yǔ)言模型等信息。隨著技術(shù)發(fā)展,現(xiàn)有技術(shù)也出現(xiàn)了一些針對(duì)中文拼寫校正的自動(dòng)糾錯(cuò)的解 決方案。例如,《基于特征與學(xué)習(xí)的中文文本自動(dòng)校對(duì)方法》(張蟲,周明,黃昌 寧,魯明羽;第3屆中文智能控制及智能自動(dòng)化會(huì)議論文集)等。由于漢字不 是拼音文字,電子文檔中漢字的拼寫錯(cuò)誤主要是由于音近(如"按步就班,,中 的"步"應(yīng)為"部,,)、形近(如"人"和"入,,)、意近(如"既往不究"中的 "究"應(yīng)為"咎")、輸入法的鍵盤輸入序列引起的。上述系統(tǒng)主要是針對(duì)混 淆集中的單詞在上下文搭配上? 1起的錯(cuò)誤,采用歧義消解的思路進(jìn)行校正。再例如,Google公司所申請(qǐng)的名稱為"用于非羅馬字符和字的拼寫校正 系統(tǒng)和方法,,,公開號(hào)為"CN 101002198A"的中國(guó)專利,也公開了一種使用基 于規(guī)則的分類器和隱馬爾可夫模型,通過(guò)中間語(yǔ)言的變換來(lái)處理和校正非羅馬 字符的拼寫錯(cuò)誤。但是現(xiàn)有的各種自動(dòng)糾錯(cuò)方案主要都是依據(jù)預(yù)置模型、簡(jiǎn)單語(yǔ)法分析或者 簡(jiǎn)單詞語(yǔ)比對(duì)等方式進(jìn)行的,其存在一定的局限性,準(zhǔn)確性無(wú)法保證;并且,英文(中文)糾錯(cuò)的解決方案一般并不能直接應(yīng)用在中文(英文)糾錯(cuò)中,解 決方案的適用性較差??傊?,需要本領(lǐng)域技術(shù)人員迫切解決的一個(gè)技術(shù)問(wèn)題就是如何能夠創(chuàng)造 性的提出一種能夠滿足對(duì)多種語(yǔ)言字符進(jìn)行自動(dòng)糾錯(cuò),并且覆蓋面和準(zhǔn)確度都 較高的自動(dòng)糾錯(cuò)解決方案。發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種能夠滿足對(duì)多種語(yǔ)言字符進(jìn)行自 動(dòng)糾錯(cuò),并且覆蓋面和準(zhǔn)確度都較高的自動(dòng)糾錯(cuò)解決方案。相應(yīng)的,本發(fā)明還提供了 一種生成可用于上述自動(dòng)糾錯(cuò)過(guò)程的糾錯(cuò)數(shù)據(jù)庫(kù) 的方法和裝置。為了解決上述問(wèn)題,本發(fā)明公開了 一種生成糾錯(cuò)數(shù)據(jù)庫(kù)的方法,可以包括 收集日志信息,所述日志信息包括用戶的輸入歷史記錄;利用所述輸入歷史記 錄的序列信息,從所述日志信息中挖掘獲取字符糾錯(cuò)關(guān)系;存儲(chǔ)所述字符糾錯(cuò) 關(guān)系,得到糾錯(cuò)數(shù)據(jù)庫(kù)。優(yōu)選的,所述日志信息包括查詢?nèi)罩荆霾樵內(nèi)罩景ㄓ脩舨樵冴P(guān)鍵詞 的輸入歷史記錄,則釆用以下的分析挖掘步驟,獲取字符糾錯(cuò)關(guān)系判斷一用 戶相鄰查詢的關(guān)鍵詞的輸入時(shí)間間隔是否滿足預(yù)置條件,如果是,則確定該相鄰關(guān)鍵詞字符串屬于字符糾錯(cuò)關(guān)系。優(yōu)選的,所述輸入歷史記錄包括用戶輸入的編碼字符串及相應(yīng)的輸入候選 項(xiàng),則采用以下的分析挖掘步驟,獲取字符糾錯(cuò)關(guān)系查找是否存在編碼字符 串直接相鄰的情況,如果是,則確定該相鄰編碼字符串屬于字符糾錯(cuò)關(guān)系,并 確定最后一個(gè)用于輸入候選項(xiàng)的編碼字符串是正確的。優(yōu)選的,還可以包括 將所述正確的編碼字符串相對(duì)應(yīng)的候選項(xiàng)也納入所述字符糾錯(cuò)關(guān)系中。優(yōu)選的,所述輸入歷史記錄包括用戶輸入的編碼字符串、相應(yīng)的輸入候選 項(xiàng)以及刪除操作,則采用以下的分析挖掘步驟,獲取字符糾錯(cuò)關(guān)系查找用戶 在輸入過(guò)程中是否應(yīng)用了刪除操作,如果是,則確定與所述刪除操作相鄰的編 碼字符串屬于字符糾錯(cuò)關(guān)系,并確定最后一個(gè)用于輸入候選項(xiàng)的編碼字符串是 正確的。優(yōu)選的,還可以包括將所述正確的編碼字符串相對(duì)應(yīng)的候選項(xiàng)也納 入所述字符糾錯(cuò)關(guān)系中。優(yōu)選的,所述輸入歷史記錄包括用戶輸入的編碼字符串、相應(yīng)的輸入候選 項(xiàng)以及刪除操作,則采用以下的分析挖掘步驟,獲取字符糾錯(cuò)關(guān)系查找用戶 在輸入候選項(xiàng)的過(guò)程中是否應(yīng)用了刪除操作,如果是,則確定與所述刪除操作 相鄰的候選項(xiàng)字符串屬于字符糾錯(cuò)關(guān)系,并確定最后一個(gè)輸入的候選項(xiàng)是正確的。優(yōu)選的,還可以包括將所述正確的候選項(xiàng)相對(duì)應(yīng)的編碼字符串也納入所 述字符糾錯(cuò)關(guān)系中。優(yōu)選的,所述輸入歷史記錄包括用戶輸入的編碼字符串、相應(yīng)的輸入候選 項(xiàng)以及編碼變換方式,則采用以下的分析挖掘步驟,獲取字符糾錯(cuò)關(guān)系如果 所述輸入歷史記錄包括第一編碼字符串_第二編碼字符串-候選項(xiàng),并且 第一編碼字符串和第二編碼字符串屬于不同的編碼變換方式;則獲取該候選項(xiàng) 在第一編碼變換方式下的正確編碼字符串,確定所述正確編碼字符串和第一編 碼字符串屬于字符糾錯(cuò)關(guān)系。優(yōu)選的,還可以包括將所述候選項(xiàng)也納入所述 字符糾錯(cuò)關(guān)系中。優(yōu)選的,所述方法在確定字符糾錯(cuò)關(guān)系之前還包括判斷所述相鄰的編碼 字符串的輸入時(shí)間間隔或者相鄰候選項(xiàng)的輸入時(shí)間間隔,是否符合預(yù)置條件, 如果是,則再作進(jìn)一步判斷。優(yōu)選的,所述方法在最終確定字符糾錯(cuò)關(guān)系之前還包括判斷所述初步確 定為具有字符糾錯(cuò)關(guān)系的編碼字符串之間是否具有一定的相似度或者編輯距 離,如果是,則認(rèn)可該字符糾錯(cuò)關(guān)系;或者,判斷所述初步確定為具有字符糾 錯(cuò)關(guān)系的候選項(xiàng)之間是否具有一定的相似度或者編輯距離,如果是,則認(rèn)可該 字符糾錯(cuò)關(guān)系。優(yōu)選的,所述還可以進(jìn)一步包括在各個(gè)用戶的日志信息中統(tǒng)計(jì)所述字符 糾錯(cuò)關(guān)系的出現(xiàn)次數(shù),如果其出現(xiàn)次數(shù)大于一定閾值,則確定所述字符糾錯(cuò)關(guān) 系為通用字符糾4晉關(guān)系,生成通用糾錯(cuò)數(shù)據(jù)庫(kù)。依據(jù)本發(fā)明的另一優(yōu)選實(shí)施例,還公開了 一種自動(dòng)糾錯(cuò)的方法,可以包括 收集日志信息,所述日志信息包括用戶的輸入歷史記錄;利用所述輸入歷史記 錄的序列信息,從所述日志信息中挖掘獲取字符糾錯(cuò)關(guān)系;接收用戶輸入信息; 依據(jù)所述字符糾錯(cuò)關(guān)系,向用戶返回糾錯(cuò)提示信息。優(yōu)選的,所述日志信息包括查詢?nèi)罩荆霾樵內(nèi)罩景ㄓ脩舨樵冴P(guān)鍵詞的輸入歷史記錄,則采用以下的分析挖掘步驟,獲取字符糾錯(cuò)關(guān)系判斷一用 戶相鄰查詢的關(guān)鍵詞的輸入時(shí)間間隔是否滿足預(yù)置條件,如果是,則確定該相鄰關(guān)鍵詞字符串屬于字符糾錯(cuò)關(guān)系。優(yōu)選的,所述輸入歷史記錄包括用戶輸入的編碼字符串及相應(yīng)的輸入候選項(xiàng),則采用以下的分析挖掘步驟,獲取字符糾錯(cuò)關(guān)系查找是否存在編碼字符 串直接相鄰的情況,如果是,則確定該相鄰編碼字符串屬于字符糾錯(cuò)關(guān)系,并 確定最后一個(gè)用于輸入候選項(xiàng)的編碼字符串是正確的。優(yōu)選的,所述輸入歷史記錄包括用戶輸入的編碼字符串、相應(yīng)的輸入候選 項(xiàng)以及刪除操作,則采用以下的分析挖掘步驟,獲取字符糾錯(cuò)關(guān)系查找用戶 在輸入過(guò)程中是否應(yīng)用了刪除操作,如果是,則確定與所述刪除操作相鄰的編 碼字符串屬于字符糾錯(cuò)關(guān)系,并確定最后一個(gè)用于輸入候選項(xiàng)的編碼字符串是 正確的。優(yōu)選的,所述輸入歷史記錄包括用戶輸入的編碼字符串、相應(yīng)的輸入候選 項(xiàng)以及刪除操作,則采用以下的分析挖掘步驟,獲取字符糾錯(cuò)關(guān)系查找用戶 在輸入候選項(xiàng)的過(guò)程中是否應(yīng)用了刪除操作,如果是,則確定與所述刪除操作 相鄰的候選項(xiàng)字符串屬于字符糾錯(cuò)關(guān)系,并確定最后一個(gè)輸入的候選項(xiàng)是正確 的。優(yōu)選的,所述輸入歷史記錄包括用戶輸入的編碼字符串、相應(yīng)的輸入候選 項(xiàng)以及編碼變換方式,則采用以下的分析挖掘步驟,獲取字符糾錯(cuò)關(guān)系如果 所述輸入歷史記錄存在第一編碼字符串-第二編碼字符串-候選項(xiàng),并且 第一編碼字符串和第二編碼字符串屬于不同的編碼變換方式;則獲取該候選項(xiàng) 在第一編碼變換方式下的正確編碼字符串,確定所述正確編碼字符串和第一編 碼字符串屬于字符糾錯(cuò)關(guān)系。優(yōu)選的,在最終確定字符糾錯(cuò)關(guān)系之前還可以包括判斷所述初步確定為 具有字符糾錯(cuò)關(guān)系的編碼字符串之間是否具有一定的相似度或者編輯距離,如 果是,則認(rèn)可該字符糾錯(cuò)關(guān)系;或者,判斷所述初步確定為具有字符糾錯(cuò)關(guān)系 的候選項(xiàng)之間是否具有一定的相似度或者編輯距離,如果是,則認(rèn)可該字符糾 錯(cuò)關(guān)系。優(yōu)選的,所述糾錯(cuò)提示信息包括符合字符糾錯(cuò)關(guān)系的正確編碼字符串及其相應(yīng)的候選項(xiàng);或者,符合字符糾錯(cuò)關(guān)系的正確編碼字符串的相應(yīng)候選項(xiàng); 或者,符合字符糾錯(cuò)關(guān)系的正確編碼字符串;或者,符合字符糾錯(cuò)關(guān)系的候選 項(xiàng)及其相應(yīng)的編碼字符串;或者,符合字符糾錯(cuò)關(guān)系的候選項(xiàng)的相應(yīng)編碼字符 串;或者,符合字符糾錯(cuò)關(guān)系的候選項(xiàng)字符串。依據(jù)本發(fā)明的另 一優(yōu)選實(shí)施例,還公開了 一種自動(dòng)糾錯(cuò)的系統(tǒng),可以包括 日志收集單元,用于收集日志信息,所述日志信息包括用戶的輸入歷史記錄;糾錯(cuò)挖掘單元,用于利用所述輸入歷史記錄的序列信息,從所述日志信息 中挖掘獲取字符糾錯(cuò)關(guān)系;接口單元,用于接收用戶輸入信息;糾錯(cuò)單元,用于依據(jù)所述字符糾錯(cuò)關(guān)系,向用戶返回糾錯(cuò)提示信息。優(yōu)選的,所述日志信息包括查詢?nèi)罩?,所述查詢?nèi)罩景ㄓ脩舨樵冴P(guān)4定詞 的輸入歷史記錄,則所述糾錯(cuò)挖掘單元采用以下方式獲取字符糾錯(cuò)關(guān)系判斷 一用戶相鄰查詢的關(guān)鍵詞的輸入時(shí)間間隔是否滿足預(yù)置條件,如果是,則確定 該相鄰關(guān)鍵詞字符串屬于字符糾錯(cuò)關(guān)系。優(yōu)選的,所述輸入歷史記錄包括用戶輸入的編碼字符串及相應(yīng)的輸入候選 項(xiàng),則所述糾錯(cuò)挖掘單元采用以下方式獲取字符糾錯(cuò)關(guān)系查找是否存在編碼 字符串直接相鄰的情況,如果是,則確定該相鄰編碼字符串屬于字符糾錯(cuò)關(guān)系, 并確定最后一個(gè)用于輸入候選項(xiàng)的編碼字符串是正確的。優(yōu)選的,所述輸入歷史記錄包括用戶輸入的編碼字符串、相應(yīng)的輸入候選 項(xiàng)以及刪除操作,則所述糾錯(cuò)挖掘單元采用以下方式獲取字符糾錯(cuò)關(guān)系查找 用戶在輸入過(guò)程中是否應(yīng)用了刪除操作,如果是,則確定與所述刪除操作相鄰 的編碼字符串屬于字符糾錯(cuò)關(guān)系,并確定最后一個(gè)用于輸入候選項(xiàng)的編碼字符 串是正確的。優(yōu)選的,所述輸入歷史記錄包括用戶輸入的編碼字符串、相應(yīng)的輸入候選 項(xiàng)以及刪除操作,則所述糾錯(cuò)挖掘單元采用以下方式獲取字符糾錯(cuò)關(guān)系查找 用戶在輸入候選項(xiàng)的過(guò)程中是否應(yīng)用了刪除梯:作,如果是,則確定與所述刪除 操作相鄰的候選項(xiàng)字符串屬于字符糾錯(cuò)關(guān)系,并確定最后一個(gè)輸入的候選項(xiàng)是 正確的。優(yōu)選的,所述輸入歷史記錄包括用戶輸入的編碼字符串、相應(yīng)的輸入候選 項(xiàng)以及編碼變換方式,則所述糾錯(cuò)挖掘單元采用以下方式獲取字符糾錯(cuò)呆系如果所述輸入歷史記錄存在第一編碼字符串-第二編碼字符串-候選項(xiàng), 并且第一編碼字符串和第二編碼字符串屬于不同的編碼變換方式;則獲取該候 選項(xiàng)在第一編碼變換方式下的正確編碼字符串,確定所述正確編碼字符串和第 一編碼字符串屬于字符糾錯(cuò)關(guān)系。優(yōu)選的,上述系統(tǒng)還可以包括時(shí)間間隔判斷單元,用于判斷所述相鄰的 編碼字符串的輸入時(shí)間間隔或者相鄰候選項(xiàng)的輸入時(shí)間間隔,是否符合預(yù)置條 件,如果是,則再作進(jìn)一步判斷。優(yōu)選的,上述系統(tǒng)還可以包括相近原則判斷單元,用于判斷所述初步確 定為具有字符糾錯(cuò)關(guān)系的編碼字符串之間是否具有一定的相似度或者編輯距 離,如果是,則最終確定該字符糾錯(cuò)關(guān)系;或者,相近原則判斷單元,用于判 斷所述初步確定為具有字符糾錯(cuò)關(guān)系的候選項(xiàng)之間是否具有一定的相似度或 者編輯距離,如果是,則最終確定該字符糾錯(cuò)關(guān)系。優(yōu)選的,所述糾錯(cuò)提示信息包括符合字符糾錯(cuò)關(guān)系的正確編碼字符串及 其相應(yīng)的候選項(xiàng);或者,符合字符糾錯(cuò)關(guān)系的正確編碼字符串的相應(yīng)候選項(xiàng); 或者,符合字符糾錯(cuò)關(guān)系的正確編碼字符串;或者,符合字符糾錯(cuò)關(guān)系的候選 項(xiàng)及其相應(yīng)的編碼字符串;或者,符合字符糾錯(cuò)關(guān)系的候選項(xiàng)的相應(yīng)編碼字符 串;或者,符合字符糾錯(cuò)關(guān)系的候選項(xiàng)字符串。依據(jù)本發(fā)明的另一實(shí)施例,還公開了一種生成糾錯(cuò)數(shù)據(jù)庫(kù)的裝置,包括日志收集單元,用于收集日志信息,所述日志信息包括用戶的輸入歷史記錄;糾錯(cuò)挖掘單元,用于利用所述輸入歷史記錄的序列信息,從所述日志信息 中挖掘獲取字符糾錯(cuò)關(guān)系;數(shù)據(jù)庫(kù)生成單元,用于存儲(chǔ)所述字符糾錯(cuò)關(guān)系,得到糾錯(cuò)數(shù)據(jù)庫(kù)。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn)本發(fā)明通過(guò)記錄和收集包括有用戶輸入過(guò)程信息的日志,從中將用戶手動(dòng) 糾錯(cuò)的信息挖掘出來(lái),生成糾錯(cuò)數(shù)據(jù)庫(kù),以用于實(shí)現(xiàn)對(duì)更多用戶更準(zhǔn)確的自動(dòng)糾錯(cuò),還可以用于實(shí)現(xiàn)對(duì)該用戶的個(gè)性化自動(dòng)糾錯(cuò)。由于本發(fā)明所應(yīng)用的糾錯(cuò)信息是從包括有用戶輸入過(guò)程信息的日志中得 到的,而該信息可以反映用戶手動(dòng)糾錯(cuò)的信息,相對(duì)于計(jì)算機(jī)的分析查錯(cuò)而言, 用戶手動(dòng)糾錯(cuò)更符合用戶需求,更為準(zhǔn)確。其次,由于本發(fā)明是基于用戶的輸入歷史記錄得到的,具體分析的是用戶 手動(dòng)糾錯(cuò)的過(guò)程,而無(wú)需關(guān)心其具體字符的形式,所以本發(fā)明可以同時(shí)適用在 如中英文這樣的非羅馬字符和羅馬字符糾錯(cuò)過(guò)程中,適用面很廣。并且,由于 本發(fā)明的糾錯(cuò)信息是直接從用戶日志中分析得到的,會(huì)得到一些采用預(yù)置模型 等方式無(wú)法知悉的糾錯(cuò)關(guān)系,因此,本發(fā)明針對(duì)糾錯(cuò)的覆蓋面更廣,能夠校正 更多類型的輸入錯(cuò)誤。


圖1是本發(fā)明一種生成糾錯(cuò)數(shù)據(jù)庫(kù)的方法實(shí)施例的步驟流程圖;圖2是本發(fā)明 一種自動(dòng)糾錯(cuò)的方法實(shí)施例的步驟流程圖; 圖3是本發(fā)明 一種自動(dòng)糾錯(cuò)的系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖; 圖4是本發(fā)明一種生成糾錯(cuò)數(shù)據(jù)庫(kù)的裝置實(shí)施例的結(jié)構(gòu)框圖; 圖5是本發(fā)明一種同時(shí)應(yīng)用于輸入領(lǐng)域和搜索領(lǐng)域的自動(dòng)糾錯(cuò)系統(tǒng)實(shí)施 例的結(jié)構(gòu)框圖。
具體實(shí)施方式
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。本發(fā)明可用于眾多通用或?qū)S玫挠?jì)算系統(tǒng)環(huán)境或配置中。例如個(gè)人計(jì)算 機(jī)、服務(wù)器計(jì)算機(jī)、手持設(shè)備或便攜式設(shè)備、平板型設(shè)備、多處理器系統(tǒng)包括 以上任何系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境等等。本發(fā)明可以在由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的 一般上下文中描述,例 如程序模塊。 一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的 例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計(jì)算環(huán)境中實(shí)踐本 發(fā)明,在這些分布式計(jì)算環(huán)境中,由通過(guò)通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來(lái) 執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中,程序模塊可以位于包括存儲(chǔ)設(shè)備在內(nèi)的本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。參照?qǐng)D1,示出了本發(fā)明一種生成糾錯(cuò)數(shù)據(jù)庫(kù)的方法實(shí)施例,包括以下步驟步驟IOI、收集日志信息,所述日志信息包括用戶的輸入歷史記錄; 步驟102、利用所述輸入歷史記錄的序列信息,從所述日志信息中挖掘獲取字符糾錯(cuò)關(guān)系;本發(fā)明所述的字符可以包括編碼字符串、候選項(xiàng)(如字、詞、短語(yǔ))等;步驟103、存儲(chǔ)所述字符糾錯(cuò)關(guān)系,得到糾錯(cuò)數(shù)據(jù)庫(kù)。 一般的,不管是中文輸入還是英文輸入,用戶在使用輸入法(包括拼音、 五筆等各類輸入法)的過(guò)程中,經(jīng)常會(huì)出現(xiàn)輸入錯(cuò)誤的情況,其中輸入錯(cuò)誤的 類型大致可以分為輸入碼序列多、少、錯(cuò)等三種情況。例如,多用戶多敲了按鍵、用戶碼型記錯(cuò)了、用戶模糊音區(qū)分不清等; 少用戶少敲了按鍵、用戶碼型記錯(cuò)了、用戶模糊音區(qū)分不清等; 錯(cuò)用戶敲錯(cuò)了按鍵、用戶碼型記錯(cuò)了、用戶模糊音區(qū)分不清等; 然而,用戶在輸入錯(cuò)誤的情況下, 一般能夠根據(jù)輸入法軟件的返回結(jié)果, 意識(shí)到自己的輸入錯(cuò)誤,并且大部分情況下,用戶能夠在緊接著下一次輸入中 輸入正確的輸入碼。即用戶在輸入的過(guò)程中就存在很多的手動(dòng)糾錯(cuò)的信息,這 樣,我們就有可能根據(jù)大規(guī)模的用戶輸入歷史記錄,從中訓(xùn)練學(xué)習(xí)出錯(cuò)誤碼和 正確碼之間的對(duì)應(yīng)關(guān)系,進(jìn)而生成糾錯(cuò)數(shù)據(jù)庫(kù),幫助糾錯(cuò)過(guò)程。而一般的,用 戶都會(huì)在緊鄰錯(cuò)誤碼的位置點(diǎn)和時(shí)間點(diǎn)上輸入正確碼,因此,利用用戶輸入歷 史記錄中的序列信息,可以較好的得到所需的字符糾錯(cuò)關(guān)系。對(duì)于圖1所示實(shí)施例得到的糾錯(cuò)數(shù)據(jù)庫(kù),可以為由某個(gè)用戶的日志信息中 分析挖掘得到的針對(duì)該用戶的個(gè)性化糾錯(cuò)數(shù)據(jù)庫(kù),也可以為由大量用戶的曰志 信息統(tǒng)計(jì)、分析、挖掘得到的針對(duì)大部分用戶的通用糾錯(cuò)數(shù)據(jù)庫(kù)。本發(fā)明所需的包括用戶輸入歷史記錄信息的日志,可以為輸入法日志,也 可以為查詢?nèi)罩?,本發(fā)明并不需要對(duì)具體的日志形式加以限定。本發(fā)明的輸入 歷史記錄可以包括中文、日文、英文等等,故糾錯(cuò)數(shù)據(jù)庫(kù)也可以應(yīng)用在中文、 日文、英文等語(yǔ)言輸入中。總的來(lái)說(shuō),由于用戶手動(dòng)糾錯(cuò)是和具體語(yǔ)言無(wú)關(guān)的,因此,本發(fā)明從理論上而言,可以應(yīng)用在各種語(yǔ)言環(huán)境中。在本發(fā)明的說(shuō)明書 優(yōu)選釆用中文字詞為例進(jìn)行說(shuō)明,其他語(yǔ)言可以參照理解。在上述技術(shù)核心構(gòu)思的指導(dǎo)下,利用輸入歷史記錄的序列信息,可以采用 各種可行的分析挖掘步驟或者其組合。所述的序列信息可以包括輸入的前后順 序、相鄰關(guān)系、輸入時(shí)間等各種因素。下面給出幾個(gè)具體的實(shí)施例,以作說(shuō)明。實(shí)施例1本實(shí)施例以查詢?nèi)罩咀鳛閿?shù)據(jù)源為例進(jìn)行說(shuō)明, 一般的,所述查詢?nèi)罩究?以由搜索引擎記錄得到,通過(guò)IP地址或者用戶登錄名將各個(gè)用戶的查詢記錄 分開;當(dāng)然,所述查詢記錄也可以由本地客戶端記錄,然后匯集起來(lái)。所述查詢?nèi)罩疽话憧梢园ㄓ脩舨樵冴P(guān)鍵詞的輸入歷史記錄,例如,10.10.1.1 上海 2008-02-25. 09:00:0010.10.1.1 搏斗 2008-02-25. 12:00:0010.10.1.1 搏斗 2008-02-25. 12:00:0010.10.1.1 搏斗 2008-02-25. 13:00:0010.10.1.1 搏斗 2008-02-25. 13:00:0010.10.1.1 搏斗 2008-02-25. 15:00:00上述日志信息中的每一行表示一個(gè)用戶查詢串, 一行記錄中包括有如下信 息用戶標(biāo)識(shí)(例如,帳號(hào)、昵稱、IP等等, 一般可以用來(lái)唯一表示一個(gè)用 戶),用戶輸入的查詢關(guān)鍵詞,行為發(fā)生時(shí)間。由于一般用戶的查詢關(guān)鍵詞輸 入時(shí)間和執(zhí)行查詢的時(shí)間比較接近,因此,在本發(fā)明的分析挖掘中可以將二者 同一看4寺。當(dāng)收集到如上的日志信息之后,可以釆用以下的分析挖掘步驟,獲取字符 糾錯(cuò)關(guān)系判斷一用戶相鄰查詢的關(guān)鍵詞的輸入時(shí)間間隔是否滿足預(yù)置條件, 如果是,則確定該相鄰關(guān)鍵詞字符串屬于字符糾錯(cuò)關(guān)系。本發(fā)明所述的"相鄰" 并不限于僅僅表示兩個(gè)相鄰,而可以表示多個(gè)相鄰。假設(shè)預(yù)置條件為輸入時(shí)間間隔小于10秒,則可以發(fā)現(xiàn),對(duì)于用戶 10. 10. 1. 1而言,歷史記錄"上海2008-02-25. 09: 00: 00 "和下一條輸入記 錄相隔3小時(shí),因此過(guò)濾掉。同樣原理可以將"192.10.1.1南京"也過(guò)濾掉。這樣,對(duì)于用戶"10.10.1.1"生成了一 條"搏+"-> "博斗"的相鄰關(guān)系對(duì),對(duì)于"192. 10. 1. 1"用戶也生成一條"搏 -〉"博斗"的相鄰關(guān)系。其中,"博斗"一詞為新詞,用于表示博客爭(zhēng)斗的 意思。即得到的字符糾錯(cuò)關(guān)系如下 復(fù)M U "搏斗,,-> "博+""么M L』"搏+"—〉"博"f"優(yōu)選的,在最終確定上述字符糾錯(cuò)關(guān)系之前,還可以判斷兩個(gè)串之間的相 似度或者編輯距離是否滿足一定條件,如果是,則認(rèn)可上述字符糾錯(cuò)關(guān)系。因 為在某些情況下,用戶是可能在短時(shí)間內(nèi)先后輸入兩個(gè)查詢關(guān)鍵詞,但是如果 考慮了兩個(gè)串之間的相似度或者編輯距離,則屬于糾錯(cuò)行為的可能性就大大增 加了,因此,本優(yōu)選步驟可以增加本發(fā)明對(duì)糾錯(cuò)關(guān)系確定的準(zhǔn)確性。相似度一般是指兩個(gè)串之間存在編碼相似(如音似)、字形相似、字義相 似等等。編輯距離是計(jì)算文本相似度的一種方法。編輯距離定義為, 一個(gè)詞變 成另一個(gè)詞所需要添加、刪除、替換字符操作的次數(shù)。編輯距離越小的詞,其 糾錯(cuò)的可能性就越大。本發(fā)明可以將上述糾錯(cuò)關(guān)系發(fā)送至相應(yīng)用戶,以實(shí)現(xiàn)針對(duì)該用戶的個(gè)性化 糾錯(cuò)功能;當(dāng)然,也可以進(jìn)一步統(tǒng)計(jì)在各個(gè)用戶中所述字符糾錯(cuò)關(guān)系"搏斗" -〉"博斗"的出現(xiàn)次數(shù),如果其出現(xiàn)次數(shù)大于一定閾值,則確定所述字符糾錯(cuò) 關(guān)系為通用字符糾錯(cuò)關(guān)系,生成通用糾錯(cuò)數(shù)據(jù)庫(kù)。實(shí)施例2本實(shí)施例以用戶的輸入法日志信息為例進(jìn)行說(shuō)明。所述輸入法日志信息可以包括用戶輸入的編碼字符串及相應(yīng)的輸入候選項(xiàng),在本實(shí)施例中可以利用用戶輸入序列信息挖掘獲取所需的字符糾錯(cuò)關(guān)系,如下查找是否存在編碼字符串直接相鄰的情況,如果是,則確定該相鄰編碼字 符串屬于字符糾錯(cuò)關(guān)系,并確定最后一個(gè)用于輸入候選項(xiàng)的編碼字符串是正確的。對(duì)于用戶的輸入歷史記錄,輸入法日志可以記錄信息"用戶標(biāo)識(shí)-編碼字符串-輸入候選項(xiàng),,,當(dāng)然,其中的"用戶標(biāo)識(shí),,屬于可選記錄字段。在用戶手 動(dòng)糾錯(cuò)的情況下,輸入法日志可能記錄信息、"用戶標(biāo)識(shí)-編碼字符串-編碼字符 串-輸入候選項(xiàng)",甚至"用戶標(biāo)識(shí)-編碼字符串-編碼字符串-編碼字符串-輸入 候選項(xiàng)"等。為了簡(jiǎn)便說(shuō)明,以前者為例,用戶先輸入"gulou",發(fā)現(xiàn)沒(méi)有所需的候選 項(xiàng),則重新輸入"goulou",得到所需的候選項(xiàng)"佝僂",完成一次完整的輸入。 輸入法日志記錄信息為"用戶標(biāo)識(shí)-gulou - goulou -佝^婁"。由于一般情況下,用戶正常輸入時(shí)不會(huì)出現(xiàn)兩個(gè)編碼字符串(嚴(yán)格意義上應(yīng)該具體指相似的 編碼字符串)緊鄰出現(xiàn)的情況,典型的就是因?yàn)橛脩羰謩?dòng)糾錯(cuò)而出現(xiàn)的,因此, 當(dāng)出現(xiàn)編碼字符串緊鄰的情況時(shí),可以確定該相鄰編碼字符串屬于字符糾錯(cuò)關(guān)系,如"gulou -〉 goulou",并可以確定最后一個(gè)用于輸入候選項(xiàng)的編碼字符串"goulou"是正確的。優(yōu)選的,在最終確定上述字符糾錯(cuò)關(guān)系之前,還可以判斷兩個(gè)串之間的相似度或者編輯距離是否滿足一定條件,如果是,則認(rèn)可 上述字符糾錯(cuò)關(guān)系。優(yōu)選的,為了能夠向用戶提供更多的糾錯(cuò)信息,上述實(shí)施例2還可以包括 將所述正確的編碼字符串相對(duì)應(yīng)的候選項(xiàng)也納入所述字符糾錯(cuò)關(guān)系中。即形成 字符糾錯(cuò)關(guān)系"gulou -〉 goulou -)佝僂",以便在糾錯(cuò)提示中直接向用戶 提供候選項(xiàng)"詢僂"。實(shí)施例3本實(shí)施例以輸入法日志為例進(jìn)行說(shuō)明,與實(shí)施例2的區(qū)別在于,本實(shí)施例 的輸入法日志還記錄有用戶的相關(guān)刪除操作,例如退格鍵、delete鍵、Esc 鍵,替換操作等等。其中,替換操作可以看出是刪除操作和重新輸入操作的結(jié) 合。由于一般情況下,用戶正常輸入時(shí)不會(huì)采用刪除操作, 一個(gè)典型情況就是 因?yàn)橛脩羰謩?dòng)糾錯(cuò)而出現(xiàn)的,因此,當(dāng)在用戶的輸入記錄中出現(xiàn)了刪除操作, 則可以確定此處存在用戶手動(dòng)糾錯(cuò)的信息。本實(shí)施例可以采用以下的分析挖掘 步驟,獲取字符糾錯(cuò)關(guān)系查找用戶在輸入過(guò)程中是否應(yīng)用了刪除操作,如果是,則確定與所述刪除操作相鄰的編碼字符串屬于字符糾錯(cuò)關(guān)系,并確定最后一個(gè)用于輸入候選項(xiàng)的 編碼字符.串是正確的。對(duì)于用戶的輸入歷史記錄,輸入法日志可以記錄信息"用戶標(biāo)識(shí)-編碼字 符串-輸入候選項(xiàng),,,當(dāng)然,其中的"用戶標(biāo)識(shí)"屬于可選記錄字段。在用戶手 動(dòng)糾錯(cuò)的情況下,輸入法日志可能記錄信息"用戶標(biāo)識(shí)-編碼字符串-刪除操 作-編碼字符串-輸入候選項(xiàng)"。例如,用戶先輸入"shanhai,,,發(fā)現(xiàn)沒(méi)有所需的候選項(xiàng),則刪除"hai,,, 并繼續(xù)輸入"ghai,,,得到編碼字符串"Shanghai",進(jìn)而選擇所需的候選項(xiàng)"上 海",完成一次完整的輸入。從所記錄的信息"用戶標(biāo)識(shí)-shanhai -刪除才喿 作-shanghai-上海,,,可以分析得知,與刪除才喿作相鄰的兩個(gè)編碼字符串屬 于字符糾4昔關(guān)系"shanhai" -〉 "shanghai",并可以確定最后一個(gè)用于輸入 候選項(xiàng)的編碼字符串"shanghai"是正確的。需要說(shuō)明的是,本實(shí)施例中"與所述刪除操作相鄰的編碼字符串"中的"相 鄰"還包括如下類似的歷史記錄"用戶標(biāo)識(shí)-shanhai -山海-刪除操作-shanghai -上海";即用戶確定候選項(xiàng)上屏后(例如習(xí)慣性按空格鍵確認(rèn))才 發(fā)現(xiàn)不對(duì),然后將候選項(xiàng)刪除,重新輸入編碼字符串"shanghai",進(jìn)而選擇 所需的候選項(xiàng)"上海",完成一次完整的輸入。可以分析得知,與刪除操作相 鄰的兩個(gè)編碼字符串屬于字符糾錯(cuò)關(guān)系"shanhai" -〉 "shanghai"。優(yōu)選的,在最終確定上述字符糾錯(cuò)關(guān)系之前,還可以判斷兩個(gè)串之間的相 似度或者編輯距離是否滿足一定條件,如果是,則認(rèn)可上述字符糾錯(cuò)關(guān)系。優(yōu)選的,為了能夠向用戶提供更多的糾錯(cuò)信息,上述實(shí)施例3還可以包括 將所述正確的編碼字符串相對(duì)應(yīng)的候選項(xiàng)也納入所述字符糾錯(cuò)關(guān)系中。即形成 字符糾錯(cuò)關(guān)系"shanhai" -〉 "shanghai"-〉"上海",以便在糾錯(cuò)提示中直 接向用戶才是供候選項(xiàng)"上海"。實(shí)施例4本實(shí)施例以輸入法日志為例進(jìn)行說(shuō)明,與實(shí)施例3的區(qū)別在于,本實(shí)施例 直接針對(duì)候選項(xiàng)進(jìn)行糾錯(cuò)關(guān)系的挖掘。所述候選項(xiàng)可以包括中文候選項(xiàng),也可 以包括英文候選項(xiàng)。對(duì)于候選項(xiàng),本實(shí)施例可以采用以下的分析挖掘步驟,獲取字符糾錯(cuò)關(guān)系 查找用戶在輸入過(guò)程中是否應(yīng)用了刪除操作,如果是,則確定與所述刪除操作 相鄰的候選項(xiàng)字符串屬于字符糾錯(cuò)關(guān)系,并確定最后一個(gè)輸入的候選項(xiàng)是正確 的。對(duì)于用戶的輸入歷史記錄,輸入法日志可以記錄信息"用戶標(biāo)識(shí)-|#入4矣 選項(xiàng)",當(dāng)然,其中的"用戶標(biāo)識(shí)"屬于可選記錄字段。在用戶手動(dòng)糾錯(cuò)的情 況下,輸入法日志可能記錄信息"用戶標(biāo)識(shí)-輸入候選項(xiàng)-刪除操作-輸入候 選項(xiàng)"。例如,用戶先輸入"beijin",上屏輸入了候選項(xiàng)"被禁",之后發(fā)現(xiàn)該候 選項(xiàng)并不是自己所需的,則刪除候選項(xiàng)"被禁",并繼續(xù)輸入"beijing,,,進(jìn) 而選擇所需的候選項(xiàng)"北京",完成一次完整的輸入。從所記錄的信息"用戶 標(biāo)識(shí)—皮禁-刪除操作-北京,,,可以分析得知,與刪除操:作相鄰的兩個(gè)候選項(xiàng) 字符串屬于字符糾錯(cuò)關(guān)系"被禁"-〉"北京"。而對(duì)于被用戶詞庫(kù)所記錄的"被 禁" 一詞,當(dāng)判斷出其屬于字符糾錯(cuò)關(guān)系"被禁"-〉"北京"中的錯(cuò)詞時(shí), 可以直接自動(dòng)將其從用戶詞庫(kù)中刪除,或者通知用戶手動(dòng)選擇刪除。以免該詞 在用戶詞庫(kù)中的存在影響其他候選項(xiàng)的排序。再例如,用戶采用英文輸入法輸入了候選項(xiàng)"aslo",發(fā)現(xiàn)不對(duì),又重新 輸入了候選項(xiàng)"also",則通過(guò)本實(shí)施例挖掘得到糾錯(cuò)關(guān)系"aslo" -〉 "also"。優(yōu)選的,在最終確定上述字符糾錯(cuò)關(guān)系之前,還可以判斷兩個(gè)串之間的相 似度或者編輯距離是否滿足一定條件,如果是,則認(rèn)可上述字符糾錯(cuò)關(guān)系。優(yōu)選的,為了能夠向用戶提供更多的糾錯(cuò)信息,上述實(shí)施例4還可以包括 將所述正確的候選項(xiàng)相對(duì)應(yīng)的編碼字符串也納入所述字符糾錯(cuò)關(guān)系中。即形成 字符糾錯(cuò)關(guān)系"被禁"-〉"北京"-〉"beijing,,,以便在糾錯(cuò)提示中直接向 用戶提供正確的編碼字符串"beijing"。實(shí)施例5本實(shí)施例仍然以輸入法日志為例進(jìn)行說(shuō)明,與之前實(shí)施例的區(qū)別在于,本 實(shí)施例的輸入法日志還記錄有用戶輸入所采用的編碼-候選項(xiàng)變換方式(例如, 拼音輸入、五筆輸入、字形輔助輸入等等)。由于一般情況下,用戶正常輸入時(shí)都會(huì)選用比較熟悉的編碼-候選項(xiàng)變換 方式,在輸入過(guò)程中并不會(huì)經(jīng)常更換,例如,習(xí)慣使用拼音輸入的用戶,不會(huì) 一會(huì)采用拼音輸入, 一會(huì)又采用五筆輸入。 一個(gè)典型情況就是因?yàn)橛脩羰謩?dòng)糾 錯(cuò)而出現(xiàn)的,如用戶輸入了錯(cuò)誤的第一編碼字符串,但是卻不知道所需候選項(xiàng) 在第一編碼-候選項(xiàng)變換方式下的正確編碼字符串,所以只好采用第二編碼-候選項(xiàng)變換方式輸入得到所需候選項(xiàng)。因此,當(dāng)用戶日志信息中出現(xiàn)編碼-候 選項(xiàng)變換方式的更換時(shí),就可能存在用戶手動(dòng)糾錯(cuò)的信息,則本實(shí)施例可以采 用以下的分析挖掘步驟,獲取字符糾錯(cuò)關(guān)系如果所述輸入歷史記錄存在第一編碼字符串-第二編碼字符串-候選 項(xiàng),并且第一編碼字符串和第二編碼字符串屬于不同的編碼-候選項(xiàng)變換方式; 則獲取該候選項(xiàng)在第一編碼-候選項(xiàng)變換方式下的正確編碼字符串,確定所述 正確編碼字符串和第一編碼字符串屬于字符糾錯(cuò)關(guān)系。優(yōu)選的,在最終確定上 述字符糾錯(cuò)關(guān)系之前,還可以判斷兩個(gè)串之間的相似度或者編輯距離是否滿足 一定條件,如果是,則認(rèn)可上述字符糾錯(cuò)關(guān)系。例如,用戶先輸入"lingwu",卻沒(méi)有發(fā)現(xiàn)所需的候選項(xiàng)"囹圄",并且不 知悉該候選項(xiàng)的正確拼音編碼,則該用戶通過(guò)字形輔助輸入的方式或者五筆輸 入的方式,得到了候選項(xiàng)"囹圄"。則本實(shí)施例可以獲取候選項(xiàng)"囹圄"在拼 音編碼方式(第一編碼-候選項(xiàng)變換方式)下的正確編碼字符串"lingyu",進(jìn) 而確定如下的字符糾錯(cuò)關(guān)系"lingwu" -〉 "lingyu"。優(yōu)選的,為了能夠向用戶提供更多的糾錯(cuò)信息,上述實(shí)施例5還可以包括 將所述正確的編碼字符串相對(duì)應(yīng)的候選項(xiàng)也納入所述字符糾錯(cuò)關(guān)系中。即形成 字符糾錯(cuò)關(guān)系"lingwu,, — 〉 "lingyu"-〉"囹圄",以便在糾錯(cuò)提示中直接向 用戶提供所需的候選項(xiàng)"囹圄"。如果前述各個(gè)實(shí)施例中的前后序列信息的時(shí)間間隔較長(zhǎng),則屬于用戶手動(dòng) 糾錯(cuò)的可能性會(huì)大大降低。所以在本發(fā)明中,優(yōu)選的,還可以包括以下步驟 判斷所述相鄰的編碼字符串的輸入時(shí)間間隔或者相鄰候選項(xiàng)的輸入時(shí)間間隔, 是否符合預(yù)置條件,如果是,則再作進(jìn)一步判斷。在本發(fā)明中,如果為了得到面向大多數(shù)用戶的糾錯(cuò)數(shù)據(jù)庫(kù),則還可以在前述實(shí)施例的基礎(chǔ)上進(jìn)一步包括在各個(gè)用戶的日志信息中統(tǒng)計(jì)所述字符糾錯(cuò)關(guān) 系的出現(xiàn)次數(shù),如果其出現(xiàn)次數(shù)大于一定閾值,則,定所述字符糾錯(cuò)關(guān)系為通 用字符糾錯(cuò)關(guān)系,生成通用糾錯(cuò)數(shù)據(jù)庫(kù)。參照?qǐng)D2,示出了本發(fā)明一種自動(dòng)糾錯(cuò)的方法實(shí)施例,包括 步驟201、收集日志信息,所述日志信息包括用戶的輸入歷史記錄; 步驟202、利用所述輸入歷史記錄的序列信息,從所述日志信息中挖掘獲 取字符糾錯(cuò)關(guān)系;步驟203、接收用戶輸入信息;步驟204、依據(jù)所述字符糾錯(cuò)關(guān)系,向用戶返回糾錯(cuò)提示信息。本實(shí)施例所述糾錯(cuò)行為是在前述實(shí)施例得到糾錯(cuò)關(guān)系的基礎(chǔ)上完成的,由 于相應(yīng)內(nèi)容已經(jīng)在前面詳細(xì)描述了,因此在此不再贅述。本實(shí)施例步驟203和204可以用于對(duì)用戶輸入過(guò)程的糾錯(cuò),也可以用于搜 索過(guò)程中的查詢關(guān)鍵詞糾錯(cuò),下面就分別進(jìn)行詳細(xì)說(shuō)明。其中,對(duì)于具體的糾 錯(cuò)提示信息包括哪些內(nèi)容以及該信息如何展示,本發(fā)明并不需要加以限定,因 此在此就不詳述了 ,本領(lǐng)域技術(shù)人員可以釆用各種可行的方式。一般的,所述糾錯(cuò)提示信息可以包括符合字符糾錯(cuò)關(guān)系的正確編碼字符串 及其相應(yīng)的^f吳選項(xiàng)?;蛘?,所述糾錯(cuò)提示信息也可以僅包括符合字符糾錯(cuò)關(guān)系的正確編碼字符 串的相應(yīng)候選項(xiàng);或者,所述糾錯(cuò)提示信息也可以僅包括符合字符糾錯(cuò)關(guān)系的正確編碼字符串;或者,所述糾錯(cuò)提示信息也可以包括符合字符糾錯(cuò)關(guān)系的候選項(xiàng)及其相應(yīng) 的編碼字符串;或者,所述糾錯(cuò)提示信息也可以僅包括符合字符糾錯(cuò)關(guān)系的候選項(xiàng)的相應(yīng) 編碼字符串;或者,所述糾錯(cuò)提示信息也可以僅包括符合字符糾錯(cuò)關(guān)系的候選項(xiàng)字符串。例1本實(shí)施例以搜索過(guò)程中的查詢糾錯(cuò)為f列進(jìn)行說(shuō)明。用戶在搜索輸入框中輸入"被禁",搜索引擎或者頁(yè)面腳本依據(jù)前述得到的糾錯(cuò)關(guān)系,得知存在匹配的字符糾錯(cuò)關(guān)系"被禁"-〉"北京",則提示用戶 "您是不是希望檢索與'北京,相關(guān)的內(nèi)容?,,,并可以賦以相關(guān)的超鏈接, 當(dāng)用戶點(diǎn)擊提示信息時(shí),就可以直接返回與"北京"相關(guān)的檢索結(jié)果。上述提示信息可以出現(xiàn)在對(duì)"被禁"檢索之前(如用戶輸入'被禁,至搜 索輸入框的同時(shí)),也可以出現(xiàn)在對(duì)"被禁,,的檢索之后,即所述提示信息和 與"被禁"相關(guān)的檢索結(jié)果一同展示。例2本實(shí)施例以用戶輸入過(guò)程中的拼寫糾錯(cuò)為例進(jìn)行說(shuō)明。 用戶輸入編碼字符串"moban",當(dāng)前輸入法系統(tǒng)依據(jù)前述得到的糾錯(cuò)關(guān)系 (例如,以糾錯(cuò)詞庫(kù)的形式存在),得知存在匹配的字符糾錯(cuò)關(guān)系"moban" -〉"muban,,-〉"模板",則提示用戶"您是不是希望輸入'模板(muban ),", 或采用"模(mii )板"的形式進(jìn)行提示。即可以通知告知正確的編碼字符串。 優(yōu)選的,上述糾錯(cuò)信息"模板(muban)"還可以直接出現(xiàn)在候選項(xiàng)中,如果用 戶確認(rèn),則可以將"模板,,上屏輸出,而不需要用戶重新輸入,在糾錯(cuò)的基礎(chǔ) 上進(jìn)一步提高輸入效率。參照?qǐng)D3,示出了本發(fā)明一種自動(dòng)糾錯(cuò)的系統(tǒng)實(shí)施例,具體可以包括 曰志收集單元301,用于收集日志信息,所述日志信息包括用戶的輸入歷 史記錄;糾錯(cuò)挖掘單元302,用于利用所述輸入歷史記錄的序列信息,從所述日志 信息中挖掘獲取字符糾錯(cuò)關(guān)系;接口單元303,用于接收用戶輸入信息;糾錯(cuò)單元304,用于依據(jù)所述字符糾錯(cuò)關(guān)系,向用戶返回糾錯(cuò)提示信息。 在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,所述日志信息包括查詢?nèi)罩荆霾樵冊(cè)?志包括用戶查詢關(guān)鍵詞的輸入歷史記錄,則所述糾錯(cuò)挖掘單元可以采用以下方式獲取字符糾錯(cuò)關(guān)系判斷一用戶相鄰查詢的關(guān)鍵詞的輸入時(shí)間間隔是否滿足預(yù)置條件,如果是,則確定該相鄰關(guān)鍵詞字符串屬于字符糾錯(cuò)關(guān)系。在本發(fā)明的另 一個(gè)優(yōu)選實(shí)施例中,所述輸入歷史記錄包括用戶輸入的編碼 字符串及相應(yīng)的輸入候選項(xiàng),則所述糾錯(cuò)挖掘單元可以采用以下方式獲取字符糾錯(cuò)關(guān)系查找是否存在編碼字符串直接相鄰的情況,如果是,則確定該相鄰 編碼字符串屬于字符糾錯(cuò)關(guān)系,并確定最后一個(gè)用于輸入候選項(xiàng)的編碼字符串 是正確的。優(yōu)選的,還可以將所述正確的編碼字符串相對(duì)應(yīng)的候選項(xiàng)也納入所 述字符糾4昔關(guān)系中。在本發(fā)明的另 一個(gè)優(yōu)選實(shí)施例中,所述輸入歷史記錄包括用戶輸入的編碼 字符串、相應(yīng)的輸入候選項(xiàng)以及刪除操作,則所述糾錯(cuò)挖掘單元也可以采用以 下方式獲取字符糾錯(cuò)關(guān)系查找用戶在輸入過(guò)程中是否應(yīng)用了刪除操作,如果 是,則確定與所述刪除操作相鄰的編碼字符串屬于字符糾錯(cuò)關(guān)系,并確定最后 一個(gè)用于輸入候選項(xiàng)的編碼字符串是正確的。優(yōu)選的,還可以將所述正確的編 碼字符串相對(duì)應(yīng)的候選項(xiàng)也納入所述字符糾錯(cuò)關(guān)系中。在本發(fā)明的另 一個(gè)優(yōu)選實(shí)施例中,所述輸入歷史記錄包括用戶輸入的編碼 字符串、相應(yīng)的輸入候選項(xiàng)以及刪除操作,則所述糾錯(cuò)挖掘單元采用以下方式 獲取字符糾錯(cuò)關(guān)系查找用戶在輸入過(guò)程中是否應(yīng)用了刪除操作,如果是,則 確定與所述刪除操作相鄰的候選項(xiàng)字符串屬于字符糾錯(cuò)關(guān)系,并確定最后一個(gè) 輸入的候選項(xiàng)是正確的。優(yōu)選的,還可以將所述正確的候選項(xiàng)相對(duì)應(yīng)的編碼字 符串也納入所述字符糾錯(cuò)關(guān)系中。在本發(fā)明的另 一個(gè)優(yōu)選實(shí)施例中,所述輸入歷史記錄包括用戶輸入的編碼 字符串、相應(yīng)的輸入候選項(xiàng)以及編碼變換方式,則所述糾錯(cuò)挖掘單元采用以下 方式獲取字符糾錯(cuò)關(guān)系如果所述輸入歷史記錄存在第一編碼字符串_第 二編碼字符串-候選項(xiàng),并且第一編碼字符串和第二編碼字符串屬于不同的 編碼變換方式;則獲取該候選項(xiàng)在第一編碼變換方式下的正確編碼字符串,確 定所述正確編碼字符串和第一編碼字符串屬于字符糾錯(cuò)關(guān)系。優(yōu)選的,還可以 將所述正確的編碼字符串相對(duì)應(yīng)的候選項(xiàng)也納入所述字符糾錯(cuò)關(guān)系中。優(yōu)選的,為了提高字符糾錯(cuò)關(guān)系認(rèn)定的準(zhǔn)確性,本發(fā)明還可以包括相近原 則判斷單元,用于判斷所述初步確定為具有字符糾錯(cuò)關(guān)系的字符串之間是否具有一定的相似度或者編輯距離,如果是,則最終確定該字符糾錯(cuò)關(guān)系。所述字 符串包括具有字符糾錯(cuò)關(guān)系的編碼字符串,也可以包括具有字符糾錯(cuò)關(guān)系的候 選項(xiàng)字符串。優(yōu)選的,本發(fā)明還可以包括時(shí)間間隔判斷單元,用于判斷所述相鄰的編 碼字符串的輸入時(shí)間間隔或者相鄰候選項(xiàng)的輸入時(shí)間間隔,是否符合預(yù)置條 件,如果是,則再作進(jìn)一步判斷。所述時(shí)間間隔判斷單元可以進(jìn)一步提高糾錯(cuò) 信息挖掘的準(zhǔn)確性。優(yōu)選的,本發(fā)明還可以包括統(tǒng)計(jì)單元,用于進(jìn)一步在各個(gè)用戶的日志信息中統(tǒng)計(jì)所述字符糾錯(cuò)關(guān)系的出現(xiàn)次數(shù),如果其出現(xiàn)次數(shù)大于一定閾值,則確 定所述字符糾錯(cuò)關(guān)系為通用字符糾錯(cuò)關(guān)系。即本發(fā)明可以完成針對(duì)某個(gè)用戶的 個(gè)性化糾錯(cuò),也可以完成針對(duì)大部分用戶的通用糾錯(cuò)。參照?qǐng)D4,示出了本發(fā)明一種生成糾錯(cuò)數(shù)據(jù)庫(kù)的裝置實(shí)施例,包括 日志收集單元401,用于收集日志信息,所述日志信息包括用戶的輸入歷 史記錄;糾錯(cuò)挖掘單元402,用于利用所述輸入歷史記錄的序列信息,從所述曰志 信息中挖掘獲取字符糾錯(cuò)關(guān)系;數(shù)據(jù)庫(kù)生成單元403,用于存儲(chǔ)所述字符糾錯(cuò)關(guān)系,得到糾錯(cuò)數(shù)據(jù)庫(kù)。前述的自動(dòng)糾錯(cuò)系統(tǒng)實(shí)施例中的優(yōu)選附件模塊或者具體實(shí)現(xiàn)方式都可以 應(yīng)用在本實(shí)施例中,因此,在此不再贅述。參照?qǐng)D5,示出了本發(fā)明一種同時(shí)應(yīng)用于輸入領(lǐng)域和搜索領(lǐng)域的自動(dòng)糾錯(cuò) 系統(tǒng),具體包括日志收集模塊501,用于收集用戶在客戶端或者網(wǎng)絡(luò)端的輸入歷史記錄, 得到日志信息;所述日志信息包括輸入法日志和搜索查詢?nèi)罩?;日志存?chǔ)模塊502,用于通過(guò)日志存儲(chǔ)服務(wù)器508將海量用戶日志信息進(jìn) 行存儲(chǔ)得到日志數(shù)據(jù)庫(kù)506,以供后續(xù)模塊使用;糾錯(cuò)挖掘模塊503,用于利用用戶輸入序列信息,從所述日志信息中挖掘 獲取糾錯(cuò)關(guān)系,得到自動(dòng)糾錯(cuò)數(shù)據(jù)庫(kù)507;信息分發(fā)模塊504,用于將糾錯(cuò)關(guān)系分發(fā)給各個(gè)輸入法客戶端;查詢服務(wù)模塊505,用于將糾錯(cuò)關(guān)系應(yīng)用于搜索引擎服務(wù)中。 前述的自動(dòng)糾錯(cuò)系統(tǒng)實(shí)施例中的優(yōu)選附件模塊或者辜體實(shí)現(xiàn)方式都可以 應(yīng)用在本實(shí)施例中,因此,在此不再贅述。本說(shuō)明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的 都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即 可。對(duì)于系統(tǒng)實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn) 單,相關(guān)之處參見方法實(shí)施例的部分說(shuō)明即可。以上對(duì)本發(fā)明所提供的一種生成糾錯(cuò)數(shù)據(jù)庫(kù)的方法和裝置,以及一種自動(dòng) 糾錯(cuò)的方法和系統(tǒng),進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理 及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書內(nèi)容不應(yīng)理解為 對(duì)本發(fā)明的限制。
權(quán)利要求
1、一種生成糾錯(cuò)數(shù)據(jù)庫(kù)的方法,其特征在于,包括收集日志信息,所述日志信息包括用戶的輸入歷史記錄;利用所述輸入歷史記錄的序列信息,從所述日志信息中挖掘獲取字符糾錯(cuò)關(guān)系;存儲(chǔ)所述字符糾錯(cuò)關(guān)系,得到糾錯(cuò)數(shù)據(jù)庫(kù)。
2、 如權(quán)利要求l所述的方法,其特征在于,所述日志信息包括查詢?nèi)罩荆?所述查詢?nèi)罩景ㄓ脩舨樵冴P(guān)鍵詞的輸入歷史記錄,則采用以下的分析挖掘步 驟,獲取字符糾錯(cuò)關(guān)系判斷一用戶相鄰查詢的關(guān)^t詞的輸入時(shí)間間隔是否滿足預(yù)置條件,如果 是,則確定該相鄰關(guān)鍵詞字符串屬于字符糾錯(cuò)關(guān)系。
3、 如權(quán)利要求1所述的方法,其特征在于,所述輸入歷史記錄包括用戶 輸入的編碼字符串及相應(yīng)的輸入候選項(xiàng),則采用以下的分析挖掘步驟,獲取字 符糾錯(cuò)關(guān)系查找是否存在編碼字符串直接相鄰的情況,如果是,則確定該相鄰編碼字 符串屬于字符糾錯(cuò)關(guān)系,并確定最后一個(gè)用于輸入候選項(xiàng)的編碼字符串是正確 的。
4、 如權(quán)利要求3所述的方法,其特征在于,還包括將所述正確的編碼字符串相對(duì)應(yīng)的候選項(xiàng)也納入所述字符糾錯(cuò)關(guān)系中。
5、 如權(quán)利要求1所述的方法,其特征在于,所述輸入歷史記錄包括用戶 輸入的編碼字符串、相應(yīng)的輸入候選項(xiàng)以及刪除操作,則采用以下的分析挖掘 步驟,獲取字符糾錯(cuò)關(guān)系查找用戶在輸入過(guò)程中是否應(yīng)用了刪除操作,如果是,則確定與所述刪除 操作相鄰的編碼字符串屬于字符糾錯(cuò)關(guān)系,并確定最后一個(gè)用于輸入候選項(xiàng)的 編碼字符串是正確的。
6、 如權(quán)利要求5所述的方法,其特征在于,還包括將所述正確的編碼字符串相對(duì)應(yīng)的候選項(xiàng)也納入所述字符糾錯(cuò)關(guān)系中。
7、 如權(quán)利要求l所述的方法,其特征在于,所述輸入歷史記錄包括用戶 輸入的編碼字符串、相應(yīng)的輸入候選項(xiàng)以及刪除操作,則采用以下的分析挖掘步驟,獲取字符糾錯(cuò)關(guān)系查找用戶在輸入候選項(xiàng)的過(guò)程中是否應(yīng)用了刪除操作,如果是,則確定與 所述刪除4喿作相鄰的候選項(xiàng)字符串屬于字符糾錯(cuò)關(guān)系,并確定最后一個(gè)輸入的 候選項(xiàng)是正確的。
8、 如權(quán)利要求7所述的方法,其特征在于,還包括將所述正確的候選項(xiàng)相對(duì)應(yīng)的編碼字符串也納入所述字符糾錯(cuò)關(guān)系中。
9、 如權(quán)利要求1所述的方法,其特征在于,所述輸入歷史記錄包括用戶 輸入的編碼字符串、相應(yīng)的輸入候選項(xiàng)以及編碼變換方式,則采用以下的分析 挖掘步驟,獲取字符糾錯(cuò)關(guān)系如果所述輸入歷史記錄包括第一編碼字符串-第二編碼字符串-候選 項(xiàng),并且第一編碼字符串和第二編碼字符串屬于不同的編碼變換方式;貝'J;獲取該候選項(xiàng)在第一編碼變換方式下的正確編碼字符串,確定所述正確編 碼字符串和第一編碼字符串屬于字符糾錯(cuò)關(guān)系。
10、 如權(quán)利要求9所述的方法,其特征在于,還包括將所述候選項(xiàng)也納入所述字符糾一睹關(guān)系中。
11、 如權(quán)利要求3-10所述的任一方法,其特征在于,在確定字符糾錯(cuò)關(guān) 系之前還包括判斷所述相鄰的編碼字符串的輸入時(shí)間間隔或者相鄰候選項(xiàng)的輸入時(shí)間 間隔,是否符合預(yù)置條件,如果是,則再作進(jìn)一步判斷。
12、 如權(quán)利要求2-9所述的任一方法,其特征在于,在最終確定字符糾錯(cuò) 關(guān)系之前還包括判斷所述初步確定為具有字符糾錯(cuò)關(guān)系的編碼字符串之間是否具有一定 的相似度或者編輯距離,如果是,則認(rèn)可該字符糾錯(cuò)關(guān)系;或者,判斷所述初步確定為具有字符糾錯(cuò)關(guān)系的候選項(xiàng)之間是否具有一定 的相似度或者編輯距離,如果是,則認(rèn)可該字符糾錯(cuò)關(guān)系。
13、 如權(quán)利要求2-9所述的任一方法,其特征在于,還包括 進(jìn)一步在各個(gè)用戶的日志信息中統(tǒng)計(jì)所述字符糾錯(cuò)關(guān)系的出現(xiàn)次數(shù),如果其出現(xiàn)次數(shù)大于一定閾值,則確定所述字符糾錯(cuò)關(guān)系為通用字符糾錯(cuò)關(guān)系,生 成通用糾錯(cuò)數(shù)據(jù)庫(kù)。
14、 一種自動(dòng)糾錯(cuò)的方法,其特征在于,包括收集日志信息,所述日志信息包括用戶的輸入歷史記錄;利用所述輸入歷史記錄的序列信息,從所述日志信息中挖掘獲取字符糾錯(cuò)關(guān)系;接收用戶輸入信息;依據(jù)所述字符糾錯(cuò)關(guān)系,向用戶返回糾錯(cuò)提示信息。
15、 如權(quán)利要求14所述的方法,其特征在于,所述日志信息包括查詢?nèi)?志,所述查詢?nèi)罩景ㄓ脩舨樵冴P(guān)4走詞的輸入歷史記錄,則采用以下的分析挖 掘步驟,獲取字符糾錯(cuò)關(guān)系判斷一用戶相鄰查詢的關(guān)鍵詞的輸入時(shí)間間隔是否滿足預(yù)置條件,如果 是,則確定該相鄰關(guān)鍵詞字符串屬于字符糾錯(cuò)關(guān)系。
16、 如權(quán)利要求14所述的方法,其特征在于,所述輸入歷史記錄包括用 戶輸入的編碼字符串及相應(yīng)的輸入候選項(xiàng),則釆用以下的分析挖掘步驟,獲取 字符糾錯(cuò)關(guān)系查找是否存在編碼字符串直接相鄰的情況,如果是,則確定該相鄰編碼字 符串屬于字符糾錯(cuò)關(guān)系,并確定最后一個(gè)用于輸入候選項(xiàng)的編碼字符串是正確 的。
17、 如權(quán)利要求14所述的方法,其特征在于,所述輸入歷史記錄包括用 戶輸入的編碼字符串、相應(yīng)的輸入候選項(xiàng)以及刪除操作,則采用以下的分析挖 掘步驟,獲取字符糾錯(cuò)關(guān)系查找用戶在輸入過(guò)程中是否應(yīng)用了刪除操作,如果是,則確定與所述刪除 操作相鄰的編碼字符串屬于字符糾錯(cuò)關(guān)系,并確定最后一個(gè)用于輸入候選項(xiàng)的 編碼字符串是正確的。
18、 如權(quán)利要求14所述的方法,其特征在于,所述輸入歷史記錄包括用 戶輸入的編碼字符串、相應(yīng)的輸入候選項(xiàng)以及刪除操作,則采用以下的分析挖 掘步驟,獲取字符糾錯(cuò)關(guān)系查找用戶在輸入候選項(xiàng)的過(guò)程中是否應(yīng)用了刪除操作,如果是,則確定與 所述刪除操作相鄰的候選項(xiàng)字符串屬于字符糾錯(cuò)關(guān)系,并確定最后一個(gè)輸入的 候選項(xiàng)是正確的。
19、 如權(quán)利要求14所述的方法,其特征在于,所述輸入歷史記錄包括用戶輸入的編碼字符串、相應(yīng)的輸入候選項(xiàng)以及編碼變換方式,則采用以下的分析挖掘步驟,獲取字符糾錯(cuò)關(guān)系如果所述輸入歷史記錄存在第一編碼字符串-第二編碼字符串-候選 項(xiàng),并且第一編碼字符串和第二編碼字符串屬于不同的編碼變換方式;則;獲取該候選項(xiàng)在第一編碼變換方式下的正確編碼字符串,確定所述正確編 碼字符串和第一編碼字符串屬于字符糾錯(cuò)關(guān)系。
20、 如權(quán)利要求15—19所述的任一方法,其特征在于,在最終確定字符 糾錯(cuò)關(guān)系之前還包括判斷所述初步確定為具有字符糾錯(cuò)關(guān)系的編碼字符串之間是否具有一定 的相似度或者編輯距離,如果是,則認(rèn)可該字符糾錯(cuò)關(guān)系;或者,判斷所述初步確定為具有字符糾錯(cuò)關(guān)系的候選項(xiàng)之間是否具有一定 的相似度或者編輯距離,如果是,則認(rèn)可該字符糾錯(cuò)關(guān)系。
21、 如權(quán)利要求14所述的方法,其特征在于,所述糾錯(cuò)提示信息包括 符合字符糾錯(cuò)關(guān)系的正確編碼字符串及其相應(yīng)的候選項(xiàng);或者,符合字符糾錯(cuò)關(guān)系的正確編碼字符串的相應(yīng)候選項(xiàng); 或者,符合字符糾錯(cuò)關(guān)系的正確編碼字符串; 或者,符合字符糾錯(cuò)關(guān)系的候選項(xiàng)及其相應(yīng)的編碼字符串; 或者,符合字符糾錯(cuò)關(guān)系的候選項(xiàng)的相應(yīng)編碼字符串; 或者,符合字符糾錯(cuò)關(guān)系的候選項(xiàng)字符串。
22、 一種自動(dòng)糾錯(cuò)的系統(tǒng),其特征在于,包括日志收集單元,用于收集日志信息,所述日志信息包括用戶的輸入歷史記錄;糾錯(cuò)挖掘單元,用于利用所述輸入歷史記錄的序列信息,從所述日志信息 中挖掘獲取字符糾錯(cuò)關(guān)系;接口單元,用于接收用戶輸入信息;糾錯(cuò)單元,用于依據(jù)所述字符糾錯(cuò)關(guān)系,向用戶返回糾錯(cuò)提示信息。
23、 如權(quán)利要求22所述的系統(tǒng),其特征在于,所述日志信息包括查詢?nèi)?志,所述查詢?nèi)罩景ㄓ脩舨樵冴P(guān)鍵詞的輸入歷史記錄,則所述糾錯(cuò)挖掘單元采用以下方式獲取字符糾錯(cuò)關(guān)系判斷一用戶相鄰查詢的關(guān)鍵詞的輸入時(shí)間間隔是否滿足預(yù)置條件,如果 是,則確定該相鄰關(guān)鍵詞字符串屬于字符糾錯(cuò)關(guān)系。
24、 如權(quán)利要求22所述的系統(tǒng),其特征在于,所述輸入歷史記錄包括用戶輸入的編碼字符串及相應(yīng)的輸入候選項(xiàng),則所述糾4晉挖掘單元采用以下方式獲取字符糾錯(cuò)關(guān)系查找是否存在編碼字符串直接相鄰的情況,如果是,則確定該相鄰編碼字 符串屬于字符糾錯(cuò)關(guān)系,并確定最后一個(gè)用于輸入候選項(xiàng)的編碼字符串是正確的。
25、 如權(quán)利要求22所述的系統(tǒng),其特征在于,所述輸入歷史記錄包括用 戶輸入的編碼字符串、相應(yīng)的輸入候選項(xiàng)以及刪除操作,則所述糾錯(cuò)挖掘單元 采用以下方式獲取字符糾錯(cuò)關(guān)系查找用戶在輸入過(guò)程中是否應(yīng)用了刪除操作,如果是,則確定與所述刪除 操作相鄰的編碼字符串屬于字符糾錯(cuò)關(guān)系,并確定最后一個(gè)用于輸入候選項(xiàng)的 編碼字符串是正確的。
26、 如權(quán)利要求22所述的系統(tǒng),其特征在于,所述輸入歷史記錄包括用 戶輸入的編碼字符串、相應(yīng)的輸入候選項(xiàng)以及刪除操作,則所述糾錯(cuò)挖掘單元 采用以下方式獲取字符糾錯(cuò)關(guān)系查找用戶在輸入候選項(xiàng)的過(guò)程中是否應(yīng)用了刪除操作,如果是,則確定與 所述刪除操作相鄰的候選項(xiàng)字符串屬于字符糾錯(cuò)關(guān)系,并確定最后一個(gè)輸入的 候選項(xiàng)是正確的。
27、 如權(quán)利要求22所述的系統(tǒng),其特征在于,所述輸入歷史記錄包括用 戶輸入的編碼字符串、相應(yīng)的輸入候選項(xiàng)以及編碼變換方式,則所述糾錯(cuò)挖掘 單元采用以下方式獲取字符糾錯(cuò)關(guān)系如果所述輸入歷史記錄存在第一編碼字符串-第二編碼字符串-候選項(xiàng),并且第一編碼字符串和第二編碼字符串屬于不同的編碼變換方式;貝'J;獲取該候選項(xiàng)在第一編碼變換方式下的正確編碼字符串,確定所述正確編 碼字符串和第一編碼字符串屬于字符糾錯(cuò)關(guān)系。
28、 如權(quán)利要求23-27所述的任一系統(tǒng),其特征在于,還包括時(shí)間間隔判斷單元,用于判斷所述相鄰的編碼字符串的輸入時(shí)間間隔或者 相鄰候選項(xiàng)的輸入時(shí)間間隔,是否符合預(yù)置條件,如果是,則再作進(jìn)一步判斷。
29、 如權(quán)利要求23-27所述的任一系統(tǒng),其特征在于,還包括 相近原則判斷單元,用于判斷所述初步確定為具有字符糾錯(cuò)關(guān)系的編碼字符串之間是否具有一定的相似度或者編輯距離,如果是,則最終確定該字符糾 錯(cuò)關(guān)系;或者,相近原則判斷單元,用于判斷所述初步確定為具有字符糾錯(cuò)關(guān)系的 候選項(xiàng)之間是否具有一定的相似度或者編輯距離,如果是,則最終確定該字符 糾4晉關(guān)系。
30、 如權(quán)利要求22所述的系統(tǒng),其特征在于,所述糾錯(cuò)提示信息包括 符合字符糾錯(cuò)關(guān)系的正確編碼字符串及其相應(yīng)的候選項(xiàng);或者,符合字符糾錯(cuò)關(guān)系的正確編碼字符串的相應(yīng)候選項(xiàng); 或者,符合字符糾錯(cuò)關(guān)系的正確編碼字符串; 或者,符合字符糾錯(cuò)關(guān)系的候選項(xiàng)及其相應(yīng)的編碼字符串; 或者,符合字符糾錯(cuò)關(guān)系的候選項(xiàng)的相應(yīng)編碼字符串; 或者,符合字符糾錯(cuò)關(guān)系的候選項(xiàng)字符串。
31、 一種生成糾錯(cuò)數(shù)據(jù)庫(kù)的裝置,其特征在于,包括 日志收集單元,用于收集日志信息,所述日志信息包括用戶的輸入歷史記錄;糾錯(cuò)挖掘單元,用于利用所述輸入歷史記錄的序列信息,從所述日志信息 中挖掘獲取字符糾錯(cuò)關(guān)系;數(shù)據(jù)庫(kù)生成單元,用于存儲(chǔ)所述字符糾錯(cuò)關(guān)系,得到糾錯(cuò)數(shù)據(jù)庫(kù)。
全文摘要
本發(fā)明提供了一種生成糾錯(cuò)數(shù)據(jù)庫(kù)的方法和裝置以及一種自動(dòng)糾錯(cuò)的方法和系統(tǒng)。所述生成糾錯(cuò)數(shù)據(jù)庫(kù)的方法可以包括以下步驟收集日志信息,所述日志信息包括用戶的輸入歷史記錄;利用所述輸入歷史記錄的序列信息,從所述日志信息中挖掘獲取字符糾錯(cuò)關(guān)系;存儲(chǔ)所述字符糾錯(cuò)關(guān)系,得到糾錯(cuò)數(shù)據(jù)庫(kù)。本發(fā)明通過(guò)記錄和收集包括有用戶輸入過(guò)程信息的日志,從中將用戶手動(dòng)糾錯(cuò)的信息挖掘出來(lái),生成糾錯(cuò)數(shù)據(jù)庫(kù),以用于實(shí)現(xiàn)對(duì)更多用戶更準(zhǔn)確的自動(dòng)糾錯(cuò),還可以用于實(shí)現(xiàn)對(duì)該用戶的個(gè)性化自動(dòng)糾錯(cuò)。由于本發(fā)明所應(yīng)用的糾錯(cuò)信息是從包括有用戶輸入過(guò)程信息的日志中得到的,相對(duì)于計(jì)算機(jī)的分析查錯(cuò)而言,本發(fā)明更符合用戶需求,更為準(zhǔn)確。
文檔編號(hào)G06F17/30GK101241514SQ20081010247
公開日2008年8月13日 申請(qǐng)日期2008年3月21日 優(yōu)先權(quán)日2008年3月21日
發(fā)明者蘇雪峰 申請(qǐng)人:北京搜狗科技發(fā)展有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
南投市| 渭南市| 双鸭山市| 柘荣县| 辽源市| 富阳市| 寻甸| 新野县| 西城区| 新兴县| 万盛区| 丰都县| 茶陵县| 元阳县| 民县| 康马县| 开化县| 思南县| 镇康县| 横山县| 商洛市| 崇阳县| 奉节县| 正镶白旗| 巴南区| 义乌市| 东乌| 罗山县| 芒康县| 军事| 峡江县| 义乌市| 忻城县| 长治市| 望江县| 安化县| 武乡县| 双峰县| 香港| 大方县| 阿拉善右旗|