欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

對查詢詞提供校正建議的方法、裝置、及概率詞典構建方法與流程

文檔序號:12034619閱讀:180來源:國知局
對查詢詞提供校正建議的方法、裝置、及概率詞典構建方法與流程

本發(fā)明涉及計算機網絡搜索技術領域,具體涉及一種對查詢詞提供校正建議的方法和裝置、以及一種構建概率詞典的方法。



背景技術:

目前搜索引擎已經成為人們查詢信息獲取知識的重要來源,使用搜索引擎的主要方式為在搜索框輸入查詢詞進行搜索,而查詢詞的質量好壞直接影響搜索結果。在搜索框輸入查詢詞時,主要是通過鍵盤進行輸入,在通過鍵盤輸入查詢詞時,往往會因為用戶的指法錯誤或用戶的粗心大意而造成輸入錯誤。例如,在使用拼音輸入法輸入漢字時,當拼寫字符串對應多個可選字詞時,用戶可能會因選字選詞錯誤而輸入了錯誤的查詢詞;再例如,在用戶輸入英文查詢詞時,可能會因拼寫輸入錯誤而輸入了錯誤的查詢詞。為了提升用戶體驗,提高用戶查詢質量,搜索引擎為用戶提供了查詢詞的校正功能。搜索引擎的查詢詞校正是指:用戶在搜索引擎的搜索框輸入查詢詞,搜索引擎的后臺校正系統(tǒng)通過相應算法流程,發(fā)現用戶輸入的查詢詞可能存在錯誤,搜索引擎的前端在獲取查詢詞的同時,給出若干個校正建議詞。

目前常用的一種查詢校正的方法是基于校正詞典實現的,基于校正詞典實現查詢校正的方法的過程如下:搜集用戶的查詢日志,提取查詢日志中記載的查詢-校正點擊對(查詢-校正點擊對是指:用戶在搜索框輸入查詢詞時點擊輸入了查詢詞對應的校正建議詞,則查詢詞與對應的校正建議詞稱為查詢-校正點擊對);統(tǒng)計同一查詢-校正點擊對的數量,如果同一查詢-校正點擊對的數量超過預設數量閾值,則確定將超過預設數量閾值的查詢-校正點擊對存儲在校正詞典中,其中,校正詞典以查詢詞為鍵,以校正建議詞為值;獲取用戶當前在搜索框輸入的查詢詞;查看獲取的查詢詞是否在校正詞典中; 如果在校正詞典中,則將校正詞典中與獲取的查詢詞對應的校正建議詞展示給用戶。

現有基于校正詞典實現查詢校正的方法,存在以下缺陷:

1)該方法將用戶的查詢日志作為訓練語料得到校正詞典,但用戶的查詢日志這種訓練語料數量有限,訓練出來的校正詞典中包含的校正建議詞比較稀疏,存在大量需要校正的錯誤輸入無法找到匹配的查詢-校正點擊對的情況,因此,這種方法的召回率比較低。

2)該方法所采用的查詢-校正點擊對是系統(tǒng)依據用戶選擇而建立的,缺乏足夠的數據支撐與驗證,因此,這種方法的準確率也比較低。



技術實現要素:

為了解決現有技術的問題,本發(fā)明提供了一種對查詢詞提供校正建議的方法和裝置,并提供了一種構建概率詞典的方法,旨在提高對查詢詞進行校正的準確率、召回率。

為了解決上述問題,本發(fā)明公開了一種對查詢詞提供校正建議的方法,所述方法包括:

獲取用戶輸入的所述查詢詞;

將所述查詢詞與預設概率詞典中的文字、文字組合進行匹配,獲取校正建議詞、及各所述校正建議詞的出現概率;其中,所述預設概率詞典中存儲有從網頁語料庫和用戶查詢詞語料庫中得到的各文字的出現概率以及各文字組合的出現概率;

根據每個所述校正建議詞的出現概率,按照預定規(guī)則對校正建議詞進行篩選;

將經篩選的所述校正建議詞顯示給用戶供選擇。

為了解決本發(fā)明的技術問題,本發(fā)明還公開了一種構建概率詞典的方法,所述方法包括:

收集網頁作為網頁語料庫,收集用戶輸入的查詢詞作為用戶查詢詞語料庫;

統(tǒng)計并計算在所述網頁語料庫和所述用戶查詢詞語料庫中各文字的出現概率;統(tǒng)計并計算在所述網頁語料庫和所述用戶查詢詞語料庫中各文字組合的出現概率;

將得到的所述各文字的出現概率以及所述各文字組合的出現概率相對應地存儲在所述概率詞典中。

為了解決本發(fā)明的技術問題,本發(fā)明還公開了一種對查詢詞提供校正建議的裝置,所述裝置包括:

第一獲取模塊,用于獲取用戶輸入的所述查詢詞;

第二獲取模塊,用于將所述查詢詞與預設概率詞典中的文字、文字組合進行匹配,獲取校正建議詞、及各所述校正建議詞的出現概率;其中,所述預設概率詞典中存儲有從網頁語料庫和用戶查詢詞語料庫中得到的各文字的出現概率以及各文字組合的出現概率;

選取模塊,用于根據每個所述校正建議詞的出現概率,按照預定規(guī)則對校正建議詞進行篩選;

顯示模塊,用于將經篩選的所述校正建議詞顯示給用戶供選擇。

與現有技術相比,本發(fā)明可以獲得以下技術效果:

1)預設概率詞典是基于網頁語料庫和用戶查詢詞語料庫構建的,預設概率詞典中存儲的各文字的出現概率以及各文字組合的出現概率也是基于對網頁語料庫和用戶查詢詞語料庫的統(tǒng)計、計算得到的。由于網頁語料庫的龐大的數據量幾乎可以涵蓋可能出現的文字和文字組合,因此,可以很好的保證本發(fā)明相比于現有技術的更好的召回率。

2)本發(fā)明采用的預設概率詞典還基于用戶查詢詞語料庫進行統(tǒng)計和計算,得到文字和文字組合的出現概率。由于用戶查詢詞語料庫能很好的反映用戶的實際搜索需求,從而能更準確的校正用戶的輸入錯誤,相比于現有技術提高了校正的準確率。并且,由于用戶查詢詞語料庫一般包括了最近的新詞、流行詞,也能夠對錯誤的新詞、熱門詞進行正確校正,在提供準確率的同時,也具有較高的時效性。

3)通過相鄰兩字的文字組合的概率統(tǒng)計方法,逐字計算文字的出現概率, 從而提高了校正建議詞的獲取的準確性,降低了誤糾率,提升了用戶體驗。

4)在實施對查詢詞提供校正建議的方法時,可構建包含有音節(jié)節(jié)點和音節(jié)邊的音節(jié)圖。根據音節(jié)圖,從預設概率詞典中獲取與查詢詞對應的校正建議詞。由于音節(jié)圖由多個音節(jié)節(jié)點和多個音節(jié)邊組成,每個音節(jié)邊表示查詢詞對應的拼寫的一種音節(jié)組合,從而可以實現將查詢詞對應的拼寫的各種音節(jié)組合進行遍歷得到與查詢詞對應的校正建議詞,增加了校正建議的全面性和準確性,可以進一步提高召回率和準確率。

當然,實施本發(fā)明的任一產品必不一定需要同時達到以上所述的技術效果。

附圖說明

此處所說明的附圖用來提供對本發(fā)明的進一步理解,構成本發(fā)明的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構成對本發(fā)明的不當限定。在附圖中:

圖1是本發(fā)明實施例的第一種對查詢詞提供校正建議的方法流程圖;

圖2是本發(fā)明實施例的一種音節(jié)圖的示意圖;

圖3是本發(fā)明實施例的第二種對查詢詞提供校正建議的方法流程圖;

圖4是本發(fā)明實施例的一種音節(jié)分割圖的示意圖;

圖5是本發(fā)明實施例的第三種對查詢詞提供校正建議的方法流程圖;

圖6是本發(fā)明實施例的第四種對查詢詞提供校正建議的方法流程圖;

圖7是本發(fā)明實施例的一種表示音節(jié)組合出現順序的示意圖;

圖8是本發(fā)明實施例的一種校正建議詞的搜索路徑示意圖;

圖9是本發(fā)明實施例的第五種對查詢詞提供校正建議的方法流程圖;

圖10是本發(fā)明實施例的第六種對查詢詞提供校正建議的方法流程圖;

圖11是本發(fā)明實施例的第七種對查詢詞提供校正建議的方法流程圖;

圖12是本發(fā)明實施例的第八種對查詢詞提供校正建議的方法流程圖;

圖13是本發(fā)明實施例的一種構建概率詞典的方法流程圖;

圖14是本發(fā)明實施例的第一種對查詢詞提供校正建議的裝置結構示意圖;

圖15是本發(fā)明實施例的第二種對查詢詞提供校正建議的裝置結構示意圖;

圖16是本發(fā)明實施例的第三種對查詢詞提供校正建議的裝置結構示意圖;

圖17是本發(fā)明實施例的第九種對查詢詞提供校正建議的方法流程圖;

圖18是本發(fā)明實施例的第四種對查詢詞提供校正建議的裝置結構示意圖。

具體實施方式

以下將配合附圖及實施例來詳細說明本發(fā)明的實施方式,藉此對本發(fā)明如何應用技術手段來解決技術問題并達成技術功效的實現過程能充分理解并據以實施。

圖1為本發(fā)明實施例的一種對查詢詞提供校正建議的方法流程圖,該方法包括:

s101:獲取用戶輸入的查詢詞。

具體地,用戶在搜索框輸入查詢詞進行搜索時,獲取用戶當前輸入的查詢詞,例如:用戶用拼音輸入法輸入,獲取用戶當前輸入的查詢詞“清華2009年”。

s103:將查詢詞與預設概率詞典中的文字、文字組合進行匹配,獲取校正建議詞、及各校正建議詞的出現概率。

其中,預設概率詞典中存儲有從網頁語料庫和用戶查詢詞語料庫中得到的各文字的出現概率以及各文字組合的出現概率。

具體地,本實施例可預先通過網頁語料庫和用戶查詢詞語料庫得到預設概率詞典。具體方法參見圖13。

具體地,校正建議詞可以是單詞、單詞組合、漢字、漢字組合、組合詞、 和/或短語等。

s104:根據每個校正建議詞的出現概率,按照預定規(guī)則對校正建議詞進行篩選。

具體地,預定規(guī)則可以根據情況設定,對此不作限制。例如:可以設定為出現概率的閾值,即出現概率大于該閾值的校正建議詞才作為校正建議詞給出;也可以設定為預設差距閾值,對出現概率遠小于其他校正建議詞的校正建議詞直接刪除,不作為校正建議詞給出;還可以設定為只將出現概率比用戶實際輸入的查詢詞更大的校正建議詞作為校正建議詞給出。

除此之外,對校正建議詞的選取可以設定選取的個數,將預設個校正建議詞作為與查詢詞對應的校正建議詞。預設個的取值可以根據實際情況進行設置,如可以設置為2個、5個、10個等,對此不做限定,本實施例其他有關預設個的地方與此處類似,不再一一贅述。

s105:將經篩選的校正建議詞顯示給用戶供選擇。

具體地,如果用戶輸入確實有誤,可以直接選擇校正建議詞進行新的搜索。將經篩選的校正建議詞顯示給用戶供選擇時,優(yōu)選僅將預設個校正建議詞顯示給用戶供選擇。

作為本實施例的一優(yōu)選實施例,如圖17所示,在步驟s101之后,在步驟s103之前,該方法還包括:

s102:依照查詢詞對應的拼寫字符串,構建查詢詞的音節(jié)圖。

其中,音節(jié)圖由音節(jié)節(jié)點和音節(jié)邊組成,音節(jié)邊表示查詢詞對應的拼寫字符串按照拼寫規(guī)則分割成的音節(jié)組合,音節(jié)節(jié)點表示拼寫字符串的分割位置。

例如:圖2所示為通過查詢詞“清華2009年”對應的拼寫字符串“qinghua2009nian”構建得到的音節(jié)圖。在輸入的查詢詞為漢字時,拼寫字符串具體表現為拼音字符串,分割音節(jié)組合時也就相應地按照拼音規(guī)則進行分割。

在本實施例的又一優(yōu)選實施例中,在步驟s101之后,步驟s102之前,還包括:

對用戶當前輸入的查詢詞進行預處理;其中,預處理包括以下處理方式中的一種或多種:大小寫統(tǒng)一轉換為小寫、無效字符轉換為空格、刪除中文字符之間的空格、繁體中文轉換為簡體中文。

對查詢詞按照上述方式進行預處理后,方便后續(xù)的處理。

進一步地,在本實施例的一種優(yōu)選實施例中,參見圖3所示,上述查詢詞的音節(jié)圖可按照如下方法構建,具體包括:

s102a:將拼寫字符串按照拼寫規(guī)則分割成音節(jié)組合;音節(jié)組合的開始位置和/或結束位置構成拼寫字符串的分割位置。

具體地,針對查詢詞“清華2009年”,對應的拼音字符串為“qinghua2009nian”。以“qinghua”這一字符串為例,按照拼音規(guī)則,可將該拼音字符串按照圖4所示方式分割。分割為音節(jié)組合“qing”、“hu”、“a”、“hua”。音節(jié)組合“qing”的開始位置為分割位置1、結束位置為分割位置2,音節(jié)組合“hu”的開始位置為分割位置2、結束位置為分割位置3,依此類推。如果查詢詞中包括了數字等,優(yōu)選不對這些數字進行分割。例如:參見圖2中的“2009”。

s102b:在拼寫字符串的各分割位置分別設置一個音節(jié)節(jié)點。

具體地,在圖2所示的音節(jié)圖中,在各分割位置均設置了一個音節(jié)節(jié)點。

s102c:將每一對相鄰的音節(jié)節(jié)點進行連線,形成音節(jié)邊;其中,一對相鄰的音節(jié)節(jié)點由音節(jié)組合的開始位置與結束位置分別對應的音節(jié)節(jié)點構成。

例如:參見圖2和圖4,音節(jié)組合“qing”對應的音節(jié)邊由該音節(jié)組合的開始位置對應的音節(jié)節(jié)點①與該音節(jié)組合的結束位置對應的音節(jié)節(jié)點⑤連線構成。

s102d:按照預設標注方法,在每個音節(jié)節(jié)點上標注一個標記;在每個音節(jié)邊上標注所對應的音節(jié)組合,并將每個音節(jié)邊的方向標注為從音節(jié)組合的開始位置對應的音節(jié)節(jié)點指向該音節(jié)組合的結束位置對應的音節(jié)節(jié)點。

具體地,預設標注方法在音節(jié)節(jié)點上標注標記,可以是按照每個音節(jié)節(jié)點的先后順序,依次標注數字;也可以是根據音節(jié)節(jié)點對應的音節(jié)組合的長度,每個音節(jié)節(jié)點上標注的數字為前一個音節(jié)節(jié)點上標注的數字與該音節(jié)節(jié) 點和前一個音節(jié)節(jié)點之間的音節(jié)邊對應的音節(jié)組合的長度之和。

以圖2所示的音節(jié)圖為例,第一個音節(jié)節(jié)點上標注的數字為1,“qing”這個音節(jié)組合的長度是4,則第二個音節(jié)節(jié)點上標注的數字為5,依此類推,完成對音節(jié)節(jié)點的標注;在一對相鄰的音節(jié)節(jié)點①和⑤的連線對應的音節(jié)邊上標注音節(jié)組合“qing”,依此類推,完成對音節(jié)節(jié)點的標注;將音節(jié)組合“qing”所在的音節(jié)邊的方向標注為從音節(jié)節(jié)點①指向音節(jié)節(jié)點⑤,依此類推,完成對音節(jié)邊的方向的標注。

下面以圖2所示音節(jié)圖為例,詳細描述實施以上實施例構建出的音節(jié)圖。音節(jié)節(jié)點①與音節(jié)節(jié)點⑤連線得到音節(jié)邊,音節(jié)邊標注相應的音節(jié)組合“qing”,音節(jié)節(jié)點⑤與音節(jié)節(jié)點⑦連線得到音節(jié)邊,音節(jié)邊標注相應的音節(jié)組合“hu”,音節(jié)節(jié)點⑤與音節(jié)節(jié)點⑧連線得到音節(jié)邊,音節(jié)邊標注相應的音節(jié)組合“hua”,音節(jié)節(jié)點⑦與音節(jié)節(jié)點⑧連線得到音節(jié)邊,音節(jié)邊標注相應的音節(jié)組合“a”,音節(jié)節(jié)點⑧與音節(jié)節(jié)點連線得到音節(jié)邊,音節(jié)邊標注相應的音節(jié)組合“2009”,音節(jié)節(jié)點與音節(jié)節(jié)點連線得到音節(jié)邊,音節(jié)邊標注相應的音節(jié)組合“ni”,音節(jié)節(jié)點與音節(jié)節(jié)點連線得到音節(jié)邊,音節(jié)邊標注相應的音節(jié)組合“nian”,音節(jié)節(jié)點與音節(jié)節(jié)點連線得到音節(jié)邊,音節(jié)邊標注相應的音節(jié)組合“an”。

在本實施例中的預設概率詞典中存儲有從網頁語料庫和用戶查詢詞語料庫中分別得到的各文字的出現概率以及各文字組合的出現概率。從上述預設概率詞典中獲取與查詢詞對應的校正建議詞以及各校正建議詞的出現概率的理論原理是這樣的:

假設校正建議詞s是由一連串共n個特定的文字w1、w2、...wn構成的。也就是說,s可以表示成一連串共n個特定順序排列的文字組成的一個有意義的短語。這樣的話,對用戶輸入的查詢詞的校正建議,也就是給出與用戶輸入的查詢詞拼寫完全相同的其他可能出現的s。要計算s出現的可能性,也就是計算數學上所說的s的概率,用p(s)來表示。s這個序列的出現概率等于每一個文字的出現概率的乘積,即p(s)的計算公式為:

p(s)=p(w1)p(w2|w1)p(w3|w1w2)…p(wn|w1w2…wn-1)

其中,p(w1)表示第一個文字w1的出現概率;p(w2|w1)表示在已知第一個 文字w1的前提下,第二個文字w2的出現概率;依此類推,對于文字wn而言,需在已知它前面的文字的前提下,考慮文字wn的出現概率。

從上述描述即可知,各種可能性太多,無法實現計算。因此假定任意一個文字wi的出現概率只同它前面的一個文字wi-1有關,于是,s的出現概率就變?yōu)椋?/p>

p(s)=p(w1)p(w2|w1)p(w3|w2)…p(wi|wi-1)…p(wn|wn-1)

接下來的問題就是如何估計p(wi|wi-1)。估計p(wi|wi-1)的原理如下:統(tǒng)計語料庫中(wi-1,wi)組成的文字組合的出現概率p(wi-1,wi),以及文字wi-1本身在同樣范圍的語料庫中出現的概率p(wi-1),從而依照公式p(wi|wi-1)=p(wi-1,wi)/p(wi-1)計算得到已知前一個文字wi-1的前提下后一個文字wi的出現概率p(wi|wi-1)。

進一步地,如何統(tǒng)計網頁語料庫和用戶查詢詞語料庫中(wi-1,wi)組成的文字組合的出現概率p(wi-1,wi),以及文字wi-1本身在同樣范圍的語料庫中出現的概率p(wi-1)呢?

本實施例的一優(yōu)選實施例中,預設概率詞典中存儲的文字組合的出現概率,其中,文字組合由相鄰的兩個文字構成。

例如:上述原理描述中的相鄰兩個文字(wi-1,wi)組成的文字組合。這一文字組合可能是自然語言中有實際意義的詞語、短語,也可能是沒有實際意義的。

在本實施例的一優(yōu)選實施例中,預設概率詞典中存儲的文字的出現概率由以下統(tǒng)計量計算得到:

第一統(tǒng)計量為文字在網頁語料庫中出現的次數;

第二統(tǒng)計量為文字在用戶查詢詞語料庫中出現的次數;

第三統(tǒng)計量為與文字對應完全相同的字符串的文字在網頁語料庫中出現的次數的總和;

第四統(tǒng)計量為與文字對應完全相同的字符串的文字在用戶查詢詞語料庫中出現的次數的總和。

將上述實施例中的第一統(tǒng)計量記為p1,第二統(tǒng)計量記為p2,第三統(tǒng)計 量記為p3,第四統(tǒng)計量記為p4。

在上述優(yōu)選實施例的基礎上,文字的出現概率可以用第一統(tǒng)計量與第二統(tǒng)計量的和除以第三統(tǒng)計量與第四統(tǒng)計量的和的計算結果得到,即按公式(p1+p2)/(p3+p4)計算得到。

在上述優(yōu)選實施例的基礎上,文字的出現概率也可優(yōu)選由第一統(tǒng)計量除以第三統(tǒng)計量的結果與第二統(tǒng)計量除以第四統(tǒng)計量的結果進行加權處理計算得到,即將公式pw=a*p1/p3+b*p2/p4計算得到的結果作為文字的出現概率。其中,p1/p3表示文字在網頁語料庫中的出現概率,a表示文字在網頁語料庫中的出現概率的權重,p2/p4表示文字在用戶查詢詞語料庫中的出現概率,b表示文字在用戶查詢詞語料庫中的出現概率的權重。

上述公式pw=a*p1/p3+b*p2/p4實際計算出的pw表示某文字在拼寫相同的情況下在對應語料庫中已經出現的比例,該比例值pw可以用來預測該文字在用戶輸入的查詢詞中的出現概率。即認為,該文字在已有語料庫中出現得越多,在用戶進行新的查詢時出現的可能性就越大,反之亦然。

進一步地,一種優(yōu)選實施例在于,第一統(tǒng)計量除以第三統(tǒng)計量的結果所占的權重小于第二統(tǒng)計量除以第四統(tǒng)計量的結果所占的權重。

具體地,結合上述公式pw=a*p1/p3+b*p2/p4,可表示為a<b。通常,a+b的值也會不大于1。

在本實施例的又一優(yōu)選實施例中,預設概率詞典中存儲的文字組合的出現概率由以下統(tǒng)計量計算得到:

第五統(tǒng)計量為文字組合在網頁語料庫中出現的次數;

第六統(tǒng)計量為文字組合在用戶查詢詞語料庫中出現的次數;

第七統(tǒng)計量為網頁語料庫中經過分詞去重處理后有意義的短語的總和;

第八統(tǒng)計量為用戶查詢詞語料庫中經過分詞去重處理后有意義的短語的總和。

將上述實施例中的第五統(tǒng)計量記為p5,第六統(tǒng)計量記為p6,第七統(tǒng)計量記為p7,第八統(tǒng)計量記為p8。

在上述優(yōu)選實施例的基礎上,文字組合的出現概率可以用第五統(tǒng)計量與 第六統(tǒng)計量的和除以第七統(tǒng)計量與第八統(tǒng)計量的和的計算結果得到,即按公式(p5+p6)/(p7+p8)計算得到。

在上述優(yōu)選實施例的基礎上,文字組合的出現概率優(yōu)選由第五統(tǒng)計量除以第七統(tǒng)計量的結果與第六統(tǒng)計量除以第八統(tǒng)計量的結果進行加權處理計算得到,即將公式pz=c*p5/p7+d*p6/p8計算得到的結果作為文字組合的出現概率。其中,p5/p7表示文字組合在網頁語料庫中的出現概率,c表示文字組合在網頁語料庫中的出現概率的權重,p6/p8表示文字組合在用戶查詢詞語料庫中的出現概率,d表示文字組合在用戶查詢詞語料庫中的出現概率的權重。

上述公式pz=c*p5/p7+d*p6/p8實際計算出的pz表示某文字組合在對應語料庫中已經出現的比例,該比例值pz可以用來預測該文字組合在用戶輸入的查詢詞中的出現概率。即認為,該文字組合在已有語料庫中出現得越多,在用戶進行新的查詢時出現的可能性就越大,反之亦然。

進一步地,又一種優(yōu)選實施例在于,第五統(tǒng)計量除以第七統(tǒng)計量的結果所占的權重小于第六統(tǒng)計量除以第八統(tǒng)計量的結果所占的權重。

具體地,結合上述公式pz=c*p5/p7+d*p6/p8,可表示為c<d。通常,c+d的值也會不大于1。

在本實施例的一優(yōu)選實施例中,參見圖5所示,s103從預設概率詞典中獲取與查詢詞對應的校正建議詞,以及各校正建議詞的出現概率,可具體包括:

s103a:根據拼寫字符串按照拼寫規(guī)則分割成的音節(jié)組合出現的順序,確定音節(jié)圖中音節(jié)邊和音節(jié)節(jié)點的順序。

例如:在圖2所示的音節(jié)圖中,音節(jié)組合出現的順序參見圖7所示,在搜索時即可依據圖7中箭頭所示方向進行,構建樹型搜索結構。對于處于樹型搜索結構同一層級的搜索,既可以采用深度優(yōu)先的搜索策略,也可以采用廣度優(yōu)先的搜索策略。

s103b:依據預設概率詞典,依次對每個音節(jié)邊獲取與該音節(jié)邊表示的音節(jié)組合對應的出現概率最高的預設個文字,以及各文字的出現概率。

s103c:將與每個音節(jié)邊對應的出現概率最高的預設個文字按照音節(jié)邊的 順序依次排列,構成與查詢詞對應的校正建議詞;校正建議詞的出現概率由構成該校正建議詞的每個文字的出現概率的乘積計算得到。

具體地,按照前述理論原理中的公式p(s)=p(w1)p(w2|w1)p(w3|w2)…p(wi|wi-1)…p(wn|wn-1)計算校正建議詞的出現概率,而對應的文字w1、w2、...wn依次排列即可構成校正建議詞。

例如:參見圖8所示,校正建議詞“清湖啊”的出現概率為p(清)*p(湖|清)*p(啊|湖)=0.02*(2e-4)*(4e-8);校正建議詞“情話”的出現概率為p(情)*p(話|情)=0.03*(3e-3)。依此類推,即可計算出圖8所示的校正建議詞的出現概率。

進一步地,本發(fā)明的一優(yōu)選實施例,參見圖6所示,s103b依據預設概率詞典,依次對每個音節(jié)邊獲取與該音節(jié)邊表示的音節(jié)組合對應的出現概率最高的預設個文字,以及各文字的出現概率,可具體包括:

s103b1:第一個音節(jié)邊作為當前音節(jié)邊,當前音節(jié)邊表示的音節(jié)組合為當前音節(jié)組合;在預設概率詞典中搜索出符合當前音節(jié)組合的文字中出現概率最高的預設個文字及各個文字的出現概率。

例如:參見圖8,音節(jié)組合“qing”對應音節(jié)邊搜索出的出現概率最高的兩個漢字分別是出現概率為0.03的“情”和出現概率為0.02的“清”,此實施例中的預設個為2個。

s103b2:判斷當前音節(jié)邊是否是音節(jié)圖中的最后一個音節(jié)邊。

具體地,如果已經搜索到了音節(jié)圖中的最后一個音節(jié)邊,則可以結束搜索,轉而執(zhí)行s103c:將與每個音節(jié)邊對應的出現概率最高的預設個文字按照音節(jié)邊的順序依次排列,構成與查詢詞對應的校正建議詞;校正建議詞的出現概率由構成該校正建議詞的每個文字的出現概率的乘積計算得到。

s103b3:如果當前音節(jié)邊不是音節(jié)圖中的最后一個音節(jié)邊,則將當前音節(jié)邊的下一個音節(jié)邊作為新的當前音節(jié)邊;從預設概率詞典中獲取與新的當前音節(jié)邊表示的音節(jié)組合相符的出現概率最高的預設個文字,以及各文字的出現概率;然后返回判斷當前音節(jié)邊是否是音節(jié)圖中的最后一個音節(jié)邊的步驟。

例如:參見圖8所示,對“qinghua”進行搜索的結論,音節(jié)組合“qing” 對應的出現概率最高的兩個漢字分別是“情”和“清”;以這兩個漢字分別作為下一層級搜索的起點,例如,以“情”為第一個字、第二個字的拼音拼寫符合“hu”的漢字組合中出現概率最高的兩個漢字組合分別是“情護”和“情弧”,則音節(jié)邊“hu”所對應的出現概率最高的兩個字分別是“護”和“弧”。依此類推,依此類推,直至搜索到音節(jié)圖中的最后一個音節(jié)邊。

s103b4:如果當前音節(jié)邊是音節(jié)圖中的最后一個音節(jié)邊,則執(zhí)行將與每個音節(jié)邊對應的出現概率最高的預設個文字按照音節(jié)邊的順序依次排列,構成與查詢詞對應的校正建議詞;校正建議詞的出現概率由構成該校正建議詞的每個文字的出現概率的乘積計算得到的步驟。

在本發(fā)明的一個優(yōu)選實施例中,如圖9所示,s103b3從預設概率詞典中獲取與新的當前音節(jié)邊表示的音節(jié)組合相符的出現概率最高的預設個文字,以及各文字的出現概率,包括:

s103b3a:獲取新的當前音節(jié)邊的上一個音節(jié)邊表示的音節(jié)組合所對應的出現概率最高的預設個文字,記為第一文字,以及預設個文字各自的出現概率,記為第一概率。

例如:參見圖8所示,對音節(jié)組合“hu”對應的音節(jié)邊進行搜索時,其上一個音節(jié)邊表示的音節(jié)組合對應的出現概率最高的漢字分別是“情”和“清”,將“情”和“清”分別記為第一漢字;第一漢字“情”對應的第一概率p(情)=0.03,第一漢字“清”對應的第一概率p(清)=0.02。

s103b3b:從預設概率詞典中搜索出以第一文字為第一個文字、以新的當前音節(jié)邊表示的音節(jié)組合所對應的文字為第二個文字的文字組合中出現概率最高的預設個文字組合,以及各文字組合的出現概率,記為第二概率。

例如:參見圖8所示,以包含漢字“情”的搜索分支為例,從預設概率詞典中搜索出以第一漢字“情”為第一個漢字、以音節(jié)組合“hu”對應的漢字為第二個漢字的漢字組合中出現概率最高的漢字組合分別是出現概率為p(情,護)的“情護”和出現概率為p(情,弧)的“情弧”,p(情,護)和p(情,弧)分別記為第二概率。

s103b3c:將出現概率最高的預設個文字組合中的第二個文字作為新的當前音節(jié)邊表示的音節(jié)組合所對應的出現概率最高的預設個文字;將相對應的 第二概率除以第一概率計算得到的結果作為新的當前音節(jié)邊表示的音節(jié)組合所對應的出現概率最高的預設個文字的出現概率。

例如:參見圖8所示,將出現概率最高的2個漢字組合“情護”和“情弧”中的第二個漢字“護”和“弧”作為音節(jié)邊“hu”對應的出現概率最高的2個漢字;漢字“護”的出現概率p(護|情)=p(情,護)/p(情),漢字“弧”的出現概率p(弧|情)=p(情,弧)/p(情)。

在本發(fā)明的一優(yōu)選實施例中,執(zhí)行步驟s103b3之后,返回步驟s103b2之前,還包括以下步驟,參見圖10:

s103b5:沿音節(jié)邊的順序,計算各搜索路徑上獲取的出現概率最高的文字的出現概率的乘積,作為該搜索路徑的出現概率。

例如;參見圖8,以校正建議詞“清湖啊”所在的搜索路徑為例,該搜索路徑的出現概率為p(清)*p(湖|清)*p(啊|湖)=0.02*(2e-4)*(4e-8)。

s103b6:判斷搜索路徑的出現概率是否小于或等于預設剪枝閾值。

例如:假設預設剪枝閾值設定為2e-10,則校正建議詞“清湖啊”所在的搜索路徑的出現概率已經小于該預設剪枝閾值。

s103b7:如果某搜索路徑的出現概率大于預設剪枝閾值,保留該搜索路徑。

s103b8:如果某搜索路徑的出現概率小于預設剪枝閾值,刪除該搜索路徑。

具體地,例如:校正建議詞“清湖啊”所在的搜索路徑的出現概率已經小于該預設剪枝閾值,則刪除該搜索路徑。

本發(fā)明的一優(yōu)選實施例中,參見圖11所示,步驟s104具體可包括:

s1041:按照出現概率由高到低的順序對校正建議詞進行排序,形成校正建議詞序列。

s1042:判斷校正建議詞序列中出現概率最高的校正建議詞與用戶輸入的查詢詞是否一致。

s1043:如果校正建議詞序列中出現概率最高的校正建議詞與用戶當前 輸入的查詢詞一致,則停止將任一校正建議詞作為經篩選的校正建議詞。

具體地,如果校正建議詞序列中出現概率最高的校正建議詞與用戶當前輸入的查詢詞一致,表示用戶輸入的查詢詞已經是目前基于語料庫統(tǒng)計得到的出現概率最高的詞,故無需對用戶的查詢詞給出校正建議。

s1044:如果校正建議詞序列中出現概率最高的校正建議詞與用戶當前輸入的查詢詞不一致,則將校正建議詞序列中出現概率最高的預設個校正建議詞作為經篩選的校正建議詞。

具體地,如果校正建議詞序列中出現概率最高的校正建議詞與用戶當前輸入的查詢詞不一致,表示用戶輸入的查詢詞并不是基于語料庫統(tǒng)計得到的出現概率最高的詞,故需要對用戶的查詢詞給出校正建議。

在本發(fā)明的一優(yōu)選實施例中,參見圖12所示,在步驟s1041之后,步驟s1042之前,還包括:

s1045:計算校正建議詞序列中每相鄰兩個校正建議詞的出現概率的差距。

s1046:判斷是否存在相鄰兩個校正建議詞的出現概率的差距大于或等于預設差距閾值。

例如,將預設差距閾值設定為10倍。

s1047:如果不存在相鄰兩個校正建議詞的出現概率的差距大于或等于預設差距閾值,則執(zhí)行s1042判斷校正建議詞序列中出現概率最高的校正建議詞與用戶當前輸入的查詢詞是否一致的步驟;

s1048:如果存在相鄰兩個校正建議詞的出現概率的差距大于或等于預設差距閾值,則在校正建議詞序列中,將達到預設差距閾值的差距的相鄰兩個校正建議詞中出現概率較小的校正建議詞及其之后的校正建議詞刪除。

例如:校正建議詞序列中共10個校正建議詞,其中,第4個校正建議詞的出現概率與第5個校正建議詞的出現概率相差了10倍,則刪除第5~10個校正建議詞。

圖13所示為本發(fā)明的一種構建概率詞典的方法的實施例,該方法包括:

s201:收集網頁作為網頁語料庫,收集用戶輸入的查詢詞作為用戶查詢 詞語料庫。

s2021:統(tǒng)計并計算在網頁語料庫和用戶查詢詞語料庫中各文字的出現概率。以及s2022:統(tǒng)計并計算在網頁語料庫和用戶查詢詞語料庫中各文字組合的出現概率。

s203:將得到的各文字的出現概率以及各文字組合的出現概率相對應地存儲在概率詞典中。

由于網頁語料庫非常龐大,所以可以保證足夠高的召回率。而用戶查詢詞一般包括了最近的新詞、流行詞,所以能夠提高準確率,避免對原詞的誤校。

具體地,準確率表示:校正成功的數目與進行校正的數目的比值。假設用戶使用了十次搜索引擎,輸入了10個查詢詞,8個是錯誤的查詢詞,通過校正建議詞對其中6個進行校正,校正成功4個,那么準確率就為4/6=67%。召回率表示:校正成功的數目與錯誤的數目的比值。假設用戶使用了十次搜索引擎,輸入了10個查詢詞,8個是錯誤的查詢詞,通過校正建議詞對其中6個進行校正,校正成功4個,那么召回率就為4/8=50%。

本實施例的一個優(yōu)選實施例,s2021統(tǒng)計并計算在網頁語料庫和用戶查詢詞語料庫中各文字的出現概率,包括:

對每一個文字,統(tǒng)計該文字在網頁語料庫中出現的次數,記為第一統(tǒng)計量;對每一個文字,統(tǒng)計該文字在用戶查詢詞語料庫中出現的次數,記為第二統(tǒng)計量;對每一個文字,統(tǒng)計與該文字的拼寫完全相同的文字在網頁語料庫中出現的次數的總和,記為第三統(tǒng)計量;對每一個文字統(tǒng)計與該文字的拼寫完全相同的文字在用戶查詢詞語料庫中出現的次數的總和,記為第四統(tǒng)計量;以及

對每一個文字,將與該文字對應的第一統(tǒng)計量除以第三統(tǒng)計量的結果與第二統(tǒng)計量除以第四統(tǒng)計量的結果進行加權處理計算得到該文字的出現概率。

本實施例的一個優(yōu)選實施例,在對每一個文字,將與該文字對應的第一統(tǒng)計量除以第三統(tǒng)計量的結果與第二統(tǒng)計量除以第四統(tǒng)計量的結果進行加權處理計算得到該文字的出現概率時,第一統(tǒng)計量除以第三統(tǒng)計量的結果所占 的權重小于第二統(tǒng)計量除以第四統(tǒng)計量的結果所占的權重。

本實施例的一優(yōu)選實施例中,在步驟s201之后,在步驟s2022之前,還包括:

對網頁語料庫和用戶查詢詞語料庫進行分詞去重處理,得到多個有意義的短語。

具體地,收集網絡中的各種網頁數據作為網頁語料庫,收集用戶輸入的多種查詢詞作為用戶查詢詞語料庫。通過任一分詞軟件將網頁語料庫中的文字序列切分成一個一個單獨的詞語,然后進行去重處理將重復的詞語進行合并,得到多個互不重復的有意義的短語。

具體地,本實施例的一優(yōu)選實施例中,s2022統(tǒng)計并計算在網頁語料庫和用戶查詢詞語料庫中各文字組合的出現概率,包括:

對每一個文字組合,統(tǒng)計該文字組合在網頁語料庫中出現的次數,記為第五統(tǒng)計量;對每一個文字組合,統(tǒng)計該文字組合在用戶查詢詞語料庫中出現的次數,記為第六統(tǒng)計量;統(tǒng)計有意義的短語在網頁語料庫中出現的次數的總和,記為第七統(tǒng)計量;統(tǒng)計有意義的短語在用戶查詢詞語料庫中出現的次數的總和,記為第八統(tǒng)計量;以及

對每一個文字組合,將第五統(tǒng)計量除以第七統(tǒng)計量的結果與第六統(tǒng)計量除以第八統(tǒng)計量的結果進行加權處理計算得到該文字組合的出現概率。

具體地,本實施例的一優(yōu)選實施例中,在對每一個文字組合,將第五統(tǒng)計量除以第七統(tǒng)計量的結果與第六統(tǒng)計量除以第八統(tǒng)計量的結果進行加權處理計算得到該文字組合的出現概率時,第五統(tǒng)計量除以第七統(tǒng)計量的結果所占的權重小于第六統(tǒng)計量除以第八統(tǒng)計量的結果所占的權重。

具體地,本實施例的一優(yōu)選實施例中,文字組合由網頁語料庫和用戶查詢詞語料庫中相鄰的兩個文字構成。

本發(fā)明的構建概率詞典的方法的實施例與前述的關于預設概率詞典的實施例相對應,不足之處參考上述方法流程的敘述,不再一一贅述。

如圖14所示,本發(fā)明的一種對查詢詞提供校正建議的裝置的實施例中,該裝置包括:

第一獲取模塊501,用于獲取用戶輸入的查詢詞;

第二獲取模塊503,用于將查詢詞與預設概率詞典中的文字、文字組合進行匹配,獲取校正建議詞、及各校正建議詞的出現概率;其中,預設概率詞典中存儲有從網頁語料庫和用戶查詢詞語料庫中得到的各文字的出現概率以及各文字組合的出現概率;

選取模塊504,用于根據每個校正建議詞的出現概率,按照預定規(guī)則對校正建議詞進行篩選;

顯示模塊505,用于將經篩選的校正建議詞顯示給用戶供選擇。

本實施例的一個優(yōu)選實施例中,該裝置還包括:

預處理模塊,用于對用戶當前輸入的查詢詞進行預處理;其中,其中,預處理包括以下處理方式中的一種或多種:大小寫統(tǒng)一轉換為小寫、無效字符轉換為空格、刪除中文字符之間的空格、繁體中文轉換為簡體中文。

本實施例的一個優(yōu)選實施例中,如圖18所示,該裝置還包括:

構建模塊502,用于依照查詢詞對應的拼寫字符串,構建查詢詞的音節(jié)圖;其中,音節(jié)圖由音節(jié)節(jié)點和音節(jié)邊組成,音節(jié)邊表示查詢詞對應的拼寫字符串按照拼寫規(guī)則分割成的音節(jié)組合,音節(jié)節(jié)點表示拼寫字符串的分割位置。

本實施例的一個優(yōu)選實施例中,如圖15所示,構建模塊502包括:

分割單元5021,用于將拼寫字符串按照拼寫規(guī)則分割成至少一個音節(jié)組合;音節(jié)組合的開始位置和/或結束位置構成拼寫字符串的分割位置;

音節(jié)節(jié)點設置單元5022,用于在各分割位置分別設置一個音節(jié)節(jié)點;

音節(jié)邊設置單元5023,用于將每一對相鄰的音節(jié)節(jié)點進行連線,形成音節(jié)邊;其中,一對相鄰的音節(jié)節(jié)點由音節(jié)組合的開始位置和結束位置分別對應的音節(jié)節(jié)點構成;

標注標引單元5024,用于按照預設標注方法,在每個音節(jié)節(jié)點上標注一個標記;用于在每個音節(jié)邊上標注所對應的音節(jié)組合,并將每個音節(jié)邊的方向標注為從音節(jié)組合的開始位置對應的音節(jié)節(jié)點指向該音節(jié)組合的結束位置對應的音節(jié)節(jié)點。

本實施例的一個優(yōu)選實施例中,如圖16所示,第二獲取模塊503包括:

排序單元5031,用于根據拼寫字符串按照拼寫規(guī)則分割成的音節(jié)組合出現的順序,確定音節(jié)圖中音節(jié)邊和音節(jié)節(jié)點的順序;

第一獲取單元5032,用于依據預設概率詞典,依次對每個音節(jié)邊獲取與該音節(jié)邊表示的音節(jié)組合對應的出現概率最高的預設個文字,以及各文字的出現概率;

匯總單元5033,用于將與每個音節(jié)邊對應的出現概率最高的預設個文字按照音節(jié)邊的順序依次排列,構成與查詢詞對應的校正建議詞;校正建議詞的出現概率由構成該校正建議詞的每個文字的出現概率的乘積計算得到。

具體地,本實施例的一個優(yōu)選實施例中,第一獲取單元5032包括:

第一搜索單元,用于以第一個音節(jié)邊作為當前音節(jié)邊,當前音節(jié)邊表示的音節(jié)組合為當前音節(jié)組合;在預設概率詞典中搜索出符合當前音節(jié)組合的文字中出現概率最高的預設個文字及各個文字的出現概率;

第一判斷單元,用于判斷當前音節(jié)邊是否是音節(jié)圖中的最后一個音節(jié)邊;

第二搜索單元,用于如果當前音節(jié)邊不是音節(jié)圖中的最后一個音節(jié)邊時,將當前音節(jié)邊的下一個音節(jié)邊作為新的當前音節(jié)邊;從預設概率詞典中獲取與新的當前音節(jié)邊表示的音節(jié)組合相符的出現概率最高的預設個文字,以及各文字的出現概率;

第二搜索單元返回第一判斷單元。

具體地,本實施例的一個優(yōu)選實施例中,第二搜索單元包括:

第二獲取單元,用于獲取新的當前音節(jié)邊的上一個音節(jié)邊表示的音節(jié)組合所對應的出現概率最高的預設個文字,記為第一文字,以及預設個文字各自的出現概率,記為第一概率;

第三搜索單元,用于從預設概率詞典中搜索出以第一文字為第一個文字、以新的當前音節(jié)邊表示的音節(jié)組合所對應的文字為第二個文字的文字組合中出現概率最高的預設個文字組合,以及各文字組合的出現概率,記為第二概率;

第一計算單元,用于將出現概率最高的預設個文字組合中的第二個文字 作為新的當前音節(jié)邊表示的音節(jié)組合所對應的出現概率最高的預設個文字;用于將相對應的第二概率除以第一概率計算得到的結果作為新的當前音節(jié)邊表示的音節(jié)組合所對應的出現概率最高的預設個文字的出現概率。

所述裝置與前述的方法流程描述對應,不足之處參考上述方法流程的敘述,不再一一贅述。

上述說明示出并描述了本發(fā)明的若干優(yōu)選實施例,但如前所述,應當理解本發(fā)明并非局限于本文所披露的形式,不應看作是對其他實施例的排除,而可用于各種其他組合、修改和環(huán)境,并能夠在本文所述發(fā)明構想范圍內,通過上述教導或相關領域的技術或知識進行改動。而本領域人員所進行的改動和變化不脫離本發(fā)明的精神和范圍,則都應在本發(fā)明所附權利要求的保護范圍內。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
洪湖市| 衡水市| 开原市| 正阳县| 文成县| 石河子市| 绥江县| 平邑县| 项城市| 颍上县| 永新县| 太仆寺旗| 福鼎市| 大同市| 定西市| 阜阳市| 泸定县| 化德县| 沈丘县| 理塘县| 新巴尔虎右旗| 罗定市| 拜泉县| 渝北区| 兴城市| 宜兰市| 舒兰市| 日土县| 三亚市| 柘城县| 获嘉县| 马山县| 洮南市| 江城| 平果县| 固安县| 聂拉木县| 会宁县| 五常市| 盱眙县| 宁都县|