一種基于搜索引擎的檢索信息匹配方法及裝置與流程

文檔序號：12666460閱讀：370來源：國知局

本發(fā)明涉及互聯(lián)網
技術領域：
，尤其涉及一種基于搜索引擎的檢索信息匹配方法及裝置。
背景技術：
：隨著互聯(lián)網的迅猛發(fā)展、WEB信息的增加，用戶要在信息海洋里查找自己所需的信息，就象大海撈針一樣，搜索引擎技術恰好解決了這一難題。搜索引擎是指互聯(lián)網上專門提供檢索服務的一類網站，這些站點的服務器通過網絡搜索軟件或網絡登錄等方式，將Intenet上大量網站的頁面信息收集到本地，經過加工處理建立信息數(shù)據庫和索引數(shù)據庫，從而對用戶提出的各種檢索作出響應，提供用戶所需的信息或相關指針。用戶的檢索途徑主要包括自由詞全文檢索、關鍵詞檢索、分類檢索及其他特殊信息的檢索。然而，當用戶存在對某一類信息進行檢索的需求時，一般是通過對同類或近似的關鍵詞進行多次檢索，分別得到所需的檢索結果，或者是通過構建上位概括的檢索信息實現(xiàn)，但是這種用戶自建的檢索信息對用戶的概括能力要求較高，否則很難得到用戶想要的檢索結果?？梢?，目前對于一類信息的檢索需求缺少操作簡單，匹配準確的實現(xiàn)方式。技術實現(xiàn)要素：有鑒于此，本發(fā)明提供一種基于搜索引擎的檢索信息匹配方法及裝置，通過構建檢索模式匹配用戶提出的檢索信息，為用戶提供更加全面的與所述檢索信息向匹配的檢索結果。依據本發(fā)明的一個方面，提出了一種基于搜索引擎的檢索信息匹配方法，該方法包括：創(chuàng)建檢索模式信息庫，所述檢索模式是對已有檢索信息統(tǒng)計分析得到的能夠代表一類檢索信息的模式化信息；將網頁的標題以及搜索引擎獲取的新檢索信息分別與所述信息庫中的檢索模式進行匹配；當匹配出的檢索模式的相似度達到閾值時，將所述網頁作為所述新檢索信息的檢索結果輸出。依據本發(fā)明的另一個方面，提出了一種基于搜索引擎的檢索信息匹配裝置，該裝置包括：創(chuàng)建單元，用于創(chuàng)建檢索模式信息庫，所述檢索模式是對已有檢索信息統(tǒng)計分析得到的能夠代表一類檢索信息的模式化信息；匹配單元，用于將網頁的標題以及搜索引擎獲取的新檢索信息分別與所述創(chuàng)建單元創(chuàng)建的信息庫中的檢索模式進行匹配；輸出單元，用于當所述匹配單元匹配出的檢索模式的相似度達到閾值時，將所述網頁作為所述新檢索信息的檢索結果輸出。本發(fā)明所采用的一種基于搜索引擎的檢索信息匹配方法及裝置，通過為搜索引擎配置檢索模式信息庫，將用戶錄入的檢索信息與信息庫中的檢索模式進行匹配，實現(xiàn)解析用戶的檢索意圖，將用戶的檢索內容擴展到一類信息的查詢與檢索。同時，通過信息庫中的檢索模式，也為互聯(lián)網中的網頁匹配對應的檢索模式，在為用戶匹配對應的檢索結果時，通過計算用戶錄入的檢索模式與網頁對應檢索模式的相似度來判斷網頁是否符合用戶的檢索意圖，從而確定是否將該網頁作為檢索結果輸出給用戶。此外，本發(fā)明通過對檢索模式的不斷的更新與訓練，可以有效提高對用戶檢索意圖的識別與判斷，從而為用戶匹配出更為準確的檢索結果，提高用戶的檢索體驗。上述說明僅是本發(fā)明技術方案的概述，為了能夠更清楚了解本發(fā)明的技術手段，而可依照說明書的內容予以實施，并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂，以下特舉本發(fā)明的具體實施方式。附圖說明通過閱讀下文優(yōu)選實施方式的詳細描述，各種其他的優(yōu)點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的，而并不認為是對本發(fā)明的限制。而且在整個附圖中，用相同的參考符號表示相同的部件。在附圖中：圖1示出了本發(fā)明實施例提出的一種基于搜索引擎的檢索信息匹配方法流程圖；圖2示出了本發(fā)明實施例提出的另一種基于搜索引擎的檢索信息匹配方法流程圖；圖3示出了本發(fā)明實施例提出的一種基于搜索引擎的檢索信息匹配裝置的組成框圖；圖4示出了本發(fā)明實施例提出的另一種基于搜索引擎的檢索信息匹配裝置的組成框圖。具體實施方式下面將參照附圖更詳細地描述本發(fā)明的示例性實施例。雖然附圖中顯示了本發(fā)明的示例性實施例，然而應當理解，可以以各種形式實現(xiàn)本發(fā)明而不應被這里闡述的實施例所限制。相反，提供這些實施例是為了能夠更透徹地理解本發(fā)明，并且能夠將本發(fā)明的范圍完整的傳達給本領域的技術人員。本發(fā)明實施例提供了一種基于搜索引擎的檢索信息匹配方法，該方法主要應用搜索引擎中，針對用戶的對某一類信息檢索的需求，以檢索模式為關聯(lián)紐帶匹配出相關性較高的網頁作為檢索結果，其具體步驟如圖1所示，包括：101、創(chuàng)建檢索模式信息庫。其中，檢索模式是對已有的檢索信息進行統(tǒng)計分析后得到的能夠代表一類檢索信息的模式化信息。由于搜索引擎中保存有用戶的檢索日志，累積了海量的用戶歷史檢索信息，通過對這些檢索信息進行有效的挖掘，就可以得到本步驟的檢索模式信息庫中的檢索模式。因此，創(chuàng)建檢索模式也是本發(fā)明實施例中的核心步驟。檢索模式信息庫中的檢索模式是通過對搜索引擎中保存的用戶歷史檢索信息的分析所得到的，具體的，檢索模式信息庫的創(chuàng)建可以分為如下的幾個步驟：第一，對所獲取的已有檢索信息進行預處理。通過獲取搜索引擎中保存的用戶歷史檢索信息并對其進行整理，以便于后續(xù)步驟的文本分析。其中，預處理主要包括對檢索信息逐條地進行分詞，詞性標注，以及對各個分詞進行向量化表示等。經過處理后的檢索信息是以詞向量表示的檢索信息。通過詞向量的表示，可以實現(xiàn)分詞之間相關或相似的計算，比如，通過歐氏距離來衡量分詞之間的遠近，或者是通過余弦相似度計算兩個分詞之間的相關性。第二，利用聚類算法將處理后的檢索信息進行聚類，得到多個分類檢索信息列表。該步驟是將對向量化的檢索信息進行聚類，也就是將可能含有相似檢索模式的檢索信息聚合在一起。進行聚類操作的前提，是出于對檢索模式在同類檢索信息中具有共性的認知，一般的，同義詞、近義詞或同位詞的上下文信息是相似的，而在用戶檢索信息中的上下文信息就包含有所要挖掘的檢索模式，由于檢索模式一般是通過詞向量表示的形式加以保存，那么，相反的，通過分析檢索信息的詞向量表示，就可以總結出對應的檢索模式。因此，本步驟中的核心就是如何將具有相似的上下文信息的檢索信息聚類到一起。一般的，檢索信息都比較短小，因此，絕大所述的檢索信息中都是以名詞性詞項為核心，圍繞該詞就基本可以確定檢索信息中的上下文關系。所以，本發(fā)明實施例中，通過提取檢索信息中的名詞性詞項，來分析這些詞項的語義關系，即判斷哪些名詞性分詞具有同義詞、近義詞或同位詞的關系，將含有該關系分詞的檢索信息聚類到一起，再分析其中所具有的相似的上下文關系，即檢索模式。第三，從分類檢索信息列表中提取對應的檢索模式。上一步是將已有的檢索信息通過聚類算法分為多個分類檢索信息列表，每一個分類檢索信息列表中存儲有一類的檢索信息。一般的，認為這一類的檢索信息中會包含有同一類的檢索模式，也就是根據檢索信息中的非名詞性分詞的排序方式，來確定對應的檢索模式。而在確定出的檢索模式中含有的名詞性分詞的數(shù)量決定了該檢索模式的階數(shù)，階數(shù)越高，說明用戶檢索的一類信息的關聯(lián)計算的維度也就越大，對應得到的檢索結果也就可能越滿足用戶的檢索意圖，從而提高檢索準確性。第四，將所提取的檢索模式保存至檢索模式信息庫中。該步驟是將所有從分類檢索信息列表中提取出的檢索模式統(tǒng)一保存在一個信息數(shù)據庫中，得到檢索模式信息庫。需要指出的是，所創(chuàng)建的檢索模式信息庫是基于搜索引擎保存的已有的檢索信息。而隨著搜索引擎的應用，還會有大量的檢索信息被記錄下來，因此，對于檢索模式信息庫中的檢索模式也需要不斷的更新，以保證檢索模式與用戶的錄入檢索信息的語言方式相匹配，從而保證檢索結果的準確性。而對于檢索模式的具體更新方式，本發(fā)明實施例則不限定采用實時更新或定期更新的方式。102、將網頁的標題以及搜索引擎獲取的新檢索信息分別與信息庫中的檢索模式進行匹配。本步驟主要執(zhí)行的是兩個操作，即為網頁的標題匹配檢索模式，和為用戶錄入的檢索信息匹配檢索模式。對于為網頁的標題匹配檢索模式，是在建立檢索模式信息庫時，或者是對檢索模式信息庫中的檢索模式進行更新后，將搜索引擎所能夠檢索到的網頁進行網頁標題的匹配，為其匹配對應的檢索模式。而對于為用戶錄入的檢索信息匹配檢索模式，則是在檢測到有用戶使用搜索引擎進行檢索，并且錄入了檢索信息后，搜索引擎將為該檢索信息匹配對應的檢索模式。具體的，匹配檢索模式的過程是提取檢索模式的一個逆過程，即對檢索信息或網頁標題進行分詞、向量化等處理，通過提取其中的名詞性分詞可以確定出檢索模式的分類，而通過其非名詞性分詞的排序與內容就可以進一步的匹配對應的檢索模式。103、當匹配出的檢索模式的相似度達到閾值時，將對應的網頁作為新檢索信息的檢索結果輸出。本步驟是在搜索引擎為用戶的檢索信息匹配出對應的檢索模式后，將根據該檢索模式匹配對應的網頁，由于每個網頁存在有對應的檢索模式，即通過網頁標題所匹配的檢索模式。其中，匹配網頁的過程可以通過計算檢索模式之間的相似度來實現(xiàn)。而對于相似度計算的具體的方式，本發(fā)明實施例則不做限定。根據上述步驟中所創(chuàng)建的檢索模式可以確定，檢索模式在本發(fā)明實施例中是以詞向量的形式表示的，因此，優(yōu)選的相似度計算可采用向量空間模型計算，該模型也是應用最廣泛的一個基礎相似度計算模型，例如，歐式距離，余弦相似度等計算模型。通過相似度計算，將相似度達到某一閾值的網頁確定為該用戶錄入檢索信息的檢索結果，并加以輸出顯示。其中，用于判斷的閾值一般是可以自定義設置的經驗值，根據實際情況的需要可以調整閾值的大小。閾值大，則對應的檢索結果的數(shù)量將變少，反之，檢索的結果將增多。進一步的，在輸出顯示網頁結果時，還可以根據所計算的相似度的值對網頁的顯示進行排序，相似度越高，排名也越靠前。上述本發(fā)明實施例提供的一種基于搜索引擎的檢索信息匹配方法，通過為搜索引擎配置檢索模式信息庫，將用戶錄入的檢索信息與信息庫中的檢索模式進行匹配，實現(xiàn)解析用戶的檢索意圖，將用戶的檢索內容擴展到一類信息的查詢與檢索。同時，通過信息庫中的檢索模式，也為互聯(lián)網中的網頁匹配對應的檢索模式，在為用戶匹配對應的檢索結果時，通過計算用戶錄入的檢索模式與網頁對應檢索模式的相似度來判斷網頁是否符合用戶的檢索意圖，從而確定是否將該網頁作為檢索結果輸出給用戶。此外，本發(fā)明實施例通過對檢索模式的不斷的更新與訓練，可以有效提高對用戶檢索意圖的識別與判斷，從而為用戶匹配出更為準確的檢索結果，提高用戶的檢索體驗。進一步的，為了更加詳細的說明上述的基于搜索引擎的檢索信息匹配方法在實際應用中的具體實現(xiàn)，特別是對檢索模式信息庫中如何構建檢索模式，以下實施例中將進行詳細說明，具體如圖2所示，包括：201、對所獲取的已有檢索信息進行預處理。本步驟中，對于檢索信息的預處理主要是對所保存的已有檢索信息進行的自然語言處理，其中，主要包括如下環(huán)節(jié)：首先，將所獲取的已有檢索信息逐條添加到有第一檢索信息列表中。在該第一檢索信息列表中，每一行記錄有一條檢索信息，例如，表中的一行為“從霍山到英山有多遠”。而這些檢索信息都是搜索引擎記錄的用戶曾經檢索過的檢索信息。將該第一檢索信息列表以文件的形式加以保存。需要說明的是，在向第一檢索信息列表中添加檢索信息時，不需要對檢索信息進行去重處理。其次，對第一檢索信息列表中的檢索信息進行分詞以及詞性標注處理，從而得到第二檢索信息列表和第三檢索信息列表。其中，將分詞后的檢索信息保存在第二檢索信息列表中，將對分詞標注有詞性信息的檢索信息保存在第三檢索信息列表中。也就是說，第二檢索信息列表所保存的檢索信息與第一檢索信息列表中相對應，而區(qū)別在于第二檢索信息列表中的檢索信息進行了分詞處理，例如，在該表中的一行檢索信息為“從霍山到英山有多遠”。與此向類似的，第三檢索信息列表中的檢索信息是在第二檢索信息列表中的內容基礎上進行的詞性標注，每行中記載了檢索信息和詞性標注的分詞結果，例如，在該表中的一行檢索信息為“從霍山到英山有多遠從:p霍山:ns到:p英山:ns有:v多:m遠:a”。下表示出了部分詞性標注的對照表：表1：部分詞性標注對照表第三，利用文本深度表示模型word2vec對第二檢索信息列表中的分詞進行向量化表示，將向量化的分詞存儲在詞向量文件中。其中，文本深度表示模型word2vec是Google在2013年年中開源的一款將詞表征為實數(shù)值向量的高效工具，其利用深度學習的思想，可以通過訓練，把對文本內容的處理簡化為K維向量空間中的向量運算，而向量空間上的相似度可以用來表示文本語義上的相似度。Word2vec輸出的詞向量可以被用來做很多NLP(Neuro-LinguisticProgramming，神經語言程序學)相關的工作，比如聚類、找同義詞、詞性分析等。在使用word2vec對第二檢索信息列表中的分詞進行向量化表示時，該模型的中的K維向量空間可根據實際需要進行自定義設置，例如，設置K的值為300是，對應的word2vec的參數(shù)為“-cbow1-size300-window8-negative25-hs0-sample1e-4-threads24-binary0-iter15”。經過文本深度表示模型word2vec的處理后，第二檢索信息列表中的分詞以詞向量的形式加以表示。同時，將這些分詞的詞向量保存在一個詞向量文件中。第四，提取第三檢索信息列表中詞性標注為名詞性的分詞，并將該分詞添加到分詞列表中。其中，分詞列表中記錄有分詞以及所述分詞在第三檢索信息列表中出現(xiàn)的次數(shù)。例如，分詞列表中的一行顯示為：“霍山”，有180萬行。此外，具有名詞性的詞性標注主要包括：n、nd、nh、nl、ns、nt、nz、b、i、j，具體的對照請參照上述的表1。通過上述的預處理環(huán)節(jié)后，可以將所獲取的已有檢索信息處理為第一檢索信息列表、第二檢索信息列表、第三檢索信息列表和分詞列表，以及詞向量文件。202、利用聚類算法將處理后的檢索信息進行聚類，得到多個分類檢索信息列表。本步驟中所執(zhí)行的聚類操作是創(chuàng)建檢索模式的核心步驟，其執(zhí)行過程主要是獲取檢索信息中的名詞性分詞，再根據文本深度表示模型word2vec中的歐氏距離，選擇這些詞分詞的鄰近分詞，并將含有這些分詞或鄰近分詞的檢索信息聚類到一起，得到一個分類檢索信息列表。對此，具體的實現(xiàn)需要基于上述步驟中對檢索信息進行的預處理結果，其詳細步驟包括：1、在詞向量文件中查找分詞列表中分詞的向量值。其中，所查找的分詞是對分詞列表中的每一個分詞逐一地進行提取。2、根據向量值計算分詞列表中任意兩個分詞間的歐氏距離。通過該步驟的計算就可以得到所提取的分詞與該分詞列表中其他分詞的歐氏距離值。其中，歐氏距離是一個通常采用的距離定義，指在m維空間中兩個點之間的真實距離，或者向量的自然長度(即該點到原點的距離)。在二維和三維空間中的歐氏距離就是兩點之間的實際距離。而關于具體的歐氏距離的計算過程本發(fā)明實施例不進行具體說明。3、對分詞列表中每個分詞提取預置數(shù)量的鄰近分詞，組成分詞組。其中，鄰近分詞是指根據歐氏距離計算后，按照由近至遠的排序選擇的一組距離最近的分詞。而預置數(shù)量的大小決定了分類檢索信息列表中所含有的檢索信息的具體數(shù)量，數(shù)量的大小又會影響到所提取的檢索模式，因此，該預置數(shù)量的設定往往需要根據實際檢索信息的數(shù)量而確定，一般為經驗值。以上文中的“霍山”為例，與其歐氏距離較近的分詞多為縣級行政單位，如下表：表2：霍山的近鄰詞項，根據word2vec的歐氏距離排序此外，需要指出的是，所得到的分詞組是對分詞列表中的所有分詞進行的分配。也就是說，一個分詞經過分配后只出現(xiàn)在一個分詞組中。4、在第一檢索信息列表中提取含有分詞組中至少一個分詞的檢索信息。根據得到的分詞組，遍歷第一檢索信息列表中的所有檢索信息，將含有該分詞組中至少一個分詞的檢索信息進行復制并提取出來。5、將提取的檢索信息保存在一個分類檢索信息列表中。執(zhí)行該步驟后得到的分類檢索信息列表中記錄有一批具有相似上下文的檢索信息，如下表所示：表3：一個分類檢索信息列表中的部分檢索信息內容從青島到徐州有多遠從河南周口到北京有多遠從海口到泰州有多遠從煙臺到鞍山有多遠從碭山到蒙城有多遠從太康到夏邑有多遠從柘城到夏邑有多遠從霍山到英山有多遠從集寧市到興和縣有多遠需要指出的是，通過一組分詞將得到對應的一個分類檢索信息列表，通過對不同的分詞組在第一檢索信息列表中提取對應的檢索信息，就會生成多個分類檢索信息列表。203、從分類檢索信息列表中提取對應的檢索模式。根據上述步驟202中得到的多個分類檢索信息列表，本發(fā)明實施例中提取檢索模式的具體流程為：1、通過FPGrowth算法逐一計算每個分類檢索信息列表中的頻繁項集合。FPGrowth算法是韓家煒等人在2000年提出的關聯(lián)分析算法，它采取如下的分治策略：將提供頻繁項集的數(shù)據庫壓縮到一棵頻繁模式樹(FP-tree)，但仍保留項集關聯(lián)信息。FPGrowth算法主要分為兩個步驟：FP-tree構建、遞歸挖掘FP-tree。FP-tree構建通過兩次數(shù)據掃描，將原始數(shù)據中的事務壓縮到一個FP-tree樹，該FP-tree類似于前綴樹，相同前綴的路徑可以共用，從而達到壓縮數(shù)據的目的。接著通過FP-tree找出每個項目的條件模式基、條件FP-tree，遞歸的挖掘條件FP-tree得到所有的頻繁項集。對于具體的計算過程在本發(fā)明實施例中做詳細說明。在該步驟中，由于每個分類檢索信息列表中各條檢索信息中的名詞性分詞都是同義詞、近義詞或同位詞等具有較高關聯(lián)關系的分詞，因此，檢索信息具有相似的上下文，所對應提取的檢索模式也屬于同一類的檢索模式。也就是說，針對一個分類檢索信息列表計算出的頻繁項集可能存在多個，對此，將得到的頻繁項集以列表的形式加以保存，就得到了頻繁項集合，該集合中包含有多個頻繁項集，以及每個頻繁項集多出現(xiàn)的頻數(shù)。下表示例性地展示了一個分類檢索信息列表經過計算后得到的部分頻繁項集。表4：頻繁項集合中的部分頻繁項集頻繁項集頻數(shù)有、和、不同1110到、坐、車、從、去196到、從、遠、多、有29232、調整頻繁項集中頻繁項的順序，生成分類檢索信息列表對應的檢索模式。首先，由于FPGrowth算法所產生的頻繁項集中的頻繁項是無序的，因此，需要將無序的頻繁項轉換成有序的頻繁項，一個有序的頻繁項集就是一個檢索模式。具體的順序轉換過程包括：提取頻繁項集中的一組頻繁項，將這組頻繁項代入分類檢索信息列表中進行匹配，提取含有這一組頻繁項的檢索信息。需要指出的是，該檢索信息中需要包含這組頻繁項中的所有頻繁項。之后，將所提取的檢索信息中使用通用符替換所有非頻繁項的分詞，將含有通用符和這組頻繁項的信息確定為分類檢索信息列表所對應的檢索模式，其中，含有通用符和這組頻繁項的信息中的分詞順序是按照原檢索信息中分詞的順序排列的。例如，設定通用符為“#”，頻繁集“到、從、遠、多、有”，進過匹配后得到的原始檢索信息之一是“從霍山到英山有多遠”，經過替換后生成的一個檢索模式“從#到#有多遠”，如果還匹配到另一個檢索信息為“坐車從霍山到英山有多遠”，經過替換后生成的另一個檢索模式“#從#到#有多遠”?？梢?，一個頻繁項集中根據頻繁項排序的不同就可以生成多個不同的檢索模式。其次，當一個頻繁項集中產生過個不同的檢索模式時，為了確保檢索模式的代表性，在得到所有的檢索模式后，將對所有的檢索模式進行統(tǒng)計，將相同的檢索模式進行合并，并累加合并的個數(shù)。根據預設的閾值，保留累加個數(shù)大于該閾值的檢索模式，確定這些檢索模式為有效、可用的檢索模式。204、將所提取的檢索模式保存至檢索模式信息庫中。統(tǒng)計各個分類檢索信息列表對應的檢索模式，將其保存在檢索模式信息庫中，得到的檢索模式以列表的形式加以展示，每個檢索模式根據所替換的通用符的個數(shù)確定檢索模式的階數(shù)，下表示例性的展示了部分的檢索模式，該表中的檢索模式根據階數(shù)的遞增進行排序展示：表5：檢索模式信息庫中的部分檢索模式通過上述實施例可以得到較高質量的檢索模式，利用這些檢索模式，搜索引擎變可以對網頁標題以及用戶錄入的檢索信息進行匹配，從而為用戶檢索出更符合用戶意圖的檢索結果，簡化了用戶構建檢索信息的復雜性，提高的用戶的檢索體驗。以上詳細說明了基于搜索引擎的檢索信息匹配方法在實際應用中的具體實現(xiàn)，作為實現(xiàn)上述方法的具體裝置，本發(fā)明實施例還提供了一種基于搜索引擎的檢索信息匹配裝置，如圖3所示，該裝置包括：創(chuàng)建單元31，用于創(chuàng)建檢索模式信息庫，所述檢索模式是對已有檢索信息統(tǒng)計分析得到的能夠代表一類檢索信息的模式化信息；匹配單元32，用于將網頁的標題以及搜索引擎獲取的新檢索信息分別與所述創(chuàng)建單元31創(chuàng)建的信息庫中的檢索模式進行匹配；輸出單元33，用于當所述匹配單元32匹配出的檢索模式的相似度達到閾值時，將所述網頁作為所述新檢索信息的檢索結果輸出。進一步的，如圖4所示，所述創(chuàng)建單元31包括：處理模塊311，用于對所獲取的已有檢索信息進行預處理，得到詞向量表示的檢索信息；聚類模塊312，用于利用聚類算法將所述處理模塊311處理后的檢索信息進行聚類，得到多個分類檢索信息列表，所述分類檢索信息列表中記錄有相似上下文信息的檢索信息；提取模塊313，用于從所述聚類模塊312得到的分類檢索信息列表中提取對應的檢索模式；存儲模塊314，用于將所述提取模塊313得到的檢索模式保存至檢索模式信息庫中。進一步的，如圖4所示，所述處理模塊311包括：第一處理子模塊3111，用于將所獲取的已有檢索信息逐條添加到有第一檢索信息列表中；第二處理子模塊3112，用于對所述第一處理子模塊3111得到的第一檢索信息列表中的檢索信息進行分詞以及詞性標注處理，得到第二檢索信息列表和第三檢索信息列表，所述第二檢索信息列表中保存有分詞后的檢索信息，所述第三檢索信息列表中保存有對分詞結果進行詞性標注的檢索信息；第三處理子模塊3113，用于利用文本深度表示模型word2vec對所述第二處理子模塊3112得到的第二檢索信息列表中的分詞進行向量化表示，將所述向量化的分詞存儲在詞向量文件中；第四處理子模塊3114，用于提取所述第二處理子模塊3112得到的第三檢索信息列表中詞性標注為名詞性的分詞，將所述分詞添加到分詞列表中，所述分詞列表中記錄有分詞以及所述分詞在所述第三檢索信息列表中出現(xiàn)的次數(shù)。進一步的，如圖4所示，所述聚類模塊312包括：查找子模塊3121，用于在所述詞向量文件中查找所述分詞列表中分詞的向量值；計算子模塊3122，用于根據所述查找子模塊3121查詢到的向量值計算所述分詞列表中任意兩個分詞間的歐氏距離；組合子模塊3123，用于對所述分詞列表中每個分詞提取預置數(shù)量的鄰近分詞，組成分詞組，所述鄰近分詞是根據所述計算子模塊3122計算的歐氏距離進行由近至遠排序得到的分詞；提取子模塊3124，用于在所述第一檢索信息列表中提取含有所述組合子模塊3123組成的分詞組中至少一個分詞的檢索信息；存儲子模塊3125，用于將所述提取子模塊3124提取的檢索信息保存在一個分類檢索信息列表中。進一步的，如圖4所示，所述提取模塊313包括：計算子模塊3131，用于利用FPGrowth算法逐一計算每個分類檢索信息列表中的頻繁項集合，所述頻繁項集合含有至少一個頻繁項集；生成子模塊3132，用于調整所述計算子模塊3131得到的頻繁項集中頻繁項的順序，生成所述分類檢索信息列表對應的檢索模式。進一步的，所述生成子模塊3132還用于，提取所述頻繁項集中的一組頻繁項；在所述分類檢索信息列表中匹配含有所述一組頻繁項的檢索信息；將所述檢索信息中非頻繁項的分詞替換為通用符；將含有通用符和所述一組頻繁項且按照所述檢索信息中的分詞排序排列的信息確定為所述分類檢索信息列表對應的檢索模式。進一步的，所述生成子模塊3132還用于，統(tǒng)計所生成的檢索模式，計算所生成的相同檢索模式的個數(shù)；保留所述個數(shù)大于閾值的檢索模式。進一步的，如圖4所示，所述裝置還包括：排序單元34，用于根據所述相似度的值確定所述輸出單元33輸出的檢索結果中網頁的排序。綜上所述，本發(fā)明實施例所提供的一種基于搜索引擎的檢索信息匹配方法及裝置，通過為搜索引擎配置檢索模式信息庫，將用戶錄入的檢索信息與信息庫中的檢索模式進行匹配，實現(xiàn)解析用戶的檢索意圖，將用戶的檢索內容擴展到一類信息的查詢與檢索。同時，通過信息庫中的檢索模式，也為互聯(lián)網中的網頁匹配對應的檢索模式，在為用戶匹配對應的檢索結果時，通過計算用戶錄入的檢索模式與網頁對應檢索模式的相似度來判斷網頁是否符合用戶的檢索意圖，從而確定是否將該網頁作為檢索結果輸出給用戶。此外，本發(fā)明實施例通過對檢索模式的不斷的更新與訓練，可以有效提高對用戶檢索意圖的識別與判斷，從而為用戶匹配出更為準確的檢索結果，提高用戶的檢索體驗。在上述實施例中，對各個實施例的描述都各有側重，某個實施例中沒有詳述的部分，可以參見其他實施例的相關描述?？梢岳斫獾氖牵鲜鲈贫朔掌骷把b置中的相關特征可以相互參考。另外，上述實施例中的“第一”、“第二”等是用于區(qū)分各實施例，而并不代表各實施例的優(yōu)劣。所屬領域的技術人員可以清楚地了解到，為描述的方便和簡潔，上述描述的系統(tǒng)，裝置和單元的具體工作過程，可以參考前述云端服務器實施例中的對應過程，在此不再贅述。在此提供的算法和顯示不與任何特定計算機、虛擬系統(tǒng)或者其它設備固有相關。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據上面的描述，構造這類系統(tǒng)所要求的結構是顯而易見的。此外，本發(fā)明也不針對任何特定編程語言。應當明白，可以利用各種編程語言實現(xiàn)在此描述的本發(fā)明的內容，并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實施方式。在此處所提供的說明書中，說明了大量具體細節(jié)。然而，能夠理解，本發(fā)明的實施例可以在沒有這些具體細節(jié)的情況下實踐。在一些實例中，并未詳細示出公知的云端服務器、結構和技術，以便不模糊對本說明書的理解。類似地，應當理解，為了精簡本發(fā)明并幫助理解各個發(fā)明方面中的一個或多個，在上面對本發(fā)明的示例性實施例的描述中，本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而，并不應將該公開的云端服務器解釋成反映如下意圖：即所要求保護的本發(fā)明要求比在每個權利要求中所明確記載的特征更多的特征。更確切地說，如下面的權利要求書所反映的那樣，發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此，遵循具體實施方式的權利要求書由此明確地并入該具體實施方式，其中每個權利要求本身都作為本發(fā)明的單獨實施例。本領域那些技術人員可以理解，可以對實施例中的設備中的模塊進行自適應性地改變并且把它們設置在與該實施例不同的一個或多個設備中?？梢园褜嵤├械哪K或單元或組件組合成一個模塊或單元或組件，以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外，可以采用任何組合對本說明書(包括伴隨的權利要求、摘要和附圖)中公開的所有特征以及如此公開的任何云端服務器或者設備的所有過程或單元進行組合。除非另外明確陳述，本說明書(包括伴隨的權利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。此外，本領域的技術人員能夠理解，盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征，但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內并且形成不同的實施例。例如，在下面的權利要求書中，所要求保護的實施例的任意之一都可以以任意的組合方式來使用。本發(fā)明的各個部件實施例可以以硬件實現(xiàn)，或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn)，或者以它們的組合實現(xiàn)。本領域的技術人員應當理解，可以在實踐中使用微處理器或者數(shù)字信號處理器(DSP)來實現(xiàn)根據本發(fā)明實施例的發(fā)明名稱(如確定網站內連接等級的裝置)中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的云端服務器的一部分或者全部的設備或者裝置程序(例如，計算機程序和計算機程序產品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質上，或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網網站上下載得到，或者在載體信號上提供，或者以任何其他形式提供。應該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制，并且本領域技術人員在不脫離所附權利要求的范圍的情況下可設計出替換實施例。在權利要求中，不應將位于括號之間的任何參考符號構造成對權利要求的限制。單詞“包含”不排除存在未列在權利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權利要求中，這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序?？蓪⑦@些單詞解釋為名稱。本發(fā)明實施例還公開了以下技術方案：A1、一種基于搜索引擎的檢索信息匹配方法，所述方法包括：創(chuàng)建檢索模式信息庫，所述檢索模式是對已有檢索信息統(tǒng)計分析得到的能夠代表一類檢索信息的模式化信息；將網頁的標題以及搜索引擎獲取的新檢索信息分別與所述信息庫中的檢索模式進行匹配；當匹配出的檢索模式的相似度達到閾值時，將所述網頁作為所述新檢索信息的檢索結果輸出。A2、根據A1所述的方法，所述創(chuàng)建檢索模式信息庫包括：對所獲取的已有檢索信息進行預處理，得到詞向量表示的檢索信息；利用聚類算法將處理后的檢索信息進行聚類，得到多個分類檢索信息列表，所述分類檢索信息列表中記錄有相似上下文信息的檢索信息；從所述分類檢索信息列表中提取對應的檢索模式；將所述檢索模式保存至檢索模式信息庫中。A3、根據A2所述的方法，所述對所獲取的已有檢索信息進行預處理包括：將所獲取的已有檢索信息逐條添加到有第一檢索信息列表中；對所述第一檢索信息列表中的檢索信息進行分詞以及詞性標注處理，得到第二檢索信息列表和第三檢索信息列表，所述第二檢索信息列表中保存有分詞后的檢索信息，所述第三檢索信息列表中保存有對分詞結果進行詞性標注的檢索信息；利用文本深度表示模型word2vec對第二檢索信息列表中的分詞進行向量化表示，將所述向量化的分詞存儲在詞向量文件中；提取所述第三檢索信息列表中詞性標注為名詞性的分詞，將所述分詞添加到分詞列表中，所述分詞列表中記錄有分詞以及所述分詞在所述第三檢索信息列表中出現(xiàn)的次數(shù)。A4、根據A3所述的方法，所述利用聚類算法將處理后的檢索信息進行聚類，得到多個分類檢索信息列表包括：在所述詞向量文件中查找所述分詞列表中分詞的向量值；根據所述向量值計算所述分詞列表中任意兩個分詞間的歐氏距離；對所述分詞列表中每個分詞提取預置數(shù)量的鄰近分詞，組成分詞組，所述鄰近分詞是根據所述歐氏距離進行由近至遠排序得到的分詞；在所述第一檢索信息列表中提取含有所述分詞組中至少一個分詞的檢索信息；將所提取的檢索信息保存在一個分類檢索信息列表中。A5、根據A2-A4中任一項所述的方法，所述從所述分類檢索信息列表中提取對應的檢索模式包括：利用FPGrowth算法逐一計算每個分類檢索信息列表中的頻繁項集合，所述頻繁項集合含有至少一個頻繁項集；調整所述頻繁項集中頻繁項的順序，生成所述分類檢索信息列表對應的檢索模式。A6、根據A5所述的方法，所述調整所述頻繁項集中頻繁項的順序，生成所述分類檢索信息列表對應的檢索模式包括：提取所述頻繁項集中的一組頻繁項；在所述分類檢索信息列表中匹配含有所述一組頻繁項的檢索信息；將所述檢索信息中非頻繁項的分詞替換為通用符；將含有通用符和所述一組頻繁項且按照所述檢索信息中的分詞排序排列的信息確定為所述分類檢索信息列表對應的檢索模式。A7、根據A6所述的方法，所述調整所述頻繁項集中頻繁項的順序，生成所述分類檢索信息列表對應的檢索模式還包括：統(tǒng)計所生成的檢索模式，計算所生成的相同檢索模式的個數(shù)；保留所述個數(shù)大于閾值的檢索模式。A8、根據A1所述的方法，所述方法還包括：根據所述相似度的值確定所述檢索結果中網頁的排序。B9、一種基于搜索引擎的檢索信息匹配裝置，所述裝置包括：創(chuàng)建單元，用于創(chuàng)建檢索模式信息庫，所述檢索模式是對已有檢索信息統(tǒng)計分析得到的能夠代表一類檢索信息的模式化信息；匹配單元，用于將網頁的標題以及搜索引擎獲取的新檢索信息分別與所述創(chuàng)建單元創(chuàng)建的信息庫中的檢索模式進行匹配；輸出單元，用于當所述匹配單元匹配出的檢索模式的相似度達到閾值時，將所述網頁作為所述新檢索信息的檢索結果輸出。B10、根據B9所述的裝置，所述創(chuàng)建單元包括：處理模塊，用于對所獲取的已有檢索信息進行預處理，得到詞向量表示的檢索信息；聚類模塊，用于利用聚類算法將所述處理模塊處理后的檢索信息進行聚類，得到多個分類檢索信息列表，所述分類檢索信息列表中記錄有相似上下文信息的檢索信息；提取模塊，用于從所述聚類模塊得到的分類檢索信息列表中提取對應的檢索模式；存儲模塊，用于將所述提取模塊得到的檢索模式保存至檢索模式信息庫中。B11、根據B10所述的裝置，所述處理模塊包括：第一處理子模塊，用于將所獲取的已有檢索信息逐條添加到有第一檢索信息列表中；第二處理子模塊，用于對所述第一處理子模塊得到的第一檢索信息列表中的檢索信息進行分詞以及詞性標注處理，得到第二檢索信息列表和第三檢索信息列表，所述第二檢索信息列表中保存有分詞后的檢索信息，所述第三檢索信息列表中保存有對分詞結果進行詞性標注的檢索信息；第三處理子模塊，用于利用文本深度表示模型word2vec對所述第二處理子模塊得到的第二檢索信息列表中的分詞進行向量化表示，將所述向量化的分詞存儲在詞向量文件中；第四處理子模塊，用于提取所述第二處理子模塊得到的第三檢索信息列表中詞性標注為名詞性的分詞，將所述分詞添加到分詞列表中，所述分詞列表中記錄有分詞以及所述分詞在所述第三檢索信息列表中出現(xiàn)的次數(shù)。B12、根據B11所述的裝置，所述聚類模塊包括：查找子模塊，用于在所述詞向量文件中查找所述分詞列表中分詞的向量值；計算子模塊，用于根據所述查找子模塊查詢到的向量值計算所述分詞列表中任意兩個分詞間的歐氏距離；組合子模塊，用于對所述分詞列表中每個分詞提取預置數(shù)量的鄰近分詞，組成分詞組，所述鄰近分詞是根據所述計算子模塊計算的歐氏距離進行由近至遠排序得到的分詞；提取子模塊，用于在所述第一檢索信息列表中提取含有所述組合子模塊組成的分詞組中至少一個分詞的檢索信息；存儲子模塊，用于將所述提取子模塊提取的檢索信息保存在一個分類檢索信息列表中。B13、根據B10-B12中任一項所述的裝置，所述提取模塊包括：計算子模塊，用于利用FPGrowth算法逐一計算每個分類檢索信息列表中的頻繁項集合，所述頻繁項集合含有至少一個頻繁項集；生成子模塊，用于調整所述計算子模塊得到的頻繁項集中頻繁項的順序，生成所述分類檢索信息列表對應的檢索模式。B14、根據B13所述的裝置，所述生成子模塊還用于，提取所述頻繁項集中的一組頻繁項；在所述分類檢索信息列表中匹配含有所述一組頻繁項的檢索信息；將所述檢索信息中非頻繁項的分詞替換為通用符；將含有通用符和所述一組頻繁項且按照所述檢索信息中的分詞排序排列的信息確定為所述分類檢索信息列表對應的檢索模式。B15、根據B14所述的裝置，所述生成子模塊還用于，統(tǒng)計所生成的檢索模式，計算所生成的相同檢索模式的個數(shù)；保留所述個數(shù)大于閾值的檢索模式。B16、根據B9所述的裝置，所述裝置還包括：排序單元，用于根據所述相似度的值確定所述輸出單元輸出的檢索結果中網頁的排序。當前第1頁1 2 3

完整全部詳細技術資料下載

當前第1頁1 2 3