欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于搜索引擎的檢索信息匹配方法及裝置與流程

文檔序號(hào):12666460閱讀:來源:國知局

技術(shù)特征:

1.一種基于搜索引擎的檢索信息匹配方法,其特征在于,所述方法包括:

創(chuàng)建檢索模式信息庫,所述檢索模式是對(duì)已有檢索信息統(tǒng)計(jì)分析得到的能夠代表一類檢索信息的模式化信息;

將網(wǎng)頁的標(biāo)題以及搜索引擎獲取的新檢索信息分別與所述信息庫中的檢索模式進(jìn)行匹配;

當(dāng)匹配出的檢索模式的相似度達(dá)到閾值時(shí),將所述網(wǎng)頁作為所述新檢索信息的檢索結(jié)果輸出。

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述創(chuàng)建檢索模式信息庫包括:

對(duì)所獲取的已有檢索信息進(jìn)行預(yù)處理,得到詞向量表示的檢索信息;

利用聚類算法將處理后的檢索信息進(jìn)行聚類,得到多個(gè)分類檢索信息列表,所述分類檢索信息列表中記錄有相似上下文信息的檢索信息;

從所述分類檢索信息列表中提取對(duì)應(yīng)的檢索模式;

將所述檢索模式保存至檢索模式信息庫中。

3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述對(duì)所獲取的已有檢索信息進(jìn)行預(yù)處理包括:

將所獲取的已有檢索信息逐條添加到有第一檢索信息列表中;

對(duì)所述第一檢索信息列表中的檢索信息進(jìn)行分詞以及詞性標(biāo)注處理,得到第二檢索信息列表和第三檢索信息列表,所述第二檢索信息列表中保存有分詞后的檢索信息,所述第三檢索信息列表中保存有對(duì)分詞結(jié)果進(jìn)行詞性標(biāo)注的檢索信息;

利用文本深度表示模型word2vec對(duì)第二檢索信息列表中的分詞進(jìn)行向量化表示,將所述向量化的分詞存儲(chǔ)在詞向量文件中;

提取所述第三檢索信息列表中詞性標(biāo)注為名詞性的分詞,將所述分詞添加到分詞列表中,所述分詞列表中記錄有分詞以及所述分詞在所述第三檢索信息列表中出現(xiàn)的次數(shù)。

4.根據(jù)權(quán)利要求1-3中任一項(xiàng)所述的方法,其特征在于,所述利用聚類算法將處理后的檢索信息進(jìn)行聚類,得到多個(gè)分類檢索信息列表包括:

在所述詞向量文件中查找所述分詞列表中分詞的向量值;

根據(jù)所述向量值計(jì)算所述分詞列表中任意兩個(gè)分詞間的歐氏距離;

對(duì)所述分詞列表中每個(gè)分詞提取預(yù)置數(shù)量的鄰近分詞,組成分詞組,所述鄰近分詞是根據(jù)所述歐氏距離進(jìn)行由近至遠(yuǎn)排序得到的分詞;

在所述第一檢索信息列表中提取含有所述分詞組中至少一個(gè)分詞的檢索信息;

將所提取的檢索信息保存在一個(gè)分類檢索信息列表中。

5.根據(jù)權(quán)利要求1-4中任一項(xiàng)所述的方法,其特征在于,所述從所述分類檢索信息列表中提取對(duì)應(yīng)的檢索模式包括:

利用FPGrowth算法逐一計(jì)算每個(gè)分類檢索信息列表中的頻繁項(xiàng)集合,所述頻繁項(xiàng)集合含有至少一個(gè)頻繁項(xiàng)集;

調(diào)整所述頻繁項(xiàng)集中頻繁項(xiàng)的順序,生成所述分類檢索信息列表對(duì)應(yīng)的檢索模式。

6.根據(jù)權(quán)利要求1-5中任一項(xiàng)所述的方法,其特征在于,所述調(diào)整所述頻繁項(xiàng)集中頻繁項(xiàng)的順序,生成所述分類檢索信息列表對(duì)應(yīng)的檢索模式包括:

提取所述頻繁項(xiàng)集中的一組頻繁項(xiàng);

在所述分類檢索信息列表中匹配含有所述一組頻繁項(xiàng)的檢索信息;

將所述檢索信息中非頻繁項(xiàng)的分詞替換為通用符;

將含有通用符和所述一組頻繁項(xiàng)且按照所述檢索信息中的分詞排序排列的信息確定為所述分類檢索信息列表對(duì)應(yīng)的檢索模式。

7.根據(jù)權(quán)利要求1-6中任一項(xiàng)所述的方法,其特征在于,所述調(diào)整所述頻繁項(xiàng)集中頻繁項(xiàng)的順序,生成所述分類檢索信息列表對(duì)應(yīng)的檢索模式還包括:

統(tǒng)計(jì)所生成的檢索模式,計(jì)算所生成的相同檢索模式的個(gè)數(shù);

保留所述個(gè)數(shù)大于閾值的檢索模式。

8.根據(jù)權(quán)利要求1-7中任一項(xiàng)所述的方法,其特征在于,所述方法還包括:

根據(jù)所述相似度的值確定所述檢索結(jié)果中網(wǎng)頁的排序。

9.一種基于搜索引擎的檢索信息匹配裝置,其特征在于,所述裝置包括:

創(chuàng)建單元,用于創(chuàng)建檢索模式信息庫,所述檢索模式是對(duì)已有檢索信息統(tǒng)計(jì)分析得到的能夠代表一類檢索信息的模式化信息;

匹配單元,用于將網(wǎng)頁的標(biāo)題以及搜索引擎獲取的新檢索信息分別與所述創(chuàng)建單元?jiǎng)?chuàng)建的信息庫中的檢索模式進(jìn)行匹配;

輸出單元,用于當(dāng)所述匹配單元匹配出的檢索模式的相似度達(dá)到閾值時(shí),將所述網(wǎng)頁作為所述新檢索信息的檢索結(jié)果輸出。

10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述創(chuàng)建單元包括:

處理模塊,用于對(duì)所獲取的已有檢索信息進(jìn)行預(yù)處理,得到詞向量表示的檢索信息;

聚類模塊,用于利用聚類算法將所述處理模塊處理后的檢索信息進(jìn)行聚類,得到多個(gè)分類檢索信息列表,所述分類檢索信息列表中記錄有相似上下文信息的檢索信息;

提取模塊,用于從所述聚類模塊得到的分類檢索信息列表中提取對(duì)應(yīng)的檢索模式;

存儲(chǔ)模塊,用于將所述提取模塊得到的檢索模式保存至檢索模式信息庫中。

當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
永胜县| 固原市| 噶尔县| 弥渡县| 南汇区| 徐州市| 柳林县| 襄城县| 商南县| 托克逊县| 汾西县| 林周县| 安远县| 保康县| 五华县| 禄丰县| 永德县| 乌兰浩特市| 彭水| 浦县| 随州市| 阜新市| 广宁县| 安图县| 中宁县| 云梦县| 秭归县| 开阳县| 彭山县| 尼玛县| 蚌埠市| 泾川县| 马关县| 阳曲县| 都兰县| 凉城县| 墨江| 马鞍山市| 新丰县| 鹿邑县| 诸暨市|