欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種同義詞的挖掘方法及裝置與流程

文檔序號:12465983閱讀:264來源:國知局
一種同義詞的挖掘方法及裝置與流程
本發(fā)明涉及互聯(lián)網
技術領域
,尤其涉及一種同義詞的挖掘方法及裝置。
背景技術
:在搜索引擎中,用戶查詢項和文檔之間往往會因為詞語不匹配而不能查到相關文檔,同義詞可以用來解決同義詞語不匹配的問題,搜索引擎需要大量的同義詞、同義短語等擴大檢索召回和提升搜索質量,故同義詞詞典是搜索引擎的重要基礎數據,同義詞挖掘也是搜索引擎的關鍵技術之一。傳統(tǒng)的同義詞挖掘方法主要為基于共同點擊的挖掘方法,是利用用戶的點擊行為,如果各種不同的查詢項點擊了同一個文檔,則將這些查詢項對齊后,比對出不同的部分,作為潛在的同義詞對。但這種挖掘方法會挖掘出大量的同位詞、反義詞等噪音詞語,如“諸葛亮”和“郭嘉”、“人教版”和“北師版”等均為同位詞,而不是同義詞??梢姡F(xiàn)有技術中的同義詞挖掘方法存在準確率低的技術問題。技術實現(xiàn)要素:鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的網站關鍵詞的確定方法及裝置。第一方面,本申請?zhí)峁┮环N同義詞的挖掘方法,包括:生成第一詞的第一近鄰詞集合和第二詞的第二近鄰詞集合,其中,所述第一詞與所述第一近鄰詞集合中的詞的相關性滿足預設要求,所述第二詞與所述第二近鄰詞集合中的詞的相關性滿足所述預設要求;比對所述第一近鄰詞集合與所述第二近鄰詞集合的相似度,獲得比對結果;根據所述比對結果,確定所述第一詞和所述第二詞是否為同義詞??蛇x的,所述生成第一詞的第一近鄰詞集合和第二詞的第二近鄰詞集合之前,還包括:挖掘出第一查詢項和第二查詢項,其中,所述第一查詢項與所述第二查詢項對應有相同的點擊文檔;比對所述第一查詢項和所述第二查詢項,從所述第一查詢項和所述第二查詢項中分別提取出所述第一詞和所述第二詞??蛇x的,所述生成第一詞的第一近鄰詞集合和第二詞的第二近鄰詞集合,包括:根據最鄰近算法,生成第一詞的第一近鄰詞集合和第二詞的第二近鄰詞集合??蛇x的,所述比對所述第一近鄰詞集合與所述第二近鄰詞集合的相似度,獲得比對結果,包括:根據拓補數據分析方法,生成所述第一近鄰詞集合的第一持續(xù)性圖和所述第二近鄰詞集合的第二持續(xù)性圖;計算所述第一持續(xù)性圖和所述第二持續(xù)性圖的相似度,以所述相似度作為所述比對結果??蛇x的,所述計算所述第一持續(xù)性圖和所述第二持續(xù)性圖的相似度,包括:計算所述第一持續(xù)性圖和所述第二持續(xù)性圖的環(huán)相似度和連通圖相似度??蛇x的,所述根據所述相似度確定所述第一詞和所述第二詞是否為同義詞,包括:當所述環(huán)相似度小于等于預設環(huán)相似度值,且所述連通圖相似度小于等于預設連通圖相似度時,所述第一詞和所述第二詞為同義詞;當所述環(huán)相似度大于所述預設環(huán)相似度值,和/或所述連通圖相似度大于所述預設連通圖相似度時,所述第一詞和所述第二詞為非同義詞。可選的,所述比對所述第一近鄰詞集合與所述第二近鄰詞集合的相似度,獲得比對結果,包括:計算所述第一近鄰詞集合與所述第二近鄰詞集合的杰卡德相似度,以所述杰卡德相似度作為所述比對結果。第二方面,提供一種同義詞的挖掘裝置,包括:生成模塊,用于生成第一詞的第一近鄰詞集合和第二詞的第二近鄰詞集合,其中,所述第一詞與所述第一近鄰詞集合中的詞的相關性滿足預設要求,所述第二詞與所述第二近鄰詞集合中的詞的相關性滿足所述預設要求;比對模塊,用于比對所述第一近鄰詞集合與所述第二近鄰詞集合的相似度,獲得比對結果;確定模塊,用于根據所述比對結果,確定所述第一詞和所述第二詞是否為同義詞??蛇x的,所述裝置還包括:挖掘模塊,用于挖掘出第一查詢項和第二查詢項,其中,所述第一查詢項與所述第二查詢項對應有相同的點擊文檔;提取模塊,用于比對所述第一查詢項和所述第二查詢項,從所述第一查詢項和所述第二查詢項中分別提取出所述第一詞和所述第二詞??蛇x的,所述生成模塊還用于:根據最鄰近算法,生成第一詞的第一近鄰詞集合和第二詞的第二近鄰詞集合??蛇x的,所述比對模塊還用于:根據拓補數據分析方法,生成所述第一近鄰詞集合的第一持續(xù)性圖和所述第二近鄰詞集合的第二持續(xù)性圖;計算所述第一持續(xù)性圖和所述第二持續(xù)性圖的相似度,以所述相似度作為所述比對結果。可選的,所述比對模塊還用于:計算所述第一持續(xù)性圖和所述第二持續(xù)性圖的環(huán)相似度和連通圖相似度??蛇x的,所述確定模塊還用于:當所述環(huán)相似度小于等于預設環(huán)相似度值,且所述連通圖相似度小于等于預設連通圖相似度時,所述第一詞和所述第二詞為同義詞;當所述環(huán)相似度大于所述預設環(huán)相似度值,和/或所述連通圖相似度大于所述預設連通圖相似度時,所述第一詞和所述第二詞為非同義詞。可選的,所述比對模塊還用于:計算所述第一近鄰詞集合與所述第二近鄰詞集合的杰卡德相似度,以所述杰卡德相似度作為所述比對結果。本申請實施例中提供的技術方案,至少具有如下技術效果或優(yōu)點:本申請實施例提供的方法及裝置,利用詞語的全局性信息,生成詞語對中每個詞的近鄰詞集合,再從整體上比較各個詞的近鄰詞集合的相似度,從而判斷所述詞語對是否為同義詞對,有效的提升了同義詞挖掘的準確率,進一步,該方法可以與當前的各種同義詞挖掘方法結合使用,可擴展性好。上述說明僅是本發(fā)明技術方案的概述,為了能夠更清楚了解本發(fā)明的技術手段,而可依照說明書的內容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式。附圖說明通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:圖1為本發(fā)明實施例中同義詞的挖掘方法的流程圖;圖2為本發(fā)明實施例中“安徽”和“安徽省”兩個詞近鄰詞集合的兩維平面圖;圖3為本發(fā)明實施例中“朝暉”和“曙光”兩個詞近鄰詞集合的兩維平面圖;圖4為本發(fā)明實施例中拓撲特征的生存期示意圖;圖5為本發(fā)明實施例中“縣令”的近鄰詞集合的拓撲特征可視化圖;圖6為本發(fā)明實施例中“知縣”的近鄰詞集合的拓撲特征可視化圖;圖7為本發(fā)明實施例中“麻雀”的近鄰詞集合的拓撲特征可視化圖;圖8為本發(fā)明實施例中“金絲雀”的近鄰詞集合的拓撲特征可視化圖;圖9為本發(fā)明實施例中查詢項對齊示意圖;圖10為本發(fā)明實施例中同義詞的挖掘裝置的結構示意圖。具體實施方式本申請實施例中的技術方案,總體思路如下:需要確定兩個詞是否是同義詞時,利用詞語的全局性信息,通過挖掘數據先分別生成兩個詞的近鄰詞集合,再比對兩個近鄰詞集合的相似度,根據比對結果來確定這兩個詞是否為同義詞。即通過挖掘數據集的大結構,充分利用了詞語的全局性信息,生成詞語對中每個詞的近鄰詞集合,再從整體上比較各個詞的近鄰詞集合的相似度,從而判斷所述詞語對是否為同義詞對,有效的提升了同義詞挖掘的準確率,另外,該方法可以與當前的各種同義詞挖掘方法結合使用,作為其他同義詞挖掘方法的進一步篩選方法,可擴展性好。下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術人員。實施例一本實施例提供一種同義詞的挖掘方法,請參考圖1,圖1為本申請實施例中同義詞挖掘方法的流程圖,如圖1所示,該方法包括:步驟S101,生成第一詞的第一近鄰詞集合和第二詞的第二近鄰詞集合,其中,所述第一詞與所述第一近鄰詞集合中的詞的相關性滿足預設要求,所述第二詞與所述第二近鄰詞集合中的詞的相關性滿足所述預設要求;步驟S102,比對所述第一近鄰詞集合與所述第二近鄰詞集合的相似度,獲得比對結果;步驟S103,根據所述比對結果,確定所述第一詞和所述第二詞是否為同義詞。需要說明的是,本申請中的所述第一詞和所述第二詞均可以是中文詞、英文詞、阿拉伯數字、中文數字、羅馬數字、單個字符的詞或多個字符的詞,在此均不作限制。進一步,所述第一詞和所述第二詞的字符數和/或語言類型可以不相同,例如:所述第一詞是中文詞,所述第二詞是英文詞;或者,所述第一詞是單字符,所述第二詞是雙字符;或者,所述第一詞是阿拉伯數字,所述第二詞是羅馬數字,在此不再一一列舉。下面,結合圖1詳細介紹本申請實施例提供的方法的具體實現(xiàn)步驟:在執(zhí)行步驟S101之前,需要先確定所述第一詞和所述第二詞,在本申請實施例中,確定所述第一詞和所述第二詞的方法很多,下面列舉三種為例:第一種,人工導入的初始詞,即先接收工作人員手工導入的大量詞語,再對所述大量詞語進行任意組詞對進行分析,組成的每一詞對中即包括所述第一詞和所述第二詞;第二種,基于規(guī)則的挖掘方法挖掘出的潛在同義詞對,即利用百科或網頁內容的語言描述特征等設計挖掘規(guī)則,通過內容里面的括弧,百科里面的“別稱、又稱、別名、又叫、又名”等語言特征詞,來挖掘出的具有潛在同義關系的所述第一詞和所述第二詞;第三種,基于共同點擊的挖掘方法挖掘出的潛在同義詞對,即利用用戶的點擊行為,獲取點擊了同一個文檔的不同的查詢項,將這些查詢項對齊后,不同的部分有可能是潛在的同義詞對。具體來講,即所述生成第一詞的第一近鄰詞集合和第二詞的第二近鄰詞集合之前,還包括:挖掘出第一查詢項和第二查詢項,其中,所述第一查詢項與所述第二查詢項對應有相同的點擊文檔,再比對所述第一查詢項和所述第二查詢項,從所述第一查詢項和所述第二查詢項中分別提取出所述第一詞和所述第二詞。當然,在具體實施過程中,確定所述第一詞和所述第二詞的方法很多,不限于上述三種,根據計算時間要求、精確度要求和場景要求的不同,可以選擇不同的確定方法,具體可以采用現(xiàn)有的任意同義詞挖掘方法或無規(guī)則詞庫來確定所述第一詞和所述第二詞,在此不作限制。在確定了所述第一詞和所述第二詞之后,執(zhí)行步驟S101,生成第一詞的第一近鄰詞集合和第二詞的第二近鄰詞集合,其中,所述第一詞與所述第一近鄰詞集合中的詞的相關性滿足預設要求,所述第二詞與所述第二近鄰詞集合中的詞的相關性滿足所述預設要求。需要說明的是,某個詞的近鄰詞集合是通過收集該詞的全局性信息,來獲取的與該詞的相關度或鄰近度滿足預設要求的詞語的集合。在具體實施過程中,所述相關性滿足預設要求,可以是近鄰詞集合中的詞與該詞出現(xiàn)在同一文檔的頻率高于預設頻率,還可以是近鄰詞集合中的詞是該詞的上位詞或下位詞,還可以是近鄰詞集合中的詞是該詞的翻譯詞,還可以是近鄰詞集合中的詞與該詞為同一類詞,還可以是近鄰詞集合中的詞為該詞的描述詞,在此不再一一列舉。例如:“重慶”的近鄰詞可以有“直轄市”、“小面”、“成都”、“武隆”、“熱”“霧都”等等。在具體實施過程中,生成近鄰詞集合的方法有多種,下面列舉兩種為例:第一種,K最近鄰(k-NearestNeighbor,kNN)分類算法。在本申請實施例中,所述生成第一詞的第一近鄰詞集合和第二詞的第二近鄰詞集合,包括:根據最鄰近算法,生成第一詞的第一近鄰詞集合和第二詞的第二近鄰詞集合。第二種,判別類域法。即先判別待生成近鄰詞集合的目標詞的大類別領域,再進一步判斷所述目標詞的更小類別領域,再獲取所述更小類別領域的其他詞語作為所述目標詞的近鄰詞,收入目標詞的近鄰詞集合。當然,在具體實施過程中,根據全局信息量及需求的不同,可以選擇不同的近鄰詞集合生成方法,在此不作限制。再下來,執(zhí)行步驟S102和步驟S103,比對所述第一近鄰詞集合與所述第二近鄰詞集合的相似度,獲得比對結果;并根據所述比對結果,確定所述第一詞和所述第二詞是否為同義詞。在本申請實施例中,比對所述第一近鄰詞集合與所述第二近鄰詞集合的相似度,確定所述第一詞和所述第二詞是否為同義詞的方法,可以有多種,下面列舉三種為例:第一種,根據拓補數據分析方法,比對持續(xù)性圖。即所述比對所述第一近鄰詞集合與所述第二近鄰詞集合的相似度,獲得比對結果,包括:根據拓補數據分析方法,生成所述第一近鄰詞集合的第一持續(xù)性圖和所述第二近鄰詞集合的第二持續(xù)性圖;計算所述第一持續(xù)性圖和所述第二持續(xù)性圖的相似度,以所述相似度作為所述比對結果。具體來講,考慮到近鄰詞集合為詞語的點集,故比較兩個詞生成的近鄰詞集合(點集),可以將詞語映射到多維的高維空間中,例如,300維或400維空間,每個詞語是高維空間中的一個點,采用拓撲數據分析的方法,確定高維空間中的數據集的大結構,放大辨別特征的區(qū)分度,分別計算兩個近鄰詞集合的持續(xù)性圖,并計算兩個持續(xù)性圖的相似度。如“安徽”和“安徽省”,兩個詞近鄰詞集合的一些列連續(xù)拓撲特征應該是相似的,很接近的,請參考圖2,圖2為“安徽”和“安徽省”持續(xù)性圖的兩維平面圖,橫坐標和縱坐標是詞向量的數值,比如:“皖北”的兩維向量(62.3,46.8),兩維是從300維空間采用特征降維(PrincipalComponentAnalysis,PCA)方法得到的。如圖2所示,“安徽”和“安徽省”兩個詞近鄰詞集合的重合度高,即相似度高,則可以確定“安徽”和“安徽省”兩個詞是同義詞。再如“朝暉”和“曙光”,請參考圖3,圖3為“朝暉”和“曙光”持續(xù)性圖的兩維平面圖。如圖3所示,“朝暉”和“曙光”兩個詞近鄰詞集合的重合度很低,則可以確定“朝暉”和“曙光”為非同義詞對。需要說明的是,圖2和圖3的兩維平面圖僅適用于兩個持續(xù)性圖的相似度的初略比較,為了獲取更精確的相似度比對結果,需要計算環(huán)相似度和連通圖相似度來進行比對,即所述計算所述第一持續(xù)性圖和所述第二持續(xù)性圖的相似度,包括:計算所述第一持續(xù)性圖和所述第二持續(xù)性圖的環(huán)相似度和連通圖相似度。具體來講,需要先將近鄰詞集合中的詞語映射到高維空間中,每個詞語就是其中的一個點,再基于拓撲數據分析的方法計算點集的持續(xù)性圖,即某一拓撲特征的生存期。生存期是指當半徑不斷增長時,拓撲特征的出現(xiàn)和消亡的時刻列表。如圖4所示,圍繞一個點的圓,當半徑從小到大增長時,圓周向外擴張,如果與其它點的圓有交集,這兩個點就生成一條連接邊,若干個點構成聯(lián)通圖或環(huán),隨著半徑的增長,連通圖或環(huán)發(fā)生合并構成更大的結構,每一次生成或消亡對應一個時刻,也就是拓撲特征的生存期。在具體實施過程中,可以采用C++libraryDionysus工具,計算點集的連通圖和環(huán)的持續(xù)性圖,即計算連通圖和環(huán)的拓撲特征的生存期。具體使用ripsDiag函數,經研究發(fā)現(xiàn)將ripsDiag函數的參數ripsfiltration設置為3或21時,連通體(dimension=0)和環(huán)(dimension=1)的相似度的區(qū)分度最好。例如,基于拓撲數據分析的方法計算“安徽”和“安徽省”的近鄰詞集合點集的持續(xù)性圖,設置參數ripsfiltration設置為3時,得出其一部分拓撲特征的生存期如表1和2所示,其中,每列數據對應一次生存和消亡,loops列表示生存和消亡周期的次數,birth列表示生存時間點,death列表示消亡時刻點:No.(times)loopsbirthdeath[501,]118.51605221.000000[502,]118.69264821.000000[503,]119.52449521.000000[504]119.81326721.000000[505,]120.06221521.000000表1:“安徽”近鄰詞集合的拓撲特征的生存期No.(times)loopsbirthdeath[501,]118.69264821.000000[502,]120.31047521.000000[503,]120.37650421.000000[504]120.53692421.000000[505,]116.15551519.688889表2:“安徽省”近鄰詞集合的拓撲特征的生存期在分別確定所述第一近鄰詞集合和所述第二近鄰詞集合拓撲特征的生存期之后,即在確定環(huán)和連通體這兩個特征的出現(xiàn)時刻,消亡時刻之后,再對所述第一近鄰詞集合和所述第二近鄰詞集合的拓補特征進行可視化,生成拓補特征圖,再比對所述第一近鄰詞集合和所述第二近鄰詞集合的拓補特征圖,以計算出所述第一近鄰詞集合和所述第二近鄰詞集合的環(huán)相似度和連通圖相似度。例如,基于拓撲數據分析的方法計算“縣令”和“知縣”的近鄰詞集合點集的環(huán)和連通性圖拓撲特征的生存期,再進行可視化,分別生成圖5和圖6的拓補特征圖,其中,圖5的三張圖為“縣令”近鄰詞集合的拓補特征圖,描述其環(huán)和連通體兩個特征的出現(xiàn)時刻和消亡時刻,其中,最右側圖的縱坐標為生成的拓補特征序列。圖6的三張圖為“知縣”近鄰詞集合的拓補特征圖,描述其環(huán)和連通體兩個特征的出現(xiàn)時刻和消亡時刻,其中,最右側圖的縱坐標為生成的拓補特征序列。由圖5和圖6可見,“縣令”近鄰詞集合的三張圖和“知縣”近鄰詞集合的三張圖非常接近,通過現(xiàn)有比對算法,可比對計算出,“縣令”和“知縣”的近鄰詞集合的環(huán)相似度是0.6703212,連通體圖相似度是3.40197。再例如,基于拓撲數據分析的方法計算“麻雀”和“金絲雀”的近鄰詞集合點集的環(huán)和連通性圖拓撲特征的生存期,再進行可視化,分別生成圖7和圖8的拓補特征圖,其中,圖7的三張圖為“麻雀”近鄰詞集合的拓補特征圖,描述其環(huán)和連通體兩個特征的出現(xiàn)時刻和消亡時刻,其中,最右側圖的縱坐標為生成的拓補特征序列。圖8的三張圖為“金絲雀”近鄰詞集合的拓補特征圖,描述其環(huán)和連通體兩個特征的出現(xiàn)時刻和消亡時刻,其中,最右側圖的縱坐標為生成的拓補特征序列。由圖7和圖8可見,“麻雀”近鄰詞集合的三張圖和“金絲雀”近鄰詞集合的三張圖差異很大,通過現(xiàn)有比對算法,可比對計算出,“麻雀”和“金絲雀”的近鄰詞集合的環(huán)相似度是0.9837349,連通體圖相似度是7.778811。在確定了環(huán)相似度和連通圖相似度后,需要根據環(huán)相似度和連通圖相似度確定所述第一詞和所述第二詞是否為同義詞,在本申請實施例中,所述根據所述相似度確定所述第一詞和所述第二詞是否為同義詞,包括:當所述環(huán)相似度小于等于預設環(huán)相似度值,且所述連通圖相似度小于等于預設連通圖相似度時,所述第一詞和所述第二詞為同義詞;當所述環(huán)相似度大于所述預設環(huán)相似度值,和/或所述連通圖相似度大于所述預設連通圖相似度時,所述第一詞和所述第二詞為非同義詞。具體來講,經發(fā)明人研究發(fā)現(xiàn),兩個持續(xù)性圖的環(huán)相似度和連通圖相似度值近似服從高斯分布,同義詞對的相似度較小,方差較??;非同義詞對,即噪音詞對的相似度數值較大,方差也較大。進一步,為了獲得更準確的同義詞對確定結果,本申請設置:環(huán)相似度為0.5~1.0,且連通圖相似度為2.5~3.5時,所述第一詞和所述第二詞為同義詞;環(huán)相似度均值大于1.0,且連通圖相似度大于3.5時,所述第一詞和所述第二詞為非同義詞,即噪音詞對。例如:如表3和表4所示,其中,表3為篩選出的同義詞對,表4為篩選出的噪音詞對。詞對環(huán)相似度連通圖相似度安徽~安徽省0.69126773.194666縣令~知縣0.67032123.40197友情~友誼0.53156222.716811表3:同義詞對表4:噪音詞對可見,采用根據拓補數據分析方法,比對持續(xù)性圖確定同義詞對和篩除噪音詞對的準確率很高。第二種,比對杰卡德(Jaccard)相似度。即所述比對所述第一近鄰詞集合與所述第二近鄰詞集合的相似度,獲得比對結果,包括:計算所述第一近鄰詞集合與所述第二近鄰詞集合的Jaccard相似度,以所述杰卡德相似度作為所述比對結果。需要說明的是,采用Jaccard相似度比對所述第一近鄰詞集合和所述第二近鄰詞集合來確定同義詞dngamer也是優(yōu)于現(xiàn)有同義詞確定方法的,但可擴展性和準確度不如前述第一種,根據拓補數據分析方法,比對持續(xù)性圖確定同義詞。第三種,比對相同詞數量。即比對所述第一近鄰詞集合和所述第二近鄰詞集合中有多少數量的相同詞語,根據相同詞語的數量來確定所述第一詞和所述第二詞是否為同義詞。例如,先設置近鄰詞集合的詞語數量為500,則相同詞語數量大于350時,確認為同義詞對,反之為噪音詞對。各取500個近鄰詞構建“安徽”和“安徽省”的近鄰詞集合,經比對,兩個近鄰詞集合中有400個詞相同,確定“安徽”和“安徽省”為同義詞對。各取500個近鄰詞構建“麻雀”和“金絲雀”的近鄰詞集合,經比對,兩個近鄰詞集合中有150個詞相同,確定“麻雀”和“金絲雀”為噪音詞對。當然,在具體實施過程中,比對近鄰詞集合來確定是否為同義詞的方法很多,不限于以上三種,根據準確度、計算時間、數據處理能力或全局信息量等要求的不同,可以選擇采用不同的近鄰詞集合比對方法來確定同義詞,在此不作限制。在介紹了本實施例提供的方法的詳細流程后,為了便于進一步理解本實施例提供的方法的具體實施過程,下面,以一具體實例來說明本申請?zhí)峁┓椒ǖ耐暾麑嵤┝鞒蹋菏紫?,基于共同點擊的挖掘方法,從至當前一年內的搜索引擎的查詢會話日志中挖掘出查詢項數據,獲取點擊了同一個文檔的查詢項對。其中,將所述查詢項數據輸出到query.txt文本,query.txt文本中每行記錄一個查詢項和查詢項的搜索次數;將所述查詢項對輸出到query_url_clicked.txt文本,query_url_clicked.txt文本中每行記錄一個查詢項對和查詢項對的點擊次數,具體記錄格式如:query\turl\tclick_count;然后,對query.txt文本進行分詞和詞嵌入訓練,即將中文分詞后的語料直接用于詞嵌入訓練,得到兩份300維的詞向量文件term_w2v_300.dict,包含約1000萬個詞語的詞向量,詞嵌入訓練的參數是“-cbow1-size300-window8-negative25-hs0-sample1e-4-threads24-binary0-iter15”。同樣,對query_url_clicked.txt文本也按該方法進行分詞和詞嵌入訓練。接下來,通過query_url_clicked.txt文本,分別統(tǒng)計qwei和dwei兩個指標。其中,qwei是指查詢項對應的點擊網頁的權重分布,dwei是指網頁在指定查詢項下的權重分布,具體來講,共同點擊相同網頁的查詢項形成一個查詢項集合,qwei表達一個查詢項在查詢項集合中的權重。dwei是指網頁的權重,即網頁在指定查詢項下的權重分布。在點擊同一個網頁的查詢項集合內,兩兩組合查詢項,形成若干個查詢項對,根據qwei和dwei計算查詢項對的語義相關度qqwei,作為潛在同義詞對的相似度,并記錄所述相似度,生成query_query_pair.txt文件。其中,語義相關度qqwei的計算方法為:先計算出第一查詢項的qwei和dwei,其中,其中,click_count為查詢項給網頁帶來的點擊次數,search_count為查詢項給網頁帶來的搜索展示次數,q是表征查詢項,d是表征網頁,co-click_url是表征有共同點擊的查詢項集合,url_clicked是表征相同查詢項點擊的網頁集合。再采用同樣方法計算出第二查詢項的qwei和dwei,通過公式計算出第一查詢項和第二查詢項的相似度,其中,i上表表征第一查詢項的參數,j上標表征第二查詢項的參數。將相似度稿的查詢項作為潛在查詢項對。再下來,將潛在查詢項對對齊,提取出潛在同義詞對,如潛在查詢項對,“海米怎樣吃最好吃”和“請問蝦仁怎樣做最好吃”,對齊后如圖9所示,得到兩組潛在同義詞對,分別是“海米、蝦仁”和“吃、做”,其中后者屬于上下文相關的同義詞對,在“怎樣、最好吃”等上下文中才有可能是同義詞對。第二個查詢項中的“請問”找不到對齊的詞,作為上下文信息。然后,輸出潛在同義詞對和潛在的上下文信息,生成文件latent_synom_align.txt,行格式為“synom_word_1\tsynom_word_2\tcontext_word\talign_wei”,其中,synom_word_1和tsynom_word_2為潛在同義詞對,context_word為上下文相關詞,align_wei為上下文相關詞與所述潛在同義詞對的關聯(lián)權重,例如圖9對齊得到的潛在同義詞對輸出為“海米蝦仁請問0.0018”、“海米蝦仁怎樣0.0071”、“海米蝦仁最好吃0.0194”,align_wei的計算方法為query_query_pairs是表征相同查詢項對集合。在確定出潛在同義詞對“海米”和“蝦仁”后,執(zhí)行步驟S101,使用KNN算法生成“海米”的近鄰詞集合和“蝦仁”的近鄰詞集合,近鄰詞集合對應著拓撲學中的點集,可以選擇前500個近鄰詞構造雙方的點集。然后,執(zhí)行步驟S102,將“海米”的近鄰詞集合和“蝦仁”的近鄰詞集合映射到300維的高維空間中,每個詞語就是其中的一個點,基于拓撲數據分析的方法計算兩個點集的持續(xù)性圖,獲得其環(huán)和連通體圖兩個拓補特征的出現(xiàn)時刻和消亡時刻數據;再將其環(huán)和連通體圖兩個拓補特征可視化后,計算出“海米”的近鄰詞集合和“蝦仁”的近鄰詞集合的環(huán)相似度為0.6258321,連通體圖相似度為3.27691;最后執(zhí)行步驟S103,分析0.6258321小于1,且3.27691小于3.5,故確定“海米”和“蝦仁”為同義詞。具體來講,本申請?zhí)峁┑姆椒ňC合考慮詞對的全局性信息,對有潛在同義關系的兩個詞,分別構造各自的近鄰詞集合,通過比對近鄰詞集合的相似度來確定兩個詞是否為同義詞,相較傳統(tǒng)僅比較兩個詞本身的局部特征,更具準確性。基于同一發(fā)明構思,本發(fā)明實施例還提供了實施例一中方法對應的裝置,見實施例二。實施例二本實施例提供一種同義詞的挖掘裝置,如圖10所示,包括:生成模塊1001,用于生成第一詞的第一近鄰詞集合和第二詞的第二近鄰詞集合,其中,所述第一詞與所述第一近鄰詞集合中的詞的相關性滿足預設要求,所述第二詞與所述第二近鄰詞集合中的詞的相關性滿足所述預設要求;比對模塊1002,用于比對所述第一近鄰詞集合與所述第二近鄰詞集合的相似度,獲得比對結果;確定模塊1003,用于根據所述比對結果,確定所述第一詞和所述第二詞是否為同義詞。在本申請實施例中,所述裝置還包括:挖掘模塊,用于挖掘出第一查詢項和第二查詢項,其中,所述第一查詢項與所述第二查詢項對應有相同的點擊文檔;提取模塊,用于比對所述第一查詢項和所述第二查詢項,從所述第一查詢項和所述第二查詢項中分別提取出所述第一詞和所述第二詞。在本申請實施例中,所述生成模塊1001還用于:根據最鄰近算法,生成第一詞的第一近鄰詞集合和第二詞的第二近鄰詞集合。在本申請實施例中,所述比對模塊1002還用于:根據拓補數據分析方法,生成所述第一近鄰詞集合的第一持續(xù)性圖和所述第二近鄰詞集合的第二持續(xù)性圖;計算所述第一持續(xù)性圖和所述第二持續(xù)性圖的相似度,以所述相似度作為所述比對結果。在本申請實施例中,所述比對模塊1002還用于:計算所述第一持續(xù)性圖和所述第二持續(xù)性圖的環(huán)相似度和連通圖相似度。在本申請實施例中,所述確定模塊1003還用于:當所述環(huán)相似度小于等于預設環(huán)相似度值,且所述連通圖相似度小于等于預設連通圖相似度時,所述第一詞和所述第二詞為同義詞;當所述環(huán)相似度大于所述預設環(huán)相似度值,和/或所述連通圖相似度大于所述預設連通圖相似度時,所述第一詞和所述第二詞為非同義詞。在本申請實施例中,所述比對模塊1002還用于:計算所述第一近鄰詞集合與所述第二近鄰詞集合的杰卡德相似度,以所述杰卡德相似度作為所述比對結果。由于本發(fā)明實施例二所介紹的裝置,為實施本發(fā)明實施例一的同義詞的挖掘方法所采用的裝置,故而基于本發(fā)明實施例一所介紹的方法,本領域所屬人員能夠了解該裝置的具體結構及變形,故而在此不再贅述。凡是本發(fā)明實施例一的方法所采用的裝置都屬于本發(fā)明所欲保護的范圍。本申請實施例中提供的技術方案,至少具有如下技術效果或優(yōu)點:本申請實施例提供的方法及裝置,利用詞語的全局性信息,生成詞語對中每個詞的近鄰詞集合,再從整體上比較各個詞的近鄰詞集合的相似度,從而判斷所述詞語對是否為同義詞對,有效的提升了同義詞挖掘的準確率,進一步,該方法可以與當前的各種同義詞挖掘方法結合使用,可擴展性好。在此提供的算法和顯示不與任何特定計算機、虛擬系統(tǒng)或者其它設備固有相關。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據上面的描述,構造這類系統(tǒng)所要求的結構是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應當明白,可以利用各種編程語言實現(xiàn)在此描述的本發(fā)明的內容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實施方式。在此處所提供的說明書中,說明了大量具體細節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細節(jié)的情況下實踐。在一些實例中,并未詳細示出公知的方法、結構和技術,以便不模糊對本說明書的理解。類似地,應當理解,為了精簡本公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應將該公開的方法解釋成反映如下意圖:即所要求保護的本發(fā)明要求比在每個權利要求中所明確記載的特征更多的特征。更確切地說,如下面的權利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此,遵循具體實施方式的權利要求書由此明確地并入該具體實施方式,其中每個權利要求本身都作為本發(fā)明的單獨實施例。本領域那些技術人員可以理解,可以對實施例中的設備中的模塊進行自適應性地改變并且把它們設置在與該實施例不同的一個或多個設備中。可以把實施例中的模塊或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。此外,本領域的技術人員能夠理解,盡管在此的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內并且形成不同的實施例。例如,在下面的權利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領域的技術人員應當理解,可以在實踐中使用微處理器或者數字信號處理器(DSP)來實現(xiàn)根據本發(fā)明實施例的網關、代理服務器、系統(tǒng)中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設備或者裝置程序(例如,計算機程序和計算機程序產品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網網站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。應該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領域技術人員在不脫離所附權利要求的范圍的情況下可設計出替換實施例。在權利要求中,不應將位于括號之間的任何參考符號構造成對權利要求的限制。單詞“包含”不排除存在未列在權利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。當前第1頁1 2 3 
當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
城固县| 绿春县| 化州市| 湘潭市| 柘城县| 南汇区| 陈巴尔虎旗| 梓潼县| 富顺县| 于都县| 铅山县| 独山县| 苍山县| 云南省| 平罗县| 汾阳市| 灵石县| 宝清县| 兰考县| 上蔡县| 察雅县| 陕西省| 江北区| 敦化市| 固阳县| 中山市| 突泉县| 衡阳市| 富顺县| 黔西县| 巍山| 华容县| 海安县| 桂林市| 林州市| 顺昌县| 玉山县| 新和县| 佳木斯市| 长治县| 云林县|