提取頁面中關(guān)鍵詞的方法及裝置的制造方法
【技術(shù)領域】
[0001]本發(fā)明涉及計算機網(wǎng)絡領域,更為具體而言,涉及一種提取頁面中關(guān)鍵詞的方法及裝置。
【背景技術(shù)】
[0002]隨著網(wǎng)絡的發(fā)展,人們可以通過網(wǎng)絡處理越來越多的事情,然而,用戶在面對查詢各類信息的時候,需要以關(guān)鍵詞作為搜索內(nèi)容,如果可以對頁面中的關(guān)鍵詞進行科學的提取和應用,將使查詢效果得到事半功倍的改善。
[0003]現(xiàn)有技術(shù)中分析提取關(guān)鍵詞需要依賴先驗知識,比如需要切詞,需要詞性標注,需要停用詞詞典,這些自然語言類的處理邏輯需要積累詞庫才能開展。常用的有基于統(tǒng)計的TF-1DF(term frequency-1nverse document frequency,S卩一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù))統(tǒng)計方法,有基于機器學習的,有基于語義的。傳統(tǒng)的關(guān)鍵詞統(tǒng)計方法一般利用網(wǎng)頁內(nèi)容特征和詞語詞性特征,通過TF-1DF公式來計算出核心的關(guān)鍵詞,這種方法在推廣到國際語言的時的問題是要有先驗知識庫,這構(gòu)成了比較大的障礙,從而導致現(xiàn)有技術(shù)的關(guān)鍵詞提取方法通用性低、不夠智能和處理效率低的問題。
[0004]因此,為了解決現(xiàn)有技術(shù)中通用關(guān)鍵詞提取在國際化語言上無法工作的問題,亟需一種通用性更強且智能高效的提取頁面中關(guān)鍵詞的方法及裝置。
【發(fā)明內(nèi)容】
[0005]為了解決現(xiàn)有技術(shù)中通用關(guān)鍵詞提取在國際化語言上無法工作,從而導致現(xiàn)有技術(shù)中關(guān)鍵詞提取技術(shù)的通用性低、不夠智能和處理效率低的問題,本發(fā)明的實施方式提供了一種提取頁面中關(guān)鍵詞的方法及裝置。
[0006]一方面,本發(fā)明實施方式提供了一種提取頁面中關(guān)鍵詞的方法,所述方法包括:
[0007]對頁面的標題內(nèi)容進行字符串分析得到候選詞,得到的所述候選詞構(gòu)成候選詞查找表;
[0008]對所述頁面進行頁面分析得到文字組合,得到的所述文字組合構(gòu)成短串集合;
[0009]對所述短串集合進行字符串分析得到字符串,得到的字符串構(gòu)成原始權(quán)重池;
[0010]按照所述原始權(quán)重池中每個所述字符串包含單詞個數(shù)的順序,由所述字符串向所述候選詞查找表中的候選詞進行權(quán)重投票,如果所述字符串與候選詞查找表中的候選詞匹配一致,則增加所述候選詞的權(quán)重值;
[0011]按照所述候選字的權(quán)重值從大到小進行排序,則根據(jù)所述排序?qū)?quán)重值排序靠前的預定數(shù)目的所述候選詞提取為關(guān)鍵詞。
[0012]另一方面,本發(fā)明實施方式還提供了一種提取頁面中關(guān)鍵詞的裝置,所述裝置包括:
[0013]候選詞查找表構(gòu)建模塊,用于對頁面的標題內(nèi)容進行字符串分析得到候選詞,得到的所述候選詞構(gòu)成候選詞查找表;
[0014]短串集合模塊,用于對所述頁面進行頁面分析得到文字組合,得到的所述文字組合構(gòu)成短串集合;
[0015]原始權(quán)重池模塊,用于對所述短串集合進行字符串分析得到字符串,得到的字符串構(gòu)成原始權(quán)重池;
[0016]權(quán)重投票模塊,用于按照所述原始權(quán)重池中每個所述字符串包含單詞個數(shù)的順序,由所述字符串向所述候選詞查找表中的候選詞進行權(quán)重投票,如果所述字符串與候選詞查找表中的候選詞匹配一致,則增加所述候選詞的權(quán)重值;
[0017]關(guān)鍵詞提取模塊,用于按照所述候選字的權(quán)重值從大到小進行排序,則根據(jù)所述排序?qū)?quán)重值排序靠前的預定數(shù)目的所述候選詞提取為關(guān)鍵詞。
[0018]實施本發(fā)明的各種實施方式具有以下有益效果:可解決現(xiàn)有技術(shù)中關(guān)鍵詞提取在國際化語言上無法工作的問題,提高關(guān)鍵詞提取技術(shù)的通用性,使提取關(guān)鍵詞的方式更加智能和高效。
【附圖說明】
[0019]圖1是根據(jù)本發(fā)明實施方式的提取頁面中關(guān)鍵詞的方法的流程圖;
[0020]圖2示出了圖1所示方法的步驟S4的具體流程圖;
[0021]圖3是根據(jù)本發(fā)明實施方式的提取頁面中關(guān)鍵詞的裝置I的架構(gòu)圖;
[0022]圖4示出了圖3所示的候選詞查找表構(gòu)建模塊100的框圖;
[0023]圖5示出了圖3所示的短串集合模塊200的框圖。
【具體實施方式】
[0024]以下結(jié)合附圖和【具體實施方式】對本發(fā)明的各個方面進行詳細闡述。其中,眾所周知的模塊、單元及其相互之間的連接、鏈接、通信或操作沒有示出或未作詳細說明。并且,所描述的特征、架構(gòu)或功能可在一個或一個以上實施方式中以任何方式組合。本領域技術(shù)人員應當理解,下述的各種實施方式只用于舉例說明,而非用于限制本發(fā)明的保護范圍。還可以容易理解,本文所述和附圖所示的各實施方式中的模塊或單元或處理方式可以按各種不同配置進行組合和設計。
[0025]圖1是根據(jù)本發(fā)明實施方式的提取頁面中關(guān)鍵詞的方法的流程圖;參見圖1,所述方法包括:
[0026]SI,對頁面的標題內(nèi)容進行字符串分析得到候選詞,得到的所述候選詞構(gòu)成候選詞查找表;其中,通過NGram(N元法)的方法進行所述字符串分析,將標題內(nèi)容拆解為多個字符串,每個所述字符串作為一個候選詞。例如:通過NGram的方法可將標題內(nèi)容“ABC”進行分析,并拆解為以下多個字符串組合:“ABC”、“AB ”、“BC”、“A,,、“B ”和“ C” ;
[0027]S2,對所述頁面進行頁面分析得到文字組合,得到的所述文字組合構(gòu)成短串集合;具體而言,分析所述頁面中的文字內(nèi)容(包括頁面鏈接和標題內(nèi)容等),將所述文字內(nèi)容與所述候選詞關(guān)聯(lián)的文字組合(例如國家主席習近平出席XX會議”或“習近平訪美”等)構(gòu)成短串集合(例如國家主席”、“習近平”、“XX會議”和“訪美”等);
[0028]S3,對所述短串集合進行字符串分析得到字符串,得到的字符串構(gòu)成原始權(quán)重池,其形式可表示為(“A,1”,“C,I”)或類似的形式,其中“I”表示該字符串出現(xiàn)的次數(shù);
[0029]S4,按照所述原始權(quán)重池中每個所述字符串包含單詞個數(shù)的順序,由所述字符串向所述候選詞查找表中的候選詞進行權(quán)重投票,如果所述字符串與候選詞查找表中的候選詞匹配一致,則增加所述候選詞的權(quán)重值(例如:所述候選詞的權(quán)重值加1,但不限于此,權(quán)重值可以增加其他數(shù)量);
[0030]S5,按照所述候選字的權(quán)重值從大到小進行排序(但不限于按照從大到小的排序順序,也可以按照其他方式進行排序,例如權(quán)重值從小到大的順序等),則根據(jù)所述排序?qū)?quán)重值排序靠前的預定數(shù)目(例如:第一位或前N位)的所述候選詞提取為關(guān)鍵詞,其中預定數(shù)目的選擇可根據(jù)實際需要自行設定。
[0031]通過采用本發(fā)明實施方式所述的方法可解決現(xiàn)有技術(shù)中關(guān)鍵詞提取在國際化語言上無法工作的問題,提高關(guān)鍵詞提取技術(shù)的通用性,使提取關(guān)鍵詞的方式更加智能和高效。
[0032]圖2示出了圖1所示方法的步驟S4的具體流程圖;參見圖2,所述步驟S4包括:
[0033]S41,按照原始權(quán)重池中每個所述字符串包含單詞個數(shù)由多至少的順序排列所述字符串,例如:字符串“ABC”的排列順序為“ABC”、“AB”、“BC”、“A”、“B”和“C,,;
[0034]S42,由所述字符串向所述候選詞查找表中的候選詞進行權(quán)重投票,如果所述字符串“ABC”與候選詞查找表中的候選詞“ABC”匹配一致,則所述候選詞“ABC”的權(quán)重值加I ;
[0035]S43,當所述字符串中較長的字符串向所述候選詞投票成功時,其包含的各個較短字符串則不再進行投票,也就是說,如果字符串“ABC”匹配成功,則其包含的各個較短字符串(“AB”、“BC”、“A”、“B”和“C”)則不再進行投票。從而避免了較短字符串的重復投票,提高了較長字符串的匹配率和權(quán)重值的準確性。
[0036]圖3是根據(jù)本發(fā)明實施方式的提取頁面中關(guān)鍵詞的裝置I的架構(gòu)圖;參見圖3,所述裝置I包括:
[0037]候選詞查找表構(gòu)建模塊100,用于對頁面的標題內(nèi)容進行字符串分析得到候選詞,得到的所述候選詞構(gòu)成候選詞查找表;
[0038]短串集合模塊200,用于對所述頁面進行頁面分析得到文字組合,得到的所述文字組合構(gòu)成短串集合;
[0039]原始權(quán)重池模塊300,用于對所述短串集合進行字符串分析