欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

詞與網(wǎng)頁的關(guān)聯(lián)度計算方法及裝置的制造方法

文檔序號:9929514閱讀:508來源:國知局
詞與網(wǎng)頁的關(guān)聯(lián)度計算方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及爬詞技術(shù)領(lǐng)域,具體的涉及一種詞與網(wǎng)頁的關(guān)聯(lián)度計算方法及裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的快速發(fā)展,每天都有海量新聞資訊產(chǎn)生,這些信息在互聯(lián)網(wǎng)上以 HTML網(wǎng)頁文檔的形式進(jìn)行傳播。但是海量的信息對用戶高效的檢索和獲取信息帶來了極大 挑戰(zhàn),各種搜索引擎與推薦系統(tǒng)等應(yīng)用的出現(xiàn)為其提供了有效的途徑,而建立詞與網(wǎng)頁之 間的關(guān)聯(lián)關(guān)系是這些應(yīng)用的基礎(chǔ)。詞與網(wǎng)頁之間的關(guān)聯(lián)關(guān)系通過關(guān)聯(lián)度來表示其關(guān)聯(lián)關(guān)系 的大小,目前詞與網(wǎng)頁之間的關(guān)聯(lián)度主要以詞在網(wǎng)頁正文中的TF-IDF(詞頻-逆向文件頻 率)值來表示。
[0003] 現(xiàn)有的以詞在網(wǎng)頁正文中的TF-IDF值作為文本的關(guān)聯(lián)度計算方法存在以下缺點: 1、需要在文本集合上計算,所得結(jié)果易受文本集的內(nèi)容影響;2、IDF(逆文本頻度)的簡單結(jié) 構(gòu)不能有效地反映詞的重要程度和分布情況,作為關(guān)聯(lián)度精度不高;3、只考慮了網(wǎng)頁正文 詞的統(tǒng)計信息,忽略了網(wǎng)頁標(biāo)題所包含的與網(wǎng)頁最相關(guān)的詞信息。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的在于提供一種詞與網(wǎng)頁的關(guān)聯(lián)度計算方法及裝置,該發(fā)明解決了現(xiàn) 有技術(shù)中關(guān)聯(lián)度計算結(jié)果易受文本集的內(nèi)容影響、IDF關(guān)聯(lián)度計算精度不高、忽略網(wǎng)頁標(biāo)題 所含信息的技術(shù)問題。
[0005] 本發(fā)明的一方面提供一種詞與網(wǎng)頁的關(guān)聯(lián)度計算方法,包括以下步驟:
[0006] 步驟S100:讀取網(wǎng)頁的標(biāo)題和正文內(nèi)容,進(jìn)行分詞及詞性標(biāo)注,得到正文詞列表 130(171^81:和標(biāo)題詞列表1:;[1:161^81:,對正文分詞列表130(171^81:和標(biāo)題分詞列表1:;[1:161^81:分 別進(jìn)行過濾預(yù)處理;
[0007] 步驟S200:構(gòu)建詞連接集合1 inkMap;
[0008] 步驟S300:根據(jù)標(biāo)題詞列表titleList對詞連接集合linkMap進(jìn)行修正,得到修正 詞連接集合,利用修正詞連接集合計算網(wǎng)頁中每個詞的TextRank得分,得到每個詞的得分 集合scoreMap,過濾得分集合scoreMap中的常用詞,余下的得分集合scoreMap中的詞及其 TextRank得分,即為詞與網(wǎng)頁的關(guān)聯(lián)度。
[0009] 進(jìn)一步地,詞連接集合1 inkMap的構(gòu)建包括以下步驟:
[0010] 步驟S210:初始化隊列queue、詞連接集合linkMap和窗口大小N,遍歷正文詞列表 bodyList,將第i個詞A加入隊列queue的尾部,若隊列queue的長度大于N,則將隊列queue的 隊首元素刪除,若第i個詞A不包含于詞連接集合linkMap中,則將第i個詞A加入詞連接集合 linkMap中并設(shè)置第i個詞A的值為空集合;步驟S220:對隊列queue中的所有任兩元素進(jìn)行 比較,如果二者不相同則分別加入任兩詞連接集合linkMap的連接詞集合中;步驟S230:遍 歷正文詞列表bodyList,重復(fù)步驟S210~S220得到詞連接集合linkMap。
[0011] 進(jìn)一步地,過濾預(yù)處理步驟包括過濾停用詞,并保留名詞、動詞、形容詞及副詞。
[0012] 進(jìn)一步地,步驟S300包括以下步驟:
[0013] 步驟S310:計算詞連接集合linkMap中每個詞的連接詞集合大小的平均值記為M, 從詞連接集合linkMap中選取前M個連接詞集合最大的詞構(gòu)建詞集合reviseSet;
[0014] 步驟S320:遍歷標(biāo)題詞列表titleList中的標(biāo)題詞,若標(biāo)題詞不包含于詞連接集合 linkMap中,則將標(biāo)題詞加入詞連接集合linkMap并將詞集合reviseSet中的所有詞加入到 標(biāo)題詞的連接詞集合中;
[0015] 若標(biāo)題詞包含于詞連接集合linkMap中,則將詞集合reviseSet中除標(biāo)題詞之外的 所有詞加入標(biāo)題詞的連接詞集合中;
[0016] 步驟S330:遍歷reviseSet判斷其中每個詞是否是標(biāo)題詞,如果該詞不是標(biāo)題詞, 則將標(biāo)題詞加入該詞在詞連接集合1 inkMap中對應(yīng)的連接詞集合;否則,不做處理;
[0017] 步驟S340:遍歷標(biāo)題詞列表titleList,重復(fù)步驟S310~330得到修正詞連接集合。
[0018] 進(jìn)一步地,TextRank得分WS(Vi)的計算公式為:
[0020]其中,d為阻尼系數(shù),Vi表示詞連接集合linkMap中的第i個詞,Wji表示詞連接集合 linkMap中第i個詞與第j個詞的連接權(quán)重,In(Vi)表示詞連接集合linkMap中第i個詞的連 接詞集合,Out (Vj)表示linkMap第j個詞的連接詞集合,WS(Vj)表示第linkMap中第j個詞的 TextRank 得分。
[0021]本發(fā)明的另一方面還提供了一種如上述方法用的詞與網(wǎng)頁的關(guān)聯(lián)度計算裝置,包 括:
[0022]分詞預(yù)處理模塊,用于讀取網(wǎng)頁的標(biāo)題和正文內(nèi)容,進(jìn)行分詞及詞性標(biāo)注,得到正 文詞列表bodyList和標(biāo)題詞列表titleList,對正文分詞列表bodyList和標(biāo)題分詞列表 titleList分別進(jìn)行過濾預(yù)處理;
[0023]詞連接計算模塊:用于構(gòu)建詞連接集合linkMap,以鍵值對形存儲,其中鍵為正文 分詞列表body Li s t中的當(dāng)前詞,值為與當(dāng)前詞有連接關(guān)系的連接詞集合;
[0024]關(guān)聯(lián)度計算模塊,用于根據(jù)標(biāo)題詞列表titleList對詞連接集合linkMap進(jìn)行修 正,得到修正詞連接集合,利用修正詞連接集合計算網(wǎng)頁中每個詞的TextRank得分,得到每 個詞的得分集合scoreMap,過濾得分集合scoreMap中的常用詞,余下的得分集合scoreMap 中的詞及其TextRank得分,即為詞與網(wǎng)頁的關(guān)聯(lián)度。
[0025] 進(jìn)一步地,TextRank得分WS(Vi)的計算公式為:
[00Z7]其中,d為阻尼系數(shù),Vi表示詞連接集合linkMap中的第i個詞,wji表示詞連接集合 linkMap中第i個詞與第j個詞的連接權(quán)重,In(Vi)表示詞連接集合linkMap中第i個詞的連 接詞集合,Out (Vj)表示linkMap第j個詞的連接詞集合,WS(Vj)表示第linkMap中第j個詞的 TextRank 得分。
[0028]本發(fā)明的技術(shù)效果:
[0029] 本發(fā)明提供一種詞與網(wǎng)頁的關(guān)聯(lián)度計算方法,將標(biāo)題與正文的詞信息同時用于關(guān) 聯(lián)度計算,并且采用詞得分作為關(guān)聯(lián)度的度量,可以提升詞與網(wǎng)頁關(guān)聯(lián)度的精度,并且對單 個網(wǎng)頁內(nèi)容進(jìn)行直接計算因此不受文本集合內(nèi)容的影響。
[0030] 本發(fā)明提供一種詞與網(wǎng)頁的關(guān)聯(lián)度計算裝置,采用TextRank得分作為關(guān)聯(lián)度,可 有效地反映詞與網(wǎng)頁的關(guān)聯(lián)關(guān)系,將標(biāo)題的詞用于修正基于正文的詞構(gòu)建的詞連接集合, 并使用修正后的詞連接集合計算詞的TextRank得分,充分考慮了標(biāo)題在網(wǎng)頁信息中的重要 性,有利于提升關(guān)聯(lián)精度?;趩蝹€網(wǎng)頁內(nèi)容計算,使得所得結(jié)果不受網(wǎng)頁之間內(nèi)容的影 響。
[0031]具體請參考根據(jù)本發(fā)明的詞與網(wǎng)頁的關(guān)聯(lián)度計算方法及裝置提出的各種實施例 的如下描述,將使得本發(fā)明的上述和其他方面顯而易見。
【附圖說明】
[0032] 圖1是本發(fā)明優(yōu)選實施例詞與網(wǎng)頁的關(guān)聯(lián)度計算方法的流程示意圖;
[0033] 圖2是本發(fā)明優(yōu)選實施例詞與網(wǎng)頁的關(guān)聯(lián)度計算裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0034] 構(gòu)成本申請的一部分的附圖用來提供對本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實 施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。
[0035] 參見圖1,本發(fā)明一方面提供了一種詞與網(wǎng)頁的關(guān)聯(lián)度計算方法,包括以下步驟: [0036] 步驟S100:讀取網(wǎng)頁的標(biāo)題和正文內(nèi)容,進(jìn)行分詞及詞性標(biāo)注,得到正文詞列表 130(171^81:和標(biāo)題詞列表1:;[1:161^81:,對正文分詞列表130(171^81:和標(biāo)題分詞列表1:;[1:161^81:分 別進(jìn)行過濾預(yù)處理;
[0037] 步驟S200:構(gòu)建詞連接集合1 inkMap;
[0038] 步
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
桐乡市| 祁门县| 平原县| 乐昌市| 焉耆| 靖江市| 阿城市| 青神县| 多伦县| 琼海市| 武冈市| 双牌县| 大姚县| 永昌县| 岳阳市| 江华| 思茅市| 高密市| 辉南县| 江北区| 股票| 南陵县| 雅江县| 天祝| 海淀区| 西盟| 昌黎县| 共和县| 西充县| 辽宁省| 洪洞县| 湘西| 泰来县| 陇川县| 宁海县| 新邵县| 台江县| 内黄县| 罗山县| 双鸭山市| 会昌县|