欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

對(duì)網(wǎng)頁(yè)中高頻關(guān)鍵詞進(jìn)行聚類(lèi)的方法及裝置與流程

文檔序號(hào):12007846閱讀:來(lái)源:國(guó)知局
對(duì)網(wǎng)頁(yè)中高頻關(guān)鍵詞進(jìn)行聚類(lèi)的方法及裝置與流程

技術(shù)特征:
1.一種對(duì)多個(gè)網(wǎng)頁(yè)中高頻關(guān)鍵詞進(jìn)行聚類(lèi)的方法,其特征在于,包括:抓取所述多個(gè)網(wǎng)頁(yè)對(duì)應(yīng)的多個(gè)網(wǎng)頁(yè)文檔;對(duì)抓取到的所述多個(gè)網(wǎng)頁(yè)文檔中的各個(gè)網(wǎng)頁(yè)文檔進(jìn)行分詞以獲取多個(gè)詞語(yǔ);確定各個(gè)網(wǎng)頁(yè)文檔對(duì)應(yīng)的關(guān)鍵詞組合,其中,所述關(guān)鍵詞組合包括表征對(duì)應(yīng)網(wǎng)頁(yè)文檔內(nèi)容的關(guān)鍵詞;從多個(gè)關(guān)鍵詞組合中獲取高頻關(guān)鍵詞,其中,所述高頻關(guān)鍵詞為多個(gè)關(guān)鍵詞組合中在預(yù)設(shè)時(shí)間周期內(nèi)滿(mǎn)足預(yù)設(shè)條件的關(guān)鍵詞;以及按相似度對(duì)所述高頻關(guān)鍵詞進(jìn)行聚類(lèi),以獲得同類(lèi)高頻關(guān)鍵詞;從多個(gè)關(guān)鍵詞組合中獲取高頻關(guān)鍵詞包括:分別獲取所述多個(gè)網(wǎng)頁(yè)文檔對(duì)應(yīng)的所述關(guān)鍵詞組合中所述多個(gè)關(guān)鍵詞的訪(fǎng)問(wèn)數(shù)量,所述訪(fǎng)問(wèn)數(shù)量為在所述預(yù)設(shè)時(shí)間周期內(nèi)所述關(guān)鍵詞組合對(duì)應(yīng)網(wǎng)頁(yè)文檔的獨(dú)立訪(fǎng)客數(shù)量;以及將所述訪(fǎng)問(wèn)數(shù)量滿(mǎn)足預(yù)設(shè)數(shù)量條件的關(guān)鍵詞確定為所述多個(gè)網(wǎng)頁(yè)文檔的高頻關(guān)鍵詞;所述按相似度對(duì)所述高頻關(guān)鍵詞進(jìn)行聚類(lèi)包括:分別獲取所述多個(gè)網(wǎng)頁(yè)文檔對(duì)應(yīng)的所述關(guān)鍵詞組合中所述多個(gè)關(guān)鍵詞的訪(fǎng)問(wèn)數(shù)量,所述訪(fǎng)問(wèn)數(shù)量為在所述預(yù)設(shè)時(shí)間周期內(nèi)所述關(guān)鍵詞組合對(duì)應(yīng)網(wǎng)頁(yè)文檔的獨(dú)立訪(fǎng)客數(shù)量;獲取各關(guān)鍵詞的訪(fǎng)問(wèn)數(shù)量在所述預(yù)設(shè)時(shí)間周期內(nèi)隨時(shí)間的變化趨勢(shì);以及將所述變化趨勢(shì)的相似系數(shù)滿(mǎn)足預(yù)設(shè)系數(shù)條件的多個(gè)關(guān)鍵詞作為同類(lèi)高頻關(guān)鍵詞。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,確定各個(gè)網(wǎng)頁(yè)文檔對(duì)應(yīng)的關(guān)鍵詞組合包括:隨機(jī)組成多個(gè)當(dāng)前代詞語(yǔ)組合;計(jì)算所述多個(gè)當(dāng)前代詞語(yǔ)組合與所述網(wǎng)頁(yè)文檔的匹配程度,獲得當(dāng)前代最優(yōu)個(gè)體;對(duì)所述多個(gè)當(dāng)前代詞語(yǔ)組合進(jìn)行重組操作,得到多個(gè)新一代詞語(yǔ)組合;計(jì)算所述多個(gè)新一代詞語(yǔ)組合與所述網(wǎng)頁(yè)文檔的多個(gè)新匹配程度,獲得新一代最優(yōu)個(gè)體;判斷所述新一代最優(yōu)個(gè)體對(duì)應(yīng)的新匹配程度是否滿(mǎn)足預(yù)設(shè)匹配條件;以及在所述新匹配程度不滿(mǎn)足所述預(yù)設(shè)匹配條件時(shí),重復(fù)所述重組操作,在所述新匹配程度滿(mǎn)足所述預(yù)設(shè)匹配條件時(shí),將所述新一代最優(yōu)個(gè)體確定為所述關(guān)鍵詞組合。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,計(jì)算所述詞語(yǔ)組合與所述網(wǎng)頁(yè)文檔的匹配程度包括:獲取網(wǎng)頁(yè)文檔中的詞語(yǔ)總數(shù)量;根據(jù)詞頻和反向文檔頻計(jì)算各詞語(yǔ)的詞頻值;根據(jù)所述詞語(yǔ)組合中各詞語(yǔ)的詞頻值和所述網(wǎng)頁(yè)文檔的詞語(yǔ)總數(shù)量對(duì)所述詞語(yǔ)組合進(jìn)行矢量化,得到詞語(yǔ)組合矢量;根據(jù)所述網(wǎng)頁(yè)文檔中各詞語(yǔ)的詞頻值和所述網(wǎng)頁(yè)文檔的詞語(yǔ)總數(shù)量對(duì)所述網(wǎng)頁(yè)文檔進(jìn)行矢量化,得到文檔矢量;以及根據(jù)所述詞語(yǔ)組合矢量和所述文檔矢量的矢量參數(shù)計(jì)算所述詞語(yǔ)組合的個(gè)體適應(yīng)度,其中,所述個(gè)體適應(yīng)度作為所述匹配程度的依據(jù)。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在按相似度對(duì)所述高頻關(guān)鍵詞進(jìn)行聚類(lèi)之后,所述方法還包括:將所述同類(lèi)高頻關(guān)鍵詞對(duì)應(yīng)的網(wǎng)頁(yè)文檔以話(huà)題的形式推送至用戶(hù)。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,抓取所述多個(gè)網(wǎng)頁(yè)對(duì)應(yīng)的所述多個(gè)網(wǎng)頁(yè)文檔中包括:確定各個(gè)網(wǎng)頁(yè)中各行的字?jǐn)?shù);計(jì)算各個(gè)網(wǎng)頁(yè)的字?jǐn)?shù)的標(biāo)準(zhǔn)差;以及在一個(gè)網(wǎng)頁(yè)中,當(dāng)連續(xù)多行的字?jǐn)?shù)大于所述標(biāo)準(zhǔn)差時(shí),確定字?jǐn)?shù)大于標(biāo)準(zhǔn)差的連續(xù)多行的文字為網(wǎng)頁(yè)文檔。6.一種對(duì)多個(gè)網(wǎng)頁(yè)中高頻關(guān)鍵詞進(jìn)行聚類(lèi)的裝置,其特征在于,包括:抓取單元,用于抓取所述多個(gè)網(wǎng)頁(yè)對(duì)應(yīng)的多個(gè)網(wǎng)頁(yè)文檔;分詞單元,用于對(duì)抓取到的所述多個(gè)網(wǎng)頁(yè)文檔中的各個(gè)網(wǎng)頁(yè)文檔進(jìn)行分詞以獲取多個(gè)詞語(yǔ);確定單元,用于確定各個(gè)網(wǎng)頁(yè)文檔對(duì)應(yīng)的關(guān)鍵詞組合,其中,所述關(guān)鍵詞組合包括表征對(duì)應(yīng)網(wǎng)頁(yè)文檔內(nèi)容的關(guān)鍵詞;獲取單元,用于從多個(gè)關(guān)鍵詞組合中獲取高頻關(guān)鍵詞,其中,所述高頻關(guān)鍵詞為多個(gè)關(guān)鍵詞組合中在預(yù)設(shè)時(shí)間周期內(nèi)滿(mǎn)足預(yù)設(shè)條件的關(guān)鍵詞;以及從多個(gè)關(guān)鍵詞組合中獲取高頻關(guān)鍵詞包括:分別獲取所述多個(gè)網(wǎng)頁(yè)文檔對(duì)應(yīng)的所述關(guān)鍵詞組合中所述多個(gè)關(guān)鍵詞的訪(fǎng)問(wèn)數(shù)量,所述訪(fǎng)問(wèn)數(shù)量為在所述預(yù)設(shè)時(shí)間周期內(nèi)所述關(guān)鍵詞組合對(duì)應(yīng)網(wǎng)頁(yè)文檔的獨(dú)立訪(fǎng)客數(shù)量;以及將所述訪(fǎng)問(wèn)數(shù)量滿(mǎn)足預(yù)設(shè)數(shù)量條件的關(guān)鍵詞確定為所述多個(gè)網(wǎng)頁(yè)文檔的高頻關(guān)鍵詞;聚類(lèi)單元,用于按相似度對(duì)所述高頻關(guān)鍵詞進(jìn)行聚類(lèi),以獲得同類(lèi)高頻關(guān)鍵詞;所述聚類(lèi)單元包括:第一獲取子單元,用于分別獲取多個(gè)網(wǎng)頁(yè)文檔對(duì)應(yīng)的多個(gè)關(guān)鍵詞組合中的多個(gè)關(guān)鍵詞的訪(fǎng)問(wèn)數(shù)量,所述訪(fǎng)問(wèn)數(shù)量為在所述預(yù)設(shè)時(shí)間周期內(nèi)所述關(guān)鍵詞組合對(duì)應(yīng)網(wǎng)頁(yè)文檔的獨(dú)立訪(fǎng)客數(shù)量;第二獲取子單元,用于獲取各關(guān)鍵詞的訪(fǎng)問(wèn)數(shù)量在預(yù)設(shè)時(shí)間周期內(nèi)隨時(shí)間的變化趨勢(shì);聚類(lèi)子單元,用于將變化趨勢(shì)的相似系數(shù)滿(mǎn)足預(yù)設(shè)系數(shù)條件的多個(gè)關(guān)鍵詞作為同類(lèi)高頻關(guān)鍵詞。7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述確定單元包括:組合子單元,用于隨機(jī)組成多個(gè)當(dāng)前代詞語(yǔ)組合;第一計(jì)算子單元,用于計(jì)算所述當(dāng)前代詞語(yǔ)組合與所述網(wǎng)頁(yè)文檔的匹配程度,獲得當(dāng)前代最優(yōu)詞語(yǔ)組合;重組子單元,用于對(duì)所述多個(gè)當(dāng)前代詞語(yǔ)組合進(jìn)行重組操作,得到多個(gè)新一代詞語(yǔ)組合;第二計(jì)算子單元,用于計(jì)算所述多個(gè)新一代詞語(yǔ)組合與所述網(wǎng)頁(yè)文檔的多個(gè)新匹配程度,獲得新一代最優(yōu)詞語(yǔ)組合;判斷子單元,用于判斷所述新一代最優(yōu)詞語(yǔ)組合對(duì)應(yīng)的新匹配程度是否滿(mǎn)足預(yù)設(shè)匹配條件,以及確定子單元,在所述新匹配程度不滿(mǎn)足所述預(yù)設(shè)匹配條件時(shí),重復(fù)所述重組操作,在所述新匹配程度滿(mǎn)足所述預(yù)設(shè)匹配條件時(shí),將所述新一代最優(yōu)個(gè)體確定為所述關(guān)鍵詞組合。8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第二計(jì)算子單元包括:獲取模塊,用于獲取網(wǎng)頁(yè)文檔中的詞語(yǔ)總數(shù)量;第一計(jì)算模塊,用于根據(jù)詞頻和反向文檔頻計(jì)算各詞語(yǔ)的詞頻值;第一矢量模塊,用于根據(jù)所述詞語(yǔ)組合中各詞語(yǔ)的詞頻值和所述網(wǎng)頁(yè)文檔的詞語(yǔ)總數(shù)量對(duì)所述詞語(yǔ)組合進(jìn)行矢量化,得到詞語(yǔ)組合矢量;第二矢量模塊,用于根據(jù)所述網(wǎng)頁(yè)文檔中各詞語(yǔ)的詞頻值和所述網(wǎng)頁(yè)文檔的詞語(yǔ)總數(shù)量對(duì)所述網(wǎng)頁(yè)文檔進(jìn)行矢量化,得到文檔矢量;以及第二計(jì)算模塊,用于根據(jù)所述詞語(yǔ)組合矢量和所述文檔矢量的矢量參數(shù)計(jì)算所述詞語(yǔ)組合的個(gè)體適應(yīng)度,其中,所述個(gè)體適應(yīng)度作為所述匹配程度的依據(jù)。
當(dāng)前第2頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
柳江县| 北票市| 大英县| 陵水| 威宁| 衡阳县| 民丰县| 克东县| 长海县| 奉贤区| 大兴区| 新疆| 阳东县| 三门峡市| 徐水县| 余庆县| 仙居县| 永年县| 商丘市| 嘉义县| 长宁区| 分宜县| 卢氏县| 禄丰县| 芮城县| 达尔| 准格尔旗| 明溪县| 兰溪市| 塘沽区| 文山县| 彭泽县| 长武县| 正阳县| 濮阳县| 湖南省| 保定市| 景泰县| 磴口县| 甘孜县| 滨州市|