對(duì)網(wǎng)頁中高頻關(guān)鍵詞進(jìn)行聚類的方法及裝置與流程

文檔序號(hào)：12007846閱讀：229來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

對(duì)網(wǎng)頁中高頻關(guān)鍵詞進(jìn)行聚類的方法及裝置與流程

本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域，具體而言，涉及一種對(duì)網(wǎng)頁中高頻關(guān)鍵詞進(jìn)行聚類的方法及裝置。

背景技術(shù)：
在互聯(lián)網(wǎng)信息急劇增加的情況下，如何發(fā)現(xiàn)最有價(jià)值的信息是尚未解決的問題。因?yàn)樾畔?huì)通過多種渠道和形式發(fā)布，甚至出現(xiàn)同一條信息有不同描述的情況，為讀者準(zhǔn)確獲取某類別的信息帶來一定障礙。為了有效獲取不同類型的信息，現(xiàn)有技術(shù)會(huì)對(duì)多篇網(wǎng)頁文檔進(jìn)行聚類，然而，現(xiàn)有技術(shù)的聚類方式是基于網(wǎng)頁文檔全文的，由于網(wǎng)頁文檔全文的信息量較大，對(duì)全文的聚類需耗費(fèi)較大工作量；同時(shí)，全文里涉及內(nèi)容較多，一些詞語并不能反映文檔的主要內(nèi)容，這些詞語會(huì)影響文檔聚類的準(zhǔn)確性。因此，對(duì)通過全文對(duì)網(wǎng)頁文檔進(jìn)行聚類不能滿足對(duì)信息的聚類要求。

技術(shù)實(shí)現(xiàn)要素：
本發(fā)明實(shí)施例提供一種對(duì)網(wǎng)頁中高頻關(guān)鍵詞進(jìn)行聚類的方法和裝置，以提供對(duì)網(wǎng)頁文檔更準(zhǔn)確的分類方案。本發(fā)明為了實(shí)現(xiàn)上述目的，提供一種對(duì)多個(gè)網(wǎng)頁中高頻關(guān)鍵詞進(jìn)行聚類的方法，包括：抓取所述多個(gè)網(wǎng)頁對(duì)應(yīng)的多個(gè)網(wǎng)頁文檔；對(duì)抓取到的所述多個(gè)網(wǎng)頁文檔中的各個(gè)網(wǎng)頁文檔進(jìn)行分詞以獲取多個(gè)詞語；確定各個(gè)網(wǎng)頁文檔對(duì)應(yīng)的關(guān)鍵詞組合，其中，所述關(guān)鍵詞組合包括表征對(duì)應(yīng)網(wǎng)頁文檔內(nèi)容的關(guān)鍵詞；從多個(gè)關(guān)鍵詞組合中獲取高頻關(guān)鍵詞，其中，所述高頻關(guān)鍵詞為多個(gè)關(guān)鍵詞組合中在預(yù)設(shè)時(shí)間周期內(nèi)滿足預(yù)設(shè)條件的關(guān)鍵詞；以及按相似度對(duì)所述高頻關(guān)鍵詞進(jìn)行聚類，以獲得同類高頻關(guān)鍵詞。在一個(gè)實(shí)施例中，確定各個(gè)網(wǎng)頁文檔對(duì)應(yīng)的關(guān)鍵詞組合包括：隨機(jī)組成多個(gè)當(dāng)前代詞語組合；計(jì)算所述多個(gè)當(dāng)前代詞語組合與所述網(wǎng)頁文檔的匹配程度，獲得當(dāng)前代最優(yōu)個(gè)體；對(duì)所述多個(gè)當(dāng)前代詞語組合進(jìn)行重組操作，得到多個(gè)新一代詞語組合；計(jì)算所述多個(gè)新一代詞語組合與所述網(wǎng)頁文檔的多個(gè)新匹配程度，獲得新一代最優(yōu)個(gè)體；判斷所述新一代最優(yōu)個(gè)體對(duì)應(yīng)的新匹配程度是否滿足預(yù)設(shè)匹配條件；以及在所述新匹配程度不滿足所述預(yù)設(shè)匹配條件時(shí)，重復(fù)所述重組操作，在所述新匹配程度滿足所述預(yù)設(shè)匹配條件時(shí)，將所述新一代最優(yōu)個(gè)體確定為所述關(guān)鍵詞組合。在一個(gè)實(shí)施例中，計(jì)算所述詞語組合與所述網(wǎng)頁文檔的匹配程度包括：獲取網(wǎng)頁文檔中的詞語總數(shù)量；根據(jù)詞頻和反向文檔頻計(jì)算各詞語的詞頻值；根據(jù)所述詞語組合中各詞語的詞頻值和所述網(wǎng)頁文檔的詞語總數(shù)量對(duì)所述詞語組合進(jìn)行矢量化，得到詞語組合矢量；根據(jù)所述網(wǎng)頁文檔中各詞語的詞頻值和所述網(wǎng)頁文檔的詞語總數(shù)量對(duì)所述網(wǎng)頁文檔進(jìn)行矢量化，得到文檔矢量；以及根據(jù)所述詞語組合矢量和所述文檔矢量的矢量參數(shù)計(jì)算所述詞語組合的個(gè)體適應(yīng)度，其中，所述個(gè)體適應(yīng)度作為所述匹配程度的依據(jù)。在一個(gè)實(shí)施例中，從多個(gè)關(guān)鍵詞組合中獲取高頻關(guān)鍵詞包括：分別獲取所述多個(gè)網(wǎng)頁文檔對(duì)應(yīng)的所述關(guān)鍵詞組合中所述多個(gè)關(guān)鍵詞的訪問數(shù)量，所述訪問數(shù)量為在所述預(yù)設(shè)時(shí)間周期內(nèi)所述關(guān)鍵詞組合對(duì)應(yīng)網(wǎng)頁文檔的獨(dú)立訪客數(shù)量；將所述訪問數(shù)量滿足預(yù)設(shè)數(shù)量條件的關(guān)鍵詞確定為所述多個(gè)網(wǎng)頁文檔的高頻關(guān)鍵詞。在一個(gè)實(shí)施例中，按相似度對(duì)所述高頻關(guān)鍵詞進(jìn)行聚類包括：分別獲取所述多個(gè)網(wǎng)頁文檔對(duì)應(yīng)的所述關(guān)鍵詞組合中所述多個(gè)關(guān)鍵詞的訪問數(shù)量，所述訪問數(shù)量為在所述預(yù)設(shè)時(shí)間周期內(nèi)所述關(guān)鍵詞組合對(duì)應(yīng)網(wǎng)頁文檔的獨(dú)立訪客數(shù)量；獲取各關(guān)鍵詞的訪問數(shù)量在所述預(yù)設(shè)時(shí)間周期內(nèi)隨時(shí)間的變化趨勢；將所述變化趨勢的相似系數(shù)滿足預(yù)設(shè)系數(shù)條件的多個(gè)關(guān)鍵詞作為同類高頻關(guān)鍵詞。在一個(gè)實(shí)施例中，在按相似度對(duì)所述高頻關(guān)鍵詞進(jìn)行聚類之后，所述方法還包括：將所述同類高頻關(guān)鍵詞對(duì)應(yīng)的網(wǎng)頁文檔以話題的形式推送至用戶。在一個(gè)實(shí)施例中，抓取所述多個(gè)網(wǎng)頁對(duì)應(yīng)的所述多個(gè)網(wǎng)頁文檔中包括：確定各個(gè)網(wǎng)頁中各行的字?jǐn)?shù)；計(jì)算各個(gè)網(wǎng)頁的字?jǐn)?shù)的標(biāo)準(zhǔn)差；在一個(gè)網(wǎng)頁中，當(dāng)連續(xù)多行的字?jǐn)?shù)大于所述標(biāo)準(zhǔn)差時(shí)，確定字?jǐn)?shù)大于標(biāo)準(zhǔn)差的連續(xù)多行的文字為網(wǎng)頁文檔。本發(fā)明為了實(shí)現(xiàn)上述目的，提供一種對(duì)多個(gè)網(wǎng)頁中高頻關(guān)鍵詞進(jìn)行聚類的裝置，包括：抓取單元，用于抓取所述多個(gè)網(wǎng)頁對(duì)應(yīng)的多個(gè)網(wǎng)頁文檔；分詞單元，用于對(duì)抓取到的所述多個(gè)網(wǎng)頁文檔中的各個(gè)網(wǎng)頁文檔進(jìn)行分詞以獲取多個(gè)詞語；確定單元，用于確定各個(gè)網(wǎng)頁文檔對(duì)應(yīng)的關(guān)鍵詞組合，其中，所述關(guān)鍵詞組合包括表征對(duì)應(yīng)網(wǎng)頁文檔內(nèi)容的關(guān)鍵詞；獲取單元，用于從多個(gè)關(guān)鍵詞組合中獲取高頻關(guān)鍵詞，其中，所述高頻關(guān)鍵詞為多個(gè)關(guān)鍵詞組合中在預(yù)設(shè)時(shí)間周期內(nèi)滿足預(yù)設(shè)條件的關(guān)鍵詞；聚類單元，用于按相似度對(duì)所述高頻關(guān)鍵詞進(jìn)行聚類，以獲得同類高頻關(guān)鍵詞。在一個(gè)實(shí)施例中，所述確定單元包括：組合子單元，用于隨機(jī)組成多個(gè)當(dāng)前代詞語組合；第一計(jì)算子單元，用于計(jì)算所述當(dāng)前代詞語組合與所述網(wǎng)頁文檔的匹配程度，獲得當(dāng)前代最優(yōu)詞語組合；重組子單元，用于對(duì)所述多個(gè)當(dāng)前代詞語組合進(jìn)行重組操作，得到多個(gè)新一代詞語組合；第二計(jì)算子單元，用于計(jì)算所述多個(gè)新一代詞語組合與所述網(wǎng)頁文檔的多個(gè)新匹配程度，獲得新一代最優(yōu)詞語組合；判斷子單元，用于判斷所述新一代最優(yōu)詞語組合對(duì)應(yīng)的新匹配程度是否滿足預(yù)設(shè)匹配條件，以及確定子單元，在所述新匹配程度不滿足所述預(yù)設(shè)匹配條件時(shí)，重復(fù)所述重組操作，在所述新匹配程度滿足所述預(yù)設(shè)匹配條件時(shí)，將所述新一代最優(yōu)個(gè)體確定為所述關(guān)鍵詞組合。在一個(gè)實(shí)施例中，所述第二計(jì)算子單元包括：獲取模塊，用于獲取網(wǎng)頁文檔中的詞語總數(shù)量；第一計(jì)算模塊，用于根據(jù)詞頻和反向文檔頻計(jì)算各詞語的詞頻值；第一矢量模塊，用于根據(jù)所述詞語組合中各詞語的詞頻值和所述網(wǎng)頁文檔的詞語總數(shù)量對(duì)所述詞語組合進(jìn)行矢量化，得到詞語組合矢量；第二矢量模塊，用于根據(jù)所述網(wǎng)頁文檔中各詞語的詞頻值和所述網(wǎng)頁文檔的詞語總數(shù)量對(duì)所述網(wǎng)頁文檔進(jìn)行矢量化，得到文檔矢量；以及第二計(jì)算模塊，用于根據(jù)所述詞語組合矢量和所述文檔矢量的矢量參數(shù)計(jì)算所述詞語組合的個(gè)體適應(yīng)度，其中，所述個(gè)體適應(yīng)度作為所述匹配程度的依據(jù)。本發(fā)明為了實(shí)現(xiàn)上述目的，提供一種對(duì)多個(gè)文檔進(jìn)行分類的方法，包括：獲取所述多個(gè)文檔；對(duì)所述多個(gè)文檔分別進(jìn)行分詞以獲取多個(gè)詞語；確定每個(gè)文檔對(duì)應(yīng)的關(guān)鍵詞組合，其中，所述關(guān)鍵詞組合包括表征對(duì)應(yīng)文檔內(nèi)容的關(guān)鍵詞；將包括相同關(guān)鍵詞的文檔分到相同類別。在一個(gè)實(shí)施例中，確定文檔對(duì)應(yīng)的關(guān)鍵詞組合包括：通過遺傳算法從所述關(guān)鍵詞中確定關(guān)鍵詞組合。在一個(gè)實(shí)施例中，通過遺傳算法從所述關(guān)鍵詞中確定關(guān)鍵詞組合包括：將所述多個(gè)詞語初始化為多個(gè)詞語組合；對(duì)所述多個(gè)詞語組合進(jìn)行復(fù)制、交叉及變異操作，獲得下一代詞語組合；計(jì)算所述下一代詞語組合與所述文檔的匹配程度；以及在所述匹配程度滿足預(yù)設(shè)條件時(shí)終止所述遺傳算法，得到所述關(guān)鍵詞組合。在一個(gè)實(shí)施例中，計(jì)算經(jīng)過所述遺傳算法的所述詞語組合與所述文檔的匹配程度包括：獲取文檔中的詞語總數(shù)量；根據(jù)詞頻和反向文檔頻計(jì)算各詞語的詞頻值；根據(jù)所述詞語組合中各詞語的詞頻值和所述文檔的詞語總數(shù)量對(duì)所述詞語組合進(jìn)行矢量化，得到詞語組合矢量；根據(jù)所述文檔中各詞語的詞頻值和所述文檔的詞語總數(shù)量對(duì)所述文檔進(jìn)行矢量化，得到文檔矢量；以及根據(jù)所述詞語組合矢量和所述文檔矢量的矢量參數(shù)計(jì)算所述詞語組合的個(gè)體適應(yīng)度，其中，所述個(gè)體適應(yīng)度作為所述匹配程度的依據(jù)。本發(fā)明為了實(shí)現(xiàn)上述目的，提供一種對(duì)多個(gè)文檔進(jìn)行分類的裝置，包括：獲取單元，用于獲取所述多個(gè)文檔；分詞單元，對(duì)所述多個(gè)文檔分別進(jìn)行分詞以獲取多個(gè)詞語；確定單元，用于確定每個(gè)文檔對(duì)應(yīng)的關(guān)鍵詞組合，其中，所述關(guān)鍵詞組合包括表征對(duì)應(yīng)文檔內(nèi)容的關(guān)鍵詞；分類單元，用于將包括相同關(guān)鍵詞的文檔分到相同類別。在一個(gè)實(shí)施例中，所述確定單元還用于：通過遺傳算法從所述關(guān)鍵詞中確定關(guān)鍵詞組合。在一個(gè)實(shí)施例中，所述確定單元包括：組合子單元，用于將所述多個(gè)詞語初始化為多個(gè)詞語組合；處理子單元，用于對(duì)所述多個(gè)詞語組合進(jìn)行復(fù)制、交叉及變異操作，獲得下一代詞語組合；計(jì)算子單元，用于計(jì)算所述下一代詞語組合與所述文檔的匹配程度；以及終止子單元，用于在所述匹配程度滿足預(yù)設(shè)條件時(shí)終止所述遺傳算法，得到所述關(guān)鍵詞組合。本發(fā)明通過提取關(guān)鍵詞組合來準(zhǔn)確和全面地反映網(wǎng)頁文檔的內(nèi)容，再對(duì)組合中的關(guān)鍵詞重新聚類，將具有關(guān)聯(lián)性的網(wǎng)頁文檔劃分在同一話題中，從而使用戶更加方便地閱讀同一話題的網(wǎng)頁文檔，簡化了用戶對(duì)信息的搜集，節(jié)省了用戶的時(shí)間。附圖說明構(gòu)成本申請(qǐng)的一部分的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解，本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明，并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中：圖1是根據(jù)本發(fā)明實(shí)施例的對(duì)多個(gè)網(wǎng)頁中高頻關(guān)鍵詞進(jìn)行聚類的方法的流程圖；圖2是根據(jù)本發(fā)明實(shí)施例的關(guān)鍵詞組合的確定方法的流程圖；圖3是根據(jù)本發(fā)明實(shí)施例的適應(yīng)度計(jì)算方法的流程圖；圖4A是根據(jù)本發(fā)明實(shí)施例的獲取同類高頻關(guān)鍵詞方法的流程圖；圖4B為根據(jù)本發(fā)明實(shí)施例的關(guān)鍵詞聚類二叉樹示意圖，圖5是根據(jù)發(fā)明實(shí)施例的對(duì)多個(gè)網(wǎng)頁中高頻關(guān)鍵詞進(jìn)行聚類的裝置的結(jié)構(gòu)框圖；圖6是根據(jù)本發(fā)明實(shí)施例的確定單元的結(jié)構(gòu)框圖；圖7是根據(jù)本發(fā)明實(shí)施例的第一計(jì)算子單元的結(jié)構(gòu)框圖；圖8是根據(jù)本發(fā)明實(shí)施例的聚類單元510的結(jié)構(gòu)框圖；圖9是根據(jù)本發(fā)明實(shí)施例的對(duì)文檔進(jìn)行分類的方法的流程圖；圖10是根據(jù)本發(fā)明實(shí)施例的文檔的分類裝置的結(jié)構(gòu)框圖；圖11是根據(jù)本發(fā)明實(shí)施例的確定單元1006的結(jié)構(gòu)框圖。具體實(shí)施方式需要說明的是，在不沖突的情況下，本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。本實(shí)施例的目的之一是對(duì)信息進(jìn)行聚類，形成話題，話題是高頻關(guān)鍵詞組合，高頻關(guān)鍵詞是滿足一定條件的表征文檔內(nèi)容的關(guān)鍵詞，通過確定不同話題，便于互聯(lián)網(wǎng)用戶更加便捷地獲取所需的信息。基于此，本發(fā)明實(shí)施例提供了一種對(duì)多個(gè)網(wǎng)頁中高頻關(guān)鍵詞進(jìn)行聚類的方法。圖1是根據(jù)本發(fā)明實(shí)施例的對(duì)多個(gè)網(wǎng)頁中高頻關(guān)鍵詞進(jìn)行聚類的方法的流程圖。如圖1所示，該方法包括如下的步驟S102至步驟S110。步驟S102，抓取多個(gè)網(wǎng)頁對(duì)應(yīng)的多個(gè)網(wǎng)頁文檔。本步驟可具體按以下方式完成：首先，從瀏覽器日志中提取用戶訪問記錄，包括用戶唯一識(shí)別標(biāo)識(shí)和用戶訪問過的統(tǒng)一資源定位符（UniformResourceLocator，URL），為避免重復(fù)抓取，可根據(jù)URL的哈希值進(jìn)行排重過濾。然后，遍歷排重后的URL集合抓取網(wǎng)頁源碼。接著，可以對(duì)超文本標(biāo)記語言（HypertextMarkupLanguage，HTML）進(jìn)行格式化，因不規(guī)范的HTML代碼及噪音數(shù)據(jù)會(huì)嚴(yán)重影響正文提取的效果，所以首先對(duì)原始HTML代碼進(jìn)行格式化。補(bǔ)齊不對(duì)稱的HTML標(biāo)簽（如”<tr><td>表格”，格式化后為”<tr><td>表格</td></tr>”），使用正則表達(dá)式初步刪除噪音數(shù)據(jù)（如javascript和css代碼等）。為了更加準(zhǔn)確的獲取網(wǎng)頁文本內(nèi)容的信息，還可以獲取多個(gè)網(wǎng)頁文檔。首先可以確定各個(gè)網(wǎng)頁文本中各行的字?jǐn)?shù)，以回車符作為換行標(biāo)識(shí)，計(jì)算每行的字?jǐn)?shù)LN，本實(shí)施例中的字?jǐn)?shù)可以指非標(biāo)簽字符的字?jǐn)?shù)。然后計(jì)算各個(gè)網(wǎng)頁或整篇文檔的字?jǐn)?shù)的標(biāo)準(zhǔn)差SD。在一個(gè)網(wǎng)頁中，當(dāng)連續(xù)多行的字?jǐn)?shù)大于標(biāo)準(zhǔn)差時(shí)，確定字?jǐn)?shù)大于標(biāo)準(zhǔn)差的連續(xù)多行的文字為網(wǎng)頁文檔。具體地，字?jǐn)?shù)超過標(biāo)準(zhǔn)差的行間距均值LS，從網(wǎng)頁文本中選取多個(gè)目標(biāo)區(qū)塊，最終的網(wǎng)頁文檔從目標(biāo)區(qū)塊中得出，目標(biāo)區(qū)塊可以根據(jù)以下標(biāo)準(zhǔn)進(jìn)行選?。阂訪N>SD的行作為目標(biāo)區(qū)塊開始，以n表示當(dāng)前行下標(biāo)，若n+LS行中不存在任意行字?jǐn)?shù)超過SD，則第n行作為目標(biāo)區(qū)塊結(jié)束，在本實(shí)施例中，開始行和結(jié)束行為同一行的，不被認(rèn)為是目標(biāo)區(qū)塊。例如，格式化后的HTML源碼字?jǐn)?shù)分布如下：以上舉例計(jì)算可得：字?jǐn)?shù)標(biāo)準(zhǔn)差SD=4.4，超過標(biāo)準(zhǔn)差的行間距均值LS=1，所以可以從該網(wǎng)頁文檔中選取兩個(gè)目標(biāo)區(qū)塊，以行標(biāo)表示分別為目標(biāo)區(qū)塊一{3,4,5}和目標(biāo)區(qū)塊二{9,10}，因?yàn)槟繕?biāo)區(qū)塊一的字?jǐn)?shù)最多，所以確定目標(biāo)區(qū)塊一內(nèi)的文本為網(wǎng)頁文檔。返回圖1中的步驟S104，對(duì)抓取到的多個(gè)網(wǎng)頁文檔中的各個(gè)網(wǎng)頁文檔進(jìn)行分詞以獲取多個(gè)詞語。分詞過程基于詞庫的正向最大匹配，非詞庫中的連續(xù)出現(xiàn)的英文數(shù)字混排字符也會(huì)作分詞處理。首先可以獲取詞庫，其中，詞庫中包括常用的詞匯，例如各常用的動(dòng)詞和名詞。然后將網(wǎng)頁文檔中的文字與詞庫匹配以進(jìn)行分詞。例如對(duì)于“我想看電影”，分別可以和詞庫里的“我”“想”“看”和“電影”匹配，因此，不會(huì)出現(xiàn)“看電”這樣的分詞。步驟S106，確定各個(gè)網(wǎng)頁文檔對(duì)應(yīng)的關(guān)鍵詞組合，其中，關(guān)鍵詞組合包括表征對(duì)應(yīng)網(wǎng)頁文檔內(nèi)容的關(guān)鍵詞。一般來講，每個(gè)網(wǎng)頁文檔唯一對(duì)應(yīng)一個(gè)關(guān)鍵詞組合。關(guān)鍵詞組合中詞語的數(shù)量可預(yù)先設(shè)置，當(dāng)多個(gè)詞語組成的特定組合與網(wǎng)頁文檔的匹配程度滿足預(yù)設(shè)匹配程度時(shí)，確定特定組合為關(guān)鍵詞組合。例如預(yù)設(shè)一篇網(wǎng)頁文檔的關(guān)鍵詞組合由4個(gè)關(guān)鍵詞組成，當(dāng)某網(wǎng)頁文檔中由“中國”“鳥巢”“08”“奧運(yùn)”組成的詞語組合與該網(wǎng)頁文檔的匹配程度滿足預(yù)設(shè)匹配程度時(shí)，那么這個(gè)詞語組合就是這篇網(wǎng)頁文檔的關(guān)鍵詞組合。圖2是根據(jù)本發(fā)明實(shí)施例的關(guān)鍵詞組合的確定方法的流程圖。步驟S202，隨機(jī)組成多個(gè)當(dāng)前代詞語組合。本步驟通過隨機(jī)組成詞語組合進(jìn)行種群初始化。在利用遺傳算法對(duì)網(wǎng)頁文檔中的關(guān)鍵詞進(jìn)行計(jì)算時(shí)，種群、個(gè)體及基因的相應(yīng)定義如下：種群為多組詞語組合，其中每個(gè)詞語組合為單獨(dú)個(gè)體，每個(gè)詞語組合中的一個(gè)詞語即為基因。種群、個(gè)體、基因的關(guān)系為：多個(gè)詞語（基因）組成一個(gè)詞語組合（個(gè)體），多個(gè)詞語組合（個(gè)體）組成一個(gè)種群。對(duì)各篇文章中的所有詞語進(jìn)行種群初始化，即將這些詞語隨機(jī)分為多個(gè)詞語組合，定義這多個(gè)詞語組合為種群，例如，某篇文檔共包括X個(gè)詞語，預(yù)設(shè)每個(gè)詞語組合包括N個(gè)詞語，將該X個(gè)詞語分為Y個(gè)詞語組合（X=N*Y），Y個(gè)詞語組合稱為一個(gè)種群，N個(gè)詞語組成的一個(gè)詞語組合稱為一個(gè)體。種群大小，即個(gè)體數(shù)指該種群的Y值，一個(gè)種群的種群大小和個(gè)體數(shù)可以進(jìn)行預(yù)設(shè)。步驟S204，計(jì)算當(dāng)前代詞語組合與網(wǎng)頁文檔的匹配程度，獲得當(dāng)前代最優(yōu)詞語組合。在本實(shí)施例中，以詞語組合的個(gè)體適應(yīng)度作為匹配程度的依據(jù)。匹配度最高的詞語組合為當(dāng)前代的最優(yōu)個(gè)體。圖3是根據(jù)本發(fā)明實(shí)施例的適應(yīng)度計(jì)算方法的流程圖。步驟S302，獲取網(wǎng)頁文檔中的詞語總數(shù)量。例如，一篇網(wǎng)頁文檔中有10個(gè)不同詞語，則詞語總數(shù)量為10。步驟S304，根據(jù)詞頻（TermFrequency,TF）和反向文檔頻（InverseDocumentFrequency,IF）計(jì)算各詞語的詞頻值。具體地，在本篇網(wǎng)頁文檔中出現(xiàn)頻率越高，則詞頻越高，在其他網(wǎng)頁文檔中出現(xiàn)頻率越低，則反向文檔頻越高，例如，在西游記的某一個(gè)章節(jié)中，“孫悟空”出現(xiàn)頻率很高，TF為3，而“孫悟空”在另一篇網(wǎng)頁文檔中出現(xiàn)次數(shù)很少，IDF可能為5，根據(jù)用戶需求設(shè)置一個(gè)詞頻值的計(jì)算公式，帶入TF和IDF的值，則可以算出該詞語的詞頻值。步驟S306，根據(jù)詞語組合中各詞語的詞頻值和網(wǎng)頁文檔的詞語總數(shù)量對(duì)詞語組合進(jìn)行矢量化。通過本步驟可以得到詞語組合矢量。例如，網(wǎng)頁文檔由3個(gè)不同的詞語組成，關(guān)鍵詞組合包含2個(gè)詞語，因此建立一個(gè)3維坐標(biāo)系。如果以上3個(gè)詞的詞頻值分別是1，2，3，則第一個(gè)詞語經(jīng)矢量化得到的矢量為（1,0,0,），第二個(gè)詞語經(jīng)矢量化得到的矢量為（0,2,0），第三個(gè)詞語經(jīng)矢量化得到的矢量為（0,0,3），通過矢量相加即可得到每個(gè)詞語組合的矢量，本實(shí)施例中可能出現(xiàn)的詞語組合的矢量為（1,2,0）、（0,2,3）和（1,0,3）。步驟S308，每篇網(wǎng)頁文檔同樣也有一個(gè)對(duì)應(yīng)的文檔矢量，根據(jù)該網(wǎng)頁文檔中各詞語的詞頻值和網(wǎng)頁文檔的詞語總數(shù)量對(duì)該網(wǎng)頁文檔進(jìn)行矢量化，可以得到該網(wǎng)頁文檔的文檔矢量。步驟S310，根據(jù)詞語組合矢量與文檔矢量的矢量參數(shù)計(jì)算該詞語組合的個(gè)體適應(yīng)度，其中，個(gè)體適應(yīng)度作為匹配程度的依據(jù)。個(gè)體適應(yīng)度的計(jì)算函數(shù)根據(jù)不同的需求而不同，詞語組合矢量與文檔矢量越匹配，則該詞語組合的個(gè)體適應(yīng)度越高，個(gè)體適應(yīng)度最高的詞語組合即為該網(wǎng)頁文檔的關(guān)鍵詞組合。本實(shí)施例還可以認(rèn)為矢量之間的夾角最小的為最匹配，或者矢量端點(diǎn)間距離最短的為最匹配，或者以直方圖的形式來表示，在直方圖中高度與網(wǎng)頁文檔最接近的詞語組合為該網(wǎng)頁文檔的關(guān)鍵詞組合。返回圖2，步驟S206，對(duì)當(dāng)前代詞語組合進(jìn)行重組操作，得到新一代詞語組合。重組操作具體可以表現(xiàn)為復(fù)制、交叉及變異。在針對(duì)網(wǎng)頁文檔的本實(shí)施例中，復(fù)制為將某個(gè)體直接遺傳到下一代，即選取一些詞語組合直接作為新一代詞語組合中的成員；交叉為將兩個(gè)個(gè)體的部分基因相互替換，生成新個(gè)體遺傳到下一代，即將兩個(gè)詞語組合中的某些詞語進(jìn)行相互替換，得到新一代詞語組合中的成員；變異為個(gè)體中的某個(gè)基因隨機(jī)更換成別的基因生成新的個(gè)體遺傳到下一代，即將某個(gè)詞語組合中的個(gè)別詞語更換成其他詞語。例如，有第一個(gè)體（a，b）和第二個(gè)體（c，d），將（a，b）直接遺傳到下一代為復(fù)制，將（a，b）和（c，d）的相互替換變?yōu)椋╝，c）和（b，d）遺傳到下一代為交叉，直接將（a，b）變?yōu)椋╝，d）遺傳到下一代為變異。步驟S208，計(jì)算新一代詞語組合與網(wǎng)頁的新匹配程度，獲得新一代最優(yōu)詞語組合。該計(jì)算方法可參照?qǐng)D3的適應(yīng)度計(jì)算方法。在一個(gè)實(shí)施例中，當(dāng)步驟S204已針對(duì)當(dāng)前代詞語組合與網(wǎng)頁文檔的匹配程度進(jìn)行過計(jì)算后，步驟S302獲取多個(gè)網(wǎng)頁文檔中的詞語總數(shù)量及步驟S304根據(jù)詞頻和反向文檔頻計(jì)算各詞語的詞頻值步驟可被省略。新一代詞語組合中對(duì)應(yīng)新匹配程度最高的詞語組合可作為新一代的最優(yōu)詞語組合。步驟S210，判斷新一代最優(yōu)詞語組合的匹配程度是否滿足預(yù)設(shè)匹配條件，例如，該預(yù)設(shè)匹配條件可以為以下兩種，其中，如前所述，匹配程度及對(duì)應(yīng)個(gè)體適應(yīng)度：例一，可對(duì)最優(yōu)個(gè)體適應(yīng)度連續(xù)不變的迭代代數(shù)進(jìn)行預(yù)先指定。例如指定代數(shù)閾值n，在n代內(nèi)種群最優(yōu)個(gè)體的個(gè)體適應(yīng)度不變，則最后一代的最優(yōu)詞語組合為關(guān)鍵詞組合。具體地，假設(shè)閾值n為5，則在5代內(nèi)，例如第1代、第2代、第3代、第4代及第5代連續(xù)5代內(nèi)，最優(yōu)個(gè)體的適應(yīng)度值保持不變，則第5代的最優(yōu)詞語組合為關(guān)鍵詞組合。例二，可將下述公式（1）作為預(yù)設(shè)匹配條件：Σx=n-mnS(x)---(1)]]>其中，n為當(dāng)前代數(shù)，m為指定的閾值，S（x）為第x代最優(yōu)個(gè)體的個(gè)體適應(yīng)度。也即，當(dāng)從第n-m-1代至第n-1代共計(jì)m代的最優(yōu)個(gè)體的適應(yīng)度總和大于從第n-m代至第n代共計(jì)m代的最優(yōu)個(gè)體適應(yīng)度總和時(shí)，終止進(jìn)化。例如：當(dāng)n=10,m=5時(shí)，即當(dāng)前為第10代，預(yù)先指定的代數(shù)為5時(shí)，從第4代至第9代共計(jì)5代的最優(yōu)個(gè)體適應(yīng)度總和大于或等于從第5代至第10代共計(jì)5代的最優(yōu)個(gè)體適應(yīng)度總和時(shí)，最后一代的最優(yōu)個(gè)體即為關(guān)鍵詞組合。步驟S212，當(dāng)所述新匹配程度不滿足該預(yù)設(shè)匹配條件時(shí)，重復(fù)重組操作，在新匹配程度滿足該預(yù)設(shè)匹配條件時(shí)，將新一代最優(yōu)詞語組合確定為關(guān)鍵詞組合。步驟S214，在確定關(guān)鍵詞組合后，終止迭代。返回圖1的步驟S108，從多個(gè)關(guān)鍵詞組合中獲取高頻關(guān)鍵詞，其中，高頻關(guān)鍵詞為多組關(guān)鍵詞組合中在預(yù)設(shè)時(shí)間周期內(nèi)滿足預(yù)設(shè)條件的關(guān)鍵詞。在本步驟中，可以獲取多個(gè)網(wǎng)頁文檔在預(yù)設(shè)時(shí)間周期內(nèi)的獨(dú)立訪客數(shù)量（UniqueVisitor，UV）并將每個(gè)網(wǎng)頁文檔的UV定義為該文檔對(duì)應(yīng)的關(guān)鍵詞組合中多個(gè)關(guān)鍵詞的訪問數(shù)量；將訪問數(shù)量在預(yù)設(shè)數(shù)量條件以上的關(guān)鍵詞定義為該多個(gè)網(wǎng)頁文檔的高頻關(guān)鍵詞，具體地，包括以下步驟S1至S3。S1，統(tǒng)計(jì)每個(gè)網(wǎng)頁的預(yù)定時(shí)間周期內(nèi)的UV，并以此作為關(guān)鍵詞的訪問數(shù)量，本實(shí)施例中的UV定義如下：同一用戶N(N≥1)次訪問同一網(wǎng)頁，UV為1。S2，根據(jù)步驟S1的數(shù)據(jù)繪制每個(gè)關(guān)鍵詞的時(shí)間-訪問數(shù)量走勢圖，由此可得出每個(gè)關(guān)鍵詞在預(yù)設(shè)時(shí)間周期內(nèi)最大訪問數(shù)量和最大單位時(shí)間訪問數(shù)量，即斜率。S3，噪音關(guān)鍵詞過濾：將訪問數(shù)量滿足預(yù)設(shè)數(shù)量條件的關(guān)鍵詞作為高頻關(guān)鍵詞。例如，取所有關(guān)鍵詞最大斜率的平均值為預(yù)設(shè)數(shù)量條件對(duì)關(guān)鍵詞進(jìn)行篩選，將最大斜率在該預(yù)設(shè)數(shù)量以下的關(guān)鍵詞刪去。本實(shí)施例將高頻關(guān)鍵詞涉及的內(nèi)容作為輿論關(guān)注的熱點(diǎn)，通過高頻關(guān)鍵詞可以快速準(zhǔn)確找出當(dāng)前的熱點(diǎn)信息。返回圖1中的步驟S110，按相似度對(duì)高頻關(guān)鍵詞進(jìn)行聚類，以獲得同類高頻關(guān)鍵詞。該獲取同類高頻關(guān)鍵詞方法的流程圖如圖4A所示。步驟S402，分別獲取多個(gè)網(wǎng)頁文檔對(duì)應(yīng)的多個(gè)關(guān)鍵詞組合中的多個(gè)關(guān)鍵詞的訪問數(shù)量。該訪問數(shù)量定義為在預(yù)設(shè)時(shí)間周期內(nèi)該關(guān)鍵詞組合對(duì)應(yīng)的網(wǎng)頁文檔的UV，例如，預(yù)設(shè)時(shí)間周期為3天，則計(jì)算3天內(nèi)網(wǎng)頁文檔的UV，該UV即為該網(wǎng)頁文檔對(duì)應(yīng)的關(guān)鍵詞組合中各個(gè)關(guān)鍵詞的訪問數(shù)量。步驟S404，獲取各關(guān)鍵詞的訪問數(shù)量在預(yù)設(shè)時(shí)間周期內(nèi)隨時(shí)間的變化趨勢，例如，建立坐標(biāo)系，該坐標(biāo)系的橫坐標(biāo)為時(shí)間，縱坐標(biāo)為某關(guān)鍵詞的訪問數(shù)量，獲得該關(guān)鍵詞的變化趨勢。步驟S406，將變化趨勢的相似系數(shù)滿足預(yù)設(shè)系數(shù)條件的多個(gè)關(guān)鍵詞作為同類高頻關(guān)鍵詞。本實(shí)施例可根據(jù)皮爾遜相關(guān)系數(shù)計(jì)算每兩個(gè)關(guān)鍵詞曲線的相似系數(shù)S，如下述公式（2）所示：其中，N為預(yù)定時(shí)間周期，X為一個(gè)關(guān)鍵詞的變化趨勢曲線，Y為另一個(gè)關(guān)鍵詞的變化趨勢曲線。在完成所有的兩個(gè)關(guān)鍵詞曲線的相似系數(shù)的計(jì)算后，可依據(jù)關(guān)鍵詞之間的相似系數(shù)S做分層聚類，根據(jù)相似系數(shù)大小順序排列，得出關(guān)鍵詞聚類二叉樹，其中，每個(gè)葉子節(jié)點(diǎn)表示一個(gè)關(guān)鍵詞的變化趨勢曲線，非葉子節(jié)點(diǎn)表示兩個(gè)葉子節(jié)點(diǎn)之間的相似系數(shù)，父葉子節(jié)點(diǎn)表示某葉子節(jié)點(diǎn)的次近關(guān)鍵詞的變化趨勢曲線。例如，圖4B為根據(jù)本發(fā)明實(shí)施例的關(guān)鍵詞聚類二叉樹示意圖，如圖所示，關(guān)鍵詞聚類二叉樹400包括葉子節(jié)點(diǎn)410、412、414及非葉子節(jié)點(diǎn)422、432。其中，非葉子節(jié)點(diǎn)422表示葉子節(jié)點(diǎn)412與414之間的相似系數(shù)，葉子節(jié)點(diǎn)410為葉子節(jié)點(diǎn)412、414的父葉子節(jié)點(diǎn)，非葉子節(jié)點(diǎn)432表示父葉子節(jié)點(diǎn)410與葉子節(jié)點(diǎn)412、414之間數(shù)值較高的相似系數(shù)。例如，當(dāng)兩個(gè)關(guān)鍵詞分別為“海監(jiān)”及“釣魚島”時(shí)，葉子節(jié)點(diǎn)412與414分別代表“海監(jiān)”的變化趨勢曲線（X）和“釣魚島”（Y）的變化趨勢曲線，非葉子節(jié)點(diǎn)422即為根據(jù)上述公式（2）所計(jì)算的相似系數(shù)S，例如：0.5。得到聚類二叉樹400后，從聚類二叉樹的葉子節(jié)點(diǎn)開始遍歷，在原始文檔中檢索包含兩個(gè)最近葉子節(jié)點(diǎn)關(guān)鍵詞的文檔，若可以找到，加上父節(jié)點(diǎn)上的關(guān)鍵詞再次檢索，直至檢索不到文檔為止。由此可得出描述多個(gè)話題的詞語組合。仍以上述實(shí)例進(jìn)行說明，如果父葉子節(jié)點(diǎn)410表示的關(guān)鍵詞為“中國”的變化趨勢曲線，計(jì)算所得其與葉子節(jié)點(diǎn)412、414之間數(shù)值較高的相似系數(shù)為0.5，則繼續(xù)檢索，一篇文檔中是否同時(shí)出現(xiàn)“海監(jiān)”和釣魚島”和“中國”，若存在，則繼續(xù)檢索；如果父葉子節(jié)點(diǎn)為“釣魚帽”的變化趨勢曲線，計(jì)算所得其與葉子節(jié)點(diǎn)412、414之間數(shù)值較高的相似系數(shù)為0.3，檢索發(fā)現(xiàn)沒有文檔中同時(shí)出現(xiàn)“海監(jiān)”和釣魚島”和“釣魚帽”，則釣魚帽無法與“海監(jiān)”和“釣魚島”聚類。通過以上聚類，可以將雜亂無序的文檔按內(nèi)容進(jìn)行分類，便于對(duì)文檔的管理。完成話題的聚類后，就可以將同類高頻關(guān)鍵詞對(duì)應(yīng)的網(wǎng)頁文檔以話題的形式推送至用戶。例如，某用戶在看過一篇近期發(fā)表的關(guān)于釣魚島的文章后，系統(tǒng)自動(dòng)將其他近期發(fā)表的關(guān)于釣魚島的文章推送給該用戶。從以上的描述中，可以看出，本發(fā)明實(shí)施例使用戶更加方便地閱讀同一話題的網(wǎng)頁文檔，簡化了用戶對(duì)信息的搜集，節(jié)省了用戶的時(shí)間。本發(fā)明實(shí)施例還提供了一種對(duì)多個(gè)網(wǎng)頁中高頻關(guān)鍵詞進(jìn)行聚類的裝置，以下對(duì)本發(fā)明實(shí)施例所提供的該裝置進(jìn)行介紹。圖5是根據(jù)發(fā)明實(shí)施例的對(duì)多個(gè)網(wǎng)頁中高頻關(guān)鍵詞進(jìn)行聚類的裝置的結(jié)構(gòu)框圖。如圖5所示，該裝置包括抓取單元502、分詞單元504、確定單元506、獲取單元508和聚類單元510。抓取單元502用于抓取多個(gè)網(wǎng)頁對(duì)應(yīng)的多個(gè)網(wǎng)頁文檔。分詞單元504用于對(duì)抓取到的多個(gè)網(wǎng)頁文檔中的各個(gè)網(wǎng)頁文檔進(jìn)行分詞以獲取多個(gè)詞語。確定單元506用于各個(gè)網(wǎng)頁文檔對(duì)應(yīng)的關(guān)鍵詞組合，其中，關(guān)鍵詞組合包括表征對(duì)應(yīng)網(wǎng)頁文檔內(nèi)容的關(guān)鍵詞。具體地，確定單元506可以當(dāng)多個(gè)詞語組成的特定組合與網(wǎng)頁文檔的匹配程度大于或等于任意由相同個(gè)數(shù)的詞語組成的詞語組合時(shí)，確定特定組合為關(guān)鍵詞組合。為了實(shí)現(xiàn)上述功能，確定單元506可以包括多個(gè)子單元，圖6是根據(jù)本發(fā)明實(shí)施例的確定單元的結(jié)構(gòu)框圖，如圖6所示，確定單元506包括：組合子單元602，用于隨機(jī)組成多個(gè)當(dāng)前代詞語組合。第一計(jì)算子單元604，用于計(jì)算當(dāng)前代詞語組合與網(wǎng)頁文檔的匹配程度，獲得當(dāng)前代最優(yōu)詞語組合。重組子單元606，用于對(duì)當(dāng)前代詞語組合進(jìn)行重組操作，得到新一代詞語組合。重組操作具體可以表現(xiàn)為復(fù)制、交叉及變異。第二計(jì)算子單元608，用于計(jì)算新一代詞語組合與網(wǎng)頁的新匹配程度，獲得新一代最優(yōu)詞語組合。在上述實(shí)施例中，第一計(jì)算子單元604可以包括多個(gè)模塊，圖7是根據(jù)本發(fā)明實(shí)施例的第一計(jì)算子單元的結(jié)構(gòu)框圖，如圖7所示，第一計(jì)算子單元604包括以下模塊：獲取模塊702，用于獲取網(wǎng)頁文檔中的詞語總數(shù)量。第一計(jì)算模塊704，用于根據(jù)詞頻和反向文檔頻計(jì)算各詞語的詞頻值。第一矢量模塊706，用于根據(jù)詞語組合中各詞語的詞頻值和網(wǎng)頁文檔的詞語總數(shù)量對(duì)詞語組合進(jìn)行矢量化。第二矢量模塊708，用于根據(jù)該網(wǎng)頁文檔中各詞語的詞頻值和網(wǎng)頁文檔的詞語總數(shù)量對(duì)該網(wǎng)頁文檔進(jìn)行矢量化。第二計(jì)算模塊710，用于根據(jù)詞語組合矢量與文檔矢量的矢量參數(shù)計(jì)算該詞語組合的個(gè)體適應(yīng)度。獲取單元508用于從多個(gè)關(guān)鍵詞組合中獲取高頻關(guān)鍵詞，其中，高頻關(guān)鍵詞為多組關(guān)鍵詞組合中在預(yù)設(shè)時(shí)間周期內(nèi)滿足預(yù)設(shè)條件的關(guān)鍵詞。聚類單元510用于按相似度對(duì)高頻關(guān)鍵詞進(jìn)行聚類，以獲得同類高頻關(guān)鍵詞。圖8是根據(jù)本發(fā)明實(shí)施例的聚類單元510的結(jié)構(gòu)框圖，如圖8所示，聚類單元510包括：第一獲取子單元802，用于分別獲取多個(gè)網(wǎng)頁文檔對(duì)應(yīng)的多個(gè)關(guān)鍵詞組合中的多個(gè)關(guān)鍵詞的訪問數(shù)量。第二獲取子單元804，用于獲取各關(guān)鍵詞的訪問數(shù)量在預(yù)設(shè)時(shí)間周期內(nèi)隨時(shí)間的變化趨勢，例如，建立坐標(biāo)系，該坐標(biāo)系的橫坐標(biāo)為時(shí)間，縱坐標(biāo)為某關(guān)鍵詞的訪問數(shù)量，獲得該關(guān)鍵詞的變化趨勢。聚類子單元806，用于將變化趨勢的相似系數(shù)滿足預(yù)設(shè)系數(shù)條件的多個(gè)關(guān)鍵詞作為同類高頻關(guān)鍵詞。以上各單元和子單元的作用和功能對(duì)應(yīng)于方法實(shí)施例中的步驟，各單元和模塊的作用和功能在此不再贅述。在本實(shí)施例中，通過提取關(guān)鍵詞組合來準(zhǔn)確和全面地反映網(wǎng)頁文檔的內(nèi)容，再對(duì)組合中的關(guān)鍵詞重新聚類，將具有關(guān)聯(lián)性的網(wǎng)頁文檔劃分在同一話題中，從而使用戶更加方便地閱讀同一話題的網(wǎng)頁文檔，簡化了用戶對(duì)信息的搜集，節(jié)省了用戶的時(shí)間。本實(shí)施例還提供了另一種對(duì)文檔進(jìn)行分類的方法，該方法可以多篇文檔進(jìn)行分類，圖9是根據(jù)本發(fā)明實(shí)施例的對(duì)文檔進(jìn)行分類的方法的流程圖，如圖9所示，該方法包括步驟S902至S908。步驟S902，讀取多個(gè)文檔。在本步驟中讀取的文檔既可以是網(wǎng)頁文檔，也可以是本地文檔。在對(duì)該文檔進(jìn)行分類時(shí)，可以不考慮時(shí)效性和閱讀次數(shù)。步驟S904，對(duì)讀取到的多個(gè)文檔進(jìn)行分詞以獲取多個(gè)詞語。步驟S906，確定文檔對(duì)應(yīng)的關(guān)鍵詞組合，其中，關(guān)鍵詞詞組包括表征對(duì)應(yīng)文檔的內(nèi)容的詞語，關(guān)鍵詞組合中的詞語為關(guān)鍵詞。本方法中的分詞方法和確定關(guān)鍵詞的方法類似于上述對(duì)多個(gè)網(wǎng)頁中高頻關(guān)鍵詞進(jìn)行聚類的方法，例如，可以通過遺傳算法從關(guān)鍵詞中確定關(guān)鍵詞組合。具體地，通過遺傳算法確定關(guān)鍵詞組合可以包括以下步驟：首先，將多個(gè)詞語初始化為組成詞語組合。然后，對(duì)詞語組合進(jìn)行復(fù)制、交叉及變異操作，獲得下一代詞語組合。繼而，計(jì)算下一代詞語組合與文檔的匹配程度。進(jìn)一步地，計(jì)算匹配程度的過程可以通過以下五步實(shí)現(xiàn)。第一步，獲取文檔中的詞語總數(shù)量。例如文檔共有1000個(gè)不同詞語。第二步，根據(jù)詞頻和反向文檔頻計(jì)算各詞語的詞頻值。例如每多出現(xiàn)一次，詞頻值加1。第三步，根據(jù)詞語組合中各詞語的詞頻值和文檔的詞語總數(shù)量對(duì)詞語組合進(jìn)行矢量化，得到詞語組合矢量。第四步，根據(jù)文檔中各詞語的詞頻值和文檔的詞語總數(shù)量對(duì)文檔進(jìn)行矢量化，得到文檔矢量。第五步，根據(jù)詞語組合矢量和文檔矢量的矢量參數(shù)計(jì)算詞語組合的個(gè)體適應(yīng)度，其中，個(gè)體適應(yīng)度作為匹配程度的依據(jù)?；氐酵ㄟ^遺傳算法確定關(guān)鍵詞組合的方法中，最后，在匹配程度滿足預(yù)設(shè)條件時(shí)終止遺傳算法，得到關(guān)鍵詞組合。以上步驟的具體實(shí)現(xiàn)過程已在前述實(shí)施例具體描述，在此不再贅述。回到圖9所示步驟S908，將包括相同關(guān)鍵詞的文檔分到相同類別。例如，關(guān)鍵詞中都包括“足球”的文檔可以分到同一類別。同時(shí)，同一篇文章可以被分到多個(gè)類別中，例如，一篇文檔描述了總統(tǒng)觀看足球賽，關(guān)鍵詞包括“總統(tǒng)”和“足球”，那么該文檔可以既歸入涉及體育的“足球”類別，也歸入涉及政治的“總統(tǒng)”類別。通過分類，提高了文檔閱讀時(shí)的用戶體驗(yàn)。相應(yīng)地，本實(shí)施例還提供了一種文檔的分類裝置。圖10是根據(jù)本發(fā)明實(shí)施例的文檔的分類裝置的結(jié)構(gòu)框圖。如圖10所示，該裝置包括讀取單元1002、分詞單元1004、確定單元1006和分類單元1008。讀取單元1002用于讀取多個(gè)文檔。分詞單元1004用于對(duì)讀取到的多個(gè)文檔進(jìn)行分詞以獲取多個(gè)詞語。確定單元1006用于確定文檔對(duì)應(yīng)的關(guān)鍵詞組合，其中，關(guān)鍵詞詞組包括表征對(duì)應(yīng)文檔的內(nèi)容的詞語，關(guān)鍵詞組合中的詞語為關(guān)鍵詞。確定單元1006具體可以通過遺傳算法從關(guān)鍵詞中確定關(guān)鍵詞組合。為了實(shí)現(xiàn)確定關(guān)鍵詞組合的功能，確定單元1006可以包括多個(gè)子單元，圖11是根據(jù)本發(fā)明實(shí)施例的確定單元1006的結(jié)構(gòu)框圖，如圖11所示，確定單元1006包括以下子單元：初始化子單元1102，用于將多個(gè)詞語初始化為多個(gè)詞語組合。處理子單元1104，用于對(duì)詞語組合進(jìn)行復(fù)制、交叉及變異操作，獲得下一代詞語組合。計(jì)算子單元1106，用于計(jì)算下一代詞語組合與文檔的匹配程度。獲取子單元1108，用于在匹配程度滿足預(yù)設(shè)條件時(shí)終止遺傳算法，得到關(guān)鍵詞組合?；氐綀D9所示的裝置，分類單元1008用于將包括相同關(guān)鍵詞的文檔分到相同類別。通過本裝置，可以對(duì)多篇文檔進(jìn)行分類，從而方便用戶的閱讀。需要說明的是，在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行，并且，雖然在流程圖中示出了邏輯順序，但是在某些情況下，可以以不同于此處的順序執(zhí)行所示出或描述的步驟。顯然，本領(lǐng)域的技術(shù)人員應(yīng)該明白，上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算裝置來實(shí)現(xiàn)，它們可以集中在單個(gè)的計(jì)算裝置上，或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上，可選地，它們可以用計(jì)算裝置可執(zhí)行的程序代碼來實(shí)現(xiàn)，從而，可以將它們存儲(chǔ)在存儲(chǔ)裝置中由計(jì)算裝置來執(zhí)行，或者將它們分別制作成各個(gè)集成電路模塊，或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來實(shí)現(xiàn)。這樣，本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已，并不用于限制本發(fā)明，對(duì)于本領(lǐng)域的技術(shù)人員來說，本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李學(xué)科
技術(shù)所有人：北界創(chuàng)想（北京）軟件有限公司
我是此專利的發(fā)明人

上一篇：模擬裂隙環(huán)境中植物根系的生長觀測系統(tǒng)的制作方法與工藝
上一篇：農(nóng)業(yè)大棚的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

關(guān)鍵詞聚類相關(guān)技術(shù)

spss進(jìn)行聚類分析相關(guān)技術(shù)

如何進(jìn)行聚類分析相關(guān)技術(shù)

spss如何進(jìn)行聚類分析相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

對(duì)網(wǎng)頁中高頻關(guān)鍵詞進(jìn)行聚類的方法及裝置與流程