本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,具體而言,涉及一種對(duì)網(wǎng)頁中高頻關(guān)鍵詞進(jìn)行聚類的方法及裝置。
背景技術(shù):在互聯(lián)網(wǎng)信息急劇增加的情況下,如何發(fā)現(xiàn)最有價(jià)值的信息是尚未解決的問題。因?yàn)樾畔?huì)通過多種渠道和形式發(fā)布,甚至出現(xiàn)同一條信息有不同描述的情況,為讀者準(zhǔn)確獲取某類別的信息帶來一定障礙。為了有效獲取不同類型的信息,現(xiàn)有技術(shù)會(huì)對(duì)多篇網(wǎng)頁文檔進(jìn)行聚類,然而,現(xiàn)有技術(shù)的聚類方式是基于網(wǎng)頁文檔全文的,由于網(wǎng)頁文檔全文的信息量較大,對(duì)全文的聚類需耗費(fèi)較大工作量;同時(shí),全文里涉及內(nèi)容較多,一些詞語并不能反映文檔的主要內(nèi)容,這些詞語會(huì)影響文檔聚類的準(zhǔn)確性。因此,對(duì)通過全文對(duì)網(wǎng)頁文檔進(jìn)行聚類不能滿足對(duì)信息的聚類要求。
技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例提供一種對(duì)網(wǎng)頁中高頻關(guān)鍵詞進(jìn)行聚類的方法和裝置,以提供對(duì)網(wǎng)頁文檔更準(zhǔn)確的分類方案。本發(fā)明為了實(shí)現(xiàn)上述目的,提供一種對(duì)多個(gè)網(wǎng)頁中高頻關(guān)鍵詞進(jìn)行聚類的方法,包括:抓取所述多個(gè)網(wǎng)頁對(duì)應(yīng)的多個(gè)網(wǎng)頁文檔;對(duì)抓取到的所述多個(gè)網(wǎng)頁文檔中的各個(gè)網(wǎng)頁文檔進(jìn)行分詞以獲取多個(gè)詞語;確定各個(gè)網(wǎng)頁文檔對(duì)應(yīng)的關(guān)鍵詞組合,其中,所述關(guān)鍵詞組合包括表征對(duì)應(yīng)網(wǎng)頁文檔內(nèi)容的關(guān)鍵詞;從多個(gè)關(guān)鍵詞組合中獲取高頻關(guān)鍵詞,其中,所述高頻關(guān)鍵詞為多個(gè)關(guān)鍵詞組合中在預(yù)設(shè)時(shí)間周期內(nèi)滿足預(yù)設(shè)條件的關(guān)鍵詞;以及按相似度對(duì)所述高頻關(guān)鍵詞進(jìn)行聚類,以獲得同類高頻關(guān)鍵詞。在一個(gè)實(shí)施例中,確定各個(gè)網(wǎng)頁文檔對(duì)應(yīng)的關(guān)鍵詞組合包括:隨機(jī)組成多個(gè)當(dāng)前代詞語組合;計(jì)算所述多個(gè)當(dāng)前代詞語組合與所述網(wǎng)頁文檔的匹配程度,獲得當(dāng)前代最優(yōu)個(gè)體;對(duì)所述多個(gè)當(dāng)前代詞語組合進(jìn)行重組操作,得到多個(gè)新一代詞語組合;計(jì)算所述多個(gè)新一代詞語組合與所述網(wǎng)頁文檔的多個(gè)新匹配程度,獲得新一代最優(yōu)個(gè)體;判斷所述新一代最優(yōu)個(gè)體對(duì)應(yīng)的新匹配程度是否滿足預(yù)設(shè)匹配條件;以及在所述新匹配程度不滿足所述預(yù)設(shè)匹配條件時(shí),重復(fù)所述重組操作,在所述新匹配程度滿足所述預(yù)設(shè)匹配條件時(shí),將所述新一代最優(yōu)個(gè)體確定為所述關(guān)鍵詞組合。在一個(gè)實(shí)施例中,計(jì)算所述詞語組合與所述網(wǎng)頁文檔的匹配程度包括:獲取網(wǎng)頁文檔中的詞語總數(shù)量;根據(jù)詞頻和反向文檔頻計(jì)算各詞語的詞頻值;根據(jù)所述詞語組合中各詞語的詞頻值和所述網(wǎng)頁文檔的詞語總數(shù)量對(duì)所述詞語組合進(jìn)行矢量化,得到詞語組合矢量;根據(jù)所述網(wǎng)頁文檔中各詞語的詞頻值和所述網(wǎng)頁文檔的詞語總數(shù)量對(duì)所述網(wǎng)頁文檔進(jìn)行矢量化,得到文檔矢量;以及根據(jù)所述詞語組合矢量和所述文檔矢量的矢量參數(shù)計(jì)算所述詞語組合的個(gè)體適應(yīng)度,其中,所述個(gè)體適應(yīng)度作為所述匹配程度的依據(jù)。在一個(gè)實(shí)施例中,從多個(gè)關(guān)鍵詞組合中獲取高頻關(guān)鍵詞包括:分別獲取所述多個(gè)網(wǎng)頁文檔對(duì)應(yīng)的所述關(guān)鍵詞組合中所述多個(gè)關(guān)鍵詞的訪問數(shù)量,所述訪問數(shù)量為在所述預(yù)設(shè)時(shí)間周期內(nèi)所述關(guān)鍵詞組合對(duì)應(yīng)網(wǎng)頁文檔的獨(dú)立訪客數(shù)量;將所述訪問數(shù)量滿足預(yù)設(shè)數(shù)量條件的關(guān)鍵詞確定為所述多個(gè)網(wǎng)頁文檔的高頻關(guān)鍵詞。在一個(gè)實(shí)施例中,按相似度對(duì)所述高頻關(guān)鍵詞進(jìn)行聚類包括:分別獲取所述多個(gè)網(wǎng)頁文檔對(duì)應(yīng)的所述關(guān)鍵詞組合中所述多個(gè)關(guān)鍵詞的訪問數(shù)量,所述訪問數(shù)量為在所述預(yù)設(shè)時(shí)間周期內(nèi)所述關(guān)鍵詞組合對(duì)應(yīng)網(wǎng)頁文檔的獨(dú)立訪客數(shù)量;獲取各關(guān)鍵詞的訪問數(shù)量在所述預(yù)設(shè)時(shí)間周期內(nèi)隨時(shí)間的變化趨勢;將所述變化趨勢的相似系數(shù)滿足預(yù)設(shè)系數(shù)條件的多個(gè)關(guān)鍵詞作為同類高頻關(guān)鍵詞。在一個(gè)實(shí)施例中,在按相似度對(duì)所述高頻關(guān)鍵詞進(jìn)行聚類之后,所述方法還包括:將所述同類高頻關(guān)鍵詞對(duì)應(yīng)的網(wǎng)頁文檔以話題的形式推送至用戶。在一個(gè)實(shí)施例中,抓取所述多個(gè)網(wǎng)頁對(duì)應(yīng)的所述多個(gè)網(wǎng)頁文檔中包括:確定各個(gè)網(wǎng)頁中各行的字?jǐn)?shù);計(jì)算各個(gè)網(wǎng)頁的字?jǐn)?shù)的標(biāo)準(zhǔn)差;在一個(gè)網(wǎng)頁中,當(dāng)連續(xù)多行的字?jǐn)?shù)大于所述標(biāo)準(zhǔn)差時(shí),確定字?jǐn)?shù)大于標(biāo)準(zhǔn)差的連續(xù)多行的文字為網(wǎng)頁文檔。本發(fā)明為了實(shí)現(xiàn)上述目的,提供一種對(duì)多個(gè)網(wǎng)頁中高頻關(guān)鍵詞進(jìn)行聚類的裝置,包括:抓取單元,用于抓取所述多個(gè)網(wǎng)頁對(duì)應(yīng)的多個(gè)網(wǎng)頁文檔;分詞單元,用于對(duì)抓取到的所述多個(gè)網(wǎng)頁文檔中的各個(gè)網(wǎng)頁文檔進(jìn)行分詞以獲取多個(gè)詞語;確定單元,用于確定各個(gè)網(wǎng)頁文檔對(duì)應(yīng)的關(guān)鍵詞組合,其中,所述關(guān)鍵詞組合包括表征對(duì)應(yīng)網(wǎng)頁文檔內(nèi)容的關(guān)鍵詞;獲取單元,用于從多個(gè)關(guān)鍵詞組合中獲取高頻關(guān)鍵詞,其中,所述高頻關(guān)鍵詞為多個(gè)關(guān)鍵詞組合中在預(yù)設(shè)時(shí)間周期內(nèi)滿足預(yù)設(shè)條件的關(guān)鍵詞;聚類單元,用于按相似度對(duì)所述高頻關(guān)鍵詞進(jìn)行聚類,以獲得同類高頻關(guān)鍵詞。在一個(gè)實(shí)施例中,所述確定單元包括:組合子單元,用于隨機(jī)組成多個(gè)當(dāng)前代詞語組合;第一計(jì)算子單元,用于計(jì)算所述當(dāng)前代詞語組合與所述網(wǎng)頁文檔的匹配程度,獲得當(dāng)前代最優(yōu)詞語組合;重組子單元,用于對(duì)所述多個(gè)當(dāng)前代詞語組合進(jìn)行重組操作,得到多個(gè)新一代詞語組合;第二計(jì)算子單元,用于計(jì)算所述多個(gè)新一代詞語組合與所述網(wǎng)頁文檔的多個(gè)新匹配程度,獲得新一代最優(yōu)詞語組合;判斷子單元,用于判斷所述新一代最優(yōu)詞語組合對(duì)應(yīng)的新匹配程度是否滿足預(yù)設(shè)匹配條件,以及確定子單元,在所述新匹配程度不滿足所述預(yù)設(shè)匹配條件時(shí),重復(fù)所述重組操作,在所述新匹配程度滿足所述預(yù)設(shè)匹配條件時(shí),將所述新一代最優(yōu)個(gè)體確定為所述關(guān)鍵詞組合。在一個(gè)實(shí)施例中,所述第二計(jì)算子單元包括:獲取模塊,用于獲取網(wǎng)頁文檔中的詞語總數(shù)量;第一計(jì)算模塊,用于根據(jù)詞頻和反向文檔頻計(jì)算各詞語的詞頻值;第一矢量模塊,用于根據(jù)所述詞語組合中各詞語的詞頻值和所述網(wǎng)頁文檔的詞語總數(shù)量對(duì)所述詞語組合進(jìn)行矢量化,得到詞語組合矢量;第二矢量模塊,用于根據(jù)所述網(wǎng)頁文檔中各詞語的詞頻值和所述網(wǎng)頁文檔的詞語總數(shù)量對(duì)所述網(wǎng)頁文檔進(jìn)行矢量化,得到文檔矢量;以及第二計(jì)算模塊,用于根據(jù)所述詞語組合矢量和所述文檔矢量的矢量參數(shù)計(jì)算所述詞語組合的個(gè)體適應(yīng)度,其中,所述個(gè)體適應(yīng)度作為所述匹配程度的依據(jù)。本發(fā)明為了實(shí)現(xiàn)上述目的,提供一種對(duì)多個(gè)文檔進(jìn)行分類的方法,包括:獲取所述多個(gè)文檔;對(duì)所述多個(gè)文檔分別進(jìn)行分詞以獲取多個(gè)詞語;確定每個(gè)文檔對(duì)應(yīng)的關(guān)鍵詞組合,其中,所述關(guān)鍵詞組合包括表征對(duì)應(yīng)文檔內(nèi)容的關(guān)鍵詞;將包括相同關(guān)鍵詞的文檔分到相同類別。在一個(gè)實(shí)施例中,確定文檔對(duì)應(yīng)的關(guān)鍵詞組合包括:通過遺傳算法從所述關(guān)鍵詞中確定關(guān)鍵詞組合。在一個(gè)實(shí)施例中,通過遺傳算法從所述關(guān)鍵詞中確定關(guān)鍵詞組合包括:將所述多個(gè)詞語初始化為多個(gè)詞語組合;對(duì)所述多個(gè)詞語組合進(jìn)行復(fù)制、交叉及變異操作,獲得下一代詞語組合;計(jì)算所述下一代詞語組合與所述文檔的匹配程度;以及在所述匹配程度滿足預(yù)設(shè)條件時(shí)終止所述遺傳算法,得到所述關(guān)鍵詞組合。在一個(gè)實(shí)施例中,計(jì)算經(jīng)過所述遺傳算法的所述詞語組合與所述文檔的匹配程度包括:獲取文檔中的詞語總數(shù)量;根據(jù)詞頻和反向文檔頻計(jì)算各詞語的詞頻值;根據(jù)所述詞語組合中各詞語的詞頻值和所述文檔的詞語總數(shù)量對(duì)所述詞語組合進(jìn)行矢量化,得到詞語組合矢量;根據(jù)所述文檔中各詞語的詞頻值和所述文檔的詞語總數(shù)量對(duì)所述文檔進(jìn)行矢量化,得到文檔矢量;以及根據(jù)所述詞語組合矢量和所述文檔矢量的矢量參數(shù)計(jì)算所述詞語組合的個(gè)體適應(yīng)度,其中,所述個(gè)體適應(yīng)度作為所述匹配程度的依據(jù)。本發(fā)明為了實(shí)現(xiàn)上述目的,提供一種對(duì)多個(gè)文檔進(jìn)行分類的裝置,包括:獲取單元,用于獲取所述多個(gè)文檔;分詞單元,對(duì)所述多個(gè)文檔分別進(jìn)行分詞以獲取多個(gè)詞語;確定單元,用于確定每個(gè)文檔對(duì)應(yīng)的關(guān)鍵詞組合,其中,所述關(guān)鍵詞組合包括表征對(duì)應(yīng)文檔內(nèi)容的關(guān)鍵詞;分類單元,用于將包括相同關(guān)鍵詞的文檔分到相同類別。在一個(gè)實(shí)施例中,所述確定單元還用于:通過遺傳算法從所述關(guān)鍵詞中確定關(guān)鍵詞組合。在一個(gè)實(shí)施例中,所述確定單元包括:組合子單元,用于將所述多個(gè)詞語初始化為多個(gè)詞語組合;處理子單元,用于對(duì)所述多個(gè)詞語組合進(jìn)行復(fù)制、交叉及變異操作,獲得下一代詞語組合;計(jì)算子單元,用于計(jì)算所述下一代詞語組合與所述文檔的匹配程度;以及終止子單元,用于在所述匹配程度滿足預(yù)設(shè)條件時(shí)終止所述遺傳算法,得到所述關(guān)鍵詞組合。本發(fā)明通過提取關(guān)鍵詞組合來準(zhǔn)確和全面地反映網(wǎng)頁文檔的內(nèi)容,再對(duì)組合中的關(guān)鍵詞重新聚類,將具有關(guān)聯(lián)性的網(wǎng)頁文檔劃分在同一話題中,從而使用戶更加方便地閱讀同一話題的網(wǎng)頁文檔,簡化了用戶對(duì)信息的搜集,節(jié)省了用戶的時(shí)間。附圖說明構(gòu)成本申請(qǐng)的一部分的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:圖1是根據(jù)本發(fā)明實(shí)施例的對(duì)多個(gè)網(wǎng)頁中高頻關(guān)鍵詞進(jìn)行聚類的方法的流程圖;圖2是根據(jù)本發(fā)明實(shí)施例的關(guān)鍵詞組合的確定方法的流程圖;圖3是根據(jù)本發(fā)明實(shí)施例的適應(yīng)度計(jì)算方法的流程圖;圖4A是根據(jù)本發(fā)明實(shí)施例的獲取同類高頻關(guān)鍵詞方法的流程圖;圖4B為根據(jù)本發(fā)明實(shí)施例的關(guān)鍵詞聚類二叉樹示意圖,圖5是根據(jù)發(fā)明實(shí)施例的對(duì)多個(gè)網(wǎng)頁中高頻關(guān)鍵詞進(jìn)行聚類的裝置的結(jié)構(gòu)框圖;圖6是根據(jù)本發(fā)明實(shí)施例的確定單元的結(jié)構(gòu)框圖;圖7是根據(jù)本發(fā)明實(shí)施例的第一計(jì)算子單元的結(jié)構(gòu)框圖;圖8是根據(jù)本發(fā)明實(shí)施例的聚類單元510的結(jié)構(gòu)框圖;圖9是根據(jù)本發(fā)明實(shí)施例的對(duì)文檔進(jìn)行分類的方法的流程圖;圖10是根據(jù)本發(fā)明實(shí)施例的文檔的分類裝置的結(jié)構(gòu)框圖;圖11是根據(jù)本發(fā)明實(shí)施例的確定單元1006的結(jié)構(gòu)框圖。具體實(shí)施方式需要說明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。本實(shí)施例的目的之一是對(duì)信息進(jìn)行聚類,形成話題,話題是高頻關(guān)鍵詞組合,高頻關(guān)鍵詞是滿足一定條件的表征文檔內(nèi)容的關(guān)鍵詞,通過確定不同話題,便于互聯(lián)網(wǎng)用戶更加便捷地獲取所需的信息。基于此,本發(fā)明實(shí)施例提供了一種對(duì)多個(gè)網(wǎng)頁中高頻關(guān)鍵詞進(jìn)行聚類的方法。圖1是根據(jù)本發(fā)明實(shí)施例的對(duì)多個(gè)網(wǎng)頁中高頻關(guān)鍵詞進(jìn)行聚類的方法的流程圖。如圖1所示,該方法包括如下的步驟S102至步驟S110。步驟S102,抓取多個(gè)網(wǎng)頁對(duì)應(yīng)的多個(gè)網(wǎng)頁文檔。本步驟可具體按以下方式完成:首先,從瀏覽器日志中提取用戶訪問記錄,包括用戶唯一識(shí)別標(biāo)識(shí)和用戶訪問過的統(tǒng)一資源定位符(UniformResourceLocator,URL),為避免重復(fù)抓取,可根據(jù)URL的哈希值進(jìn)行排重過濾。然后,遍歷排重后的URL集合抓取網(wǎng)頁源碼。接著,可以對(duì)超文本標(biāo)記語言(HypertextMarkupLanguage,HTML)進(jìn)行格式化,因不規(guī)范的HTML代碼及噪音數(shù)據(jù)會(huì)嚴(yán)重影響正文提取的效果,所以首先對(duì)原始HTML代碼進(jìn)行格式化。補(bǔ)齊不對(duì)稱的HTML標(biāo)簽(如”<tr><td>表格”,格式化后為”<tr><td>表格</td></tr>”),使用正則表達(dá)式初步刪除噪音數(shù)據(jù)(如javascript和css代碼等)。為了更加準(zhǔn)確的獲取網(wǎng)頁文本內(nèi)容的信息,還可以獲取多個(gè)網(wǎng)頁文檔。首先可以確定各個(gè)網(wǎng)頁文本中各行的字?jǐn)?shù),以回車符作為換行標(biāo)識(shí),計(jì)算每行的字?jǐn)?shù)LN,本實(shí)施例中的字?jǐn)?shù)可以指非標(biāo)簽字符的字?jǐn)?shù)。然后計(jì)算各個(gè)網(wǎng)頁或整篇文檔的字?jǐn)?shù)的標(biāo)準(zhǔn)差SD。在一個(gè)網(wǎng)頁中,當(dāng)連續(xù)多行的字?jǐn)?shù)大于標(biāo)準(zhǔn)差時(shí),確定字?jǐn)?shù)大于標(biāo)準(zhǔn)差的連續(xù)多行的文字為網(wǎng)頁文檔。具體地,字?jǐn)?shù)超過標(biāo)準(zhǔn)差的行間距均值LS,從網(wǎng)頁文本中選取多個(gè)目標(biāo)區(qū)塊,最終的網(wǎng)頁文檔從目標(biāo)區(qū)塊中得出,目標(biāo)區(qū)塊可以根據(jù)以下標(biāo)準(zhǔn)進(jìn)行選?。阂訪N>SD的行作為目標(biāo)區(qū)塊開始,以n表示當(dāng)前行下標(biāo),若n+LS行中不存在任意行字?jǐn)?shù)超過SD,則第n行作為目標(biāo)區(qū)塊結(jié)束,在本實(shí)施例中,開始行和結(jié)束行為同一行的,不被認(rèn)為是目標(biāo)區(qū)塊。例如,格式化后的HTML源碼字?jǐn)?shù)分布如下:以上舉例計(jì)算可得:字?jǐn)?shù)標(biāo)準(zhǔn)差SD=4.4,超過標(biāo)準(zhǔn)差的行間距均值LS=1,所以可以從該網(wǎng)頁文檔中選取兩個(gè)目標(biāo)區(qū)塊,以行標(biāo)表示分別為目標(biāo)區(qū)塊一{3,4,5}和目標(biāo)區(qū)塊二{9,10},因?yàn)槟繕?biāo)區(qū)塊一的字?jǐn)?shù)最多,所以確定目標(biāo)區(qū)塊一內(nèi)的文本為網(wǎng)頁文檔。返回圖1中的步驟S104,對(duì)抓取到的多個(gè)網(wǎng)頁文檔中的各個(gè)網(wǎng)頁文檔進(jìn)行分詞以獲取多個(gè)詞語。分詞過程基于詞庫的正向最大匹配,非詞庫中的連續(xù)出現(xiàn)的英文數(shù)字混排字符也會(huì)作分詞處理。首先可以獲取詞庫,其中,詞庫中包括常用的詞匯,例如各常用的動(dòng)詞和名詞。然后將網(wǎng)頁文檔中的文字與詞庫匹配以進(jìn)行分詞。例如對(duì)于“我想看電影”,分別可以和詞庫里的“我”“想”“看”和“電影”匹配,因此,不會(huì)出現(xiàn)“看電”這樣的分詞。步驟S106,確定各個(gè)網(wǎng)頁文檔對(duì)應(yīng)的關(guān)鍵詞組合,其中,關(guān)鍵詞組合包括表征對(duì)應(yīng)網(wǎng)頁文檔內(nèi)容的關(guān)鍵詞。一般來講,每個(gè)網(wǎng)頁文檔唯一對(duì)應(yīng)一個(gè)關(guān)鍵詞組合。關(guān)鍵詞組合中詞語的數(shù)量可預(yù)先設(shè)置,當(dāng)多個(gè)詞語組成的特定組合與網(wǎng)頁文檔的匹配程度滿足預(yù)設(shè)匹配程度時(shí),確定特定組合為關(guān)鍵詞組合。例如預(yù)設(shè)一篇網(wǎng)頁文檔的關(guān)鍵詞組合由4個(gè)關(guān)鍵詞組成,當(dāng)某網(wǎng)頁文檔中由“中國”“鳥巢”“08”“奧運(yùn)”組成的詞語組合與該網(wǎng)頁文檔的匹配程度滿足預(yù)設(shè)匹配程度時(shí),那么這個(gè)詞語組合就是這篇網(wǎng)頁文檔的關(guān)鍵詞組合。圖2是根據(jù)本發(fā)明實(shí)施例的關(guān)鍵詞組合的確定方法的流程圖。步驟S202,隨機(jī)組成多個(gè)當(dāng)前代詞語組合。本步驟通過隨機(jī)組成詞語組合進(jìn)行種群初始化。在利用遺傳算法對(duì)網(wǎng)頁文檔中的關(guān)鍵詞進(jìn)行計(jì)算時(shí),種群、個(gè)體及基因的相應(yīng)定義如下:種群為多組詞語組合,其中每個(gè)詞語組合為單獨(dú)個(gè)體,每個(gè)詞語組合中的一個(gè)詞語即為基因。種群、個(gè)體、基因的關(guān)系為:多個(gè)詞語(基因)組成一個(gè)詞語組合(個(gè)體),多個(gè)詞語組合(個(gè)體)組成一個(gè)種群。對(duì)各篇文章中的所有詞語進(jìn)行種群初始化,即將這些詞語隨機(jī)分為多個(gè)詞語組合,定義這多個(gè)詞語組合為種群,例如,某篇文檔共包括X個(gè)詞語,預(yù)設(shè)每個(gè)詞語組合包括N個(gè)詞語,將該X個(gè)詞語分為Y個(gè)詞語組合(X=N*Y),Y個(gè)詞語組合稱為一個(gè)種群,N個(gè)詞語組成的一個(gè)詞語組合稱為一個(gè)體。種群大小,即個(gè)體數(shù)指該種群的Y值,一個(gè)種群的種群大小和個(gè)體數(shù)可以進(jìn)行預(yù)設(shè)。步驟S204,計(jì)算當(dāng)前代詞語組合與網(wǎng)頁文檔的匹配程度,獲得當(dāng)前代最優(yōu)詞語組合。在本實(shí)施例中,以詞語組合的個(gè)體適應(yīng)度作為匹配程度的依據(jù)。匹配度最高的詞語組合為當(dāng)前代的最優(yōu)個(gè)體。圖3是根據(jù)本發(fā)明實(shí)施例的適應(yīng)度計(jì)算方法的流程圖。步驟S302,獲取網(wǎng)頁文檔中的詞語總數(shù)量。例如,一篇網(wǎng)頁文檔中有10個(gè)不同詞語,則詞語總數(shù)量為10。步驟S304,根據(jù)詞頻(TermFrequency,TF)和反向文檔頻(InverseDocumentFrequency,IF)計(jì)算各詞語的詞頻值。具體地,在本篇網(wǎng)頁文檔中出現(xiàn)頻率越高,則詞頻越高,在其他網(wǎng)頁文檔中出現(xiàn)頻率越低,則反向文檔頻越高,例如,在西游記的某一個(gè)章節(jié)中,“孫悟空”出現(xiàn)頻率很高,TF為3,而“孫悟空”在另一篇網(wǎng)頁文檔中出現(xiàn)次數(shù)很少,IDF可能為5,根據(jù)用戶需求設(shè)置一個(gè)詞頻值的計(jì)算公式,帶入TF和IDF的值,則可以算出該詞語的詞頻值。步驟S306,根據(jù)詞語組合中各詞語的詞頻值和網(wǎng)頁文檔的詞語總數(shù)量對(duì)詞語組合進(jìn)行矢量化。通過本步驟可以得到詞語組合矢量。例如,網(wǎng)頁文檔由3個(gè)不同的詞語組成,關(guān)鍵詞組合包含2個(gè)詞語,因此建立一個(gè)3維坐標(biāo)系。如果以上3個(gè)詞的詞頻值分別是1,2,3,則第一個(gè)詞語經(jīng)矢量化得到的矢量為(1,0,0,),第二個(gè)詞語經(jīng)矢量化得到的矢量為(0,2,0),第三個(gè)詞語經(jīng)矢量化得到的矢量為(0,0,3),通過矢量相加即可得到每個(gè)詞語組合的矢量,本實(shí)施例中可能出現(xiàn)的詞語組合的矢量為(1,2,0)、(0,2,3)和(1,0,3)。步驟S308,每篇網(wǎng)頁文檔同樣也有一個(gè)對(duì)應(yīng)的文檔矢量,根據(jù)該網(wǎng)頁文檔中各詞語的詞頻值和網(wǎng)頁文檔的詞語總數(shù)量對(duì)該網(wǎng)頁文檔進(jìn)行矢量化,可以得到該網(wǎng)頁文檔的文檔矢量。步驟S310,根據(jù)詞語組合矢量與文檔矢量的矢量參數(shù)計(jì)算該詞語組合的個(gè)體適應(yīng)度,其中,個(gè)體適應(yīng)度作為匹配程度的依據(jù)。個(gè)體適應(yīng)度的計(jì)算函數(shù)根據(jù)不同的需求而不同,詞語組合矢量與文檔矢量越匹配,則該詞語組合的個(gè)體適應(yīng)度越高,個(gè)體適應(yīng)度最高的詞語組合即為該網(wǎng)頁文檔的關(guān)鍵詞組合。本實(shí)施例還可以認(rèn)為矢量之間的夾角最小的為最匹配,或者矢量端點(diǎn)間距離最短的為最匹配,或者以直方圖的形式來表示,在直方圖中高度與網(wǎng)頁文檔最接近的詞語組合為該網(wǎng)頁文檔的關(guān)鍵詞組合。返回圖2,步驟S206,對(duì)當(dāng)前代詞語組合進(jìn)行重組操作,得到新一代詞語組合。重組操作具體可以表現(xiàn)為復(fù)制、交叉及變異。在針對(duì)網(wǎng)頁文檔的本實(shí)施例中,復(fù)制為將某個(gè)體直接遺傳到下一代,即選取一些詞語組合直接作為新一代詞語組合中的成員;交叉為將兩個(gè)個(gè)體的部分基因相互替換,生成新個(gè)體遺傳到下一代,即將兩個(gè)詞語組合中的某些詞語進(jìn)行相互替換,得到新一代詞語組合中的成員;變異為個(gè)體中的某個(gè)基因隨機(jī)更換成別的基因生成新的個(gè)體遺傳到下一代,即將某個(gè)詞語組合中的個(gè)別詞語更換成其他詞語。例如,有第一個(gè)體(a,b)和第二個(gè)體(c,d),將(a,b)直接遺傳到下一代為復(fù)制,將(a,b)和(c,d)的相互替換變?yōu)椋╝,c)和(b,d)遺傳到下一代為交叉,直接將(a,b)變?yōu)椋╝,d)遺傳到下一代為變異。步驟S208,計(jì)算新一代詞語組合與網(wǎng)頁的新匹配程度,獲得新一代最優(yōu)詞語組合。該計(jì)算方法可參照?qǐng)D3的適應(yīng)度計(jì)算方法。在一個(gè)實(shí)施例中,當(dāng)步驟S204已針對(duì)當(dāng)前代詞語組合與網(wǎng)頁文檔的匹配程度進(jìn)行過計(jì)算后,步驟S302獲取多個(gè)網(wǎng)頁文檔中的詞語總數(shù)量及步驟S304根據(jù)詞頻和反向文檔頻計(jì)算各詞語的詞頻值步驟可被省略。新一代詞語組合中對(duì)應(yīng)新匹配程度最高的詞語組合可作為新一代的最優(yōu)詞語組合。步驟S210,判斷新一代最優(yōu)詞語組合的匹配程度是否滿足預(yù)設(shè)匹配條件,例如,該預(yù)設(shè)匹配條件可以為以下兩種,其中,如前所述,匹配程度及對(duì)應(yīng)個(gè)體適應(yīng)度:例一,可對(duì)最優(yōu)個(gè)體適應(yīng)度連續(xù)不變的迭代代數(shù)進(jìn)行預(yù)先指定。例如指定代數(shù)閾值n,在n代內(nèi)種群最優(yōu)個(gè)體的個(gè)體適應(yīng)度不變,則最后一代的最優(yōu)詞語組合為關(guān)鍵詞組合。具體地,假設(shè)閾值n為5,則在5代內(nèi),例如第1代、第2代、第3代、第4代及第5代連續(xù)5代內(nèi),最優(yōu)個(gè)體的適應(yīng)度值保持不變,則第5代的最優(yōu)詞語組合為關(guān)鍵詞組合。例二,可將下述公式(1)作為預(yù)設(shè)匹配條件:Σx=n-mnS(x)---(1)]]>其中,n為當(dāng)前代數(shù),m為指定的閾值,S(x)為第x代最優(yōu)個(gè)體的個(gè)體適應(yīng)度。也即,當(dāng)從第n-m-1代至第n-1代共計(jì)m代的最優(yōu)個(gè)體的適應(yīng)度總和大于從第n-m代至第n代共計(jì)m代的最優(yōu)個(gè)體適應(yīng)度總和時(shí),終止進(jìn)化。例如:當(dāng)n=10,m=5時(shí),即當(dāng)前為第10代,預(yù)先指定的代數(shù)為5時(shí),從第4代至第9代共計(jì)5代的最優(yōu)個(gè)體適應(yīng)度總和大于或等于從第5代至第10代共計(jì)5代的最優(yōu)個(gè)體適應(yīng)度總和時(shí),最后一代的最優(yōu)個(gè)體即為關(guān)鍵詞組合。步驟S212,當(dāng)所述新匹配程度不滿足該預(yù)設(shè)匹配條件時(shí),重復(fù)重組操作,在新匹配程度滿足該預(yù)設(shè)匹配條件時(shí),將新一代最優(yōu)詞語組合確定為關(guān)鍵詞組合。步驟S214,在確定關(guān)鍵詞組合后,終止迭代。返回圖1的步驟S108,從多個(gè)關(guān)鍵詞組合中獲取高頻關(guān)鍵詞,其中,高頻關(guān)鍵詞為多組關(guān)鍵詞組合中在預(yù)設(shè)時(shí)間周期內(nèi)滿足預(yù)設(shè)條件的關(guān)鍵詞。在本步驟中,可以獲取多個(gè)網(wǎng)頁文檔在預(yù)設(shè)時(shí)間周期內(nèi)的獨(dú)立訪客數(shù)量(UniqueVisitor,UV)并將每個(gè)網(wǎng)頁文檔的UV定義為該文檔對(duì)應(yīng)的關(guān)鍵詞組合中多個(gè)關(guān)鍵詞的訪問數(shù)量;將訪問數(shù)量在預(yù)設(shè)數(shù)量條件以上的關(guān)鍵詞定義為該多個(gè)網(wǎng)頁文檔的高頻關(guān)鍵詞,具體地,包括以下步驟S1至S3。S1,統(tǒng)計(jì)每個(gè)網(wǎng)頁的預(yù)定時(shí)間周期內(nèi)的UV,并以此作為關(guān)鍵詞的訪問數(shù)量,本實(shí)施例中的UV定義如下:同一用戶N(N≥1)次訪問同一網(wǎng)頁,UV為1。S2,根據(jù)步驟S1的數(shù)據(jù)繪制每個(gè)關(guān)鍵詞的時(shí)間-訪問數(shù)量走勢圖,由此可得出每個(gè)關(guān)鍵詞在預(yù)設(shè)時(shí)間周期內(nèi)最大訪問數(shù)量和最大單位時(shí)間訪問數(shù)量,即斜率。S3,噪音關(guān)鍵詞過濾:將訪問數(shù)量滿足預(yù)設(shè)數(shù)量條件的關(guān)鍵詞作為高頻關(guān)鍵詞。例如,取所有關(guān)鍵詞最大斜率的平均值為預(yù)設(shè)數(shù)量條件對(duì)關(guān)鍵詞進(jìn)行篩選,將最大斜率在該預(yù)設(shè)數(shù)量以下的關(guān)鍵詞刪去。本實(shí)施例將高頻關(guān)鍵詞涉及的內(nèi)容作為輿論關(guān)注的熱點(diǎn),通過高頻關(guān)鍵詞可以快速準(zhǔn)確找出當(dāng)前的熱點(diǎn)信息。返回圖1中的步驟S110,按相似度對(duì)高頻關(guān)鍵詞進(jìn)行聚類,以獲得同類高頻關(guān)鍵詞。該獲取同類高頻關(guān)鍵詞方法的流程圖如圖4A所示。步驟S402,分別獲取多個(gè)網(wǎng)頁文檔對(duì)應(yīng)的多個(gè)關(guān)鍵詞組合中的多個(gè)關(guān)鍵詞的訪問數(shù)量。該訪問數(shù)量定義為在預(yù)設(shè)時(shí)間周期內(nèi)該關(guān)鍵詞組合對(duì)應(yīng)的網(wǎng)頁文檔的UV,例如,預(yù)設(shè)時(shí)間周期為3天,則計(jì)算3天內(nèi)網(wǎng)頁文檔的UV,該UV即為該網(wǎng)頁文檔對(duì)應(yīng)的關(guān)鍵詞組合中各個(gè)關(guān)鍵詞的訪問數(shù)量。步驟S404,獲取各關(guān)鍵詞的訪問數(shù)量在預(yù)設(shè)時(shí)間周期內(nèi)隨時(shí)間的變化趨勢,例如,建立坐標(biāo)系,該坐標(biāo)系的橫坐標(biāo)為時(shí)間,縱坐標(biāo)為某關(guān)鍵詞的訪問數(shù)量,獲得該關(guān)鍵詞的變化趨勢。步驟S406,將變化趨勢的相似系數(shù)滿足預(yù)設(shè)系數(shù)條件的多個(gè)關(guān)鍵詞作為同類高頻關(guān)鍵詞。本實(shí)施例可根據(jù)皮爾遜相關(guān)系數(shù)計(jì)算每兩個(gè)關(guān)鍵詞曲線的相似系數(shù)S,如下述公式(2)所示:其中,N為預(yù)定時(shí)間周期,X為一個(gè)關(guān)鍵詞的變化趨勢曲線,Y為另一個(gè)關(guān)鍵詞的變化趨勢曲線。在完成所有的兩個(gè)關(guān)鍵詞曲線的相似系數(shù)的計(jì)算后,可依據(jù)關(guān)鍵詞之間的相似系數(shù)S做分層聚類,根據(jù)相似系數(shù)大小順序排列,得出關(guān)鍵詞聚類二叉樹,其中,每個(gè)葉子節(jié)點(diǎn)表示一個(gè)關(guān)鍵詞的變化趨勢曲線,非葉子節(jié)點(diǎn)表示兩個(gè)葉子節(jié)點(diǎn)之間的相似系數(shù),父葉子節(jié)點(diǎn)表示某葉子節(jié)點(diǎn)的次近關(guān)鍵詞的變化趨勢曲線。例如,圖4B為根據(jù)本發(fā)明實(shí)施例的關(guān)鍵詞聚類二叉樹示意圖,如圖所示,關(guān)鍵詞聚類二叉樹400包括葉子節(jié)點(diǎn)410、412、414及非葉子節(jié)點(diǎn)422、432。其中,非葉子節(jié)點(diǎn)422表示葉子節(jié)點(diǎn)412與414之間的相似系數(shù),葉子節(jié)點(diǎn)410為葉子節(jié)點(diǎn)412、414的父葉子節(jié)點(diǎn),非葉子節(jié)點(diǎn)432表示父葉子節(jié)點(diǎn)410與葉子節(jié)點(diǎn)412、414之間數(shù)值較高的相似系數(shù)。例如,當(dāng)兩個(gè)關(guān)鍵詞分別為“海監(jiān)”及“釣魚島”時(shí),葉子節(jié)點(diǎn)412與414分別代表“海監(jiān)”的變化趨勢曲線(X)和“釣魚島”(Y)的變化趨勢曲線,非葉子節(jié)點(diǎn)422即為根據(jù)上述公式(2)所計(jì)算的相似系數(shù)S,例如:0.5。得到聚類二叉樹400后,從聚類二叉樹的葉子節(jié)點(diǎn)開始遍歷,在原始文檔中檢索包含兩個(gè)最近葉子節(jié)點(diǎn)關(guān)鍵詞的文檔,若可以找到,加上父節(jié)點(diǎn)上的關(guān)鍵詞再次檢索,直至檢索不到文檔為止。由此可得出描述多個(gè)話題的詞語組合。仍以上述實(shí)例進(jìn)行說明,如果父葉子節(jié)點(diǎn)410表示的關(guān)鍵詞為“中國”的變化趨勢曲線,計(jì)算所得其與葉子節(jié)點(diǎn)412、414之間數(shù)值較高的相似系數(shù)為0.5,則繼續(xù)檢索,一篇文檔中是否同時(shí)出現(xiàn)“海監(jiān)”和釣魚島”和“中國”,若存在,則繼續(xù)檢索;如果父葉子節(jié)點(diǎn)為“釣魚帽”的變化趨勢曲線,計(jì)算所得其與葉子節(jié)點(diǎn)412、414之間數(shù)值較高的相似系數(shù)為0.3,檢索發(fā)現(xiàn)沒有文檔中同時(shí)出現(xiàn)“海監(jiān)”和釣魚島”和“釣魚帽”,則釣魚帽無法與“海監(jiān)”和“釣魚島”聚類。通過以上聚類,可以將雜亂無序的文檔按內(nèi)容進(jìn)行分類,便于對(duì)文檔的管理。完成話題的聚類后,就可以將同類高頻關(guān)鍵詞對(duì)應(yīng)的網(wǎng)頁文檔以話題的形式推送至用戶。例如,某用戶在看過一篇近期發(fā)表的關(guān)于釣魚島的文章后,系統(tǒng)自動(dòng)將其他近期發(fā)表的關(guān)于釣魚島的文章推送給該用戶。從以上的描述中,可以看出,本發(fā)明實(shí)施例使用戶更加方便地閱讀同一話題的網(wǎng)頁文檔,簡化了用戶對(duì)信息的搜集,節(jié)省了用戶的時(shí)間。本發(fā)明實(shí)施例還提供了一種對(duì)多個(gè)網(wǎng)頁中高頻關(guān)鍵詞進(jìn)行聚類的裝置,以下對(duì)本發(fā)明實(shí)施例所提供的該裝置進(jìn)行介紹。圖5是根據(jù)發(fā)明實(shí)施例的對(duì)多個(gè)網(wǎng)頁中高頻關(guān)鍵詞進(jìn)行聚類的裝置的結(jié)構(gòu)框圖。如圖5所示,該裝置包括抓取單元502、分詞單元504、確定單元506、獲取單元508和聚類單元510。抓取單元502用于抓取多個(gè)網(wǎng)頁對(duì)應(yīng)的多個(gè)網(wǎng)頁文檔。分詞單元504用于對(duì)抓取到的多個(gè)網(wǎng)頁文檔中的各個(gè)網(wǎng)頁文檔進(jìn)行分詞以獲取多個(gè)詞語。確定單元506用于各個(gè)網(wǎng)頁文檔對(duì)應(yīng)的關(guān)鍵詞組合,其中,關(guān)鍵詞組合包括表征對(duì)應(yīng)網(wǎng)頁文檔內(nèi)容的關(guān)鍵詞。具體地,確定單元506可以當(dāng)多個(gè)詞語組成的特定組合與網(wǎng)頁文檔的匹配程度大于或等于任意由相同個(gè)數(shù)的詞語組成的詞語組合時(shí),確定特定組合為關(guān)鍵詞組合。為了實(shí)現(xiàn)上述功能,確定單元506可以包括多個(gè)子單元,圖6是根據(jù)本發(fā)明實(shí)施例的確定單元的結(jié)構(gòu)框圖,如圖6所示,確定單元506包括:組合子單元602,用于隨機(jī)組成多個(gè)當(dāng)前代詞語組合。第一計(jì)算子單元604,用于計(jì)算當(dāng)前代詞語組合與網(wǎng)頁文檔的匹配程度,獲得當(dāng)前代最優(yōu)詞語組合。重組子單元606,用于對(duì)當(dāng)前代詞語組合進(jìn)行重組操作,得到新一代詞語組合。重組操作具體可以表現(xiàn)為復(fù)制、交叉及變異。第二計(jì)算子單元608,用于計(jì)算新一代詞語組合與網(wǎng)頁的新匹配程度,獲得新一代最優(yōu)詞語組合。在上述實(shí)施例中,第一計(jì)算子單元604可以包括多個(gè)模塊,圖7是根據(jù)本發(fā)明實(shí)施例的第一計(jì)算子單元的結(jié)構(gòu)框圖,如圖7所示,第一計(jì)算子單元604包括以下模塊:獲取模塊702,用于獲取網(wǎng)頁文檔中的詞語總數(shù)量。第一計(jì)算模塊704,用于根據(jù)詞頻和反向文檔頻計(jì)算各詞語的詞頻值。第一矢量模塊706,用于根據(jù)詞語組合中各詞語的詞頻值和網(wǎng)頁文檔的詞語總數(shù)量對(duì)詞語組合進(jìn)行矢量化。第二矢量模塊708,用于根據(jù)該網(wǎng)頁文檔中各詞語的詞頻值和網(wǎng)頁文檔的詞語總數(shù)量對(duì)該網(wǎng)頁文檔進(jìn)行矢量化。第二計(jì)算模塊710,用于根據(jù)詞語組合矢量與文檔矢量的矢量參數(shù)計(jì)算該詞語組合的個(gè)體適應(yīng)度。獲取單元508用于從多個(gè)關(guān)鍵詞組合中獲取高頻關(guān)鍵詞,其中,高頻關(guān)鍵詞為多組關(guān)鍵詞組合中在預(yù)設(shè)時(shí)間周期內(nèi)滿足預(yù)設(shè)條件的關(guān)鍵詞。聚類單元510用于按相似度對(duì)高頻關(guān)鍵詞進(jìn)行聚類,以獲得同類高頻關(guān)鍵詞。圖8是根據(jù)本發(fā)明實(shí)施例的聚類單元510的結(jié)構(gòu)框圖,如圖8所示,聚類單元510包括:第一獲取子單元802,用于分別獲取多個(gè)網(wǎng)頁文檔對(duì)應(yīng)的多個(gè)關(guān)鍵詞組合中的多個(gè)關(guān)鍵詞的訪問數(shù)量。第二獲取子單元804,用于獲取各關(guān)鍵詞的訪問數(shù)量在預(yù)設(shè)時(shí)間周期內(nèi)隨時(shí)間的變化趨勢,例如,建立坐標(biāo)系,該坐標(biāo)系的橫坐標(biāo)為時(shí)間,縱坐標(biāo)為某關(guān)鍵詞的訪問數(shù)量,獲得該關(guān)鍵詞的變化趨勢。聚類子單元806,用于將變化趨勢的相似系數(shù)滿足預(yù)設(shè)系數(shù)條件的多個(gè)關(guān)鍵詞作為同類高頻關(guān)鍵詞。以上各單元和子單元的作用和功能對(duì)應(yīng)于方法實(shí)施例中的步驟,各單元和模塊的作用和功能在此不再贅述。在本實(shí)施例中,通過提取關(guān)鍵詞組合來準(zhǔn)確和全面地反映網(wǎng)頁文檔的內(nèi)容,再對(duì)組合中的關(guān)鍵詞重新聚類,將具有關(guān)聯(lián)性的網(wǎng)頁文檔劃分在同一話題中,從而使用戶更加方便地閱讀同一話題的網(wǎng)頁文檔,簡化了用戶對(duì)信息的搜集,節(jié)省了用戶的時(shí)間。本實(shí)施例還提供了另一種對(duì)文檔進(jìn)行分類的方法,該方法可以多篇文檔進(jìn)行分類,圖9是根據(jù)本發(fā)明實(shí)施例的對(duì)文檔進(jìn)行分類的方法的流程圖,如圖9所示,該方法包括步驟S902至S908。步驟S902,讀取多個(gè)文檔。在本步驟中讀取的文檔既可以是網(wǎng)頁文檔,也可以是本地文檔。在對(duì)該文檔進(jìn)行分類時(shí),可以不考慮時(shí)效性和閱讀次數(shù)。步驟S904,對(duì)讀取到的多個(gè)文檔進(jìn)行分詞以獲取多個(gè)詞語。步驟S906,確定文檔對(duì)應(yīng)的關(guān)鍵詞組合,其中,關(guān)鍵詞詞組包括表征對(duì)應(yīng)文檔的內(nèi)容的詞語,關(guān)鍵詞組合中的詞語為關(guān)鍵詞。本方法中的分詞方法和確定關(guān)鍵詞的方法類似于上述對(duì)多個(gè)網(wǎng)頁中高頻關(guān)鍵詞進(jìn)行聚類的方法,例如,可以通過遺傳算法從關(guān)鍵詞中確定關(guān)鍵詞組合。具體地,通過遺傳算法確定關(guān)鍵詞組合可以包括以下步驟:首先,將多個(gè)詞語初始化為組成詞語組合。然后,對(duì)詞語組合進(jìn)行復(fù)制、交叉及變異操作,獲得下一代詞語組合。繼而,計(jì)算下一代詞語組合與文檔的匹配程度。進(jìn)一步地,計(jì)算匹配程度的過程可以通過以下五步實(shí)現(xiàn)。第一步,獲取文檔中的詞語總數(shù)量。例如文檔共有1000個(gè)不同詞語。第二步,根據(jù)詞頻和反向文檔頻計(jì)算各詞語的詞頻值。例如每多出現(xiàn)一次,詞頻值加1。第三步,根據(jù)詞語組合中各詞語的詞頻值和文檔的詞語總數(shù)量對(duì)詞語組合進(jìn)行矢量化,得到詞語組合矢量。第四步,根據(jù)文檔中各詞語的詞頻值和文檔的詞語總數(shù)量對(duì)文檔進(jìn)行矢量化,得到文檔矢量。第五步,根據(jù)詞語組合矢量和文檔矢量的矢量參數(shù)計(jì)算詞語組合的個(gè)體適應(yīng)度,其中,個(gè)體適應(yīng)度作為匹配程度的依據(jù)?;氐酵ㄟ^遺傳算法確定關(guān)鍵詞組合的方法中,最后,在匹配程度滿足預(yù)設(shè)條件時(shí)終止遺傳算法,得到關(guān)鍵詞組合。以上步驟的具體實(shí)現(xiàn)過程已在前述實(shí)施例具體描述,在此不再贅述。回到圖9所示步驟S908,將包括相同關(guān)鍵詞的文檔分到相同類別。例如,關(guān)鍵詞中都包括“足球”的文檔可以分到同一類別。同時(shí),同一篇文章可以被分到多個(gè)類別中,例如,一篇文檔描述了總統(tǒng)觀看足球賽,關(guān)鍵詞包括“總統(tǒng)”和“足球”,那么該文檔可以既歸入涉及體育的“足球”類別,也歸入涉及政治的“總統(tǒng)”類別。通過分類,提高了文檔閱讀時(shí)的用戶體驗(yàn)。相應(yīng)地,本實(shí)施例還提供了一種文檔的分類裝置。圖10是根據(jù)本發(fā)明實(shí)施例的文檔的分類裝置的結(jié)構(gòu)框圖。如圖10所示,該裝置包括讀取單元1002、分詞單元1004、確定單元1006和分類單元1008。讀取單元1002用于讀取多個(gè)文檔。分詞單元1004用于對(duì)讀取到的多個(gè)文檔進(jìn)行分詞以獲取多個(gè)詞語。確定單元1006用于確定文檔對(duì)應(yīng)的關(guān)鍵詞組合,其中,關(guān)鍵詞詞組包括表征對(duì)應(yīng)文檔的內(nèi)容的詞語,關(guān)鍵詞組合中的詞語為關(guān)鍵詞。確定單元1006具體可以通過遺傳算法從關(guān)鍵詞中確定關(guān)鍵詞組合。為了實(shí)現(xiàn)確定關(guān)鍵詞組合的功能,確定單元1006可以包括多個(gè)子單元,圖11是根據(jù)本發(fā)明實(shí)施例的確定單元1006的結(jié)構(gòu)框圖,如圖11所示,確定單元1006包括以下子單元:初始化子單元1102,用于將多個(gè)詞語初始化為多個(gè)詞語組合。處理子單元1104,用于對(duì)詞語組合進(jìn)行復(fù)制、交叉及變異操作,獲得下一代詞語組合。計(jì)算子單元1106,用于計(jì)算下一代詞語組合與文檔的匹配程度。獲取子單元1108,用于在匹配程度滿足預(yù)設(shè)條件時(shí)終止遺傳算法,得到關(guān)鍵詞組合?;氐綀D9所示的裝置,分類單元1008用于將包括相同關(guān)鍵詞的文檔分到相同類別。通過本裝置,可以對(duì)多篇文檔進(jìn)行分類,從而方便用戶的閱讀。需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算裝置來實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來實(shí)現(xiàn),從而,可以將它們存儲(chǔ)在存儲(chǔ)裝置中由計(jì)算裝置來執(zhí)行,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。