新聞事件的聚類方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種新聞事件的聚類方法及裝置。其中方法包括:挖掘新聞頁面的URL,提取所述新聞頁面的頁面標(biāo)題;根據(jù)搜索點(diǎn)擊日志數(shù)據(jù),查找所述新聞頁面的URL對(duì)應(yīng)的搜索詞;根據(jù)所述頁面標(biāo)題和/或搜索詞,對(duì)所述新聞頁面進(jìn)行聚類處理,其中,聚為一類的新聞頁面構(gòu)成一個(gè)新聞事件;從每個(gè)新聞事件的所有新聞頁面對(duì)應(yīng)的頁面標(biāo)題和/或搜索詞中查找得到所述新聞事件的描述信息。本發(fā)明提供的是新聞事件的自動(dòng)聚類方法,相對(duì)于現(xiàn)有技術(shù)來說,效率大大提高。另外,本發(fā)明一方面考慮到頁面標(biāo)題之間的關(guān)聯(lián)性,另一方面考慮到搜索詞的關(guān)聯(lián)性,利用兩方面的關(guān)聯(lián)性完成新聞事件的聚類,提升了新聞事件聚類的精確性。
【專利說明】
新聞事件的聚類方法及裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體涉及一種新聞事件的聚類方法及裝置。【背景技術(shù)】
[0002]隨著信息化技術(shù)的迅速發(fā)展,每時(shí)每刻都會(huì)產(chǎn)生大量的新聞,新聞是指最新發(fā)生的、人們未知、欲知、應(yīng)知的事實(shí)的報(bào)道,如何將新聞快速而有效的傳播出去,成為當(dāng)今社會(huì)一個(gè)非常重要的問題。除了傳統(tǒng)的報(bào)紙、電視等可以用來作為新聞傳播的媒介之外,網(wǎng)絡(luò)也是新聞傳播的一個(gè)重要媒介。
[0003]由于互聯(lián)網(wǎng)的開放特征,導(dǎo)致互聯(lián)網(wǎng)絡(luò)上面的新聞具有異構(gòu)、冗余、動(dòng)態(tài)多變等特性,描述同一新聞的信息通常分散在不同網(wǎng)站上,表現(xiàn)形式也各不相同。為了能從雜亂無章的數(shù)據(jù)洪流中快速、準(zhǔn)確地找到用戶需要的信息,新聞事件聚類技術(shù)是最重要的工具之一。 現(xiàn)有技術(shù)提供的新聞事件聚類大多采用人工專題的形式進(jìn)行全景展現(xiàn),以人工編輯為主, 效率低下。
【發(fā)明內(nèi)容】
[0004]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的新聞事件的聚類方法及裝置。
[0005]根據(jù)本發(fā)明的一個(gè)方面,提供了一種新聞事件的聚類方法,包括:
[0006]挖掘新聞頁面的URL,提取所述新聞頁面的頁面標(biāo)題;
[0007]根據(jù)搜索點(diǎn)擊日志數(shù)據(jù),查找所述新聞頁面的URL對(duì)應(yīng)的搜索詞;
[0008]根據(jù)所述頁面標(biāo)題和/或搜索詞,對(duì)所述新聞頁面進(jìn)行聚類處理,其中,聚為一類的新聞頁面構(gòu)成一個(gè)新聞事件;
[0009]從每個(gè)新聞事件的所有新聞頁面對(duì)應(yīng)的頁面標(biāo)題和/或搜索詞中查找得到所述新聞事件的描述信息。
[0010]根據(jù)本發(fā)明的另一方面,提供了一種新聞事件的聚類裝置,包括:
[0011]數(shù)據(jù)挖掘模塊,適于挖掘新聞頁面的URL,提取所述新聞頁面的頁面標(biāo)題;
[0012]數(shù)據(jù)查找模塊,適于根據(jù)搜索點(diǎn)擊日志數(shù)據(jù),查找所述新聞頁面的URL對(duì)應(yīng)的搜索詞;
[0013]聚類模塊,適于根據(jù)所述頁面標(biāo)題和/或搜索詞,對(duì)所述新聞頁面進(jìn)行聚類處理, 其中,聚為一類的新聞頁面構(gòu)成一個(gè)新聞事件;
[0014]事件描述模塊,適于從每個(gè)新聞事件的所有新聞頁面對(duì)應(yīng)的頁面標(biāo)題和/或搜索詞中查找得到所述新聞事件的描述信息。
[0015]根據(jù)本發(fā)明提供的新聞事件的聚類方法,在挖掘得到新聞頁面的URL之后,提取新聞頁面的頁面標(biāo)題;又根據(jù)搜索點(diǎn)擊日志數(shù)據(jù),查找所述新聞頁面的URL對(duì)應(yīng)的搜索詞。將頁面標(biāo)題和/或搜索詞作為新聞頁面的內(nèi)容描述信息,根據(jù)這些內(nèi)容描述信息來對(duì)新聞頁面進(jìn)行聚類處理,并且最終得到新聞事件的描述信息。本發(fā)明提供的是新聞事件的自動(dòng)聚類方法,相對(duì)于現(xiàn)有技術(shù)來說,效率大大提高。另外,本發(fā)明一方面考慮到頁面標(biāo)題之間的關(guān)聯(lián)性,另一方面考慮到搜索詞的關(guān)聯(lián)性,利用兩方面的關(guān)聯(lián)性完成新聞事件的聚類,提升了新聞事件聚類的精確性。
[0016]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】?!靖綀D說明】
[0017]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0018]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的新聞事件的聚類方法的流程圖;
[0019]圖2示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的新聞事件的聚類方法的流程圖;
[0020]圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的新聞事件的聚類裝置的功能框圖?!揪唧w實(shí)施方式】
[0021]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0022]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的新聞事件的聚類方法的流程圖。如圖1所示, 該方法包括如下步驟:[〇〇23]步驟S101,挖掘新聞頁面的URL,提取新聞頁面的頁面標(biāo)題。
[0024]首先,通過數(shù)據(jù)挖掘技術(shù)從各大新聞?wù)军c(diǎn)爬取新聞頁面的信息,新聞?wù)军c(diǎn)是專門提供新聞信息的網(wǎng)站,可以包括國家大型新聞門戶(如新華網(wǎng)、人民網(wǎng)等)、商業(yè)門戶(新浪新聞、網(wǎng)易新聞等)、地方新聞門戶(長江網(wǎng)、大洋網(wǎng)等)、以及行業(yè)門戶網(wǎng)站;還可以包括一些社交平臺(tái)(新浪微博等)。這些新聞?wù)军c(diǎn)的新聞信息包羅萬象,用戶訪問量很大,通過挖掘這些新聞?wù)军c(diǎn)的新聞頁面,可以獲取較為全面的新聞數(shù)據(jù)。
[0025]本發(fā)明一個(gè)實(shí)施例中,可預(yù)先維護(hù)新聞?wù)军c(diǎn)列表,其中記錄了幾千個(gè)訪問量較高的新聞?wù)军c(diǎn),通過爬蟲定期爬取這些新聞?wù)军c(diǎn)的新聞頁面的URL。本發(fā)明另一個(gè)實(shí)施例中, 也可利用客戶端中安裝的客戶端程序收集用戶訪問行為數(shù)據(jù),從這些用戶訪問行為數(shù)據(jù)中篩選出新聞頁面,獲取新聞頁面的URL。在挖掘得到新聞頁面的URL之后,提取這些新聞頁面的頁面標(biāo)題。
[0026]步驟S102,根據(jù)搜索點(diǎn)擊日志數(shù)據(jù),查找新聞頁面的URL對(duì)應(yīng)的搜索詞。
[0027]考慮到有些新聞頁面的頁面標(biāo)題五花八門,但內(nèi)容是很相似的。舉例來說,“海口" 拆違毆打群眾"區(qū)長引咎辭職”、“??谑形?毆打手無寸鐵婦女兒童黨紀(jì)國法不容”、“評(píng)論-??谡匍_緊急會(huì)議問責(zé)“毆打婦孺”事件”這三個(gè)新聞頁面的頁面標(biāo)題相關(guān)度不大,但實(shí)際上是同一新聞事件的報(bào)道。為了能將類似這樣的新聞聚到一類,本發(fā)明實(shí)施例利用了搜索點(diǎn)擊日志數(shù)據(jù),搜索點(diǎn)擊日志數(shù)據(jù)記錄了用戶使用搜索引擎輸入搜索詞后所選擇點(diǎn)擊的搜索結(jié)果URL的相關(guān)數(shù)據(jù)。假如用戶輸入某個(gè)搜索詞,得到若干個(gè)搜索結(jié)果,用戶點(diǎn)擊打開了其中的網(wǎng)頁A和網(wǎng)頁B,則認(rèn)為網(wǎng)頁A和網(wǎng)頁B都是與搜索詞存在關(guān)聯(lián)的,是用戶的搜索行為協(xié)助建立了這種關(guān)聯(lián)。[〇〇28]基于上述關(guān)聯(lián),在挖掘得到新聞頁面的URL之后,調(diào)取搜索引擎服務(wù)器提供的搜索點(diǎn)擊日志數(shù)據(jù)。在搜索點(diǎn)擊日志數(shù)據(jù)中查找上述挖掘得到的新聞頁面的URL對(duì)應(yīng)的搜索詞, 即查找用戶點(diǎn)擊新聞頁面的URL時(shí)所輸入的搜索詞,該搜索詞與新聞頁面的URL存在關(guān)聯(lián)。 [〇〇29]步驟S103,根據(jù)頁面標(biāo)題和/或搜索詞,對(duì)新聞頁面進(jìn)行聚類處理,其中,聚為一類的新聞頁面構(gòu)成一個(gè)新聞事件。
[0030]在通過步驟S101和步驟S102得到頁面標(biāo)題和搜索詞后,可以統(tǒng)一將頁面標(biāo)題和搜索詞看做是新聞頁面的URL的內(nèi)容描述信息。一個(gè)新聞頁面的URL對(duì)應(yīng)一個(gè)頁面標(biāo)題和/或多個(gè)搜索詞,一個(gè)搜索詞也可對(duì)應(yīng)多個(gè)新聞頁面的URL。根據(jù)這些內(nèi)容描述信息來對(duì)新聞頁面進(jìn)行聚類處理,使得聚成一類的新聞頁面構(gòu)成一個(gè)新聞事件。
[0031]步驟S104,從每個(gè)新聞事件的所有新聞頁面對(duì)應(yīng)的頁面標(biāo)題和/或搜索詞中查找得到新聞事件的描述信息。[〇〇32]在完成聚類后,一個(gè)新聞事件的所有新聞頁面對(duì)應(yīng)的頁面標(biāo)題和/或搜索詞又構(gòu)成了該新聞事件的內(nèi)容描述,這里包含了多個(gè)頁面標(biāo)題和/或多個(gè)搜索詞。這個(gè)內(nèi)容描述顯得很冗長,本發(fā)明從其中選取一些有代表性的頁面標(biāo)題和/或搜索詞作為新聞事件的描述fg息。
[0033]根據(jù)本發(fā)明提供的新聞事件的聚類方法,在挖掘得到新聞頁面的URL之后,提取新聞頁面的頁面標(biāo)題;又根據(jù)搜索點(diǎn)擊日志數(shù)據(jù),查找所述新聞頁面的URL對(duì)應(yīng)的搜索詞。將頁面標(biāo)題和/或搜索詞作為新聞頁面的內(nèi)容描述信息,根據(jù)這些內(nèi)容描述信息來對(duì)新聞頁面進(jìn)行聚類處理,并且最終得到新聞事件的描述信息。本發(fā)明提供的是新聞事件的自動(dòng)聚類方法,相對(duì)于現(xiàn)有技術(shù)來說,效率大大提高。另外,本發(fā)明一方面考慮到頁面標(biāo)題之間的關(guān)聯(lián)性,另一方面考慮到搜索詞的關(guān)聯(lián)性,利用兩方面的關(guān)聯(lián)性完成新聞事件的聚類,提升了新聞事件聚類的精確性。
[0034]圖2示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的新聞事件的聚類方法的流程圖。如圖2所示,該方法包括如下步驟:[〇〇35]步驟S201,挖掘新聞頁面的URL,提取新聞頁面的頁面標(biāo)題。[〇〇36] 步驟S201至步驟S203為數(shù)據(jù)準(zhǔn)備的過程。在步驟S201中,首先通過數(shù)據(jù)挖掘技術(shù)挖掘新聞頁面的URL。在一個(gè)實(shí)施例中,可預(yù)先維護(hù)新聞?wù)军c(diǎn)列表,其中記錄了幾千個(gè)訪問量較高的新聞?wù)军c(diǎn),通過爬蟲定期爬取這些新聞?wù)军c(diǎn)的新聞頁面的URL。在另一個(gè)實(shí)施例中,也可利用客戶端中安裝的客戶端程序收集用戶訪問行為數(shù)據(jù),從這些用戶訪問行為數(shù)據(jù)中篩選出新聞頁面,獲取新聞頁面的URL。[〇〇37] 可選地,在挖掘新聞頁面的URL之后,方法還包括:對(duì)新聞頁面的URL進(jìn)行歸一化或消重處理。具體來說可分幾步進(jìn)行處理:1)對(duì)新聞頁面的URL作歸一化處理,比如一些帶錨點(diǎn)標(biāo)記的URL會(huì)被歸一化處理為無錨點(diǎn)標(biāo)記;2)將內(nèi)容分頁的一組URL做首頁歸一處理,比如一組圖片新聞的URL歸一處理為首頁URL。經(jīng)過上述處理后,提取新聞頁面的頁面標(biāo)題。
[0038]可選地,在提取新聞頁面的頁面標(biāo)題之后,方法還包括:去除頁面標(biāo)題的后綴信息。比如一些新聞頁面的頁面標(biāo)題往往加有網(wǎng)站或頻道的后綴,本方法可將這些后綴信息去除,留下更具特征性的頁面標(biāo)題,便于后續(xù)聚類處理。
[0039]步驟S202,根據(jù)新聞事件的統(tǒng)計(jì)事件粒度確定預(yù)設(shè)時(shí)間范圍。
[0040]由于新聞具有較高的時(shí)效性要求,而搜索點(diǎn)擊日志數(shù)據(jù)記錄了很長時(shí)間范圍內(nèi)的用戶搜索點(diǎn)擊數(shù)據(jù),因此本方法可根據(jù)新聞事件的統(tǒng)計(jì)事件粒度確定預(yù)設(shè)時(shí)間范圍,以得到更具時(shí)效性的數(shù)據(jù)。例如,新聞事件的統(tǒng)計(jì)事件粒度設(shè)置為1天,那么所確定的預(yù)設(shè)時(shí)間范圍為1天內(nèi)。
[0041]步驟S203,在屬于預(yù)設(shè)時(shí)間范圍的搜索點(diǎn)擊日志數(shù)據(jù)中查找用戶點(diǎn)擊新聞頁面的 URL時(shí)所輸入的搜索詞。[〇〇42]搜索點(diǎn)擊日志數(shù)據(jù)包含搜索詞、搜索時(shí)間以及用戶點(diǎn)擊的搜索結(jié)果URL,將所挖掘出的新聞頁面的URL與用戶點(diǎn)擊的搜索結(jié)果URL進(jìn)行匹配,若匹配一致,則查找得到對(duì)應(yīng)的搜索詞和搜索時(shí)間。進(jìn)一步的,查看搜索時(shí)間是否屬于預(yù)設(shè)時(shí)間范圍,若是則確定搜索詞即為新聞頁面的URL對(duì)應(yīng)的搜索詞。如果新聞事件的統(tǒng)計(jì)事件粒度為1天,則查找1天內(nèi)的用戶點(diǎn)擊新聞頁面的URL時(shí)所輸入的搜索詞;如果新聞事件的統(tǒng)計(jì)事件粒度為1小時(shí),則查找1小時(shí)內(nèi)用戶點(diǎn)擊新聞頁面的URL時(shí)所輸入的搜索詞。
[0043]可選地,在查找到搜索詞后還需將表達(dá)含糊、表達(dá)力較弱的搜索詞去掉,留下更具特定新聞指向的搜索詞。本發(fā)明中通過制定黑名單規(guī)則或正則表達(dá)式實(shí)現(xiàn)搜索詞的過濾。 具體來說,可從以下幾個(gè)方面進(jìn)行過濾:
[0044](1)去除搜索詞長度小于預(yù)設(shè)長度值的搜索詞,這類搜索詞含義寬泛,不具指向性,比如,預(yù)設(shè)長度值為3,去除搜索詞長度小于3的搜索詞。
[0045](2)去除位于黑名單中的搜索詞??蓪⒛承┡c網(wǎng)站或頻道相關(guān)的詞加入黑名單,比如騰訊新聞、新浪體育等。如發(fā)現(xiàn)搜索詞落入黑名單,則直接去除。
[0046](3)去除與多個(gè)新聞分類的新聞頁面的URL關(guān)聯(lián)的搜索詞。如果某個(gè)搜索詞與很多新聞分類的URL關(guān)聯(lián),則考慮去掉。具體規(guī)則可以為:如果跨新聞分類的搜索詞的長度小于某個(gè)閾值(如8),則去掉;如果大于或等于該閾值,則考慮保留。
[0047](4)去除屬于干擾詞的搜索詞。在搜索點(diǎn)擊日志數(shù)據(jù)中會(huì)發(fā)現(xiàn)一些干擾詞,干擾詞是指用戶點(diǎn)擊的URL的具體內(nèi)容與搜索詞的涵義毫無關(guān)聯(lián)。一種做法是定時(shí)挖掘這類干擾詞,如果一個(gè)搜索詞對(duì)應(yīng)的用戶點(diǎn)擊的URL超過15個(gè),即可認(rèn)定為干擾詞。
[0048]步驟S204,通過計(jì)算頁面標(biāo)題和/或搜索詞的文本相似度,和/或比較搜索詞,對(duì)新聞頁面進(jìn)行聚類處理。
[0049]新聞頁面的聚類是根據(jù)頁面標(biāo)題之間的關(guān)聯(lián)性和搜索詞之間的關(guān)聯(lián)性進(jìn)行聚類的。首先,計(jì)算頁面標(biāo)題和/或搜索詞的文本相似度。根據(jù)上面的描述可知,一個(gè)新聞頁面的 URL對(duì)應(yīng)一個(gè)頁面標(biāo)題和/或多個(gè)搜索詞,按照文本相似度進(jìn)行聚類,如果兩個(gè)新聞頁面的頁面標(biāo)題和/或搜索詞的文本相似度高于預(yù)設(shè)閾值,則將兩個(gè)新聞頁面聚為一類。具體的說,將頁面標(biāo)題和/或搜索詞進(jìn)行分詞處理,利用詞袋模型將頁面標(biāo)題和/或搜索詞轉(zhuǎn)化為向量,通過相似度算法計(jì)算向量的相似度,若相似度高于預(yù)設(shè)閾值,則進(jìn)行聚類處理。
[0050]除了通過計(jì)算文本相似度進(jìn)行聚類外,還通過比較搜索詞進(jìn)行聚類。若兩個(gè)新聞頁面的URL對(duì)應(yīng)的搜索詞相同,則將兩個(gè)新聞頁面聚為一類。[〇〇51 ] 舉例來說,共有5個(gè)URL,分別為URL1、URL2、URL3、URL4和URL5,通過計(jì)算文本相似度將URL1、URL2和URL3聚為一類,再通過比較搜索詞得知URL1和URL5具有相同的搜索詞,則將URL5也聚到該類別中。最終聚為一類的新聞頁面構(gòu)成一個(gè)新聞事件。[〇〇52]步驟S205,采用最小覆蓋集算法,從每個(gè)新聞事件的所有新聞頁面對(duì)應(yīng)的頁面標(biāo)題和/或搜索詞中查找覆蓋最多新聞頁面的URL的頁面標(biāo)題和/或搜索詞作為新聞事件的描述信息。
[0053]通過以上的描述可知,一個(gè)新聞事件的所有新聞頁面對(duì)應(yīng)的頁面標(biāo)題和/或搜索詞構(gòu)成了該新聞事件的內(nèi)容描述,則一個(gè)新聞事件具有很多個(gè)頁面標(biāo)題和搜索詞,這個(gè)描述顯得很冗長,因此本實(shí)施例采用最小覆蓋集算法,從每個(gè)新聞事件的所有新聞頁面對(duì)應(yīng)的頁面標(biāo)題和/或搜索詞中查找覆蓋最多新聞頁面的URL的頁面標(biāo)題和/或搜索詞作為新聞事件的描述信息。比如,一個(gè)簡(jiǎn)單的聚類,有兩個(gè)新聞頁面的URL,對(duì)應(yīng)的內(nèi)容描述包括:兩個(gè)新聞頁面的URL的頁面標(biāo)題及一個(gè)搜索詞。如果這個(gè)搜索詞已經(jīng)關(guān)聯(lián)了兩個(gè)URL,則可丟掉原來兩個(gè)頁面標(biāo)題,只用這個(gè)搜索詞作為新聞事件的描述信息。對(duì)于復(fù)雜的情況,一個(gè)聚類對(duì)應(yīng)多個(gè)搜索詞、多個(gè)頁面標(biāo)題,那先選能關(guān)聯(lián)最多URL的搜索詞或頁面標(biāo)題,再從剩余中選關(guān)聯(lián)次最多的搜索詞或頁面標(biāo)題。選擇過程一直持續(xù)到可以將一個(gè)聚類中所有的URL 都關(guān)聯(lián)到,這時(shí),已選擇出來的搜索詞或頁面標(biāo)題,就構(gòu)成了描述新聞事件的最小描述子集。
[0054]根據(jù)本實(shí)施例提供的新聞事件的聚類方法,通過提取新聞頁面的頁面標(biāo)題,查找新聞頁面對(duì)應(yīng)的搜索詞,計(jì)算頁面標(biāo)題和/或搜索詞的文本相似度,和/或比較搜索詞,對(duì)新聞頁面進(jìn)行聚類處理。該聚類過程既考慮頁面標(biāo)題之間的關(guān)聯(lián)性,又考慮搜索詞之間的關(guān)聯(lián)性,提升了新聞事件聚類的精確性。另外,采用最小覆蓋集算法得到描述新聞事件的最小描述子集,保證了對(duì)新聞事件的描述的準(zhǔn)確性和全面性。進(jìn)一步的,在查找搜索點(diǎn)擊日志數(shù)據(jù)時(shí)參考新聞事件的統(tǒng)計(jì)事件粒度,滿足了新聞事件的時(shí)效性要求。
[0055]圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的新聞事件的聚類裝置的功能框圖。如圖3所示,該裝置包括:數(shù)據(jù)挖掘模塊301,數(shù)據(jù)查找模塊302,聚類模塊303,以及事件描述模塊 304〇[〇〇56]數(shù)據(jù)挖掘模塊301,適于挖掘新聞頁面的URL,提取所述新聞頁面的頁面標(biāo)題。在一個(gè)實(shí)施例中,裝置預(yù)先維護(hù)新聞?wù)军c(diǎn)列表,其中記錄了幾千個(gè)訪問量較高的新聞?wù)军c(diǎn),數(shù)據(jù)挖掘模塊301通過爬蟲定期爬取這些新聞?wù)军c(diǎn)的新聞頁面的URL。在另一個(gè)實(shí)施例中,利用客戶端中安裝的客戶端程序收集用戶訪問行為數(shù)據(jù),數(shù)據(jù)挖掘模塊301從這些用戶訪問行為數(shù)據(jù)中篩選出新聞頁面,獲取新聞頁面的URL。[〇〇57]數(shù)據(jù)查找模塊302,適于根據(jù)搜索點(diǎn)擊日志數(shù)據(jù),查找所述新聞頁面的URL對(duì)應(yīng)的搜索詞。進(jìn)一步的,數(shù)據(jù)查找模塊302適于:在搜索點(diǎn)擊日志數(shù)據(jù)中查找用戶點(diǎn)擊所述新聞頁面的URL時(shí)所輸入的搜索詞。[〇〇58]數(shù)據(jù)查找模塊302調(diào)取搜索引擎服務(wù)器提供的搜索點(diǎn)擊日志數(shù)據(jù),搜索點(diǎn)擊日志數(shù)據(jù)記錄了用戶使用搜索引擎輸入搜索詞后所選擇點(diǎn)擊的搜索結(jié)果URL的相關(guān)數(shù)據(jù)。在搜索點(diǎn)擊日志數(shù)據(jù)中查找上述挖掘得到的新聞頁面的URL對(duì)應(yīng)的搜索詞,即查找用戶點(diǎn)擊新聞頁面的URL時(shí)所輸入的搜索詞,該搜索詞與新聞頁面的URL存在關(guān)聯(lián)。
[0059]聚類模塊303,適于根據(jù)所述頁面標(biāo)題和/或搜索詞,對(duì)所述新聞頁面進(jìn)行聚類處理,其中,聚為一類的新聞頁面構(gòu)成一個(gè)新聞事件。
[0060]事件描述模塊304,適于從每個(gè)新聞事件的所有新聞頁面對(duì)應(yīng)的頁面標(biāo)題和/或搜索詞中查找得到所述新聞事件的描述信息。
[0061]進(jìn)一步的,本裝置還包括:時(shí)間粒度控制模塊305,適于根據(jù)新聞事件的統(tǒng)計(jì)事件粒度確定預(yù)設(shè)時(shí)間范圍。由于新聞具有較高的時(shí)效性要求,而搜索點(diǎn)擊日志數(shù)據(jù)記錄了很長時(shí)間范圍內(nèi)的用戶搜索點(diǎn)擊數(shù)據(jù),因此時(shí)間粒度控制模塊305可根據(jù)新聞事件的統(tǒng)計(jì)事件粒度確定預(yù)設(shè)時(shí)間范圍,以得到更具時(shí)效性的數(shù)據(jù)。例如,新聞事件的統(tǒng)計(jì)事件粒度設(shè)置為1天,那么所確定的預(yù)設(shè)時(shí)間范圍為1天內(nèi)。數(shù)據(jù)查找模塊302進(jìn)一步適于:在屬于所述預(yù)設(shè)時(shí)間范圍的搜索點(diǎn)擊日志數(shù)據(jù)中查找用戶點(diǎn)擊所述新聞頁面的URL時(shí)所輸入的搜索詞。 搜索點(diǎn)擊日志數(shù)據(jù)包含搜索詞、搜索時(shí)間以及用戶點(diǎn)擊的搜索結(jié)果URL,將所挖掘出的新聞頁面的URL與用戶點(diǎn)擊的搜索結(jié)果URL進(jìn)行匹配,若匹配一致,則查找得到對(duì)應(yīng)的搜索詞和搜索時(shí)間。進(jìn)一步的,查看搜索時(shí)間是否屬于預(yù)設(shè)時(shí)間范圍,若是則確定搜索詞即為新聞頁面的URL對(duì)應(yīng)的搜索詞。如果新聞事件的統(tǒng)計(jì)事件粒度為1天,則查找1天內(nèi)的用戶點(diǎn)擊新聞頁面的URL時(shí)所輸入的搜索詞;如果新聞事件的統(tǒng)計(jì)事件粒度為1小時(shí),則查找1小時(shí)內(nèi)用戶點(diǎn)擊新聞頁面的URL時(shí)所輸入的搜索詞。
[0062]聚類模塊303進(jìn)一步適于:通過計(jì)算所述頁面標(biāo)題和/或搜索詞的文本相似度,和/ 或比較搜索詞,對(duì)所述新聞頁面進(jìn)行聚類處理。
[0063]聚類模塊303進(jìn)一步適于:若兩個(gè)新聞頁面的頁面標(biāo)題和/或搜索詞的文本相似度高于預(yù)設(shè)閾值,則將所述兩個(gè)新聞頁面聚為一類;和/或,若兩個(gè)新聞頁面的URL對(duì)應(yīng)的搜索詞相同,則將所述兩個(gè)新聞頁面聚為一類。
[0064]新聞頁面的聚類是根據(jù)頁面標(biāo)題之間的關(guān)聯(lián)性和搜索詞之間的關(guān)聯(lián)性進(jìn)行聚類的。首先,計(jì)算頁面標(biāo)題和/或搜索詞的文本相似度。根據(jù)上面的描述可知,一個(gè)新聞頁面的 URL對(duì)應(yīng)一個(gè)頁面標(biāo)題和/或多個(gè)搜索詞,按照文本相似度進(jìn)行聚類,如果兩個(gè)新聞頁面的頁面標(biāo)題和/或搜索詞的文本相似度高于預(yù)設(shè)閾值,則將兩個(gè)新聞頁面聚為一類。具體的說,將頁面標(biāo)題和/或搜索詞進(jìn)行分詞處理,利用詞袋模型將頁面標(biāo)題和/或搜索詞轉(zhuǎn)化為向量,通過相似度算法計(jì)算向量的相似度,若相似度高于預(yù)設(shè)閾值,則進(jìn)行聚類處理。
[0065]除了通過計(jì)算文本相似度進(jìn)行聚類外,還通過比較搜索詞進(jìn)行聚類。若兩個(gè)新聞頁面的URL對(duì)應(yīng)的搜索詞相同,則將兩個(gè)新聞頁面聚為一類。
[0066]事件描述模塊304進(jìn)一步適于:采用最小覆蓋集算法,從每個(gè)新聞事件的所有新聞頁面對(duì)應(yīng)的頁面標(biāo)題和/或搜索詞中查找覆蓋最多新聞頁面的URL的頁面標(biāo)題和/或搜索詞作為所述新聞事件的描述信息。
[0067]—個(gè)新聞事件的所有新聞頁面對(duì)應(yīng)的頁面標(biāo)題和/或搜索詞構(gòu)成了該新聞事件的內(nèi)容描述,則一個(gè)新聞事件具有很多個(gè)頁面標(biāo)題和搜索詞,這個(gè)描述顯得很冗長,因此本裝置采用最小覆蓋集算法,從每個(gè)新聞事件的所有新聞頁面對(duì)應(yīng)的頁面標(biāo)題和/或搜索詞中查找覆蓋最多新聞頁面的URL的頁面標(biāo)題和/或搜索詞作為新聞事件的描述信息。比如,一個(gè)簡(jiǎn)單的聚類,有兩個(gè)新聞頁面的URL,對(duì)應(yīng)的內(nèi)容描述包括:兩個(gè)新聞頁面的URL的頁面標(biāo)題及一個(gè)搜索詞。如果這個(gè)搜索詞已經(jīng)關(guān)聯(lián)了兩個(gè)URL,則可丟掉原來兩個(gè)頁面標(biāo)題,只用這個(gè)搜索詞作為新聞事件的描述信息。對(duì)于復(fù)雜的情況,一個(gè)聚類對(duì)應(yīng)多個(gè)搜索詞、多個(gè)頁面標(biāo)題,那先選能關(guān)聯(lián)最多URL的搜索詞或頁面標(biāo)題,再從剩余中選關(guān)聯(lián)次最多的搜索詞或頁面標(biāo)題。選擇過程一直持續(xù)到可以將一個(gè)聚類中所有的URL都關(guān)聯(lián)到,這時(shí),已選擇出來的搜索詞或頁面標(biāo)題,就構(gòu)成了描述新聞事件的最小描述子集。
[0068]進(jìn)一步的,本裝置還包括:數(shù)據(jù)處理模塊306,適于對(duì)所述新聞頁面的URL進(jìn)行歸一化或消重處理;或者,適于去除所述頁面標(biāo)題的后綴信息;或者,適于去除搜索詞長度小于預(yù)設(shè)長度值的搜索詞;和/或,去除位于黑名單中的搜索詞;和/或,去除與多個(gè)新聞分類的新聞頁面的URL關(guān)聯(lián)的搜索詞;和/或,去除屬于干擾詞的搜索詞。有關(guān)數(shù)據(jù)處理的具體內(nèi)容可參見方法實(shí)施例的描述。
[0069]根據(jù)本實(shí)施例提供的新聞事件的聚類裝置,通過提取新聞頁面的頁面標(biāo)題,查找新聞頁面對(duì)應(yīng)的搜索詞,計(jì)算頁面標(biāo)題和/或搜索詞的文本相似度,和/或比較搜索詞,對(duì)新聞頁面進(jìn)行聚類處理。該聚類過程既考慮頁面標(biāo)題之間的關(guān)聯(lián)性,又考慮搜索詞之間的關(guān)聯(lián)性,提升了新聞事件聚類的精確性。另外,采用最小覆蓋集算法得到描述新聞事件的最小描述子集,保證了對(duì)新聞事件的描述的準(zhǔn)確性和全面性。進(jìn)一步的,在查找搜索點(diǎn)擊日志數(shù)據(jù)時(shí)參考新聞事件的統(tǒng)計(jì)事件粒度,滿足了新聞事件的時(shí)效性要求。[〇〇7〇]在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。 各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對(duì)任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。
[0071]在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說明書的理解。[〇〇72]類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此, 遵循【具體實(shí)施方式】的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。[〇〇73]本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。[〇〇74]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。
[0075]本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的新聞事件的聚類裝置中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。 這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
[0076] 應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中, 不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。[〇〇77]本發(fā)明公開了:[〇〇78] A1、一種新聞事件的聚類方法,包括:
[0079]挖掘新聞頁面的URL,提取所述新聞頁面的頁面標(biāo)題;
[0080]根據(jù)搜索點(diǎn)擊日志數(shù)據(jù),查找所述新聞頁面的URL對(duì)應(yīng)的搜索詞;
[0081]根據(jù)所述頁面標(biāo)題和/或搜索詞,對(duì)所述新聞頁面進(jìn)行聚類處理,其中,聚為一類的新聞頁面構(gòu)成一個(gè)新聞事件;
[0082]從每個(gè)新聞事件的所有新聞頁面對(duì)應(yīng)的頁面標(biāo)題和/或搜索詞中查找得到所述新聞事件的描述信息。
[0083]A2、根據(jù)A1所述的方法,所述根據(jù)搜索點(diǎn)擊日志數(shù)據(jù),查找所述新聞頁面的URL對(duì)應(yīng)的搜索詞進(jìn)一步包括:在搜索點(diǎn)擊日志數(shù)據(jù)中查找用戶點(diǎn)擊所述新聞頁面的URL時(shí)所輸入的搜索詞。
[0084]A3、根據(jù)A2所述的方法,所述在搜索點(diǎn)擊日志數(shù)據(jù)中查找用戶點(diǎn)擊所述新聞頁面的URL時(shí)所輸入的搜索詞進(jìn)一步包括:
[0085]根據(jù)新聞事件的統(tǒng)計(jì)事件粒度確定預(yù)設(shè)時(shí)間范圍;
[0086]在屬于所述預(yù)設(shè)時(shí)間范圍的搜索點(diǎn)擊日志數(shù)據(jù)中查找用戶點(diǎn)擊所述新聞頁面的 URL時(shí)所輸入的搜索詞。
[0087]A4、根據(jù)A1或A2或A3所述的方法,所述根據(jù)所述頁面標(biāo)題和/或搜索詞,對(duì)所述新聞頁面進(jìn)行聚類處理進(jìn)一步包括:通過計(jì)算所述頁面標(biāo)題和/或搜索詞的文本相似度,和/ 或比較搜索詞,對(duì)所述新聞頁面進(jìn)行聚類處理。
[0088]A5、根據(jù)A4所述的方法,所述通過計(jì)算所述頁面標(biāo)題和/或搜索詞的文本相似度, 和/或比較搜索詞,對(duì)所述新聞頁面進(jìn)行聚類處理進(jìn)一步包括:
[0089]若兩個(gè)新聞頁面的頁面標(biāo)題和/或搜索詞的文本相似度高于預(yù)設(shè)閾值,則將所述兩個(gè)新聞頁面聚為一類;
[0090]和/或,若兩個(gè)新聞頁面的URL對(duì)應(yīng)的搜索詞相同,則將所述兩個(gè)新聞頁面聚為一類。
[0091]A6、根據(jù)A1-A5任一項(xiàng)所述的方法,所述從每個(gè)新聞事件的所有新聞頁面對(duì)應(yīng)的頁面標(biāo)題和/或搜索詞中查找得到所述新聞事件的描述信息進(jìn)一步包括:
[0092]采用最小覆蓋集算法,從每個(gè)新聞事件的所有新聞頁面對(duì)應(yīng)的頁面標(biāo)題和/或搜索詞中查找覆蓋最多新聞頁面的URL的頁面標(biāo)題和/或搜索詞作為所述新聞事件的描述信息。[〇〇93]A7、根據(jù)A1所述的方法,在所述挖掘新聞頁面的URL之后,所述方法還包括:對(duì)所述新聞頁面的URL進(jìn)行歸一化或消重處理。
[0094]A8、根據(jù)A1所述的方法,在所述提取新聞頁面的頁面標(biāo)題之后,所述方法還包括:去除所述頁面標(biāo)題的后綴信息。[〇〇95]A9、根據(jù)A1所述的方法,在所述查找新聞頁面的URL對(duì)應(yīng)的搜索詞之后,所述方法還包括:
[0096]去除搜索詞長度小于預(yù)設(shè)長度值的搜索詞;
[0097]和/或,去除位于黑名單中的搜索詞;[〇〇98]和/或,去除與多個(gè)新聞分類的新聞頁面的URL關(guān)聯(lián)的搜索詞;[〇〇99]和/或,去除屬于干擾詞的搜索詞。[〇1〇〇] B10、一種新聞事件的聚類裝置,包括:
[0101]數(shù)據(jù)挖掘模塊,適于挖掘新聞頁面的URL,提取所述新聞頁面的頁面標(biāo)題;
[0102]數(shù)據(jù)查找模塊,適于根據(jù)搜索點(diǎn)擊日志數(shù)據(jù),查找所述新聞頁面的URL對(duì)應(yīng)的搜索詞;
[0103]聚類模塊,適于根據(jù)所述頁面標(biāo)題和/或搜索詞,對(duì)所述新聞頁面進(jìn)行聚類處理, 其中,聚為一類的新聞頁面構(gòu)成一個(gè)新聞事件;
[0104]事件描述模塊,適于從每個(gè)新聞事件的所有新聞頁面對(duì)應(yīng)的頁面標(biāo)題和/或搜索詞中查找得到所述新聞事件的描述信息。
[0105]B11、根據(jù)B10所述的裝置,所述數(shù)據(jù)查找模塊進(jìn)一步適于:在搜索點(diǎn)擊日志數(shù)據(jù)中查找用戶點(diǎn)擊所述新聞頁面的URL時(shí)所輸入的搜索詞。
[0106]B12、根據(jù)B11所述的裝置,還包括:時(shí)間粒度控制模塊,適于根據(jù)新聞事件的統(tǒng)計(jì)事件粒度確定預(yù)設(shè)時(shí)間范圍;
[0107]所述數(shù)據(jù)查找模塊進(jìn)一步適于:在屬于所述預(yù)設(shè)時(shí)間范圍的搜索點(diǎn)擊日志數(shù)據(jù)中查找用戶點(diǎn)擊所述新聞頁面的URL時(shí)所輸入的搜索詞。
[0108]B13、根據(jù)B10或B11或B12所述的裝置,所述聚類模塊進(jìn)一步適于:通過計(jì)算所述頁面標(biāo)題和/或搜索詞的文本相似度,和/或比較搜索詞,對(duì)所述新聞頁面進(jìn)行聚類處理。
[0109]B14、根據(jù)B13所述的裝置,所述聚類模塊進(jìn)一步適于:若兩個(gè)新聞頁面的頁面標(biāo)題和/或搜索詞的文本相似度高于預(yù)設(shè)閾值,則將所述兩個(gè)新聞頁面聚為一類;和/或,若兩個(gè)新聞頁面的URL對(duì)應(yīng)的搜索詞相同,則將所述兩個(gè)新聞頁面聚為一類。
[0110]B15、根據(jù)B10-B14任一項(xiàng)所述的裝置,所述事件描述模塊進(jìn)一步適于:采用最小覆蓋集算法,從每個(gè)新聞事件的所有新聞頁面對(duì)應(yīng)的頁面標(biāo)題和/或搜索詞中查找覆蓋最多新聞頁面的URL的頁面標(biāo)題和/或搜索詞作為所述新聞事件的描述信息。B16、根據(jù)B10所述的裝置,還包括:數(shù)據(jù)處理模塊,適于對(duì)所述新聞頁面的URL進(jìn)行歸一化或消重處理。
[0112]B17、根據(jù)B10所述的裝置,還包括:數(shù)據(jù)處理模塊,適于去除所述頁面標(biāo)題的后綴fg息。[〇113]B18、根據(jù)B10所述的裝置,還包括:數(shù)據(jù)處理模塊,適于去除搜索詞長度小于預(yù)設(shè)長度值的搜索詞;和/或,去除位于黑名單中的搜索詞;和/或,去除與多個(gè)新聞分類的新聞頁面的URL關(guān)聯(lián)的搜索詞;和/或,去除屬于干擾詞的搜索詞。
【主權(quán)項(xiàng)】
1.一種新聞事件的聚類方法,包括:挖掘新聞頁面的URL,提取所述新聞頁面的頁面標(biāo)題;根據(jù)搜索點(diǎn)擊日志數(shù)據(jù),查找所述新聞頁面的URL對(duì)應(yīng)的搜索詞;根據(jù)所述頁面標(biāo)題和/或搜索詞,對(duì)所述新聞頁面進(jìn)行聚類處理,其中,聚為一類的新 聞頁面構(gòu)成一個(gè)新聞事件;從每個(gè)新聞事件的所有新聞頁面對(duì)應(yīng)的頁面標(biāo)題和/或搜索詞中查找得到所述新聞事 件的描述信息。2.根據(jù)權(quán)利要求1所述的方法,所述根據(jù)搜索點(diǎn)擊日志數(shù)據(jù),查找所述新聞頁面的URL 對(duì)應(yīng)的搜索詞進(jìn)一步包括:在搜索點(diǎn)擊日志數(shù)據(jù)中查找用戶點(diǎn)擊所述新聞頁面的URL時(shí)所 輸入的搜索詞。3.根據(jù)權(quán)利要求2所述的方法,所述在搜索點(diǎn)擊日志數(shù)據(jù)中查找用戶點(diǎn)擊所述新聞頁 面的URL時(shí)所輸入的搜索詞進(jìn)一步包括:根據(jù)新聞事件的統(tǒng)計(jì)事件粒度確定預(yù)設(shè)時(shí)間范圍;在屬于所述預(yù)設(shè)時(shí)間范圍的搜索點(diǎn)擊日志數(shù)據(jù)中查找用戶點(diǎn)擊所述新聞頁面的URL時(shí) 所輸入的搜索詞。4.根據(jù)權(quán)利要求1或2或3所述的方法,所述根據(jù)所述頁面標(biāo)題和/或搜索詞,對(duì)所述新 聞頁面進(jìn)行聚類處理進(jìn)一步包括:通過計(jì)算所述頁面標(biāo)題和/或搜索詞的文本相似度,和/ 或比較搜索詞,對(duì)所述新聞頁面進(jìn)行聚類處理。5.根據(jù)權(quán)利要求4所述的方法,所述通過計(jì)算所述頁面標(biāo)題和/或搜索詞的文本相似 度,和/或比較搜索詞,對(duì)所述新聞頁面進(jìn)行聚類處理進(jìn)一步包括:若兩個(gè)新聞頁面的頁面標(biāo)題和/或搜索詞的文本相似度高于預(yù)設(shè)閾值,則將所述兩個(gè) 新聞頁面聚為一類;和/或,若兩個(gè)新聞頁面的URL對(duì)應(yīng)的搜索詞相同,則將所述兩個(gè)新聞頁面聚為一類。6.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的方法,所述從每個(gè)新聞事件的所有新聞頁面對(duì)應(yīng)的 頁面標(biāo)題和/或搜索詞中查找得到所述新聞事件的描述信息進(jìn)一步包括:采用最小覆蓋集算法,從每個(gè)新聞事件的所有新聞頁面對(duì)應(yīng)的頁面標(biāo)題和/或搜索詞 中查找覆蓋最多新聞頁面的URL的頁面標(biāo)題和/或搜索詞作為所述新聞事件的描述信息。7.根據(jù)權(quán)利要求1所述的方法,在所述挖掘新聞頁面的URL之后,所述方法還包括:對(duì)所 述新聞頁面的URL進(jìn)行歸一化或消重處理。8.根據(jù)權(quán)利要求1所述的方法,在所述提取新聞頁面的頁面標(biāo)題之后,所述方法還包 括:去除所述頁面標(biāo)題的后綴信息。9.根據(jù)權(quán)利要求1所述的方法,在所述查找新聞頁面的URL對(duì)應(yīng)的搜索詞之后,所述方 法還包括:去除搜索詞長度小于預(yù)設(shè)長度值的搜索詞;和/或,去除位于黑名單中的搜索詞;和/或,去除與多個(gè)新聞分類的新聞頁面的URL關(guān)聯(lián)的搜索詞;和/或,去除屬于干擾詞的搜索詞。10.—種新聞事件的聚類裝置,包括:數(shù)據(jù)挖掘模塊,適于挖掘新聞頁面的URL,提取所述新聞頁面的頁面標(biāo)題;數(shù)據(jù)查找模塊,適于根據(jù)搜索點(diǎn)擊日志數(shù)據(jù),查找所述新聞頁面的URL對(duì)應(yīng)的搜索詞;聚類模塊,適于根據(jù)所述頁面標(biāo)題和/或搜索詞,對(duì)所述新聞頁面進(jìn)行聚類處理,其中, 聚為一類的新聞頁面構(gòu)成一個(gè)新聞事件;事件描述模塊,適于從每個(gè)新聞事件的所有新聞頁面對(duì)應(yīng)的頁面標(biāo)題和/或搜索詞中 查找得到所述新聞事件的描述信息。
【文檔編號(hào)】G06F17/30GK106021418SQ201610319385
【公開日】2016年10月12日
【申請(qǐng)日】2016年5月13日
【發(fā)明人】彭力揚(yáng), 韓明輝, 王肖磊, 陳勁, 魏自立, 李 浩
【申請(qǐng)人】北京奇虎科技有限公司, 奇智軟件(北京)有限公司