識(shí)別事件關(guān)鍵進(jìn)展的方法和設(shè)備的制作方法
【專(zhuān)利摘要】提供了一種識(shí)別事件關(guān)鍵進(jìn)展的方法和設(shè)備,所述方法包括:基于事件核心詞獲得事件搜索詞簇;通過(guò)基于媒體關(guān)注度針對(duì)事件搜索詞簇進(jìn)行事件關(guān)鍵進(jìn)展識(shí)別,獲得第一事件關(guān)鍵進(jìn)展點(diǎn)集合;通過(guò)基于新聞熱搜詞針對(duì)事件核心詞進(jìn)行事件關(guān)鍵進(jìn)展識(shí)別,獲得第二事件關(guān)鍵進(jìn)展點(diǎn)集合;通過(guò)將第一事件關(guān)鍵進(jìn)展點(diǎn)集合和第二事件關(guān)鍵進(jìn)展點(diǎn)集合進(jìn)行融合和去重,獲得第三事件關(guān)鍵進(jìn)展點(diǎn)集合;對(duì)第三事件關(guān)鍵進(jìn)展點(diǎn)集合進(jìn)行優(yōu)化,獲得最終事件關(guān)鍵進(jìn)展脈絡(luò)。根據(jù)本發(fā)明的方法和設(shè)備,可提供清晰可見(jiàn)的事件脈絡(luò),滿(mǎn)足用戶(hù)對(duì)事件的關(guān)注需求,提高用戶(hù)體驗(yàn),并且無(wú)需人工編輯,大大降低專(zhuān)題生成成本。
【專(zhuān)利說(shuō)明】識(shí)別事件關(guān)鍵進(jìn)展的方法和設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種新聞話題跟蹤技術(shù),更具體地說(shuō),涉及一種通過(guò)在不需要人工標(biāo) 注的情況下確定重要子事件的發(fā)生時(shí)間點(diǎn)來(lái)識(shí)別事件關(guān)鍵進(jìn)展的方法和設(shè)備。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)科技的高速發(fā)展,無(wú)論是使用移動(dòng)終端(例如,手機(jī)等)還是非移動(dòng)終端 (例如,臺(tái)式計(jì)算機(jī)等)來(lái)上網(wǎng)瀏覽新聞,都已經(jīng)成為人們最為常見(jiàn)的一種休閑方式。據(jù)騰訊 科技調(diào)查,61.67%的調(diào)查用戶(hù)使用手機(jī)上網(wǎng)以瀏覽新聞為主。在新聞門(mén)戶(hù)網(wǎng)站中,一般將 事件稱(chēng)為專(zhuān)題,一個(gè)熱門(mén)事件(或者話題)通常由若干子事件組成。每個(gè)事件都有一個(gè)產(chǎn)生、 發(fā)展、高潮、結(jié)束的過(guò)程,整個(gè)過(guò)程中重要的子事件串聯(lián)起來(lái)便形成表示事件進(jìn)展的事件脈 絡(luò),因此事件脈絡(luò)是全面了解一個(gè)新聞事件發(fā)展的重要需求。
[0003]現(xiàn)有技術(shù)主要是基于編輯標(biāo)注,人工實(shí)現(xiàn)對(duì)事件最新進(jìn)展識(shí)別。例如,各種門(mén)戶(hù)網(wǎng) 站都是采用編輯人工標(biāo)注,Google實(shí)驗(yàn)項(xiàng)目living storis也是采用編輯人工標(biāo)注,即,對(duì) 每篇新聞文檔進(jìn)行標(biāo)注(如背景文檔,進(jìn)展文檔等),然后機(jī)器再?gòu)木庉嫎?biāo)注好的文檔中把 文檔匯總展示。
[0004]此外,騰訊搜搜新聞跟蹤系統(tǒng)是一套用戶(hù)跟蹤和發(fā)現(xiàn)話題最新進(jìn)展的系統(tǒng),但其 主要采用的是跟蹤事件的最新進(jìn)展而不是關(guān)注事件(包括事件的歷史)的關(guān)鍵進(jìn)展,生成的 事件進(jìn)展圖并不是清晰事件脈絡(luò)。
[0005]現(xiàn)有技術(shù)的編輯人工標(biāo)注的方法,事件(話題)覆蓋面窄,人力成本高,不適應(yīng)海量 新聞事件脈絡(luò)挖掘的需求。
[0006]在目前利用機(jī)器自動(dòng)進(jìn)行事件脈絡(luò)的挖掘方面,一種方式是采用事件跟蹤的方 式,通過(guò)把本階段發(fā)生的熱門(mén)事件與前一階段發(fā)生的熱門(mén)事件進(jìn)行事件關(guān)聯(lián),如果有歷史 事件可以關(guān)聯(lián)到當(dāng)前事件,則當(dāng)前事件為歷史事件的一個(gè)進(jìn)展。但事件關(guān)聯(lián)往往會(huì)因?yàn)槭?件花邊新聞的影響而出現(xiàn)話題漂移。另一種方式是采用文檔聚類(lèi)的方式,將前一階段聚類(lèi) 得到的所有簇與當(dāng)前階段聚類(lèi)的話題簇進(jìn)行話題簇關(guān)聯(lián),由于文檔聚類(lèi)屬于無(wú)監(jiān)督學(xué)習(xí), 聚類(lèi)成本高。同時(shí)事件跟蹤的方式很難以處理冷啟動(dòng)問(wèn)題,并且需要把當(dāng)前的所有話題與 歷史所有話題進(jìn)行關(guān)聯(lián)匹配,后期開(kāi)發(fā)成本較大,開(kāi)發(fā)周期較長(zhǎng)。
[0007]因此,需要一種在無(wú)需人工標(biāo)注的情況下無(wú)需通過(guò)關(guān)聯(lián)、聚類(lèi)的方法而有效地識(shí) 別事件關(guān)鍵進(jìn)展的方法和設(shè)備。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的目的在于至少解決上述問(wèn)題,并至少提供下述優(yōu)點(diǎn)。根據(jù)本發(fā)明的一方 面,提供了一種識(shí)別事件關(guān)鍵進(jìn)展的方法和設(shè)備,所述方法和設(shè)備通過(guò)基于媒體關(guān)注度和 新聞熱搜詞進(jìn)行事件關(guān)鍵進(jìn)展識(shí)別,來(lái)獲得最終事件關(guān)鍵進(jìn)展脈絡(luò)。
[0009]根據(jù)本發(fā)明的一方面,提供了一種識(shí)別事件關(guān)鍵進(jìn)展的方法,所述方法包括:基于 事件核心詞獲得事件搜索詞簇;通過(guò)基于媒體關(guān)注度針對(duì)事件搜索詞簇進(jìn)行事件關(guān)鍵進(jìn)展識(shí)別,獲得第一事件關(guān)鍵進(jìn)展點(diǎn)集合;通過(guò)基于新聞熱搜詞針對(duì)事件核心詞進(jìn)行事件關(guān)鍵 進(jìn)展識(shí)別,獲得第二事件關(guān)鍵進(jìn)展點(diǎn)集合;通過(guò)將第一事件關(guān)鍵進(jìn)展點(diǎn)集合和第二事件關(guān) 鍵進(jìn)展點(diǎn)集合進(jìn)行融合和去重,獲得第三事件關(guān)鍵進(jìn)展點(diǎn)集合;對(duì)第三事件關(guān)鍵進(jìn)展點(diǎn)集 合進(jìn)行優(yōu)化,獲得最終事件關(guān)鍵進(jìn)展脈絡(luò)。
[0010]基于媒體關(guān)注度針對(duì)事件搜索詞簇進(jìn)行事件關(guān)鍵進(jìn)展識(shí)別的步驟可包括:(I)通 過(guò)使用事件搜索詞簇檢索新聞倒排索引,在預(yù)定時(shí)間段內(nèi)計(jì)算事件搜索詞簇在時(shí)間軸上每 天命中的新聞數(shù)量,獲得事件搜索詞簇的新聞報(bào)道趨勢(shì)圖;(2)通過(guò)基于假期效應(yīng)對(duì)新聞 報(bào)道趨勢(shì)圖進(jìn)行假期新聞數(shù)量調(diào)整,獲得媒體關(guān)注度趨勢(shì)圖;(3)通過(guò)對(duì)媒體關(guān)注度趨勢(shì) 圖進(jìn)行時(shí)序分析以識(shí)別新聞突發(fā)點(diǎn),來(lái)獲得以大事件為粒度的候選事件關(guān)鍵進(jìn)展點(diǎn)集合, 其中,大事件是指大于或等于第一預(yù)定天數(shù)的連續(xù)新聞突發(fā)點(diǎn)的集合;(4)對(duì)候選事件關(guān) 鍵進(jìn)展點(diǎn)集合中的持續(xù)時(shí)間大于或等于第二預(yù)定天數(shù)且具有明顯發(fā)展脈絡(luò)的大事件進(jìn)行 基于均勻假設(shè)的二次切分,獲得第一事件關(guān)鍵進(jìn)展點(diǎn)集合,其中,具有明顯發(fā)展脈絡(luò)的大事 件是指在所述持續(xù)時(shí)間內(nèi)單獨(dú)進(jìn)行時(shí)序分析也能夠識(shí)別到新聞突發(fā)點(diǎn)的大事件。
[0011]基于媒體關(guān)注度針對(duì)事件搜索詞簇進(jìn)行事件關(guān)鍵進(jìn)展識(shí)別的步驟可包括:(1) 通過(guò)使用事件搜索詞簇檢索新聞倒排索引,在預(yù)定時(shí)間段內(nèi)計(jì)算事件搜索詞簇中的每個(gè)搜 索詞在時(shí)間軸上每天命中的新聞數(shù)量,獲得每個(gè)搜索詞的新聞報(bào)道趨勢(shì)圖;(2)通過(guò)基于 假期效應(yīng)對(duì)每個(gè)搜索詞的新聞報(bào)道趨勢(shì)圖進(jìn)行假期新聞數(shù)量調(diào)整,獲得每個(gè)搜索詞的媒體 關(guān)注度趨勢(shì)圖;(3)對(duì)每個(gè)搜索詞的媒體關(guān)注度趨勢(shì)圖進(jìn)行時(shí)序分析以識(shí)別新聞突發(fā)點(diǎn), 獲得每個(gè)搜索詞的以大事件為粒度的候選事件關(guān)鍵進(jìn)展點(diǎn),其中,大事件是指大于或等于 第一預(yù)定天數(shù)的連續(xù)新聞突發(fā)點(diǎn)的集合;(4)將事件搜索詞簇中的所有搜索詞的候選事件 關(guān)鍵進(jìn)展點(diǎn)進(jìn)行融合,獲得候選事件關(guān)鍵進(jìn)展點(diǎn)集合;(5)對(duì)候選事件關(guān)鍵進(jìn)展點(diǎn)集合中 的持續(xù)時(shí)間大于或等于第二預(yù)定天數(shù)且具有明顯發(fā)展脈絡(luò)的大事件進(jìn)行基于均勻假設(shè)的 二次切分,獲得第一事件關(guān)鍵進(jìn)展點(diǎn)集合,其中,具有明顯發(fā)展脈絡(luò)的大事件是指在所述持 續(xù)時(shí)間內(nèi)單獨(dú)進(jìn)行時(shí)序分析也能夠識(shí)別到新聞突發(fā)點(diǎn)的大事件。
[0012]獲得事件搜索詞簇的步驟可包括:通過(guò)在用戶(hù)搜索日志中搜索與事件核心詞對(duì)應(yīng) 的事件搜索詞,獲得事件搜索詞簇。
[0013]假期新聞數(shù)量調(diào)整的步驟可包括:通過(guò)統(tǒng)計(jì)假期前一日、假期當(dāng)日、假期后一日的 全網(wǎng)新聞索引來(lái)分別獲得假期前一日、假期當(dāng)日、假期后一日的全網(wǎng)新聞總量;計(jì)算假期當(dāng) 日的全網(wǎng)新聞總量和假期前一日的全網(wǎng)新聞總量之間的差值與假期當(dāng)日的全網(wǎng)新聞總量 和假期前一日的全網(wǎng)新聞總量之間的差值的比例;根據(jù)計(jì)算的比例調(diào)整假期當(dāng)日事件搜索 詞簇的新聞數(shù)量。
[0014]第一預(yù)定天數(shù)可為3天,第二預(yù)定天數(shù)可為5天。
[0015]時(shí)序分析的步驟可包括:采用滑動(dòng)時(shí)間窗口的方式,以第一預(yù)定時(shí)間段為一個(gè)計(jì) 算時(shí)間窗口,以第二預(yù)定時(shí)間段為滑動(dòng)時(shí)間窗口向前滑動(dòng),分別識(shí)別每個(gè)計(jì)算時(shí)間窗口內(nèi) 的新聞突發(fā)點(diǎn);只要在一個(gè)計(jì)算時(shí)間窗口中將某一個(gè)時(shí)間點(diǎn)識(shí)別為新聞突發(fā)點(diǎn),則將該時(shí) 間點(diǎn)設(shè)置為候選關(guān)鍵進(jìn)展時(shí)間點(diǎn);將所有候選關(guān)鍵進(jìn)展時(shí)間點(diǎn)進(jìn)行融合,得到以大事件為 粒度的候選事件關(guān)鍵進(jìn)展點(diǎn)集合。
[0016]第一預(yù)定時(shí)間段可為30天,第二預(yù)定時(shí)間段可為2天。
[0017]識(shí)別新聞突發(fā)點(diǎn)的步驟可包括:計(jì)算該計(jì)算時(shí)間窗口內(nèi)的所有天的事件搜索詞簇的新聞數(shù)量的均值以及方差;通過(guò)以下的公開(kāi)來(lái)計(jì)算門(mén)限值:門(mén)限值=均值+0.8X方差; 如果該計(jì)算時(shí)間窗口內(nèi)的某一個(gè)時(shí)間點(diǎn)大于計(jì)算的門(mén)限值,則將該時(shí)間點(diǎn)識(shí)別為新聞突發(fā)
[0018]基于均勻假設(shè)的二次切分的步驟可包括:在持續(xù)時(shí)間大于或等于第二預(yù)定天數(shù)且 具有明顯發(fā)展脈絡(luò)的大事件內(nèi),將每一天的事件搜索詞簇新聞量與該天之前兩天的事件搜 索詞簇新聞量的平均值進(jìn)行比較;如果該天的事件搜索詞簇新聞量大于所述平均值,則保 留該天作為事件關(guān)鍵進(jìn)展點(diǎn);如果該天的事件搜索詞簇新聞量小于或等于所述平均值,則 去除該天的事件關(guān)鍵進(jìn)展點(diǎn)。
[0019]基于新聞熱搜詞針對(duì)事件核心詞進(jìn)行事件關(guān)鍵進(jìn)展識(shí)別的步驟可包括:使用事件 核心詞在新聞熱搜詞庫(kù)中進(jìn)行搜索;將搜索到的新聞熱搜詞所對(duì)應(yīng)的時(shí)間點(diǎn)識(shí)別為事件關(guān) 鍵進(jìn)展點(diǎn)。
[0020]對(duì)第三事件關(guān)鍵進(jìn)展點(diǎn)集合進(jìn)行優(yōu)化的步驟可包括:對(duì)于一個(gè)大事件,優(yōu)化單元 將新聞數(shù)量最多的事件關(guān)鍵進(jìn)展點(diǎn)的新聞量與該事件關(guān)鍵進(jìn)展點(diǎn)之后的每個(gè)事件關(guān)鍵進(jìn) 展點(diǎn)的新聞量之比與預(yù)定閾值進(jìn)行比較;如果新聞數(shù)量最多的事件關(guān)鍵進(jìn)展點(diǎn)的新聞量與 該事件關(guān)鍵進(jìn)展點(diǎn)之后的每個(gè)事件關(guān)鍵進(jìn)展點(diǎn)的新聞量之比均大于預(yù)定閾值,則去除該事 件關(guān)鍵進(jìn)展點(diǎn)之后的所有事件關(guān)鍵進(jìn)展點(diǎn)。
[0021]對(duì)第三事件關(guān)鍵進(jìn)展點(diǎn)集合進(jìn)行優(yōu)化的步驟還可包括:保留事件關(guān)鍵進(jìn)展進(jìn)程中 的每次進(jìn)展的第一個(gè)事件關(guān)鍵進(jìn)展點(diǎn)。
[0022]根據(jù)本發(fā)明的另一方面,提供了一種識(shí)別事件關(guān)鍵進(jìn)展的設(shè)備,所述設(shè)備包括:事 件搜索詞簇獲得單元,基于事件核心詞獲得事件搜索詞簇;第一識(shí)別單元,通過(guò)基于媒體關(guān) 注度針對(duì)事件搜索詞簇進(jìn)行事件關(guān)鍵進(jìn)展識(shí)別,獲得第一事件關(guān)鍵進(jìn)展點(diǎn)集合;第二識(shí)別 單元,通過(guò)基于新聞熱搜詞針對(duì)事件核心詞進(jìn)行事件關(guān)鍵進(jìn)展識(shí)別,獲得第二事件關(guān)鍵進(jìn) 展點(diǎn)集合;求和單元,通過(guò)將第一事件關(guān)鍵進(jìn)展點(diǎn)集合和第二事件關(guān)鍵進(jìn)展點(diǎn)集合進(jìn)行融 合和去重,獲得第三事件關(guān)鍵進(jìn)展點(diǎn)集合;優(yōu)化單元,對(duì)第三事件關(guān)鍵進(jìn)展點(diǎn)集合進(jìn)行優(yōu) 化,獲得最終事件關(guān)鍵進(jìn)展脈絡(luò)。
[0023]第一識(shí)別單元可包括:新聞數(shù)量計(jì)算單元,通過(guò)使用事件搜索詞簇檢索新聞倒排 索引,在預(yù)定時(shí)間段內(nèi)計(jì)算事件搜索詞簇在時(shí)間軸上每天命中的新聞數(shù)量,獲得事件搜索 詞簇的新聞報(bào)道趨勢(shì)圖;假期調(diào)整單元,通過(guò)基于假期效應(yīng)對(duì)新聞報(bào)道趨勢(shì)圖進(jìn)行假期新 聞數(shù)量調(diào)整,獲得媒體關(guān)注度趨勢(shì)圖;時(shí)序分析單元,通過(guò)對(duì)媒體關(guān)注度趨勢(shì)圖進(jìn)行時(shí)序分 析以識(shí)別新聞突發(fā)點(diǎn),來(lái)獲得以大事件為粒度的候選事件關(guān)鍵進(jìn)展點(diǎn)集合,其中,大事件是 指大于或等于第一預(yù)定天數(shù)的連續(xù)新聞突發(fā)點(diǎn)的集合;切分單元,對(duì)候選事件關(guān)鍵進(jìn)展點(diǎn) 集合中的持續(xù)時(shí)間大于或等于第二預(yù)定天數(shù)且具有明顯發(fā)展脈絡(luò)的大事件進(jìn)行基于均勻 假設(shè)的二次切分,獲得第一事件關(guān)鍵進(jìn)展點(diǎn)集合,其中,具有明顯發(fā)展脈絡(luò)的大事件是指在 所述持續(xù)時(shí)間內(nèi)單獨(dú)進(jìn)行時(shí)序分析也能夠識(shí)別到新聞突發(fā)點(diǎn)的大事件。
[0024]第一識(shí)別單元可包括:新聞數(shù)量計(jì)算單元,通過(guò)使用事件搜索詞簇檢索新聞倒排 索引,在預(yù)定時(shí)間段內(nèi)計(jì)算事件搜索詞簇中的每個(gè)搜索詞在時(shí)間軸上每天命中的新聞數(shù) 量,獲得每個(gè)搜索詞的新聞報(bào)道趨勢(shì)圖;假期調(diào)整單元,通過(guò)基于假期效應(yīng)對(duì)每個(gè)搜索詞的 新聞報(bào)道趨勢(shì)圖進(jìn)行假期新聞數(shù)量調(diào)整,獲得每個(gè)搜索詞的媒體關(guān)注度趨勢(shì)圖;時(shí)序分析 單元,對(duì)每個(gè)搜索詞的媒體關(guān)注度趨勢(shì)圖進(jìn)行時(shí)序分析以識(shí)別新聞突發(fā)點(diǎn),獲得每個(gè)搜索詞的以大事件為粒度的候選事件關(guān)鍵進(jìn)展點(diǎn)集合,其中,大事件是指大于或等于第一預(yù)定 天數(shù)的連續(xù)新聞突發(fā)點(diǎn)的集合;融合單元,將事件搜索詞簇中的所有搜索詞的候選事件關(guān) 鍵進(jìn)展點(diǎn)集合進(jìn)行融合,獲得最終的候選事件關(guān)鍵進(jìn)展點(diǎn)集合;切分單元,對(duì)最終的候選事 件關(guān)鍵進(jìn)展點(diǎn)集合中的持續(xù)時(shí)間大于或等于第二預(yù)定天數(shù)且具有明顯發(fā)展脈絡(luò)的大事件 進(jìn)行基于均勻假設(shè)的二次切分,獲得第一事件關(guān)鍵進(jìn)展點(diǎn)集合,其中,具有明顯發(fā)展脈絡(luò)的 大事件是指在所述持續(xù)時(shí)間內(nèi)單獨(dú)進(jìn)行時(shí)序分析也能夠識(shí)別到新聞突發(fā)點(diǎn)的大事件。
[0025]事件搜索詞簇獲得單元可通過(guò)在用戶(hù)搜索日志中搜索與事件核心詞對(duì)應(yīng)的事件 搜索詞,獲得事件搜索詞簇。
[0026]假期調(diào)整單元可通過(guò)統(tǒng)計(jì)假期前一日、假期當(dāng)日、假期后一日的全網(wǎng)新聞索引來(lái) 分別獲得假期前一日、假期當(dāng)日、假期后一日的全網(wǎng)新聞總量;計(jì)算假期當(dāng)日的全網(wǎng)新聞總 量和假期前一日的全網(wǎng)新聞總量之間的差值與假期當(dāng)日的全網(wǎng)新聞總量和假期前一日的 全網(wǎng)新聞總量之間的差值的比例;根據(jù)計(jì)算的比例調(diào)整假期當(dāng)日事件搜索詞簇的新聞數(shù)量。
[0027]第一預(yù)定天數(shù)可為3天,第二預(yù)定天數(shù)可為5天。
[0028]時(shí)序分析單元可采用滑動(dòng)時(shí)間窗口的方式,以第一預(yù)定時(shí)間段為一個(gè)計(jì)算時(shí)間窗 口,以第二預(yù)定時(shí)間段為滑動(dòng)時(shí)間窗口向前滑動(dòng),分別識(shí)別每個(gè)計(jì)算時(shí)間窗口內(nèi)的新聞突 發(fā)點(diǎn);只要在一個(gè)計(jì)算時(shí)間窗口中將某一個(gè)時(shí)間點(diǎn)識(shí)別為新聞突發(fā)點(diǎn),則將該時(shí)間點(diǎn)設(shè)置 為候選關(guān)鍵進(jìn)展時(shí)間點(diǎn);將所有候選關(guān)鍵進(jìn)展時(shí)間點(diǎn)進(jìn)行融合,得到以大事件為粒度的候 選事件關(guān)鍵進(jìn)展點(diǎn)集合。
[0029]第一預(yù)定時(shí)間段可為30天,第二預(yù)定時(shí)間段可為2天。
[0030]時(shí)序分析單元可通過(guò)下面的方法識(shí)別新聞突發(fā)點(diǎn):計(jì)算該計(jì)算時(shí)間窗口內(nèi)的所有 天的事件搜索詞簇的新聞數(shù)量的均值以及方差;通過(guò)以下的公開(kāi)來(lái)計(jì)算門(mén)限值:門(mén)限值= 均值+0.8X方差;如果該計(jì)算時(shí)間窗口內(nèi)的某一個(gè)時(shí)間點(diǎn)大于計(jì)算的門(mén)限值,則將該時(shí)間 點(diǎn)識(shí)別為新聞突發(fā)點(diǎn)。
[0031]切分單元可在持續(xù)時(shí)間大于或等于第二預(yù)定天數(shù)且具有明顯發(fā)展脈絡(luò)的大事件 內(nèi),將每一天的事件搜索詞簇新聞量與該天之前兩天的事件搜索詞簇新聞量的平均值進(jìn)行 比較;如果該天的事件搜索詞簇新聞量大于所述平均值,則保留該天作為事件關(guān)鍵進(jìn)展點(diǎn); 如果該天的事件搜索詞簇新聞量小于或等于所述平均值,則去除該天的事件關(guān)鍵進(jìn)展點(diǎn)。
[0032]第二識(shí)別單元可使用事件核心詞在新聞熱搜詞庫(kù)中進(jìn)行搜索;將搜索到的新聞熱 搜詞所對(duì)應(yīng)的時(shí)間點(diǎn)識(shí)別為事件關(guān)鍵進(jìn)展點(diǎn)。
[0033]對(duì)于一個(gè)大事件,優(yōu)化單元可將新聞數(shù)量最多的事件關(guān)鍵進(jìn)展點(diǎn)的新聞量與該事 件關(guān)鍵進(jìn)展點(diǎn)之后的每個(gè)事件關(guān)鍵進(jìn)展點(diǎn)的新聞量之比與預(yù)定閾值進(jìn)行比較,如果新聞數(shù) 量最多的事件關(guān)鍵進(jìn)展點(diǎn)的新聞量與該事件關(guān)鍵進(jìn)展點(diǎn)之后的每個(gè)事件關(guān)鍵進(jìn)展點(diǎn)的新 聞量之比均大于預(yù)定閾值,則優(yōu)化單元可去除該事件關(guān)鍵進(jìn)展點(diǎn)之后的所有事件關(guān)鍵進(jìn)展
[0034]優(yōu)化單元可保留事件關(guān)鍵進(jìn)展進(jìn)程中的每次進(jìn)展的第一個(gè)事件關(guān)鍵進(jìn)展點(diǎn)。
[0035]本發(fā)明可提供清晰可見(jiàn)的事件脈絡(luò),滿(mǎn)足用戶(hù)對(duì)事件的關(guān)注需求,提高用戶(hù)體驗(yàn)。 此外,本發(fā)明無(wú)需人工編輯,大大降低專(zhuān)題生成成本。此外,本發(fā)明可對(duì)話題進(jìn)行快速的事 件進(jìn)展跟蹤,時(shí)效性高。此外,本發(fā)明提供的方法和設(shè)備是一種與具體項(xiàng)目無(wú)關(guān)的通用技術(shù)方案,因此具有很強(qiáng)的通用性和可移植性。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0036]通過(guò)結(jié)合附圖,從實(shí)施例的下面描述中,本發(fā)明這些和/或其它方面及優(yōu)點(diǎn)將會(huì) 變得清楚,并且更易于理解,其中:
[0037]圖1是根據(jù)本發(fā)明的示例性實(shí)施例的識(shí)別事件關(guān)鍵進(jìn)展的設(shè)備的框圖;
[0038]圖2是根據(jù)本發(fā)明的示例性實(shí)施例的第一識(shí)別單元120的框圖;
[0039]圖3是根據(jù)本發(fā)明的另一示例性實(shí)施例的第一識(shí)別單元120的框圖;
[0040]圖4是根據(jù)本發(fā)明的示例性實(shí)施例的識(shí)別事件關(guān)鍵進(jìn)展的方法的流程圖;
[0041]圖5是示出根據(jù)本發(fā)明的示例性實(shí)施例的事件關(guān)鍵進(jìn)展脈略的示例的示圖。
【具體實(shí)施方式】
[0042]提供參照附圖的以下描述以幫助對(duì)由權(quán)利要求及其等同物限定的本發(fā)明的實(shí)施 例的全面理解。包括各種特定細(xì)節(jié)以幫助理解,但這些細(xì)節(jié)僅被視為是示例性的。因此,本 領(lǐng)域的普通技術(shù)人員將認(rèn)識(shí)到在不脫離本發(fā)明的范圍和精神的情況下,可對(duì)描述于此的實(shí) 施例進(jìn)行各種改變和修改。此外,為了清楚和簡(jiǎn)潔,省略對(duì)公知的功能和結(jié)構(gòu)的描述。
[0043]圖1是根據(jù)本發(fā)明的示例性實(shí)施例的識(shí)別事件關(guān)鍵進(jìn)展的設(shè)備的框圖。
[0044]參照?qǐng)D1,根據(jù)本發(fā)明的示例性實(shí)施例的識(shí)別事件關(guān)鍵進(jìn)展的設(shè)備100包括事件 搜索詞(query)簇獲得單元110、第一識(shí)別單元120、第二識(shí)別單元130、求和單元140、優(yōu)化 單元150。
[0045]事件搜索詞簇獲得單元110可基于事件核心詞(term)來(lái)獲得事件搜索詞簇。具 體地說(shuō),事件搜索詞簇獲得單元110可通過(guò)在用戶(hù)搜索日志(未示出)中搜索與事件核心詞 對(duì)應(yīng)的事件搜索詞,來(lái)獲得事件搜索詞簇。
[0046]例如,事件搜索詞簇獲得單元110通過(guò)在用戶(hù)搜索日志中搜索與事件核心詞對(duì)應(yīng) 的事件搜索詞,獲得事件搜索詞簇。
[0047]第一識(shí)別單元120可通過(guò)基于媒體關(guān)注度針對(duì)事件搜索詞簇進(jìn)行事件關(guān)鍵進(jìn)展 識(shí)別,獲得第一事件關(guān)鍵進(jìn)展點(diǎn)集合。下面通過(guò)參照?qǐng)D2和圖3來(lái)詳細(xì)描述第一識(shí)別單元 120的操作。
[0048]圖2是根據(jù)本發(fā)明的示例性實(shí)施例的第一識(shí)別單元120的框圖。
[0049]參照?qǐng)D2,第一識(shí)別單元120可包括新聞數(shù)量計(jì)算單元121a、假期調(diào)整單元122a、 時(shí)序分析單元123a、切分單元124a。
[0050]新聞數(shù)量計(jì)算單元121a可通過(guò)使用事件搜索詞簇檢索新聞倒排索引(未示出),在 預(yù)定時(shí)間段內(nèi)計(jì)算事件搜索詞簇在時(shí)間軸上每天命中的新聞數(shù)量,獲得事件搜索詞簇的新 聞報(bào)道趨勢(shì)圖。
[0051]假期調(diào)整單元122a可通過(guò)基于假期效應(yīng)對(duì)新聞報(bào)道趨勢(shì)圖進(jìn)行假期新聞數(shù)量調(diào) 整,獲得媒體關(guān)注度趨勢(shì)圖。
[0052]具體地說(shuō),新聞報(bào)道存在假期效應(yīng),假期效應(yīng)是指每逢節(jié)假日,網(wǎng)絡(luò)上發(fā)表的新聞 總量比平時(shí)少很多。因此,需要根據(jù)假期效應(yīng),在新聞報(bào)道趨勢(shì)圖的基礎(chǔ)上調(diào)整假期的新聞 數(shù)量,獲得最終的媒體關(guān)注度趨勢(shì)圖。[0053]假期調(diào)整單元122a可通過(guò)統(tǒng)計(jì)假期前一日、假期當(dāng)日、假期后一日的全網(wǎng)新聞索 引來(lái)分別獲得假期前一日、假期當(dāng)日、假期后一日的全網(wǎng)新聞總量。隨后,假期調(diào)整單元 122a可計(jì)算假期當(dāng)日的全網(wǎng)新聞總量和假期前一日的全網(wǎng)新聞總量之間的差值與假期當(dāng) 日的全網(wǎng)新聞總量和假期前一日的全網(wǎng)新聞總量之間的差值的比例。隨后,根據(jù)計(jì)算的比 例調(diào)整假期當(dāng)日事件搜索詞簇的新聞數(shù)量。
[0054]例如,5月I日是假期,需要調(diào)整5月I日的關(guān)于XXX事件新聞報(bào)道數(shù)量。首先,假 期調(diào)整單元122a統(tǒng)計(jì)出當(dāng)天全網(wǎng)有100萬(wàn)篇新聞報(bào)道,并且統(tǒng)計(jì)出4月30日的全網(wǎng)新聞報(bào) 道有80萬(wàn)篇,5月2日的全網(wǎng)新聞報(bào)道有50萬(wàn)篇,則計(jì)算差值比例為(100-80)/ (100-50) =0.4。對(duì)于“XXX事件”,5月I日的新聞報(bào)道是70篇,4月30日的新聞報(bào)道為80篇,5月 2日的新聞報(bào)道為50篇,因此,假期調(diào)整單元122a根據(jù)差值比例0.4通過(guò)下面的公式來(lái)調(diào) 整5月I日的關(guān)于乂乂乂事件新聞報(bào)道數(shù)量:((70+3-80)/((70+3-50)=0.4,其中,1表示新 聞報(bào)道調(diào)整量,這里,x=30,也就是說(shuō),5月I日的關(guān)于XXX事件新聞報(bào)道數(shù)量應(yīng)該被調(diào)整被 100 篇。
[0055]根據(jù)本發(fā)明的示例性實(shí)施例,假期調(diào)整單元122a還可以把一年當(dāng)中所有假期的 上述差值比例都記錄下來(lái)生成假期模型字典,在進(jìn)行某個(gè)事件的關(guān)鍵進(jìn)展識(shí)別中,可使用 該假期模型字典來(lái)調(diào)整該事件假期時(shí)的新聞報(bào)道數(shù)量。
[0056]時(shí)序分析單元123a可通過(guò)對(duì)媒體關(guān)注度趨勢(shì)圖進(jìn)行時(shí)序分析以識(shí)別新聞突發(fā) 點(diǎn),來(lái)獲得以大事件為粒度的候選事件關(guān)鍵進(jìn)展點(diǎn)集合,其中,大事件是指大于或等于第一 預(yù)定天數(shù)的連續(xù)新聞突發(fā)點(diǎn)的集合。新聞突發(fā)點(diǎn)是指新聞數(shù)量超過(guò)預(yù)定標(biāo)準(zhǔn)(例如,超過(guò)某 個(gè)預(yù)定值等)的時(shí)間點(diǎn)。這里,第一預(yù)定天數(shù)可以是3天,也就是說(shuō),連續(xù)3天或3天以上的 新聞突發(fā)點(diǎn)可以組成一個(gè)大事件。
[0057]具體地說(shuō),根據(jù)本發(fā)明的示例性實(shí)施例,時(shí)序分析單元123a可采用滑動(dòng)時(shí)間窗口 的方式,以第一預(yù)定時(shí)間段為一個(gè)計(jì)算時(shí)間窗口,以第二預(yù)定時(shí)間段為滑動(dòng)時(shí)間窗口向前 滑動(dòng),分別識(shí)別每個(gè)計(jì)算時(shí)間窗口內(nèi)的新聞突發(fā)點(diǎn);只要在一個(gè)計(jì)算時(shí)間窗口中將某一個(gè) 時(shí)間點(diǎn)識(shí)別為新聞突發(fā)點(diǎn),則將該時(shí)間點(diǎn)設(shè)置為候選關(guān)鍵進(jìn)展時(shí)間點(diǎn);將所有候選關(guān)鍵進(jìn) 展時(shí)間點(diǎn)進(jìn)行融合,得到以大事件為粒度的候選事件關(guān)鍵進(jìn)展點(diǎn)集合。這里,第一預(yù)定時(shí)間 段可為30天,第二預(yù)定時(shí)間段可為2天。
[0058]根據(jù)本發(fā)明的示例性實(shí)施例,時(shí)序分析單元123a可通過(guò)下面的方法識(shí)別新聞突 發(fā)點(diǎn):計(jì)算該計(jì)算時(shí)間窗口內(nèi)的所有天的事件搜索詞簇的新聞數(shù)量的均值以及方差;通過(guò) 以下的公開(kāi)來(lái)計(jì)算門(mén)限值:門(mén)限值=均值+0.8X方差;如果該計(jì)算時(shí)間窗口內(nèi)的某一個(gè)時(shí) 間點(diǎn)大于計(jì)算的門(mén)限值,則將該時(shí)間點(diǎn)識(shí)別為新聞突發(fā)點(diǎn)。
[0059]本領(lǐng)域的技術(shù)人員容易理解,本發(fā)明不限于上述識(shí)別新聞突發(fā)點(diǎn)的方法,本發(fā)明 還可以使用其它方法來(lái)識(shí)別新聞突發(fā)點(diǎn)。
[0060]切分單元124a可對(duì)候選事件關(guān)鍵進(jìn)展點(diǎn)集合中的持續(xù)時(shí)間大于或等于第二預(yù)定 天數(shù)且具有明顯發(fā)展脈絡(luò)的大事件進(jìn)行基于均勻假設(shè)的二次切分,獲得第一事件關(guān)鍵進(jìn)展 點(diǎn)集合,其中,具有明顯發(fā)展脈絡(luò)的大事件是指在所述持續(xù)時(shí)間內(nèi)單獨(dú)進(jìn)行時(shí)序分析也能 夠識(shí)別到新聞突發(fā)點(diǎn)的大事件。這里,第二預(yù)定天數(shù)可以是5天,也就是說(shuō),切分單元124a 可對(duì)持續(xù)時(shí)間大于或等于5天且對(duì)這大于或等于5天的持續(xù)時(shí)間的新聞單獨(dú)進(jìn)行時(shí)序分析 也能夠識(shí)別到新聞突發(fā)點(diǎn)的大事件進(jìn)行基于均勻假設(shè)的二次切分。[0061]具體地說(shuō),根據(jù)本發(fā)明的示例性實(shí)施例,切分單元124a在持續(xù)時(shí)間大于或等于第二預(yù)定天數(shù)且具有明顯發(fā)展脈絡(luò)的大事件內(nèi),將每一天的事件搜索詞簇新聞量與該天之前兩天的事件搜索詞簇新聞量的平均值進(jìn)行比較;如果該天的事件搜索詞簇新聞量大于所述平均值,則保留該天作為事件關(guān)鍵進(jìn)展點(diǎn);如果該天的事件搜索詞簇新聞量小于或等于所述平均值,則去除該天的事件關(guān)鍵進(jìn)展點(diǎn)。
[0062]例如,在持續(xù)時(shí)間為5月I日至5月5日且具有明顯發(fā)展脈絡(luò)的大事件內(nèi),如果5 月I日該事件的新聞報(bào)道量為100篇,5月I日之前的兩天(即,4月29日和4月30)該事件的新聞報(bào)道量分別為90篇和80篇,則這兩天的該事件的新聞報(bào)道量的平均值為85。因此,切分單元124a將5月I日的新聞報(bào)道量100與平均值85進(jìn)行比較。100大于85,則切分單元124a認(rèn)為事件有新進(jìn)展正在持續(xù)發(fā)酵,保留5月I日作為事件關(guān)鍵進(jìn)展點(diǎn)。如果5 月2日該事件的新聞報(bào)道量為60篇,5月2日之前的兩天(即,4月30日和5月I日)該事件的新聞報(bào)道量分別為80篇和100篇,則這兩天的該事件的新聞報(bào)道量的平均值為90, 因此,切分單元124a將5月2日的新聞報(bào)道量60與平均值90進(jìn)行比較。60小于90,則切分單元124a認(rèn)為該事件沒(méi)有新進(jìn)展,并可能開(kāi)始降溫,則去除5月2日這個(gè)事件關(guān)鍵進(jìn)展
[0063]本領(lǐng)域的技術(shù)人員容易理解,本發(fā)明不限于上述基于均勻假設(shè)的二次切分的方法,本發(fā)明還可以使用其它方法來(lái)識(shí)別新聞突發(fā)點(diǎn)。
[0064]圖3是根據(jù)本發(fā)明的另一示例性實(shí)施例的第一識(shí)別單元120的框圖。
[0065]參照?qǐng)D3,第一識(shí)別單元120可包括新聞數(shù)量計(jì)算單元121b、假期調(diào)整單元122b、 時(shí)序分析單元123b、融合單元124b、切分單元125b。
[0066]新聞數(shù)量計(jì)算單元121b可通過(guò)使用事件搜索詞簇檢索新聞倒排索引,在預(yù)定時(shí)間段內(nèi)計(jì)算事件搜索詞簇中的每個(gè)搜索詞在時(shí)間軸上每天命中的新聞數(shù)量,獲得每個(gè)搜索詞的新聞報(bào)道趨勢(shì)圖。
[0067]根據(jù)本發(fā)明的示例性實(shí)施例,新聞數(shù)量計(jì)算單元121b可包括n個(gè)子單元121bl、 121b2、…、121bn,每個(gè)子單元都可計(jì)算一個(gè)搜索詞在時(shí)間軸上每天命中的新聞數(shù)量來(lái)獲得一個(gè)搜索詞的新聞報(bào)道趨勢(shì)圖。例如,事件搜索詞簇中有4個(gè)搜索詞,則使用新聞數(shù)量計(jì)算單元121b中的4個(gè)子單元來(lái)獲得這4個(gè)搜索詞中的每個(gè)搜索詞的新聞報(bào)道趨勢(shì)圖。
[0068]假期調(diào)整單元122 b可通過(guò)基于假期效應(yīng)對(duì)每個(gè)搜索詞的新聞報(bào)道趨勢(shì)圖進(jìn)行假期新聞數(shù)量調(diào)整,獲得每個(gè)搜索詞的媒體關(guān)注度趨勢(shì)圖。
[0069]根據(jù)本發(fā)明的示例性 實(shí)施例,假期調(diào)整單元122b可包括n個(gè)子單元122bl、 122b2、…、122bn,每個(gè)子單元都可對(duì)一個(gè)搜索詞的新聞報(bào)道趨勢(shì)圖進(jìn)行假期新聞數(shù)量調(diào)整,獲得一個(gè)搜索詞的媒體關(guān)注度趨勢(shì)圖。例如,事件搜索詞簇中有4個(gè)搜索詞,則使用假期調(diào)整單元122b中的4個(gè)子單元來(lái)獲得這4個(gè)搜索詞中的每個(gè)搜索詞的媒體關(guān)注度趨勢(shì)圖。
[0070]根據(jù)本發(fā)明的示例性實(shí)施例,假期調(diào)整單元122b進(jìn)行假期新聞數(shù)量調(diào)整的方法與圖2中的假期調(diào)整單元122a進(jìn)行假期新聞數(shù)量調(diào)整的方法基于相同,區(qū)別僅在于假期調(diào)整單元122b對(duì)事件搜索詞簇中的單個(gè)搜索詞的假期新聞數(shù)量進(jìn)行調(diào)整,而圖2中的假期調(diào)整單元122a對(duì)整個(gè)事件搜索詞簇的假期新聞數(shù)量進(jìn)行調(diào)整,因此這里將省略其詳細(xì)描述。
[0071]時(shí)序分析單元123b可對(duì)每個(gè)搜索詞的媒體關(guān)注度趨勢(shì)圖進(jìn)行時(shí)序分析以識(shí)別新聞突發(fā)點(diǎn),獲得每個(gè)搜索詞的以大事件為粒度的候選事件關(guān)鍵進(jìn)展點(diǎn)集合,其中,大事件是指大于或等于第一預(yù)定天數(shù)的連續(xù)新聞突發(fā)點(diǎn)的集合。新聞突發(fā)點(diǎn)是指新聞數(shù)量超過(guò)預(yù)定標(biāo)準(zhǔn)(例如,超過(guò)某個(gè)預(yù)定值等)的時(shí)間點(diǎn)。這里,第一預(yù)定天數(shù)可以是3天,也就是說(shuō),連續(xù)3天或3天以上的新聞突發(fā)點(diǎn)可以組成一個(gè)大事件。
[0072]根據(jù)本發(fā)明的示例性實(shí)施例,時(shí)序分析單元123b可包括n個(gè)子單元123bl、123b2、…、123bn,每個(gè)子單元都可對(duì)一個(gè)搜索詞的媒體關(guān)注度趨勢(shì)圖進(jìn)行時(shí)序分析以識(shí)別新聞突發(fā)點(diǎn),獲得一個(gè)搜索詞的以大事件為粒度的候選事件關(guān)鍵進(jìn)展點(diǎn)集合。例如,事件搜索詞簇中有4個(gè)搜索詞,則使用時(shí)序分析單元123b中的4個(gè)子單元來(lái)獲得這4個(gè)搜索詞中的每個(gè)搜索詞的候選事件關(guān)鍵進(jìn)展點(diǎn)集合。
[0073]根據(jù)本發(fā)明的示例性實(shí)施例,時(shí)序分析單元123b進(jìn)行時(shí)序分析的方法與圖2中的時(shí)序分析單元123a進(jìn)行時(shí)序分析的方法基本相同,區(qū)別僅在于時(shí)序分析單元123b對(duì)事件搜索詞簇中的單個(gè)搜索詞的媒體關(guān)注度趨勢(shì)圖進(jìn)行時(shí)序分析,而圖2中的時(shí)序分析單元123a對(duì)整個(gè)事件搜索詞簇的媒體關(guān)注度趨勢(shì)圖進(jìn)行時(shí)序分析,因此這里將省略其詳細(xì)描述。
[0074]融合單元124b可將事件搜索詞簇中的所有搜索詞的候選事件關(guān)鍵進(jìn)展點(diǎn)集合進(jìn)行融合,獲得最終的候選事件關(guān)鍵進(jìn)展點(diǎn)集合。
[0075]切分單元125b可對(duì)最終的候選事件關(guān)鍵進(jìn)展點(diǎn)集合中的持續(xù)時(shí)間大于或等于第二預(yù)定天數(shù)且具有明顯發(fā)展脈絡(luò)的大事件進(jìn)行基于均勻假設(shè)的二次切分,獲得第一事件關(guān)鍵進(jìn)展點(diǎn)集合,其中,具有明顯發(fā)展脈絡(luò)的大事件是指在所述持續(xù)時(shí)間內(nèi)單獨(dú)進(jìn)行時(shí)序分析也能夠識(shí)別到新聞突發(fā)點(diǎn)的大事件。這里,第二預(yù)定天數(shù)可以是5天,也就是說(shuō),切分單元124a可對(duì)持續(xù)時(shí)間大于或等于5天且對(duì)這大于或等于5天的持續(xù)時(shí)間的新聞單獨(dú)進(jìn)行時(shí)序分析也能夠識(shí)別到新聞突發(fā)點(diǎn)的大事件進(jìn)行基于均勻假設(shè)的二次切分。
[0076]根據(jù)本發(fā)明的示例性實(shí)施例,切分單元125b進(jìn)行基于均勻假設(shè)的二次切分的方法與圖2中的切分單元125a進(jìn)行基`于均勻假設(shè)的二次切分的方法相似,因此這里將省略其詳細(xì)描述。
[0077]返回參照?qǐng)D1,第二識(shí)別單元130可通過(guò)基于新聞熱搜詞針對(duì)事件核心詞進(jìn)行事件關(guān)鍵進(jìn)展識(shí)別,獲得第二事件關(guān)鍵進(jìn)展點(diǎn)集合。
[0078]具體地說(shuō),根據(jù)本發(fā)明的示例性實(shí)施例,第二識(shí)別單元130使用事件核心詞在新聞熱搜詞庫(kù)(未示出)中進(jìn)行搜索,并將搜索到的新聞熱搜詞所對(duì)應(yīng)的時(shí)間點(diǎn)識(shí)別為事件關(guān)鍵進(jìn)展點(diǎn)。
[0079]求和單元140可通過(guò)將第一事件關(guān)鍵進(jìn)展點(diǎn)集合和第二事件關(guān)鍵進(jìn)展點(diǎn)集合進(jìn)行融合和去重,獲得第三事件關(guān)鍵進(jìn)展點(diǎn)集合。
[0080]優(yōu)化單元150可對(duì)第三事件關(guān)鍵進(jìn)展點(diǎn)集合進(jìn)行優(yōu)化,獲得最終事件關(guān)鍵進(jìn)展脈絡(luò)。
[0081]根據(jù)本發(fā)明的示例性實(shí)施例,優(yōu)化單元150可將新聞數(shù)量最多的事件關(guān)鍵進(jìn)展點(diǎn)的新聞量與該事件關(guān)鍵進(jìn)展點(diǎn)之后的每個(gè)事件關(guān)鍵進(jìn)展點(diǎn)的新聞量之比與預(yù)定閾值進(jìn)行比較,如果新聞數(shù)量最多的事件關(guān)鍵進(jìn)展點(diǎn)的新聞量與該事件關(guān)鍵進(jìn)展點(diǎn)之后的每個(gè)事件關(guān)鍵進(jìn)展點(diǎn)的新聞量之比均大于預(yù)定閾值,則優(yōu)化單元150認(rèn)為該事件關(guān)鍵進(jìn)展點(diǎn)之后的這些天的新聞可能屬于轉(zhuǎn)載,從而去除該事件關(guān)鍵進(jìn)展點(diǎn)之后的所有事件關(guān)鍵進(jìn)展點(diǎn)。這里,預(yù)定閾值可以是0.8。
[0082]例如,對(duì)于一個(gè)持續(xù)時(shí)間為5月I日至5月3日的大事件,5月I日的新聞數(shù)量為100篇,5月2日的新聞數(shù)量為60篇,5月3日的新聞數(shù)量為50篇,5月I日的新聞數(shù)量最多,并且100/60=1.67,100/50=2,均大于預(yù)定閾值0.8,則優(yōu)化單元150認(rèn)為5月2日和5月3日的新聞可能屬于轉(zhuǎn)載,從而去除5月2日和5月3日的事件關(guān)鍵進(jìn)展點(diǎn)。
[0083]根據(jù)本發(fā)明的另一示例性實(shí)施例,優(yōu)化單元150可保留事件關(guān)鍵進(jìn)展進(jìn)程中的每次進(jìn)展的第一個(gè)事件關(guān)鍵進(jìn)展點(diǎn)。
[0084]例如,某段事件關(guān)鍵進(jìn)展進(jìn)程為5月I日至7月I日,其中,事件關(guān)鍵進(jìn)展點(diǎn)為5月I日至5月3日,5月15日,5月23日至5月28日,6月2日,6月20日至6月22日,則第一次進(jìn)展的第一個(gè)事件關(guān)鍵進(jìn)展點(diǎn)為5月I日,第二次進(jìn)展的第一個(gè)事件關(guān)鍵進(jìn)展點(diǎn)為5月15日,第三次進(jìn)展的第一個(gè)事件關(guān)鍵進(jìn)展點(diǎn)為5月23日,第四次進(jìn)展的第一個(gè)事件關(guān)鍵進(jìn)展點(diǎn)為6月2日,第五次進(jìn)展的第一個(gè)事件關(guān)鍵進(jìn)展點(diǎn)為6月20日,必須被保留。但是,在上述的切分或優(yōu)化過(guò)程中,5月15日和6月2日的事件關(guān)鍵進(jìn)展點(diǎn)可能已被去除,但由于5月15日和6月2日分別是第二次和第四次進(jìn)展的第一個(gè)事件關(guān)鍵進(jìn)展點(diǎn),因此恢復(fù)并保留5月15日和6月2日的事件關(guān)鍵進(jìn)展點(diǎn)。
[0085]本領(lǐng)域的技術(shù)人員容易理解,本發(fā)明的事件進(jìn)展優(yōu)化過(guò)程不限于上述方法,還可以通過(guò)其它常用優(yōu)化過(guò)程去優(yōu)化事件進(jìn)展,從而形成更完善的事件關(guān)鍵進(jìn)展脈絡(luò)。
[0086]圖4是根據(jù)本發(fā)明的示例性實(shí)施例的識(shí)別事件關(guān)鍵進(jìn)展的方法的流程圖。
[0087]參照?qǐng)D4,在步驟401,事件搜索詞簇獲得單元110可基于事件核心詞來(lái)獲得事件搜索詞簇。
[0088]具體地說(shuō),事件搜索詞簇獲得單元110可通過(guò)在用戶(hù)搜索日志(未示出)中搜索與事件核心詞對(duì)應(yīng)的事件搜索詞,來(lái)獲得事件搜索詞簇。
[0089]在步驟402,第一識(shí)別單元120可通過(guò)基于媒體關(guān)注度針對(duì)事件搜索詞簇進(jìn)行事件關(guān)鍵進(jìn)展識(shí)別,獲得第一事件關(guān)鍵進(jìn)展點(diǎn)集合。
[0090]由于已通過(guò)參照?qǐng)D2和圖3詳細(xì)描述了第一識(shí)別單元120基于媒體關(guān)注度針對(duì)事件搜索詞簇進(jìn)行事件關(guān)鍵進(jìn)展識(shí)別的方法,因此,這里省略其詳細(xì)描述。
[0091]在步驟403,第二識(shí)別單元130可通過(guò)基于新聞熱搜詞針對(duì)事件核心詞進(jìn)行事件關(guān)鍵進(jìn)展識(shí)別,獲得第二事件關(guān)鍵進(jìn)展點(diǎn)集合。
[0092]具體地說(shuō),根據(jù)本發(fā)明的示例性實(shí)施例,第二識(shí)別單元130使用事件核心詞在新聞熱搜詞庫(kù)(未示出)中進(jìn)行搜索,并將搜索到的新聞熱搜詞所對(duì)應(yīng)的時(shí)間點(diǎn)識(shí)別為事件關(guān)鍵進(jìn)展點(diǎn)。
[0093]在步驟404,求和單元140可通過(guò)將第一事件關(guān)鍵進(jìn)展點(diǎn)集合和第二事件關(guān)鍵進(jìn)展點(diǎn)集合進(jìn)行融合和去重,獲得第三事件關(guān)鍵進(jìn)展點(diǎn)集合。
[0094]在步驟405,優(yōu)化單元150可對(duì)第三事件關(guān)鍵進(jìn)展點(diǎn)集合進(jìn)行優(yōu)化,獲得最終事件關(guān)鍵進(jìn)展脈絡(luò)。
[0095]根據(jù)本發(fā)明的示例性實(shí)施例,優(yōu)化單元150可將新聞數(shù)量最多的事件關(guān)鍵進(jìn)展點(diǎn)的新聞量與該事件關(guān)鍵進(jìn)展點(diǎn)之后的每個(gè)事件關(guān)鍵進(jìn)展點(diǎn)的新聞量之比與預(yù)定閾值進(jìn)行比較,如果新聞數(shù)量最多的事件關(guān)鍵進(jìn)展點(diǎn)的新聞量與該事件關(guān)鍵進(jìn)展點(diǎn)之后的每個(gè)事件關(guān)鍵進(jìn)展點(diǎn)的新聞量之比均大于預(yù)定閾值,則優(yōu)化單元150認(rèn)為該事件關(guān)鍵進(jìn)展點(diǎn)之后的這些天的新聞可能屬于轉(zhuǎn)載,從而去除該事件關(guān)鍵進(jìn)展點(diǎn)之后的所有事件關(guān)鍵進(jìn)展點(diǎn)。這里,預(yù)定閾值可以是0.8。
[0096]根據(jù)本發(fā)明的另一示例性實(shí)施例,優(yōu)化單元150可保留事件關(guān)鍵進(jìn)展進(jìn)程中的每次進(jìn)展的第一個(gè)事件關(guān)鍵進(jìn)展點(diǎn)。
[0097]圖5是示出根據(jù)本發(fā)明的示例性實(shí)施例的事件關(guān)鍵進(jìn)展脈略的示例的示圖。參照?qǐng)D5,XXX事件的關(guān)鍵進(jìn)展清晰可見(jiàn)。
[0098]本發(fā)明提供了一種識(shí)別事件關(guān)鍵進(jìn)展的方法和設(shè)備,所述方法和設(shè)備通過(guò)基于媒體關(guān)注度和新聞熱搜詞進(jìn)行事件關(guān)鍵進(jìn)展識(shí)別,來(lái)獲得最終事件關(guān)鍵進(jìn)展脈絡(luò)。本發(fā)明可提供清晰可見(jiàn)的事件脈絡(luò),滿(mǎn)足用戶(hù)對(duì)事件的關(guān)注需求,提高用戶(hù)體驗(yàn)。此外,本發(fā)明無(wú)需人工編輯,大大降低專(zhuān)題生成成本。此外,本發(fā)明可對(duì)話題進(jìn)行快速的事件進(jìn)展跟蹤,時(shí)效性高。此外,本發(fā)明提供的方法和設(shè)備是一種與具體項(xiàng)目無(wú)關(guān)的通用技術(shù)方案,因此具有很強(qiáng)的通用性和可移植性。
[0099]可根據(jù)計(jì)算機(jī)程序指令來(lái)執(zhí)行根據(jù)本發(fā)明的上述方法。由于這些程序指令可被包括在計(jì)算機(jī)、專(zhuān)用處理器或可編程或?qū)S糜布?,因此在其中?zhí)行的指令可有利于上述的功能的執(zhí)行。如本領(lǐng)域的技術(shù)人員所理解的,計(jì)算機(jī)、處理器或可編程硬件包括可存儲(chǔ)或接收軟件或計(jì)算機(jī)代碼的存儲(chǔ)器件,所述軟件或計(jì)算機(jī)代碼在被計(jì)算機(jī)、處理器或硬件訪問(wèn)和執(zhí)行時(shí)實(shí)現(xiàn)在本發(fā)明中描述的方法。
[0100]雖然本發(fā)明是參照其示例性的實(shí)施例被顯示和描述的,但是本領(lǐng)域的技術(shù)人員應(yīng)該理解,在不脫離由權(quán)利要求及其等同物限定的本發(fā)明的精神和范圍的情況下,可以對(duì)其形式和細(xì)節(jié)進(jìn)行各種改變。
【權(quán)利要求】
1.一種識(shí)別事件關(guān)鍵進(jìn)展的方法,所述方法包括:基于事件核心詞獲得事件搜索詞簇;通過(guò)基于媒體關(guān)注度針對(duì)事件搜索詞簇進(jìn)行事件關(guān)鍵進(jìn)展識(shí)別,獲得第一事件關(guān)鍵進(jìn)展點(diǎn)集合;通過(guò)基于新聞熱搜詞針對(duì)事件核心詞進(jìn)行事件關(guān)鍵進(jìn)展識(shí)別,獲得第二事件關(guān)鍵進(jìn)展點(diǎn)集合;通過(guò)將第一事件關(guān)鍵進(jìn)展點(diǎn)集合和第二事件關(guān)鍵進(jìn)展點(diǎn)集合進(jìn)行融合和去重,獲得第三事件關(guān)鍵進(jìn)展點(diǎn)集合;對(duì)第三事件關(guān)鍵進(jìn)展點(diǎn)集合進(jìn)行優(yōu)化,獲得最終事件關(guān)鍵進(jìn)展脈絡(luò)。
2.如權(quán)利要求1所述的方法,其中,基于媒體關(guān)注度針對(duì)事件搜索詞簇進(jìn)行事件關(guān)鍵進(jìn)展識(shí)別的步驟包括:(1)通過(guò)使用事件搜索詞簇檢索新聞倒排索引,在預(yù)定時(shí)間段內(nèi)計(jì)算事件搜索詞簇在時(shí)間軸上每天命中的新聞數(shù)量,獲得事件搜索詞簇的新聞報(bào)道趨勢(shì)圖;(2)通過(guò)基于假期效應(yīng)對(duì)新聞報(bào)道趨勢(shì)圖進(jìn)行假期新聞數(shù)量調(diào)整,獲得媒體關(guān)注度趨勢(shì)圖;(3)通過(guò)對(duì)媒體關(guān)注度趨勢(shì)圖進(jìn)行時(shí)序分析以識(shí)別新聞突發(fā)點(diǎn),來(lái)獲得以大事件為粒度的候選事件關(guān)鍵進(jìn)展點(diǎn)集合,其中,大事件是指大于或等于第一預(yù)定天數(shù)的連續(xù)新聞突發(fā)點(diǎn)的集合;(4)對(duì)候選事件關(guān)鍵進(jìn)展點(diǎn)集合中的持續(xù)時(shí)間大于或等于第二預(yù)定天數(shù)且具有明顯發(fā)展脈絡(luò)的大事件進(jìn)行基于均勻假設(shè)的二次切分,獲得第一事件關(guān)鍵進(jìn)展點(diǎn)集合,其中,具有明顯發(fā)展脈絡(luò)的大事件是指在所述持續(xù)時(shí)間內(nèi)單獨(dú)進(jìn)行時(shí)序分析也能夠識(shí)別到新聞突發(fā)點(diǎn)的大事件。
3.如權(quán)利要求1所述的方法,其中,基于媒體關(guān)注度針對(duì)事件搜索詞簇進(jìn)行事件關(guān)鍵進(jìn)展識(shí)別的步驟包括:(1)通過(guò)使用事件搜索詞簇檢索新聞倒排索引,在預(yù)定時(shí)間段內(nèi)計(jì)算事件搜索詞簇中的每個(gè)搜索詞在時(shí)間軸上每天命中的新聞數(shù)量,獲得每個(gè)搜索詞的新聞報(bào)道`趨勢(shì)圖;(2)通過(guò)基于假期效應(yīng)對(duì)每個(gè)搜索詞的新聞報(bào)道趨勢(shì)圖進(jìn)行假期新聞數(shù)量調(diào)整,獲得每個(gè)搜索詞的媒體關(guān)注度趨勢(shì)圖;(3)對(duì)每個(gè)搜索詞的媒體關(guān)注度趨勢(shì)圖進(jìn)行時(shí)序分析以識(shí)別新聞突發(fā)點(diǎn),獲得每個(gè)搜索詞的以大事件為粒度的候選事件關(guān)鍵進(jìn)展點(diǎn),其中,大事件是指大于或等于第一預(yù)定天數(shù)的連續(xù)新聞突發(fā)點(diǎn)的集合;(4)將事件搜索詞簇中的所有搜索詞的候選事件關(guān)鍵進(jìn)展點(diǎn)進(jìn)行融合,獲得候選事件關(guān)鍵進(jìn)展點(diǎn)集合;(5)對(duì)候選事件關(guān)鍵進(jìn)展點(diǎn)集合中的持續(xù)時(shí)間大于或等于第二預(yù)定天數(shù)且具有明顯發(fā)展脈絡(luò)的大事件進(jìn)行基于均勻假設(shè)的二次切分,獲得第一事件關(guān)鍵進(jìn)展點(diǎn)集合,其中,具有明顯發(fā)展脈絡(luò)的大事件是指在所述持續(xù)時(shí)間內(nèi)單獨(dú)進(jìn)行時(shí)序分析也能夠識(shí)別到新聞突發(fā)點(diǎn)的大事件。
4.如權(quán)利要求1所述的方法,其中,獲得事件搜索詞簇的步驟包括:通過(guò)在用戶(hù)搜索日志中搜索與事件核心詞對(duì)應(yīng)的事件搜索詞,獲得事件搜索詞簇。
5.如權(quán)利要求2或3所述的方法,其中,假期新聞數(shù)量調(diào)整的步驟包括:通過(guò)統(tǒng)計(jì)假期前一日、假期當(dāng)日、假期后一日的全網(wǎng)新聞索引來(lái)分別獲得假期前一日、 假期當(dāng)日、假期后一日的全網(wǎng)新聞總量;計(jì)算假期當(dāng)日的全網(wǎng)新聞總量和假期前一日的全網(wǎng)新聞總量之間的差值與假期當(dāng)日的全網(wǎng)新聞總量和假期前一日的全網(wǎng)新聞總量之間的差值的比例;根據(jù)計(jì)算的比例調(diào)整假期當(dāng)日事件搜索詞簇的新聞數(shù)量。
6.如權(quán)利要求2或3所述的方法,其中,第一預(yù)定天數(shù)為3天,第二預(yù)定天數(shù)為5天。
7.如權(quán)利要求2或3所述的方法,其中,時(shí)序分析的步驟包括:采用滑動(dòng)時(shí)間窗口的方式,以第一預(yù)定時(shí)間段為一個(gè)計(jì)算時(shí)間窗口,以第二預(yù)定時(shí)間段為滑動(dòng)時(shí)間窗口向前滑動(dòng),分別識(shí)別每個(gè)計(jì)算時(shí)間窗口內(nèi)的新聞突發(fā)點(diǎn);只要在一個(gè)計(jì)算時(shí)間窗口中將某一個(gè)時(shí)間點(diǎn)識(shí)別為新聞突發(fā)點(diǎn),則將該時(shí)間點(diǎn)設(shè)置為候選關(guān)鍵進(jìn)展時(shí)間點(diǎn);將所有候選關(guān)鍵進(jìn)展時(shí)間點(diǎn)進(jìn)行融合,得到以大事件為粒度的候選事件關(guān)鍵進(jìn)展點(diǎn)集口 o
8.如權(quán)利要求7所述的方法,其中,第一預(yù)定時(shí)間段為30天,第二預(yù)定時(shí)間段為2天。
9.如權(quán)利要求7所述的方法,其中,識(shí)別新聞突發(fā)點(diǎn)的步驟包括:計(jì)算該計(jì)算時(shí)間窗口內(nèi)的所有天的事件搜索詞簇的新聞數(shù)量的均值以及方差; 通過(guò)以下的公開(kāi)來(lái)計(jì)算門(mén)限值:門(mén)限值=均值+0.8X方差;如果該計(jì)算時(shí)間窗口內(nèi)的某一個(gè)時(shí)間點(diǎn)大于計(jì)算的門(mén)限值,則將該時(shí)間點(diǎn)識(shí)別為新聞關(guān)發(fā)點(diǎn)。
10.如權(quán)利要求2或3所述的方法,其中,基于均勻假設(shè)的二次切分的步驟包括: 在持續(xù)時(shí)間大于或等于第二預(yù)定天數(shù)且具有明顯發(fā)展脈絡(luò)的大事件內(nèi),將每一天的事件搜索詞簇新聞量與該天之前兩天的事件搜索詞簇新聞量的平均值進(jìn)行比較;如果該天的事件搜索詞簇新聞量大于所述平均值,則保留該天作為事件關(guān)鍵進(jìn)展點(diǎn); 如果該天的事件搜索詞簇新聞量小于或等于所述平均值,則去除該天的事件關(guān)鍵進(jìn)展
11.如權(quán)利要求1所述的方法,其中,基于新聞熱搜詞針對(duì)事件核心詞進(jìn)行事件關(guān)鍵進(jìn)展識(shí)別的步驟包括:使用事件核心詞在新聞熱搜詞庫(kù)中進(jìn)行搜索;將搜索到的新聞熱搜詞所對(duì)應(yīng)的時(shí)間點(diǎn)識(shí)別為事件關(guān)鍵進(jìn)展點(diǎn)。
12.如權(quán)利要求2或3所述的方法,其中,對(duì)第三事件關(guān)鍵進(jìn)展點(diǎn)集合進(jìn)行優(yōu)化的步驟包括:對(duì)于一個(gè)大事件,優(yōu)化單元將新聞數(shù)量最多的事件關(guān)鍵進(jìn)展點(diǎn)的新聞量與該事件關(guān)鍵進(jìn)展點(diǎn)之后的每個(gè)事件關(guān)鍵進(jìn)展點(diǎn)的新聞量之比與預(yù)定閾值進(jìn)行比較;如果新聞數(shù)量最多的事件關(guān)鍵進(jìn)展點(diǎn)的新聞量與該事件關(guān)鍵進(jìn)展點(diǎn)之后的每個(gè)事件關(guān)鍵進(jìn)展點(diǎn)的新聞量之比均大于預(yù)定閾值,則去除該事件關(guān)鍵進(jìn)展點(diǎn)之后的所有事件關(guān)鍵進(jìn)展點(diǎn)。
13.如權(quán)利要求2或3所述的方法,其中,對(duì)第三事件關(guān)鍵進(jìn)展點(diǎn)集合進(jìn)行優(yōu)化的步驟還包括:保留事件關(guān)鍵進(jìn)展進(jìn)程中的每次進(jìn)展的第一個(gè)事件關(guān)鍵進(jìn)展點(diǎn)。
14.一種識(shí)別事件關(guān)鍵進(jìn)展的設(shè)備,所述設(shè)備包括:事件搜索詞簇獲得單兀,基于事件核心詞獲得事件搜索詞簇;第一識(shí)別單元,通過(guò)基于媒體關(guān)注度針對(duì)事件搜索詞簇進(jìn)行事件關(guān)鍵進(jìn)展識(shí)別,獲得第一事件關(guān)鍵進(jìn)展點(diǎn)集合;第二識(shí)別單元,通過(guò)基于新聞熱搜詞針對(duì)事件核心詞進(jìn)行事件關(guān)鍵進(jìn)展識(shí)別,獲得第二事件關(guān)鍵進(jìn)展點(diǎn)集合;求和單元,通過(guò)將第一事件關(guān)鍵進(jìn)展點(diǎn)集合和第二事件關(guān)鍵進(jìn)展點(diǎn)集合進(jìn)行融合和去重,獲得第三事件關(guān)鍵進(jìn)展點(diǎn)集合;優(yōu)化單元,對(duì)第三事件關(guān)鍵進(jìn)展點(diǎn)集合進(jìn)行優(yōu)化,獲得最終事件關(guān)鍵進(jìn)展脈絡(luò)。
15.如權(quán)利要求14所述的設(shè)備,其中,第一識(shí)別單元包括:新聞數(shù)量計(jì)算單元,通過(guò)使用事件搜索詞簇檢索新聞倒排索引,在預(yù)定時(shí)間段內(nèi)計(jì)算事件搜索詞簇在時(shí)間軸上每天命中的新聞數(shù)量,獲得事件搜索詞簇的新聞報(bào)道趨勢(shì)圖; 假期調(diào)整單元,通過(guò)基于假期效應(yīng)對(duì)新聞報(bào)道趨勢(shì)圖進(jìn)行假期新聞數(shù)量調(diào)整,獲得媒體關(guān)注度趨勢(shì)圖;時(shí)序分析單元,通過(guò)對(duì)媒體關(guān)注度趨勢(shì)圖進(jìn)行時(shí)序分析以識(shí)別新聞突發(fā)點(diǎn),來(lái)獲得以大事件為粒度的候選事件關(guān)鍵進(jìn)展點(diǎn)集合,其中,大事件是指大于或等于第一預(yù)定天數(shù)的連續(xù)新聞突發(fā)點(diǎn)的集合;切分單元,對(duì)候選事件關(guān)鍵進(jìn)展點(diǎn)集合中的持續(xù)時(shí)間大于或等于第二預(yù)定天數(shù)且具有明顯發(fā)展脈絡(luò)的大事件進(jìn)行基于均勻假設(shè)的二次切分,獲得第一事件關(guān)鍵進(jìn)展點(diǎn)集合,其中,具有`明顯發(fā)展脈絡(luò)的大事件是指在所述持續(xù)時(shí)間內(nèi)單獨(dú)進(jìn)行時(shí)序分析也能夠識(shí)別到新聞突發(fā)點(diǎn)的大事件。
16.如權(quán)利要求14所述的設(shè)備,其中,第一識(shí)別單元包括:新聞數(shù)量計(jì)算單元,通過(guò)使用事件搜索詞簇檢索新聞倒排索引,在預(yù)定時(shí)間段內(nèi)計(jì)算事件搜索詞簇中的每個(gè)搜索詞在時(shí)間軸上每天命中的新聞數(shù)量,獲得每個(gè)搜索詞的新聞報(bào)道趨勢(shì)圖;假期調(diào)整單元,通過(guò)基于假期效應(yīng)對(duì)每個(gè)搜索詞的新聞報(bào)道趨勢(shì)圖進(jìn)行假期新聞數(shù)量調(diào)整,獲得每個(gè)搜索詞的媒體關(guān)注度趨勢(shì)圖;時(shí)序分析單元,對(duì)每個(gè)搜索詞的媒體關(guān)注度趨勢(shì)圖進(jìn)行時(shí)序分析以識(shí)別新聞突發(fā)點(diǎn), 獲得每個(gè)搜索詞的以大事件為粒度的候選事件關(guān)鍵進(jìn)展點(diǎn)集合,其中,大事件是指大于或等于第一預(yù)定天數(shù)的連續(xù)新聞突發(fā)點(diǎn)的集合;融合單元,將事件搜索詞簇中的所有搜索詞的候選事件關(guān)鍵進(jìn)展點(diǎn)集合進(jìn)行融合,獲得最終的候選事件關(guān)鍵進(jìn)展點(diǎn)集合;切分單元,對(duì)最終的候選事件關(guān)鍵進(jìn)展點(diǎn)集合中的持續(xù)時(shí)間大于或等于第二預(yù)定天數(shù)且具有明顯發(fā)展脈絡(luò)的大事件進(jìn)行基于均勻假設(shè)的二次切分,獲得第一事件關(guān)鍵進(jìn)展點(diǎn)集合,其中,具有明顯發(fā)展脈絡(luò)的大事件是指在所述持續(xù)時(shí)間內(nèi)單獨(dú)進(jìn)行時(shí)序分析也能夠識(shí)別到新聞突發(fā)點(diǎn)的大事件。
17.如權(quán)利要求14所述的設(shè)備,其中,事件搜索詞簇獲得單元通過(guò)在用戶(hù)搜索日志中搜索與事件核心詞對(duì)應(yīng)的事件搜索詞,獲得事件搜索詞簇。
18.如權(quán)利要求15或16所述的設(shè)備,其中,假期調(diào)整單元通過(guò)統(tǒng)計(jì)假期前一日、假期當(dāng)日、假期后一日的全網(wǎng)新聞索引來(lái)分別獲得假期前一日、假期當(dāng)日、假期后一日的全網(wǎng)新聞總量;計(jì)算假期當(dāng)日的全網(wǎng)新聞總量和假期前一日的全網(wǎng)新聞總量之間的差值與假期當(dāng)日的全網(wǎng)新聞總量和假期前一日的全網(wǎng)新聞總量之間的差值的比例;根據(jù)計(jì)算的比例調(diào)整假期當(dāng)日事件搜索詞簇的新聞數(shù)量。
19.如權(quán)利要求15或16所述的設(shè)備,其中,第一預(yù)定天數(shù)為3天,第二預(yù)定天數(shù)為5天。
20.如權(quán)利要求15或16所述的設(shè)備,其中,時(shí)序分析單元采用滑動(dòng)時(shí)間窗口的方式,以第一預(yù)定時(shí)間段為一個(gè)計(jì)算時(shí)間窗口,以第二預(yù)定時(shí)間段為滑動(dòng)時(shí)間窗口向前滑動(dòng),分別識(shí)別每個(gè)計(jì)算時(shí)間窗口內(nèi)的新聞突發(fā)點(diǎn);只要在一個(gè)計(jì)算時(shí)間窗口中將某一個(gè)時(shí)間點(diǎn)識(shí)別為新聞突發(fā)點(diǎn),則將該時(shí)間點(diǎn)設(shè)置為候選關(guān)鍵進(jìn)展時(shí)間點(diǎn);將所有候選關(guān)鍵進(jìn)展時(shí)間點(diǎn)進(jìn)行融合,得到以大事件為粒度的候選事件關(guān)鍵進(jìn)展點(diǎn)集合。
21.如權(quán)利要求20所述的設(shè)備,其中,第一預(yù)定時(shí)間段為30天,第二預(yù)定時(shí)間段為2天。
22.如權(quán)利要求20所述的設(shè)備,其中,時(shí)序分析單元通過(guò)下面的方法識(shí)別新聞突發(fā)點(diǎn): 計(jì)算該計(jì)算時(shí)間窗口內(nèi)的所有天的事件搜索詞簇的新聞數(shù)量的均值以及方差;通過(guò)以下的公開(kāi)來(lái)計(jì)算門(mén)限值:門(mén)限值=均值+0.8X方差;如果該計(jì)算時(shí)間窗口內(nèi)的某一個(gè)時(shí)間點(diǎn)大于計(jì)算的門(mén)限值,則將該時(shí)間點(diǎn)識(shí)別為新聞突發(fā)點(diǎn)。
23.如權(quán)利要求15或16所述的設(shè)備,其中,切分單元在持續(xù)時(shí)間大于或等于第二預(yù)定天數(shù)且具有明顯發(fā)展脈絡(luò)的大事件內(nèi),將每一天的事件搜索詞簇新聞量與該天之前兩天的事件搜索詞簇新聞量的平均值進(jìn)行比較;如果該天的事件搜索詞簇新聞量大于所述平均值,則保留該天作為事件關(guān)鍵進(jìn)展點(diǎn);如果該天的事件搜索詞簇新聞量小于或等于所述平均值,則去除該天的事件關(guān)鍵進(jìn)展點(diǎn)。
24.如權(quán)利要求14所述的設(shè)備,其中,第二識(shí)別單元使用事件核心詞在新聞熱搜詞庫(kù)中進(jìn)行搜索;將搜索到的新聞熱搜詞所對(duì)應(yīng)的時(shí)間點(diǎn)識(shí)別為事件關(guān)鍵進(jìn)展點(diǎn)。
25.如權(quán)利要求15或16所述的設(shè)備,其中,對(duì)于一個(gè)大事件,優(yōu)化單元將新聞數(shù)量最多的事件關(guān)鍵進(jìn)展點(diǎn)的新聞量與該事件關(guān)鍵進(jìn)展點(diǎn)之后的每個(gè)事件關(guān)鍵進(jìn)展點(diǎn)的新聞量之比與預(yù)定閾值進(jìn)行比較,如果新聞數(shù)量最多的事件關(guān)鍵進(jìn)展點(diǎn)的新聞量與該事件關(guān)鍵進(jìn)展點(diǎn)之后的每個(gè)事件關(guān)鍵進(jìn)展點(diǎn)的新聞量之比均大于預(yù)定閾值,則優(yōu)化單元去除該事件關(guān)鍵進(jìn)展點(diǎn)之后的所有事件關(guān)鍵進(jìn)展點(diǎn)。
26.如權(quán)利要求15或16所述的設(shè)備,其中,優(yōu)化單元保留事件關(guān)鍵進(jìn)展進(jìn)程中的每次進(jìn)展的第一個(gè)事件關(guān)鍵進(jìn)展點(diǎn)。
【文檔編號(hào)】G06F17/30GK103500163SQ201310314465
【公開(kāi)日】2014年1月8日 申請(qǐng)日期:2013年7月24日 優(yōu)先權(quán)日:2013年7月24日
【發(fā)明者】沈劍平, 彭學(xué)政, 李凱, 羅嶸 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司