br>[0033] 步驟S100,數(shù)據(jù)采集
[0034] 基于分布式云計(jì)算方式對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行數(shù)據(jù)采集,所述網(wǎng)絡(luò)數(shù)據(jù)包括博客、微博、 論壇、新聞報(bào)道網(wǎng)頁幾個類別的數(shù)據(jù),并對所述網(wǎng)絡(luò)數(shù)據(jù)按照博客、微博、論壇、新聞報(bào)道網(wǎng) 頁幾個類別進(jìn)行標(biāo)注,并按所述類別分別存儲所述網(wǎng)絡(luò)數(shù)據(jù);其中,新聞報(bào)道網(wǎng)頁是指騰訊 新聞、新浪新聞等門戶網(wǎng)站以及例如人民日報(bào)等新聞媒體網(wǎng)站所提供的報(bào)道新聞的網(wǎng)頁。
[0035] 所述數(shù)據(jù)采集是由網(wǎng)絡(luò)爬蟲來實(shí)現(xiàn)的。通過分布式存儲設(shè)備存儲采集的網(wǎng)絡(luò)數(shù) 據(jù),所述分布式存儲設(shè)備基于HDFS實(shí)現(xiàn)。
[0036] 步驟S200,數(shù)據(jù)預(yù)處理,對步驟SlOO采集的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行預(yù)處理,
[0037] 首先對采集的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分詞和詞性標(biāo)注處理;
[0038] 由于微博文本格式自由,具有內(nèi)容簡短和碎片化的特點(diǎn),為了便于進(jìn)行分析,需 要對微博內(nèi)容進(jìn)行規(guī)范化處理。
[0039] (1)標(biāo)點(diǎn)符號處理
[0040] 在微博中,經(jīng)常會出現(xiàn)標(biāo)點(diǎn)符號組合使用或標(biāo)點(diǎn)符號連用的情況。這種用法雖然 不符合語法規(guī)則,但在微博中卻往往被用來表達(dá)一些單個符號難以表達(dá)的情感。例如"~" 在文本中往往表達(dá)一種感情的起伏和延伸。如"真高興啊~~~!"。為了在微博文本處理 中能夠反映出表達(dá)者的語氣和強(qiáng)度。需要對于標(biāo)點(diǎn)符號組合及連用情況進(jìn)行標(biāo)記。
[0041] (2)表情字符處理
[0042] 在微博中經(jīng)常會出現(xiàn)一些用來體現(xiàn)表情的字符或字符組合。例如一!表示尷尬 等。這類符號往往包含了微博用戶的情感或態(tài)度傾向。針對這類字符,通過建立一個包含 主要表情符號的映射表來進(jìn)行標(biāo)注。由于這些表情字符集中在少數(shù)幾類,例外較少,我們 采取統(tǒng)計(jì)計(jì)算方式為其中絕大多數(shù)符號建立映射,并進(jìn)行人工評價標(biāo)注,賦以情感極性權(quán) 重。
[0043] (3)停用詞處理
[0044] 在基于SVM的自動分類中,停用詞是沒有實(shí)義的虛詞和類別色彩不強(qiáng)的中性詞, 這類詞的出現(xiàn)頻率相對較高。對它們單獨(dú)進(jìn)行有效處理能夠提高詞語切分速度及提高后續(xù) 分析的質(zhì)量。詞語切分時對這些詞仍然需要進(jìn)行標(biāo)記。為了能夠正確處理停用詞,需要使 用到停用詞表。真假停用詞表的構(gòu)造和停用詞的識別是停用詞處理的的關(guān)鍵。目前,停用 詞表的建立由人工方式和基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方式來完成。機(jī)器學(xué)習(xí)的方法從語料中統(tǒng)計(jì) 出高頻詞自動構(gòu)造停用詞表,或從初步的分詞中獲得停用詞并在后續(xù)分詞中不斷更新和 驗(yàn)證。
[0045] 步驟S300,話題抽取,基于預(yù)處理后的網(wǎng)絡(luò)數(shù)據(jù),從中抽取出熱點(diǎn)話題;
[0046] 微博具有短小精悍的特點(diǎn),微博的準(zhǔn)發(fā)字?jǐn)?shù)的最高限制是140字,也就是說要在 這個限制之內(nèi)把意思表述清楚。所謂的文檔集是指每一條微博,微博數(shù)量成千上萬條,所以 文檔集的數(shù)量也是巨大的。熱點(diǎn)話題發(fā)現(xiàn)是指把龐大的微博信息分門別類,找到社會議論 的熱點(diǎn),探討民眾所持有的感情色彩,隨時了解民眾訴求。
[0047] 文本聚類技術(shù)是話題發(fā)現(xiàn)和跟蹤的基礎(chǔ),好的聚類會產(chǎn)生準(zhǔn)確的分類,降低大類 現(xiàn)象。文本聚類主要包括特征提取、文本表示、文本聚類、觀點(diǎn)挖掘四個步驟。
[0048] 所謂文本的特征是指文本中能夠傳遞文本信息和語義的詞匯和字符的總稱。未經(jīng) 處理的文本其特征是不明顯的,需要人工干預(yù),使用一定的方法從文本中提取出來。特征提 取是為了使得文本向量的維度盡量的變小,使得計(jì)算機(jī)處理信息的速度和效率提高。特征 提取主要包括兩個主要的步驟:預(yù)處理、高質(zhì)量詞匯提取。文檔預(yù)處理主要三部分:去停用 詞、詞性過濾、無效詞條過濾。去停用詞首先建立一個停用詞詞典,然后匹配去除那些出現(xiàn) 頻率很高但是有沒有實(shí)際意義的詞,例如"的""了""嗎"等。詞性過濾建立在詞性標(biāo)注的 基礎(chǔ)上,對不同性質(zhì)的詞匯分門別類的處理,實(shí)驗(yàn)證明,形容詞和副詞對聚類的效果的提高 沒有太大的改善,所以應(yīng)予以去除,只保留名詞、動詞和縮略詞。
[0049] 經(jīng)過預(yù)處理之后的詞匯量仍然巨大,所以仍需要進(jìn)行第二個步驟,高質(zhì)量詞匯提 取。文檔中的每一個特征項(xiàng)都隱含一個質(zhì)量值,所謂質(zhì)量值主要是基于特征項(xiàng)的詞頻特征, 反應(yīng)特征項(xiàng)在文本中的貢獻(xiàn)度。質(zhì)量越大,說明貢獻(xiàn)越大,可以留下用于文本聚類;反之,則 剔除。
[0050] 特征項(xiàng)t的質(zhì)量Q (t)表示為:
[0052] 其中,N表示所有文檔的數(shù)量,匕表示文檔特征項(xiàng)t在文檔i中出現(xiàn)的次數(shù),1 ,表 示特征項(xiàng)t的長度,
[0053] 設(shè)定閾值Q,對于Q(t)>Q的特征項(xiàng)予以保留,否則刪除。
[0054] 向量空間模型把文本表示成特征項(xiàng)組成的多維空間,每個特征項(xiàng)作為空間中的一 維,這樣文本模型可以表示如下:
[0055] d = It1, t2,......, tn},其中n代表特征項(xiàng)的數(shù)目。
[0056] K-means聚類算法是一種廣泛使用的聚類算法,它將各聚類子集內(nèi)所有樣本的均 值作為聚類中心,通過迭代過程將數(shù)據(jù)劃分到不同類別,使評價聚類性能的函數(shù)達(dá)到最 優(yōu)。這種算法對于處理連續(xù)型的長文檔有較好的聚類效果,但算法對于噪聲和孤立點(diǎn)數(shù)據(jù) 很敏感,少量這樣的數(shù)據(jù)會對均值產(chǎn)生很大的影響,對于微博文本這種具有離散型屬性和 數(shù)據(jù)稀疏特點(diǎn)的數(shù)據(jù),聚類效果并不理想。
[0057] 層次聚類算法是另一種應(yīng)用廣泛的聚類算法。這種算法對給定的數(shù)據(jù)對象集合進(jìn) 行層次分解。按照層次的形成方式,又分為凝聚的層次聚類算法和分裂的層次聚類算法。 層次聚類算法可以有效地控制噪聲,降低了孤立點(diǎn)數(shù)據(jù)對于聚類結(jié)果的影響。但是,層次 聚類算法也存在缺陷,在聚類過程中一旦一個分裂或合并被執(zhí)行,就不能修正。若聚類過 程中某一步驟出現(xiàn)差錯,那么這樣的錯誤將會被延續(xù),層次化的迭代運(yùn)算使誤差不斷累 積,導(dǎo)致聚類結(jié)果較差。
[0058] 為了有效克服這兩種算法存在的缺陷,同時充分利用它們各自在文本聚類上的 優(yōu)勢,我們將這兩種算法結(jié)合起來進(jìn)行文本聚類。利用層次聚類算法計(jì)算每個類中文本對 象的均值,得到k-means算法的初始聚類中心。利用k-means算法通過重新計(jì)算每個文本 對象與聚類中心的距離,修正層次聚類結(jié)果中文本對象的歸屬類。算法步驟如下:
[0059] (1)確定聚類中心的個數(shù)k ;
[0060] (2)利用層次聚類的方法對數(shù)據(jù)集進(jìn)行層次聚類分析,得到k個類的均值,將它 們作為k-means的初始聚類中心;
[0061] (3)計(jì)算每個文本對象與聚類中心的距離,將文本對象劃分到離該文本對象最近 的聚類中心所代表的簇;
[0062] (4)利用得到的值重新計(jì)算每個簇的聚類中心;
[0063] (5)重復(fù)(3)和(4),直到每個文本對象所屬的類不再變化為止。
[0064] 上述算法中的文本對象,即為所述網(wǎng)絡(luò)數(shù)據(jù)中的文檔(文本d)。
[0065] 上述聚類結(jié)果所得到的類即確定為話題。
[0066] 熱點(diǎn)話題就是以互聯(lián)網(wǎng)為傳播媒介,被大眾人群廣泛關(guān)注,并會在很短的時間內(nèi) 會廣泛傳播蔓延持續(xù)一段時間的,能夠反映出互聯(lián)網(wǎng)輿情的信息集合,其中也包括對互聯(lián) 網(wǎng)熱點(diǎn)話題在內(nèi)的語義化描述以及包括話題的傳播方式等?;ヂ?lián)網(wǎng)熱點(diǎn)話題通常是被廣大 網(wǎng)民重點(diǎn)關(guān)注的信息,相關(guān)的信息會在網(wǎng)絡(luò)中大頻率的出現(xiàn),其中熱點(diǎn)詞語比較能直接的 描述出熱點(diǎn)話題的大體內(nèi)容,一個熱點(diǎn)話題必有多個熱點(diǎn)話題的特征量來描述,且這些特 征量之間具有一定的相似度。
[0067] 熱點(diǎn)話題的特征量有:
[0068] 話題的報(bào)道頻率;對于一個比較重要的話題,媒體對它的相關(guān)報(bào)道將會比平時的 增加,那么這個報(bào)道頻率也會影響到熱點(diǎn)話題的關(guān)注度,也就是說在一段時間內(nèi)關(guān)于某一 個話題的報(bào)道數(shù)量與報(bào)道總數(shù)的比值,比值越大,則話題的所受的關(guān)注度就越高。
[0069] 話題的持續(xù)時間;對于一個熱點(diǎn)話題,如果媒體對它的報(bào)道持續(xù)時間越長,并引 發(fā)網(wǎng)民討論的時間也長,那么也就說明該話題受關(guān)注的程度越大。因?yàn)槊恳粋€話題具有自 己的受關(guān)注時間屬性,我們定義話題的起始時間即為話題剛開始的時間,消亡時間就是當(dāng) 話題的報(bào)道低于某個閾值的時刻,因此,把事件的時間的跨度定義為這話題開始時間和消 亡時間之差。
[0070] 話題的閱讀量;因?yàn)槟碂狳c(diǎn)話題的報(bào)道大多來自WEB站點(diǎn),那么點(diǎn)擊閱讀到話題 相關(guān)報(bào)道的網(wǎng)民越多,也就說明該話題受到的關(guān)注度越大,我們就可以用熱點(diǎn)話題的相關(guān) 報(bào)道的點(diǎn)擊閱讀數(shù)量來記錄話題的關(guān)注度。