欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

在物理空間上提取網(wǎng)絡(luò)空間熱點(diǎn)事件信息的方法

文檔序號:6380858閱讀:174來源:國知局
專利名稱:在物理空間上提取網(wǎng)絡(luò)空間熱點(diǎn)事件信息的方法
在物理空間上提取網(wǎng)絡(luò)空間熱點(diǎn)事件信息的方法技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)字信息處理技術(shù)領(lǐng)域,具體涉及與網(wǎng)絡(luò)多媒體信息相關(guān)的數(shù)字信息處理,特別是基于多源異質(zhì)媒體集的協(xié)同聚類的在物理空間上提取網(wǎng)絡(luò)空間熱點(diǎn)事件信息的方法。
背景技術(shù)
隨著信息技術(shù)的發(fā)展和互聯(lián)網(wǎng)的普遍應(yīng)用,越來越多的人習(xí)慣于在網(wǎng)絡(luò)上分享新聞、發(fā)表個(gè)人見解、討論熱門話題,甚至記錄日常生活瑣屑。網(wǎng)絡(luò)空間數(shù)據(jù)是指在互聯(lián)網(wǎng)上共享的各類社會(huì)感知數(shù)據(jù),包括用戶共享的文本、圖像、視頻、音頻等多媒體數(shù)據(jù)。由于快速、便捷、普遍等特點(diǎn),互聯(lián)網(wǎng)絡(luò)已經(jīng)成為人們獲取信息的一個(gè)重要途徑。然而事物總有其兩面性,用戶在網(wǎng)絡(luò)上的正當(dāng)行為可以促使進(jìn)步、健康、有益的正面信息在網(wǎng)絡(luò)空間中傳播,而不當(dāng)行為可能散布反動(dòng)、迷信、低級的具有誤導(dǎo)性或危害性的言論。不當(dāng)行為甚至可能將進(jìn)一步誤導(dǎo)輿論或者妨礙到公共安全。
相對于網(wǎng)絡(luò)空間,物理空間中的數(shù)據(jù)主要指能夠反映真實(shí)物理存在的信息數(shù)據(jù), 包括新聞、監(jiān)控視頻以及原始照片等??梢?,來源于確定的物理空間的信息較為可信、真實(shí), 有助于用戶辨別來自網(wǎng)絡(luò)空間的信息的真實(shí)性和可靠性。因此研究如何在物理空間中提取網(wǎng)絡(luò)空間的熱點(diǎn)事件信息的方法是非常必要和迫切的。
但是在目前的研究中,網(wǎng)絡(luò)空間數(shù)據(jù)的輿情性和物理空間數(shù)據(jù)的真實(shí)性,并沒有得到很好的重視和利用?,F(xiàn)有方法多數(shù)局限于只在單一空間上分析數(shù)據(jù),例如對網(wǎng)絡(luò)空間的熱點(diǎn)信息的分析,以及對物理空間數(shù)據(jù)的異常檢測。而針對物理空間和網(wǎng)絡(luò)空間數(shù)據(jù)的交互和融合,還沒有系統(tǒng)的研究工作。
此外,目前對于熱點(diǎn)事件的言論及其相關(guān)信息的挖掘,現(xiàn)有方法主要是采用有效的數(shù)據(jù)集上進(jìn)行聚類的方法,比如基于譜的分割方法(spectralgraph partition)、k均值聚類(K-means)等,但這些方法都局限于在單一媒體集上。發(fā)明內(nèi)容
(一 )要解決的技術(shù)問題
本發(fā)明需要解決的技術(shù)問題主要為如何利用多源異質(zhì)數(shù)據(jù)集之間語義關(guān)聯(lián),發(fā)現(xiàn)網(wǎng)絡(luò)空間熱點(diǎn)事件在物理空間中最為相關(guān)的信息樣本,以在物理空間上提取網(wǎng)絡(luò)空間熱點(diǎn)事件信息,從而幫助用戶甄別網(wǎng)絡(luò)空間中信息的真實(shí)性。
( 二 )技術(shù)方案
為了解決上述技術(shù)問題,本發(fā)明提出了一種在物理空間上提取網(wǎng)絡(luò)空間熱點(diǎn)事件信息的方法,包括如下步驟SI、在網(wǎng)絡(luò)空間中提取熱點(diǎn)事件關(guān)鍵詞集;S2、對所述來自網(wǎng)絡(luò)空間的熱點(diǎn)事件關(guān)鍵詞集和來自物理空間的數(shù)據(jù)集進(jìn)行協(xié)同聚類;S3、根據(jù)所述協(xié)同聚類的聚類結(jié)果提取物理空間中與熱點(diǎn)事件相關(guān)的信息樣本。
其中步驟SI可以包括對熱點(diǎn)事件的每個(gè)關(guān)鍵詞進(jìn)行分析,根據(jù)每個(gè)關(guān)鍵詞在各個(gè)時(shí)間間隔上的突發(fā)程度,賦予其不同的突發(fā)指數(shù),以此在每個(gè)時(shí)間間隔上返回一組突發(fā)程度較高的關(guān)鍵詞集。
其中步驟S2包括S21、計(jì)算物理空間中的多源異質(zhì)信息樣本的語義關(guān)聯(lián)度;S22、 根據(jù)所述熱點(diǎn)事件關(guān)鍵詞對物理空間中的多源異質(zhì)數(shù)據(jù)集進(jìn)行協(xié)同聚類。
返回到第S222步。
其中步驟S3包括S31、返回物理空間各個(gè)數(shù)據(jù)集中與指定熱點(diǎn)事件相關(guān)度最高的若干個(gè)聚類,其中相關(guān)度最高的若干個(gè)聚類可以由聯(lián)合概率大于給定閾值來確定;S32、 在各個(gè)數(shù)據(jù)集返回的聚類上,計(jì)算其中的每個(gè)樣本與熱點(diǎn)事件的相似度;S33、每個(gè)數(shù)據(jù)集返回相關(guān)度最大的指定個(gè)樣本作為最終的結(jié)果。
(三)有益效果
本發(fā)明利用物理空間和網(wǎng)絡(luò)空間的信息樣本的關(guān)聯(lián)性與互補(bǔ)性,提出了多源異質(zhì)數(shù)據(jù)集的協(xié)同聚類方法,解決了檢索物理空間中與網(wǎng)絡(luò)空間熱點(diǎn)事件相關(guān)的信息樣本,為網(wǎng)絡(luò)熱點(diǎn)事件的言論提供物理空間關(guān)聯(lián)信息作為參考依據(jù),不僅可以讓用戶快速、全面地了解熱點(diǎn)事件的相關(guān)信息,同時(shí)也增強(qiáng)了用戶對不良信息和謠言的辨別能力。
本發(fā)明通過計(jì)算信息樣本間的文本、圖片、視頻等多媒體信息的相關(guān)性,極大地提高了聚類和樣本檢索的準(zhǔn)確性。


圖I示出了來自網(wǎng)絡(luò)空間的熱點(diǎn)事件關(guān)鍵詞集與來自物理空間的照片集、視頻集、新聞集之間的關(guān)系;
圖2是本發(fā)明所提出的在物理空間上提取網(wǎng)絡(luò)空間熱點(diǎn)事件信息的方法的示意圖3是本發(fā)明采用的基于信息理論(Information Theoretic)的聚類方法求解一般化結(jié)構(gòu)的協(xié)同聚類問題的示意圖4示出了本發(fā)明的一個(gè)實(shí)施例在各個(gè)時(shí)間間隔里提取的前15個(gè)熱點(diǎn)關(guān)鍵詞和突發(fā)指數(shù);
圖5示出了本發(fā)明的一個(gè)實(shí)施例挖掘出來的網(wǎng)絡(luò)空間熱點(diǎn)事件列表;
圖6示出了本發(fā)明的一個(gè)實(shí)施例第一周中與各個(gè)熱點(diǎn)事件相關(guān)的物理空間的信息樣本。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對本發(fā)明作進(jìn)一步的詳細(xì)說明。
如前所述,在本發(fā)明中,網(wǎng)絡(luò)空間數(shù)據(jù)是指在互聯(lián)網(wǎng)上,共享的各類社會(huì)感知數(shù)據(jù),包括用戶共享的文本、圖像、視頻、音頻等多媒體數(shù)據(jù),物理空間中的數(shù)據(jù)主要指能夠反映真實(shí)物理存在的信息數(shù)據(jù),包括新聞、監(jiān)控視頻以及原始照片等。
為了有效地挖掘網(wǎng)絡(luò)空間的熱點(diǎn)事件,同時(shí)發(fā)現(xiàn)物理空間中與之相關(guān)的樣本信息,本發(fā)明提出多源異質(zhì)數(shù)據(jù)集的協(xié)同聚類的方法。這一方法與傳統(tǒng)的聚類技術(shù)比較,具有普遍性,且更適合于當(dāng)前比較熱門的微博平臺(tái)。
多源異質(zhì)數(shù)據(jù)集的協(xié)同聚類方法考慮來自不同源數(shù)據(jù)集樣本的跨源跨媒體相關(guān)性,利用物理空間與網(wǎng)絡(luò)空間信息的關(guān)聯(lián)性和互補(bǔ)性,對所有數(shù)據(jù)源數(shù)據(jù)進(jìn)行同時(shí)聚類。在本發(fā)明中,所涉及到的多源異質(zhì)數(shù)據(jù)集包括從網(wǎng)絡(luò)空間檢測到的熱點(diǎn)事件關(guān)鍵詞集,也包括來自物理空間的照片集、視頻集和新聞集。
圖1示出了來自網(wǎng)絡(luò)空間的熱點(diǎn)事件關(guān)鍵詞集與來自物理空間的照片集、視頻集、新聞集之間的關(guān)系,如圖1所示,物理空間與網(wǎng)絡(luò)空間的各個(gè)數(shù)據(jù)集之間具有兩兩的相連性與互補(bǔ)性。
圖2是本發(fā)明所提出的在物理空間上提取網(wǎng)絡(luò)空間熱點(diǎn)事件信息的方法的示意圖。圖2示出了來自兩個(gè)空間的多源異質(zhì)數(shù)據(jù)集之間的語義關(guān)聯(lián)。由圖2可以看出,任意兩個(gè)數(shù)據(jù)集都是相關(guān)的,這些關(guān)聯(lián)關(guān)系就是本發(fā)明所提出的協(xié)同聚類方法的基礎(chǔ)。
本發(fā)明的方法包含三個(gè)步驟S1、在網(wǎng)絡(luò)空間中提取熱點(diǎn)事件關(guān)鍵詞集;S2、對來自網(wǎng)絡(luò)空間的熱點(diǎn)事件關(guān)鍵詞集和來自物理空間的數(shù)據(jù)集進(jìn)行協(xié)同聚類;S3、根據(jù)聚類結(jié)果提取物理空間中與熱點(diǎn)事件相關(guān)的信息樣本。
SI、在網(wǎng)絡(luò)空間中提取熱點(diǎn)事件關(guān)鍵詞集。
事件總是與一組關(guān)鍵詞相關(guān)的,比如日本2011年3月11日的大地震,這一事件就與“地震”、“核泄露”和“福島”等關(guān)鍵詞相關(guān)。因此熱點(diǎn)事件關(guān)鍵詞提取是熱點(diǎn)事件檢測的關(guān)鍵步驟。不同于一般的事件檢測方法,由于熱點(diǎn)事件檢測注重分析事件在時(shí)間維度上的變化特征,所以本發(fā)明對每個(gè)關(guān)鍵詞進(jìn)行分析,根據(jù)其在各個(gè)時(shí)間間隔上的突發(fā)程度,賦予其不同的突發(fā)指數(shù),以此在每個(gè)時(shí)間間隔上返回一組突發(fā)程度較高的關(guān)鍵詞集。所謂突發(fā)是指在短時(shí)間內(nèi)某一事物發(fā)生的頻率急劇增多。
本發(fā)明把每個(gè)關(guān)鍵詞看成是一個(gè)生命體,當(dāng)一個(gè)新的關(guān)鍵詞出現(xiàn)時(shí),他的生命就開始了,隨后我們可以利用下面的步驟對其進(jìn)行分析計(jì)算。
攝入新營養(yǎng)在這個(gè)關(guān)鍵詞存活的每個(gè)時(shí)間間隔里,它都將根據(jù)其當(dāng)前時(shí)間間隔的熱度,攝入新的營養(yǎng),新的營養(yǎng)可以用“詞頻-比例文檔頻率”(Term frequency-Proportional document frequency)計(jì)算得出。設(shè)關(guān)鍵詞w的攝入新營養(yǎng)為 newNutri (w),計(jì)算公式如下
權(quán)利要求
1.ー種在物理空間上提取網(wǎng)絡(luò)空間熱點(diǎn)事件信息的方法,其特征在于,包括如下步驟 51、在網(wǎng)絡(luò)空間中提取熱點(diǎn)寒件關(guān)鍵詞集; 52、對所述來自網(wǎng)絡(luò)空間的熱點(diǎn)事件關(guān)鍵詞集和來自物理空間的數(shù)據(jù)集進(jìn)行協(xié)同聚類; 53、根據(jù)所述協(xié)同聚類的聚類結(jié)果提取物理空間中與熱點(diǎn)事件相關(guān)的信息樣本。
2.如權(quán)利要求1所述的在物理空間上提取網(wǎng)絡(luò)空間熱點(diǎn)事件信息的方法,其特征在于,所述步驟SI包括對熱點(diǎn)事件的每個(gè)關(guān)鍵詞進(jìn)行分析,根據(jù)每個(gè)關(guān)鍵詞在各個(gè)時(shí)間間隔上的突發(fā)程度,賦予其不同的突發(fā)指數(shù),以此在每個(gè)時(shí)間間隔上返回一組突發(fā)程度較高的關(guān)鍵詞集,所謂突發(fā)是指在短時(shí)間內(nèi)某一事物發(fā)生的頻率急劇增多。
3.如權(quán)利要求2所述的在物理空間上提取網(wǎng)絡(luò)空間熱點(diǎn)事件信息的方法,其特征在于,在步驟SI中,在每個(gè)時(shí)間間隔上,通過下面的公式計(jì)算每個(gè)關(guān)鍵詞的能量方差
4.如權(quán)利要求1所述的在物理空間上提取網(wǎng)絡(luò)空間熱點(diǎn)事件信息的方法,其特征在于,所述步驟S2包括 521、計(jì)算物理空間中的多源異質(zhì)信息樣本的語義關(guān)聯(lián)度; 522、根據(jù)所述熱點(diǎn)事件關(guān)鍵詞對物理空間中的多源異質(zhì)數(shù)據(jù)集進(jìn)行協(xié)同聚類。
5.如權(quán)利要求4所述的在物理空間上提取網(wǎng)絡(luò)空間熱點(diǎn)事件信息的方法,其特征在于,所述多源異質(zhì)信息樣本包括文本、圖像和視頻信息。
6.如權(quán)利要求5所述的在物理空間上提取網(wǎng)絡(luò)空間熱點(diǎn)事件信息的方法,其特征在于,通過下式公式計(jì)算所述多源異質(zhì)信息樣本間的語義相關(guān)度C
7.如權(quán)利要求6所述的在物理空間上提取網(wǎng)絡(luò)空間熱點(diǎn)事件信息的方法,其特征在于,所述多源異質(zhì)信息樣本的文本、圖像和視頻的相似度的計(jì)算公式為
8.如權(quán)利要求4所述的在物理空間上提取網(wǎng)絡(luò)空間熱點(diǎn)事件信息的方法,其特征在于,所述步驟S22包括 設(shè)數(shù)據(jù)源個(gè)數(shù)為η個(gè),X1, x2,…,1為分別來自不同數(shù)據(jù)源的樣本,ρ12,ρ13,…,Plri, 是任意兩個(gè)數(shù)據(jù)集的聯(lián)合概率矩陣,找到各個(gè)數(shù)據(jù)集上最優(yōu)的聚類,使得聚類后的聯(lián)合概率矩陣Λ2,#13,互信息損失最小,其中,兩個(gè)數(shù)據(jù)源上的聯(lián)合概率矩陣可以通過下式計(jì)算得出
9.如權(quán)利要求8所述的在物理空間上提取網(wǎng)絡(luò)空間熱點(diǎn)事件信息的方法,其特征在于,所述步驟S22包括 5221、首先對每個(gè)數(shù)據(jù)集給定ー個(gè)初始聚類,得到相應(yīng)的聚類后的聯(lián)合概率矩陣,并計(jì)算原始數(shù)據(jù)集的聯(lián)合概率矩陣的互信息; 5222、對每個(gè)數(shù)據(jù)集IxJ:尋找這個(gè)數(shù)據(jù)集中任意樣本的最優(yōu)目標(biāo)聚類,使得滿足子目標(biāo)的線性組合最優(yōu),根據(jù)IxJ的新的聚類結(jié)構(gòu),更新聚類后的聯(lián)合概率矩陣; 5223、將所有數(shù)據(jù)集的聚類更新后,計(jì)算聚類后的聯(lián)合概率矩陣的互信息; 5224、如果原始互信息與聚類后的互信息的差小于給定閾值,則結(jié)束,否則返回到第S222 步。
10.如權(quán)利要求8所述的在物理空間上提取網(wǎng)絡(luò)空間熱點(diǎn)事件信息的方法,其特征在于,所述步驟S3包括 ·531、返回物理空間各個(gè)數(shù)據(jù)集中與指定熱點(diǎn)事件相關(guān)度最高的若干個(gè)聚類,其中相關(guān)度最高的若干個(gè)聚類可以由聯(lián)合概率大于給定閾值來確定; ·532、在各個(gè)數(shù)據(jù)集返回的聚類上,計(jì)算其中的每個(gè)樣本與熱點(diǎn)事件的相似度; ·533、每個(gè)數(shù)據(jù)集返回相關(guān)度最大的指定個(gè)樣本作為最終的結(jié)果。
全文摘要
本發(fā)明公開了一種在物理空間上提取網(wǎng)絡(luò)空間熱點(diǎn)事件信息的方法,包括如下步驟S1、在網(wǎng)絡(luò)空間中提取熱點(diǎn)事件關(guān)鍵詞集;S2、對所述來自網(wǎng)絡(luò)空間的熱點(diǎn)事件關(guān)鍵詞集和來自物理空間的數(shù)據(jù)集進(jìn)行協(xié)同聚類;S3、根據(jù)所述協(xié)同聚類的聚類結(jié)果提取物理空間中與熱點(diǎn)事件相關(guān)的信息樣本。本發(fā)明利用物理空間和網(wǎng)絡(luò)空間的信息樣本的關(guān)聯(lián)性與互補(bǔ)性,解決了檢索物理空間中與網(wǎng)絡(luò)空間熱點(diǎn)事件相關(guān)的信息樣本,為網(wǎng)絡(luò)熱點(diǎn)事件的言論提供物理空間關(guān)聯(lián)信息作為參考依據(jù),不僅可以讓用戶快速、全面地了解熱點(diǎn)事件的相關(guān)信息,同時(shí)也增強(qiáng)了用戶對不良信息和謠言的辨別能力。
文檔編號G06F17/30GK102982110SQ20121044307
公開日2013年3月20日 申請日期2012年11月8日 優(yōu)先權(quán)日2012年11月8日
發(fā)明者徐常勝, 鮑秉坤 申請人:中國科學(xué)院自動(dòng)化研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
新宾| 托克托县| 巴塘县| 郓城县| 新津县| 普陀区| 会昌县| 裕民县| 普格县| 元氏县| 多伦县| 锦州市| 玉龙| 南昌市| 永修县| 景东| 海伦市| 乌什县| 米林县| 鹿泉市| 阳谷县| 仲巴县| 保康县| 望江县| 睢宁县| 广平县| 龙泉市| 唐海县| 和田县| 渝北区| 光泽县| 白银市| 资源县| 余庆县| 德安县| 乌兰察布市| 古交市| 定陶县| 揭阳市| 呼和浩特市| 昭觉县|