一種社交消息的監(jiān)測(cè)方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及通信領(lǐng)域,尤其涉及一種社交消息的監(jiān)測(cè)方法及裝置。
【背景技術(shù)】
[0002] 近年來(lái),社交媒體,如微博、微信、論壇、播客等,已經(jīng)成為人們發(fā)布消息的重要途 徑。社交媒體的信息中往往包含著在事件發(fā)生過(guò)程中的各種重要資料和線索,通過(guò)消息及 時(shí)發(fā)現(xiàn)和監(jiān)控重大事件的發(fā)生及變化過(guò)程,能夠提高對(duì)危機(jī)事件管理和決策的靈活性和實(shí) 時(shí)性。
[0003] 以新西蘭昆士蘭水災(zāi)為例,整個(gè)水災(zāi)過(guò)程從不同角度在Twitter( -種社交媒體 的名稱(chēng))上進(jìn)行了實(shí)時(shí)呈現(xiàn),例如發(fā)生了什么、在哪里發(fā)生、有誰(shuí)參與、以及對(duì)周邊環(huán)境的 影響等。如下的事件都出現(xiàn)在Twitter上,"一艘游艇在布里斯班河正在沉沒(méi)"、"港口重新 開(kāi)放"、"鯊魚(yú)被沖到街道上"、"一些重要政府機(jī)構(gòu)辦公地區(qū)臨時(shí)管制"等。及時(shí)發(fā)現(xiàn)上述事 件對(duì)救災(zāi)及危機(jī)管理都有重大的意義。
[0004] 現(xiàn)有的對(duì)社交消息進(jìn)行發(fā)現(xiàn)的過(guò)程是:用戶通過(guò)社交網(wǎng)客戶端主動(dòng)對(duì)社交消息進(jìn) 行查詢、收集相關(guān)的社交事件。即對(duì)社交消息的獲取需要通過(guò)人工輸入的方式在社交網(wǎng)客 戶端中輸入社交消息的基本信息,然后由瀏覽器或社交網(wǎng)客戶端依據(jù)社交消息的基本信息 搜索獲取一個(gè)類(lèi)別的社交消息。
[0005] 在實(shí)現(xiàn)上述社交消息發(fā)現(xiàn)的過(guò)程中,由于對(duì)社交消息的獲取是通過(guò)人工觸發(fā),這 樣社交網(wǎng)客戶端并不能實(shí)現(xiàn)對(duì)社交消息的實(shí)時(shí)監(jiān)測(cè),因此社交網(wǎng)客戶端不能主動(dòng)發(fā)現(xiàn)互聯(lián) 網(wǎng)社交事件的更新。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的實(shí)施例提供一種社交消息的監(jiān)測(cè)方法及裝置,以實(shí)現(xiàn)對(duì)社交消息的實(shí)時(shí) 監(jiān)控,從而使社交網(wǎng)客戶端能主動(dòng)發(fā)現(xiàn)聚類(lèi)的社交事件。
[0007] 本發(fā)明的實(shí)施例采用如下技術(shù)方案:
[0008] 第一方面,提供一種社交消息的監(jiān)測(cè)方法,包括:
[0009] 接收社交消息,并對(duì)所述社交消息進(jìn)行主題建模分析,得到所述社交消息的主題 概率向量;
[0010] 將所述社交消息的主題概率向量與每個(gè)代表消息的主題概率向量進(jìn)行比較得到 主題相似性,并依據(jù)所述主題相似性獲取所述社交消息與所述每個(gè)代表消息的相似性,其 中,所述代表消息為一個(gè)消息類(lèi)中具有代表性的社交消息;
[0011] 將所述社交消息存入與所述社交消息相似性最高的代表消息所在的消息類(lèi)中;
[0012] 當(dāng)所述消息類(lèi)中的社交消息的數(shù)量達(dá)到第一閾值或所述消息類(lèi)中的社交消息主 題一致時(shí),向社交網(wǎng)客戶端輸出所述消息類(lèi)。
[0013] 結(jié)合第一方面,在第一種可能的實(shí)現(xiàn)方式中,所述方法還包括:
[0014] 若所述社交消息與所述每個(gè)代表消息的相似性均不超過(guò)預(yù)設(shè)的第一相似性閾值, 則新建一個(gè)消息類(lèi),將所述社交消息存入所述新建的消息類(lèi)。
[0015] 結(jié)合第一方面或第一方面的第一種可能的實(shí)現(xiàn)方式,在第二種可能的實(shí)現(xiàn)方式 中,所述方法還包括:
[0016] 從每一個(gè)消息類(lèi)中選取代表消息;
[0017] 其中,所述從每一個(gè)消息類(lèi)中選取代表消息包括:
[0018] 在每一個(gè)消息類(lèi)中選擇預(yù)設(shè)的時(shí)間內(nèi)的社交消息作為代表消息,其中,不同的消 息類(lèi)中預(yù)設(shè)的時(shí)間可以不相同;或
[0019] 在所述每一個(gè)消息類(lèi)中選擇預(yù)設(shè)的地點(diǎn)內(nèi)的社交消息作為代表消息,其中,不同 的消息類(lèi)中預(yù)設(shè)的地點(diǎn)可以不相同;或
[0020] 在所述每一個(gè)消息類(lèi)中選擇預(yù)設(shè)的時(shí)間內(nèi)和預(yù)設(shè)的地點(diǎn)內(nèi)的社交消息作為代表 消息,其中,不同的消息類(lèi)中預(yù)設(shè)的時(shí)間和預(yù)設(shè)的地點(diǎn)可以不相同;或
[0021] 將所述每一個(gè)消息類(lèi)中的所有的社交消息的主題概率向量進(jìn)行加權(quán)平均,得到所 述每一個(gè)消息類(lèi)的代表消息的主題概率向量,在每一個(gè)消息類(lèi)中選取與所述消息類(lèi)的代表 消息的主題概率向量匹配的社交消息作為代表消息;其中,若有新的社交消息加入所述消 息類(lèi),重新進(jìn)行加權(quán)平均計(jì)算所述消息類(lèi)的代表消息的主題概率向量。
[0022] 結(jié)合第一方面或第一方面的第一種或第二種可能的實(shí)現(xiàn)方式,在第三種可能的實(shí) 現(xiàn)方式中,所述接收社交消息,并對(duì)所述社交消息進(jìn)行主題建模分析,得到所述社交消息的 主題概率向量,包括:
[0023] 接收所述社交消息,獲取所述社交消息的內(nèi)容參數(shù)、所述社交消息的時(shí)間參數(shù)、所 述社交消息的空間參數(shù);
[0024] 利用隱含狄利克雷分布LDA算法對(duì)所述社交消息的內(nèi)容參數(shù)、所述社交消息的時(shí) 間參數(shù)、所述社交消息的空間參數(shù)進(jìn)行主題建模分析,得到所述社交消息的主題概率向量。
[0025] 結(jié)合第一方面或第一方面的第一種到第三種任一種可能的實(shí)現(xiàn)方式,在第四種可 能的實(shí)現(xiàn)方式中,所述方法還包括:
[0026] 對(duì)比所述社交消息的用戶與所述每個(gè)代表消息的用戶得到所述社交消息與所述 每個(gè)代表消息的用戶相似性;
[0027] 將所述社交消息的主題概率向量與每個(gè)代表消息的主題概率向量進(jìn)行比較得到 主題相似性,并依據(jù)所述主題相似性獲取所述社交消息與所述每個(gè)代表消息的相似性,具 體包括:
[0028] 計(jì)算所述社交消息的主題概率向量與所述每個(gè)代表消息的主題概率向量的相對(duì) 熵,得到所述社交消息與所述每個(gè)代表消息的主題消息相似性;
[0029] 對(duì)所述主題消息相似性和用戶相似性進(jìn)行加權(quán)求和,得到所述社交消息與所述每 個(gè)代表消息的相似性。
[0030] 結(jié)合第一方面或第一方面的第一種到第四種任一種可能的實(shí)現(xiàn)方式,在第五種可 能的實(shí)現(xiàn)方式中,所述方法還包括:
[0031] 對(duì)任意一個(gè)消息類(lèi)中的社交消息進(jìn)行查找、插入、刪除操作。
[0032] 結(jié)合第一方面或第一方面的第一種到第五種任一種可能的實(shí)現(xiàn)方式,在第六種可 能的實(shí)現(xiàn)方式中,所述對(duì)所述社交消息進(jìn)行主題建模分析,得到所述社交消息的主題概率 向量之前,還包括:
[0033] 獲取所述社交消息所屬的領(lǐng)域,若所述社交消息所屬的領(lǐng)域不屬于預(yù)設(shè)的領(lǐng)域, 則剔除所述社交消息,得到過(guò)濾后的社交消息;
[0034] 所述對(duì)所述社交消息進(jìn)行主題建模分析,得到所述社交消息的主題概率向量,包 括:
[0035] 對(duì)過(guò)濾后的所述社交消息進(jìn)行主題建模分析,得到所述社交消息的主題概率向 量。
[0036] 第二方面,提供一種社交網(wǎng)服務(wù)器,用于監(jiān)測(cè)社交消息,其特征在于,包括:
[0037] 主題建模模塊,用于接收社交消息,并對(duì)所述社交消息進(jìn)行主題建模分析,得到 所述社交消息的主題概率向量;
[0038] 相似性獲取模塊,用于將所述主題建模模塊接收的社交消息的主題概率向量與每 個(gè)代表消息的主題概率向量進(jìn)行比較得到所述社交消息與所述每個(gè)代表消息的主題相似 性,并依據(jù)所述主題相似性獲取所述社交消息與所述每個(gè)代表消息的相似性,其中,所述代 表消息為一個(gè)消息類(lèi)中具有代表性的社交消息;
[0039] 聚類(lèi)模塊,用于將所述社交消息存入相似性獲取模塊測(cè)量得到的與所述社交消息 相似性最高的代表消息所在的消息類(lèi)中;
[0040] 聚類(lèi)分析模塊,用于當(dāng)所述消息類(lèi)中的社交消息的數(shù)量達(dá)到第一閾值或所述消息 類(lèi)中的社交消息主題一致時(shí),向社交網(wǎng)客戶端輸出所述消息類(lèi)。
[0041] 結(jié)合第二方面,在第一種可能的實(shí)現(xiàn)方式中,所述聚類(lèi)模塊還用于:
[0042] 若所述社交消息與所述每個(gè)代表消息的相似性均不超過(guò)預(yù)設(shè)的第一相似性閾值, 則新建一個(gè)消息類(lèi),將所述社交消息存入所述新建的消息類(lèi)。
[0043] 結(jié)合第二方面或第二方面的第一種可能的實(shí)現(xiàn)方式,在第二種可能的實(shí)現(xiàn)方式 中,所述社交網(wǎng)服務(wù)器還包括:
[0044] 聚類(lèi)操作模塊,用于從每一個(gè)消息類(lèi)中選取代表消息;
[0045] 其中,聚類(lèi)操作模塊具體用于:
[0046] 在每一個(gè)消息類(lèi)中選擇預(yù)設(shè)的時(shí)間內(nèi)的社交消息作為代表消息,其中,不同的消 息類(lèi)中預(yù)設(shè)的時(shí)間可以不相同;或
[0047] 在所述每一個(gè)消息類(lèi)中選擇預(yù)設(shè)的地點(diǎn)內(nèi)的社交消息作為代表消息,其中,不同 的消息類(lèi)中預(yù)設(shè)的地點(diǎn)可以不相同;或
[0048] 在所述每一個(gè)消息類(lèi)中選擇預(yù)設(shè)的時(shí)間內(nèi)和預(yù)設(shè)的地點(diǎn)內(nèi)的社交消息作為代表 消息,其中,不同的消息類(lèi)中預(yù)設(shè)的時(shí)間和預(yù)設(shè)的地點(diǎn)可以不相同;或
[0049] 將所述每一個(gè)消息類(lèi)中的所有的社交消息的主題概率向量進(jìn)行加權(quán)平均,得到所 述每一個(gè)消息類(lèi)的代表消息的主題概率向量,在每一個(gè)消息類(lèi)中選取與所述消息類(lèi)的代表 消息的主題概率向量匹配的代表消息,若有新的社交消息加入所述消息類(lèi),重新進(jìn)行加權(quán) 平均計(jì)算所述消息類(lèi)的代表消息的主題概率向量。
[0050] 結(jié)合第二方面或第二方面的第一種或第二種可能的實(shí)現(xiàn)方式,在第三種可能的實(shí) 現(xiàn)方式中,所述主題建模模塊包括:
[0051] 參數(shù)收集單元,用于接收所述社交消息,獲取所述社交消息的內(nèi)容參數(shù)、所述社交 消息的時(shí)間參數(shù)、所述社交消息的空間參數(shù);
[0052] 向量獲取單元,用于利用隱含狄利克雷分布LDA算法對(duì)所述參數(shù)收集模塊獲取的 社交消息的內(nèi)容參數(shù)、所述社交消息的時(shí)間參數(shù)、所述社交消息的空間參數(shù)進(jìn)行主題建模 分析,得到所述社交消息的主題概率向量。
[0053] 結(jié)合第二方面或第二方面的第一種到第三種任一種可能的實(shí)現(xiàn)方式,在第四種可 能的實(shí)現(xiàn)方式中,所述社