欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

通信網(wǎng)絡(luò)的信息挖掘方法與系統(tǒng)的制作方法

文檔序號:6556095閱讀:167來源:國知局
專利名稱:通信網(wǎng)絡(luò)的信息挖掘方法與系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,特別涉及一種通信網(wǎng)絡(luò)的信息挖掘方法與系統(tǒng)。
背景技術(shù)
隨著通信技術(shù)的不斷發(fā)展,飛信、郵件、MSN、QQ等多種類型的通信工具逐漸成為人們進行信息交流的重要手段,使用這些通信工具的眾多用戶所形成的網(wǎng)絡(luò)被稱為通信網(wǎng)絡(luò),通信網(wǎng)絡(luò)是社交關(guān)系在互聯(lián)網(wǎng)上的體現(xiàn)。通信網(wǎng)絡(luò)中的數(shù)據(jù)被稱為通信數(shù)據(jù),通信數(shù)據(jù)為社交規(guī)律的發(fā)現(xiàn)提供了研究樣本。通常情況下,通信網(wǎng)絡(luò)上用戶眾多、規(guī)模巨大,因此通信數(shù)據(jù)屬于典型的海量數(shù)據(jù),要通過通信數(shù)據(jù)來發(fā)現(xiàn)其中所蘊含的社交規(guī)律需要做信息挖掘。在信息挖掘的過程中, 挖掘何種信息以及如何進行信息挖掘十分重要,這涉及到之后所提取的社交規(guī)律是否準確、全面,能否反映社會的客觀現(xiàn)實?,F(xiàn)有的信息挖掘方法在挖掘信息時有不同的關(guān)注點,主要分為兩種一種關(guān)注的是通信網(wǎng)絡(luò)的拓撲結(jié)構(gòu),主要將通信數(shù)據(jù)抽象成節(jié)點集、邊集和通信權(quán)值,其中的節(jié)點集反映了通信網(wǎng)絡(luò)中的各個節(jié)點,邊集反映了通信網(wǎng)絡(luò)中的節(jié)點間的通信關(guān)系,而通信權(quán)值則反映了節(jié)點間的通信頻率。在提取這些信息時,重點關(guān)注的是節(jié)點間的拓撲關(guān)系,忽略了節(jié)點的其它通信特征,如通信時間,節(jié)點拓撲特征等。此類信息挖掘方法的缺點是沒有考慮通信文本,從而在該模型上進行信息挖掘得到的結(jié)果在某些情況下并不是用戶需要的。例如,一用戶節(jié)點頻繁地向通信網(wǎng)絡(luò)中的另一節(jié)點發(fā)送垃圾信息,采用此類信息挖掘方法,該用戶節(jié)點很可能會被挖掘出并作為所述另一節(jié)點的“朋友”,但實際上這一結(jié)果并不是用戶真正想要的。另一種關(guān)注的是垃圾信息的篩選和通信主題的發(fā)現(xiàn),所以此類信息挖掘方法并不考慮拓撲信息。該類信息挖掘方法主要提取通信文本的語義信息,通過機器學(xué)習(xí)、貝葉斯分類器等方法進行分類,然后篩選出垃圾信息和通信主題。該類信息挖掘方法的缺點是復(fù)雜度較高,并且得到的結(jié)果是基于通信文本的,沒有關(guān)注網(wǎng)絡(luò)的拓撲結(jié)構(gòu)和節(jié)點的重要程度。

發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有的通信網(wǎng)絡(luò)的信息挖掘方法所挖掘的信息較為單一,無法全面體現(xiàn)通信網(wǎng)絡(luò)實際情況的缺陷,從而提供一種全面、準確的信息挖掘方法。為了實現(xiàn)上述目的,本發(fā)明提供了一種通信網(wǎng)絡(luò)的信息挖掘方法,包括步驟1)、對通信數(shù)據(jù)進行預(yù)處理,獲取包括通信數(shù)據(jù)ID、發(fā)送方信息、接收方信息、通信時間、通信內(nèi)容在內(nèi)的關(guān)于通信數(shù)據(jù)的信息;步驟2)、根據(jù)步驟1)所得到的預(yù)處理結(jié)果創(chuàng)建用于反映所述通信網(wǎng)絡(luò)結(jié)構(gòu)的通聯(lián)關(guān)系網(wǎng)絡(luò),由所述通聯(lián)關(guān)系網(wǎng)絡(luò)得到用于表示所述通信網(wǎng)絡(luò)中的通信發(fā)送方、通信接收方的節(jié)點,以及用于表示所述通信發(fā)送方、通信接收方間通信關(guān)系的邊;步驟3)、根據(jù)用戶提供的查詢詞構(gòu)造需求文本向量與通信文本向量;
步驟4)、計算所述通聯(lián)關(guān)系網(wǎng)絡(luò)中各個節(jié)點的節(jié)點中心度;所述節(jié)點中心度包括節(jié)點中介度、節(jié)點緊密度以及節(jié)點聯(lián)系度;步驟5)、計算所述通聯(lián)關(guān)系網(wǎng)絡(luò)中存在通聯(lián)關(guān)系的各個節(jié)點之間的通聯(lián)關(guān)系強度、各個節(jié)點間的邊之間的相似度以及用戶對所述節(jié)點間的邊的滿意度。上述技術(shù)方案中,所述的步驟幻包括步驟3-1)、在步驟1)所得到的通信內(nèi)容經(jīng)過分詞所得到的分詞結(jié)果的基礎(chǔ)上,利用索引字典以及停用詞表構(gòu)建倒排索引;步驟3-2)、由用戶提供的查詢詞以及所述查詢詞所占的權(quán)重創(chuàng)建需求文本向量;步驟3-3)、將與所述需求文本向量中的查詢詞具有一定關(guān)聯(lián)度的詞語添加到所述需求文本向量中,以擴展所述需求文本向量。
上述技術(shù)方案中,所述的步驟3- 包括
步驟3-3-1)、計算與所述查詢詞在一文本中的詞項的共現(xiàn)頻度;
步驟3-3- 、在計算出所述共現(xiàn)頻度后,計算所述詞項與所述查詢詞間的關(guān)聯(lián)
步驟3-3- 、由所述關(guān)聯(lián)度計算評估函數(shù),由所述評估函數(shù)的計算結(jié)果判定是否
度;
要將所述詞項擴展到所述需求文本向量中。上述技術(shù)方案中,在所述的步驟4)中,所述節(jié)點中介度的計算包括將通過節(jié)點k的最短路徑數(shù)的平均值稱為節(jié)點k的中介度系數(shù),記為Ca(k),則 CA{k)
權(quán)利要求
1.一種通信網(wǎng)絡(luò)的信息挖掘方法,包括步驟1)、對通信數(shù)據(jù)進行預(yù)處理,獲取包括通信數(shù)據(jù)ID、發(fā)送方信息、接收方信息、通信時間、通信內(nèi)容在內(nèi)的關(guān)于通信數(shù)據(jù)的信息;步驟2)、根據(jù)步驟1)所得到的預(yù)處理結(jié)果創(chuàng)建用于反映所述通信網(wǎng)絡(luò)結(jié)構(gòu)的通聯(lián)關(guān)系網(wǎng)絡(luò),由所述通聯(lián)關(guān)系網(wǎng)絡(luò)得到用于表示所述通信網(wǎng)絡(luò)中的通信發(fā)送方、通信接收方的節(jié)點,以及用于表示所述通信發(fā)送方、通信接收方間通信關(guān)系的邊;步驟3)、根據(jù)用戶提供的查詢詞構(gòu)造需求文本向量與通信文本向量; 步驟4)、計算所述通聯(lián)關(guān)系網(wǎng)絡(luò)中各個節(jié)點的節(jié)點中心度;所述節(jié)點中心度包括節(jié)點中介度、節(jié)點緊密度以及節(jié)點聯(lián)系度;步驟幻、計算所述通聯(lián)關(guān)系網(wǎng)絡(luò)中存在通聯(lián)關(guān)系的各個節(jié)點之間的通聯(lián)關(guān)系強度、各個節(jié)點間的邊之間的相似度以及用戶對所述節(jié)點間的邊的滿意度。
2.根據(jù)權(quán)利要求1所述的通信網(wǎng)絡(luò)的信息挖掘方法,其特征在于,所述的步驟3)包括步驟3-1)、在步驟1)所得到的通信內(nèi)容經(jīng)過分詞所得到的分詞結(jié)果的基礎(chǔ)上,利用索引字典以及停用詞表構(gòu)建倒排索引;步驟3-2)、由用戶提供的查詢詞以及所述查詢詞所占的權(quán)重創(chuàng)建需求文本向量; 步驟3-3)、將與所述需求文本向量中的查詢詞具有一定關(guān)聯(lián)度的詞語添加到所述需求文本向量中,以擴展所述需求文本向量。
3.根據(jù)權(quán)利要求2所述的通信網(wǎng)絡(luò)的信息挖掘方法,其特征在于,所述的步驟3-3)包括步驟3-3-1)、計算與所述查詢詞在一文本中的詞項共現(xiàn)頻度; 步驟3-3- 、在計算出所述共現(xiàn)頻度后,計算所述詞項與所述查詢詞間的關(guān)聯(lián)度; 步驟3-3- 、由所說關(guān)聯(lián)度計算評估函數(shù),由所述評估函數(shù)的計算結(jié)果判定是否要將所述詞項擴展到所述需求文本向量中。
4.根據(jù)權(quán)利要求1所述的通信網(wǎng)絡(luò)的信息挖掘方法,其特征在于,在所述的步驟4)中, 所述節(jié)點中介度的計算包括將通過節(jié)點k的最短路徑數(shù)的平均值稱為節(jié)點k的中介度系數(shù),記為Ca(k),則tt^M)_ 一-其中,η是所述通聯(lián)關(guān)系網(wǎng)絡(luò)中的節(jié)點數(shù),giJ(k)是一個二值變量,表示結(jié)點i、j之間的最短路徑是否通過結(jié)點k,通過k則為1,否則為0 ; 所述節(jié)點聯(lián)系度的計算包括將與節(jié)點k直接相連的節(jié)點數(shù)的平均值稱為節(jié)點k的聯(lián)系度系數(shù),記為Cb (k),則ηβ ( -D其中,a(i,k)是一個二值變量,為1說明結(jié)點i,k之間直接相連,為0說明不直接相連;所述節(jié)點緊密度的計算包括將節(jié)點k和網(wǎng)絡(luò)中所有結(jié)點之間的最短路徑之和的平均值稱為k的緊密度系數(shù),記為 Cc (k),則
5.根據(jù)權(quán)利要求1所述的通信網(wǎng)絡(luò)的信息挖掘方法,其特征在于,在所述的步驟5)中, 所述的計算所述通聯(lián)關(guān)系網(wǎng)絡(luò)中存在通聯(lián)關(guān)系的各個節(jié)點之間的通聯(lián)關(guān)系強度包括步驟5-1-1)、計算節(jié)點間的通信次數(shù)Comnuiumcomnuiumij ; 步驟5-1- 、計算節(jié)點間的通信時間跨度dUr_dayiJ ; 步驟5-1- 、計算節(jié)點間的最短路徑長度ShorteStJenij ; 步驟5-1-4)、計算節(jié)點間的共享鄰居數(shù)SharenodeJumij ;步驟5-1-5)、計算用于評估兩個節(jié)點通聯(lián)關(guān)系強度的函數(shù)closeness (i,j);所述函數(shù)closeness (i, j)的計算公式為
6.根據(jù)權(quán)利要求1所述的通信網(wǎng)絡(luò)的信息挖掘方法,其特征在于,在所述的步驟5)中, 所述的計算所述通聯(lián)關(guān)系網(wǎng)絡(luò)中存在通聯(lián)關(guān)系的各個節(jié)點之間的邊之間的相似度包括步驟5-2-1)、將任意兩個節(jié)點間的邊的向量定義為這兩個節(jié)點之間所有通信文本向量的平均值;步驟5-2- 、利用余弦公式計算任意兩邊的向量之間的相似度。
7.根據(jù)權(quán)利要求1所述的通信網(wǎng)絡(luò)的信息挖掘方法,其特征在于,在所述的步驟5)中, 所述的計算用戶對所述節(jié)點間的邊的滿意度包括步驟5-3-1)、計算需求文本向量的權(quán)重;步驟5-3- 、計算步驟5-3-1)所得到的通信文本的向量與所述通信文本的需求文本向量之間的相似值,得到用戶對所述通信文本的滿意度;步驟5-3- 、計算兩個節(jié)點間所有通信文本滿意度的平均值,得到節(jié)點間的邊的用戶滿意度。
8.根據(jù)權(quán)利要求7所述的通信網(wǎng)絡(luò)的信息挖掘方法,其特征在于,所述的步驟5-3-1) 包括步驟5-3-1-1)、構(gòu)造一個初始查詢向量;步驟5-3-1- 、根據(jù)用戶指定的滿足需求的文本對其逐步修改,直到達到一個理想的結(jié)果; ορ,二 α χ ξmmul + βχ^^ — γχ X τ列…I "^c-R\dj\其中,α、β、Y是用于調(diào)整的三個常量;孓表示初始查詢向量;…表示對應(yīng)的向量的第j維,5;表示對應(yīng)的向量的第j維的值。
9. 一種通信網(wǎng)絡(luò)的信息挖掘系統(tǒng),其特征在于,包括數(shù)據(jù)預(yù)處理模塊、通聯(lián)關(guān)系網(wǎng)絡(luò)創(chuàng)建模塊、文本向量構(gòu)造模塊、節(jié)點中心度計算模塊、邊屬性計算模塊;其中,所述的數(shù)據(jù)預(yù)處理模塊對通信數(shù)據(jù)進行預(yù)處理,獲取包括通信數(shù)據(jù)ID、發(fā)送方信息、接收方信息、通信時間、通信內(nèi)容在內(nèi)的關(guān)于通信數(shù)據(jù)的信息;所述的通聯(lián)關(guān)系網(wǎng)絡(luò)創(chuàng)建模塊根據(jù)所述數(shù)據(jù)預(yù)處理模塊所得到的預(yù)處理結(jié)果創(chuàng)建用于反映所述通信網(wǎng)絡(luò)結(jié)構(gòu)的通聯(lián)關(guān)系網(wǎng)絡(luò),由所述通聯(lián)關(guān)系網(wǎng)絡(luò)得到用于表示所述通信網(wǎng)絡(luò)中的通信發(fā)送方、通信接收方的節(jié)點,以及用于表示所述通信發(fā)送方、通信接收方間通信關(guān)系的邊;所述的文本向量構(gòu)造模塊根據(jù)用戶提供的查詢詞構(gòu)造需求文本向量與通信文本向量;所述的節(jié)點中心度計算模塊計算所述通聯(lián)關(guān)系網(wǎng)絡(luò)中各個節(jié)點的節(jié)點中心度;所述節(jié)點中心度包括節(jié)點中介度、節(jié)點緊密度以及節(jié)點聯(lián)系度;所述的邊屬性計算模塊計算所述通聯(lián)關(guān)系網(wǎng)絡(luò)中存在通聯(lián)關(guān)系的各個節(jié)點之間的通聯(lián)關(guān)系強度、各個節(jié)點間的邊之間的相似度以及用戶對所述節(jié)點間的邊的滿意度。
全文摘要
本發(fā)明提供一種通信網(wǎng)絡(luò)的信息挖掘方法,包括對通信數(shù)據(jù)進行預(yù)處理,獲取包括通信數(shù)據(jù)ID、發(fā)送方信息、接收方信息、通信時間、通信內(nèi)容在內(nèi)的關(guān)于通信數(shù)據(jù)的信息;根據(jù)預(yù)處理結(jié)果創(chuàng)建用于反映通信網(wǎng)絡(luò)結(jié)構(gòu)的通聯(lián)關(guān)系網(wǎng)絡(luò),由通聯(lián)關(guān)系網(wǎng)絡(luò)得到用于表示通信網(wǎng)絡(luò)中的通信發(fā)送方、通信接收方的節(jié)點,以及用于表示通信發(fā)送方、通信接收方間通信關(guān)系的邊;根據(jù)用戶提供的查詢詞構(gòu)造需求文本向量與通信文本向量;計算通聯(lián)關(guān)系網(wǎng)絡(luò)中各個節(jié)點的節(jié)點中心度;節(jié)點中心度包括節(jié)點中介度、節(jié)點緊密度以及節(jié)點聯(lián)系度;計算通聯(lián)關(guān)系網(wǎng)絡(luò)中存在通聯(lián)關(guān)系的各個節(jié)點之間的通聯(lián)關(guān)系強度、各個節(jié)點間的邊之間的相似度以及用戶對節(jié)點間的邊的滿意度。
文檔編號G06F17/30GK102195899SQ20111014198
公開日2011年9月21日 申請日期2011年5月30日 優(yōu)先權(quán)日2011年5月30日
發(fā)明者康廣玉, 張樂天, 王小娟, 趙建鵬, 郭世澤, 陸哲明, 陳哲 申請人:中國人民解放軍總參謀部第五十四研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
大石桥市| 封开县| 沧源| 汤阴县| 盖州市| 洪江市| 南开区| 白沙| 南澳县| 广灵县| 镶黄旗| 呼图壁县| 古田县| 巴楚县| 宽城| 尚义县| 石泉县| 苏尼特左旗| 灌阳县| 龙胜| 黄骅市| 华坪县| 济南市| 天峨县| 福安市| 桐庐县| 龙川县| 峡江县| 宽甸| 胶南市| 肇庆市| 玛多县| 栖霞市| 黎城县| 阿勒泰市| 仁怀市| 集贤县| 河北省| 延寿县| 甘孜县| 东源县|