社交網(wǎng)絡(luò)交流影響力的測定方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種面向大規(guī)模社交網(wǎng)絡(luò)、考慮連接的強弱及節(jié)點的屬性特征、針對某一區(qū)域的測定結(jié)果的社交網(wǎng)絡(luò)交流影響力的測定方法及系統(tǒng)。首先獲取社交網(wǎng)絡(luò)中成員的社交信息;然后對社交網(wǎng)絡(luò)的交流記錄進行分析,對所有的文本進行分詞,利用雙重循環(huán)檢索技術(shù),解決文本關(guān)鍵短語匹配的高復(fù)雜度問題;接著進行文本數(shù)據(jù)相似性分析,完成文本回歸語義譜聚類;最后由影響概率因子計算網(wǎng)絡(luò)交流約束和成員在社交網(wǎng)絡(luò)中的影響力。本發(fā)明可顯著提高移動環(huán)境社交網(wǎng)絡(luò)社會影響力測定的速度和準確度,并降低移動環(huán)境社交網(wǎng)絡(luò)社會影響力應(yīng)用的開發(fā)成本。
【專利說明】社交網(wǎng)絡(luò)交流影響力的測定方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種社交網(wǎng)絡(luò)交流影響力的測定方法及系統(tǒng),主要用于解決物聯(lián)網(wǎng)中社交網(wǎng)絡(luò)社會影響力的測定問題,屬于分布式計算和軟件工程學技術(shù)交叉領(lǐng)域。
【背景技術(shù)】
[0002]近年來,移動物聯(lián)環(huán)境下的QQ、微博、博客和論壇等新型社交網(wǎng)絡(luò)交流平臺的出現(xiàn)深刻改變了人們的信息交流方式,成為了人們獲取、傳播信息的重要平臺。由此形成的在線社會網(wǎng)絡(luò)已經(jīng)成為了當前研究的熱點。對社交網(wǎng)絡(luò)影響力模型及其算法的研究有利于更好地管控網(wǎng)絡(luò)帶來的負面因素以及更好地利用網(wǎng)絡(luò)帶來的正面效益,如網(wǎng)絡(luò)輿情監(jiān)控中如何有效地防止各種有害信息在網(wǎng)絡(luò)中迅速傳播,商業(yè)領(lǐng)域的“ 口碑效應(yīng)”和“病毒式營銷”引出的影響力最大化問題等。
[0003]現(xiàn)有的影響力測定方法主要分為兩大類,一類是基于網(wǎng)頁PageRank的改進排名算法,為了測定社會網(wǎng)絡(luò)中個人的影響力,依據(jù)用戶的好友數(shù)量及質(zhì)量,考慮用戶之間的互動關(guān)系,通過分析網(wǎng)絡(luò)中傳播內(nèi)容和主題對用戶影響力的影響,對微博網(wǎng)絡(luò)的信息傳播行為進行分析,引入了博主傳播因子,給出了改進PageRank算法;另一類是結(jié)合經(jīng)典傳播模型Ic (獨立級聯(lián))模型和LT (線性閾值)模型,給出了爬山貪心KKT算法。
[0004]上述兩類算法大都是基于整個網(wǎng)絡(luò)全局進行算法模型設(shè)計的,對于小型網(wǎng)絡(luò)工作尚可維持,而面對大規(guī)模社會網(wǎng)絡(luò),尤其是應(yīng)用到貪心、爬山等算法時,過高的時間復(fù)雜度是一個棘手的難題;其次,影響力測定的標準單一地利用節(jié)點間的連接關(guān)系,而不考慮連接的強弱及節(jié)點的屬性特征,大大影響了測定結(jié)果的準確性;再其次,在實際情況下往往需要的僅是針對某一區(qū)域的測定結(jié)果,而基于全局的算法模型欠缺這種針對性的考慮。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的是提供一種面向大規(guī)模社交網(wǎng)絡(luò)、考慮連接的強弱及節(jié)點的屬性特征、針對某一區(qū)域的測定結(jié)果的社交網(wǎng)絡(luò)交流影響力的測定方法及系統(tǒng),用于解決當前移動環(huán)境社交網(wǎng)絡(luò)社會影響力測定復(fù)雜度過高、影響力測定的標準單一、測定結(jié)果不準確等問題。本發(fā)明可顯著提高移動環(huán)境社交網(wǎng)絡(luò)社會影響力測定的速度和準確度,并降低移動環(huán)境社交網(wǎng)絡(luò)社會影響力應(yīng)用的開發(fā)成本。
[0006]本發(fā)明的技術(shù)解決方案是:
[0007]一種社交網(wǎng)絡(luò)交流影響力的測定方法,
[0008]獲取社交網(wǎng)絡(luò)中成員的社交信息;
[0009]利用雙重循環(huán)檢索技術(shù),對社交網(wǎng)絡(luò)的交流記錄進行分析,對所有的文本進行分詞;
[0010]對文本數(shù)據(jù)進行相似性分析,完成文本回歸語義譜聚類;
[0011]由影響概率因子計算網(wǎng)絡(luò)交流約束和成員在社交網(wǎng)絡(luò)中的影響力。
[0012]進一步地,[0013]步驟一:獲取社交網(wǎng)絡(luò)中成員的社交信息,將獲取的語音、圖像、視頻內(nèi)容信息處理轉(zhuǎn)換為對應(yīng)的文本信息,與社交網(wǎng)絡(luò)方式交流文本信息一起,存放到知識庫中;
[0014]步驟二:利用雙重循環(huán)檢索技術(shù)對文本數(shù)據(jù)預(yù)處理;
[0015]步驟三:文本數(shù)據(jù)相似性分析,采用基于短語構(gòu)建文本的概念文本模型,在相似度基礎(chǔ)上融合詞語的相關(guān)性,最后給出相似度匹配的結(jié)果;
[0016]步驟四:文本回歸語義譜聚類;
[0017]步驟五:由影響概率因子計算網(wǎng)絡(luò)交流約束和成員在社交網(wǎng)絡(luò)中的影響力。
[0018]進一步地,步驟二的具體步驟為:對社交網(wǎng)絡(luò)的交流記錄進行分析,對所有的文本進行分詞,利用雙重循環(huán)檢索技術(shù),先獲取字的個數(shù),后獲取每個字的組詞個數(shù),然后索引表分配一塊空間給WordItems,將字詞的相關(guān)信息放在WordItems結(jié)構(gòu)中。
[0019]進一步地,采用文本索引圖(DIG)來實現(xiàn)文本關(guān)鍵短語匹配,使算法能夠達到近線性的時間;在016中,短語匹配以增量的方式實現(xiàn);所有文本與文本的關(guān)鍵短語的關(guān)系用DIG結(jié)構(gòu)圖表示;當新的文本增加進來時,新的文本與圖中的先前的文本進行匹配,并且新的文本也加入到圖中;整個過程以時間線性的方式產(chǎn)生所有文本對完整的短語匹配輸出。
[0020]進一步地,步驟三的具體步驟為:基于短語構(gòu)建文本的概念文本模型,給出了文本語義相似度計算模型,包括四個部分:
[0021]第一獨立義原Siml (S1, S2); [0022]第一獨立義原以外的所有其他獨立義原相似度Sim2 (S1, S2);
[0023]關(guān)系義原Sin^S1, S2);
[0024]符號義原SiiM(SliS2)15
[0025]進一步地,步驟四的具體步驟為:
[0026]將分詞后的文本依據(jù)語義相似性進行聚類,得到若干主題類;
[0027]對每個主題進行分析,得到社交網(wǎng)絡(luò)中成員的影響因子;
[0028]對不同時期的同一社交網(wǎng)絡(luò)的交流記錄進行分析,對不同時期的主題進行比較,得到該社交網(wǎng)絡(luò)的專業(yè)絕對系數(shù)與相對專業(yè)系數(shù)。
[0029]進一步地,采用基于圖譜的文本聚類模型,并將圖劃分問題轉(zhuǎn)化為求解Laplacian矩陣的第二小特征向量問題,并分為文本粗聚類和文本子類細聚類來完成整個文本的譜聚類,進而得到成員的影響因子。
[0030]進一步地,步驟五的具體步驟為:成員i的社交網(wǎng)絡(luò)交流約束Ni由他與其他成員交流的影響力概率因子Pij決定:
[0031]Ni = Σ(/;" +ΣΑ./Α")2- 半 “1.半./.;./ 半 i
j9O
[0032]一種社交網(wǎng)絡(luò)交流影響力的測定系統(tǒng),客戶端從成員移動終端中獲取各類社交網(wǎng)絡(luò)交流的信息,并將語音、圖像、視頻內(nèi)容信息處理轉(zhuǎn)換為對應(yīng)的文本信息,與社交網(wǎng)絡(luò)方式交流文本信息一起,存放到知識庫中;
[0033]知識庫存儲從移動客戶端傳遞來的社交網(wǎng)絡(luò)交流信息及相應(yīng)的成員標識信息、交流記錄時間、交流工具標識信息,為推理機提供相應(yīng)的推理知識,同時存儲推理機的推理結(jié)果,作為經(jīng)驗規(guī)則以供進一步推理用;
[0034]推理機進行社交網(wǎng)絡(luò)影響力的測定,依據(jù)權(quán)利要求2中步驟二與步驟三給定的方法,從知識庫中取出相應(yīng)的成員交流信息所形成的知識,計算出社交網(wǎng)絡(luò)中成員的實時影響力,并反饋給移動終端成員和其他輿情分析、監(jiān)控、預(yù)測系統(tǒng),并將結(jié)果保存到知識庫中。
[0035]進一步地,客戶端采用移動終端動態(tài)實時主動推送的方式完成,并將無效信息自動過濾。
[0036]本發(fā)明的有益效果是:本發(fā)明提出了基于網(wǎng)絡(luò)交流約束的社交網(wǎng)絡(luò)交流影響力測定中間件的新型開發(fā)方法,以及使用該方法開發(fā)出的新型社交網(wǎng)絡(luò)交流影響力測定系統(tǒng)。本發(fā)明使用語義計算基于網(wǎng)絡(luò)交流約束,形成社交網(wǎng)絡(luò)交流影響力測定中間件,具有如下一些顯著優(yōu)點,都是目前其它社交網(wǎng)絡(luò)交流影響力測定中間件及其開發(fā)方法所不具備的:
[0037]—、降低了社會影響力測定復(fù)雜度:為了解決文本關(guān)鍵短語匹配的高復(fù)雜度問題,采用文本索引圖來實現(xiàn),使得算法能夠達到近線性的時間,遠低于其0(n2)的復(fù)雜度。短語匹配以增量的方式實現(xiàn);所有文本與文本的關(guān)鍵短語的關(guān)系用DIG結(jié)構(gòu)圖表示;當新的文本增加進來時,新的文本與圖中的先前的文本進行匹配,并且新的文本也加入到圖中。整個過程以時間線性的方式產(chǎn)生所有文本對完整的短語匹配輸出。
[0038]二、豐富了社會影響力測定方式:影響力測定不是單一地利用節(jié)點間的連接關(guān)系,而且用到了成員節(jié)點中的各種屬性及其相互之間的關(guān)系,包括語文轉(zhuǎn)換、圖像內(nèi)容文字化與視頻內(nèi)容文字化,與QQ、微博、博客和論壇等社交網(wǎng)絡(luò)方式交流文本信息一起,包括相應(yīng)的成員標識信息、交流記錄時間(取年、月、日)、交流工具標識信息如QQ號與所交流的內(nèi)容等,立體地刻畫與測定社會影響力。
[0039]三、提高了社會影響力測定準確度:考慮連接的強弱及節(jié)點的屬性特征,使用語義計算基于網(wǎng)絡(luò)交流約束,整個系統(tǒng)包括文本的讀取、TF統(tǒng)計、IDF計算、詞匯加權(quán)、文本相似度匹配、文本回歸語義譜聚類、影響概率因子生成及社交網(wǎng)絡(luò)交流約束計算等,其社會影響力測定內(nèi)涵準確度有了很大提高。
[0040]四、同時具有全局與局部影響力測定的可適應(yīng)性:與以前的影響力測定方法不同,在本發(fā)明中不是靜態(tài)地依據(jù)全部已有數(shù)據(jù)一次性地完成影響力測定的計算,而是動態(tài)地依據(jù)各個局部社交網(wǎng)絡(luò)中的數(shù)據(jù)完成當前狀態(tài)下的影響力的測定,并且對各局部社交網(wǎng)絡(luò)中所測定的成員的影響力進行疊加,進而得到當前實時的成員的社交影響力。
[0041]五、提供中間件異構(gòu)物聯(lián)移動設(shè)備之間的交互能力:為不同型號、不同操作系統(tǒng)的移動終端提供普適性的社交網(wǎng)絡(luò)交流影響力測定的中間件,對于不同平臺,只需要依所提供的配置文件完成相應(yīng)的配置即可與其它平臺的移動中間件進行交流。
【專利附圖】
【附圖說明】
[0042]圖1是社交網(wǎng)絡(luò)交流影響力測定架構(gòu)示意圖。
[0043]圖2是語義相似性進行聚類技術(shù)路線示意圖。
[0044]圖3是移動社交網(wǎng)絡(luò)中部署社交網(wǎng)絡(luò)影響力測定中間件應(yīng)用的基礎(chǔ)設(shè)施示意圖。【具體實施方式】
[0045]下面結(jié)合附圖詳細說明本發(fā)明的優(yōu)選實施例。
[0046]實施例是一種社交網(wǎng)絡(luò)交流影響力測定方法,可以應(yīng)用于各種現(xiàn)有的移動社交網(wǎng)絡(luò)平臺。實施例通過將網(wǎng)絡(luò)交流約束引入到移動社交網(wǎng)絡(luò)交流影響力測定的開發(fā)中,其目標是通過網(wǎng)絡(luò)交流約束來測定社交網(wǎng)絡(luò)中成員交流影響力,降低社交網(wǎng)絡(luò)中成員交流影響力測定的復(fù)雜度,提高影響力測定的速度和準確度。
[0047]實現(xiàn)一種基于網(wǎng)絡(luò)交流約束的社交網(wǎng)絡(luò)交流影響力測定方法,應(yīng)具有如下特征:社交網(wǎng)絡(luò)交流影響力測定的主體不是網(wǎng)絡(luò)節(jié)點中所需要推薦的物,而是所需要推薦的物背后的成員;成員在社交網(wǎng)絡(luò)中的影響力用網(wǎng)絡(luò)交流約束來刻畫,網(wǎng)絡(luò)交流約束越低,成員社交影響力越大;網(wǎng)絡(luò)交流約束由成員交流的概率來決定,一個成員的社交影響力越大,其在相同時間內(nèi)與其它成員交流的人數(shù)越多,其對應(yīng)的網(wǎng)絡(luò)交流約束越小;成員交流的概率由成員在社交網(wǎng)絡(luò)中的有效活動所形成的文字、聲音、圖像、視頻等記錄的語義相似性聚類系數(shù)即影響因子所決定。
[0048]社交網(wǎng)絡(luò)交流分為3種基本類型:一種是一個成員周圍存在若干個成員在協(xié)同工作;一種是通過遠程電話或視頻交流;一種是通過短信或QQ等文本形式的交流。前一種認為是直接協(xié)同,其對應(yīng)網(wǎng)絡(luò)交流約束為NCi ;后兩種認為是遠程交互,其對應(yīng)網(wǎng)絡(luò)交流約束為NIi。在社交網(wǎng)絡(luò)所有的成員中,NCi與NIi最小的成員,稱為最佳協(xié)同成員和最有交流影響力的成員,將其相關(guān)信息發(fā)送給團隊項目組其他所有的成員,從而改進成員的協(xié)作與交流意識。
[0049]圖1給出了社交網(wǎng)絡(luò)交流影響力的測定的整個架構(gòu)。移動社交感知器、遠程服務(wù)器及加速器、藍牙與話筒等設(shè)備構(gòu)成了社交網(wǎng)絡(luò)交流影響力測定系統(tǒng)。
[0050]手機上有三種類型的傳感器:加速器、藍牙與話筒。對傳遞過來的每一次感知,對應(yīng)一個應(yīng)答,若傳遞過來的傳感器數(shù)據(jù)是有效的,則為正向應(yīng)答,否則為負向應(yīng)答。
[0051]所要處理的任務(wù)包括判斷語音是否為合理的語音,如靜音或忙音均為不合理語音,雙方對話音一般為合理語音,對合理語音時長的統(tǒng)計,對短信字節(jié)數(shù)的統(tǒng)計,對藍牙探測到對象時長的統(tǒng)計等。
[0052]分布式計算量的分流主要考慮三個方面的要求:手機的電池量及其它場所耗能、網(wǎng)絡(luò)的延遲和需要向網(wǎng)絡(luò)傳輸?shù)膯挝粫r間的數(shù)據(jù)量(數(shù)據(jù)擁塞),這三者都可以實時進行獲取。
[0053]將手機上要處理的任務(wù)T分成若干個子任務(wù)ti,并決定,哪些任務(wù)在手機本地執(zhí)行,哪些任務(wù)遠程執(zhí)行,及在哪里執(zhí)行。若共有η個子任務(wù)需要執(zhí)行,則需η個可執(zhí)行的場所,先選擇耗能低、網(wǎng)絡(luò)的延遲小、網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)量少的場所來完成任務(wù)。為統(tǒng)一計算場所的耗能、網(wǎng)絡(luò)的延遲與向網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)量,需要進行去量綱處理,設(shè)場所ck,每一個子任務(wù)都可能在場所ck進行處理(總共有2n個可能組合選擇),設(shè)子任務(wù)i在所有場所中進行處理對應(yīng)最小的耗能、網(wǎng)絡(luò)的延遲與向網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)量分別為emin、Imin與dmin ;子任務(wù)i在場所ck處理時所對應(yīng)的耗能、網(wǎng)絡(luò)的延遲與向網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)量分別為e1、li與di,則處理量綱后所對應(yīng)的無量綱耗能、網(wǎng)絡(luò)的延遲與向網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)量分別為ue1、uli與 udi0
[0054]對社交網(wǎng)絡(luò)的交流記錄進行分析,將每一個ID對應(yīng)的交流記錄看成是一個文本,對所有的文本進行分詞;將分詞后的文本依據(jù)單詞的相似性進行聚類,得到若干主題類;對每個主題進行分析,發(fā)貼量最大的ID稱為該主題的貼主,其余的貼稱為貼主的跟隨貼,跟隨貼數(shù)稱社交網(wǎng)絡(luò)中成員的影響因子;占有主題最多的貼主稱為該群這一時期的群主。設(shè)計合適的數(shù)據(jù)結(jié)構(gòu)與算法,找出貼主與群主,并給出其影響因子。對不同時期的同一社交網(wǎng)絡(luò)的交流記錄進行分析,對不同時期的主題進行比較,不同時期內(nèi)相同的主題數(shù),稱為該社交網(wǎng)絡(luò)的專業(yè)絕對系數(shù),專業(yè)絕對系數(shù)除以總主題數(shù)(不相同),稱為該社交網(wǎng)絡(luò)的專業(yè)相對系數(shù),專業(yè)相對系數(shù)越大,則該社交網(wǎng)絡(luò)越專業(yè);在不同時期內(nèi)相同主題的具有最多的相同貼主數(shù),則該貼主稱為該主題的專家,設(shè)計合適的數(shù)據(jù)結(jié)構(gòu)與算法,找出該社交網(wǎng)絡(luò)的若干時期內(nèi)的所有專家,并給出該社交網(wǎng)絡(luò)的相對專業(yè)系數(shù)。
[0055]基于網(wǎng)絡(luò)交流約束的社交網(wǎng)絡(luò)交流影響力測定的開發(fā)過程具體如下:
[0056]步驟一:獲取社交網(wǎng)絡(luò)中成員的社交信 息。將語音、圖像、視頻內(nèi)容信息處理轉(zhuǎn)換為對應(yīng)的文本信息,為社交信息的語義處理作準備,這包括語文轉(zhuǎn)換、圖像內(nèi)容文字化與視頻內(nèi)容文字化,與QQ、微博、博客和論壇等社交網(wǎng)絡(luò)方式交流文本信息一起,包括相應(yīng)的成員標識信息、交流記錄時間(取年、月、日)、交流工具標識信息如QQ號與所交流的內(nèi)容等存放到知識庫中。以上過程采用移動終端動態(tài)實時主動推送的方式完成,并將盲音等無效信息自動過濾。
[0057]步驟二:文本數(shù)據(jù)預(yù)處理。對社交網(wǎng)絡(luò)的交流記錄進行分析,對所有的文本進行分詞,利用雙重循環(huán)檢索技術(shù),先獲取字的個數(shù),后獲取每個字的組詞個數(shù),然后索引表分配一塊空間給WordItems,將字詞的相關(guān)信息放在WordItems結(jié)構(gòu)中。為了解決文本關(guān)鍵短語匹配的高復(fù)雜度問題,采用文本索引圖(DIG)來實現(xiàn),使得算法能夠達到近線性的時間,遠低于其0(n2)的復(fù)雜度。在DIG中,短語匹配以增量的方式實現(xiàn);所有文本與文本的關(guān)鍵短語的關(guān)系用DIG結(jié)構(gòu)圖表示;當新的文本增加進來時,新的文本與圖中的先前的文本進行匹配,并且新的文本也加入到圖中。整個過程以時間線性的方式產(chǎn)生所有文本對完整的短語匹配輸出。
[0058]步驟三:文本數(shù)據(jù)相似性分析?;诙陶Z構(gòu)建文本的概念文本模型,給出了文本語義相似度計算模型,包括四個部分:第一獨立義原Siml (S1, S2);第一獨立義原以外的所有其他獨立義原相似度Sin^S1, S2);關(guān)系義原Sin^S1, S2);符號義原SimMS1, S2)。為了反映兩個詞語互相關(guān)聯(lián)的程度,即詞語之間的組合特點,它可以用詞語在同一個語境中共現(xiàn)的可能性來衡量,在相似度基礎(chǔ)上融合詞語的相關(guān)性,最后給出相似度匹配的結(jié)果。
[0059]步驟四:文本回歸語義譜聚類。將分詞后的文本依據(jù)語義相似性進行聚類,得到若干主題類;對每個主題進行分析,得到社交網(wǎng)絡(luò)中成員的影響因子;對不同時期的同一社交網(wǎng)絡(luò)的交流記錄進行分析,對不同時期的主題進行比較,得到該社交網(wǎng)絡(luò)的專業(yè)絕對系數(shù)與相對專業(yè)系數(shù)。語義相似性進行聚類是關(guān)鍵的方法,具體技術(shù)路線如圖2所示,圖2自上而下表示典型的社交網(wǎng)絡(luò)交流影響力的測定中間件中語義相似性進行聚類開發(fā)的整個流程。
[0060]為了能在任意形狀的樣本空間上得到文本聚類,且收斂于全局最優(yōu)解,實施例給出了基于圖譜的文本聚類模型,給出了圖劃分的最小割集準則、規(guī)范割集準則、比例割集準則、平均割集準則、最小最大割集準則、多路規(guī)范割集準則,并將圖劃分問題轉(zhuǎn)化為求解Laplacian矩陣的第二小特征向量問題,并分為文本粗聚類和文本子類細聚類來完成整個文本的譜聚類,進而得到成員的影響因子。
[0061]在文本聚類中,單個短語可能屬于多個類,單個文本可能是多主題的文本,本發(fā)明采用模糊聚類的方法解決。模糊聚類算法有著很好的彈性,能夠允許單個短語可同時屬于多個類,單個文本可同時屬于多個文本類。[0062]無向加權(quán)圖G=<v,E,w>,V= Wpd2,…,dn};其表示形式為一對稱矩陣:[Wij]nXn其中W = {w1;w2,-,wm}是邊權(quán)重,代表兩個文本間相似度。計算文本的詞頻以及文本間的相似度,將文本粗化的聚成無關(guān)或是相關(guān)度極小的c個文本子類。首先除去在所有文本中出現(xiàn)的高頻詞;然后提取剩下詞匯的短語存入詞根表中。收集這些短語形成一個索引短語集T。短語t在文本di中權(quán)重為:
【權(quán)利要求】
1.一種社交網(wǎng)絡(luò)交流影響力的測定方法,其特征在于: 獲取社交網(wǎng)絡(luò)中成員的社交信息; 利用雙重循環(huán)檢索技術(shù),對社交網(wǎng)絡(luò)的交流記錄進行分析,對所有的文本進行分詞; 對文本數(shù)據(jù)進行相似性分析,完成文本回歸語義譜聚類; 由影響概率因子計算網(wǎng)絡(luò)交流約束和成員在社交網(wǎng)絡(luò)中的影響力。
2.如權(quán)利要求1所述的社交網(wǎng)絡(luò)交流影響力的測定方法,其特征在于: 步驟一:獲取社交網(wǎng)絡(luò)中成員的社交信息,將獲取的語音、圖像、視頻內(nèi)容信息處理轉(zhuǎn)換為對應(yīng)的文本信息,與社交網(wǎng)絡(luò)方式交流文本信息一起,存放到知識庫中; 步驟二:利用雙重循環(huán)檢索技術(shù)對文本數(shù)據(jù)預(yù)處理; 步驟三:文本數(shù)據(jù)相似性分析,采用基于短語構(gòu)建文本的概念文本模型,在相似度基礎(chǔ)上融合詞語的相關(guān)性,最后給出相似度匹配的結(jié)果; 步驟四:文本回歸語義譜聚類; 步驟五:由影響概率因子計算網(wǎng)絡(luò)交流約束和成員在社交網(wǎng)絡(luò)中的影響力。
3.如權(quán)利要求2所述的社交網(wǎng)絡(luò)交流影響力的測定方法,其特征在于,步驟二的具體步驟為:對社交網(wǎng)絡(luò)的交流 記錄進行分析,對所有的文本進行分詞,利用雙重循環(huán)檢索技術(shù),先獲取字的個數(shù),后獲取每個字的組詞個數(shù),然后索引表分配一塊空間給Wordltems,將字詞的相關(guān)信息放在WordItems結(jié)構(gòu)中。
4.如權(quán)利要求3所述的社交網(wǎng)絡(luò)交流影響力的測定方法,其特征在于,采用文本索引圖(DIG)來實現(xiàn)文本關(guān)鍵短語匹配,使算法能夠達到近線性的時間;在DIG中,短語匹配以增量的方式實現(xiàn);所有文本與文本的關(guān)鍵短語的關(guān)系用DIG結(jié)構(gòu)圖表示;當新的文本增加進來時,新的文本與圖中的先前的文本進行匹配,并且新的文本也加入到圖中;整個過程以時間線性的方式產(chǎn)生所有文本對完整的短語匹配輸出。
5.如權(quán)利要求2所述的社交網(wǎng)絡(luò)交流影響力的測定方法,其特征在于,步驟三的具體步驟為:基于短語構(gòu)建文本的概念文本模型,給出了文本語義相似度計算模型,包括四個部分: 第一獨立義原SimUS1, S2); 第一獨立義原以外的所有其他獨立義原相似度Sin^^,S2); 關(guān)系義原Sin^S1, S2); 符號義原SimMS1, S2)。
6.如權(quán)利要求2-5任一項所述的社交網(wǎng)絡(luò)交流影響力的測定方法,其特征在于,步驟四的具體步驟為: 將分詞后的文本依據(jù)語義相似性進行聚類,得到若干主題類; 對每個主題進行分析,得到社交網(wǎng)絡(luò)中成員的影響因子; 對不同時期的同一社交網(wǎng)絡(luò)的交流記錄進行分析,對不同時期的主題進行比較,得到該社交網(wǎng)絡(luò)的專業(yè)絕對系數(shù)與相對專業(yè)系數(shù)。
7.如權(quán)利要求6所述的社交網(wǎng)絡(luò)交流影響力的測定方法,其特征在于,采用基于圖譜的文本聚類模型,并將圖劃分問題轉(zhuǎn)化為求解Laplacian矩陣的第二小特征向量問題,并分為文本粗聚類和文本子類細聚類來完成整個文本的譜聚類,進而得到成員的影響因子。
8.如權(quán)利要求7所述的社交網(wǎng)絡(luò)交流影響力的測定方法,其特征在于,步驟五的具體步驟為:成員i的社交網(wǎng)絡(luò)交流約束Ni由他與其他成員交流的影響力概率因子Pij決定: N 丨=Σ (Pii + Σ Ihl Pm./;./ 本 i j?O
9.一種實現(xiàn)權(quán)利要求1-8任一項方法的社交網(wǎng)絡(luò)交流影響力的測定系統(tǒng),其特征在于: 客戶端從成員移動終端中獲取各類社交網(wǎng)絡(luò)交流的信息,并將語音、圖像、視頻內(nèi)容信息處理轉(zhuǎn)換為對應(yīng)的文本信息,與社交網(wǎng)絡(luò)方式交流文本信息一起,存放到知識庫中;知識庫存儲從移動客戶端傳遞來的社交網(wǎng)絡(luò)交流信息及相應(yīng)的成員標識信息、交流記錄時間、交流工具標識信息,為推理機提供相應(yīng)的推理知識,同時存儲推理機的推理結(jié)果,作為經(jīng)驗規(guī)則以供進一步推理用; 推理機進行社交網(wǎng)絡(luò)影響力的測定,依據(jù)權(quán)利要求2中步驟二與步驟三給定的方法,從知識庫中取出相應(yīng)的成員交流信息所形成的知識,計算出社交網(wǎng)絡(luò)中成員的實時影響力,并反饋給移動終端成員和其他輿情分析、監(jiān)控、預(yù)測系統(tǒng),并將結(jié)果保存到知識庫中。
10.如權(quán)利要求9所述的社交網(wǎng)絡(luò)交流影響力的測定系統(tǒng),其特征在于,客戶端采用移動終端動態(tài)實時主 動推送的方式完成,并將無效信息自動過濾。
【文檔編號】G06F17/30GK104008182SQ201410254262
【公開日】2014年8月27日 申請日期:2014年6月10日 優(yōu)先權(quán)日:2014年6月10日
【發(fā)明者】唐仕喜, 朱立才, 湯克明, 葉保留, 張煌, 王創(chuàng)偉, 曹瑩瑩, 馮韜 申請人:鹽城師范學院