1.一種基于計算機大數(shù)據(jù)的社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測系統(tǒng),其特征在于,其包括如下單元:
監(jiān)控分詞單元,用于建立優(yōu)質(zhì)節(jié)點信息傳播監(jiān)控模型;
優(yōu)質(zhì)節(jié)點探測單元,用于從互聯(lián)網(wǎng)社交系統(tǒng)中探測優(yōu)質(zhì)節(jié)點;
預(yù)警單元,用于利用優(yōu)質(zhì)節(jié)點信息傳播監(jiān)控模型對優(yōu)質(zhì)節(jié)點發(fā)布的信息進行監(jiān)控,在監(jiān)控到敏感信息時,將敏感信息以及發(fā)布敏感信息的優(yōu)質(zhì)節(jié)點信息發(fā)送到網(wǎng)絡(luò)監(jiān)管中心。
2.如權(quán)利要求1所述的基于計算機大數(shù)據(jù)的社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測系統(tǒng),其特征在于,
監(jiān)控分詞單元包括:
第一分詞子單元,用于將需要訓(xùn)練的網(wǎng)絡(luò)語言信息按照語言表達規(guī)律進行分詞;
第二分詞子單元,用于判斷第一分詞子單元分詞后是否可以繼續(xù)進行第一分詞子單元進行分詞,如果不能繼續(xù)分詞,則進行細(xì)粒度分詞,否則跳轉(zhuǎn)到第一分詞子單元按照語言表達規(guī)律進行分詞;
敏感詞數(shù)據(jù)庫,用于存儲需要監(jiān)控的敏感信息詞匯。
3.如權(quán)利要求2所述的基于計算機大數(shù)據(jù)的社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測系統(tǒng),其特征在于,
所述優(yōu)質(zhì)節(jié)點探測單元包括:
集合確定子單元,用于提取需要探測的優(yōu)質(zhì)節(jié)點所在的社交網(wǎng)絡(luò)節(jié)點集合;
映射建立子單元,用于對社交網(wǎng)絡(luò)節(jié)點集合中的社交網(wǎng)絡(luò)節(jié)點建立社交網(wǎng)絡(luò)的節(jié)點映射關(guān)系;
模型建立子單元,用于根據(jù)優(yōu)質(zhì)節(jié)點的活動規(guī)律提取探測優(yōu)質(zhì)節(jié)點特征;根據(jù)提取的優(yōu)質(zhì)節(jié)點特征建立優(yōu)質(zhì)節(jié)點探測的特征規(guī)則模型;
訓(xùn)練子單元,用于將社交網(wǎng)絡(luò)節(jié)點作為實驗樣本進行分組,然后進行分組訓(xùn)練和節(jié)點分類;
修正子單元,用于對優(yōu)質(zhì)節(jié)點探測的結(jié)果進行評估并反饋結(jié)果,并在反復(fù)地訓(xùn)練過程中將不符合探測優(yōu)質(zhì)節(jié)點特征的規(guī)則進行校正,從而達到對模型進行優(yōu)化的目的;
迭代子單元,用于將優(yōu)化后的模型再次回到訓(xùn)練子單元中節(jié)點訓(xùn)練與分類環(huán)節(jié)進行優(yōu)質(zhì)節(jié)點探測以提高探測進度,并進行迭代運算直到優(yōu)質(zhì)節(jié)點的探測進度超過設(shè)定閾值從而完成整個社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測過程。
4.如權(quán)利要求3所述的基于計算機大數(shù)據(jù)的社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測系統(tǒng),其特征在于,所述預(yù)警單元包括:
數(shù)據(jù)獲取子單元,用于爬取優(yōu)質(zhì)節(jié)點發(fā)布的實時數(shù)據(jù)并寫入數(shù)據(jù)緩存庫;
聚類子單元,用于按照預(yù)定算法對第一預(yù)定時間段內(nèi)的實時數(shù)據(jù)進行排序,篩選出第一預(yù)定時間段內(nèi)的超過預(yù)設(shè)熱度值的信息;對第二預(yù)定時間段內(nèi)的由實時數(shù)據(jù)構(gòu)成的文本進行突發(fā)詞抽取,進而進行向量化,對向量化的文本進行聚類,選取各類中異常值最大實時數(shù)據(jù)作為監(jiān)測到的異常信息;根據(jù)預(yù)設(shè)閾值顯示相應(yīng)條數(shù)的預(yù)設(shè)熱度值的信息和異常信息;
判斷子單元,用于將預(yù)設(shè)熱度值的信息和異常信息發(fā)送到監(jiān)控分詞單元進行篩選判斷是否存在敏感詞;在監(jiān)控到敏感詞時,將敏感詞以及發(fā)布包含敏感詞信息的優(yōu)質(zhì)節(jié)點信息發(fā)送到網(wǎng)絡(luò)監(jiān)管中心。
5.如權(quán)利要求4所述的基于計算機大數(shù)據(jù)的社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測系統(tǒng),其特征在于,
所述模型建立子單元中根據(jù)優(yōu)質(zhì)節(jié)點的活動規(guī)律提取探測優(yōu)質(zhì)節(jié)點特征包括:
設(shè)置節(jié)點被判斷為優(yōu)秀節(jié)點的節(jié)點屬性,在某一節(jié)點具備優(yōu)秀節(jié)點的節(jié)點屬性時,則該節(jié)點屬性具有高優(yōu)質(zhì)性的特征;
設(shè)置節(jié)點之間隨著時間的推移就應(yīng)具備頻繁的交互性,稱之為交互度Vinter;在社交網(wǎng)絡(luò)中,如節(jié)點具有核心節(jié)點的特征,且它們與周邊節(jié)點間存在連接邊;在這些連接邊中,將優(yōu)質(zhì)節(jié)點的主動交互看作是出度Vout,出度為自身指向其它節(jié)點的邊,而被動交互看作入度Vin,入度為其它節(jié)點指向自身的邊,則優(yōu)質(zhì)節(jié)點往往同時存在超過第一預(yù)設(shè)閾值的入度和出度,且出度入度比接近于1;
將同時存在超過預(yù)設(shè)值的入度和出度,且出度入度比大于1且大于第二預(yù)設(shè)閾值的節(jié)點作為非優(yōu)質(zhì)節(jié)點。
6.如權(quán)利要求5所述的基于計算機大數(shù)據(jù)的社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測系統(tǒng),其特征在于,所述模型建立子單元中優(yōu)質(zhì)節(jié)點探測過程的矩陣表示如下:
映射矩陣為被探測對象的入度與出度之間的映射關(guān)系矩陣;其中,Min×out表示矩陣名稱,In表示節(jié)點的入度集合,Out表示節(jié)點的出度集合;Vi,in,i=1...n和Vj,out,j=1...m分別表示節(jié)點i的入度和節(jié)點j的出度;i=1...n,j=1...m表示節(jié)點i入度和節(jié)點j出度比值;當(dāng)i=j(luò)時,可對優(yōu)質(zhì)節(jié)點和非優(yōu)質(zhì)節(jié)點進行探測,此時優(yōu)質(zhì)節(jié)點的Pij趨向于1,而非優(yōu)質(zhì)節(jié)點的Pij大于1且大于第二預(yù)設(shè)閾值或小于1且小于第三預(yù)設(shè)閾值;而當(dāng)i≠j時,若Pij=0表明不同節(jié)點間不存在交互關(guān)系,否則節(jié)點間就存在交互關(guān)系。
7.如權(quán)利要求6所述的基于計算機大數(shù)據(jù)的社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測系統(tǒng),其特征在于,所述修正子單元中還包括制定探測結(jié)果的召回率和準(zhǔn)確率,并對準(zhǔn)確率進行閾值設(shè)定,以決定是否跳轉(zhuǎn)到迭代子單元進行迭代運算過程。