本發(fā)明涉及計算機(jī)云計算技術(shù)領(lǐng)域,特別涉及一種改進(jìn)型基于計算機(jī)大數(shù)據(jù)的社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測系統(tǒng)。
背景技術(shù):
近幾年來,由于社交網(wǎng)絡(luò)的研究日趨熱門,基于社交網(wǎng)絡(luò)平臺上的探測和發(fā)現(xiàn)優(yōu)質(zhì)用戶問題的研究也日益得到人們的重視。通過對這類用戶的挖掘,可以和這些優(yōu)質(zhì)用戶建立更直接的關(guān)聯(lián)以獲取蘊(yùn)含的社會價值。同時由于互聯(lián)網(wǎng)社交工具的興起,使得這些優(yōu)質(zhì)用戶的周圍聚起了一大批跟隨者,使得優(yōu)質(zhì)用戶發(fā)布的信息容易擴(kuò)散,并容易被其他人利用起來散步網(wǎng)絡(luò)謠言。
現(xiàn)有技術(shù)中缺少一種有效地對互聯(lián)網(wǎng)社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點的探測以及發(fā)布信息的有效監(jiān)控手段。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明提出一種改進(jìn)型基于計算機(jī)大數(shù)據(jù)的社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測系統(tǒng)。
一種改進(jìn)型基于計算機(jī)大數(shù)據(jù)的社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測系統(tǒng),其包括如下單元:
監(jiān)控分詞單元,用于建立優(yōu)質(zhì)節(jié)點信息傳播監(jiān)控模型;
優(yōu)質(zhì)節(jié)點探測單元,用于從互聯(lián)網(wǎng)社交系統(tǒng)中探測優(yōu)質(zhì)節(jié)點;
預(yù)警單元,用于利用優(yōu)質(zhì)節(jié)點信息傳播監(jiān)控模型對優(yōu)質(zhì)節(jié)點發(fā)布的信息進(jìn)行監(jiān)控,在監(jiān)控到敏感信息時,將敏感信息以及發(fā)布敏感信息的優(yōu)質(zhì)節(jié)點信息發(fā)送到累加單元;
累加單元,用于根據(jù)敏感信息的權(quán)值選擇將敏感信息以及發(fā)布敏感信息的優(yōu)質(zhì)節(jié)點信息發(fā)送到網(wǎng)絡(luò)監(jiān)管中心;
累加單元包括:
權(quán)值設(shè)定子單元,用于預(yù)先存儲各類敏感信息的影響權(quán)值;
累加子單元,用于在接收到預(yù)警單元發(fā)送的敏感信息時,判斷接收的敏感信息的權(quán)值,并將敏感信息的權(quán)值進(jìn)行累加;
閾值設(shè)定子單元,用于進(jìn)一步判斷累加后的權(quán)值是否超過報警閾值,在超過報警閾值時,將敏感信息以及發(fā)布敏感信息的優(yōu)質(zhì)節(jié)點信息發(fā)送到網(wǎng)絡(luò)監(jiān)管中心。
在本發(fā)明所述的改進(jìn)型基于計算機(jī)大數(shù)據(jù)的社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測系統(tǒng)中,
監(jiān)控分詞單元包括:
第一分詞子單元,用于將需要訓(xùn)練的網(wǎng)絡(luò)語言信息按照語言表達(dá)規(guī)律進(jìn)行分詞;
第二分詞子單元,用于判斷第一分詞子單元分詞后是否可以繼續(xù)進(jìn)行第一分詞子單元進(jìn)行分詞,如果不能繼續(xù)分詞,則進(jìn)行細(xì)粒度分詞,否則跳轉(zhuǎn)到第一分詞子單元按照語言表達(dá)規(guī)律進(jìn)行分詞;
敏感詞數(shù)據(jù)庫,用于存儲需要監(jiān)控的敏感信息詞匯。
在本發(fā)明所述的改進(jìn)型基于計算機(jī)大數(shù)據(jù)的社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測系統(tǒng)中,
所述優(yōu)質(zhì)節(jié)點探測單元包括:
集合確定子單元,用于提取需要探測的優(yōu)質(zhì)節(jié)點所在的社交網(wǎng)絡(luò)節(jié)點集合;
映射建立子單元,用于對社交網(wǎng)絡(luò)節(jié)點集合中的社交網(wǎng)絡(luò)節(jié)點建立社交網(wǎng)絡(luò)的節(jié)點映射關(guān)系;
模型建立子單元,用于根據(jù)優(yōu)質(zhì)節(jié)點的活動規(guī)律提取探測優(yōu)質(zhì)節(jié)點特征;根據(jù)提取的優(yōu)質(zhì)節(jié)點特征建立優(yōu)質(zhì)節(jié)點探測的特征規(guī)則模型;
訓(xùn)練子單元,用于將社交網(wǎng)絡(luò)節(jié)點作為實驗樣本進(jìn)行分組,然后進(jìn)行分組訓(xùn)練和節(jié)點分類;
修正子單元,用于對優(yōu)質(zhì)節(jié)點探測的結(jié)果進(jìn)行評估并反饋結(jié)果,并在反復(fù)地訓(xùn)練過程中將不符合探測優(yōu)質(zhì)節(jié)點特征的規(guī)則進(jìn)行校正,從而達(dá)到對模型進(jìn)行優(yōu)化的目的;
迭代子單元,用于將優(yōu)化后的模型再次回到訓(xùn)練子單元中節(jié)點訓(xùn)練與分類環(huán)節(jié)進(jìn)行優(yōu)質(zhì)節(jié)點探測以提高探測進(jìn)度,并進(jìn)行迭代運(yùn)算直到優(yōu)質(zhì)節(jié)點的探測進(jìn)度超過設(shè)定閾值從而完成整個社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測過程。
在本發(fā)明所述的改進(jìn)型基于計算機(jī)大數(shù)據(jù)的社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測系統(tǒng)中,所述預(yù)警單元包括:
數(shù)據(jù)獲取子單元,用于爬取優(yōu)質(zhì)節(jié)點發(fā)布的實時數(shù)據(jù)并寫入數(shù)據(jù)緩存庫;
聚類子單元,用于按照預(yù)定算法對第一預(yù)定時間段內(nèi)的實時數(shù)據(jù)進(jìn)行排序,篩選出第一預(yù)定時間段內(nèi)的超過預(yù)設(shè)熱度值的信息;對第二預(yù)定時間段內(nèi)的由實時數(shù)據(jù)構(gòu)成的文本進(jìn)行突發(fā)詞抽取,進(jìn)而進(jìn)行向量化,對向量化的文本進(jìn)行聚類,選取各類中異常值最大實時數(shù)據(jù)作為監(jiān)測到的異常信息;根據(jù)預(yù)設(shè)閾值顯示相應(yīng)條數(shù)的預(yù)設(shè)熱度值的信息和異常信息;
判斷子單元,用于將預(yù)設(shè)熱度值的信息和異常信息發(fā)送到監(jiān)控分詞單元進(jìn)行篩選判斷是否存在敏感詞;在監(jiān)控到敏感詞時,將敏感詞以及發(fā)布包含敏感詞信息的優(yōu)質(zhì)節(jié)點信息發(fā)送到累加單元。
在本發(fā)明所述的改進(jìn)型基于計算機(jī)大數(shù)據(jù)的社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測系統(tǒng)中,
所述模型建立子單元中根據(jù)優(yōu)質(zhì)節(jié)點的活動規(guī)律提取探測優(yōu)質(zhì)節(jié)點特征包括:
設(shè)置節(jié)點被判斷為優(yōu)秀節(jié)點的節(jié)點屬性,在某一節(jié)點具備優(yōu)秀節(jié)點的節(jié)點屬性時,則該節(jié)點屬性具有高優(yōu)質(zhì)性的特征;
設(shè)置節(jié)點之間隨著時間的推移就應(yīng)具備頻繁的交互性,稱之為交互度Vinter;在社交網(wǎng)絡(luò)中,如節(jié)點具有核心節(jié)點的特征,且它們與周邊節(jié)點間存在連接邊;在這些連接邊中,將優(yōu)質(zhì)節(jié)點的主動交互看作是出度Vout,出度為自身指向其它節(jié)點的邊,而被動交互看作入度Vin,入度為其它節(jié)點指向自身的邊,則優(yōu)質(zhì)節(jié)點往往同時存在超過第一預(yù)設(shè)閾值的入度和出度,且出度入度比接近于1;
將同時存在超過預(yù)設(shè)值的入度和出度,且出度入度比大于1且大于第二預(yù)設(shè)閾值的節(jié)點作為非優(yōu)質(zhì)節(jié)點。
在本發(fā)明所述的改進(jìn)型基于計算機(jī)大數(shù)據(jù)的社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測系統(tǒng)中,所述模型建立子單元中優(yōu)質(zhì)節(jié)點探測過程的矩陣表示如下:
映射矩陣為被探測對象的入度與出度之間的映射關(guān)系矩陣;其中,Min×out表示矩陣名稱,In表示節(jié)點的入度集合,Out表示節(jié)點的出度集合;Vi,in,i=1...n和Vj,out,j=1...m分別表示節(jié)點i的入度和節(jié)點j的出度;i=1...n,j=1...m表示節(jié)點i入度和節(jié)點j出度比值;當(dāng)i=j(luò)時,可對優(yōu)質(zhì)節(jié)點和非優(yōu)質(zhì)節(jié)點進(jìn)行探測,此時優(yōu)質(zhì)節(jié)點的Pij趨向于1,而非優(yōu)質(zhì)節(jié)點的Pij大于1且大于第二預(yù)設(shè)閾值或小于1且小于第三預(yù)設(shè)閾值;而當(dāng)i≠j時,若Pij=0表明不同節(jié)點間不存在交互關(guān)系,否則節(jié)點間就存在交互關(guān)系。
在本發(fā)明所述的改進(jìn)型基于計算機(jī)大數(shù)據(jù)的社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測系統(tǒng)中,所述修正子單元中還包括制定探測結(jié)果的召回率和準(zhǔn)確率,并對準(zhǔn)確率進(jìn)行閾值設(shè)定,以決定是否跳轉(zhuǎn)到迭代子單元進(jìn)行迭代運(yùn)算過程。
實施本發(fā)明提供的改進(jìn)型基于計算機(jī)大數(shù)據(jù)的社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測系統(tǒng)與現(xiàn)有技術(shù)相比具有以下有益效果:能夠用于發(fā)現(xiàn)社交網(wǎng)絡(luò)中與用戶需求具有較高契合度的核心節(jié)點,通過利用優(yōu)質(zhì)節(jié)點信息傳播監(jiān)控模型對優(yōu)質(zhì)節(jié)點發(fā)布的信息進(jìn)行監(jiān)控,在監(jiān)控到敏感信息時,將敏感信息以及發(fā)布敏感信息的優(yōu)質(zhì)節(jié)點信息發(fā)送到網(wǎng)絡(luò)監(jiān)管中心,能夠有效地對優(yōu)質(zhì)節(jié)點發(fā)布的信息進(jìn)行監(jiān)控,防止有害的信息擴(kuò)散。
附圖說明
圖1是本發(fā)明實施例的改進(jìn)型基于計算機(jī)大數(shù)據(jù)的社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測系統(tǒng)結(jié)構(gòu)框圖。
具體實施方式
如圖1所示,本發(fā)明實施例提出的一種改進(jìn)型基于計算機(jī)大數(shù)據(jù)的社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測系統(tǒng),其包括如下單元:
監(jiān)控分詞單元,用于建立優(yōu)質(zhì)節(jié)點信息傳播監(jiān)控模型;
優(yōu)質(zhì)節(jié)點探測單元,用于從互聯(lián)網(wǎng)社交系統(tǒng)中探測優(yōu)質(zhì)節(jié)點;
預(yù)警單元,用于利用優(yōu)質(zhì)節(jié)點信息傳播監(jiān)控模型對優(yōu)質(zhì)節(jié)點發(fā)布的信息進(jìn)行監(jiān)控,在監(jiān)控到敏感信息時,將敏感信息以及發(fā)布敏感信息的優(yōu)質(zhì)節(jié)點信息發(fā)送到累加單元;
累加單元,用于根據(jù)敏感信息的權(quán)值選擇將敏感信息以及發(fā)布敏感信息的優(yōu)質(zhì)節(jié)點信息發(fā)送到網(wǎng)絡(luò)監(jiān)管中心;
累加單元包括:
權(quán)值設(shè)定子單元,用于預(yù)先存儲各類敏感信息的影響權(quán)值;
累加子單元,用于在接收到預(yù)警單元發(fā)送的敏感信息時,判斷接收的敏感信息的權(quán)值,并將敏感信息的權(quán)值進(jìn)行累加;
閾值設(shè)定子單元,用于進(jìn)一步判斷累加后的權(quán)值是否超過報警閾值,在超過報警閾值時,將敏感信息以及發(fā)布敏感信息的優(yōu)質(zhì)節(jié)點信息發(fā)送到網(wǎng)絡(luò)監(jiān)管中心。
在本發(fā)明所述的改進(jìn)型基于計算機(jī)大數(shù)據(jù)的社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測系統(tǒng)中,
監(jiān)控分詞單元包括:
第一分詞子單元,用于將需要訓(xùn)練的網(wǎng)絡(luò)語言信息按照語言表達(dá)規(guī)律進(jìn)行分詞;
第二分詞子單元,用于判斷第一分詞子單元分詞后是否可以繼續(xù)進(jìn)行第一分詞子單元進(jìn)行分詞,如果不能繼續(xù)分詞,則進(jìn)行細(xì)粒度分詞,否則跳轉(zhuǎn)到第一分詞子單元按照語言表達(dá)規(guī)律進(jìn)行分詞;
敏感詞數(shù)據(jù)庫,用于存儲需要監(jiān)控的敏感信息詞匯。
在本發(fā)明所述的改進(jìn)型基于計算機(jī)大數(shù)據(jù)的社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測系統(tǒng)中,
所述優(yōu)質(zhì)節(jié)點探測單元包括:
集合確定子單元,用于提取需要探測的優(yōu)質(zhì)節(jié)點所在的社交網(wǎng)絡(luò)節(jié)點集合;
映射建立子單元,用于對社交網(wǎng)絡(luò)節(jié)點集合中的社交網(wǎng)絡(luò)節(jié)點建立社交網(wǎng)絡(luò)的節(jié)點映射關(guān)系;
模型建立子單元,用于根據(jù)優(yōu)質(zhì)節(jié)點的活動規(guī)律提取探測優(yōu)質(zhì)節(jié)點特征;根據(jù)提取的優(yōu)質(zhì)節(jié)點特征建立優(yōu)質(zhì)節(jié)點探測的特征規(guī)則模型;
訓(xùn)練子單元,用于將社交網(wǎng)絡(luò)節(jié)點作為實驗樣本進(jìn)行分組,然后進(jìn)行分組訓(xùn)練和節(jié)點分類;
修正子單元,用于對優(yōu)質(zhì)節(jié)點探測的結(jié)果進(jìn)行評估并反饋結(jié)果,并在反復(fù)地訓(xùn)練過程中將不符合探測優(yōu)質(zhì)節(jié)點特征的規(guī)則進(jìn)行校正,從而達(dá)到對模型進(jìn)行優(yōu)化的目的;
迭代子單元,用于將優(yōu)化后的模型再次回到訓(xùn)練子單元中節(jié)點訓(xùn)練與分類環(huán)節(jié)進(jìn)行優(yōu)質(zhì)節(jié)點探測以提高探測進(jìn)度,并進(jìn)行迭代運(yùn)算直到優(yōu)質(zhì)節(jié)點的探測進(jìn)度超過設(shè)定閾值從而完成整個社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測過程。
在本發(fā)明所述的改進(jìn)型基于計算機(jī)大數(shù)據(jù)的社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測系統(tǒng)中,所述預(yù)警單元包括:
數(shù)據(jù)獲取子單元,用于爬取優(yōu)質(zhì)節(jié)點發(fā)布的實時數(shù)據(jù)并寫入數(shù)據(jù)緩存庫;
聚類子單元,用于按照預(yù)定算法對第一預(yù)定時間段內(nèi)的實時數(shù)據(jù)進(jìn)行排序,篩選出第一預(yù)定時間段內(nèi)的超過預(yù)設(shè)熱度值的信息;對第二預(yù)定時間段內(nèi)的由實時數(shù)據(jù)構(gòu)成的文本進(jìn)行突發(fā)詞抽取,進(jìn)而進(jìn)行向量化,對向量化的文本進(jìn)行聚類,選取各類中異常值最大實時數(shù)據(jù)作為監(jiān)測到的異常信息;根據(jù)預(yù)設(shè)閾值顯示相應(yīng)條數(shù)的預(yù)設(shè)熱度值的信息和異常信息;
判斷子單元,用于將預(yù)設(shè)熱度值的信息和異常信息發(fā)送到監(jiān)控分詞單元進(jìn)行篩選判斷是否存在敏感詞;在監(jiān)控到敏感詞時,將敏感詞以及發(fā)布包含敏感詞信息的優(yōu)質(zhì)節(jié)點信息發(fā)送到累加單元。
在本發(fā)明所述的改進(jìn)型基于計算機(jī)大數(shù)據(jù)的社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測系統(tǒng)中,
所述模型建立子單元中根據(jù)優(yōu)質(zhì)節(jié)點的活動規(guī)律提取探測優(yōu)質(zhì)節(jié)點特征包括:
設(shè)置節(jié)點被判斷為優(yōu)秀節(jié)點的節(jié)點屬性,在某一節(jié)點具備優(yōu)秀節(jié)點的節(jié)點屬性時,則該節(jié)點屬性具有高優(yōu)質(zhì)性的特征;
設(shè)置節(jié)點之間隨著時間的推移就應(yīng)具備頻繁的交互性,稱之為交互度Vinter;在社交網(wǎng)絡(luò)中,如節(jié)點具有核心節(jié)點的特征,且它們與周邊節(jié)點間存在連接邊;在這些連接邊中,將優(yōu)質(zhì)節(jié)點的主動交互看作是出度Vout,出度為自身指向其它節(jié)點的邊,而被動交互看作入度Vin,入度為其它節(jié)點指向自身的邊,則優(yōu)質(zhì)節(jié)點往往同時存在超過第一預(yù)設(shè)閾值的入度和出度,且出度入度比接近于1;
將同時存在超過預(yù)設(shè)值的入度和出度,且出度入度比大于1且大于第二預(yù)設(shè)閾值的節(jié)點作為非優(yōu)質(zhì)節(jié)點。
在本發(fā)明所述的改進(jìn)型基于計算機(jī)大數(shù)據(jù)的社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測系統(tǒng)中,所述模型建立子單元中優(yōu)質(zhì)節(jié)點探測過程的矩陣表示如下:
映射矩陣為被探測對象的入度與出度之間的映射關(guān)系矩陣;其中,Min×out表示矩陣名稱,In表示節(jié)點的入度集合,Out表示節(jié)點的出度集合;Vi,in,i=1...n和Vj,out,j=1...m分別表示節(jié)點i的入度和節(jié)點j的出度;i=1...n,j=1...m表示節(jié)點i入度和節(jié)點j出度比值;當(dāng)i=j(luò)時,可對優(yōu)質(zhì)節(jié)點和非優(yōu)質(zhì)節(jié)點進(jìn)行探測,此時優(yōu)質(zhì)節(jié)點的Pij趨向于1,而非優(yōu)質(zhì)節(jié)點的Pij大于1且大于第二預(yù)設(shè)閾值或小于1且小于第三預(yù)設(shè)閾值;而當(dāng)i≠j時,若Pij=0表明不同節(jié)點間不存在交互關(guān)系,否則節(jié)點間就存在交互關(guān)系。
在本發(fā)明所述的改進(jìn)型基于計算機(jī)大數(shù)據(jù)的社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測系統(tǒng)中,所述修正子單元中還包括制定探測結(jié)果的召回率和準(zhǔn)確率,并對準(zhǔn)確率進(jìn)行閾值設(shè)定,以決定是否跳轉(zhuǎn)到迭代子單元進(jìn)行迭代運(yùn)算過程。
實施本發(fā)明提供的社交網(wǎng)絡(luò)中優(yōu)質(zhì)節(jié)點探測方法及系統(tǒng)與現(xiàn)有技術(shù)相比具有以下有益效果:能夠用于發(fā)現(xiàn)社交網(wǎng)絡(luò)中與用戶需求具有較高契合度的核心節(jié)點,通過利用優(yōu)質(zhì)節(jié)點信息傳播監(jiān)控模型對優(yōu)質(zhì)節(jié)點發(fā)布的信息進(jìn)行監(jiān)控,在監(jiān)控到敏感信息時,將敏感信息以及發(fā)布敏感信息的優(yōu)質(zhì)節(jié)點信息發(fā)送到網(wǎng)絡(luò)監(jiān)管中心,能夠有效地對優(yōu)質(zhì)節(jié)點發(fā)布的信息進(jìn)行監(jiān)控,防止有害的信息擴(kuò)散。
可以理解的是,對于本領(lǐng)域的普通技術(shù)人員來說,可以根據(jù)本發(fā)明的技術(shù)構(gòu)思做出其它各種相應(yīng)的改變與變形,而所有這些改變與變形都應(yīng)屬于本發(fā)明權(quán)利要求的保護(hù)范圍。