本發(fā)明涉及微博預(yù)測(cè)領(lǐng)域,具體是一種基于主題的類(lèi)引力模型微博預(yù)測(cè)方法與系統(tǒng)。
背景技術(shù):
微博是一種基于用戶(hù)關(guān)系的實(shí)時(shí)信息交流、分享、傳播的社交平臺(tái),與Facebook、Twitter等社交網(wǎng)絡(luò)一樣影響了人類(lèi)的生活交流方式。在微博平臺(tái)上,隨著用戶(hù)數(shù)量以?xún)|萬(wàn)級(jí)為單位數(shù)量的增加,大量的圖片、文本等海量信息的背后反映的是人們的生活想法、知識(shí)和有趣的事情。微博的出現(xiàn)除了產(chǎn)生有益影響,也帶來(lái)了很多問(wèn)題,例如不良言論的無(wú)約束傳播等嚴(yán)重破壞了社會(huì)生活風(fēng)氣。所以,對(duì)微博用戶(hù)的活動(dòng)狀態(tài)進(jìn)行預(yù)測(cè),對(duì)于政府、企事業(yè)單位、個(gè)人都有重要的意義。
在現(xiàn)有的微博預(yù)測(cè)解決方案中,公開(kāi)號(hào)為CN104933622A的中國(guó)專(zhuān)利公開(kāi)了一種基于用戶(hù)和微博主題的微博流行度預(yù)測(cè)方法及系統(tǒng),該方法包括:獲取預(yù)設(shè)時(shí)間段內(nèi)的微博數(shù)據(jù)和用戶(hù)數(shù)據(jù),根據(jù)所述微博數(shù)據(jù)和所述用戶(hù)數(shù)據(jù),獲取用戶(hù)屬性特征和微博主題特征,將所述用戶(hù)屬性特征進(jìn)行歸一化處理,以處理后的所述用戶(hù)特征進(jìn)行用戶(hù)聚類(lèi),并根據(jù)聚類(lèi)結(jié)果,獲取用戶(hù)的類(lèi)別信息;根據(jù)所述微博主題特征和所述用戶(hù)的類(lèi)別信息,獲取用戶(hù)聚類(lèi)在所述微博主題下的轉(zhuǎn)發(fā)特征,并計(jì)算所述用戶(hù)聚類(lèi)在所述微博主題下的權(quán)重系數(shù);根據(jù)所述微博主題特征、所述用戶(hù)屬性特征、所述權(quán)重系數(shù),構(gòu)建微博流行度預(yù)測(cè)模型,通過(guò)所述微博流行度預(yù)測(cè)模型對(duì)微博流行度進(jìn)行預(yù)測(cè)。該專(zhuān)利利用不同時(shí)間間隔的影響權(quán)重進(jìn)行流行度預(yù)測(cè)模型的構(gòu)建與本發(fā)明基于主題轉(zhuǎn)發(fā)關(guān)系的有向圖網(wǎng)絡(luò)進(jìn)行節(jié)點(diǎn)權(quán)重刻畫(huà)不同的轉(zhuǎn)發(fā)概率的方案不同,且本發(fā)明在不同的主題轉(zhuǎn)發(fā)關(guān)系下不僅實(shí)現(xiàn)對(duì)任意第K批關(guān)注者的預(yù)測(cè),而且提高了預(yù)測(cè)的準(zhǔn)確度。
對(duì)于多種級(jí)層關(guān)系的微博轉(zhuǎn)發(fā)關(guān)系網(wǎng)絡(luò),在不同主題類(lèi)型的轉(zhuǎn)發(fā)關(guān)系中,多種級(jí)層關(guān)系的預(yù)測(cè)的準(zhǔn)確性并不高,不能實(shí)現(xiàn)對(duì)任意第K批關(guān)注者的轉(zhuǎn)發(fā)情況預(yù)測(cè)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于主題的類(lèi)引力模型微博預(yù)測(cè)方法與系統(tǒng),以至少實(shí)現(xiàn)對(duì)任意K度粉絲進(jìn)行轉(zhuǎn)發(fā)預(yù)測(cè)、提高準(zhǔn)確性和預(yù)測(cè)精度的效果。
本發(fā)明的目的是通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)的:一種基于主題的類(lèi)引力模型微博預(yù)測(cè)方法,它包括以下步驟:
S1:爬取微博,并根據(jù)時(shí)間窗D的大小分別存儲(chǔ)相應(yīng)的微博轉(zhuǎn)發(fā)關(guān)系及微博內(nèi)容;
S2:利用現(xiàn)有的主題模型對(duì)爬取的微博內(nèi)容進(jìn)行主題分類(lèi);
S3:根據(jù)不同的主題分類(lèi)分別存儲(chǔ)微博轉(zhuǎn)發(fā)關(guān)系;
S4:基于不同主題分類(lèi)的轉(zhuǎn)發(fā)關(guān)系,建立有向圖網(wǎng)絡(luò);
S5:統(tǒng)計(jì)有向圖網(wǎng)絡(luò)中的節(jié)點(diǎn)個(gè)數(shù)M,并給予每個(gè)節(jié)點(diǎn)1/M的權(quán)重;
S6:統(tǒng)計(jì)每個(gè)微博用戶(hù)發(fā)布的微博被轉(zhuǎn)發(fā)的總數(shù)N,以及每個(gè)微博用戶(hù)對(duì)應(yīng)的各個(gè)粉絲轉(zhuǎn)發(fā)的數(shù)量n1,n2,n3…ni,計(jì)算每個(gè)粉絲對(duì)應(yīng)的每條有向邊的初始權(quán)重為:
S7:把選定節(jié)點(diǎn)的權(quán)重根據(jù)有向邊的權(quán)重分配到關(guān)注該節(jié)點(diǎn)的節(jié)點(diǎn)上,用以更新關(guān)注該節(jié)點(diǎn)的每個(gè)節(jié)點(diǎn)的權(quán)重;
S8:根據(jù)更新以后的節(jié)點(diǎn)權(quán)重計(jì)算相應(yīng)的有向邊的權(quán)重;
S9:循壞執(zhí)行S7~S8步驟,直到每個(gè)節(jié)點(diǎn)的權(quán)重收斂;
S10:根據(jù)需要獲取待測(cè)微博的第K度粉絲的節(jié)點(diǎn)權(quán)重k1,k2,…kn;
S11:計(jì)算待測(cè)微博到選定的一個(gè)K度粉絲的引力指數(shù):
其中,M為待測(cè)微博用戶(hù)的節(jié)點(diǎn)權(quán)重,m為選定的一個(gè)K度粉絲的節(jié)點(diǎn)權(quán)重,r為M到m的一條路線(xiàn)的所有有向邊的權(quán)重之和的倒數(shù),G根據(jù)實(shí)際需要設(shè)定;
所述步驟S1中的有向邊是指在同一主題分類(lèi)下由被關(guān)注者指向關(guān)注者的單向邊。
所述步驟S2中的網(wǎng)絡(luò)節(jié)點(diǎn)為涉及到轉(zhuǎn)發(fā)微博的同一主題分類(lèi)下的關(guān)注者,所述的節(jié)點(diǎn)個(gè)數(shù)M為涉及到轉(zhuǎn)發(fā)微博的同一主題下的關(guān)注者個(gè)數(shù)。
所述的K度粉絲為第K批關(guān)注轉(zhuǎn)發(fā)微博的用戶(hù),第K批用戶(hù)通過(guò)關(guān)注第K-1批用戶(hù)關(guān)注到該轉(zhuǎn)發(fā)微博。
所述S5中,根據(jù)關(guān)注者轉(zhuǎn)發(fā)的微博數(shù)占被關(guān)注者發(fā)布的被轉(zhuǎn)發(fā)的微博總數(shù)的比例進(jìn)行分配權(quán)重。
所述步驟S7中通過(guò)設(shè)定一個(gè)閾值,判斷每個(gè)節(jié)點(diǎn)的變化率是否小于該閾值,若是,則停止迭代。
所述的G從一個(gè)設(shè)定值開(kāi)始,通過(guò)測(cè)驗(yàn)預(yù)測(cè)效果直到找到最佳預(yù)測(cè)效果下的G值,然后以最佳預(yù)測(cè)效果下的G值作為選定的特定主題下的G值。
一種基于主題的類(lèi)引力模型微博預(yù)測(cè)系統(tǒng),它包括數(shù)據(jù)爬取模塊、微博庫(kù)、轉(zhuǎn)發(fā)關(guān)系庫(kù)、分析模塊、預(yù)測(cè)關(guān)系庫(kù)、用戶(hù)前端模塊和用戶(hù)后端模塊,所述數(shù)據(jù)爬取模塊用于對(duì)微博的爬取;所述微博庫(kù)用于存儲(chǔ)爬取的微博內(nèi)容;所述轉(zhuǎn)發(fā)關(guān)系庫(kù)用于存儲(chǔ)數(shù)據(jù)爬取模塊爬取的微博轉(zhuǎn)發(fā)關(guān)系;所述分析模塊用于對(duì)爬取的微博內(nèi)容進(jìn)行主題分類(lèi),對(duì)轉(zhuǎn)發(fā)關(guān)系庫(kù)中的轉(zhuǎn)發(fā)關(guān)系進(jìn)行統(tǒng)計(jì)分析,建立相應(yīng)的圖網(wǎng)絡(luò),并計(jì)算網(wǎng)絡(luò)節(jié)點(diǎn)中的權(quán)重及邊的權(quán)重;所述預(yù)測(cè)關(guān)系庫(kù)用于保存分析模塊生成的不同主題微博的轉(zhuǎn)發(fā)預(yù)測(cè)信息;所述用戶(hù)前端模塊為用戶(hù)提供界面方便其錄入待測(cè)微博用戶(hù)信息;所述用戶(hù)后端模塊調(diào)用分析模塊的函數(shù)進(jìn)行分析,根據(jù)用戶(hù)輸入的信息得到預(yù)測(cè)結(jié)果,預(yù)測(cè)結(jié)果存儲(chǔ)后提供給特定網(wǎng)站進(jìn)行調(diào)用。
本發(fā)明的有益效果是:本發(fā)明通過(guò)爬取微博,然后根據(jù)爬取的微博內(nèi)容進(jìn)行不同的主題分類(lèi),基于不同的主題分類(lèi)轉(zhuǎn)發(fā)關(guān)系下,統(tǒng)計(jì)所有節(jié)點(diǎn)個(gè)數(shù)并給予每個(gè)節(jié)點(diǎn)相同的初始權(quán)重后,基于相同的初始權(quán)重和節(jié)點(diǎn)的轉(zhuǎn)發(fā)情況計(jì)算對(duì)應(yīng)的每條邊的初始權(quán)重,利用每條邊的初始權(quán)重和相應(yīng)的節(jié)點(diǎn)權(quán)重來(lái)更新所有節(jié)點(diǎn)權(quán)重,然后通過(guò)類(lèi)引力模型建立任意兩點(diǎn)之間的節(jié)點(diǎn)聯(lián)系,同時(shí)利用帶有權(quán)重的節(jié)點(diǎn)權(quán)重刻畫(huà)不同的節(jié)點(diǎn)的轉(zhuǎn)發(fā)概率,提高了局部預(yù)測(cè)的精度,同時(shí)通過(guò)帶有權(quán)重的類(lèi)引力模型可以任意預(yù)測(cè)第K批關(guān)注者的轉(zhuǎn)發(fā)情況,相比通過(guò)逐個(gè)級(jí)層的迭代計(jì)算來(lái)預(yù)測(cè)第K批關(guān)注者的轉(zhuǎn)發(fā)情況,提高了預(yù)測(cè)效率,并且基于不同的主題轉(zhuǎn)發(fā)關(guān)系,提高了預(yù)測(cè)準(zhǔn)確度。
附圖說(shuō)明
圖1為本發(fā)明的方法執(zhí)行步驟流程圖。
具體實(shí)施方式
下面結(jié)合附圖進(jìn)一步詳細(xì)描述本發(fā)明的技術(shù)方案,但本發(fā)明的保護(hù)范圍不局限于以下所述。
如圖1所示,一種基于主題的類(lèi)引力模型微博預(yù)測(cè)方法,它包括以下步驟:
S1:爬取微博,并根據(jù)時(shí)間窗D的大小分別存儲(chǔ)相應(yīng)的微博轉(zhuǎn)發(fā)關(guān)系及微博內(nèi)容;
S2:利用現(xiàn)有的主題模型對(duì)爬取的微博內(nèi)容進(jìn)行主題分類(lèi);
S3:根據(jù)不同的主題分類(lèi)分別存儲(chǔ)微博轉(zhuǎn)發(fā)關(guān)系;
S4:基于不同主題分類(lèi)的轉(zhuǎn)發(fā)關(guān)系,建立有向圖網(wǎng)絡(luò);
S5:統(tǒng)計(jì)有向圖網(wǎng)絡(luò)中的節(jié)點(diǎn)個(gè)數(shù)M,并給予每個(gè)節(jié)點(diǎn)1/M的權(quán)重;
S6:統(tǒng)計(jì)每個(gè)微博用戶(hù)發(fā)布的微博被轉(zhuǎn)發(fā)的總數(shù)N,以及每個(gè)微博用戶(hù)對(duì)應(yīng)的各個(gè)粉絲轉(zhuǎn)發(fā)的數(shù)量n1,n2,n3…ni,計(jì)算每個(gè)粉絲對(duì)應(yīng)的每條有向邊的初始權(quán)重為:
S7:把選定節(jié)點(diǎn)的權(quán)重根據(jù)有向邊的權(quán)重分配到關(guān)注該節(jié)點(diǎn)的節(jié)點(diǎn)上,用以更新關(guān)注該節(jié)點(diǎn)的每個(gè)節(jié)點(diǎn)的權(quán)重;
S8:根據(jù)更新以后的節(jié)點(diǎn)權(quán)重計(jì)算相應(yīng)的有向邊的權(quán)重;
S9:循壞執(zhí)行S7~S8步驟,直到每個(gè)節(jié)點(diǎn)的權(quán)重收斂;
S10:根據(jù)需要獲取待測(cè)微博的第K度粉絲的節(jié)點(diǎn)權(quán)重k1,k2,…kn;
S11:計(jì)算待測(cè)微博到選定的一個(gè)K度粉絲的引力指數(shù):
其中,M為待測(cè)微博用戶(hù)的節(jié)點(diǎn)權(quán)重,m為選定的一個(gè)K度粉絲的節(jié)點(diǎn)權(quán)重,r為M到m的一條路線(xiàn)的所有有向邊的權(quán)重之和的倒數(shù),G根據(jù)實(shí)際需要設(shè)定;
所述步驟S1中的有向邊是指在同一主題分類(lèi)下由被關(guān)注者指向關(guān)注者的單向邊。
所述步驟S2中的網(wǎng)絡(luò)節(jié)點(diǎn)為涉及到轉(zhuǎn)發(fā)微博的同一主題分類(lèi)下的關(guān)注者,所述的節(jié)點(diǎn)個(gè)數(shù)M為涉及到轉(zhuǎn)發(fā)微博的同一主題下的關(guān)注者個(gè)數(shù)。
所述的K度粉絲為第K批關(guān)注轉(zhuǎn)發(fā)微博的用戶(hù),第K批用戶(hù)通過(guò)關(guān)注第K-1批用戶(hù)關(guān)注到該轉(zhuǎn)發(fā)微博。
所述S5中,根據(jù)關(guān)注者轉(zhuǎn)發(fā)的微博數(shù)占被關(guān)注者發(fā)布的被轉(zhuǎn)發(fā)的微博總數(shù)的比例進(jìn)行分配權(quán)重。
所述步驟S7中通過(guò)設(shè)定一個(gè)閾值,判斷每個(gè)節(jié)點(diǎn)的變化率是否小于該閾值,若是,則停止迭代。
所述的G從一個(gè)設(shè)定值開(kāi)始,通過(guò)測(cè)驗(yàn)預(yù)測(cè)效果直到找到最佳預(yù)測(cè)效果下的G值,然后以最佳預(yù)測(cè)效果下的G值作為選定的特定主題下的G值,用以提高不同主題預(yù)測(cè)的泛化能力。
一種基于主題的類(lèi)引力模型微博預(yù)測(cè)系統(tǒng),它包括數(shù)據(jù)爬取模塊、微博庫(kù)、轉(zhuǎn)發(fā)關(guān)系庫(kù)、分析模塊、預(yù)測(cè)關(guān)系庫(kù)、用戶(hù)前端模塊和用戶(hù)后端模塊,所述數(shù)據(jù)爬取模塊用于對(duì)微博的爬取;所述微博庫(kù)用于存儲(chǔ)爬取的微博內(nèi)容;所述轉(zhuǎn)發(fā)關(guān)系庫(kù)用于存儲(chǔ)數(shù)據(jù)爬取模塊爬取的微博轉(zhuǎn)發(fā)關(guān)系;所述分析模塊用于對(duì)爬取的微博內(nèi)容進(jìn)行主題分類(lèi),對(duì)轉(zhuǎn)發(fā)關(guān)系庫(kù)中的轉(zhuǎn)發(fā)關(guān)系進(jìn)行統(tǒng)計(jì)分析,建立相應(yīng)的圖網(wǎng)絡(luò),并計(jì)算網(wǎng)絡(luò)節(jié)點(diǎn)中的權(quán)重及邊的權(quán)重;所述預(yù)測(cè)關(guān)系庫(kù)用于保存分析模塊生成的不同主題微博的轉(zhuǎn)發(fā)預(yù)測(cè)信息;所述用戶(hù)前端模塊為用戶(hù)提供界面方便其錄入待測(cè)微博用戶(hù)信息;所述用戶(hù)后端模塊調(diào)用分析模塊的函數(shù)進(jìn)行分析,根據(jù)用戶(hù)輸入的信息得到預(yù)測(cè)結(jié)果,預(yù)測(cè)結(jié)果存儲(chǔ)后提供給特定網(wǎng)站進(jìn)行調(diào)用。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)理解本發(fā)明并非局限于本文所披露的形式,不應(yīng)看作是對(duì)其他實(shí)施例的排除,而可用于各種其他組合、修改和環(huán)境,并能夠在本文所述構(gòu)想范圍內(nèi),通過(guò)上述教導(dǎo)或相關(guān)領(lǐng)域的技術(shù)或知識(shí)進(jìn)行改動(dòng)。而本領(lǐng)域人員所進(jìn)行的改動(dòng)和變化不脫離本發(fā)明的精神和范圍,則都應(yīng)在本發(fā)明所附權(quán)利要求的保護(hù)范圍內(nèi)。