欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于微博文本的個(gè)人和機(jī)構(gòu)用戶分類方法及系統(tǒng)的制作方法

文檔序號(hào):6628164閱讀:778來(lái)源:國(guó)知局
一種基于微博文本的個(gè)人和機(jī)構(gòu)用戶分類方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種基于微博文本的個(gè)人和機(jī)構(gòu)用戶分類方法及系統(tǒng),本發(fā)明方法包括以下步驟。S1、根據(jù)微博網(wǎng)站提供的API收集用戶發(fā)表的微博文本,并對(duì)收集到的用戶類型進(jìn)行標(biāo)注。S2、將標(biāo)注好的微博文本進(jìn)行分詞處理后作為訓(xùn)練樣本,并利用所述訓(xùn)練樣本構(gòu)建貝葉斯分類器。S3、根據(jù)所述貝葉斯分類器對(duì)待測(cè)用戶進(jìn)行分類,并根據(jù)分類結(jié)果確定用戶類別。本發(fā)明對(duì)于微博用戶的自動(dòng)分類,具有較高的準(zhǔn)確性。
【專利說(shuō)明】一種基于微博文本的個(gè)人和機(jī)構(gòu)用戶分類方法及系統(tǒng)

【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于自然語(yǔ)言處理和社交網(wǎng)絡(luò)領(lǐng)域,尤其涉及一種基于微博文本的個(gè)人和機(jī)構(gòu)用戶分類方法及系統(tǒng)。

【背景技術(shù)】
[0002]互聯(lián)網(wǎng)的開放性、虛擬性與共享性使其漸漸成為人們表達(dá)觀點(diǎn)、態(tài)度、感覺、情緒等各種情感的公共平臺(tái),并且產(chǎn)生大量的社交網(wǎng)站,同時(shí)微型博客(Microblog)也隨之產(chǎn)生,成為又一個(gè)跨時(shí)代產(chǎn)品。用戶通過(guò)微博發(fā)表的文本中蘊(yùn)含了大量的信息,且越來(lái)越多的研究工作開始關(guān)注微博,其中重要的一類研究是微博用戶特征分析。
[0003]所謂微博用戶特征分析,就是通過(guò)對(duì)微博用戶的信息和關(guān)系數(shù)據(jù)進(jìn)行決策樹分析、相關(guān)性分析和關(guān)聯(lián)規(guī)則來(lái)挖掘用戶特征,并根據(jù)這些特征進(jìn)行用戶分類、用戶挖掘及影響力探測(cè)等。其中微博用戶分類是微博用戶特征分析的一項(xiàng)基本內(nèi)容,具體來(lái)講,是將微博用戶劃分為特定類別,比如:名人、媒體、博主、和組織;或者廣播人、一般人和垃圾蟲。然而,由于社交網(wǎng)絡(luò)剛剛起步相關(guān)研究較少,因此關(guān)于用戶類別的研究也比較缺乏。
[0004]但是,已有的研究主要是針對(duì)Twitter等外文網(wǎng)站,且利用的信息是網(wǎng)站提供的社交網(wǎng)絡(luò)信息。然而,相對(duì)于社交網(wǎng)絡(luò)信息,文本信息,例如,用戶名和所發(fā)微博等,更容易獲取且更具普遍性。
[0005]鑒于上述原因,本發(fā)明提供一種基于微博文本的個(gè)人和機(jī)構(gòu)用戶分類方法及系統(tǒng)。


【發(fā)明內(nèi)容】

[0006]本發(fā)明提供一種基于微博文本的個(gè)人和機(jī)構(gòu)用戶分類方法,包括以下步驟。
[0007]S1、根據(jù)微博網(wǎng)站提供的API收集用戶發(fā)表的微博文本,并對(duì)收集到的用戶類型進(jìn)行標(biāo)注。
[0008]S2、將標(biāo)注好的微博文本進(jìn)行分詞處理后作為訓(xùn)練樣本,并利用所述訓(xùn)練樣本構(gòu)建貝葉斯分類器。
[0009]S3、根據(jù)所述貝葉斯分類器對(duì)待測(cè)用戶進(jìn)行分類,并根據(jù)分類結(jié)果確定用戶類別。
[0010]優(yōu)選的,在步驟SI中,收集用戶發(fā)表的微博文本過(guò)程包括以下步驟。
[0011]S101、構(gòu)建一個(gè)用戶列表,并初始化為空;
[0012]S102、隨機(jī)選擇一個(gè)用戶作為種子用戶,并將所有微博用戶加入用戶列表中。
[0013]S103、從所述用戶列表取出一個(gè)用戶,通過(guò)微博網(wǎng)站提供的API抓取用戶信息及該用戶發(fā)表過(guò)的微博文本,并將關(guān)注用戶和粉絲用戶加入到用戶隊(duì)列中。
[0014]S104、重復(fù)S103直到達(dá)到所需的用戶規(guī)模。
[0015]優(yōu)選的,在步驟S103中,所述用戶信息包括用戶名、認(rèn)證類型、關(guān)注用戶和粉絲用戶。
[0016]優(yōu)選的,在步驟SI中,根據(jù)抓取的用戶信息中的認(rèn)證類型,將用戶標(biāo)注為個(gè)人用戶和機(jī)構(gòu)用戶兩種類型。
[0017]優(yōu)選的,在步驟S2中,采用分詞軟件ICTCLAS將標(biāo)注好的微博文本進(jìn)行分詞操作,并將所述經(jīng)過(guò)分詞操作的微博文本作為訓(xùn)練樣本。
[0018]優(yōu)選的,步驟S2是利用所述訓(xùn)練樣本及Mallet提供的貝葉斯工具包構(gòu)建貝葉斯分類器。
[0019]優(yōu)選的,在步驟S3中,利用貝葉斯分類器對(duì)待測(cè)用戶進(jìn)行分類的過(guò)程為:
[0020]對(duì)于某待測(cè)用戶,獲取該用戶發(fā)表的微博文本;
[0021]利用所述貝葉斯分類器,對(duì)用戶微博文本進(jìn)行分類,得到分類結(jié)果。
[0022]本發(fā)明還提供一種基于微博文本的個(gè)人和機(jī)構(gòu)用戶分類系統(tǒng),包括用戶微博文本獲取模塊、用戶類別標(biāo)注模塊、訓(xùn)練語(yǔ)料獲取模塊、分類器構(gòu)建模塊及待測(cè)用戶分類模塊,所述用戶微博文本獲取模塊連接用戶類別標(biāo)注模塊,所述用戶類別標(biāo)注模塊連接訓(xùn)練語(yǔ)料獲取模塊,所述訓(xùn)練語(yǔ)料獲取模塊連接分類器構(gòu)建模塊,所述分類器構(gòu)建模塊連接待測(cè)用戶分類模塊。所述用戶微博文本獲取模塊,用于獲取用戶微博文本及認(rèn)證類型等信息。所述用戶類別標(biāo)注模塊,用于對(duì)獲取的用戶進(jìn)行極性標(biāo)注,即將用戶標(biāo)注為個(gè)人用戶和機(jī)構(gòu)用戶。所述訓(xùn)練語(yǔ)料獲取模塊,用于獲取已標(biāo)注類別的用戶的微博,并將其作為訓(xùn)練樣本。所述分類器構(gòu)建模塊,用于利用所述已獲取的微博訓(xùn)練樣本構(gòu)建貝葉斯分類器。所述待測(cè)用戶分類模塊,用于利用所述貝葉斯分類器對(duì)待測(cè)用戶進(jìn)行分類。
[0023]通過(guò)本發(fā)明提供的基于微博文本的個(gè)人和機(jī)構(gòu)用戶分類方法及系統(tǒng),對(duì)收集到的用戶類型進(jìn)行標(biāo)注后,將標(biāo)注好的微博文本進(jìn)行處理作為訓(xùn)練樣本,并構(gòu)建貝葉斯分類器。最后根據(jù)貝葉斯分類器對(duì)待測(cè)用戶進(jìn)行分類,以確定用戶類別。如此,通過(guò)對(duì)微博文本信息的處理,達(dá)到了對(duì)個(gè)人和機(jī)構(gòu)用戶自動(dòng)分類的效果。

【專利附圖】

【附圖說(shuō)明】
[0024]為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0025]圖1是本發(fā)明較佳實(shí)施例提供的基于微博文本的個(gè)人和機(jī)構(gòu)用戶分類方法流程圖;
[0026]圖2是本發(fā)明較佳實(shí)施例提供的基于微博文本的個(gè)人和機(jī)構(gòu)用戶分類系統(tǒng)示意圖。

【具體實(shí)施方式】
[0027]下文中將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明。需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。
[0028]圖1是本發(fā)明較佳實(shí)施例提供的基于微博文本的個(gè)人和機(jī)構(gòu)用戶分類方法流程圖。如圖1所示,本發(fā)明較佳實(shí)施例提供的基于微博文本的個(gè)人和機(jī)構(gòu)用戶分類方法包括步驟SI?S3。
[0029]步驟S1:根據(jù)微博網(wǎng)站提供的API收集用戶發(fā)表的微博文本,并對(duì)收集到的用戶類型進(jìn)行標(biāo)注。
[0030]具體而言,本實(shí)施例中,所述微博網(wǎng)站為新浪微博,在其他實(shí)施例中,可根據(jù)需要自行設(shè)定,對(duì)此本發(fā)明并不作限定。本步驟中,所述API解釋為Applicat1n ProgrammingInterface,即應(yīng)用程序編程接口。其中,對(duì)用戶類型進(jìn)行標(biāo)注的過(guò)程為:根據(jù)抓取的用戶信息中的認(rèn)證類型,將用戶標(biāo)注為個(gè)人用戶和機(jī)構(gòu)用戶兩種類型。
[0031]表1為用戶認(rèn)證類型說(shuō)明。如表1所示,藍(lán)V用戶標(biāo)注為機(jī)構(gòu)用戶,黃V、微女郎、
達(dá)人用戶及普通用戶標(biāo)注為個(gè)人用戶。
[0032]

【權(quán)利要求】
1.一種基于微博文本的個(gè)人和機(jī)構(gòu)用戶分類方法,其特征在于,包括以下步驟: 51、根據(jù)微博網(wǎng)站提供的API收集用戶發(fā)表的微博文本,并對(duì)收集到的用戶類型進(jìn)行標(biāo)注; 52、將標(biāo)注好的微博文本進(jìn)行分詞處理后作為訓(xùn)練樣本,并利用所述訓(xùn)練樣本構(gòu)建貝葉斯分類器; 53、根據(jù)所述貝葉斯分類器對(duì)待測(cè)用戶進(jìn)行分類,并根據(jù)分類結(jié)果確定用戶類別。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟SI中,收集用戶發(fā)表的微博文本過(guò)程包括以下步驟: 5101、構(gòu)建一個(gè)用戶列表,并初始化為空; 5102、隨機(jī)選擇一個(gè)用戶作為種子用戶,并將所有微博用戶加入用戶列表中; 5103、從所述用戶列表取出一個(gè)用戶,通過(guò)微博網(wǎng)站提供的API抓取用戶信息及該用戶發(fā)表過(guò)的微博文本,并將關(guān)注用戶和粉絲用戶加入到用戶隊(duì)列中; 5104、重復(fù)S103直到達(dá)到所需的用戶規(guī)模。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,在步驟S103中,所述用戶信息包括用戶名、認(rèn)證類型、關(guān)注用戶和粉絲用戶。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟SI中,根據(jù)抓取的用戶信息中的認(rèn)證類型,將用戶標(biāo)注為個(gè)人用戶和機(jī)構(gòu)用戶兩種類型。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟S2中,采用分詞軟件ICTCLAS將標(biāo)注好的微博文本進(jìn)行分詞操作,并將所述經(jīng)過(guò)分詞操作的微博文本作為訓(xùn)練樣本。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟S2是利用所述訓(xùn)練樣本及Mallet提供的貝葉斯工具包構(gòu)建貝葉斯分類器。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟S3中,利用貝葉斯分類器對(duì)待測(cè)用戶進(jìn)行分類的過(guò)程為: 對(duì)于某待測(cè)用戶,獲取該用戶發(fā)表的微博文本; 利用所述貝葉斯分類器,對(duì)用戶微博文本進(jìn)行分類,得到分類結(jié)果。
8.一種基于微博文本的個(gè)人和機(jī)構(gòu)用戶分類系統(tǒng),其特征在于,包括用戶微博文本獲取模塊、用戶類別標(biāo)注模塊、訓(xùn)練語(yǔ)料獲取模塊、分類器構(gòu)建模塊及待測(cè)用戶分類模塊,所述用戶微博文本獲取模塊連接用戶類別標(biāo)注模塊,所述用戶類別標(biāo)注模塊連接訓(xùn)練語(yǔ)料獲取模塊,所述訓(xùn)練語(yǔ)料獲取模塊連接分類器構(gòu)建模塊,所述分類器構(gòu)建模塊連接待測(cè)用戶分類模塊, 所述用戶微博文本獲取模塊,用于獲取用戶微博文本及認(rèn)證類型等信息; 所述用戶類別標(biāo)注模塊,用于對(duì)獲取的用戶進(jìn)行極性標(biāo)注,即將用戶標(biāo)注為個(gè)人用戶和機(jī)構(gòu)用戶; 所述訓(xùn)練語(yǔ)料獲取模塊,用于獲取已標(biāo)注類別的用戶的微博,并將其作為訓(xùn)練樣本; 所述分類器構(gòu)建模塊,用于利用所述已獲取的微博訓(xùn)練樣本構(gòu)建貝葉斯分類器; 所述待測(cè)用戶分類模塊,用于利用所述貝葉斯分類器對(duì)待測(cè)用戶進(jìn)行分類。
【文檔編號(hào)】G06F17/30GK104199981SQ201410495083
【公開日】2014年12月10日 申請(qǐng)日期:2014年9月24日 優(yōu)先權(quán)日:2014年9月24日
【發(fā)明者】李壽山, 薛云霞, 周國(guó)棟, 王紅玲 申請(qǐng)人:蘇州大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
黔南| 达州市| 甘肃省| 吉安县| 隆昌县| 城固县| 石楼县| 德保县| 南乐县| 南木林县| 穆棱市| 黄浦区| 拉萨市| 临武县| 梧州市| 白山市| 丹巴县| 赤城县| 红原县| 铅山县| 定兴县| 周口市| 洛浦县| 孙吴县| 红原县| 兴仁县| 尼玛县| 龙江县| 湖州市| 呼伦贝尔市| 九寨沟县| 义马市| 沛县| 武功县| 麻江县| 克山县| 武强县| 万盛区| 都昌县| 姜堰市| 井陉县|