一種微博用戶交互式性別識(shí)別方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語(yǔ)言處理和社交網(wǎng)絡(luò)領(lǐng)域,尤其涉及一種微博用戶交互式性別識(shí) 別方法及裝置。
【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)的開放性、虛擬性與共享性使其漸漸成為人們表達(dá)觀點(diǎn)、態(tài)度、感覺(jué)、情緒 等各種情感的公共平臺(tái),并且產(chǎn)生大量的社交網(wǎng)站,同時(shí)微型博客(Microblog)也隨之產(chǎn) 生,成為又一個(gè)跨時(shí)代產(chǎn)品。用戶通過(guò)微博發(fā)表的文本中蘊(yùn)含了大量的信息,且越來(lái)越多的 研宄工作開始關(guān)注微博,其中重要的一類研宄是微博用戶性別類別。
[0003] 所謂微博用戶性別類別,就是通過(guò)對(duì)微博用戶的信息和關(guān)系數(shù)據(jù)進(jìn)行決策樹分 析、相關(guān)性分析和關(guān)聯(lián)規(guī)則來(lái)挖掘用戶性別特征,并根據(jù)這些特征來(lái)對(duì)單個(gè)用戶的性別類 別進(jìn)行分類。然而目前的研宄工作主要集中在通過(guò)用戶的注冊(cè)信息,對(duì)單個(gè)用戶的性別進(jìn) 行預(yù)測(cè)。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本發(fā)明提供一種微博用戶交互式性別識(shí)別方法和裝置,通過(guò)用戶之間 的交互文本信息,對(duì)用戶的性別進(jìn)行預(yù)測(cè)。
[0005] 為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
[0006] 一種微博用戶交互式性別識(shí)別方法,包括:
[0007] 獲取微博用戶的個(gè)人資料信息和用戶之間的交互文本信息;
[0008] 根據(jù)所述個(gè)人資料信息,對(duì)用戶之間的交互文本信息對(duì)交互式性別類別進(jìn)行標(biāo) 注,其中所述交互式性別類別包括:女對(duì)女、女對(duì)男、男對(duì)女和男對(duì)男;
[0009] 將已經(jīng)標(biāo)注的所述交互文本信息作為訓(xùn)練樣本,并利用所述訓(xùn)練樣本建立最大熵 分類器;
[0010] 利用所述最大熵分類器對(duì)測(cè)試樣本的交互文本信息進(jìn)行交互式性別類別,以對(duì)測(cè) 試樣本性別進(jìn)行識(shí)別。
[0011] 優(yōu)選的,所述獲取微博用戶的個(gè)人資料信息和用戶之間的交互文本信息,包括:
[0012] 構(gòu)建一個(gè)用戶隊(duì)列;
[0013] 從用戶隊(duì)列取出一個(gè)種子用戶,抓取種子用戶個(gè)人資料信息和種子用戶與其他用 戶之間的交互文本信息,其中所述用戶個(gè)人資料信息包括用戶名、用戶ID、性別、及關(guān)注用 戶和粉絲用戶,并將關(guān)注用戶和粉絲用戶加入到用戶隊(duì)列中;
[0014] 反復(fù)抓取多個(gè)種子用戶,直到抓取的種子用戶數(shù)目達(dá)到設(shè)定數(shù)值。
[0015] 優(yōu)選的,所述根據(jù)所述個(gè)人資料信息,對(duì)用戶之間的交互文本信息對(duì)交互式性別 類別進(jìn)行標(biāo)注,包括:
[0016] 根據(jù)所述個(gè)人資料信息中的性別信息對(duì)用戶之間的交互文本信息進(jìn)行交互時(shí)性 別類別進(jìn)行標(biāo)注。
[0017] 優(yōu)選的,所述將進(jìn)行標(biāo)注的所述交互文本信息作為訓(xùn)練樣本,并利用所述訓(xùn)練樣 本建立最大摘分類器,包括:
[0018] 利用所述訓(xùn)練樣本及Mallet提供的最大熵工具包構(gòu)建最大熵分類器。
[0019] -種微博用戶交互式性別識(shí)別裝置,包括:
[0020] 信息采集模塊,用于獲取微博用戶的個(gè)人資料信息和用戶之間的交互文本信息;
[0021] 交互式性別類別標(biāo)注模塊,用于根據(jù)所述個(gè)人資料信息,對(duì)用戶之間的交互文本 信息對(duì)交互式性別類別進(jìn)行標(biāo)注,其中所述交互式性別類別包括:女對(duì)女、女對(duì)男、男對(duì)女 和男對(duì)男;
[0022] 分類器構(gòu)建模塊,用于將已經(jīng)標(biāo)注的所述交互文本信息作為訓(xùn)練樣本,并利用所 述訓(xùn)練樣本建立最大熵分類器;
[0023] 測(cè)試樣本性別識(shí)別模塊,用于利用所述最大熵分類器對(duì)測(cè)試樣本的交互文本信息 進(jìn)行交互式性別類別,以對(duì)測(cè)試樣本性別進(jìn)行識(shí)別。
[0024] 優(yōu)選的,所述信息采集模塊包括:
[0025] 用戶列隊(duì)構(gòu)建單元,用于構(gòu)建一個(gè)用戶隊(duì)列;
[0026] 種子用戶選定單元,用于從用戶隊(duì)列取出一個(gè)種子用戶,抓取種子用戶個(gè)人資料 信息和種子用戶與其他用戶之間的交互文本信息,其中所述用戶個(gè)人資料信息包括用戶 名、用戶ID、性別、及關(guān)注用戶和粉絲用等,并將關(guān)注用戶和粉絲用戶加入到用戶隊(duì)列中; 反復(fù)抓取多個(gè)種子用戶,直到抓取的種子用戶數(shù)目達(dá)到設(shè)定數(shù)值。
[0027] 優(yōu)選的,所述交互式性別類別標(biāo)注模塊包括:
[0028] 類別標(biāo)注子模塊,用于根據(jù)所述個(gè)人資料信息中的性別信息對(duì)用戶之間的交互文 本信息進(jìn)行交互時(shí)性別類別進(jìn)行標(biāo)注。
[0029] 優(yōu)選的,所述分類器構(gòu)建模塊包括:
[0030] 分類器構(gòu)建子模塊,用于利用所述訓(xùn)練樣本及Mallet提供的最大熵工具包構(gòu)建 最大摘分類器。
[0031 ] 經(jīng)由上述的技術(shù)方案可知,與現(xiàn)有技術(shù)相比,本方案公開了 一種微博用戶交互式 性別識(shí)別方法及裝置。該方法基于微博中用戶之間的交互文本,用以識(shí)別某兩個(gè)交互的微 博用戶的交互式性別是女對(duì)女、女對(duì)男、男對(duì)女還是男對(duì)男。首先,獲取微博用戶的個(gè)人資 料信息和用戶之間的交互微博文本,并利用交互用戶個(gè)人資料中的性別信息對(duì)交互文本的 交互式性別類別進(jìn)行標(biāo)注;然后利用標(biāo)注好的用戶之間的交互文本作為訓(xùn)練樣本,并利用 訓(xùn)練樣本訓(xùn)練最大熵分類器;最后,對(duì)某測(cè)試交互用戶集進(jìn)行分類。綜合來(lái)看,本發(fā)明可以 利用交互文本對(duì)微博中的兩個(gè)交互用戶的交互式性別進(jìn)行識(shí)別,且在訓(xùn)練樣本數(shù)量有限的 情況下,達(dá)到較高的準(zhǔn)確率。
【附圖說(shuō)明】
[0032] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本 發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù) 提供的附圖獲得其他的附圖。
[0033] 圖1示出了本發(fā)明一種微博用戶交互式性別識(shí)別方法的一個(gè)實(shí)施例的流程示意 圖;
[0034] 圖2示出了本發(fā)明一種微博用戶交互式性別識(shí)別裝置的一個(gè)實(shí)施例的結(jié)構(gòu)示意 圖。
【具體實(shí)施方式】
[0035] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于 本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員