為門(mén)戶網(wǎng)站、論壇以及微博,并且其中,對(duì)于 門(mén)戶網(wǎng)站和論壇,所抽取的文本為標(biāo)題、正文、發(fā)表時(shí)間和文檔標(biāo)簽,而對(duì)于微博,所抽取的 文本為正文和發(fā)表時(shí)間。
[0031] 在上述數(shù)據(jù)分析方法中,去除與興趣識(shí)別無(wú)關(guān)的一些詞包括:去除介詞、代詞、副 詞以及連詞;以及去除停用詞,所述停用詞為實(shí)際含義較少、對(duì)判斷文章內(nèi)容作用不大的詞 語(yǔ)。
【附圖說(shuō)明】
[0032] 在參照附圖閱讀了本發(fā)明的【具體實(shí)施方式】以后,本領(lǐng)域技術(shù)人員將會(huì)更清楚地了 解本發(fā)明的各個(gè)方面。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解的是:這些附圖僅僅用于配合具體實(shí)施方 式說(shuō)明本發(fā)明的技術(shù)方案,而并非意在對(duì)本發(fā)明的保護(hù)范圍構(gòu)成限制。
[0033] 圖1是根據(jù)本申請(qǐng)的實(shí)施例,基于社交網(wǎng)絡(luò)的興趣識(shí)別方法的示意圖。
【具體實(shí)施方式】
[0034] 下面介紹的是本發(fā)明的多個(gè)可能實(shí)施例中的一些,旨在提供對(duì)本發(fā)明的基本了 解,并不旨在確認(rèn)本發(fā)明的關(guān)鍵或決定性的要素或限定所要保護(hù)的范圍。容易理解,根據(jù)本 發(fā)明的技術(shù)方案,在不變更本發(fā)明的實(shí)質(zhì)精神下,本領(lǐng)域的一般技術(shù)人員可以提出可相互 替換的其它實(shí)現(xiàn)方式。因此,以下【具體實(shí)施方式】以及附圖僅是對(duì)本發(fā)明的技術(shù)方案的示例 性說(shuō)明,而不應(yīng)當(dāng)視為本發(fā)明的全部或者視為對(duì)本發(fā)明技術(shù)方案的限定或限制。
[0035] 本申請(qǐng)?zhí)岢隽艘环N基于社交網(wǎng)絡(luò)(諸如微博等)的用戶興趣分析識(shí)別方法。相比于 其他用戶相關(guān)的外部數(shù)據(jù),社交網(wǎng)絡(luò)具有真實(shí)性高、時(shí)效性強(qiáng)、數(shù)據(jù)開(kāi)放性等優(yōu)點(diǎn)。對(duì)分析 用戶個(gè)人屬性,識(shí)別興趣愛(ài)好有著重要價(jià)值。以下以微博為例介紹,介紹本申請(qǐng)的具體實(shí)施 例。
[0036] 在觀察了各個(gè)主流微博平臺(tái)后,發(fā)明人發(fā)現(xiàn)微博表現(xiàn)形式和用戶屬性在不同平臺(tái) 上存在一些差異。但是,微博的基本屬性(即文本內(nèi)容和以關(guān)注方式建立聯(lián)系)卻是相同的, 因此,以下將把分析范圍聚焦在文本內(nèi)容。另外,直觀上講,自身發(fā)送的微博信息是與用戶 最為緊密相關(guān)的數(shù)據(jù),在最大程度上體現(xiàn)了用戶興趣和關(guān)注點(diǎn),但是,部分的用戶較少發(fā)送 微博,他們?cè)诙鄶?shù)情況下是作為觀眾圍觀關(guān)注者發(fā)送的消息。所以,為提高分析結(jié)果的準(zhǔn)確 性,本申請(qǐng)同時(shí)著眼于用戶自身和關(guān)注者兩方面發(fā)布的微博消息。
[0037] 如圖1所示,基于微博的興趣識(shí)別方法,包括:接收關(guān)于一用戶的興趣的查詢請(qǐng) 求;從社交網(wǎng)絡(luò)收集與該用戶相關(guān)的數(shù)據(jù);根據(jù)預(yù)先確定的興趣分類(lèi)模型,得出所述用戶 對(duì)于某一主題分類(lèi)的興趣指數(shù)值;以及根據(jù)所述興趣指數(shù)值,分析該用戶的興趣分布。興趣 分類(lèi)模型可通過(guò)如下三個(gè)階段來(lái)預(yù)先確定:1)訓(xùn)練數(shù)據(jù)獲取和標(biāo)注;2)特征抽?。灰约?) 構(gòu)建模型。其中,訓(xùn)練數(shù)據(jù)獲取和標(biāo)注階段用于負(fù)責(zé)從指定的網(wǎng)站中收集頁(yè)面信息,抽取文 本格式內(nèi)容,并對(duì)文本內(nèi)容進(jìn)行標(biāo)注。特征抽取階段用于將收集得到的文本生成候選特征, 并加以篩選,供下一階段構(gòu)建模型。構(gòu)架模型階段負(fù)責(zé)訓(xùn)練文本的主題分類(lèi)模型。
[0038] 在一個(gè)具體實(shí)現(xiàn)中,當(dāng)用戶提交識(shí)別請(qǐng)求,興趣識(shí)別設(shè)備首先從微博平臺(tái)中抽取 該用戶的微博數(shù)據(jù),并使用訓(xùn)練得到的模型,分析該用戶興趣分布,最后返回識(shí)別結(jié)果。
[0039] 微博中的熱點(diǎn)不斷推陳出新,其中很大一部分的內(nèi)容涉及到時(shí)事新聞、熱點(diǎn)消息。 具有產(chǎn)生頻率快,聚集人氣廣,流行時(shí)間短等特點(diǎn)。這就要求興趣識(shí)別設(shè)備能夠快速識(shí)別這 些熱點(diǎn)信息。所以獲得興趣分類(lèi)模型的三個(gè)階段每隔一段時(shí)間運(yùn)行,以盡可能收集到時(shí)新 信息,保證訓(xùn)練模型的時(shí)新度。
[0040] 在一個(gè)具體實(shí)施例中,在訓(xùn)練數(shù)據(jù)獲取和標(biāo)注階段,訓(xùn)練數(shù)據(jù)要求為文本類(lèi)型。候 選的數(shù)據(jù)源有很多,包括門(mén)戶網(wǎng)站中報(bào)道、主題論壇(例如百度貼吧、天涯論壇)中帖子和微 博數(shù)據(jù)本身等。而理想的數(shù)據(jù)源具有以下幾個(gè)特點(diǎn):文本工整度高、話題涵蓋面廣、表達(dá)方 式與微博貼近、內(nèi)容實(shí)新、和自分類(lèi)性等特點(diǎn)。門(mén)戶網(wǎng)站中的報(bào)道、論壇帖子、微博在這幾方 面各有長(zhǎng)短,因此,本申請(qǐng)同時(shí)采用這幾種數(shù)據(jù)源作為訓(xùn)練數(shù)據(jù)。該階段的具體工作步驟如 下: 1) 使用網(wǎng)絡(luò)爬蟲(chóng)或者其他方式從數(shù)據(jù)源中下載收集頁(yè)面數(shù)據(jù); 2) 文本數(shù)據(jù)抽取。由于在上個(gè)步驟中,從門(mén)戶網(wǎng)站和論壇中下載得到的數(shù)據(jù)為HTML 頁(yè)面,其中夾雜對(duì)數(shù)據(jù)分析無(wú)意義的HTML標(biāo)簽和腳本代碼。從HTML頁(yè)面中,抽取指定的文 本內(nèi)容。對(duì)于門(mén)戶網(wǎng)站報(bào)道和論壇帖子,抽取的目標(biāo)是標(biāo)題、正文、發(fā)表時(shí)間和文檔標(biāo)簽(若 有)。而微博內(nèi)容,抽取的目標(biāo)則是正文和發(fā)表時(shí)間; 3) 將帶有標(biāo)題的文本,復(fù)制兩份標(biāo)題添加至正文; 4) 設(shè)置若干個(gè)興趣類(lèi)別,例如:體育、娛樂(lè)、財(cái)經(jīng)和科技等等; 5) 數(shù)據(jù)標(biāo)注。每份文本標(biāo)注一個(gè)標(biāo)簽,標(biāo)簽的內(nèi)容是預(yù)先設(shè)置的文本主題類(lèi)別。一些 門(mén)戶網(wǎng)站中新聞報(bào)道附有文檔標(biāo)簽,通過(guò)設(shè)置標(biāo)簽和主題映射的關(guān)系,快速標(biāo)注文檔;如果 報(bào)道附帶η個(gè)不同主題類(lèi)別的標(biāo)簽(η大于1),那么復(fù)制η份文本,并逐一設(shè)置不同標(biāo)簽;剩 余文本采用人工方式進(jìn)行標(biāo)注。
[0041] 在一個(gè)具體的實(shí)施例中,抽取特征階段負(fù)責(zé)將文本轉(zhuǎn)化為特征向量,以便后續(xù)的 模式學(xué)習(xí)。具體工作步驟如下: 1) 對(duì)文本進(jìn)行分詞。分詞是將文本按照一定規(guī)范切分成詞序列的過(guò)程,例如:句子"上 海地處長(zhǎng)江入???,經(jīng)過(guò)分詞過(guò)程,轉(zhuǎn)化為"上海/地處/長(zhǎng)江/入海口"序列; 2) 標(biāo)注詞性,并去除介詞、代詞、副詞、連詞; 3) 去除停用詞。停用詞是指實(shí)際含義較少,對(duì)判斷本文內(nèi)容作用不大的詞語(yǔ)。停用詞 的選擇范圍來(lái)自于搜索引擎公開(kāi)的停用詞列表; 4) 為字詞進(jìn)行ID編碼,ID編碼的格式為32為Integer整數(shù),生成一份字詞裝換的編 碼字典〈字詞,ID〉。這樣,后續(xù)的文本處理都是基于字詞的ID進(jìn)行的,而非字詞本身,這樣 可以有效地減少處理時(shí)計(jì)算機(jī)的存儲(chǔ)和計(jì)算負(fù)擔(dān); 5) 將文本裝換為空間向量模型。向量空間模型將文本內(nèi)容轉(zhuǎn)化為向量空間中的向量, 其中,向量空間中的一條坐標(biāo)軸代表一個(gè)字或詞,坐標(biāo)軸之間代表的字或詞不重復(fù)。文本包 含該字或詞的數(shù)量表示該坐標(biāo)軸的值。坐標(biāo)軸的值域理論上從零到正無(wú)限; 6) 特征選擇,在機(jī)器學(xué)習(xí)的實(shí)際應(yīng)用中,特征數(shù)量往往較多,其中可能存在不相關(guān)的 特征。特征選擇能剔除不相關(guān)或冗余的特征,從而達(dá)到減少特征個(gè)數(shù),提高模型精確度,減 少運(yùn)行時(shí)間的目的。在實(shí)際操作中,我們通過(guò)計(jì)算特征和相關(guān)類(lèi)別的統(tǒng)計(jì)信息,去除若干特 征。
[0042] 經(jīng)過(guò)以上步驟,訓(xùn)練文本可轉(zhuǎn)換為特征向量集合。
[0043] 在一個(gè)具體實(shí)施例中,模型構(gòu)建階段負(fù)責(zé)識(shí)別特征并量化特征對(duì)主題判斷的貢獻(xiàn) 度,從而生成文本的主題模型,旨在幫助系統(tǒng)快速準(zhǔn)確地判斷文檔主題。該階段用到的主要 算法是分類(lèi),分類(lèi)算法是一種有監(jiān)督的機(jī)器學(xué)習(xí)算法,需要預(yù)先設(shè)置有標(biāo)注的訓(xùn)練數(shù)據(jù)。為 了防止訓(xùn)練數(shù)據(jù)傾斜,影響模型效果,每個(gè)類(lèi)別選取接近數(shù)量的訓(xùn)練數(shù)據(jù)文檔,文檔的字?jǐn)?shù) 盡可能接近。
[0044] 通常,用戶發(fā)表的微博內(nèi)容和關(guān)注者發(fā)表的內(nèi)容,很大程度上,反映了用戶所見(jiàn)所 聞和所思所感,以上兩部分內(nèi)容有助于系統(tǒng)判斷用戶興趣。同時(shí),本申請(qǐng)的發(fā)明人注意到: 1)微博內(nèi)容發(fā)表時(shí)間越是距離當(dāng)前較近,越能夠反映用戶真實(shí)興趣;2)各個(gè)微博賬戶發(fā) 表微博頻率不同,發(fā)消息頻繁的微博賬戶可能過(guò)度影響興趣識(shí)別的結(jié)果。為了有效地處理 這些問(wèn)題,本申請(qǐng)使用參數(shù)方式調(diào)節(jié)各個(gè)信息內(nèi)容的權(quán)重。具體工作步驟如下: 1)用戶提交服務(wù)時(shí),系統(tǒng)首先需要從微博平臺(tái)中抽取。系統(tǒng)接收用戶提交微博賬號(hào)信 息。根據(jù)賬號(hào)信息,后臺(tái)網(wǎng)絡(luò)爬蟲(chóng)搜集該用戶過(guò)去制定時(shí)間內(nèi)發(fā)送的微博消息集合和其關(guān) 注者發(fā)送的微博消息集合; 2) 將每一條微博消息的內(nèi)容文本、轉(zhuǎn)發(fā)文本和發(fā)者的昵稱三者的字符串疊加,以字符 連接,形成完整的微博信息; 3) 逐一計(jì)算微博信息的主題分類(lèi)的概率值和權(quán)重值。結(jié)合權(quán)重值,累加類(lèi)別的概率 值,生成興趣指數(shù)的向量,指數(shù)越高,用戶持有該興趣的概率越大。反之亦然。
[0045] 計(jì)算興趣指數(shù)的完整偽代碼如下表1所示:
其中,在表1所示的算法第8行的生成消息權(quán)重方法為,首先,計(jì)算當(dāng)前日期離發(fā)送微 博消息的天數(shù)差的自然對(duì)數(shù)的指數(shù)。然后將該指數(shù)乘以時(shí)間調(diào)劑因子α,α的值域?yàn)椹柕?1,調(diào)劑因子越大,發(fā)布時(shí)間距離越近的微博對(duì)興趣識(shí)別的影響力越大,反之亦然。
[0046] 算法第13行規(guī)約化方式是,以數(shù)據(jù)均衡調(diào)節(jié)因子β為冪,取類(lèi)別打分的指數(shù)。β 的值域?yàn)椹柕?,數(shù)據(jù)均衡調(diào)節(jié)因子越小,各賬戶發(fā)布的微博對(duì)興趣識(shí)別的影響力越均衡, 反之亦然。
[0047] 算法第14行的累加方式過(guò)程中,首先,將自發(fā)微博的權(quán)重因子II乘以自發(fā)微博消 息的興趣類(lèi)別打分,1- η乘以關(guān)注人微博消息的興趣類(lèi)別打分。隨后,兩者相加生成最終的 興趣指數(shù)。η是自發(fā)微博的權(quán)重因子,值域?yàn)椹柕?。η越大,則表示自發(fā)微博對(duì)判斷興趣 識(shí)別的影響力越大,反之亦然。
[0048] 綜上所述,本申請(qǐng)結(jié)合微博數(shù)據(jù)特點(diǎn)和微博用戶操作習(xí)慣,分析了用戶相關(guān)的微 博內(nèi)容,以識(shí)別該用戶的興趣。具體方法包括:首先,設(shè)定