一種興趣識(shí)別方法、設(shè)備以及數(shù)據(jù)分析方法_2

文檔序號(hào)：9810523閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種興趣識(shí)別方法、設(shè)備以及數(shù)據(jù)分析方法

為門(mén)戶網(wǎng)站、論壇以及微博，并且其中，對(duì)于門(mén)戶網(wǎng)站和論壇，所抽取的文本為標(biāo)題、正文、發(fā)表時(shí)間和文檔標(biāo)簽，而對(duì)于微博，所抽取的文本為正文和發(fā)表時(shí)間。
[0031] 在上述數(shù)據(jù)分析方法中，去除與興趣識(shí)別無(wú)關(guān)的一些詞包括：去除介詞、代詞、副詞以及連詞；以及去除停用詞，所述停用詞為實(shí)際含義較少、對(duì)判斷文章內(nèi)容作用不大的詞語(yǔ)。
【附圖說(shuō)明】
[0032] 在參照附圖閱讀了本發(fā)明的【具體實(shí)施方式】以后，本領(lǐng)域技術(shù)人員將會(huì)更清楚地了解本發(fā)明的各個(gè)方面。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解的是：這些附圖僅僅用于配合具體實(shí)施方式說(shuō)明本發(fā)明的技術(shù)方案，而并非意在對(duì)本發(fā)明的保護(hù)范圍構(gòu)成限制。
[0033] 圖1是根據(jù)本申請(qǐng)的實(shí)施例，基于社交網(wǎng)絡(luò)的興趣識(shí)別方法的示意圖。
【具體實(shí)施方式】
[0034] 下面介紹的是本發(fā)明的多個(gè)可能實(shí)施例中的一些，旨在提供對(duì)本發(fā)明的基本了解，并不旨在確認(rèn)本發(fā)明的關(guān)鍵或決定性的要素或限定所要保護(hù)的范圍。容易理解，根據(jù)本發(fā)明的技術(shù)方案，在不變更本發(fā)明的實(shí)質(zhì)精神下，本領(lǐng)域的一般技術(shù)人員可以提出可相互替換的其它實(shí)現(xiàn)方式。因此，以下【具體實(shí)施方式】以及附圖僅是對(duì)本發(fā)明的技術(shù)方案的示例性說(shuō)明，而不應(yīng)當(dāng)視為本發(fā)明的全部或者視為對(duì)本發(fā)明技術(shù)方案的限定或限制。
[0035] 本申請(qǐng)?zhí)岢隽艘环N基于社交網(wǎng)絡(luò)(諸如微博等)的用戶興趣分析識(shí)別方法。相比于其他用戶相關(guān)的外部數(shù)據(jù)，社交網(wǎng)絡(luò)具有真實(shí)性高、時(shí)效性強(qiáng)、數(shù)據(jù)開(kāi)放性等優(yōu)點(diǎn)。對(duì)分析用戶個(gè)人屬性，識(shí)別興趣愛(ài)好有著重要價(jià)值。以下以微博為例介紹，介紹本申請(qǐng)的具體實(shí)施例。
[0036] 在觀察了各個(gè)主流微博平臺(tái)后，發(fā)明人發(fā)現(xiàn)微博表現(xiàn)形式和用戶屬性在不同平臺(tái) 上存在一些差異。但是，微博的基本屬性（即文本內(nèi)容和以關(guān)注方式建立聯(lián)系)卻是相同的，因此，以下將把分析范圍聚焦在文本內(nèi)容。另外，直觀上講，自身發(fā)送的微博信息是與用戶最為緊密相關(guān)的數(shù)據(jù)，在最大程度上體現(xiàn)了用戶興趣和關(guān)注點(diǎn)，但是，部分的用戶較少發(fā)送微博，他們?cè)诙鄶?shù)情況下是作為觀眾圍觀關(guān)注者發(fā)送的消息。所以，為提高分析結(jié)果的準(zhǔn)確性，本申請(qǐng)同時(shí)著眼于用戶自身和關(guān)注者兩方面發(fā)布的微博消息。
[0037] 如圖1所示，基于微博的興趣識(shí)別方法，包括：接收關(guān)于一用戶的興趣的查詢請(qǐng) 求；從社交網(wǎng)絡(luò)收集與該用戶相關(guān)的數(shù)據(jù)；根據(jù)預(yù)先確定的興趣分類(lèi)模型，得出所述用戶對(duì)于某一主題分類(lèi)的興趣指數(shù)值；以及根據(jù)所述興趣指數(shù)值，分析該用戶的興趣分布。興趣分類(lèi)模型可通過(guò)如下三個(gè)階段來(lái)預(yù)先確定：1)訓(xùn)練數(shù)據(jù)獲取和標(biāo)注；2)特征抽?。灰约?) 構(gòu)建模型。其中，訓(xùn)練數(shù)據(jù)獲取和標(biāo)注階段用于負(fù)責(zé)從指定的網(wǎng)站中收集頁(yè)面信息，抽取文本格式內(nèi)容，并對(duì)文本內(nèi)容進(jìn)行標(biāo)注。特征抽取階段用于將收集得到的文本生成候選特征，并加以篩選，供下一階段構(gòu)建模型。構(gòu)架模型階段負(fù)責(zé)訓(xùn)練文本的主題分類(lèi)模型。
[0038] 在一個(gè)具體實(shí)現(xiàn)中，當(dāng)用戶提交識(shí)別請(qǐng)求，興趣識(shí)別設(shè)備首先從微博平臺(tái)中抽取該用戶的微博數(shù)據(jù)，并使用訓(xùn)練得到的模型，分析該用戶興趣分布，最后返回識(shí)別結(jié)果。
[0039] 微博中的熱點(diǎn)不斷推陳出新，其中很大一部分的內(nèi)容涉及到時(shí)事新聞、熱點(diǎn)消息。具有產(chǎn)生頻率快，聚集人氣廣，流行時(shí)間短等特點(diǎn)。這就要求興趣識(shí)別設(shè)備能夠快速識(shí)別這些熱點(diǎn)信息。所以獲得興趣分類(lèi)模型的三個(gè)階段每隔一段時(shí)間運(yùn)行，以盡可能收集到時(shí)新信息，保證訓(xùn)練模型的時(shí)新度。
[0040] 在一個(gè)具體實(shí)施例中，在訓(xùn)練數(shù)據(jù)獲取和標(biāo)注階段，訓(xùn)練數(shù)據(jù)要求為文本類(lèi)型。候選的數(shù)據(jù)源有很多，包括門(mén)戶網(wǎng)站中報(bào)道、主題論壇(例如百度貼吧、天涯論壇）中帖子和微博數(shù)據(jù)本身等。而理想的數(shù)據(jù)源具有以下幾個(gè)特點(diǎn)：文本工整度高、話題涵蓋面廣、表達(dá)方式與微博貼近、內(nèi)容實(shí)新、和自分類(lèi)性等特點(diǎn)。門(mén)戶網(wǎng)站中的報(bào)道、論壇帖子、微博在這幾方面各有長(zhǎng)短，因此，本申請(qǐng)同時(shí)采用這幾種數(shù)據(jù)源作為訓(xùn)練數(shù)據(jù)。該階段的具體工作步驟如下： 1) 使用網(wǎng)絡(luò)爬蟲(chóng)或者其他方式從數(shù)據(jù)源中下載收集頁(yè)面數(shù)據(jù)； 2) 文本數(shù)據(jù)抽取。由于在上個(gè)步驟中，從門(mén)戶網(wǎng)站和論壇中下載得到的數(shù)據(jù)為HTML 頁(yè)面，其中夾雜對(duì)數(shù)據(jù)分析無(wú)意義的HTML標(biāo)簽和腳本代碼。從HTML頁(yè)面中，抽取指定的文本內(nèi)容。對(duì)于門(mén)戶網(wǎng)站報(bào)道和論壇帖子，抽取的目標(biāo)是標(biāo)題、正文、發(fā)表時(shí)間和文檔標(biāo)簽(若有)。而微博內(nèi)容，抽取的目標(biāo)則是正文和發(fā)表時(shí)間； 3) 將帶有標(biāo)題的文本，復(fù)制兩份標(biāo)題添加至正文； 4) 設(shè)置若干個(gè)興趣類(lèi)別，例如：體育、娛樂(lè)、財(cái)經(jīng)和科技等等； 5) 數(shù)據(jù)標(biāo)注。每份文本標(biāo)注一個(gè)標(biāo)簽，標(biāo)簽的內(nèi)容是預(yù)先設(shè)置的文本主題類(lèi)別。一些門(mén)戶網(wǎng)站中新聞報(bào)道附有文檔標(biāo)簽，通過(guò)設(shè)置標(biāo)簽和主題映射的關(guān)系，快速標(biāo)注文檔；如果報(bào)道附帶η個(gè)不同主題類(lèi)別的標(biāo)簽（η大于1)，那么復(fù)制η份文本，并逐一設(shè)置不同標(biāo)簽；剩余文本采用人工方式進(jìn)行標(biāo)注。
[0041] 在一個(gè)具體的實(shí)施例中，抽取特征階段負(fù)責(zé)將文本轉(zhuǎn)化為特征向量，以便后續(xù)的模式學(xué)習(xí)。具體工作步驟如下： 1) 對(duì)文本進(jìn)行分詞。分詞是將文本按照一定規(guī)范切分成詞序列的過(guò)程，例如：句子"上海地處長(zhǎng)江入?？?，經(jīng)過(guò)分詞過(guò)程，轉(zhuǎn)化為"上海/地處/長(zhǎng)江/入海口"序列； 2) 標(biāo)注詞性，并去除介詞、代詞、副詞、連詞； 3) 去除停用詞。停用詞是指實(shí)際含義較少，對(duì)判斷本文內(nèi)容作用不大的詞語(yǔ)。停用詞的選擇范圍來(lái)自于搜索引擎公開(kāi)的停用詞列表； 4) 為字詞進(jìn)行ID編碼，ID編碼的格式為32為Integer整數(shù)，生成一份字詞裝換的編碼字典〈字詞，ID〉。這樣，后續(xù)的文本處理都是基于字詞的ID進(jìn)行的，而非字詞本身，這樣可以有效地減少處理時(shí)計(jì)算機(jī)的存儲(chǔ)和計(jì)算負(fù)擔(dān)； 5) 將文本裝換為空間向量模型。向量空間模型將文本內(nèi)容轉(zhuǎn)化為向量空間中的向量，其中，向量空間中的一條坐標(biāo)軸代表一個(gè)字或詞，坐標(biāo)軸之間代表的字或詞不重復(fù)。文本包含該字或詞的數(shù)量表示該坐標(biāo)軸的值。坐標(biāo)軸的值域理論上從零到正無(wú)限； 6) 特征選擇，在機(jī)器學(xué)習(xí)的實(shí)際應(yīng)用中，特征數(shù)量往往較多，其中可能存在不相關(guān)的特征。特征選擇能剔除不相關(guān)或冗余的特征，從而達(dá)到減少特征個(gè)數(shù)，提高模型精確度，減少運(yùn)行時(shí)間的目的。在實(shí)際操作中，我們通過(guò)計(jì)算特征和相關(guān)類(lèi)別的統(tǒng)計(jì)信息，去除若干特征。
[0042] 經(jīng)過(guò)以上步驟，訓(xùn)練文本可轉(zhuǎn)換為特征向量集合。
[0043] 在一個(gè)具體實(shí)施例中，模型構(gòu)建階段負(fù)責(zé)識(shí)別特征并量化特征對(duì)主題判斷的貢獻(xiàn) 度，從而生成文本的主題模型，旨在幫助系統(tǒng)快速準(zhǔn)確地判斷文檔主題。該階段用到的主要算法是分類(lèi)，分類(lèi)算法是一種有監(jiān)督的機(jī)器學(xué)習(xí)算法，需要預(yù)先設(shè)置有標(biāo)注的訓(xùn)練數(shù)據(jù)。為了防止訓(xùn)練數(shù)據(jù)傾斜，影響模型效果，每個(gè)類(lèi)別選取接近數(shù)量的訓(xùn)練數(shù)據(jù)文檔，文檔的字?jǐn)?shù) 盡可能接近。
[0044] 通常，用戶發(fā)表的微博內(nèi)容和關(guān)注者發(fā)表的內(nèi)容，很大程度上，反映了用戶所見(jiàn)所聞和所思所感，以上兩部分內(nèi)容有助于系統(tǒng)判斷用戶興趣。同時(shí)，本申請(qǐng)的發(fā)明人注意到： 1)微博內(nèi)容發(fā)表時(shí)間越是距離當(dāng)前較近，越能夠反映用戶真實(shí)興趣；2)各個(gè)微博賬戶發(fā) 表微博頻率不同，發(fā)消息頻繁的微博賬戶可能過(guò)度影響興趣識(shí)別的結(jié)果。為了有效地處理這些問(wèn)題，本申請(qǐng)使用參數(shù)方式調(diào)節(jié)各個(gè)信息內(nèi)容的權(quán)重。具體工作步驟如下： 1)用戶提交服務(wù)時(shí)，系統(tǒng)首先需要從微博平臺(tái)中抽取。系統(tǒng)接收用戶提交微博賬號(hào)信息。根據(jù)賬號(hào)信息，后臺(tái)網(wǎng)絡(luò)爬蟲(chóng)搜集該用戶過(guò)去制定時(shí)間內(nèi)發(fā)送的微博消息集合和其關(guān) 注者發(fā)送的微博消息集合； 2) 將每一條微博消息的內(nèi)容文本、轉(zhuǎn)發(fā)文本和發(fā)者的昵稱三者的字符串疊加，以字符連接，形成完整的微博信息； 3) 逐一計(jì)算微博信息的主題分類(lèi)的概率值和權(quán)重值。結(jié)合權(quán)重值，累加類(lèi)別的概率值，生成興趣指數(shù)的向量，指數(shù)越高，用戶持有該興趣的概率越大。反之亦然。
[0045] 計(jì)算興趣指數(shù)的完整偽代碼如下表1所示：
其中，在表1所示的算法第8行的生成消息權(quán)重方法為，首先，計(jì)算當(dāng)前日期離發(fā)送微博消息的天數(shù)差的自然對(duì)數(shù)的指數(shù)。然后將該指數(shù)乘以時(shí)間調(diào)劑因子α，α的值域?yàn)椹柕?1，調(diào)劑因子越大，發(fā)布時(shí)間距離越近的微博對(duì)興趣識(shí)別的影響力越大，反之亦然。
[0046] 算法第13行規(guī)約化方式是，以數(shù)據(jù)均衡調(diào)節(jié)因子β為冪，取類(lèi)別打分的指數(shù)。β 的值域?yàn)椹柕?，數(shù)據(jù)均衡調(diào)節(jié)因子越小，各賬戶發(fā)布的微博對(duì)興趣識(shí)別的影響力越均衡，反之亦然。
[0047] 算法第14行的累加方式過(guò)程中，首先，將自發(fā)微博的權(quán)重因子II乘以自發(fā)微博消息的興趣類(lèi)別打分，1- η乘以關(guān)注人微博消息的興趣類(lèi)別打分。隨后，兩者相加生成最終的興趣指數(shù)。η是自發(fā)微博的權(quán)重因子，值域?yàn)椹柕?。η越大，則表示自發(fā)微博對(duì)判斷興趣識(shí)別的影響力越大，反之亦然。
[0048] 綜上所述，本申請(qǐng)結(jié)合微博數(shù)據(jù)特點(diǎn)和微博用戶操作習(xí)慣，分析了用戶相關(guān)的微博內(nèi)容，以識(shí)別該用戶的興趣。具體方法包括：首先，設(shè)定

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

重要特種設(shè)備識(shí)別方法相關(guān)技術(shù)

設(shè)備故障分析方法相關(guān)技術(shù)

設(shè)備可靠性分析方法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種興趣識(shí)別方法、設(shè)備以及數(shù)據(jù)分析方法_2