欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

獲取裝置、獲取方法、訓(xùn)練裝置以及檢測裝置的制造方法

文檔序號:10624819閱讀:233來源:國知局
獲取裝置、獲取方法、訓(xùn)練裝置以及檢測裝置的制造方法
【專利摘要】本公開提供了獲取裝置、獲取方法、訓(xùn)練裝置以及檢測裝置。用于獲得用戶的屬性信息的獲取裝置包括:第一信息獲取單元,其基于用戶的用戶簡檔中的結(jié)構(gòu)化信息獲得用戶的第一屬性信息;以及第二信息獲取單元,其基于用戶發(fā)布的內(nèi)容中的非結(jié)構(gòu)化信息獲得用戶的第二屬性信息,其中,第二信息獲取單元被配置為在用戶發(fā)布的內(nèi)容中搜索與至少一個(gè)關(guān)鍵詞相似的近似詞,以獲得用戶的第二屬性信息,其中,關(guān)鍵詞是通過下述迭代過程獲得的:在給定語料中搜索與預(yù)設(shè)觸發(fā)詞相似的近似詞,作為新的觸發(fā)詞,再在給定語料中搜索與新的觸發(fā)詞相似的近似詞,重復(fù)上述迭代過程,直到達(dá)到預(yù)設(shè)的迭代停止條件為止,并將所有得到的近似詞連同預(yù)設(shè)觸發(fā)詞一起作為關(guān)鍵詞。
【專利說明】
獲取裝置、獲取方法、訓(xùn)練裝置從及檢測裝置
技術(shù)領(lǐng)域
[0001] 本公開總體上設(shè)及信息處理的技術(shù)領(lǐng)域,具體而言,設(shè)及與用戶的屬性信息有關(guān) 的獲取裝置、獲取方法、訓(xùn)練裝置W及檢測裝置,并且尤其設(shè)及一種用于獲得用戶的屬性信 息的獲取裝置和獲取方法、一種基于所獲得的屬性信息來對用戶屬性模型進(jìn)行訓(xùn)練的訓(xùn)練 裝置、W及一種通過該訓(xùn)練裝置訓(xùn)練得到的用戶屬性模型來對用戶的屬性進(jìn)行檢測的檢測 裝置。
【背景技術(shù)】
[0002] 近年來,越來越多的用戶使用諸如臉書(Facebook)、微博等社交媒體,并在運(yùn)樣的 社交媒體上發(fā)布各種信息。相較于傳統(tǒng)的網(wǎng)絡(luò)服務(wù),各種社交媒體提供的社交網(wǎng)絡(luò)服務(wù)更 全面、更具體地體現(xiàn)了每個(gè)用戶的個(gè)體屬性,如性別、年齡、職業(yè)、愛好、地域等等。
[0003] 從社交網(wǎng)絡(luò)服務(wù)等網(wǎng)絡(luò)服務(wù)獲得的運(yùn)些用戶屬性可W被應(yīng)用于企業(yè)或政府部口 的統(tǒng)計(jì)分析和輔助決策等。因此,如何從各種網(wǎng)絡(luò)服務(wù)或者其他含有用戶屬性信息的系統(tǒng) 或服務(wù)中提取用戶屬性信息已經(jīng)獲得了越來越多的關(guān)注。目前,尤其存在提高所獲取的用 戶屬性信息的準(zhǔn)確性W及提高獲取用戶屬性信息的效率的需求。

【發(fā)明內(nèi)容】

[0004] 在下文中給出了關(guān)于本發(fā)明的簡要概述,W便提供關(guān)于本發(fā)明的某些方面的基本 理解。應(yīng)當(dāng)理解,運(yùn)個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的 關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是W簡化的形式給出某些概 念,W此作為稍后論述的更詳細(xì)描述的前序。 陽〇化]鑒于現(xiàn)有技術(shù)的上述缺陷,本發(fā)明的目的之一是提供一種不僅基于用戶的用戶簡 檔中的結(jié)構(gòu)化信息、還基于用戶發(fā)布的內(nèi)容中的非結(jié)構(gòu)化信息來獲取用戶的屬性信息的獲 取裝置和獲取方法,W至少克服現(xiàn)有的問題。
[0006] 根據(jù)本公開的第一方面,提供一種用于獲得用戶的屬性信息的獲取裝置,所述獲 取裝置包括:第一信息獲取單元,其基于用戶的用戶簡檔中的結(jié)構(gòu)化信息獲得所述用戶的 第一屬性信息;W及第二信息獲取單元,其基于所述用戶發(fā)布的內(nèi)容中的非結(jié)構(gòu)化信息獲 得所述用戶的第二屬性信息,其中,所述第二信息獲取單元被配置為在所述用戶發(fā)布的內(nèi) 容中捜索與至少一個(gè)關(guān)鍵詞相似的近似詞,W獲得所述用戶的第二屬性信息。所述關(guān)鍵詞 是通過下述迭代過程獲得的:在給定語料中捜索與預(yù)設(shè)觸發(fā)詞相似的近似詞,作為新的觸 發(fā)詞,再在給定語料中捜索與新的觸發(fā)詞相似的近似詞,重復(fù)上述迭代過程,直到達(dá)到預(yù)設(shè) 的迭代停止條件為止,并將所有得到的近似詞連同預(yù)設(shè)觸發(fā)詞一起作為所述關(guān)鍵詞。
[0007] 根據(jù)本公開的另一方面,提供一種用于獲得用戶的屬性信息的獲取方法,所述獲 取方法包括:基于用戶的用戶簡檔中的結(jié)構(gòu)化信息獲得所述用戶的第一屬性信息;W及基 于所述用戶發(fā)布的內(nèi)容中的非結(jié)構(gòu)化信息獲得所述用戶的第二屬性信息。獲得所述用戶的 第二屬性信息包括:在所述用戶發(fā)布的內(nèi)容中捜索與至少一個(gè)關(guān)鍵詞相似的近似詞,W獲 得所述用戶的第二屬性信息,其中,所述關(guān)鍵詞是通過下述迭代過程獲得的:在給定語料中 捜索與預(yù)設(shè)觸發(fā)詞相似的近似詞,作為新的觸發(fā)詞,再在給定語料中捜索與新的觸發(fā)詞相 似的近似詞,重復(fù)上述迭代過程,直到達(dá)到預(yù)設(shè)的迭代停止條件為止,并將所有得到的近似 詞連同預(yù)設(shè)觸發(fā)詞一起作為所述關(guān)鍵詞。
[0008] 根據(jù)本公開的又一個(gè)方面,還提供一種對用戶屬性模型進(jìn)行訓(xùn)練的訓(xùn)練裝置,包 括:第一信息獲取單元,其基于用戶樣本的用戶簡檔中的結(jié)構(gòu)化信息獲得所述用戶樣本的 第一屬性信息;第二信息獲取單元,其基于所述用戶樣本的發(fā)布內(nèi)容中的非結(jié)構(gòu)化信息獲 得所述用戶樣本的第二屬性信息。所述第二信息獲取單元被配置為在所述用戶樣本的發(fā) 布內(nèi)容中捜索與至少一個(gè)訓(xùn)練關(guān)鍵詞相似的訓(xùn)練近似詞,W獲得所述用戶樣本的第二屬性 信息,其中,所述訓(xùn)練關(guān)鍵詞是通過下述迭代過程獲得的:在給定訓(xùn)練語料中捜索與預(yù)設(shè)訓(xùn) 練觸發(fā)詞相似的訓(xùn)練近似詞,作為新的訓(xùn)練觸發(fā)詞,再在給定訓(xùn)練語料中捜索與新的訓(xùn)練 觸發(fā)詞相似的訓(xùn)練近似詞,重復(fù)上述迭代過程,直到達(dá)到預(yù)設(shè)的訓(xùn)練迭代停止條件為止,并 將所有得到的訓(xùn)練近似詞連同預(yù)設(shè)訓(xùn)練觸發(fā)詞一起作為所述訓(xùn)練關(guān)鍵詞;W及模型訓(xùn)練單 元,其利用所獲得的第一屬性信息和第二屬性信息,對用戶屬性模型進(jìn)行訓(xùn)練。
[0009] 根據(jù)本公開的再一個(gè)方面,還提供一種通過如本公開的上一個(gè)方面所述的訓(xùn)練裝 置訓(xùn)練得到的用戶屬性模型來對用戶的屬性進(jìn)行檢測的檢測裝置,包括:第一信息獲取單 元,其基于用戶的用戶簡檔中的結(jié)構(gòu)化信息獲得所述用戶的第一屬性信息;第二信息獲取 單元,其基于所述用戶發(fā)布的內(nèi)容中的非結(jié)構(gòu)化信息獲得所述用戶的第二屬性信息;W及 屬性檢測單元,其利用所獲得的所述用戶的第一屬性信息和第二屬性信息,基于所述用戶 屬性模型,檢測所述用戶的屬性,其中,所獲得的所述用戶的第一屬性信息和第二屬性信息 與在訓(xùn)練所述用戶屬性模型時(shí)獲得的用戶樣本的第一屬性信息和第二屬性信息是對應(yīng)的。 上述第二信息獲取單元被配置為在所述用戶發(fā)布的內(nèi)容中捜索與至少一個(gè)檢測關(guān)鍵詞相 似的檢測近似詞,W獲得所述用戶的第二屬性信息,其中,所述檢測關(guān)鍵詞是通過下述迭代 過程獲得的:在給定檢測語料中捜索與預(yù)設(shè)檢測觸發(fā)詞相似的檢測近似詞,作為新的檢測 觸發(fā)詞,再在給定檢測語料中捜索與新的檢測觸發(fā)詞相似的檢測近似詞,重復(fù)上述迭代過 程,直到達(dá)到預(yù)設(shè)的檢測迭代停止條件為止,并將所有得到的檢測近似詞連同預(yù)設(shè)檢測觸 發(fā)詞一起作為所述檢測關(guān)鍵詞。
[0010] 依據(jù)本公開的其它方面,還提供了一種使得計(jì)算機(jī)用作如上所述的用于獲得用戶 的屬性信息的獲取裝置的程序。
[0011] 依據(jù)本公開的又一方面,還提供了相應(yīng)的計(jì)算機(jī)可讀存儲介質(zhì),該計(jì)算機(jī)可讀存 儲介質(zhì)上存儲有能夠由計(jì)算設(shè)備執(zhí)行的計(jì)算機(jī)程序,該計(jì)算機(jī)程序在執(zhí)行時(shí)能夠使計(jì)算設(shè) 備執(zhí)行上述用于獲得用戶的屬性信息的獲取方法。
[0012] 上述根據(jù)本公開實(shí)施例的用于獲得用戶的屬性信息的獲取裝置和獲取方法,至少 能夠獲得W下益處至少之一:通過不僅基于用戶的用戶簡檔中的結(jié)構(gòu)化信息、還基于用戶 發(fā)布的內(nèi)容中的非結(jié)構(gòu)化信息來獲取用戶的屬性信息,能夠全面、準(zhǔn)確地獲取用戶的屬性 信息;而通過W迭代過程擴(kuò)充觸發(fā)詞得到關(guān)鍵詞、并在用戶發(fā)布的內(nèi)容中捜索與關(guān)鍵詞相 似的近似詞來獲得用戶的屬性信息,能夠提高獲取用戶屬性信息的效率和準(zhǔn)確性。
[0013] 通過W下結(jié)合附圖對本公開的最佳實(shí)施例的詳細(xì)說明,本公開的運(yùn)些W及其他優(yōu) 點(diǎn)將更加明顯。
【附圖說明】
[0014] 本公開可W通過參考下文中結(jié)合附圖所給出的描述而得到更好的理解,其中在所 有附圖中使用了相同或相似的附圖標(biāo)記來表示相同或者相似的部件。所述附圖連同下面的 詳細(xì)說明一起包含在本說明書中并且形成本說明書的一部分,而且用來進(jìn)一步舉例說明本 公開的優(yōu)選實(shí)施例和解釋本公開的原理和優(yōu)點(diǎn)。其中:
[0015] 圖1是示意性地示出根據(jù)本公開實(shí)施例的用于獲得用戶的屬性信息的獲取裝置 的示例結(jié)構(gòu)的框圖。
[0016] 圖2是示出了根據(jù)本公開實(shí)施例的用于獲得用戶的屬性信息的獲取方法的示例 流程的流程圖。
[0017] 圖3是示意性地示出根據(jù)本公開實(shí)施例的對用戶屬性模型進(jìn)行訓(xùn)練的訓(xùn)練裝置 的示例結(jié)構(gòu)的框圖。
[001引圖4是示意性地示出根據(jù)本公開實(shí)施例的、通過根據(jù)本公開實(shí)施例的訓(xùn)練裝置訓(xùn) 練得到的用戶屬性模型來對用戶的屬性進(jìn)行檢測的檢測裝置的示例結(jié)構(gòu)的框圖。
[0019] 圖5是示出了可用來實(shí)現(xiàn)根據(jù)本公開實(shí)施例的用于獲得用戶的屬性信息的獲取 裝置和獲取方法的一種可能的硬件配置的結(jié)構(gòu)簡圖。
【具體實(shí)施方式】
[0020] 在下文中將結(jié)合附圖對本發(fā)明的示范性實(shí)施例進(jìn)行描述。為了清楚和簡明起見, 在說明書中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何運(yùn)種實(shí)際實(shí)施 例的過程中必須做出很多特定于實(shí)施方式的決定,W便實(shí)現(xiàn)開發(fā)人員的具體目標(biāo),例如,符 合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且運(yùn)些限制條件可能會隨著實(shí)施方式的不同而有 所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費(fèi)時(shí)的,但對得益于本公開 內(nèi)容的本領(lǐng)域技術(shù)人員來說,運(yùn)種開發(fā)工作僅僅是例行的任務(wù)。
[0021] 在此,還需要說明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中 僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明 關(guān)系不大的其他細(xì)節(jié)。
[0022] 本發(fā)明人發(fā)現(xiàn),現(xiàn)有的從含有用戶屬性信息的系統(tǒng)或服務(wù)中提取用戶屬性信息的 過程沒有全面準(zhǔn)確地獲取用戶的屬性信息,并且運(yùn)種提取過程可能設(shè)及復(fù)雜的語義分析、 推理或大量的計(jì)算。
[0023] 基于此,本公開提供了一種不僅基于用戶的用戶簡檔中的結(jié)構(gòu)化信息、還基于用 戶發(fā)布的內(nèi)容中的非結(jié)構(gòu)化信息來獲取用戶的屬性信息的獲取裝置和獲取方法,因而能夠 W組合的方式從結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息兩者中全面、準(zhǔn)確地獲取用戶的屬性信息。而 且,在根據(jù)本公開實(shí)施例的獲取裝置和獲取方法中,W迭代過程擴(kuò)充觸發(fā)詞得到關(guān)鍵詞、并 在用戶發(fā)布的內(nèi)容中捜索與運(yùn)樣得到的關(guān)鍵詞相似的近似詞來獲得用戶的屬性信息,從而 能夠進(jìn)一步提高獲取用戶屬性信息的效率和準(zhǔn)確性。
[0024] 圖1是示意性地示出根據(jù)本公開實(shí)施例的用于獲得用戶的屬性信息的獲取裝置 的示例結(jié)構(gòu)的框圖。
[00對如圖1所示,用于獲得用戶的屬性信息的獲取裝置10包括:第一信息獲取單元 101,其基于用戶的用戶簡檔中的結(jié)構(gòu)化信息獲得所述用戶的第一屬性信息;W及第二信息 獲取單元102,其基于所述用戶發(fā)布的內(nèi)容中的非結(jié)構(gòu)化信息獲得所述用戶的第二屬性信 息。
[00%] 上述第二信息獲取單元102被配置為在所述用戶發(fā)布的內(nèi)容中捜索與至少一個(gè) 關(guān)鍵詞相似的近似詞,W獲得所述用戶的第二屬性信息,其中,所述關(guān)鍵詞是通過下述迭代 過程獲得的:在給定語料中捜索與預(yù)設(shè)觸發(fā)詞相似的近似詞,作為新的觸發(fā)詞,再在給定語 料中捜索與新的觸發(fā)詞相似的近似詞,重復(fù)上述迭代過程,直到達(dá)到預(yù)設(shè)的迭代停止條件 為止,并將所有得到的近似詞連同預(yù)設(shè)觸發(fā)詞一起作為所述關(guān)鍵詞(為便于描述,本文中 也將上述通過迭代過程得到關(guān)鍵詞的處理稱為擴(kuò)充觸發(fā)詞的處理)。
[0027] 在用戶能夠發(fā)布內(nèi)容的系統(tǒng)或服務(wù)中,通常針對每個(gè)用戶存在相應(yīng)的用戶簡檔, 其中W統(tǒng)一的格式或結(jié)構(gòu)存儲該用戶的用戶名、昵稱、出生日期、年齡、性別、地域等信息, 運(yùn)些包含在用戶簡檔中的信息可稱為結(jié)構(gòu)化信息。本公開實(shí)施例的第一信息獲取單元101 能夠從用戶的用戶簡檔中獲取運(yùn)樣的結(jié)構(gòu)化信息,并直接或經(jīng)過一定處理后作為用戶的第 一屬性信息。作為示例,第一信息獲取單元101可W將出生日期轉(zhuǎn)換為年齡,W作為第一屬 性信息。
[0028] 與用戶簡檔中的結(jié)構(gòu)化信息相對照地,用戶發(fā)布的內(nèi)容中所包含的信息可稱為非 結(jié)構(gòu)化信息。本公開實(shí)施例的第二信息獲取單元102基于用戶發(fā)布的內(nèi)容中的非結(jié)構(gòu)化信 息獲得用戶的第二屬性信息。由于用戶發(fā)布的內(nèi)容中的非結(jié)構(gòu)化信息包含了關(guān)于用戶的更 多具體信息,因此相較于僅基于用戶簡檔的結(jié)構(gòu)化信息的獲取方式,本公開實(shí)施例的獲取 裝置10能夠更全面準(zhǔn)確地獲取用戶的屬性信息。
[0029] 作為示例,第二信息獲取單元102可W從用戶發(fā)布的所有內(nèi)容(例如,用戶在微博 站點(diǎn)上原創(chuàng)和轉(zhuǎn)發(fā)的所有帖子)、一段時(shí)間內(nèi)發(fā)布的全部內(nèi)容、或一段時(shí)間內(nèi)發(fā)布的部分內(nèi) 容(例如,用戶在一段時(shí)間內(nèi)在微博站點(diǎn)上原創(chuàng)的所有帖子)中獲得用戶的第二屬性信息。
[0030] 更具體地,第二信息獲取單元102通過在用戶發(fā)布的內(nèi)容中捜索與至少一個(gè)關(guān)鍵 詞相似的近似詞來獲得第二屬性信息,其中,關(guān)鍵詞是通過在給定語料中W迭代方式擴(kuò)充 觸發(fā)詞得到的。
[0031] 相較于直接使用未經(jīng)擴(kuò)充的觸發(fā)詞作為捜索關(guān)鍵詞,本公開實(shí)施例的第二信息獲 取單元102通過預(yù)先擴(kuò)充觸發(fā)詞來獲得關(guān)鍵詞的方式,能夠提高獲取用戶的屬性信息的準(zhǔn) 確性。
[0032] 舉例而言,上述預(yù)設(shè)觸發(fā)詞可W是有利于反映用戶的某種屬性的詞語,諸如與用 戶的"學(xué)生"屬性有關(guān)的"掛科"、等。如果簡單地捜索與運(yùn)些觸發(fā)詞相似的近似詞,可能只 能得到有限的捜索結(jié)果,因而無法全面準(zhǔn)確得到用戶的屬性信息。而通過上述擴(kuò)充觸發(fā)詞 的過程,可W預(yù)先得到大量相關(guān)詞匯作為關(guān)鍵詞,諸如"補(bǔ)考"、"考好"、"線代"、"裸考"、"全 過"、"高數(shù)"、"期末",等等。在用戶發(fā)布的內(nèi)容中捜索運(yùn)些詞匯,則可W更準(zhǔn)確、全面地得到 與用戶的"學(xué)生"屬性有關(guān)的詞匯,從而提高獲取用戶的屬性信息的準(zhǔn)確性。
[0033] 作為示例,上述給定語料可W是供用戶發(fā)布內(nèi)容的系統(tǒng)或服務(wù)中多個(gè)用戶發(fā)布的 內(nèi)容,或者是其他任意適合于擴(kuò)充觸發(fā)詞的語料。擴(kuò)充觸發(fā)詞的迭代停止條件可W是已經(jīng) 在給定語料中得到了預(yù)定數(shù)目的觸發(fā)詞,或者是在給定語料中無法再得到與現(xiàn)有觸發(fā)詞相 似的近似詞,等等。作為示例,最初的預(yù)設(shè)觸發(fā)詞的數(shù)目可W是20到30個(gè),而通過擴(kuò)充觸 發(fā)詞得到的關(guān)鍵詞的數(shù)目可W達(dá)到大約2000個(gè)。在一個(gè)優(yōu)選實(shí)施例中,在給定語料中捜 索與觸發(fā)詞相似的近似詞包括:利用權(quán)重為浮點(diǎn)數(shù)的詞向量表示給定語料中的詞匯W及觸 發(fā)詞,并通過計(jì)算相應(yīng)的詞向量之間的距離來計(jì)算給定語料中的詞匯與觸發(fā)詞之間的相似 度。 W34] 在相關(guān)技術(shù)中,上述權(quán)重為浮點(diǎn)數(shù)的詞向量也可W稱為"詞嵌入"("Word embedding"),本文中有時(shí)也將其簡稱為"詞向量"。作為示例,運(yùn)種詞向量的具體示例可W 為[0.782,-0. 174,-0. 127,0. 139,-0.512,…],其維度可 W 為 50 維或 100 維。例如,可 W 通過從大量未標(biāo)注的普通文本數(shù)據(jù)中無監(jiān)督地或半監(jiān)督地學(xué)習(xí)出每個(gè)詞的詞向量。可W理 解,作為訓(xùn)練語料的文本數(shù)據(jù)越豐富,獲得的詞向量的語義特性就越好。
[0035] 在文末參考文獻(xiàn)列表中的參考文獻(xiàn)1-8等現(xiàn)有技術(shù)中,已經(jīng)公開了各種獲得詞向 量的具體方式;通過引用而將運(yùn)些參考文獻(xiàn)的全部內(nèi)容并入本公開中。本優(yōu)選實(shí)施例可 W采用上述參考文獻(xiàn)公開的方式中的任意一種方式或者任意其他適當(dāng)方式來獲得權(quán)重為 浮點(diǎn)數(shù)的詞向量,在此不進(jìn)行詳細(xì)說明。作為示例,也可W直接利用Google提供的工具 word2vec通過對訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練來獲得與每個(gè)詞對應(yīng)的詞向量表示,其中訓(xùn)練數(shù)據(jù)例如 可W是詞典、百科全書、特定媒體在一段時(shí)間內(nèi)的新聞稿等。
[0036] 本優(yōu)選實(shí)施例中采用的權(quán)重為浮點(diǎn)數(shù)的詞向量有利于W簡單的方式計(jì)算詞匯之 間的相似度并捜索近似詞。例如,可W計(jì)算給定語料中的詞匯的詞向量與觸發(fā)詞的詞向量 之間的歐式距離或余弦距離,作為運(yùn)兩個(gè)詞向量之間的距離;該距離即可反映運(yùn)兩個(gè)詞向 量所表示的詞匯之間的語義相似度,進(jìn)而可W用于捜索給定語料中與觸發(fā)詞相似的詞匯。
[0037] 相較之下,若使用現(xiàn)有技術(shù)中的稀疏的向量表示方式(該方式是W〇、l為權(quán)重、長 度為數(shù)千或數(shù)萬的整個(gè)詞表大小的向量表示方式,其中僅有與當(dāng)前詞對應(yīng)的元素為0,其他 元素均為1,例如[0 0 0 0 0 00 10 0 0…0 0 0 0 0 0 0 0 0]),則由于不同詞的稀疏的 向量之間是孤立且無關(guān)的,因而無法通過運(yùn)樣的向量獲得不同的用戶屬性信息之間的相似 度。
[0038] 在一個(gè)優(yōu)選實(shí)施例中,所述用戶簡檔包括標(biāo)簽文本,并且所述第一信息獲取單元 101被配置為利用權(quán)重為浮點(diǎn)數(shù)的詞向量表示所述標(biāo)簽文本,W獲得所述用戶的第一屬性 ?目息。
[0039] 第一信息獲取單元101可W通過任何適當(dāng)?shù)募夹g(shù)獲得標(biāo)簽文本的權(quán)重為浮點(diǎn)數(shù) 的詞向量表示,如上述各參考文獻(xiàn)中公開的方式W及任意其他適當(dāng)方式。作為示例,第一信 息獲取單元101可W利用Google提供的工具word2vec通過對訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練來獲得與 每個(gè)詞對應(yīng)的詞向量表示,該訓(xùn)練數(shù)據(jù)可W是在隨機(jī)抽取的給定時(shí)間(例如,一天)內(nèi),供 用戶發(fā)布內(nèi)容的系統(tǒng)或服務(wù)中全部用戶發(fā)布的所有內(nèi)容。 W40] 如W上已指出的,權(quán)重為浮點(diǎn)數(shù)的詞向量可W具有50維或100維的較小長度。因 此,相較于現(xiàn)有技術(shù)中長度動輒數(shù)千或數(shù)萬的稀疏的向量表示方式,本優(yōu)選實(shí)施例的第一 信息獲取單元101所采取的詞向量表示方式能夠大大降低從標(biāo)簽文本獲得的第一屬性信 息的維度,因而降低后續(xù)存儲和分析該信息的系統(tǒng)負(fù)荷。
[0041] 另一方面,本優(yōu)選實(shí)施例中獲得的標(biāo)簽文本的權(quán)重為浮點(diǎn)數(shù)的詞向量也有利于應(yīng) 用于用戶屬性分析。如W上已指出的,運(yùn)樣的兩個(gè)詞向量之間的距離(例如歐式距離或余 弦距離)可W反映其所表示的兩個(gè)詞之間的語義相似度,因而可W直接通過計(jì)算不同用戶 的標(biāo)簽文本的上述詞向量之間的距離來得到其所表示的不同用戶的用戶屬性信息之間的 相似度,而現(xiàn)有技術(shù)中的稀疏的向量表示方式則無法獲得運(yùn)樣的效果。
[0042] 在一個(gè)優(yōu)選實(shí)施例中,所述用戶簡檔包括多個(gè)標(biāo)簽文本,并且所述第一信息獲取 單元101進(jìn)一步被配置為在獲得所述多個(gè)標(biāo)簽文本的、權(quán)重為浮點(diǎn)數(shù)的詞向量之后,計(jì)算 所獲得的詞向量的平均值,W獲得所述用戶的第一屬性信息。
[0043] 在本優(yōu)選實(shí)施例中,第一信息獲取單元101計(jì)算多個(gè)標(biāo)簽文本的權(quán)重為浮點(diǎn)數(shù)的 詞向量的平均值,因而相較于直接使用運(yùn)些詞向量本身而言,在能夠有效表示標(biāo)簽文本中 包含的用戶屬性的同時(shí),進(jìn)一步降低了后續(xù)存儲和分析該信息的系統(tǒng)負(fù)荷。
[0044] 例如,用戶簡檔中的標(biāo)簽文本可W包括用戶自行添加或系統(tǒng)分配的多個(gè)標(biāo)簽,如 "學(xué)生"、"90后"、"驢友"、"旅游"、"美食"、"音樂"等等。運(yùn)些標(biāo)簽中,一些標(biāo)簽的實(shí)際含義是 相近或重合的,例如,"學(xué)生"和"90后"、"驢友"和"旅游"。通過計(jì)算各個(gè)標(biāo)簽的詞向量的 平均值,可W在保留有效信息的同時(shí)降低第一信息獲取單元101所獲得的信息的冗余度。
[0045] 在一個(gè)優(yōu)選實(shí)施例中,所述第二信息獲取單元102還被配置為利用文檔主題生成 模型獲取表示所述用戶發(fā)布的內(nèi)容中的話題的N維向量,W獲得所述用戶的第二屬性信 息,其中N為自然數(shù)。
[0046] 作為示例,第二信息獲取單元102所利用的文檔主題生成模型可W是表示如何從 語料庫中抽取Μ個(gè)詞來生成一篇包含Μ個(gè)詞、N個(gè)主題(本文中也稱為話題)的文檔的模 型,其中Μ、Ν均為自然數(shù)。運(yùn)樣的模型例如可W通過各種現(xiàn)有技術(shù)方式得到(諸如通過統(tǒng) 計(jì)語料庫的主題-詞(topic-word)貢獻(xiàn)頻率矩陣等方式),在此不進(jìn)行詳細(xì)描述。
[0047] 舉例而言,第二信息獲取單元102可朗尋用戶發(fā)布的所有內(nèi)容(例如,用戶在微博 站點(diǎn)上原創(chuàng)和轉(zhuǎn)發(fā)的所有帖子)、一段時(shí)間內(nèi)發(fā)布的全部內(nèi)容、或一段時(shí)間內(nèi)發(fā)布的部分內(nèi) 容(例如,用戶在一段時(shí)間內(nèi)在微博站點(diǎn)上原創(chuàng)的所有帖子)作為一個(gè)文檔,對該文檔應(yīng)用 文檔主題生成模型,W獲得表示用戶發(fā)布的內(nèi)容中的話題的N維向量。
[0048] 作為示例,第二信息獲取單元102通過文檔主題生成模型獲得的N維向量中的每 個(gè)元素可W是一個(gè)置信度或概率,其表示相應(yīng)話題在用戶發(fā)布的內(nèi)容中出現(xiàn)的可能性,該N 維向量即表示了 N個(gè)話題在用戶發(fā)布的內(nèi)容中出現(xiàn)的可能性。例如,可W通過基于文檔主 題生成模型來計(jì)算用戶發(fā)布的內(nèi)容中的詞匯與N個(gè)主題的相關(guān)度,將文檔轉(zhuǎn)為運(yùn)樣的N維 向量表示,其中N的取值可W通過先驗(yàn)知識來適當(dāng)?shù)刂付ā?br>[0049] 利用本優(yōu)選實(shí)施例的第二信息獲取單元102,能夠從包含數(shù)千甚至數(shù)萬詞匯的用 戶發(fā)布的內(nèi)容中獲取表示其中的話題的N維向量(例如50維或100維向量),從而大大降 低了存儲和分析與用戶發(fā)布的內(nèi)容有關(guān)的系統(tǒng)負(fù)荷和計(jì)算量。
[0050] 在一個(gè)優(yōu)選實(shí)施例中,所述文檔主題生成模型是通過利用給定語料進(jìn)行訓(xùn)練獲得 的隱含狄利克雷分布LDA模型。
[0051] 隱含狄利克雷分布(LDA)模型是一種文檔主題生成模型,也稱為Ξ層貝葉斯概率 模型,包含詞、主題和文檔Ξ層結(jié)構(gòu)。文檔到主題的概率分布服從狄利克雷分布,主題到詞 的概率分布服從多項(xiàng)式分布。LDA是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù),可W用來識別大規(guī)模文檔集 或語料庫中潛藏的主題信息。
[0052] 作為示例,LDA模型的訓(xùn)練可W基于給定語料利用Gi化S Sampling算法來實(shí)現(xiàn)。 可W在參考文獻(xiàn)9等現(xiàn)有技術(shù)中發(fā)現(xiàn)Gi化S Sampling算法的實(shí)現(xiàn)細(xì)節(jié),在此不進(jìn)行進(jìn)一步 描述。
[0053] 本公開實(shí)施例的第二信息獲取單元102可W利用運(yùn)樣得到的LDA模型來推斷用戶 發(fā)布的內(nèi)容中的主題語義分布,換言之,獲取表示用戶發(fā)布的內(nèi)容中的話題的N維向量,其 中該向量的每個(gè)元素表示對應(yīng)話題在用戶發(fā)布的內(nèi)容中出現(xiàn)的概率。
[0054] 本領(lǐng)域技術(shù)人員可W理解,上述LDA模型只是優(yōu)選實(shí)施例的第二信息獲取單元 102所采用的文檔主題生成模型的一種示例,第二信息獲取單元102能夠利用除LDA模型 W外的任意適當(dāng)文檔主題生成模型,例如化SA(概率潛在語義分析,Prob油ilistic Latent Semantic Analysis)模型等,在此不進(jìn)行詳細(xì)描述。 陽化5] 由于通過基于用戶簡檔中的結(jié)構(gòu)化信息W及用戶發(fā)布內(nèi)容中的非結(jié)構(gòu)化信息來 獲取用戶的屬性信息,因此根據(jù)本公開實(shí)施例的用于獲得用戶的屬性信息的獲取裝置能夠 全面、準(zhǔn)確地獲取用戶的屬性信息。此外,由于通過W迭代過程擴(kuò)充觸發(fā)詞得到關(guān)鍵詞、并 在用戶發(fā)布的內(nèi)容中捜索與關(guān)鍵詞相似的近似詞來獲得用戶的屬性信息,因此根據(jù)本公開 實(shí)施例的獲取裝置能夠提高獲取用戶屬性信息的效率和準(zhǔn)確性。
[0056] 根據(jù)本公開的另一方面,還提供了一種用于獲得用戶的屬性信息的獲取方法。
[0057] 圖2是示出了根據(jù)本公開實(shí)施例的用于獲得用戶的屬性信息的獲取方法200的示 例流程的流程圖。如圖9所示,獲取方法200包括:第一信息獲取步驟S201,其基于用戶的 用戶簡檔中的結(jié)構(gòu)化信息獲得所述用戶的第一屬性信息;W及第二信息獲取步驟S203,其 基于所述用戶發(fā)布的內(nèi)容中的非結(jié)構(gòu)化信息獲得所述用戶的第二屬性信息。
[0058] 在上述第二信息獲取步驟S203中,獲得所述用戶的第二屬性信息包括:在所述用 戶發(fā)布的內(nèi)容中捜索與至少一個(gè)關(guān)鍵詞相似的近似詞,W獲得所述用戶的第二屬性信息; 其中,所述關(guān)鍵詞是通過下述迭代過程獲得的:在給定語料中捜索與預(yù)設(shè)觸發(fā)詞相似的近 似詞,作為新的觸發(fā)詞,再在給定語料中捜索與新的觸發(fā)詞相似的近似詞,重復(fù)上述迭代過 程,直到達(dá)到預(yù)設(shè)的迭代停止條件為止,并將所有得到的近似詞連同預(yù)設(shè)觸發(fā)詞一起作為 所述關(guān)鍵詞。
[0059] 第一信息獲取步驟S201例如可W包括W上參照圖1描述的獲取裝置10中的第一 信息獲取單元101中進(jìn)行的各種處理并獲得相應(yīng)的效果,并且第二信息獲取步驟S203例如 可W包括W上參照圖1描述的獲取裝置10中的第二信息獲取單元102中的各種處理并獲 得相應(yīng)的效果,運(yùn)些處理和效果的具體細(xì)節(jié)在此不再寶述。
[0060] 在一個(gè)優(yōu)選實(shí)施例中,在通過迭代獲得關(guān)鍵詞的過程當(dāng)中,在給定語料中捜索與 觸發(fā)詞相似的近似詞包括:利用權(quán)重為浮點(diǎn)數(shù)的詞向量表示給定語料中的詞匯W及觸發(fā) 詞,并通過計(jì)算相應(yīng)的詞向量之間的距離來計(jì)算給定語料中的詞匯與觸發(fā)詞之間的相似 度。
[0061] 在一個(gè)優(yōu)選實(shí)施例中,所述用戶簡檔包括標(biāo)簽文本,并且第一信息獲取步驟S201 中的獲得所述用戶的第一屬性信息包括:利用權(quán)重為浮點(diǎn)數(shù)的詞向量表示所述標(biāo)簽文本, W獲得所述用戶的第一屬性信息。
[0062] 在一個(gè)優(yōu)選實(shí)施例中,所述用戶簡檔包括多個(gè)標(biāo)簽文本,并且第一信息獲取步驟 S201中的獲得所述用戶的第一屬性信息進(jìn)一步包括:在獲得所述多個(gè)標(biāo)簽文本的、權(quán)重為 浮點(diǎn)數(shù)的詞向量之后,計(jì)算所獲得的詞向量的平均值,W獲得所述用戶的第一屬性信息。
[0063] 在一個(gè)優(yōu)選實(shí)施例中,第二信息獲取步驟S203中的獲得所述用戶的第二屬性信 息還包括:利用文檔主題生成模型獲取表示所述用戶發(fā)布的內(nèi)容中的話題的N維向量,W 獲得所述用戶的第二屬性信息,其中N為自然數(shù)。
[0064] 在一個(gè)優(yōu)選實(shí)施例中,所述文檔主題生成模型是通過利用給定語料進(jìn)行訓(xùn)練獲得 的隱含狄利克雷分布LDA模型。 陽0化]上述各個(gè)優(yōu)選實(shí)施例可W包括W上參照圖1描述的獲取裝置10中的第一信息獲 取單元101和第二信息獲取單元102中進(jìn)行的各種優(yōu)選處理并獲得相應(yīng)的效果,運(yùn)些處理 和效果的具體細(xì)節(jié)在此不再寶述。
[0066] 由于通過基于用戶簡檔中的結(jié)構(gòu)化信息W及用戶發(fā)布內(nèi)容中的非結(jié)構(gòu)化信息來 獲取用戶的屬性信息,因此根據(jù)本公開實(shí)施例的用于獲得用戶的屬性信息的獲取方法能夠 全面、準(zhǔn)確地獲取用戶的屬性信息。而且,由于通過W迭代過程擴(kuò)充觸發(fā)詞得到關(guān)鍵詞、并 在用戶發(fā)布的內(nèi)容中捜索與關(guān)鍵詞相似的近似詞來獲得用戶的屬性信息,因此根據(jù)本公開 實(shí)施例的獲取方法能夠提高獲取用戶屬性信息的效率和準(zhǔn)確性。
[0067] 根據(jù)本公開實(shí)施例的用于獲得用戶的屬性信息的獲取裝置和獲取方法可W具有 廣泛的應(yīng)用。例如,該獲取裝置和獲取方法可W用于獲取期望的用戶屬性信息W進(jìn)行用 戶屬性信息的補(bǔ)齊、基于不同用戶的用戶屬性信息進(jìn)行用戶相關(guān)度判斷和/或關(guān)聯(lián)用戶推 薦、基于用戶屬性信息進(jìn)行用戶屬性模型的訓(xùn)練、基于該訓(xùn)練得到的模型進(jìn)行用戶屬性檢 測,等等。
[0068] 根據(jù)本公開的又一個(gè)方面,提供一種對用戶屬性模型進(jìn)行訓(xùn)練的訓(xùn)練裝置。
[0069] 圖3是示意性地示出根據(jù)本公開實(shí)施例的對用戶屬性模型進(jìn)行訓(xùn)練的訓(xùn)練裝置 30的示例結(jié)構(gòu)的框圖。如圖3所示,訓(xùn)練裝置30包括:第一信息獲取單元301,其基于用 戶樣本的用戶簡檔中的結(jié)構(gòu)化信息獲得所述用戶樣本的第一屬性信息;第二信息獲取單元 302,其基于所述用戶樣本的發(fā)布內(nèi)容中的非結(jié)構(gòu)化信息獲得所述用戶樣本的第二屬性信 息;W及模型訓(xùn)練單元303,其利用所獲得的第一屬性信息和第二屬性信息,對用戶屬性模 型進(jìn)行訓(xùn)練。
[0070] 訓(xùn)練裝置30的第二信息獲取單元302被配置為在所述用戶樣本的發(fā)布內(nèi)容中捜 索與至少一個(gè)訓(xùn)練關(guān)鍵詞相似的訓(xùn)練近似詞,W獲得所述用戶樣本的第二屬性信息,其中, 所述訓(xùn)練關(guān)鍵詞是通過下述迭代過程獲得的:在給定訓(xùn)練語料中捜索與預(yù)設(shè)訓(xùn)練觸發(fā)詞相 似的訓(xùn)練近似詞,作為新的訓(xùn)練觸發(fā)詞,再在給定訓(xùn)練語料中捜索與新的訓(xùn)練觸發(fā)詞相似 的訓(xùn)練近似詞,重復(fù)上述迭代過程,直到達(dá)到預(yù)設(shè)的訓(xùn)練迭代停止條件為止,并將所有得到 的訓(xùn)練近似詞連同預(yù)設(shè)訓(xùn)練觸發(fā)詞一起作為所述訓(xùn)練關(guān)鍵詞。
[0071] 訓(xùn)練裝置30中的第一信息獲取單元301和/或第二信息獲取單元302例如可W 包括W上參照圖1描述的獲取裝置10中的第一信息獲取單元101和/或第二信息獲取單 元102中進(jìn)行的各種處理W及相應(yīng)的效果,運(yùn)些處理和效果的具體細(xì)節(jié)在此不再寶述。當(dāng) 然,本領(lǐng)域技術(shù)人員可W理解,本實(shí)施例與參照圖1描述的獲取裝置10存在下述區(qū)別:在本 實(shí)施例中處理所針對的是樣本數(shù)據(jù)或訓(xùn)練數(shù)據(jù),而在參照圖1描述的獲取裝置10中處理所 針對的是要從中獲得用戶屬性信息的用戶數(shù)據(jù)。
[0072] 利用所獲得的第一屬性信息和第二屬性信息,模型訓(xùn)練單元303可W對用戶屬性 模型進(jìn)行訓(xùn)練。作為示例,該用戶屬性模型例如可W是多個(gè)基于支持向量機(jī)的二分類的分 類器,例如分別輸出關(guān)于用戶是否為學(xué)生、是否為女性、是否愛好美食等判斷結(jié)果。替選地, 用戶屬性模型可w是任意適當(dāng)?shù)哪P?,例如基于決策樹的模型,等等。具體訓(xùn)練處理過程可 W參考各種現(xiàn)有訓(xùn)練處理機(jī)制,細(xì)節(jié)不再寶述。
[0073] 由于通過基于用戶樣本的用戶簡檔中的結(jié)構(gòu)化信息W及用戶樣本的發(fā)布內(nèi)容中 的非結(jié)構(gòu)化信息來獲取用戶樣本的屬性信息,因此根據(jù)本公開實(shí)施例的訓(xùn)練裝置能夠全 面、準(zhǔn)確地獲取用戶樣本的屬性信息;而且,由于通過W迭代過程擴(kuò)充觸發(fā)詞得到關(guān)鍵詞、 并在用戶樣本的發(fā)布內(nèi)容中捜索與關(guān)鍵詞相似的近似詞來獲得用戶樣本的屬性信息,因此 根據(jù)本公開實(shí)施例的訓(xùn)練裝置能夠提高獲取用戶樣本的屬性信息的效率和準(zhǔn)確性,從而改 進(jìn)訓(xùn)練用戶屬性模型的效率和準(zhǔn)確性。
[0074] 根據(jù)本公開的再一個(gè)方面,還提供一種通過根據(jù)本公開實(shí)施例的訓(xùn)練裝置訓(xùn)練得 到的用戶屬性模型來對用戶的屬性進(jìn)行檢測的檢測裝置。
[00巧]圖4是示意性地示出根據(jù)本公開實(shí)施例的、通過根據(jù)本公開實(shí)施例的訓(xùn)練裝置訓(xùn) 練得到的用戶屬性模型來對用戶的屬性進(jìn)行檢測的檢測裝置40的示例結(jié)構(gòu)的框圖。如圖 4所示,檢測裝置40包括:第一信息獲取單元401,其基于用戶的用戶簡檔中的結(jié)構(gòu)化信息 獲得所述用戶的第一屬性信息;第二信息獲取單元402,其基于所述用戶發(fā)布的內(nèi)容中的 非結(jié)構(gòu)化信息獲得所述用戶的第二屬性信息;W及屬性檢測單元403,其利用所獲得的所 述用戶的第一屬性信息和第二屬性信息,基于事先已訓(xùn)練好的用戶屬性模型,檢測所述用 戶的屬性。運(yùn)里,檢測裝置40的第一信息獲取單元401和第二信息獲取單元402所獲得的 所述用戶的第一屬性信息和第二屬性信息與在訓(xùn)練所述用戶屬性模型時(shí)訓(xùn)練裝置30的第 一信息獲取單元301和第二信息獲取單元302獲得的用戶樣本的第一屬性信息和第二屬性 ?胃息是對應(yīng)的。
[0076] 檢測裝置40的第二信息獲取單元402被配置為在所述用戶發(fā)布的內(nèi)容中捜索與 至少一個(gè)檢測關(guān)鍵詞相似的檢測近似詞,W獲得所述用戶的第二屬性信息,其中,所述檢測 關(guān)鍵詞是通過下述迭代過程獲得的:在給定檢測語料中捜索與預(yù)設(shè)檢測觸發(fā)詞相似的檢測 近似詞,作為新的檢測觸發(fā)詞,再在給定檢測語料中捜索與新的檢測觸發(fā)詞相似的檢測近 似詞,重復(fù)上述迭代過程,直到達(dá)到預(yù)設(shè)的檢測迭代停止條件為止,并將所有得到的檢測近 似詞連同預(yù)設(shè)檢測觸發(fā)詞一起作為所述檢測關(guān)鍵詞。
[0077] 檢測裝置40中的第一信息獲取單元401和/或第二信息獲取單元402例如可W 包括W上參照圖1描述的獲取裝置10中的第一信息獲取單元101和/或第二信息獲取單 元102中進(jìn)行的各種處理W及相應(yīng)的效果,運(yùn)些處理和效果的具體細(xì)節(jié)在此不再寶述。
[007引檢測裝置40中的屬性檢測單元403所利用的用戶屬性模型例如可W對應(yīng)于W上 參照圖3描述的訓(xùn)練裝置30中的模型訓(xùn)練單元303所得到的模型,并且包括該模型所設(shè)及 的各種處理W及相應(yīng)的效果,運(yùn)些處理和效果的具體細(xì)節(jié)在此不再寶述。
[0079] 在一個(gè)優(yōu)選實(shí)施例中,在給定檢測語料中捜索與檢測觸發(fā)詞相似的近似詞包括: 利用權(quán)重為浮點(diǎn)數(shù)的詞向量表示給定檢測語料中的詞匯W及檢測觸發(fā)詞,并通過計(jì)算相應(yīng) 的詞向量之間的距離來計(jì)算給定檢測語料中的詞匯與檢測觸發(fā)詞之間的相似度。
[0080] 在一個(gè)優(yōu)選實(shí)施例中,所述用戶的用戶簡檔包括標(biāo)簽文本,并且檢測裝置40的第 一信息獲取單元401被配置為利用權(quán)重為浮點(diǎn)數(shù)的詞向量表示所述標(biāo)簽文本,W獲得所述 用戶的第一屬性信息。
[0081] 在一個(gè)優(yōu)選實(shí)施例中,所述用戶的用戶簡檔包括多個(gè)標(biāo)簽文本,并且檢測裝置40 的第一信息獲取單元401進(jìn)一步被配置為在獲得所述多個(gè)標(biāo)簽文本的、權(quán)重為浮點(diǎn)數(shù)的詞 向量之后,計(jì)算所獲得的詞向量的平均值,W獲得所述用戶的第一屬性信息。
[0082] 在一個(gè)優(yōu)選實(shí)施例中,檢測裝置40的第二信息獲取單元402還被配置為利用文檔 主題生成模型獲取表示所述用戶發(fā)布的內(nèi)容中的話題的N維向量,W獲得所述用戶的第二 屬性信息,其中N為自然數(shù)。
[0083] 在一個(gè)優(yōu)選實(shí)施例中,所述文檔主題生成模型是通過利用給定語料進(jìn)行訓(xùn)練獲得 的隱含狄利克雷分布LDA模型。
[0084] 上述各個(gè)優(yōu)選實(shí)施例可W包括W上參照圖1描述的獲取裝置10中的第一信息獲 取單元101和第二信息獲取單元102中進(jìn)行的各種優(yōu)選處理并獲得相應(yīng)的效果,運(yùn)些處理 和效果的具體細(xì)節(jié)在此不再寶述。
[00化]由于通過基于用戶簡檔中的結(jié)構(gòu)化信息W及用戶發(fā)布內(nèi)容中的非結(jié)構(gòu)化信息來 獲取用戶的屬性信息,因此根據(jù)本公開實(shí)施例的檢測裝置能夠全面、準(zhǔn)確地獲取用戶的屬 性信息;而且,由于通過W迭代過程擴(kuò)充觸發(fā)詞得到關(guān)鍵詞、并在用戶發(fā)布的內(nèi)容中捜索與 關(guān)鍵詞相似的近似詞來獲得用戶的屬性信息,因此根據(jù)本公開實(shí)施例的檢測裝置能夠提高 獲取用戶屬性信息的效率和準(zhǔn)確性,從而改進(jìn)用戶屬性檢測的效率和準(zhǔn)確性。
[0086] 上述根據(jù)本公開實(shí)施例的用于獲得用戶的屬性信息的獲取裝置(例如圖1中所示 的獲取裝置10)、對用戶屬性模型進(jìn)行訓(xùn)練的訓(xùn)練裝置(例如圖3中所示的訓(xùn)練裝置30)、 W及通過根據(jù)本公開實(shí)施例的訓(xùn)練裝置訓(xùn)練得到的用戶屬性模型來對用戶的屬性進(jìn)行檢 測的檢測裝置(例如圖4中所示的檢測裝置40) W及其中的各個(gè)組成單元等可W通過軟 件、固件、硬件或其任意組合的方式進(jìn)行配置。在通過軟件或固件實(shí)現(xiàn)的情況下,可從存儲 介質(zhì)或網(wǎng)絡(luò)向具有專用硬件結(jié)構(gòu)的機(jī)器安裝構(gòu)成該軟件或固件的程序,該機(jī)器在安裝有各 種程序時(shí),能夠執(zhí)行上述各組成單元、子單元的各種功能。
[0087] 圖5是示出了可用來實(shí)現(xiàn)根據(jù)本公開的實(shí)施例的用于獲得用戶的屬性信息的獲 取裝置和獲取方法的一種可能的硬件配置即,機(jī)器500的結(jié)構(gòu)簡圖。
[0088] 在圖5中,中央處理單元(CPU) 501根據(jù)只讀存儲器(ROM) 502中存儲的程序或從 存儲部分508加載到隨機(jī)存取存儲器(RAM) 503的程序,使得機(jī)器500執(zhí)行各種處理(例如, 結(jié)合圖1至圖4所描述的各種處理)。在RAM503中,還根據(jù)需要存儲當(dāng)CPU 501執(zhí)行各種 處理等等時(shí)所需的數(shù)據(jù)。CP呪01、ROM 502和RAM 503經(jīng)由總線504彼此連接。輸入/輸 出接口 505也連接到總線504。
[0089] 下述部件也連接到輸入/輸出接口 505 :輸入部分506 (包括鍵盤、鼠標(biāo)等等)、輸 出部分507 (包括顯示器,例如陰極射線管(CRT)、液晶顯示器化CD)等,和揚(yáng)聲器等)、存儲 部分508 (包括硬盤等)、通信部分509 (包括網(wǎng)絡(luò)接口卡例如LAN卡、調(diào)制解調(diào)器等)。通 信部分509經(jīng)由網(wǎng)絡(luò)例如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動器510也可連接到輸入/ 輸出接口 505??刹鹦督橘|(zhì)511例如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等可W根據(jù)需要被 安裝在驅(qū)動器510上,使得從中讀出的計(jì)算機(jī)程序可根據(jù)需要被安裝到存儲部分508中。
[0090] 在通過軟件實(shí)現(xiàn)上述系列處理的情況下,可W從網(wǎng)絡(luò)例如因特網(wǎng)或從存儲介質(zhì)例 如可拆卸介質(zhì)511安裝構(gòu)成軟件的程序。
[0091] 本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,運(yùn)種存儲介質(zhì)不局限于圖5所示的其中存儲有程 序、與設(shè)備相分離地分發(fā)W向用戶提供程序的可拆卸介質(zhì)511。可拆卸介質(zhì)511的例子包 含磁盤(包含軟盤)、光盤(包含光盤只讀存儲器(CD-ROM)和數(shù)字通用盤值VD))、磁光盤 (包含迷你盤(MD)(注冊商標(biāo)))和半導(dǎo)體存儲器?;蛘?,存儲介質(zhì)可W是ROM 502、存儲部 分508中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被分發(fā)給用戶。
[0092] 此外,本公開還提出了一種存儲有機(jī)器可讀取的指令代碼的程序產(chǎn)品。上述指令 代碼由機(jī)器讀取并執(zhí)行時(shí),可執(zhí)行上述根據(jù)本公開的實(shí)施例的用于獲得用戶的屬性信息的 獲取方法。相應(yīng)地,用于承載運(yùn)種程序產(chǎn)品的例如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等的各 種存儲介質(zhì)也包括在本公開的公開中。
[0093] 在上面對本公開具體實(shí)施例的描述中,針對一種實(shí)施方式描述和/或示出的特征 可相同或類似的方式在一個(gè)或更多個(gè)其它實(shí)施方式中使用,與其它實(shí)施方式中的特征 相組合,或替代其它實(shí)施方式中的特征。
[0094] 此外,本公開的各實(shí)施例的方法不限于按照說明書中描述的或者附圖中示出的時(shí) 間順序來執(zhí)行,也可W按照其他的時(shí)間順序、并行地或獨(dú)立地執(zhí)行。因此,本說明書中描述 的方法的執(zhí)行順序不對本公開的技術(shù)范圍構(gòu)成限制。
[0095] 此外,顯然,根據(jù)本公開的上述方法的各個(gè)操作過程也可存儲在各種機(jī)器可 讀的存儲介質(zhì)中的計(jì)算機(jī)可執(zhí)行程序的方式實(shí)現(xiàn)。
[0096] 而且,本公開的目的也可W通過下述方式實(shí)現(xiàn):將存儲有上述可執(zhí)行程序代碼的 存儲介質(zhì)直接或者間接地提供給系統(tǒng)或設(shè)備,并且該系統(tǒng)或設(shè)備中的計(jì)算機(jī)或者中央處理 單元(CPU)讀出并執(zhí)行上述程序代碼。
[0097] 此時(shí),只要該系統(tǒng)或者設(shè)備具有執(zhí)行程序的功能,則本公開的實(shí)施方式不局限于 程序,并且該程序也可W是任意的形式,例如,目標(biāo)程序、解釋器執(zhí)行的程序或者提供給操 作系統(tǒng)的腳本程序等。
[0098] 上述運(yùn)些機(jī)器可讀存儲介質(zhì)包括但不限于:各種存儲器和存儲單元,半導(dǎo)體設(shè)備, 磁盤單元例如光、磁和磁光盤,W及其它適于存儲信息的介質(zhì)等。
[0099] 另外,客戶信息處理終端通過連接到因特網(wǎng)上的相應(yīng)網(wǎng)站,并且將依據(jù)本公開的 計(jì)算機(jī)程序代碼下載和安裝到信息處理終端中然后執(zhí)行該程序,也可W實(shí)現(xiàn)本公開的各實(shí) 施例。
[0100] 綜上,在根據(jù)本公開的實(shí)施例中,本公開提供了如下方案,但不限于此: 陽101] 方案1、一種用于獲得用戶的屬性信息的獲取裝置,所述獲取裝置包括: 陽102] 第一信息獲取單元,其基于用戶的用戶簡檔中的結(jié)構(gòu)化信息獲得所述用戶的第一 屬性信息;W及 陽103] 第二信息獲取單元,其基于所述用戶發(fā)布的內(nèi)容中的非結(jié)構(gòu)化信息獲得所述用戶 的第二屬性信息,
[0104] 其中,所述第二信息獲取單元被配置為在所述用戶發(fā)布的內(nèi)容中捜索與至少一個(gè) 關(guān)鍵詞相似的近似詞,W獲得所述用戶的第二屬性信息,
[01化]其中,所述關(guān)鍵詞是通過下述迭代過程獲得的:在給定語料中捜索與預(yù)設(shè)觸發(fā)詞 相似的近似詞,作為新的觸發(fā)詞,再在給定語料中捜索與新的觸發(fā)詞相似的近似詞,重復(fù)上 述迭代過程,直到達(dá)到預(yù)設(shè)的迭代停止條件為止,并將所有得到的近似詞連同預(yù)設(shè)觸發(fā)詞 一起作為所述關(guān)鍵詞。 陽106] 方案2、如方案1所述的獲取裝置,其中, 陽107] 在給定語料中捜索與觸發(fā)詞相似的近似詞包括:利用權(quán)重為浮點(diǎn)數(shù)的詞向量表示 給定語料中的詞匯W及觸發(fā)詞,并通過計(jì)算相應(yīng)的詞向量之間的距離來計(jì)算給定語料中的 詞匯與觸發(fā)詞之間的相似度。
[0108] 方案3、如方案1所述的獲取裝置,其中,
[0109] 所述用戶簡檔包括標(biāo)簽文本,并且所述第一信息獲取單元被配置為利用權(quán)重為浮 點(diǎn)數(shù)的詞向量表示所述標(biāo)簽文本,W獲得所述用戶的第一屬性信息。
[0110] 方案4、如方案3所述的獲取裝置,其中, 陽111] 所述用戶簡檔包括多個(gè)標(biāo)簽文本,并且所述第一信息獲取單元進(jìn)一步被配置為在 獲得所述多個(gè)標(biāo)簽文本的、權(quán)重為浮點(diǎn)數(shù)的詞向量之后,計(jì)算所獲得的詞向量的平均值,W 獲得所述用戶的第一屬性信息。
[0112] 方案5、如方案1所述的獲取裝置,其中,
[0113] 所述第二信息獲取單元還被配置為利用文檔主題生成模型獲取表示所述用戶發(fā) 布的內(nèi)容中的話題的N維向量,W獲得所述用戶的第二屬性信息,其中N為自然數(shù)。
[0114] 方案6、如方案5所述的獲取裝置,其中,
[0115] 所述文檔主題生成模型是通過利用給定語料進(jìn)行訓(xùn)練獲得的隱含狄利克雷分布 LDA模型。
[0116] 方案7、一種對用戶屬性模型進(jìn)行訓(xùn)練的訓(xùn)練裝置,包括:
[0117] 第一信息獲取單元,其基于用戶樣本的用戶簡檔中的結(jié)構(gòu)化信息獲得所述用戶樣 本的第一屬性信息;
[0118] 第二信息獲取單元,其基于所述用戶樣本的發(fā)布內(nèi)容中的非結(jié)構(gòu)化信息獲得所述 用戶樣本的第二屬性信息,
[0119] 其中,所述第二信息獲取單元被配置為在所述用戶樣本的發(fā)布內(nèi)容中捜索與至少 一個(gè)訓(xùn)練關(guān)鍵詞相似的訓(xùn)練近似詞,W獲得所述用戶樣本的第二屬性信息,
[0120] 其中,所述訓(xùn)練關(guān)鍵詞是通過下述迭代過程獲得的:在給定訓(xùn)練語料中捜索與預(yù) 設(shè)訓(xùn)練觸發(fā)詞相似的訓(xùn)練近似詞,作為新的訓(xùn)練觸發(fā)詞,再在給定訓(xùn)練語料中捜索與新的 訓(xùn)練觸發(fā)詞相似的訓(xùn)練近似詞,重復(fù)上述迭代過程,直到達(dá)到預(yù)設(shè)的訓(xùn)練迭代停止條件為 止,并將所有得到的訓(xùn)練近似詞連同預(yù)設(shè)訓(xùn)練觸發(fā)詞一起作為所述訓(xùn)練關(guān)鍵詞;W及 陽121] 模型訓(xùn)練單元,其利用所獲得的第一屬性信息和第二屬性信息,對用戶屬性模型 進(jìn)行訓(xùn)練。
[0122] 方案8、一種通過如方案7所述的訓(xùn)練裝置訓(xùn)練得到的用戶屬性模型來對用戶的 屬性進(jìn)行檢測的檢測裝置,包括: 陽123] 第一信息獲取單元,其基于用戶的用戶簡檔中的結(jié)構(gòu)化信息獲得所述用戶的第一 屬性信息;
[0124] 第二信息獲取單元,其基于所述用戶發(fā)布的內(nèi)容中的非結(jié)構(gòu)化信息獲得所述用戶 的第二屬性信息,
[0125] 其中,該第二信息獲取單元被配置為在所述用戶發(fā)布的內(nèi)容中捜索與至少一個(gè)檢 巧咲鍵詞相似的檢測近似詞,W獲得所述用戶的第二屬性信息,
[01%] 其中,所述檢測關(guān)鍵詞是通過下述迭代過程獲得的:在給定檢測語料中捜索與預(yù) 設(shè)檢測觸發(fā)詞相似的檢測近似詞,作為新的檢測觸發(fā)詞,再在給定檢測語料中捜索與新的 檢測觸發(fā)詞相似的檢測近似詞,重復(fù)上述迭代過程,直到達(dá)到預(yù)設(shè)的檢測迭代停止條件為 止,并將所有得到的檢測近似詞連同預(yù)設(shè)檢測觸發(fā)詞一起作為所述檢測關(guān)鍵詞;W及 [0127] 屬性檢測單元,其利用所獲得的所述用戶的第一屬性信息和第二屬性信息,基于 所述用戶屬性模型,檢測所述用戶的屬性,
[012引其中,所獲得的所述用戶的第一屬性信息和第二屬性信息與在訓(xùn)練所述用戶屬性 模型時(shí)獲得的用戶樣本的第一屬性信息和第二屬性信息是對應(yīng)的。
[0129] 方案9、如方案8所述的檢測裝置,其中,
[0130] 在給定檢測語料中捜索與檢測觸發(fā)詞相似的近似詞包括:利用權(quán)重為浮點(diǎn)數(shù)的詞 向量表示給定檢測語料中的詞匯W及檢測觸發(fā)詞,并通過計(jì)算相應(yīng)的詞向量之間的距離來 計(jì)算給定檢測語料中的詞匯與檢測觸發(fā)詞之間的相似度。 陽131] 方案10、如方案8所述的檢測裝置,其中,
[0132] 所述用戶的用戶簡檔包括標(biāo)簽文本,并且所述檢測裝置的第一信息獲取單元被配 置為利用權(quán)重為浮點(diǎn)數(shù)的詞向量表示所述標(biāo)簽文本,W獲得所述用戶的第一屬性信息。 陽133] 方案11、如方案10所述的檢測裝置,其中,
[0134] 所述用戶的用戶簡檔包括多個(gè)標(biāo)簽文本,并且所述檢測裝置的第一信息獲取單元 進(jìn)一步被配置為在獲得所述多個(gè)標(biāo)簽文本的、權(quán)重為浮點(diǎn)數(shù)的詞向量之后,計(jì)算所獲得的 詞向量的平均值,W獲得所述用戶的第一屬性信息。
[0135] 方案12、如方案8所述的檢測裝置,其中,
[0136] 所述檢測裝置的第二信息獲取單元還被配置為利用文檔主題生成模型獲取表示 所述用戶發(fā)布的內(nèi)容中的話題的N維向量,W獲得所述用戶的第二屬性信息,其中N為自然 數(shù)。 陽137] 方案13、如方案12所述的檢測裝置,其中,
[0138] 所述文檔主題生成模型是通過利用給定語料進(jìn)行訓(xùn)練獲得的隱含狄利克雷分布 LDA模型。
[0139] 方案14、一種用于獲得用戶的屬性信息的獲取方法,所述獲取方法包括:
[0140] 基于用戶的用戶簡檔中的結(jié)構(gòu)化信息獲得所述用戶的第一屬性信息;W及 陽141] 基于所述用戶發(fā)布的內(nèi)容中的非結(jié)構(gòu)化信息獲得所述用戶的第二屬性信息, 陽142] 其中,獲得所述用戶的第二屬性信息包括:
[0143] 在所述用戶發(fā)布的內(nèi)容中捜索與至少一個(gè)關(guān)鍵詞相似的近似詞,W獲得所述用戶 的第二屬性信息,
[0144] 其中,所述關(guān)鍵詞是通過下述迭代過程獲得的:在給定語料中捜索與預(yù)設(shè)觸發(fā)詞 相似的近似詞,作為新的觸發(fā)詞,再在給定語料中捜索與新的觸發(fā)詞相似的近似詞,重復(fù)上 述迭代過程,直到達(dá)到預(yù)設(shè)的迭代停止條件為止,并將所有得到的近似詞連同預(yù)設(shè)觸發(fā)詞 一起作為所述關(guān)鍵詞。
[0145] 方案15、如方案14所述的獲取方法,其中, 陽146] 在給定語料中捜索與觸發(fā)詞相似的近似詞包括:利用權(quán)重為浮點(diǎn)數(shù)的詞向量表示 給定語料中的詞匯W及觸發(fā)詞,并通過計(jì)算相應(yīng)的詞向量之間的距離來計(jì)算給定語料中的 詞匯與觸發(fā)詞之間的相似度。 陽147] 方案16、如方案14所述的獲取方法,其中,
[0148] 所述用戶簡檔包括標(biāo)簽文本,并且獲得所述用戶的第一屬性信息包括:利用權(quán)重 為浮點(diǎn)數(shù)的詞向量表示所述標(biāo)簽文本,W獲得所述用戶的第一屬性信息。
[0149] 方案17、如方案16所述的獲取方法,其中,
[0150] 所述用戶簡檔包括多個(gè)標(biāo)簽文本,并且獲得所述用戶的第一屬性信息進(jìn)一步包 括:在獲得所述多個(gè)標(biāo)簽文本的、權(quán)重為浮點(diǎn)數(shù)的詞向量之后,計(jì)算所獲得的詞向量的平均 值,W獲得所述用戶的第一屬性信息。 陽151] 方案18、如方案14所述的獲取方法,其中, 陽152] 獲得所述用戶的第二屬性信息還包括:利用文檔主題生成模型獲取表示所述用戶 發(fā)布的內(nèi)容中的話題的N維向量,W獲得所述用戶的第二屬性信息,其中N為自然數(shù)。 陽153] 方案19、如方案18所述的獲取方法,其中,
[0154] 所述文檔主題生成模型是通過利用給定語料進(jìn)行訓(xùn)練獲得的隱含狄利克雷分布 LDA模型。
[0K5] 最后,還需要說明的是,在本公開中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來 將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示運(yùn)些實(shí)體或操 作之間存在任何運(yùn)種實(shí)際的關(guān)系或者順序。而且,術(shù)語"包括"、"包含"或者其任何其他變 體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包 括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為運(yùn)種過程、方法、物品 或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句"包括一個(gè)……"限定的要素, 并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
[0156] 盡管上面已經(jīng)通過本公開的具體實(shí)施例的描述對本公開進(jìn)行了披露,但是,應(yīng)該 理解,本領(lǐng)域技術(shù)人員可在所附權(quán)利要求的精神和范圍內(nèi)設(shè)計(jì)對本公開的各種修改、改進(jìn) 或者等同物。運(yùn)些修改、改進(jìn)或者等同物也應(yīng)當(dāng)被認(rèn)為包括在本公開所要求保護(hù)的范圍內(nèi)。 陽157] 參考文獻(xiàn)列表
[0158] 1、Yoshua Bengio, Rejean Ducharme, Pascal Vincent, and Christian Jauvin. A neural probabilistic language model. Journal of Machine Learning Research(JM LR), 3:1137 - 1155, 2003.
[0159] 2、Ronan Collobert, Jason Weston, Leon Bottou, Michael Karlen, Koray Kavukcuoglu and Pavel Kuksa. Natural Language Processing(Almost)from Scratch. Journal of Machine Learning Research(JMLR), 12:2493-2537, 2011.
[0160] 3、Andriy Mnih&Geoffrey Hinton. Three new graphical models for statistical language modelling. International Conference on Machine Learning(ICML). 2007.
[0161] 4、Andriy Mnih&Geoffrey Hinton. A scalable hierarchical distributed language model. The Conference on Neural Information Processing Systems(NIPS) (pp. 1081 - 1088). 2008. 陽 16引 5、Mikolov Toma家.Statistical Language Models based on Neural Networks. PhD thesis,Brno University of Technology. 2012.
[0163] 6、Turian Joseph, Lev Ratinov, and Yoshua Bengio. Word representations: a simple and general method for semi-supervised learning. Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL). 2010. [0164] 7、Eric Huang,民ichard Socher, Christopher Manning and Andrew Ng. Improving word representations via global context and multiple word prototypes. Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics:Long Papers-Volume 1.2012.
[016己] 8、Mikolov, Tomas, Wen-tau Yih, and Geoffrey Zweig. Linguistic regularities in continuous space word representations. Proceedings of NAACL-HLT. 2013.
[016糾 9、Wang Yi. Distributed Gibbs Sampling of Latent Topic Models:The Gritty Details Technical report,2005.
【主權(quán)項(xiàng)】
1. 一種用于獲得用戶的屬性信息的獲取裝置,所述獲取裝置包括: 第一信息獲取單元,其基于用戶的用戶簡檔中的結(jié)構(gòu)化信息獲得所述用戶的第一屬性 信息;以及 第二信息獲取單元,其基于所述用戶發(fā)布的內(nèi)容中的非結(jié)構(gòu)化信息獲得所述用戶的第 二屬性信息, 其中,所述第二信息獲取單元被配置為在所述用戶發(fā)布的內(nèi)容中搜索與至少一個(gè)關(guān)鍵 詞相似的近似詞,以獲得所述用戶的第二屬性信息, 其中,所述關(guān)鍵詞是通過下述迭代過程獲得的:在給定語料中搜索與預(yù)設(shè)觸發(fā)詞相似 的近似詞,作為新的觸發(fā)詞,再在給定語料中搜索與新的觸發(fā)詞相似的近似詞,重復(fù)上述迭 代過程,直到達(dá)到預(yù)設(shè)的迭代停止條件為止,并將所有得到的近似詞連同預(yù)設(shè)觸發(fā)詞一起 作為所述關(guān)鍵詞。2. 如權(quán)利要求1所述的獲取裝置,其中, 在給定語料中搜索與觸發(fā)詞相似的近似詞包括:利用權(quán)重為浮點(diǎn)數(shù)的詞向量表示給定 語料中的詞匯以及觸發(fā)詞,并通過計(jì)算相應(yīng)的詞向量之間的距離來計(jì)算給定語料中的詞匯 與觸發(fā)詞之間的相似度。3. 如權(quán)利要求1所述的獲取裝置,其中, 所述用戶簡檔包括標(biāo)簽文本,并且所述第一信息獲取單元被配置為利用權(quán)重為浮點(diǎn)數(shù) 的詞向量表示所述標(biāo)簽文本,以獲得所述用戶的第一屬性信息。4. 如權(quán)利要求3所述的獲取裝置,其中, 所述用戶簡檔包括多個(gè)標(biāo)簽文本,并且所述第一信息獲取單元進(jìn)一步被配置為在獲得 所述多個(gè)標(biāo)簽文本的、權(quán)重為浮點(diǎn)數(shù)的詞向量之后,計(jì)算所獲得的詞向量的平均值,以獲得 所述用戶的第一屬性信息。5. 如權(quán)利要求1所述的獲取裝置,其中, 所述第二信息獲取單元還被配置為利用文檔主題生成模型獲取表示所述用戶發(fā)布的 內(nèi)容中的話題的N維向量,以獲得所述用戶的第二屬性信息,其中N為自然數(shù)。6. 如權(quán)利要求5所述的獲取裝置,其中, 所述文檔主題生成模型是通過利用給定語料進(jìn)行訓(xùn)練獲得的隱含狄利克雷分布LDA 模型。7. -種對用戶屬性模型進(jìn)行訓(xùn)練的訓(xùn)練裝置,包括: 第一信息獲取單元,其基于用戶樣本的用戶簡檔中的結(jié)構(gòu)化信息獲得所述用戶樣本的 第一屬性信息; 第二信息獲取單元,其基于所述用戶樣本的發(fā)布內(nèi)容中的非結(jié)構(gòu)化信息獲得所述用戶 樣本的第二屬性信息, 其中,所述第二信息獲取單元被配置為在所述用戶樣本的發(fā)布內(nèi)容中搜索與至少一個(gè) 訓(xùn)練關(guān)鍵詞相似的訓(xùn)練近似詞,以獲得所述用戶樣本的第二屬性信息, 其中,所述訓(xùn)練關(guān)鍵詞是通過下述迭代過程獲得的:在給定訓(xùn)練語料中搜索與預(yù)設(shè)訓(xùn) 練觸發(fā)詞相似的訓(xùn)練近似詞,作為新的訓(xùn)練觸發(fā)詞,再在給定訓(xùn)練語料中搜索與新的訓(xùn)練 觸發(fā)詞相似的訓(xùn)練近似詞,重復(fù)上述迭代過程,直到達(dá)到預(yù)設(shè)的訓(xùn)練迭代停止條件為止,并 將所有得到的訓(xùn)練近似詞連同預(yù)設(shè)訓(xùn)練觸發(fā)詞一起作為所述訓(xùn)練關(guān)鍵詞;以及 模型訓(xùn)練單元,其利用所獲得的第一屬性信息和第二屬性信息,對用戶屬性模型進(jìn)行 訓(xùn)練。8. -種通過如權(quán)利要求7所述的訓(xùn)練裝置訓(xùn)練得到的用戶屬性模型來對用戶的屬性 進(jìn)行檢測的檢測裝置,包括: 第一信息獲取單元,其基于用戶的用戶簡檔中的結(jié)構(gòu)化信息獲得所述用戶的第一屬性 信息; 第二信息獲取單元,其基于所述用戶發(fā)布的內(nèi)容中的非結(jié)構(gòu)化信息獲得所述用戶的第 二屬性信息, 其中,該第二信息獲取單元被配置為在所述用戶發(fā)布的內(nèi)容中搜索與至少一個(gè)檢測關(guān) 鍵詞相似的檢測近似詞,以獲得所述用戶的第二屬性信息, 其中,所述檢測關(guān)鍵詞是通過下述迭代過程獲得的:在給定檢測語料中搜索與預(yù)設(shè)檢 測觸發(fā)詞相似的檢測近似詞,作為新的檢測觸發(fā)詞,再在給定檢測語料中搜索與新的檢測 觸發(fā)詞相似的檢測近似詞,重復(fù)上述迭代過程,直到達(dá)到預(yù)設(shè)的檢測迭代停止條件為止,并 將所有得到的檢測近似詞連同預(yù)設(shè)檢測觸發(fā)詞一起作為所述檢測關(guān)鍵詞;以及 屬性檢測單元,其利用所獲得的所述用戶的第一屬性信息和第二屬性信息,基于所述 用戶屬性模型,檢測所述用戶的屬性, 其中,所獲得的所述用戶的第一屬性信息和第二屬性信息與在訓(xùn)練所述用戶屬性模型 時(shí)獲得的用戶樣本的第一屬性信息和第二屬性信息是對應(yīng)的。9. 如權(quán)利要求8所述的檢測裝置,其中, 在給定檢測語料中搜索與檢測觸發(fā)詞相似的近似詞包括:利用權(quán)重為浮點(diǎn)數(shù)的詞向量 表示給定檢測語料中的詞匯以及檢測觸發(fā)詞,并通過計(jì)算相應(yīng)的詞向量之間的距離來計(jì)算 給定檢測語料中的詞匯與檢測觸發(fā)詞之間的相似度。10. 如權(quán)利要求8所述的檢測裝置,其中, 所述用戶的用戶簡檔包括標(biāo)簽文本,并且所述檢測裝置的第一信息獲取單元被配置為 利用權(quán)重為浮點(diǎn)數(shù)的詞向量表示所述標(biāo)簽文本,以獲得所述用戶的第一屬性信息。
【文檔編號】G06F17/30GK105989047SQ201510060916
【公開日】2016年10月5日
【申請日】2015年2月5日
【發(fā)明人】張姝, 孟遙
【申請人】富士通株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
格尔木市| 灵石县| 江永县| 文山县| 渝北区| 扎鲁特旗| 福安市| 息烽县| 峡江县| 枝江市| 延边| 沐川县| 大同县| 蒲江县| 黑水县| 宁陵县| 德兴市| 广平县| 岳普湖县| 云龙县| 郎溪县| 曲靖市| 花莲市| 正宁县| 新泰市| 武定县| 繁峙县| 朝阳市| 丰县| 正蓝旗| 壶关县| 增城市| 威信县| 北碚区| 昭平县| 博湖县| 新绛县| 施甸县| 宜宾县| 清新县| 开封市|