畫像系統(tǒng)的標(biāo)簽詞庫更新方法
【專利摘要】本發(fā)明涉及畫像系統(tǒng)的標(biāo)簽詞庫更新方法,其包括:獲取用戶的畫像數(shù)據(jù),所述畫像數(shù)據(jù)包括用于描述所述用戶的標(biāo)簽和所述用戶發(fā)表的原始文本;當(dāng)標(biāo)簽的數(shù)量與原始文本的數(shù)量的比值小于預(yù)設(shè)的第一閾值時,對所述用戶發(fā)表的所有原始文本進(jìn)行分詞處理,以得到多個標(biāo)簽候選詞,并將標(biāo)簽候選詞發(fā)送至推薦系統(tǒng);推薦系統(tǒng)計算每一個標(biāo)簽候選詞與預(yù)設(shè)的詞向量模型文件中每一個詞的向量距離,將存在向量距離大于預(yù)設(shè)的第二閾值的標(biāo)簽候選詞加入到標(biāo)簽詞庫中,將不存在向量距離大于第二閾值的標(biāo)簽候選詞刪除。本發(fā)明能夠及時對標(biāo)簽詞庫進(jìn)行更新,以更好地對用戶進(jìn)行描述。
【專利說明】畫像系統(tǒng)的標(biāo)簽詞庫更新方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機(jī)信息處理技術(shù),具體涉及畫像系統(tǒng)的標(biāo)簽詞庫更新方法。
【背景技術(shù)】
[0002]隨著數(shù)據(jù)采集、存儲技術(shù)的不斷發(fā)展,大量的用戶個人數(shù)據(jù)、社交數(shù)據(jù)、活動數(shù)據(jù)被記錄下來,在精準(zhǔn)營銷、個性化推薦等領(lǐng)域均有著廣泛應(yīng)用。
[0003]目前的畫像系統(tǒng)多是根據(jù)某個企業(yè)用戶的需求進(jìn)行定制設(shè)計開發(fā),數(shù)據(jù)來源單一。對于畫像服務(wù)而言,標(biāo)簽體系是刻畫用戶特性的基礎(chǔ)之一,要求有足夠的覆蓋面及細(xì)粒度,然而傳統(tǒng)的標(biāo)簽體系通常有以下幾個問題:1)固定的標(biāo)簽集合很難滿足業(yè)務(wù)的彈性需求;2)上層標(biāo)簽太通用,無法描述特定的細(xì)分人群。另外,簡單的關(guān)鍵詞模型對通用類別詞的效果不佳,并且缺少高質(zhì)量多層多分類的模型訓(xùn)練數(shù)據(jù)。
[0004]目前與本發(fā)明技術(shù)相關(guān)的技術(shù)有用戶標(biāo)簽分析、標(biāo)簽推薦系統(tǒng)、文本分類、索引服務(wù)、海量數(shù)據(jù)處理架構(gòu)等方面。
[0005](I)用戶行為分析
[0006]用戶行為分析的概念是對有關(guān)數(shù)據(jù)進(jìn)行統(tǒng)計、分析,從中發(fā)現(xiàn)用戶行為規(guī)律并將這些規(guī)律與網(wǎng)絡(luò)營銷策略相結(jié)合,從而發(fā)現(xiàn)目前網(wǎng)絡(luò)營銷活動中可能存在的問題,并為進(jìn)一步修正或重新制定網(wǎng)絡(luò)營銷策略提供有效依據(jù)。
[0007]用戶行為分析的意義在于通過對用戶行為監(jiān)測獲得的數(shù)據(jù)進(jìn)行分析,可以讓企業(yè)更加詳細(xì)、清楚地了解用戶的行為習(xí)慣,從而找出網(wǎng)站、推廣渠道等企業(yè)營銷環(huán)境存在的問題,有助于企業(yè)發(fā)掘高轉(zhuǎn)化率頁面,讓企業(yè)的營銷更加精準(zhǔn)、有效,提高業(yè)務(wù)轉(zhuǎn)化率,從而提升企業(yè)的收益。
[0008]國外對網(wǎng)絡(luò)用戶行為的研究起步很早,從1994年開始就有機(jī)構(gòu)對用戶的使用行為進(jìn)行初步的統(tǒng)計分析,探討各類網(wǎng)絡(luò)用戶行為的表現(xiàn)、策略以及影響因素。Tillontson等人對多倫多大學(xué)的學(xué)生及教學(xué)人員使用網(wǎng)絡(luò)的情況進(jìn)行了調(diào)查和分析,包括確定因特網(wǎng)的用戶有哪些、他們性別和學(xué)歷上存在哪些差異、上網(wǎng)地點(diǎn)、用因特網(wǎng)查詢什么、對查找結(jié)構(gòu)是否滿意、對大學(xué)提供的上網(wǎng)設(shè)施是否滿意、對系統(tǒng)改進(jìn)的建議等。而國內(nèi)研究基礎(chǔ)相對比較薄弱,目前國內(nèi)對用戶行為的研究主要體現(xiàn)對我國網(wǎng)民的網(wǎng)絡(luò)行為的統(tǒng)計、分析和比較,這其中包括對網(wǎng)民性另U、年齡、上網(wǎng)地點(diǎn)、上網(wǎng)方式、上網(wǎng)時間段以及網(wǎng)民文化程度,所從事的職業(yè)等不同角度進(jìn)行分析。
[0009]現(xiàn)今的用戶行為分析系統(tǒng)大多只是在某一單一數(shù)據(jù)源上進(jìn)行分析,無法準(zhǔn)確分析出用戶在整體社會中的行為特點(diǎn)。而我們的系統(tǒng)支持多數(shù)據(jù)源的用戶行為分析,并且對多數(shù)據(jù)源的分析結(jié)果進(jìn)行整合,準(zhǔn)確概括出用戶的行為特征屬性。
[0010]⑵推薦系統(tǒng)
[0011]個性化推薦是根據(jù)用戶的興趣特點(diǎn)和購買行為,向用戶推薦用戶感興趣的信息和商品。隨著電子商務(wù)規(guī)模的不斷擴(kuò)大,商品個數(shù)和種類快速增長,顧客需要花費(fèi)大量的時間才能找到自己想買的商品。這種瀏覽大量無關(guān)的信息和產(chǎn)品過程無疑會使淹沒在信息過載問題中的消費(fèi)者不斷流失。為了解決這些問題,個性化推薦系統(tǒng)應(yīng)運(yùn)而生。個性化推薦系統(tǒng)是建立在海量數(shù)據(jù)挖掘基礎(chǔ)上的一種高級商務(wù)智能平臺,以幫助電子商務(wù)網(wǎng)站為其顧客購物提供完全個性化的決策支持和信息服務(wù)。
[0012]互聯(lián)網(wǎng)的出現(xiàn)和普及給用戶帶來了大量的信息,滿足了用戶在信息時代對信息的需求,但隨著網(wǎng)絡(luò)的迅速發(fā)展而帶來的網(wǎng)上信息量的大幅增長,使得用戶在面對大量信息時無法從中獲得對自己真正有用的那部分信息,對信息的使用效率反而降低了,這就是所謂的信息超載(informat1noverload)問題。
[0013]解決信息超載問題一個非常有潛力的辦法是推薦系統(tǒng),它是根據(jù)用戶的信息需求、興趣等,將用戶感興趣的信息、產(chǎn)品等推薦給用戶的個性化信息推薦系統(tǒng)。和搜索引擎相比推薦系統(tǒng)通過研究用戶的興趣偏好,進(jìn)行個性化計算,由系統(tǒng)發(fā)現(xiàn)用戶的興趣點(diǎn),從而引導(dǎo)用戶發(fā)現(xiàn)自己的信息需求。一個好的推薦系統(tǒng)不僅能為用戶提供個性化的服務(wù),還能和用戶之間建立密切關(guān)系,讓用戶對推薦產(chǎn)生依賴。
[0014]推薦系統(tǒng)現(xiàn)已廣泛應(yīng)用于很多領(lǐng)域,其中最典型并具有良好的發(fā)展和應(yīng)用前景的領(lǐng)域就是電子商務(wù)領(lǐng)域。同時學(xué)術(shù)界對推薦系統(tǒng)的研究熱度一直很高,逐步形成了一門獨(dú)立的學(xué)科。
[0015]推薦系統(tǒng)利用電子商務(wù)網(wǎng)站向客戶提供商品信息和建議,幫助用戶決定應(yīng)該購買什么產(chǎn)品,模擬銷售人員幫助客戶完成購買過程。
[0016]推薦系統(tǒng)有3個重要的模塊:用戶建模模塊、推薦對象建模模塊、推薦算法模塊。推薦系統(tǒng)把用戶模型中興趣需求信息和推薦對象模型中的特征信息匹配,同時使用相應(yīng)的推薦算法進(jìn)行計算篩選,找到用戶可能感興趣的推薦對象,然后推薦給用戶。
[0017]推薦系統(tǒng)主要推薦方法:
[0018]基于內(nèi)容推薦
[0019]基于內(nèi)容的推薦(Content-based Recommendat1n)是信息過濾技術(shù)的延續(xù)與發(fā)展,它是建立在項目的內(nèi)容信息上作出推薦的,而不需要依據(jù)用戶對項目的評價意見,更多地需要用機(jī)器學(xué)習(xí)的方法從關(guān)于內(nèi)容的特征描述的事例中得到用戶的興趣資料。在基于內(nèi)容的推薦系統(tǒng)中,項目或?qū)ο笫峭ㄟ^相關(guān)的特征的屬性來定義,系統(tǒng)基于用戶評價對象的特征,學(xué)習(xí)用戶的興趣,考察用戶資料與待預(yù)測項目的相匹配程度。用戶的資料模型取決于所用學(xué)習(xí)方法,常用的有決策樹、神經(jīng)網(wǎng)絡(luò)和基于向量的表示方法等?;趦?nèi)容的用戶資料是需要有用戶的歷史數(shù)據(jù),用戶資料模型可能隨著用戶的偏好改變而發(fā)生變化。
[0020]基于內(nèi)容推薦方法的優(yōu)點(diǎn)是:
[0021]I)不需要其它用戶的數(shù)據(jù),沒有冷開始問題和稀疏問題。
[0022]2)能為具有特殊興趣愛好的用戶進(jìn)行推薦。
[0023]3)能推薦新的或不是很流行的項目,沒有新項目問題。
[0024]4)通過列出推薦項目的內(nèi)容特征,可以解釋為什么推薦那些項目。
[0025]5)已有比較好的技術(shù),如關(guān)于分類學(xué)習(xí)方面的技術(shù)已相當(dāng)成熟。
[0026]缺點(diǎn)是要求內(nèi)容能容易抽取成有意義的特征,要求特征內(nèi)容有良好的結(jié)構(gòu)性,并且用戶的口味必須能夠用內(nèi)容特征形式來表達(dá),不能顯式地得到其它用戶的判斷情況。
[0027]協(xié)同過濾推薦
[0028]協(xié)同過濾推薦(CollaborativeFiltering Recommendat1n)技術(shù)是推薦系統(tǒng)中應(yīng)用最早和最為成功的技術(shù)之一。它一般采用最近鄰技術(shù),利用用戶的歷史喜好信息計算用戶之間的距離,然后利用目標(biāo)用戶的最近鄰居用戶對商品評價的加權(quán)評價值來預(yù)測目標(biāo)用戶對特定商品的喜好程度,系統(tǒng)從而根據(jù)這一喜好程度來對目標(biāo)用戶進(jìn)行推薦。協(xié)同過濾最大優(yōu)點(diǎn)是對推薦對象沒有特殊的要求,能處理非結(jié)構(gòu)化的復(fù)雜對象,如音樂、電影。
[0029]協(xié)同過濾是基于這樣的假設(shè):為一用戶找到他真正感興趣的內(nèi)容的好方法是首先找到與此用戶有相似興趣的其他用戶,然后將他們感興趣的內(nèi)容推薦給此用戶。其基本思想非常易于理解,在日常生活中,我們往往會利用好朋友的推薦來進(jìn)行一些選擇。協(xié)同過濾正是把這一思想運(yùn)用到電子商務(wù)推薦系統(tǒng)中來,基于其他用戶對某一內(nèi)容的評價來向目標(biāo)用戶進(jìn)行推薦。
[0030]基于協(xié)同過濾的推薦系統(tǒng)可以說是從用戶的角度來進(jìn)行相應(yīng)推薦的,而且是自動的即用戶獲得的推薦是系統(tǒng)從購買模式或瀏覽行為等隱式獲得的,不需要用戶努力地找到適合自己興趣的推薦信息,如填寫一些調(diào)查表格等。
[0031]和基于內(nèi)容的過濾方法相比,協(xié)同過濾具有如下的優(yōu)點(diǎn):
[0032]I)能夠過濾難以進(jìn)行機(jī)器自動內(nèi)容分析的信息,如藝術(shù)品,音樂等。
[0033]2)共享其他人的經(jīng)驗,避免了內(nèi)容分析的不完全和不精確,并且能夠基于一些復(fù)雜的,難以表述的概念(如信息質(zhì)量、個人品味)進(jìn)行過濾。
[0034]3)有推薦新信息的能力??梢园l(fā)現(xiàn)內(nèi)容上完全不相似的信息,用戶對推薦信息的內(nèi)容事先是預(yù)料不到的。這也是協(xié)同過濾和基于內(nèi)容的過濾一個較大的差別,基于內(nèi)容的過濾推薦很多都是用戶本來就熟悉的內(nèi)容,而協(xié)同過濾可以發(fā)現(xiàn)用戶潛在的但自己尚未發(fā)現(xiàn)的興趣偏好。
[0035]4)能夠有效的使用其他相似用戶的反饋信息,較少用戶的反饋量,加快個性化學(xué)習(xí)的速度。
[0036]雖然協(xié)同過濾作為一種典型的推薦技術(shù)有其相當(dāng)?shù)膽?yīng)用,但協(xié)同過濾仍有許多的問題需要解決。最典型的問題有稀疏問題(Sparsity)和可擴(kuò)展問題(Scalability)。
[0037]基于關(guān)聯(lián)規(guī)則推薦
[0038]基于關(guān)聯(lián)規(guī)則的推薦(Associat1n Rule-based Recommendat1n)是以關(guān)聯(lián)規(guī)則為基礎(chǔ),把已購商品作為規(guī)則頭,規(guī)則體為推薦對象。關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)不同商品在銷售過程中的相關(guān)性,在零售業(yè)中已經(jīng)得到了成功的應(yīng)用。管理規(guī)則就是在一個交易數(shù)據(jù)庫中統(tǒng)計購買了商品集X的交易中有多大比例的交易同時購買了商品集Y,其直觀的意義就是用戶在購買某些商品的時候有多大傾向去購買另外一些商品。比如購買牛奶的同時很多人會同時購買面包。
[0039]算法的第一步關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)最為關(guān)鍵且最耗時,是算法的瓶頸,但可以離線進(jìn)行。其次,商品名稱的同義性問題也是關(guān)聯(lián)規(guī)則的一個難點(diǎn)。
[0040]基于效用推薦
[0041]基于效用的推薦(Utility-based Recommendat1n)是建立在對用戶使用項目的效用情況上計算的,其核心問題是怎么樣為每一個用戶去創(chuàng)建一個效用函數(shù),因此,用戶資料模型很大程度上是由系統(tǒng)所采用的效用函數(shù)決定的?;谛в猛扑]的好處是它能把非產(chǎn)品的屬性,如提供商的可靠性(Vendor Reliability)和產(chǎn)品的可得性(ProductAvailability)等考慮到效用計算中。
[0042]基于知識推薦
[0043]基于知識的推薦(Knowledge-based Recommendat1n)在某種程度是可以看成是一種推理(Inference)技術(shù),它不是建立在用戶需要和偏好基礎(chǔ)上推薦的?;谥R的方法因它們所用的功能知識不同而有明顯區(qū)別。效用知識(Funct1nal Knowledge)是一種關(guān)于一個項目如何滿足某一特定用戶的知識,因此能解釋需要和推薦的關(guān)系,所以用戶資料可以是任何能支持推理的知識結(jié)構(gòu),它可以是用戶已經(jīng)規(guī)范化的查詢,也可以是一個更詳細(xì)的用戶需要的表示。
[0044]組合推薦
[0045]由于各種推薦方法都有優(yōu)缺點(diǎn),所以在實(shí)際中,組合推薦(HybridRecommendat1n)經(jīng)常被采用。研究和應(yīng)用最多的是內(nèi)容推薦和協(xié)同過濾推薦的組合。最簡單的做法就是分別用基于內(nèi)容的方法和協(xié)同過濾推薦方法去產(chǎn)生一個推薦預(yù)測結(jié)果,然后用某方法組合其結(jié)果。盡管從理論上有很多種推薦組合方法,但在某一具體問題中并不見得都有效,組合推薦一個最重要原則就是通過組合后要能避免或彌補(bǔ)各自推薦技術(shù)的弱點(diǎn)。
[0046]在組合方式上,有研究人員提出了七種組合思路:
[0047]I)加權(quán)(Weight):加權(quán)多種推薦技術(shù)結(jié)果。
[0048]2)變換(Switch):根據(jù)問題背景和實(shí)際情況或要求決定變換采用不同的推薦技術(shù)。
[0049]3)混合(Mixed):同時采用多種推薦技術(shù)給出多種推薦結(jié)果為用戶提供參考。
[0050]4)特征組合(Feature combinat1n):組合來自不同推薦數(shù)據(jù)源的特征被另一種推薦算法采用。
[0051]5)層疊(Cascade):先用一種推薦技術(shù)產(chǎn)生一種粗糙的推薦結(jié)果,第二種推薦技術(shù)在此推薦結(jié)果的基礎(chǔ)上進(jìn)一步作出更精確的推薦。
[0052]6)特征擴(kuò)充(Feature augmentat1n):一種技術(shù)產(chǎn)生附加的特征信息嵌入到另一種推薦技術(shù)的特征輸入中。
[0053]7)兀級別(Meta-1evel):用一種推薦方法產(chǎn)生的模型作為另一種推薦方法的輸入。
[0054](3)文本分類
[0055]文本分類的過程一般包括了文本的表達(dá)、分類器的選擇與訓(xùn)練、分類結(jié)果的評價與反饋等過程,其中文本的表達(dá)又可細(xì)分為文本預(yù)處理、索引和統(tǒng)計、特征抽取等步驟。文本分類系統(tǒng)的總體功能模塊為:
[0056]I)預(yù)處理:將原始語料格式化為同一格式,便于后續(xù)的統(tǒng)一處理;
[0057]2)索引:將文檔分解為基本處理單元,同時降低后續(xù)處理的開銷;
[0058]3)統(tǒng)計:詞頻統(tǒng)計,項(單詞、概念)與分類的相關(guān)概率;
[0059]4)特征抽取:從文檔中抽取出反映文檔主題的特征;
[0060]5)分類器:分類器的訓(xùn)練;
[0061]6)評價:分類器的測試結(jié)果分析。
[0062](4)索引服務(wù)
[0063]索引服務(wù)是從一組文檔中提取信息,并組織該信息,以便能夠通過WindowsServer 2003的“搜索”功能、索引服務(wù)查詢表或Web瀏覽器快速地進(jìn)行訪問。該信息可以包含文檔中的文字(內(nèi)容)和文檔的特征及參數(shù)(屬性),例如作者姓名。一旦創(chuàng)建了索引,就可以查詢包含關(guān)鍵字或者屬性的文檔的索引。例如,可以查詢所以包含單詞“management”的文檔,也可以查詢特定作者寫的所有Microsoft Office文檔。索引服務(wù)將返回符合搜索條件的所有文檔的列表。
[0064](5)海量數(shù)據(jù)處理架構(gòu)
[0065]Hadoop框架是Apache基金會用java語言實(shí)現(xiàn)的開源分布式計算框架,其可在大型集群的硬件設(shè)備上有效運(yùn)行,并且它還實(shí)現(xiàn)了對大型集群設(shè)備的控制和管理;同時,Hadoop也能為各種采用分布式架構(gòu)的應(yīng)用程序提供穩(wěn)定可靠的接口,接口實(shí)現(xiàn)了海量數(shù)據(jù)的運(yùn)算和管理。編程人員可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式的應(yīng)用程序,并且開發(fā)的分布式應(yīng)用程序也可以充分利用大型集群高速的運(yùn)算能力和龐大的存儲能力。
[0066]Hadoop最核心的內(nèi)容是分布式文件系統(tǒng)(Hadoop Distributed File System,簡稱為HDFS)和Map/Reduce計算模型。分布式文件系統(tǒng)(HDFS)有高容錯性的特點(diǎn),并且它能提供高吞吐量的數(shù)據(jù)訪問功能,非常適合大規(guī)模信息的運(yùn)算處理;Map/RedUCe計算模型是Hadoop分布式的核心計算模型,該模型能將復(fù)雜的分布式運(yùn)算過程高度抽象為Map和Reduce兩個任務(wù),從而使分布式應(yīng)用的開發(fā)編程變得簡單并且有效。
[0067]目前的畫像系統(tǒng)沒有對其標(biāo)簽詞庫設(shè)置更新機(jī)制,導(dǎo)致隨著時間的推移,無法更為準(zhǔn)確的對用戶進(jìn)行標(biāo)簽描述。
【發(fā)明內(nèi)容】
[0068]本發(fā)明的目的在于提出一種畫像系統(tǒng)的標(biāo)簽詞庫更新方法,其能解決標(biāo)簽詞庫沒有更新提醒的問題。
[0069]為了達(dá)到上述目的,本發(fā)明所采用的技術(shù)方案如下:
[0070]畫像系統(tǒng)的標(biāo)簽詞庫更新方法,其包括以下步驟:
[0071 ] 步驟1、獲取用戶的畫像數(shù)據(jù),所述畫像數(shù)據(jù)包括用于描述所述用戶的標(biāo)簽和所述用戶發(fā)表的原始文本;
[0072]步驟2、當(dāng)標(biāo)簽的數(shù)量與原始文本的數(shù)量的比值小于預(yù)設(shè)的第一閾值時,對所述用戶發(fā)表的所有原始文本進(jìn)行分詞處理,以得到多個標(biāo)簽候選詞,并將標(biāo)簽候選詞發(fā)送至推薦系統(tǒng);
[0073]步驟3、推薦系統(tǒng)計算每一個標(biāo)簽候選詞與預(yù)設(shè)的詞向量模型文件中每一個詞的向量距離,將存在向量距離大于預(yù)設(shè)的第二閾值的標(biāo)簽候選詞加入到標(biāo)簽詞庫中,將不存在向量距離大于第二閾值的標(biāo)簽候選詞刪除。
[0074]優(yōu)選的,步驟3之后還有以下步驟:
[0075]步驟4、將與標(biāo)簽候選詞的向量距離大于第二閾值的詞與標(biāo)簽詞庫中的標(biāo)簽詞進(jìn)行比對處理,若有超過第三閾值數(shù)量的詞不在標(biāo)簽詞庫中時,執(zhí)行步驟5,否則執(zhí)行步驟I ;
[0076]步驟5、計算標(biāo)簽詞庫中的每一個標(biāo)簽詞與詞向量轉(zhuǎn)換模塊的詞庫中每一個實(shí)體詞的向量距離,將向量距離大于預(yù)設(shè)的第四閾值的實(shí)體詞加入到標(biāo)簽詞庫中。進(jìn)一步優(yōu)選的,所述詞向量轉(zhuǎn)換模塊為谷歌公司的Word2vec工具。
[0077]優(yōu)選的,所述詞向量模型文件的訓(xùn)練過程如下:
[0078]選取一個自然語言的語料庫;
[0079]對語料庫中的語料進(jìn)行分詞處理,以得到多個語料詞;
[0080]通過詞向量轉(zhuǎn)換模塊計算每一個語料詞的向量,并將語料詞及其對應(yīng)的向量保存至所述詞向量模型文件中。
[0081]本發(fā)明具有如下有益效果:
[0082]能夠及時對標(biāo)簽詞庫進(jìn)行更新,以更好地對用戶進(jìn)行描述。
【專利附圖】
【附圖說明】
[0083]圖1為本發(fā)明較佳實(shí)施例的畫像系統(tǒng)的標(biāo)簽詞庫更新方法的流程圖。
【具體實(shí)施方式】
[0084]下面,結(jié)合附圖以及【具體實(shí)施方式】,對本發(fā)明做進(jìn)一步描述。
[0085]標(biāo)簽詞庫,給用戶打標(biāo)簽用的詞庫,其組成可以是:從微博上爬取的用戶標(biāo)簽,由服務(wù)提供商提供的感興趣的標(biāo)簽,在大量文本中通過ansj分詞技術(shù)和tf.1df分離出來的聞頻關(guān)鍵詞。
[0086]開始時,標(biāo)簽詞庫并不大,因此并不能夠覆蓋到足夠多的標(biāo)簽。再加上隨時間的推移,可用于標(biāo)簽的熱詞或新詞也在不斷發(fā)生變化。因此,每隔一段時間就需要對標(biāo)簽詞庫進(jìn)行更新。
[0087]基于上述背景,本實(shí)施例提供了一種畫像系統(tǒng)的標(biāo)簽詞庫更新方法,其包括以下步驟:
[0088]步驟S1、獲取用戶的畫像數(shù)據(jù),所述畫像數(shù)據(jù)包括用于描述所述用戶的標(biāo)簽和所述用戶發(fā)表的原始文本。例如,所述原始文本可以是微博原文、論壇原文等。
[0089]步驟S2、當(dāng)標(biāo)簽的數(shù)量與原始文本的數(shù)量的比值小于預(yù)設(shè)的第一閾值時,對所述用戶發(fā)表的所有原始文本進(jìn)行分詞處理,以得到多個標(biāo)簽候選詞,并將標(biāo)簽候選詞發(fā)送至推薦系統(tǒng)。
[0090]具體過程如下:
[0091]對于每個用戶,獲取其標(biāo)簽數(shù)量#tag和該用戶的原始文本條數(shù)#userdata,計算他們的比值#tag/#userdata,如果該比值小于第一閾值,則將該用戶所有的原始文本取出,并入到集合
^data 中。
[0092]對Sdata集合中的每條原始文本進(jìn)行分詞,得到一組詞W= (W1, W2,…};
[0093]然后計算所有詞w在Sdata中出現(xiàn)的頻次,為了減少計算量,這一步的值可以直接通過已經(jīng)計算出來的詞到頻次的映射表獲得。詞頻作為衡量一個詞在文本中重要程度的標(biāo)準(zhǔn),當(dāng)文本數(shù)量大到一定量時,詞頻的排序基本不變,所以可以用已計算獲得的詞頻來評估新文本中各個詞在文本中的重要程度。
[0094]對所有詞按詞頻排序,同時將一些沒有標(biāo)簽意義的詞過濾掉,如“我們”、“你們”、“于是”、“或者”這樣的一類詞和停用詞。過濾后剩下的詞,成為標(biāo)簽候選詞。
[0095]步驟S3、推薦系統(tǒng)計算每一個標(biāo)簽候選詞與預(yù)設(shè)的詞向量模型文件中每一個詞的向量距離,將存在向量距離大于預(yù)設(shè)的第二閾值的標(biāo)簽候選詞加入到標(biāo)簽詞庫中(其說明該標(biāo)簽候選詞能夠得到推薦系統(tǒng)的返回推薦結(jié)果),將不存在向量距離大于第二閾值的標(biāo)簽候選詞刪除(其說明該標(biāo)簽候選詞無法得到推薦系統(tǒng)的識別)。這一步主要用于保證metalabel詞庫中的詞一定會出現(xiàn)在推薦系統(tǒng)中,從而能夠獲得推薦。
[0096]推薦系統(tǒng)需要用到詞向量模型文件,其內(nèi)容為詞匯與其相應(yīng)轉(zhuǎn)化后的向量之間的映射關(guān)系。
[0097]根據(jù)時間維度或集中出現(xiàn)重大突發(fā)事件等情況,適時重新訓(xùn)練詞向量模型文件。例如,某一時間段內(nèi)連續(xù)發(fā)生重大事件,可以選擇在這段時間內(nèi)重新收集包含這些重大事件關(guān)鍵詞的語料來訓(xùn)練;或者半年(3個月)內(nèi)都沒有更新過語料庫,可以選擇重新收集最近時間段內(nèi)的語料來進(jìn)行模型文件訓(xùn)練。
[0098]以下是詞向量模型文件訓(xùn)練過程:
[0099]步驟S21、選取一個自然語言的語料庫。語料庫的選擇多種多樣。最簡單的,可以到一些公司的分享中下載回來,國外的如Yahoo !、Google等,國內(nèi)的如搜狗等公司都會分享一些語料庫。其次,可以使用爬取微博內(nèi)容作為語料庫。更為一般的,是通過爬蟲爬取各種網(wǎng)站的文本內(nèi)容,集合成一個語料庫。
[0100]步驟S22、對語料庫中的語料進(jìn)行分詞處理,以得到多個語料詞。分詞算法有不少,常用的有ik分詞和ansj分詞,這兩種分詞都有非常好的理論支撐,有很多論文。還有一種跟簡單的分詞方法叫最大后向匹配(backward max match)。本實(shí)施例使用的就是這種方法。
[0101]最大后向匹配算法,需要一個詞典,用于匹配文本并分詞,稱詞典為diet。分詞過程用以下例子來說明?,F(xiàn)在要對“我愛北京天安門”這句話進(jìn)行分詞。
[0102]首先,算法把“我愛北京天安門”當(dāng)做一個詞,到詞典diet中匹配,發(fā)現(xiàn)沒有這個詞,于是算法把詞的長度往后減I;
[0103]這個時候,算法將“愛北京天安門”當(dāng)作一個詞,到diet中匹配,發(fā)現(xiàn)沒有這個詞,又將詞的長度往后減I;
[0104]依此類推,一直到詞“天安門”,算法發(fā)現(xiàn)它在diet中,于是得到了 “天安門”這個
ο
[0105]接著,算法對剩下的部分“我愛北京”使用同樣的方式進(jìn)行分詞。如此重復(fù),會得至IJ “北京” “愛” “我”這些詞。
[0106]步驟S23、通過詞向量轉(zhuǎn)換模塊計算每一個語料詞的向量,并將語料詞及其對應(yīng)的向量保存至所述詞向量模型文件中。語料詞的向量為谷歌公司的word2vec工具。
[0107]步驟S4、將與標(biāo)簽候選詞的向量距離大于第二閾值的詞與標(biāo)簽詞庫中的標(biāo)簽詞進(jìn)行比對處理,若有超過第三閾值數(shù)量的詞不在標(biāo)簽詞庫中時,例如,有超過80%數(shù)量的詞都不在標(biāo)簽詞庫中,就需要執(zhí)行步驟S5,否則執(zhí)行步驟SI。
[0108]步驟S5、計算標(biāo)簽詞庫中的每一個標(biāo)簽詞與詞向量轉(zhuǎn)換模塊的詞庫中每一個實(shí)體詞的向量距離,將向量距離大于預(yù)設(shè)的第四閾值的實(shí)體詞加入到標(biāo)簽詞庫中。
[0109]比對過程為:對標(biāo)簽詞庫中{1?,!?,...}的每個詞m,使用word2vec獲得m的近似詞(即對應(yīng)的實(shí)體詞,該實(shí)體詞位于word2vec的詞庫中)和對應(yīng)的近似度(即對應(yīng)的向量距離)。舍棄近似度低于第四閾值的近似詞,保留高于第四閾值的近似詞。
[0110]在word2vec的詞庫中每個實(shí)體詞被表示為一個向量。標(biāo)簽詞庫中的詞%對應(yīng)的詞向量為Vi,計算Hii與word2vec的詞庫中其他所有詞w所對應(yīng)向量的cos距離得到相似度。假定Hii對應(yīng)的向量Vi =〈a, b, c>, word2vec的詞庫中某個詞Wj對應(yīng)的向量為Uj =<d, e, f>,則Hii和Wj之間的相似度為:
[0111](e X cf -^.e X f — C X f)/(\ α.— I?.c* x v Q1* — #* - /*}。
[0112]通過本實(shí)施例的方法,可以實(shí)時保持標(biāo)簽詞庫隨時間推移而更新。
[0113]對于本領(lǐng)域的技術(shù)人員來說,可根據(jù)以上描述的技術(shù)方案以及構(gòu)思,做出其它各種相應(yīng)的改變以及變形,而所有的這些改變以及變形都應(yīng)該屬于本發(fā)明權(quán)利要求的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.畫像系統(tǒng)的標(biāo)簽詞庫更新方法,其特征在于,包括以下步驟: 步驟1、獲取用戶的畫像數(shù)據(jù),所述畫像數(shù)據(jù)包括用于描述所述用戶的標(biāo)簽和所述用戶發(fā)表的原始文本; 步驟2、當(dāng)標(biāo)簽的數(shù)量與原始文本的數(shù)量的比值小于預(yù)設(shè)的第一閾值時,對所述用戶發(fā)表的所有原始文本進(jìn)行分詞處理,以得到多個標(biāo)簽候選詞,并將標(biāo)簽候選詞發(fā)送至推薦系統(tǒng); 步驟3、推薦系統(tǒng)計算每一個標(biāo)簽候選詞與預(yù)設(shè)的詞向量模型文件中每一個詞的向量距離,將存在向量距離大于預(yù)設(shè)的第二閾值的標(biāo)簽候選詞加入到標(biāo)簽詞庫中,將不存在向量距離大于第二閾值的標(biāo)簽候選詞刪除。
2.如權(quán)利要求1所述的標(biāo)簽詞庫更新方法,其特征在于,步驟3之后還有以下步驟: 步驟4、將與標(biāo)簽候選詞的向量距離大于第二閾值的詞與標(biāo)簽詞庫中的標(biāo)簽詞進(jìn)行比對處理,若有超過第三閾值數(shù)量的詞不在標(biāo)簽詞庫中時,執(zhí)行步驟5,否則執(zhí)行步驟I ; 步驟5、計算標(biāo)簽詞庫中的每一個標(biāo)簽詞與詞向量轉(zhuǎn)換模塊的詞庫中每一個實(shí)體詞的向量距離,將向量距離大于預(yù)設(shè)的第四閾值的實(shí)體詞加入到標(biāo)簽詞庫中。
3.如權(quán)利要求2所述的標(biāo)簽詞庫更新方法,其特征在于,所述詞向量轉(zhuǎn)換模塊為谷歌公司的word2vec工具。
4.如權(quán)利要求1所述的標(biāo)簽詞庫更新方法,其特征在于,所述詞向量模型文件的訓(xùn)練過程如下: 選取一個自然語言的語料庫; 對語料庫中的語料進(jìn)行分詞處理,以得到多個語料詞; 通過詞向量轉(zhuǎn)換模塊計算每一個語料詞的向量,并將語料詞及其對應(yīng)的向量保存至所述詞向量模型文件中。
【文檔編號】G06F17/30GK104268292SQ201410572863
【公開日】2015年1月7日 申請日期:2014年10月23日 優(yōu)先權(quán)日:2014年10月23日
【發(fā)明者】石忠民, 徐亞波, 王樹辰, 何金城 申請人:廣州索答信息科技有限公司