基于酒店點評的用戶標(biāo)簽和酒店標(biāo)簽匹配方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種互聯(lián)網(wǎng)信息處理方法,特別涉及一種用戶畫像生成方法及裝置。
【背景技術(shù)】
[0002] 時代的變迀,不可避免會帶來諸多社會變化。在互聯(lián)網(wǎng)逐漸步入大數(shù)據(jù)時代后,不 可避免的為企業(yè)及消費者行為帶來一系列改變與重塑?;ヂ?lián)網(wǎng)唯快不破的節(jié)奏,打亂了原 有商業(yè)演變的邏輯,使得商業(yè)的參與方不得不面臨著前所未有的變革,加速適應(yīng)時代的變 化。如何利用大數(shù)據(jù)挖掘潛在的商業(yè)價值,如何在企業(yè)中實實在在的應(yīng)用大數(shù)據(jù)技術(shù)。伴 隨著大數(shù)據(jù)應(yīng)用的討論、創(chuàng)新,個性化技術(shù)成為了一個重要落地點。相比傳統(tǒng)的線下會員管 理、問卷調(diào)查、購物籃分析,大數(shù)據(jù)第一次使得企業(yè)能夠通過互聯(lián)網(wǎng)便利地獲取用戶更為廣 泛的反饋信息,為進(jìn)一步精準(zhǔn)、快速地分析用戶行為習(xí)慣、消費習(xí)慣等重要商業(yè)信息,提供 了足夠的數(shù)據(jù)基礎(chǔ)。伴隨著對人的了解逐步深入,"用戶畫像"的概念應(yīng)運而生,它完美地抽 象出一個用戶的信息全貌,可以看作企業(yè)應(yīng)用大數(shù)據(jù)的根基。
[0003] 用戶畫像是真實用戶的虛擬代表,是在深刻理解真實數(shù)據(jù)的基礎(chǔ)上得出的一個虛 擬用戶。企業(yè)通過收集與分析消費者社會屬性、生活習(xí)慣、消費行為、觀點差異等主要信息 的數(shù)據(jù)之后,將他們區(qū)分為不同的類型,然后每種類型中抽取出典型特征,賦予一個名字、 一張照片、一些人口統(tǒng)計學(xué)要素、場景等描述,就形成了一個用戶畫像,這是用戶的商業(yè)全 貌,可以看作是企業(yè)應(yīng)用大數(shù)據(jù)技術(shù)的基本方式。用戶畫像為企業(yè)提供了足夠的信息基礎(chǔ), 能夠幫助企業(yè)快速找到精準(zhǔn)用戶群體以及用戶需求等更為廣泛的反饋信息。
[0004] 大數(shù)據(jù)處理,離不開計算機的運算,用戶畫像可以用標(biāo)簽集合來表示,標(biāo)簽是某一 種用戶特征的符號表示,用戶信息標(biāo)簽化提供了一種便捷的方式,使得計算機能夠程序化 處理與人相關(guān)的信息,甚至通過算法、模型能夠"理解"人。
[0005] -個標(biāo)簽通常是預(yù)先定義的高度精煉的特征標(biāo)識,如年齡段標(biāo)簽:25~35歲,地 域標(biāo)簽:北京,標(biāo)簽呈現(xiàn)出兩個重要特征:(1)語義化,人能很方便地理解每個標(biāo)簽含義,這 也使得用戶畫像模型具備實際意義,能夠較好的滿足業(yè)務(wù)需求,如判斷用戶偏好;(2)短文 本,每個標(biāo)簽通常只表示一種含義,標(biāo)簽本身無需再做過多文本分析等預(yù)處理工作,這為利 用機器提取標(biāo)準(zhǔn)化信息提供了便利。
[0006] 用戶畫像標(biāo)簽具體來說包括兩方面:標(biāo)簽及其權(quán)重。標(biāo)簽,表征了內(nèi)容,用戶對該 內(nèi)容有興趣、偏好、需求等等。權(quán)重,表征了指數(shù),用戶的興趣、偏好指數(shù),也可能表征用戶的 需求度,可以簡單的理解為置信度。
[0007] 為用戶畫像的焦點工作就是為用戶打"標(biāo)簽",而一個標(biāo)簽通常是人為規(guī)定的高度 精煉的特征標(biāo)識,如年齡、性別、地域、用戶偏好等,最后將用戶的所有標(biāo)簽綜合來看,基本 就可以勾勒出該用戶的立體"畫像"了。
[0008] 具體來講,當(dāng)為用戶畫像時,需要收集數(shù)據(jù)、分析標(biāo)簽兩個步驟。
[0009] 首先,收集到用戶所有的相關(guān)數(shù)據(jù)并將用戶數(shù)據(jù)劃分為靜態(tài)信息數(shù)據(jù)、動態(tài)信息 數(shù)據(jù)兩大類,靜態(tài)數(shù)據(jù)就是用戶相對穩(wěn)定的信息,如性別、年齡、地域、職業(yè)等,動態(tài)數(shù)據(jù)就 是用戶不停變化的行為信息,如瀏覽網(wǎng)頁、搜索商品、發(fā)表點評、接觸渠道等。
[0010] 其次,通過剖析數(shù)據(jù)為用戶貼上相應(yīng)的標(biāo)簽及指數(shù),標(biāo)簽代表用戶對該內(nèi)容有興 趣、偏好、需求等,指數(shù)代表用戶的興趣程度、需求程度、購買概率等。
[0011] 如中國專利申請公開第104750731A號揭示的一種獲取完整用戶畫像的方法,包 括:獲取殘缺的用戶畫像矩陣,以及隨機生成用戶參數(shù)矩陣P和標(biāo)簽矩陣Q;計算第一部分 用戶的畫像誤差,更新用戶參數(shù)矩陣和標(biāo)簽參數(shù)矩陣,其中,選擇的第一部分用戶的第一變 化差值大于第一剩余用戶的第一變化差值,第一剩余用戶為多個用戶中的除第一部分用戶 之外的用戶,第一變化差值為用戶第r-1次更新的第一預(yù)測值與用戶第r-2次更新的第一 預(yù)測值之間的差值;在第R次更新用戶參數(shù)矩陣P和標(biāo)簽參數(shù)矩陣Q之后,根據(jù)矩陣分解的 結(jié)果,獲取完整的用戶畫像矩陣。
[0012] 又如中國專利申請公開第104268292A號揭示的一種畫像系統(tǒng)的標(biāo)簽詞庫更新方 法,其包括:獲取用戶的畫像數(shù)據(jù),所述畫像數(shù)據(jù)包括用于描述所述用戶的標(biāo)簽和所述用戶 發(fā)表的原始文本;當(dāng)標(biāo)簽的數(shù)量與原始文本的數(shù)量的比值小于預(yù)設(shè)的第一閾值時,對所述 用戶發(fā)表的所有原始文本進(jìn)行分詞處理,以得到多個標(biāo)簽候選詞,并將標(biāo)簽候選詞發(fā)送至 推薦系統(tǒng);推薦系統(tǒng)計算每一個標(biāo)簽候選詞與預(yù)設(shè)的詞向量模型文件中每一個詞的向量距 離,將存在向量距離大于預(yù)設(shè)的第二閾值的標(biāo)簽候選詞加入到標(biāo)簽詞庫中,將不存在向量 距離大于第二閾值的標(biāo)簽候選詞刪除。
[0013] 再如中國專利申請公開第103577549A號揭示的一種基于微博標(biāo)簽的人群畫像系 統(tǒng)和方法,包含微博標(biāo)簽推薦和標(biāo)簽主題聚類兩大模塊,其中第一模塊中采用一個涵蓋三 個步驟的標(biāo)簽推薦算法。第一步為同質(zhì)性標(biāo)簽推薦,第二步為共現(xiàn)性標(biāo)簽擴展;第三步則是 以中文知識圖譜為基礎(chǔ)建立語義網(wǎng)絡(luò),利用網(wǎng)絡(luò)拓?fù)涮匦詠矶攘繕?biāo)簽之間的語義相似度, 從而去除語義相同或相似的標(biāo)簽,保證用來刻畫用戶的標(biāo)簽精煉性。
[0014] 然而,上述三篇專利文獻(xiàn)公開的用戶畫像技術(shù)的應(yīng)用領(lǐng)域均不屬于本發(fā)明所涉及 的酒店行業(yè)。
[0015] 在酒店行業(yè)中,目前的用戶畫像標(biāo)簽化分析的研究和應(yīng)用主要集中在用戶屬性 和用戶行為等數(shù)據(jù)上,用戶屬性數(shù)據(jù)包括年齡、性別、地域等,用戶行為數(shù)據(jù)包括用戶在官 網(wǎng)或者移動應(yīng)用端的訪問歷史、點擊歷史、消費歷史等數(shù)據(jù),基于點評數(shù)據(jù)的研究和應(yīng)用較 少。這方面的主要問題在于點評文本的分析理解很難,需要借助自然語言處理等技術(shù),將非 結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù),常見的用戶標(biāo)簽分析算法才可以加以應(yīng)用。
[0016] 因此,提供一種基于酒店點評的用戶標(biāo)簽和酒店標(biāo)簽匹配方法成為業(yè)內(nèi)急需解決 的問題。
【發(fā)明內(nèi)容】
[0017] 本發(fā)明的目的是提供一種基于酒店點評的用戶標(biāo)簽和酒店標(biāo)簽匹配方法及裝置, 其通過標(biāo)簽為酒店和用戶建模,從而更好地在酒店和用戶之間建立關(guān)聯(lián)。
[0018] 常見的用戶點評分析方法都是基于結(jié)構(gòu)化數(shù)據(jù),如用戶屬性數(shù)據(jù),包括年齡、性 另IJ、地域等,或者用戶行為數(shù)據(jù)包括用戶在官網(wǎng)或者移動應(yīng)用端的訪問歷史、點擊歷史、消 費歷史等。本發(fā)明針對研究和應(yīng)用較少的酒店點評數(shù)據(jù),不僅能分析出用戶對酒店的評價 是好評還是差評,還可以挖掘出維度,基于此構(gòu)建酒店和用戶的標(biāo)簽。
[0019]本發(fā)明首先通過聚焦爬蟲從各大主流點評(OnlineTravelAgent,OTA)網(wǎng)站獲取 在線點評數(shù)據(jù)。然后針對大規(guī)模點評,通過自動/半自動方式整理酒店業(yè)情感詞庫以及領(lǐng) 域知識庫。最后,針對點評中的每個句子,進(jìn)行分詞、詞性標(biāo)注、短語結(jié)構(gòu)句法分析等自然語 言處理技術(shù)等分析,在此基礎(chǔ)上提取關(guān)鍵詞或關(guān)鍵句式作為特征,通過最大熵分類器實現(xiàn) 情感分類。對于表達(dá)情感的句子,進(jìn)一步根據(jù)領(lǐng)域關(guān)鍵詞及知識庫推理得到維度。每個維 度都反映了人們觀察、認(rèn)識和描述酒店或用戶的一個角度。
[0020] 本發(fā)明通過維度詳細(xì)描述酒店業(yè)酒店和用戶雙方關(guān)注的焦點,并以此作為標(biāo)簽 集。用戶標(biāo)簽反映了用戶在意的方面,而酒店標(biāo)簽反映了酒店擅長的方面。以向用戶推薦 酒店這樣的場景為例,當(dāng)用戶在意的標(biāo)簽與酒店擅長的標(biāo)簽越相似,或者匹配程度越高,則 越適合推薦給用戶。有了標(biāo)簽集合,下一步就是針對某個用戶的所有點評或者某家酒店的 所有點評,計算標(biāo)簽權(quán)重。權(quán)重計算主要基于標(biāo)簽在點評中出現(xiàn)的頻次。酒店標(biāo)簽與用戶 標(biāo)簽的差異在于,為了反映酒店某方面的擅長程度,需要考慮標(biāo)簽對應(yīng)點評點情感極性。在 某個標(biāo)簽上,好的評價越多,則認(rèn)為酒店這方面越擅長,做得越好。
[0021] 本發(fā)明中所指的維度是指能夠表達(dá)對酒店某一方面評價的語句情感類型,比如酒 店的衛(wèi)生級別、交通便利度、周邊環(huán)境指數(shù)、房間空間大小等等方面,具體可以包括若干個 維度,例如維度1表示衛(wèi)生級別為A級;……維度12表示交通便利度為B級;……維度53 表示周邊環(huán)境指數(shù)為C級;……維度104表示房間空間大小為D級等等。
[0022] 本發(fā)明中所指的詞匯的不同屬性是指將詞匯分為評價對象詞、評價屬性詞以及情 感詞等屬性。
[0023]根據(jù)本發(fā)明的一個方面,提供一種基于酒店點評的用戶標(biāo)簽和酒店標(biāo)簽匹配方 法,包括:(1)、準(zhǔn)備酒店業(yè)情感語句模板庫,酒店業(yè)情感語句模板庫包括至少100個情感語 句模板;(2)、準(zhǔn)備至少三個酒店的最終酒店標(biāo)簽;(3)、從互聯(lián)網(wǎng)獲取特定用戶針對同一酒 店或不同酒店的至少兩條用戶點評;(4)、將特定用戶的所有用戶點評的情感語句逐一與至 少100個情感語句模板進(jìn)行比對,篩選出與至少100個情感語句模板相匹配的情感語句,并 將所篩選出的情感語句根據(jù)所表達(dá)的情感類型識別為不同的維度,再以所識別的所有維度 形成特定用戶的用戶標(biāo)簽集合;(5)、分別計算特定用戶的用戶標(biāo)簽集合中的每個用戶標(biāo)簽 的權(quán)重,其中,在特定用戶的全部用戶點評中出現(xiàn)的頻率越高且在所有用戶針對所有酒店 的所有用戶點評中出現(xiàn)的頻率越低則用戶標(biāo)簽權(quán)重越高;(6)、從特定用戶的用戶標(biāo)簽集合 中選擇權(quán)重大于第一設(shè)定閾值的用戶標(biāo)簽作為特定用戶的最終用戶標(biāo)簽;以及(7)、至少 將最終酒店標(biāo)簽與特定用戶的最終用戶標(biāo)簽匹配率位于前三名的酒店推薦給特定用戶。
[0024]其中,根據(jù)具體使用條件,準(zhǔn)備至少三個酒店的最終酒店標(biāo)簽可為準(zhǔn)備至少10個、至少100個或者至少500個最終酒店標(biāo)簽。
[0025]可選擇地,可以事先通過其它裝置或通過人工從點評網(wǎng)站獲取點評數(shù)據(jù)備用。
[0026]可選擇地,可以事先通過其它裝置或通過人工整理出酒店業(yè)語義詞典備用。
[0027]可選擇地,可以事先通過其它裝置或通過人工整理出酒店業(yè)情感語句模板庫備 用。
[0028]可選擇地,可以事先通過其它裝置或通過人工整理出種子語義詞典備用。
[0029] 可選擇地,步驟(2)中準(zhǔn)備至少三個酒店的最終酒店標(biāo)簽包括:(2. 1)、從互聯(lián)網(wǎng) 獲取分別針對至少三個酒店的用戶點評,其中針對每個酒店包括至少三個用戶的用戶點 評;(2. 2)、將針對特定酒店的所有用戶點評的情感語句逐一與至少100個情感語句模板進(jìn) 行比對,篩選出與至少100個情感語句模板相匹配的情感語句,并將所篩選出的情感語句 根據(jù)所表達(dá)的情感類型識別為不同的維度,再以所識別的所有維度形成