本發(fā)明涉及數(shù)據(jù)挖掘與推薦系統(tǒng)領(lǐng)域,特別是涉及一種基于高斯估計(jì)的在線餐飲主標(biāo)簽數(shù)據(jù)快速提取方法。
背景技術(shù):
數(shù)據(jù)挖掘中采集的數(shù)據(jù)往往會(huì)有各種噪聲,例如缺失數(shù)據(jù),或異常數(shù)據(jù),顯然噪聲數(shù)據(jù)能夠影響后續(xù)建模的性能。數(shù)據(jù)去噪是非常重要的預(yù)處理步驟,目的是提取出保留最大信息量的數(shù)據(jù)。在用戶(hù)數(shù)據(jù)分析的過(guò)程中,有時(shí)候用一個(gè)好的數(shù)據(jù)去噪方法來(lái)提高精確度,比復(fù)雜的算法優(yōu)化效果要好得多。
設(shè)計(jì)推薦系統(tǒng)的主要目的是為了預(yù)測(cè)用戶(hù)的行為偏好,而分析素材往往來(lái)源于用戶(hù)的歷史行為數(shù)據(jù)。要想發(fā)掘用戶(hù)某次購(gòu)買(mǎi)行為的內(nèi)容,常見(jiàn)的方法是可以通過(guò)自然語(yǔ)言分析用戶(hù)評(píng)論,或者機(jī)器學(xué)習(xí)用戶(hù)上傳的圖片來(lái)獲知。但這些算法復(fù)雜度較高,顯然不適用于快速性要求較高的數(shù)據(jù)預(yù)處理過(guò)程。特別是在分析用戶(hù)去餐館吃飯的歷史記錄,各個(gè)餐館都具有不同的標(biāo)簽數(shù)據(jù),如何快速找出該用戶(hù)該次用餐主要選擇了哪種標(biāo)簽的菜肴,是本發(fā)明解決問(wèn)題的主要?jiǎng)訖C(jī)。
技術(shù)實(shí)現(xiàn)要素:
為了克服現(xiàn)有的餐飲數(shù)據(jù)提取方式的無(wú)法兼顧內(nèi)容完整性與效用性的不足,本發(fā)明提供一種去噪后的數(shù)據(jù)在內(nèi)容完整性與效用性上具有均衡的表現(xiàn)、效果良好的基于高斯估計(jì)的在線餐飲主標(biāo)簽數(shù)據(jù)快速提取方法。
本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案如下:
一種基于高斯估計(jì)的在線餐飲主標(biāo)簽數(shù)據(jù)快速提取方法,包括以下步驟:
S1:獲取商鋪標(biāo)簽數(shù)據(jù),以及用戶(hù)評(píng)分與評(píng)論數(shù)據(jù),對(duì)商鋪標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)處理,刪除共同標(biāo)簽和無(wú)效標(biāo)簽;
S2:針對(duì)每個(gè)用戶(hù),將其各標(biāo)簽的評(píng)分?jǐn)?shù)據(jù)集求得高斯分布的平均值與方差,即該用戶(hù)在該標(biāo)簽下的評(píng)分高斯分布;
S3:針對(duì)每個(gè)用戶(hù),將每次商鋪的各個(gè)標(biāo)簽評(píng)分與該標(biāo)簽評(píng)分高斯分布作標(biāo)準(zhǔn)化處理,求得最大似然估計(jì)作為該次用戶(hù)去該商鋪的目標(biāo)標(biāo)簽;
S4:將上述估計(jì)標(biāo)簽、實(shí)際完整標(biāo)簽分別和評(píng)論數(shù)據(jù)作測(cè)試,取兩者匹配率的相對(duì)偏差作為模型的最終評(píng)價(jià)成績(jī)。
進(jìn)一步,所述步驟S1中,需要?jiǎng)h除的數(shù)據(jù)是指那些大多數(shù)或所有餐館都具有的口味標(biāo)簽,以及那些無(wú)法明確表達(dá)口味信息的標(biāo)簽,例如“餐館”,“食物”等。
再進(jìn)一步,所述步驟S2中,計(jì)算各個(gè)口味的高斯分布模型方法,例如計(jì)算用戶(hù)ui的口味高斯分布模型,過(guò)程如下:已知該用戶(hù)去了某些餐館的歷史記錄{r1,r2,...,rT},其中rk表示該用戶(hù)第k次所去的餐館,表示該餐館所附屬的口味標(biāo)簽;假設(shè)該次餐后的用戶(hù)評(píng)分對(duì)其各個(gè)口味均有效,則關(guān)于用戶(hù)ui的口味fj歷史記錄均有一組歷史打分列表m≤T,可根據(jù)此列表數(shù)據(jù)求得該用戶(hù)的各口味的評(píng)分高斯分布平均值μ與方差σ,記該用戶(hù)關(guān)于口味fj的高斯分布滿(mǎn)足
所述步驟S3中,估計(jì)用戶(hù)每次選擇何種口味標(biāo)簽方法,例如預(yù)測(cè)用戶(hù)ui第k次去餐館主要吃了哪種口味的菜肴,過(guò)程如下:定義第k次口味在標(biāo)準(zhǔn)正態(tài)分布下的絕對(duì)標(biāo)準(zhǔn)差該值越小,說(shuō)明該口味越能反映該用戶(hù)對(duì)該次用餐行為的客觀評(píng)價(jià)。所以選擇最小絕對(duì)標(biāo)準(zhǔn)差的口味標(biāo)簽,即最大似然的口味標(biāo)簽作為該用戶(hù)在第k次用餐的主要口味標(biāo)簽。
所述步驟S4根據(jù)S3方法提取的用戶(hù)歷史口味估計(jì)數(shù)據(jù),與S1準(zhǔn)備的該用戶(hù)評(píng)論數(shù)據(jù)作匹配度分析。若該用戶(hù)的第k次口味標(biāo)簽單詞在其第k次評(píng)論文本中出現(xiàn),則記為1,反之為0,可求得本發(fā)明的匹配率;同理,對(duì)用戶(hù)的原始口味歷史數(shù)據(jù)與評(píng)論數(shù)據(jù)分析,求得原始數(shù)據(jù)集的匹配率,通過(guò)比較兩者的相對(duì)偏差,作為該高斯估計(jì)模型的評(píng)價(jià)指標(biāo)。
本發(fā)明的技術(shù)構(gòu)思為:本發(fā)明的適用對(duì)象是具有用戶(hù)打分?jǐn)?shù)據(jù)的標(biāo)簽,本發(fā)明可以提取用戶(hù)對(duì)某些標(biāo)簽的偏好程度,進(jìn)而概括出用戶(hù)的行為特征和模式,用于后續(xù)分析用戶(hù)行為與構(gòu)建推薦模型。本發(fā)明需要的數(shù)據(jù)包括用戶(hù)用餐餐館的評(píng)論與評(píng)分、以及餐館口味標(biāo)簽等原始數(shù)據(jù)集。
本發(fā)明的有益效果為:通過(guò)具有用戶(hù)評(píng)分的口味標(biāo)簽高斯分布函數(shù)提取最大似然口味標(biāo)簽,作為用戶(hù)該次就餐行為的口味選擇。最終的估計(jì)結(jié)果接近于全局搜索且計(jì)算復(fù)雜度較低,能有效滿(mǎn)足實(shí)際使用的要求。
附圖說(shuō)明
圖1為本發(fā)明實(shí)施例的基于高斯估計(jì)的在線餐飲主標(biāo)簽數(shù)據(jù)快速提取方法的流程圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步說(shuō)明。
參照?qǐng)D1,一種基于高斯估計(jì)的在線餐飲主標(biāo)簽數(shù)據(jù)快速提取方法,本發(fā)明使用yelp官方公開(kāi)的數(shù)據(jù)進(jìn)行用戶(hù)就餐行為意義上口味標(biāo)簽提取方案分析,原始數(shù)據(jù)記錄了各個(gè)用戶(hù)的歷史行為信息與餐館的詳細(xì)信息,以本專(zhuān)利研究yelp用戶(hù)為例,所需的行為數(shù)據(jù)包括用戶(hù)的用餐餐館、餐館口味標(biāo)簽以及對(duì)餐館的評(píng)論文本等信息。關(guān)于用戶(hù)對(duì)餐館的評(píng)論文本數(shù)據(jù),在這里作為驗(yàn)證數(shù)據(jù)集,用于后續(xù)檢驗(yàn)預(yù)測(cè)用戶(hù)行為模型的可靠性。
本發(fā)明包括以下步驟:
S1:獲取商鋪標(biāo)簽數(shù)據(jù),以及用戶(hù)評(píng)分與評(píng)論數(shù)據(jù),對(duì)商鋪標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)處理,刪除共同標(biāo)簽和無(wú)效標(biāo)簽;
S2:針對(duì)每個(gè)用戶(hù),將其各標(biāo)簽的評(píng)分?jǐn)?shù)據(jù)集求得高斯分布的平均值與方差,即該用戶(hù)在該標(biāo)簽下的評(píng)分高斯分布;
S3:針對(duì)每個(gè)用戶(hù),將每次商鋪的各個(gè)標(biāo)簽評(píng)分與該標(biāo)簽評(píng)分高斯分布作標(biāo)準(zhǔn)化處理,求得最大似然估計(jì)作為該次用戶(hù)去該商鋪的目標(biāo)標(biāo)簽;
S4:將上述估計(jì)標(biāo)簽、實(shí)際完整標(biāo)簽分別和評(píng)論數(shù)據(jù)作測(cè)試,取兩者匹配率的相對(duì)偏差作為模型的最終評(píng)價(jià)成績(jī)。
所述步驟S1中的需要?jiǎng)h除的數(shù)據(jù)主要是指那些大多數(shù)或所有餐館都具有的口味標(biāo)簽,以及那些無(wú)法明確表達(dá)口味信息的標(biāo)簽,例如“餐館”,“食物”等。
所述步驟S2中的計(jì)算各個(gè)口味的高斯分布模型方法,例如計(jì)算用戶(hù)ui的口味高斯分布模型,過(guò)程如下:已知該用戶(hù)去了某些餐館的歷史記錄{r1,r2,...,rT},其中rk表示該用戶(hù)第k次所去的餐館,表示該餐館所附屬的口味標(biāo)簽。假設(shè)該次餐后的用戶(hù)評(píng)分對(duì)其各個(gè)口味均有效,則關(guān)于用戶(hù)ui的口味fj歷史記錄均有一組歷史打分列表m≤T,可根據(jù)此列表數(shù)據(jù)求得該用戶(hù)的各口味的評(píng)分高斯分布平均值μ與方差σ,記該用戶(hù)關(guān)于口味fj的高斯分布滿(mǎn)足
所述步驟S3中的估計(jì)用戶(hù)每次選擇何種口味標(biāo)簽方法,例如預(yù)測(cè)用戶(hù)ui第k次去餐館主要吃了哪種口味的菜肴,具體步驟如下:定義第k次口味在標(biāo)準(zhǔn)正態(tài)分布下的絕對(duì)標(biāo)準(zhǔn)差該值越小,說(shuō)明該口味越能反映該用戶(hù)對(duì)該次用餐行為的客觀評(píng)價(jià)。所以選擇最小絕對(duì)標(biāo)準(zhǔn)差的口味標(biāo)簽,即最大似然的口味標(biāo)簽作為該用戶(hù)在第k次用餐的主要口味標(biāo)簽。
所述步驟S4根據(jù)S3方法提取的用戶(hù)歷史口味估計(jì)數(shù)據(jù),與S1準(zhǔn)備的該用戶(hù)評(píng)論數(shù)據(jù)作匹配度分析。若該用戶(hù)的第k次口味標(biāo)簽單詞在其第k次評(píng)論文本中出現(xiàn),則記為1,反之為0,可求得本發(fā)明的匹配率。同理,對(duì)用戶(hù)的原始口味歷史數(shù)據(jù)與評(píng)論數(shù)據(jù)分析,求得原始數(shù)據(jù)集的匹配率。通過(guò)比較與后者全局完全搜索的相對(duì)偏差,作為該高斯估計(jì)模型的評(píng)價(jià)指標(biāo)。
如上所述為本發(fā)明在yelp餐飲平臺(tái)通過(guò)提取口味標(biāo)簽來(lái)預(yù)測(cè)用戶(hù)行為的實(shí)施例介紹,本發(fā)明根據(jù)高斯分布函數(shù)的思想,將最大似然的口味標(biāo)簽保留下來(lái),具體提取了用戶(hù)各次行為下的各個(gè)特征。最終的預(yù)測(cè)結(jié)果,如表1所示,
表1
本發(fā)明接近于全局遍歷原始數(shù)據(jù)的結(jié)果,但是在計(jì)算時(shí)間與計(jì)算復(fù)雜度上優(yōu)于后者,達(dá)到了實(shí)際使用的要求。對(duì)發(fā)明而言?xún)H僅是說(shuō)明性的,而非限制性的。本專(zhuān)業(yè)技術(shù)人員理解,在發(fā)明權(quán)利要求所限定的精神和范圍內(nèi)可對(duì)其進(jìn)行許多改變,修改,甚至等效,但都將落入本發(fā)明的保護(hù)范圍內(nèi)。