一種基于高斯估計(jì)的在線餐飲主標(biāo)簽數(shù)據(jù)快速提取方法與流程

文檔序號(hào)：12470413閱讀：313來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及數(shù)據(jù)挖掘與推薦系統(tǒng)領(lǐng)域，特別是涉及一種基于高斯估計(jì)的在線餐飲主標(biāo)簽數(shù)據(jù)快速提取方法。

背景技術(shù)：

數(shù)據(jù)挖掘中采集的數(shù)據(jù)往往會(huì)有各種噪聲，例如缺失數(shù)據(jù)，或異常數(shù)據(jù)，顯然噪聲數(shù)據(jù)能夠影響后續(xù)建模的性能。數(shù)據(jù)去噪是非常重要的預(yù)處理步驟，目的是提取出保留最大信息量的數(shù)據(jù)。在用戶(hù)數(shù)據(jù)分析的過(guò)程中，有時(shí)候用一個(gè)好的數(shù)據(jù)去噪方法來(lái)提高精確度，比復(fù)雜的算法優(yōu)化效果要好得多。

設(shè)計(jì)推薦系統(tǒng)的主要目的是為了預(yù)測(cè)用戶(hù)的行為偏好，而分析素材往往來(lái)源于用戶(hù)的歷史行為數(shù)據(jù)。要想發(fā)掘用戶(hù)某次購(gòu)買(mǎi)行為的內(nèi)容，常見(jiàn)的方法是可以通過(guò)自然語(yǔ)言分析用戶(hù)評(píng)論，或者機(jī)器學(xué)習(xí)用戶(hù)上傳的圖片來(lái)獲知。但這些算法復(fù)雜度較高，顯然不適用于快速性要求較高的數(shù)據(jù)預(yù)處理過(guò)程。特別是在分析用戶(hù)去餐館吃飯的歷史記錄，各個(gè)餐館都具有不同的標(biāo)簽數(shù)據(jù)，如何快速找出該用戶(hù)該次用餐主要選擇了哪種標(biāo)簽的菜肴，是本發(fā)明解決問(wèn)題的主要?jiǎng)訖C(jī)。

技術(shù)實(shí)現(xiàn)要素：

為了克服現(xiàn)有的餐飲數(shù)據(jù)提取方式的無(wú)法兼顧內(nèi)容完整性與效用性的不足，本發(fā)明提供一種去噪后的數(shù)據(jù)在內(nèi)容完整性與效用性上具有均衡的表現(xiàn)、效果良好的基于高斯估計(jì)的在線餐飲主標(biāo)簽數(shù)據(jù)快速提取方法。

本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案如下：

一種基于高斯估計(jì)的在線餐飲主標(biāo)簽數(shù)據(jù)快速提取方法，包括以下步驟：

S1：獲取商鋪標(biāo)簽數(shù)據(jù)，以及用戶(hù)評(píng)分與評(píng)論數(shù)據(jù)，對(duì)商鋪標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)處理，刪除共同標(biāo)簽和無(wú)效標(biāo)簽；

S2：針對(duì)每個(gè)用戶(hù)，將其各標(biāo)簽的評(píng)分?jǐn)?shù)據(jù)集求得高斯分布的平均值與方差，即該用戶(hù)在該標(biāo)簽下的評(píng)分高斯分布；

S3：針對(duì)每個(gè)用戶(hù)，將每次商鋪的各個(gè)標(biāo)簽評(píng)分與該標(biāo)簽評(píng)分高斯分布作標(biāo)準(zhǔn)化處理，求得最大似然估計(jì)作為該次用戶(hù)去該商鋪的目標(biāo)標(biāo)簽；

S4：將上述估計(jì)標(biāo)簽、實(shí)際完整標(biāo)簽分別和評(píng)論數(shù)據(jù)作測(cè)試，取兩者匹配率的相對(duì)偏差作為模型的最終評(píng)價(jià)成績(jī)。

進(jìn)一步，所述步驟S1中，需要?jiǎng)h除的數(shù)據(jù)是指那些大多數(shù)或所有餐館都具有的口味標(biāo)簽，以及那些無(wú)法明確表達(dá)口味信息的標(biāo)簽，例如“餐館”，“食物”等。

再進(jìn)一步，所述步驟S2中，計(jì)算各個(gè)口味的高斯分布模型方法，例如計(jì)算用戶(hù)u_i的口味高斯分布模型，過(guò)程如下：已知該用戶(hù)去了某些餐館的歷史記錄{r₁,r₂,...,r_T}，其中r_k表示該用戶(hù)第k次所去的餐館，表示該餐館所附屬的口味標(biāo)簽；假設(shè)該次餐后的用戶(hù)評(píng)分對(duì)其各個(gè)口味均有效，則關(guān)于用戶(hù)u_i的口味f_j歷史記錄均有一組歷史打分列表m≤T，可根據(jù)此列表數(shù)據(jù)求得該用戶(hù)的各口味的評(píng)分高斯分布平均值μ與方差σ，記該用戶(hù)關(guān)于口味f_j的高斯分布滿(mǎn)足

所述步驟S3中，估計(jì)用戶(hù)每次選擇何種口味標(biāo)簽方法，例如預(yù)測(cè)用戶(hù)u_i第k次去餐館主要吃了哪種口味的菜肴，過(guò)程如下：定義第k次口味在標(biāo)準(zhǔn)正態(tài)分布下的絕對(duì)標(biāo)準(zhǔn)差該值越小，說(shuō)明該口味越能反映該用戶(hù)對(duì)該次用餐行為的客觀評(píng)價(jià)。所以選擇最小絕對(duì)標(biāo)準(zhǔn)差的口味標(biāo)簽，即最大似然的口味標(biāo)簽作為該用戶(hù)在第k次用餐的主要口味標(biāo)簽。

所述步驟S4根據(jù)S3方法提取的用戶(hù)歷史口味估計(jì)數(shù)據(jù)，與S1準(zhǔn)備的該用戶(hù)評(píng)論數(shù)據(jù)作匹配度分析。若該用戶(hù)的第k次口味標(biāo)簽單詞在其第k次評(píng)論文本中出現(xiàn)，則記為1，反之為0，可求得本發(fā)明的匹配率；同理，對(duì)用戶(hù)的原始口味歷史數(shù)據(jù)與評(píng)論數(shù)據(jù)分析，求得原始數(shù)據(jù)集的匹配率，通過(guò)比較兩者的相對(duì)偏差，作為該高斯估計(jì)模型的評(píng)價(jià)指標(biāo)。

本發(fā)明的技術(shù)構(gòu)思為：本發(fā)明的適用對(duì)象是具有用戶(hù)打分?jǐn)?shù)據(jù)的標(biāo)簽，本發(fā)明可以提取用戶(hù)對(duì)某些標(biāo)簽的偏好程度，進(jìn)而概括出用戶(hù)的行為特征和模式，用于后續(xù)分析用戶(hù)行為與構(gòu)建推薦模型。本發(fā)明需要的數(shù)據(jù)包括用戶(hù)用餐餐館的評(píng)論與評(píng)分、以及餐館口味標(biāo)簽等原始數(shù)據(jù)集。

本發(fā)明的有益效果為：通過(guò)具有用戶(hù)評(píng)分的口味標(biāo)簽高斯分布函數(shù)提取最大似然口味標(biāo)簽，作為用戶(hù)該次就餐行為的口味選擇。最終的估計(jì)結(jié)果接近于全局搜索且計(jì)算復(fù)雜度較低，能有效滿(mǎn)足實(shí)際使用的要求。

附圖說(shuō)明

圖1為本發(fā)明實(shí)施例的基于高斯估計(jì)的在線餐飲主標(biāo)簽數(shù)據(jù)快速提取方法的流程圖。

具體實(shí)施方式

下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步說(shuō)明。

參照?qǐng)D1，一種基于高斯估計(jì)的在線餐飲主標(biāo)簽數(shù)據(jù)快速提取方法，本發(fā)明使用yelp官方公開(kāi)的數(shù)據(jù)進(jìn)行用戶(hù)就餐行為意義上口味標(biāo)簽提取方案分析，原始數(shù)據(jù)記錄了各個(gè)用戶(hù)的歷史行為信息與餐館的詳細(xì)信息，以本專(zhuān)利研究yelp用戶(hù)為例，所需的行為數(shù)據(jù)包括用戶(hù)的用餐餐館、餐館口味標(biāo)簽以及對(duì)餐館的評(píng)論文本等信息。關(guān)于用戶(hù)對(duì)餐館的評(píng)論文本數(shù)據(jù)，在這里作為驗(yàn)證數(shù)據(jù)集，用于后續(xù)檢驗(yàn)預(yù)測(cè)用戶(hù)行為模型的可靠性。

本發(fā)明包括以下步驟：

所述步驟S1中的需要?jiǎng)h除的數(shù)據(jù)主要是指那些大多數(shù)或所有餐館都具有的口味標(biāo)簽，以及那些無(wú)法明確表達(dá)口味信息的標(biāo)簽，例如“餐館”，“食物”等。

所述步驟S2中的計(jì)算各個(gè)口味的高斯分布模型方法，例如計(jì)算用戶(hù)u_i的口味高斯分布模型，過(guò)程如下：已知該用戶(hù)去了某些餐館的歷史記錄{r₁,r₂,...,r_T}，其中r_k表示該用戶(hù)第k次所去的餐館，表示該餐館所附屬的口味標(biāo)簽。假設(shè)該次餐后的用戶(hù)評(píng)分對(duì)其各個(gè)口味均有效，則關(guān)于用戶(hù)u_i的口味f_j歷史記錄均有一組歷史打分列表m≤T，可根據(jù)此列表數(shù)據(jù)求得該用戶(hù)的各口味的評(píng)分高斯分布平均值μ與方差σ，記該用戶(hù)關(guān)于口味f_j的高斯分布滿(mǎn)足

所述步驟S3中的估計(jì)用戶(hù)每次選擇何種口味標(biāo)簽方法，例如預(yù)測(cè)用戶(hù)u_i第k次去餐館主要吃了哪種口味的菜肴，具體步驟如下：定義第k次口味在標(biāo)準(zhǔn)正態(tài)分布下的絕對(duì)標(biāo)準(zhǔn)差該值越小，說(shuō)明該口味越能反映該用戶(hù)對(duì)該次用餐行為的客觀評(píng)價(jià)。所以選擇最小絕對(duì)標(biāo)準(zhǔn)差的口味標(biāo)簽，即最大似然的口味標(biāo)簽作為該用戶(hù)在第k次用餐的主要口味標(biāo)簽。

所述步驟S4根據(jù)S3方法提取的用戶(hù)歷史口味估計(jì)數(shù)據(jù)，與S1準(zhǔn)備的該用戶(hù)評(píng)論數(shù)據(jù)作匹配度分析。若該用戶(hù)的第k次口味標(biāo)簽單詞在其第k次評(píng)論文本中出現(xiàn)，則記為1，反之為0，可求得本發(fā)明的匹配率。同理，對(duì)用戶(hù)的原始口味歷史數(shù)據(jù)與評(píng)論數(shù)據(jù)分析，求得原始數(shù)據(jù)集的匹配率。通過(guò)比較與后者全局完全搜索的相對(duì)偏差，作為該高斯估計(jì)模型的評(píng)價(jià)指標(biāo)。

如上所述為本發(fā)明在yelp餐飲平臺(tái)通過(guò)提取口味標(biāo)簽來(lái)預(yù)測(cè)用戶(hù)行為的實(shí)施例介紹，本發(fā)明根據(jù)高斯分布函數(shù)的思想，將最大似然的口味標(biāo)簽保留下來(lái)，具體提取了用戶(hù)各次行為下的各個(gè)特征。最終的預(yù)測(cè)結(jié)果，如表1所示，

表1

本發(fā)明接近于全局遍歷原始數(shù)據(jù)的結(jié)果，但是在計(jì)算時(shí)間與計(jì)算復(fù)雜度上優(yōu)于后者，達(dá)到了實(shí)際使用的要求。對(duì)發(fā)明而言?xún)H僅是說(shuō)明性的，而非限制性的。本專(zhuān)業(yè)技術(shù)人員理解，在發(fā)明權(quán)利要求所限定的精神和范圍內(nèi)可對(duì)其進(jìn)行許多改變，修改，甚至等效，但都將落入本發(fā)明的保護(hù)范圍內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：宣琦;周鳴鳴;張致遠(yuǎn);傅晨波;翔云;吳哲夫;
技術(shù)所有人：浙江工業(yè)大學(xué);
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

高斯核密度估計(jì)相關(guān)技術(shù)

高斯混合模型參數(shù)估計(jì)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于高斯估計(jì)的在線餐飲主標(biāo)簽數(shù)據(jù)快速提取方法與流程