本發(fā)明屬于數(shù)據(jù)分析技術(shù)領(lǐng)域,尤其涉及一種基于使用概率的數(shù)據(jù)檢索推薦方法。
背景技術(shù):
隨著科技互聯(lián)網(wǎng)快速的發(fā)展,人們對數(shù)據(jù)信息的需求越來越強(qiáng)烈,怎么樣才能獲取到自身想要的數(shù)據(jù)信息成為客戶和系統(tǒng)產(chǎn)品開發(fā)企業(yè)最關(guān)心的問題。在數(shù)據(jù)化信息的今天,數(shù)據(jù)個性化檢索推薦顯得尤為重要,協(xié)同數(shù)據(jù)過濾技術(shù)(collaborative filtering)目前被成功的運(yùn)用于個性化推薦系統(tǒng)中,在數(shù)據(jù)信息定點(diǎn)檢索推送領(lǐng)域占有相當(dāng)?shù)匚唬S著系統(tǒng)數(shù)據(jù)規(guī)模不斷的擴(kuò)大,人們對信息需求更加的理性,需要分析的維度也成幾何倍數(shù)的增加,它的效能逐漸降低。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的發(fā)明目的是:為了解決現(xiàn)有技術(shù)中協(xié)同數(shù)據(jù)過濾技術(shù)存在的數(shù)據(jù)稀疏性、擴(kuò)展局限性等問題,本發(fā)明提出了一種完善并解決應(yīng)用協(xié)同過濾技術(shù)在數(shù)據(jù)檢索推薦上存在數(shù)據(jù)稀疏性和擴(kuò)展局限性的基于使用概率的數(shù)據(jù)檢索推薦方法。
本發(fā)明的技術(shù)方案是:一種基于使用概率的數(shù)據(jù)檢索推薦方法,包括:
A、將包含用戶需求的數(shù)據(jù)信息進(jìn)行劃分,構(gòu)建多個數(shù)據(jù)信息集合;
B、根據(jù)步驟A中的數(shù)據(jù)信息集合構(gòu)建數(shù)據(jù)集合數(shù)組;
C、設(shè)定檢索推薦數(shù)據(jù)信息,分析該檢索推薦數(shù)據(jù)信息所屬的數(shù)據(jù)信息集合,計算一個數(shù)據(jù)信息集合中產(chǎn)生該檢索推薦數(shù)據(jù)信息的概率;
D、根據(jù)步驟C中檢索推薦數(shù)據(jù)信息在一個數(shù)據(jù)信息集合產(chǎn)生的概率,計算步驟C中檢索推薦數(shù)據(jù)信息在所屬的數(shù)據(jù)信息集合中的分布概率;
E、根據(jù)步驟D中檢索推薦數(shù)據(jù)信息所屬的數(shù)據(jù)信息集合的分布概率,計算檢索推薦數(shù)據(jù)信息的出現(xiàn)概率;
F、根據(jù)步驟E中檢索推薦數(shù)據(jù)信息的出現(xiàn)概率得到檢索推薦數(shù)據(jù)信息的被檢索推薦概率,完成數(shù)據(jù)檢索推薦。
進(jìn)一步地,所述步驟A中構(gòu)建的數(shù)據(jù)信息集合具體表示為:
xn=(data1,data2,data3...)
其中,xn為數(shù)據(jù)信息集合,n為數(shù)據(jù)信息集合個數(shù),data1,data2,data3為數(shù)據(jù)信息。
進(jìn)一步地,所述步驟B中構(gòu)建的數(shù)據(jù)集合數(shù)組具體表示為:
array[]=[x1,x2,x3...xn]
其中,array[]為數(shù)據(jù)集合數(shù)組。
進(jìn)一步地,所述步驟D中檢索推薦數(shù)據(jù)信息在所屬的數(shù)據(jù)信息集合中的分布概率包括單數(shù)據(jù)分布和聯(lián)合概率分布。
進(jìn)一步地,所述單數(shù)據(jù)分布下檢索推薦數(shù)據(jù)信息在所屬的數(shù)據(jù)信息集合中的分布概率p(y|xn)為檢索推薦數(shù)據(jù)信息y在所屬的數(shù)據(jù)信息集合xn中的數(shù)據(jù)總量除以所有數(shù)據(jù)信息集合中的數(shù)據(jù)總量。
進(jìn)一步地,所述聯(lián)合概率分布下檢索推薦數(shù)據(jù)信息在所屬的數(shù)據(jù)信息集合中的分布概率的計算公式具體為
其中,p((y1,y2,y3...ym)/xn)為聯(lián)合概率分布下檢索推薦數(shù)據(jù)信息在所屬的數(shù)據(jù)信息集合中的分布概率。
進(jìn)一步地,所述步驟E中檢索推薦數(shù)據(jù)信息的出現(xiàn)概率的計算公式具體為:
probabolity=p(y|xn)*p(xn)
其中,probabolity為檢索推薦數(shù)據(jù)信息的出現(xiàn)概率,p(xn)為檢索推薦數(shù)據(jù)信息y在數(shù)據(jù)信息集合xn中產(chǎn)生的概率。
進(jìn)一步地,所述步驟步驟F中檢索推薦數(shù)據(jù)信息的被檢索推薦概率的計算公式具體為:
其中,p(xn|y)為檢索推薦數(shù)據(jù)信息的被檢索推薦概率,p(y)為一個數(shù)據(jù)信息集合中產(chǎn)生檢索推薦數(shù)據(jù)信息的概率。
本發(fā)明的有益效果是:本發(fā)明的基于使用概率的數(shù)據(jù)檢索推薦方法針對協(xié)同數(shù)據(jù)過濾技術(shù)數(shù)據(jù)稀疏性、擴(kuò)展局限性等缺陷,更高效的通過數(shù)據(jù)整理分析,從給定的限制條件分析未知的概率分布,在提高精確性的基礎(chǔ)上減少了很多計算上的耗費(fèi),從而較好的完善并解決了應(yīng)用協(xié)同過濾技術(shù)在數(shù)據(jù)檢索推薦上存在的數(shù)據(jù)稀疏性、擴(kuò)展局限性等方面的問題,使得用戶可以快速精確的獲取到個性化的推薦信息。
附圖說明
圖1是本發(fā)明的基于使用概率的數(shù)據(jù)檢索推薦方法流程示意圖。
圖2是本發(fā)明實(shí)施例中檢索推薦數(shù)據(jù)信息為單數(shù)據(jù)分布示意圖。
圖3是本發(fā)明實(shí)施例中檢索推薦數(shù)據(jù)信息為聯(lián)合概率分布示意圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
如圖1所示,為本發(fā)明的基于使用概率的數(shù)據(jù)檢索推薦方法流程示意圖。一種基于使用概率的數(shù)據(jù)檢索推薦方法,包括:
A、將包含用戶需求的數(shù)據(jù)信息進(jìn)行劃分,構(gòu)建多個數(shù)據(jù)信息集合;
B、根據(jù)步驟A中的數(shù)據(jù)信息集合構(gòu)建數(shù)據(jù)集合數(shù)組;
C、設(shè)定檢索推薦數(shù)據(jù)信息,分析該檢索推薦數(shù)據(jù)信息所屬的數(shù)據(jù)信息集合,計算一個數(shù)據(jù)信息集合中產(chǎn)生該檢索推薦數(shù)據(jù)信息的概率;
D、根據(jù)步驟C中檢索推薦數(shù)據(jù)信息在一個數(shù)據(jù)信息集合產(chǎn)生的概率,計算步驟C中檢索推薦數(shù)據(jù)信息在所屬的數(shù)據(jù)信息集合中的分布概率;
E、根據(jù)步驟D中檢索推薦數(shù)據(jù)信息所屬的數(shù)據(jù)信息集合的分布概率,計算檢索推薦數(shù)據(jù)信息的出現(xiàn)概率;
F、根據(jù)步驟E中檢索推薦數(shù)據(jù)信息的出現(xiàn)概率得到檢索推薦數(shù)據(jù)信息的被檢索推薦概率,完成數(shù)據(jù)檢索推薦。
在步驟A中,本發(fā)明將包含用戶需求的數(shù)據(jù)信息劃分為若干組,并分別構(gòu)建多個數(shù)據(jù)信息集合,這里的構(gòu)建的數(shù)據(jù)信息集合具體表示為:
xn=(data1,data2,data3...)
其中,xn為數(shù)據(jù)信息集合,n為數(shù)據(jù)信息集合個數(shù),data1,data2,data3為數(shù)據(jù)信息。每一個數(shù)據(jù)信息集合中的數(shù)據(jù)信息數(shù)量不一定相同。
在步驟B中,本發(fā)明根據(jù)步驟A中的數(shù)據(jù)信息集合構(gòu)建數(shù)據(jù)集合數(shù)組,這里的構(gòu)建的數(shù)據(jù)集合數(shù)組具體表示為:
array[]=[x1,x2,x3...xn]
其中,array[]為數(shù)據(jù)集合數(shù)組。
在步驟C中,本發(fā)明設(shè)定一個檢索推薦數(shù)據(jù)信息y,分析該檢索推薦數(shù)據(jù)信息y所屬的數(shù)據(jù)信息集合,并計算某一個數(shù)據(jù)信息集合中產(chǎn)生該檢索推薦數(shù)據(jù)信息的概率。
在步驟D中,本發(fā)明根據(jù)步驟C中檢索推薦數(shù)據(jù)信息y在一個數(shù)據(jù)信息集合產(chǎn)生的概率,計算步驟C中檢索推薦數(shù)據(jù)信息y在其所屬的數(shù)據(jù)信息集合中的分布概率,這里的檢索推薦數(shù)據(jù)信息在所屬的數(shù)據(jù)信息集合中的分布概率包括單數(shù)據(jù)分布和聯(lián)合概率分布。
如圖2所示,為本發(fā)明實(shí)施例中檢索推薦數(shù)據(jù)信息為單數(shù)據(jù)分布示意圖。當(dāng)檢索推薦數(shù)據(jù)信息y在數(shù)據(jù)集合數(shù)組中為單數(shù)據(jù)分布時,即檢索推薦數(shù)據(jù)信息y只存在于一個數(shù)據(jù)信息集合中,則檢索推薦數(shù)據(jù)信息在所屬的數(shù)據(jù)信息集合中的分布概率p(y|xn)為檢索推薦數(shù)據(jù)信息y在所屬的數(shù)據(jù)信息集合xn中的數(shù)據(jù)總量除以所有數(shù)據(jù)信息集合中的數(shù)據(jù)總量。
如圖3所示,為本發(fā)明實(shí)施例中檢索推薦數(shù)據(jù)信息為聯(lián)合概率分布示意圖。當(dāng)檢索推薦數(shù)據(jù)信息y在數(shù)據(jù)集合數(shù)組中為聯(lián)合概率分布時,即檢索推薦數(shù)據(jù)信息y存在于多個數(shù)據(jù)信息集合中,則檢索推薦數(shù)據(jù)信息在所屬的數(shù)據(jù)信息集合中的分布概率的計算公式具體為
其中,p((y1,y2,y3...ym)/xn)為聯(lián)合概率分布下檢索推薦數(shù)據(jù)信息在所屬的數(shù)據(jù)信息集合中的分布概率。
在步驟E中,本發(fā)明根據(jù)步驟D中檢索推薦數(shù)據(jù)信息y所屬的數(shù)據(jù)信息集合的分布概率,計算檢索推薦數(shù)據(jù)信息的出現(xiàn)概率。由于不同的數(shù)據(jù)集合xn都可能包含檢索推薦數(shù)據(jù)信息y,但檢索推薦數(shù)據(jù)信息y在每一個數(shù)據(jù)信息集合中出現(xiàn)的概率是不一樣的,因此得到檢索推薦數(shù)據(jù)信息的出現(xiàn)概率的計算公式具體為:
probabolity=p(y|xn)*p(xn)
其中,probabolity為檢索推薦數(shù)據(jù)信息的出現(xiàn)概率,p(xn)為檢索推薦數(shù)據(jù)信息y在數(shù)據(jù)信息集合xn中產(chǎn)生的概率。
在步驟F中,本發(fā)明根據(jù)步驟E中檢索推薦數(shù)據(jù)信息的出現(xiàn)概率得到檢索推薦數(shù)據(jù)信息的被檢索推薦概率;根據(jù)步驟C中設(shè)定的一個檢索推薦數(shù)據(jù)信息y可以直接得到一個數(shù)據(jù)信息集合中產(chǎn)生檢索推薦數(shù)據(jù)信息的概率p(y),這里的一個數(shù)據(jù)信息集合中產(chǎn)生檢索推薦數(shù)據(jù)信息的概率p(y)為恒定的值,從而得到檢索推薦數(shù)據(jù)信息的被檢索推薦概率的計算公式具體為:
其中,p(xn|y)為檢索推薦數(shù)據(jù)信息的被檢索推薦概率,p(y)為一個數(shù)據(jù)信息集合中產(chǎn)生檢索推薦數(shù)據(jù)信息的概率,根據(jù)檢索推薦數(shù)據(jù)信息的被檢索推薦概率完成數(shù)據(jù)檢索推薦。
本領(lǐng)域的普通技術(shù)人員將會意識到,這里所述的實(shí)施例是為了幫助讀者理解本發(fā)明的原理,應(yīng)被理解為本發(fā)明的保護(hù)范圍并不局限于這樣的特別陳述和實(shí)施例。本領(lǐng)域的普通技術(shù)人員可以根據(jù)本發(fā)明公開的這些技術(shù)啟示做出各種不脫離本發(fā)明實(shí)質(zhì)的其它各種具體變形和組合,這些變形和組合仍然在本發(fā)明的保護(hù)范圍內(nèi)。