欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種獲取用戶(hù)網(wǎng)上瀏覽行為差異模式的系統(tǒng)和方法

文檔序號(hào):6602171閱讀:168來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):一種獲取用戶(hù)網(wǎng)上瀏覽行為差異模式的系統(tǒng)和方法
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)庫(kù)和知識(shí)發(fā)現(xiàn)領(lǐng)域,特別是涉及一種獲取用戶(hù)網(wǎng)上瀏覽行 為差異模式的系統(tǒng)和方法。
背景技術(shù)
在當(dāng)今信息時(shí)代,因特網(wǎng)已經(jīng)成為大眾獲取所需的一種重要手段。大量用戶(hù)每天 通過(guò)因特網(wǎng)查詢(xún)自己所需信息,購(gòu)買(mǎi)自己所需物品。各個(gè)網(wǎng)站都在不斷積累網(wǎng)絡(luò)用戶(hù)的各 種瀏覽行為(我們稱(chēng)記錄該信息的數(shù)據(jù)庫(kù)為日志數(shù)據(jù)庫(kù))。由于網(wǎng)絡(luò)的虛擬特點(diǎn),使得了 解用戶(hù)的需要變得更加具有挑戰(zhàn)性。如果能從這種日志數(shù)據(jù)庫(kù)中分析用戶(hù)的瀏覽規(guī)律或特 點(diǎn),發(fā)現(xiàn)不同年齡網(wǎng)絡(luò)用戶(hù)群體在瀏覽行為上的有趣差異,將為商家或相關(guān)管理部門(mén)科學(xué) 地制定決策提供重要信息。但是,由于我們需要分析的數(shù)據(jù)庫(kù)涉及海量數(shù)據(jù),差異模式的分析面臨著兩個(gè)問(wèn) 題(1)利用現(xiàn)有的方法發(fā)現(xiàn)用戶(hù)瀏覽行為差異模式時(shí),在處理海量數(shù)據(jù)時(shí)效率不高, 缺乏有效的剪裁策略以縮小搜索空間。(2)已有方法中采用的卡方檢驗(yàn)方法在滿(mǎn)足條件的數(shù)據(jù)量較大時(shí)總能通過(guò)假設(shè)建 設(shè),無(wú)法起到識(shí)別顯著差異的作用。

發(fā)明內(nèi)容
為了解決上述所說(shuō)的問(wèn)題,本發(fā)明的一個(gè)目的就是提出了一種獲取用戶(hù)網(wǎng)上瀏覽 行為差異模式的系統(tǒng)和方法。根據(jù)本發(fā)明的一個(gè)方面,提供了一種獲取用戶(hù)網(wǎng)上瀏覽行為差異模式的方法,其 特征在于包括A.輸入日志數(shù)據(jù)庫(kù);B.按照一個(gè)預(yù)定的標(biāo)準(zhǔn)劃分用戶(hù)群體,C.為每個(gè)群體創(chuàng)建會(huì)話(huà)級(jí)的數(shù)據(jù)庫(kù);D.分別從所述數(shù)據(jù)庫(kù)中發(fā)現(xiàn)被頻繁訪(fǎng)問(wèn)的單個(gè)項(xiàng);E.分別為所述數(shù)據(jù)庫(kù)創(chuàng)建前綴樹(shù),其中所述數(shù)據(jù)庫(kù)中的每一行對(duì)應(yīng)所述前綴樹(shù)中 的一個(gè)分支,且不同的分支共享從根節(jié)點(diǎn)開(kāi)始的路徑;F.根據(jù)所述前綴樹(shù)的頭表,構(gòu)造當(dāng)前項(xiàng)集,同步處理所述前綴樹(shù)中的所述項(xiàng)集;G.計(jì)算所述用戶(hù)群體的所述項(xiàng)集在所述前綴樹(shù)中支持度之間的差異度,把符合預(yù) 定條件的閾值的項(xiàng)集放入差異模式集中;對(duì)符合剪裁條件的項(xiàng)集進(jìn)行剪裁;H.對(duì)差異模式集中的項(xiàng)集按差異度降序排列并輸出。


圖1給出了根據(jù)本發(fā)現(xiàn)獲取用戶(hù)網(wǎng)上瀏覽行為差異模式的系統(tǒng)體系結(jié)構(gòu)圖。
圖2給出了本發(fā)明中數(shù)據(jù)預(yù)處理模塊的主要流程。圖3給出了差異模式發(fā)現(xiàn)的流程圖。
具體實(shí)施例方式如圖1所示,根據(jù)本發(fā)明的一個(gè)實(shí)施例的用戶(hù)網(wǎng)上瀏覽行為差異模式獲取系統(tǒng)包 括四個(gè)主要模塊輸入模塊101、預(yù)處理模塊102、差異模式發(fā)現(xiàn)模塊103和輸出模塊104。如圖2所示,根據(jù)本發(fā)明的一個(gè)實(shí)施例的用戶(hù)網(wǎng)上瀏覽行為差異模式獲取方法包 括A.輸入日志數(shù)據(jù)庫(kù)(步驟201);B.劃分用戶(hù)群(步驟202);根據(jù)一個(gè)具體實(shí)施方式
,該步驟將用戶(hù)按照年齡分為 老、中、青3個(gè)群體,并且為每個(gè)群體創(chuàng)建會(huì)話(huà)級(jí)的數(shù)據(jù)庫(kù)(步驟203),分別記為Dl,D2和 D3 ;C.根據(jù)一個(gè)具體實(shí)施方式
,該步驟分別從數(shù)據(jù)庫(kù)Dl,D2和D3中發(fā)現(xiàn)被頻繁訪(fǎng)問(wèn) 的單個(gè)項(xiàng)(步驟204),并據(jù)此創(chuàng)建3棵前綴樹(shù)Tl,T2和T3 (步驟205);D.根據(jù)3棵樹(shù)的頭表,同步處理3棵樹(shù)中的項(xiàng)集,計(jì)算項(xiàng)集在3個(gè)群體之間的差異 度,對(duì)符合條件者放入差異模式集中;對(duì)符合剪裁條件的項(xiàng)集停止處理(步驟206);E.對(duì)差異模式集中的項(xiàng)集按差異度降序排列并輸出(步驟207)。上述步驟B進(jìn)一步包括Bi.確定用戶(hù)群區(qū)間(例如老中青的年齡區(qū)間),按照所確定的區(qū)間將每個(gè)用戶(hù)分 到相應(yīng)群體(G1、G2和G3)中;B2.對(duì)每個(gè)用戶(hù),將其中一次會(huì)話(huà)中訪(fǎng)問(wèn)的每個(gè)網(wǎng)頁(yè)對(duì)應(yīng)域名作為一個(gè)項(xiàng)替換會(huì) 話(huà)中的網(wǎng)頁(yè),一次會(huì)話(huà)中涉及到所有的項(xiàng)構(gòu)成一條記錄存放于數(shù)據(jù)庫(kù)中,從而同一個(gè)群體 中的所有用戶(hù)的所有記錄構(gòu)成了相應(yīng)的數(shù)據(jù)庫(kù)Dl,D2和D3。上述步驟C進(jìn)一步包括Cl.從每個(gè)用戶(hù)數(shù)據(jù)庫(kù)中發(fā)現(xiàn)頻繁單項(xiàng),合并這些單項(xiàng),構(gòu)造單項(xiàng)列表L(步驟 204),按照它們?cè)跀?shù)據(jù)庫(kù)Dl中的支持度大小降序排列;C2.根據(jù)列表L,分別構(gòu)建頭表HI、H2和H3 ;分別掃描數(shù)據(jù)庫(kù)Dl,D2和D3為每個(gè) 數(shù)據(jù)庫(kù)分別構(gòu)建一棵前綴樹(shù)(步驟205)。其中,根據(jù)一個(gè)具體實(shí)施例,上述步驟Cl中計(jì)算單項(xiàng)(或項(xiàng)集)I在群體Gi中的 支持度的公式如下 其中η為群體Gi中的用戶(hù)總數(shù),Sup(Iluij)表示項(xiàng)集I在用戶(hù)Uij的會(huì)話(huà)中的支 持度,是包含I的記錄(即會(huì)話(huà))個(gè)數(shù)占用戶(hù)uij的總記錄個(gè)數(shù)的百分比。支持度大于用 戶(hù)給定的一個(gè)最小支持度閾值的項(xiàng)集被稱(chēng)為頻繁項(xiàng)集。上述步驟D進(jìn)一步包括Dl.分別取每個(gè)頭表中的當(dāng)前項(xiàng)(初始情況下最后一項(xiàng)為當(dāng)前項(xiàng)),構(gòu)造當(dāng)前項(xiàng) 集,計(jì)算該項(xiàng)集在3個(gè)數(shù)據(jù)庫(kù)中支持度的最大差異,把超過(guò)閾值的項(xiàng)集放入差異模式集中;D2.計(jì)算當(dāng)前項(xiàng)集中所有超集的最大差異度,如果該差異度小于一個(gè)預(yù)定閾值,停止處理該項(xiàng)集,處理頭表中當(dāng)前項(xiàng)的上一個(gè)項(xiàng);否則,在每個(gè)數(shù)據(jù)庫(kù)中抽取當(dāng)前項(xiàng)所在的所 有分枝,構(gòu)造域名數(shù)據(jù)庫(kù)和前綴樹(shù),重復(fù)Dl和D2兩個(gè)步驟的處理。如果頭表為空,返回上一級(jí)頭表,直至頭表中的項(xiàng) 全部處理完畢。其中,根據(jù)一個(gè)具體實(shí)施例,上述步驟Dl中項(xiàng)集I在3個(gè)數(shù)據(jù)庫(kù)中支持度的最大 差異的計(jì)算方法如下difference (I) = Max (sup (I | G1), sup (I | G2), sup (I | G3))(2)
-Min (sup (I | G1),sup (I | G2),sup (I | G3))根據(jù)一個(gè)具體實(shí)施例,上述步驟D2中計(jì)算當(dāng)前項(xiàng)集I所有超集的最大差異度的方 法如下difference = Max {sup {I \ G ι), sup (I | G 2 ), sup (/ | Gj ))- Min (Min {sup (/ | Gi)))(3)
/ = 1,2,3 IeS(I)其中S(I)指的是I在數(shù)據(jù)庫(kù)中存在的超集的集合。本發(fā)明的優(yōu)點(diǎn)包括(1)該方法不僅適用于發(fā)現(xiàn)3個(gè)用戶(hù)群體之間的差異模式,也適用于發(fā)現(xiàn)m(m > 1)個(gè)群體差異。它還不僅適用于發(fā)現(xiàn)用戶(hù)瀏覽行為的差異,也適用于發(fā)現(xiàn)其他領(lǐng)域群體之 間的差異,例如不同種族之間,失事飛機(jī)與非失事飛機(jī)之間等。(2)該方法更合理地定義了差異模式的標(biāo)準(zhǔn),通過(guò)構(gòu)造前綴樹(shù)對(duì)數(shù)據(jù)進(jìn)行了壓縮, 并充分利用該數(shù)據(jù)結(jié)構(gòu)的特點(diǎn),設(shè)計(jì)了更加有效的剪裁策略,使得搜索空間不斷縮小,提高 了發(fā)現(xiàn)效率。針對(duì)已有的差異方法存在的問(wèn)題,本發(fā)明人提出了一種高效獲取用戶(hù)網(wǎng)上瀏覽行 為差異模式的系統(tǒng)和方法。圖1給出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的系統(tǒng)結(jié)構(gòu)圖。如圖1所示,基于這種方法 的系統(tǒng)由4個(gè)主要模塊構(gòu)成輸入模塊101,用于把用戶(hù)瀏覽的日志數(shù)據(jù)輸入日志數(shù)據(jù)庫(kù); 數(shù)據(jù)預(yù)處理模塊102 ;差異發(fā)現(xiàn)模塊103 ;輸出模塊104。根據(jù)一個(gè)具體實(shí)施例,數(shù)據(jù)預(yù)處理模塊102用于完成日志數(shù)據(jù)庫(kù)的清洗和轉(zhuǎn)換, 將家庭成員為1的用戶(hù)選出,按照年齡分為老、中、青3個(gè)群體,并將每個(gè)用戶(hù)每次會(huì)話(huà)中訪(fǎng) 問(wèn)的網(wǎng)頁(yè)的域名抽取作為項(xiàng)構(gòu)成記錄,從而構(gòu)建群體數(shù)據(jù)庫(kù),并進(jìn)而選出頻繁訪(fǎng)問(wèn)的單個(gè) 項(xiàng)為后面的前綴樹(shù)構(gòu)建和挖掘做準(zhǔn)備。差異發(fā)現(xiàn)模塊103是本系統(tǒng)的主體模塊,主要用于 完成具有顯著差異的頻繁項(xiàng)集的發(fā)現(xiàn)工作。輸出模塊104用于按照差異的大小降序輸出所 有的差異模式。下面參考圖2和圖3,對(duì)根據(jù)本發(fā)明獲取用戶(hù)網(wǎng)上瀏覽行為差異模式的方法進(jìn)行 詳細(xì)地說(shuō)明。圖2給出了本發(fā)明中數(shù)據(jù)預(yù)處理模塊的主要流程輸入日志數(shù)據(jù)庫(kù)后可以按照如 下步驟完成數(shù)據(jù)的預(yù)處理功能(1)確定老中青的年齡區(qū)間,將用戶(hù)按照年齡分為老、中、青3個(gè)群體;(2)對(duì)每個(gè)用戶(hù),將其中一次會(huì)話(huà)中訪(fǎng)問(wèn)的所有網(wǎng)頁(yè)的域名抽取,每個(gè)域名對(duì)應(yīng) 一個(gè)項(xiàng)組成一條記錄存放,一個(gè)群體中的所有用戶(hù)的所有記錄構(gòu)成了域名數(shù)據(jù)庫(kù)Dl,D2和 D3。
5
(3)從每個(gè)用戶(hù)數(shù)據(jù)庫(kù)中發(fā)現(xiàn)頻繁單項(xiàng)(即被頻繁訪(fǎng)問(wèn)的網(wǎng)頁(yè)對(duì)應(yīng)的域名),合并 這些單項(xiàng),構(gòu)造單項(xiàng)列表L,按照它們?cè)跀?shù)據(jù)庫(kù)Dl中的支持度大小降序排列;圖3顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例的差異模式發(fā)現(xiàn)的流程圖。(1)根據(jù)列表L,構(gòu)建3個(gè)頭表HI、H2和H3,并將其設(shè)為當(dāng)前頭表;掃描域名數(shù)據(jù) 庫(kù)為每個(gè)數(shù)據(jù)庫(kù)構(gòu)建一棵前綴樹(shù),分別記為T(mén)l,T2和T3 ;每個(gè)頭表中按照L中項(xiàng)的順序記 錄了每個(gè)單項(xiàng)、該項(xiàng)在相應(yīng)數(shù)據(jù)庫(kù)中的支持度以及一個(gè)指針用于指向前綴樹(shù)中存放該項(xiàng)的 節(jié)點(diǎn)(步驟301)。其中為數(shù)據(jù)庫(kù)Dl創(chuàng)建前綴樹(shù)Tl的方法(為數(shù)據(jù)庫(kù)D2和D3創(chuàng)建前綴樹(shù) T2和T3的方法相同)如下首先,創(chuàng)建樹(shù)的根節(jié)點(diǎn)root,用null標(biāo)記;然后掃描數(shù)據(jù)庫(kù)D1,將每一行對(duì)應(yīng)的項(xiàng)按列表L中項(xiàng)的順序排序,并為每個(gè)會(huì)話(huà) 記錄創(chuàng)建一個(gè)分枝。分枝中每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)項(xiàng),記錄項(xiàng)的名稱(chēng)以及當(dāng)前頻度,每條會(huì)話(huà)記 錄的頻度,對(duì)于一個(gè)擁有k個(gè)會(huì)話(huà)的用戶(hù)來(lái)說(shuō),等于1/k;每次處理一個(gè)新的會(huì)話(huà)記錄,首先判斷樹(shù)中已有分枝是否與該分枝從根節(jié)點(diǎn)開(kāi)始 有重疊的部分(即是否共享前綴),如果有,則共享該部分節(jié)點(diǎn),將當(dāng)前記錄的頻度累加到 已有節(jié)點(diǎn)的頻度值上即可,對(duì)于之后不共享的項(xiàng),創(chuàng)建新的節(jié)點(diǎn),與已有節(jié)點(diǎn)相連,并記錄 當(dāng)前記錄的頻度為節(jié)點(diǎn)的頻度;最后,把頭表中的每個(gè)項(xiàng)與前綴樹(shù)中的該項(xiàng)通過(guò)鏈表相連。(2)如果當(dāng)前頭表非空,分別取每個(gè)頭表中的下一個(gè)尚未處理的項(xiàng)為當(dāng)前項(xiàng)(步 驟302),構(gòu)造當(dāng)前項(xiàng)集,進(jìn)入下一步處理。(3)根據(jù)公式(3)計(jì)算當(dāng)前項(xiàng)集與其所有超集(超集指的是包含該當(dāng)前項(xiàng)集的項(xiàng) 集,此處具體指當(dāng)前項(xiàng)集所在的每個(gè)分枝對(duì)應(yīng)的項(xiàng)集)的最大差異度(步驟303),如果該差 異度小于閾值,停止處理該項(xiàng)集,查看頭表中是否還有未處理的項(xiàng)(步驟307);否則,根據(jù) 公式(2)計(jì)算該項(xiàng)集在3個(gè)數(shù)據(jù)庫(kù)中支持度的最大差異,判斷是否超過(guò)閾值(步驟308),超 過(guò)則將其放入差異模式集中(步驟309),然后進(jìn)入下一步,否則直接進(jìn)入下一步;(4)在每個(gè)數(shù)據(jù)庫(kù)中抽取當(dāng)前項(xiàng)所在的所有分枝,查看是否存在頻繁項(xiàng)(步驟 310),存在則構(gòu)造頻繁項(xiàng)列表L,跳至步驟(1)處理。若不存在則查看頭表中是否還有未處 理的項(xiàng)(步驟307),若是則至步驟(2)繼續(xù)處理。若否則查看是否存在上層頭表(步驟 306),若存在則返回上層頭表(步驟305),接著跳至步驟(2)繼續(xù)處理,否則進(jìn)入步驟(5)。(5)過(guò)程結(jié)束,進(jìn)入輸出模塊,對(duì)差異模式集中的項(xiàng)集按差異度降序排列并輸出。對(duì)本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)可顯而易見(jiàn)的得出其他優(yōu)點(diǎn)和修改。因此,具有更 廣方面的本發(fā)明并不局限于這里所示出的并所描述的具體說(shuō)明及示例實(shí)施。因此,在不脫 離由隨后權(quán)利要求及其等價(jià)體所定義的一般發(fā)明構(gòu)思的精神和范圍的情況下,可對(duì)其做出 各種修改。
權(quán)利要求
一種獲取用戶(hù)網(wǎng)上瀏覽行為差異模式的方法,其特征在于包括A.輸入日志數(shù)據(jù)庫(kù);B.按照一個(gè)預(yù)定的標(biāo)準(zhǔn)劃分用戶(hù)群體,C.為每個(gè)群體創(chuàng)建會(huì)話(huà)級(jí)的數(shù)據(jù)庫(kù)(D1,D2,D3);D.分別從所述數(shù)據(jù)庫(kù)(D1,D2,D3)中發(fā)現(xiàn)被頻繁訪(fǎng)問(wèn)的單個(gè)項(xiàng);E.分別為所述數(shù)據(jù)庫(kù)(D1,D2,D3)創(chuàng)建前綴樹(shù)(T1,T2,T3),其中所述數(shù)據(jù)庫(kù)(D1,D2,D3)中的每一行對(duì)應(yīng)所述前綴樹(shù)(T1,T2,T3)中的一個(gè)分支,且不同的分支共享從根節(jié)點(diǎn)開(kāi)始的路徑;F.根據(jù)所述前綴樹(shù)(T1,T2,T3)的頭表(H1,H2,H3),構(gòu)造當(dāng)前項(xiàng)集,同步處理所述前綴樹(shù)(T1,T2,T3)中的所述項(xiàng)集;G.計(jì)算所述用戶(hù)群體的所述項(xiàng)集在所述前綴樹(shù)中支持度之間的差異度,把符合預(yù)定條件的閾值的項(xiàng)集放入差異模式集中;對(duì)符合剪裁條件的項(xiàng)集進(jìn)行剪裁;H.對(duì)差異模式集中的項(xiàng)集按差異度降序排列并輸出。
2.如權(quán)利要求1所述的方法,其特征在于所述為每個(gè)群體創(chuàng)建會(huì)話(huà)級(jí)的數(shù)據(jù)庫(kù)(D1, D2,D3)的步驟進(jìn)一步包括對(duì)每個(gè)用戶(hù),將其中一次會(huì)話(huà)中訪(fǎng)問(wèn)的每個(gè)網(wǎng)頁(yè)所對(duì)應(yīng)的域名作為一個(gè)項(xiàng)替換原來(lái)的 網(wǎng)頁(yè),去除一次會(huì)話(huà)中重復(fù)的項(xiàng)后構(gòu)成用戶(hù)的一條記錄;用一個(gè)群體中的所有用戶(hù)的所有記錄構(gòu)成所述數(shù)據(jù)庫(kù)(Dl,D2,D3)。
3.如權(quán)利要求1所述的方法,其特征在于所述步驟D包括從每個(gè)數(shù)據(jù)庫(kù)(Dl,D2,D3)中發(fā)現(xiàn)被頻繁訪(fǎng)問(wèn)的單個(gè)項(xiàng)的集合,將所述集合中的項(xiàng)放 到一個(gè)列表(L)中,去除重復(fù)的項(xiàng),并按照這些項(xiàng)在數(shù)據(jù)庫(kù)Dl中的支持度降序排列列表中 的項(xiàng);所述步驟E包括根據(jù)所述列表(L),構(gòu)建所述頭表(H1,H2,H3);掃描所述數(shù)據(jù)庫(kù)(D1,D2,D3)從而為每個(gè)所述數(shù)據(jù)庫(kù)(D1,D2,D3)構(gòu)建一棵前綴樹(shù)。
4.如權(quán)利要求1所述的方法,其特征在于所述步驟F進(jìn)一步包括Fl.分別取每個(gè)所述頭表中的當(dāng)前項(xiàng),構(gòu)造當(dāng)前項(xiàng)集,F(xiàn)2.計(jì)算所述當(dāng)前項(xiàng)集在所述數(shù)據(jù)庫(kù)(D1,D2,D3)中支持度的最大差異,F(xiàn)3.判斷所述最大差異是否超過(guò)預(yù)定的閾值,“是”則把當(dāng)前項(xiàng)集放入差異模式集中,F(xiàn)4.計(jì)算當(dāng)前項(xiàng)集的所有超集的最大差異度,且如果所述最大差異度小于所述預(yù)定的閾值,停止處理當(dāng)前項(xiàng)集,接著處理下一個(gè)項(xiàng) 集;);如果所述最大差異度大于所述預(yù)定的閾值,在每個(gè)數(shù)據(jù)庫(kù)中抽取當(dāng)前項(xiàng)集所在的所有 分枝,構(gòu)造相應(yīng)的數(shù)據(jù)庫(kù)和前綴樹(shù),重復(fù)步驟F1-F4的處理,直至所述頭表為空,返回上一 級(jí)頭表。
全文摘要
本發(fā)明提供了一種獲取用戶(hù)網(wǎng)上瀏覽行為差異模式的方法,包括A.輸入日志數(shù)據(jù)庫(kù);B.按照預(yù)定的標(biāo)準(zhǔn)劃分用戶(hù)群體;C.為每個(gè)群體創(chuàng)建會(huì)話(huà)級(jí)的數(shù)據(jù)庫(kù)(D1,D2,D3);D.分別從數(shù)據(jù)庫(kù)(D1,D2,D3)中發(fā)現(xiàn)被頻繁訪(fǎng)問(wèn)的單個(gè)項(xiàng);E.分別為數(shù)據(jù)庫(kù)(D1,D2,D3)創(chuàng)建前綴樹(shù)(T1,T2,T3),其中數(shù)據(jù)庫(kù)(D1,D2,D3)中的每一行對(duì)應(yīng)前綴樹(shù)(T1,T2,T3)中的一個(gè)分支,且不同的分支共享從根節(jié)點(diǎn)開(kāi)始的路徑;F.根據(jù)前綴樹(shù)(T1,T2,T3)的頭表(H1,H2,H3),構(gòu)造當(dāng)前項(xiàng)集同步處理前綴樹(shù)(T1,T2,T3)中的項(xiàng)集;G.計(jì)算用戶(hù)群體的項(xiàng)集在前綴樹(shù)中支持度之間的差異度,把符合預(yù)定條件的閾值的項(xiàng)集放入差異模式集中;對(duì)符合剪裁條件的項(xiàng)集進(jìn)行剪裁;H.對(duì)差異模式集中的項(xiàng)集按差異度降序排列并輸出。
文檔編號(hào)G06F17/30GK101894122SQ20101016941
公開(kāi)日2010年11月24日 申請(qǐng)日期2010年5月11日 優(yōu)先權(quán)日2010年5月11日
發(fā)明者劉紅巖, 楊穎慧, 鄭勇 申請(qǐng)人:清華大學(xué)
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
康马县| 札达县| 漳平市| 樟树市| 周口市| 宣武区| 高淳县| 林西县| 腾冲县| 沂源县| 陇西县| 北票市| 长岭县| 汾阳市| 循化| 临夏市| 方城县| 石阡县| 额敏县| 龙海市| 格尔木市| 宜兰市| 盈江县| 辽宁省| 仙桃市| 聂拉木县| 新疆| 萝北县| 饶河县| 渭南市| 曲松县| 绥阳县| 开鲁县| 宜川县| 陈巴尔虎旗| 拜城县| 宜兰市| 慈利县| 夹江县| 浏阳市| 彰化县|