欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

網(wǎng)站使用記錄探勘裝置及方法以及計(jì)算機(jī)可讀取儲(chǔ)存媒體的制作方法

文檔序號(hào):6421347閱讀:232來源:國知局
專利名稱:網(wǎng)站使用記錄探勘裝置及方法以及計(jì)算機(jī)可讀取儲(chǔ)存媒體的制作方法
技術(shù)領(lǐng)域
此發(fā)明涉及一種網(wǎng)站使用記錄探勘裝置及方法,特別是一種依據(jù)網(wǎng)絡(luò)階層所訂定的多個(gè)最小支持度記錄并關(guān)聯(lián)法則(association rule)分析算法,進(jìn)行網(wǎng)絡(luò)使用記錄探勘的裝置及方法以及計(jì)算機(jī)可讀取儲(chǔ)存媒體。

背景技術(shù)
隨著因特網(wǎng)的快速發(fā)展,網(wǎng)站數(shù)據(jù)探勘(web data mining)儼然成為一重要的研發(fā)議題。其中一重要的主題為瀏覽路徑模式探勘(mining of pathtraversal patterns),在統(tǒng)計(jì)顯著關(guān)聯(lián)(significant statisticalcorrelation)的基礎(chǔ)下,用以決定使用者下一可能瀏覽的網(wǎng)頁。網(wǎng)站服務(wù)器所搜集的網(wǎng)頁使用記錄數(shù)據(jù)(web log data),記載了使用者讀取網(wǎng)站網(wǎng)頁的信息,亦即擁有不同地址的不同客戶端請(qǐng)求統(tǒng)一資源定位(uniform resourcelocator;URL)的順序。對(duì)于這些大量的使用記錄數(shù)據(jù)的分析,需要運(yùn)用數(shù)據(jù)探勘方法。依據(jù)關(guān)聯(lián)法則探勘(association rules mining)的定義,欲挖掘出的模式為經(jīng)常出現(xiàn)的讀取順序,如果一讀取順序的頻率滿足一最小要求值,則此順序則代表了一經(jīng)常瀏覽路徑模式(frequent traversal pathpattern)。在因特網(wǎng)環(huán)境中,了解使用者讀取模式不僅可幫助改善網(wǎng)站設(shè)計(jì)(例如,針對(duì)高度關(guān)聯(lián)的對(duì)象提供取得方式,改善網(wǎng)頁布置設(shè)計(jì)等),更可進(jìn)行高品質(zhì)的行銷決策(例如,在適當(dāng)?shù)木W(wǎng)頁放置廣告,更好的消費(fèi)者區(qū)隔以及使用行為分析等)。
雖然已知的關(guān)聯(lián)法則探勘方法足以從使用記錄數(shù)據(jù)中探勘出經(jīng)常瀏覽路徑模式,但是其結(jié)果通常過多以至于無法分析。大多數(shù)的關(guān)聯(lián)法則探勘方法使用單一的支持度來決定經(jīng)常瀏覽路徑模式,而不考慮一些諸如模式長度、網(wǎng)頁階層等重要因素。結(jié)果,當(dāng)支持度設(shè)得太低,則會(huì)得到過多無意義的模式;當(dāng)支持度設(shè)得過高,則又會(huì)忽略掉一些重要的模式。
所以,需要一關(guān)聯(lián)法則探勘技術(shù),其考慮模式長度、網(wǎng)頁階層等因素,據(jù)以增加產(chǎn)出結(jié)果的有效性。


發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的是提供一種網(wǎng)站使用記錄探勘裝置及方法,使用考慮模式長度與網(wǎng)頁階層的關(guān)聯(lián)法則分析算法,據(jù)以增加產(chǎn)出結(jié)果的有效性。
依據(jù)上述目的,本發(fā)明的網(wǎng)站使用記錄探勘裝置及方法首先設(shè)置一中央處理器、一內(nèi)存、一數(shù)據(jù)儲(chǔ)存裝置。中央處理器從內(nèi)存接收并執(zhí)行程序指令,用以達(dá)成網(wǎng)站使用記錄探勘的功能。數(shù)據(jù)儲(chǔ)存裝置儲(chǔ)存多筆網(wǎng)絡(luò)使用記錄以及多筆依據(jù)瀏覽階層所設(shè)定的最小支持度記錄。內(nèi)存最主要包括一記錄探勘程序,其中又包括探勘模塊、數(shù)據(jù)準(zhǔn)備模塊、雙關(guān)聯(lián)順序產(chǎn)生模塊以及多關(guān)聯(lián)順序產(chǎn)生模塊,用以輸入網(wǎng)絡(luò)使用記錄以及最小支持度記錄,產(chǎn)生經(jīng)常關(guān)聯(lián)順序(frequent reference sequence)集合。
探勘模塊為程序的主要模塊,會(huì)執(zhí)行數(shù)據(jù)準(zhǔn)備模塊、雙關(guān)聯(lián)順序產(chǎn)生模塊以及多關(guān)聯(lián)順序模塊,用以產(chǎn)生結(jié)果。設(shè)min_sup(p)表示網(wǎng)頁p的最小支持度,且MinSup(c)表示關(guān)聯(lián)順序c中的所有網(wǎng)頁p中的最小支持度,定義為<math> <mrow> <mi>MinSup</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>min</mi> <mrow> <mi>p</mi> <mo>&Element;</mo> <mi>c</mi> </mrow> </munder> <mo>{</mo> <mi>min</mi> <mo>_</mo> <mi>sup</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>}</mo> <mo>.</mo> </mrow> </math> 首先,須執(zhí)行數(shù)據(jù)準(zhǔn)備模塊中的帶有P以及D兩參數(shù)的Prepare算法,產(chǎn)生候選雙關(guān)聯(lián)順序(candidate 2-referencesequence;C2)集合,作為產(chǎn)生長k關(guān)聯(lián)順序(其出現(xiàn)次數(shù)超過MinSup(.))的起點(diǎn),其中,P表最小支持度記錄,D表網(wǎng)絡(luò)使用記錄。此算法中,經(jīng)由多次掃描網(wǎng)絡(luò)使用記錄,可得到的長k關(guān)聯(lián)順序(large k-reference sequence;Lk)集合。除了C2集合是由雙關(guān)聯(lián)順序產(chǎn)生模塊產(chǎn)生外,在k-1次掃描網(wǎng)站使用記錄所產(chǎn)生的長k-1關(guān)聯(lián)順序(large k-1-reference sequence;Lk-1)集合,會(huì)被多關(guān)聯(lián)順序產(chǎn)生模塊所使用,以產(chǎn)生候選k關(guān)聯(lián)順序(candidatek-reference sequence;Ck)集合。接下來,掃描網(wǎng)絡(luò)使用記錄,得到Ck的出現(xiàn)次數(shù)。最后,移除出現(xiàn)次數(shù)小于相應(yīng)的MinSup(.)的Ck,得到Lk集合。最后,經(jīng)常關(guān)聯(lián)順序?yàn)樗蠰k的集合。
附圖簡述 為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉實(shí)施例,并配合附圖,進(jìn)行詳細(xì)說明如下

圖1是表示本發(fā)明實(shí)施例的網(wǎng)站使用記錄探勘裝置的方塊圖; 圖2是表示本發(fā)明實(shí)施例的網(wǎng)站使用記錄探勘裝置的內(nèi)存示意圖; 圖3是表示本發(fā)明實(shí)施例的范例網(wǎng)頁架構(gòu)示意圖; 圖4是表示本發(fā)明實(shí)施例網(wǎng)絡(luò)使用的范例記錄示意圖; 圖5是表示本發(fā)明實(shí)施例最小支持度的范例記錄示意圖; 圖6是表示本發(fā)明實(shí)施例的范例長單關(guān)聯(lián)順序(L1)以及長雙關(guān)聯(lián)順序(L2)的數(shù)據(jù)處理示意圖; 圖7是表示本發(fā)明實(shí)施例的范例長三關(guān)聯(lián)順序(L3)的數(shù)據(jù)處理示意圖; 圖8是表示本發(fā)明實(shí)施例的網(wǎng)站使用記錄探勘方法的方法流程圖; 圖9是表示本發(fā)明實(shí)施例的計(jì)算機(jī)可讀取儲(chǔ)存媒體示意圖。
附圖符號(hào)說明 100-網(wǎng)站使用記錄探勘裝置;11-顯示裝置;12-中央處理器;13-內(nèi)存;14-數(shù)據(jù)儲(chǔ)存裝置;15-輸入裝置;21-總線;131-操作系統(tǒng);132-應(yīng)用程序;133-網(wǎng)絡(luò)使用記錄探勘程序;1331-探勘模塊;1332-數(shù)據(jù)準(zhǔn)備模塊;1333-雙關(guān)聯(lián)順序產(chǎn)生模塊;1334-多關(guān)聯(lián)順序產(chǎn)生模塊;141-網(wǎng)絡(luò)使用記錄;142-最小支持度記錄;90-計(jì)算機(jī)可讀取儲(chǔ)存媒體。

具體實(shí)施例方式 圖1是表示本發(fā)明實(shí)施例的網(wǎng)站使用記錄探勘裝置的方塊圖。網(wǎng)站使用記錄探勘裝置100包括一顯示裝置11、一中央處理器12、一內(nèi)存13、一數(shù)據(jù)儲(chǔ)存裝置14以及一輸入裝置15。在Von Neumann架構(gòu)中,中央處理器12利用一總線21連接顯示裝置11、中央處理器12、內(nèi)存13、數(shù)據(jù)儲(chǔ)存裝置14以及輸入裝置15。中央處理器12、顯示裝置11、內(nèi)存13以及輸入裝置15可以組合成為一部個(gè)人計(jì)算機(jī)。中央處理器12可以為由Motorola、IBM或Intel所生產(chǎn)的微處理器;顯示裝置11可以為映像管顯示器、液晶屏幕顯示器或電漿顯示器;輸入裝置15可以為鍵盤、鼠標(biāo)或其它可輸入信號(hào)的裝置。中央處理器12亦可耦接于諸如硬盤、軟盤、隨身碟、存儲(chǔ)卡等數(shù)據(jù)儲(chǔ)存裝置14。任何熟悉此項(xiàng)技藝者皆了解,網(wǎng)站使用記錄探勘系統(tǒng)100可以是一個(gè)人計(jì)算機(jī)、工作站、迷你計(jì)算機(jī)、大型主機(jī)或筆記型計(jì)算機(jī)。中央處理器12從內(nèi)存13接收并執(zhí)行程序指令,用以達(dá)成網(wǎng)站使用記錄探勘的功能。
圖2是表示本發(fā)明實(shí)施例的網(wǎng)站使用記錄探勘裝置的內(nèi)存示意圖。數(shù)據(jù)儲(chǔ)存裝置14儲(chǔ)存多筆網(wǎng)絡(luò)使用記錄141以及多筆最小支持度記錄142。內(nèi)存13在最佳的情況為隨機(jī)存取內(nèi)存(RAM),但亦包括只讀存儲(chǔ)器(ROM)、可電子抹寫程序只讀存儲(chǔ)器(EEPROM)以及閃存(flash ROM)。在內(nèi)存13中,包括操作系統(tǒng)131、應(yīng)用程序132以及網(wǎng)絡(luò)使用記錄探勘程序133。本發(fā)明的內(nèi)存44最主要包括一記錄探勘程序133,其中又包括探勘模塊1331、數(shù)據(jù)準(zhǔn)備模塊1332、雙關(guān)聯(lián)順序產(chǎn)生模塊1333以及多關(guān)聯(lián)順序產(chǎn)生模塊1334,用以輸入網(wǎng)絡(luò)使用記錄141以及最小支持度記錄142,產(chǎn)生經(jīng)常關(guān)聯(lián)順序(frequentreference sequence)集合。本發(fā)明所采用的操作系統(tǒng)131,可為MicrosoftWindows、Unix、Linux、Sun Solaris、IBM AIX等。內(nèi)存13亦可包含各式各樣的應(yīng)用程序132,諸如Microsoft Word、Excel、IE等。
圖3是表示本發(fā)明實(shí)施例的范例網(wǎng)頁架構(gòu)示意圖,此架構(gòu)包含網(wǎng)頁A-H,用以表示網(wǎng)頁間的連結(jié)情形。網(wǎng)絡(luò)使用記錄141在最佳的情況下,具有兩個(gè)字段,編號(hào)以及瀏覽路徑,瀏覽路徑字段記錄具順序性的網(wǎng)頁編號(hào)集合,表示一使用者依此順序?yàn)g覽網(wǎng)站中的網(wǎng)頁。圖4是表示本發(fā)明實(shí)施例網(wǎng)絡(luò)使用的范例記錄示意圖,其中,相應(yīng)于圖3所示的網(wǎng)頁架構(gòu),包含10筆記錄401-410。例如,記錄408代表使用者依序?yàn)g覽了C、B以及F網(wǎng)頁。圖5是表示本發(fā)明實(shí)施例最小支持度的范例記錄示意圖,其中,圖3所示的每一網(wǎng)頁包含一最小支持度,分別記載于記錄51-58。依據(jù)瀏覽階層,會(huì)設(shè)定不同的支持度,在最佳的情況下,越上層的網(wǎng)頁,例如,入口網(wǎng)頁,會(huì)設(shè)定較高的支持度值。
探勘模塊1331為程序的主要模塊,會(huì)執(zhí)行數(shù)據(jù)準(zhǔn)備模塊1332、雙關(guān)聯(lián)順序產(chǎn)生模塊1333以及多關(guān)聯(lián)順序模塊1334,用以產(chǎn)生經(jīng)常關(guān)聯(lián)順序(frequent referencesequence),代表使用者經(jīng)常瀏覽的經(jīng)常瀏覽路徑模式。設(shè)min_sup(p)表示網(wǎng)頁p的最小支持度,如圖5所示,且MinSup(c)表示關(guān)聯(lián)順序c中的所有網(wǎng)頁p中的最小支持度,定義為<math> <mrow> <mi>MinSup</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>min</mi> <mrow> <mi>p</mi> <mo>&Element;</mo> <mi>c</mi> </mrow> </munder> <mo>{</mo> <mi>min</mi> <mo>_</mo> <mi>sup</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>}</mo> <mo>.</mo> </mrow> </math> 探勘模塊1331使用如下的mining算法(algorithm),執(zhí)行如下順序的偽碼 Algorithm mining(P,D)(a1)SD=Prepare(P,D);(a2)L1={<s>|s∈SD,s.count≥min_sup(s)};(a3)for(k=2;Lk-1≠0;k++)do begin(a4)if(k=2)then C2=SeqGenC2(SD);<!-- SIPO <DP n="4"> --><dp n="d4"/>(a5)else Ck=SeqGenCk(Lk-1);(a6)endScan database and compute frequency of each<br/>candidate Ck;(a8)Lk={c∈Ck|c.count≥MinSup(c)};(a9) end(a10)Answer=∪kLk; 首先,須執(zhí)行數(shù)據(jù)準(zhǔn)備模塊1332中的帶有P以及D兩參數(shù)的Prepare算法,產(chǎn)生候選雙關(guān)聯(lián)順序(candidate 2-reference sequence;C2)集合,作為產(chǎn)生長k關(guān)聯(lián)順序(其出現(xiàn)次數(shù)超過MinSup(.))的起點(diǎn),其中,P表如圖5所示的最小支持度記錄142,D表如圖4所示的網(wǎng)絡(luò)使用記錄141。此算法中,經(jīng)由多次掃描網(wǎng)絡(luò)使用記錄141,可得到的長k關(guān)聯(lián)順序(large k-referencesequence;Lk)集合。除了C2集合是由SeqGenC2算法產(chǎn)生外(參考第a4行的偽碼),在k-1次掃描網(wǎng)絡(luò)使用記錄141所產(chǎn)生的長k-1關(guān)聯(lián)順序(largek-1-reference sequence;Lk-1)集合,會(huì)被SeqGenCk算法所使用,以產(chǎn)生候選k關(guān)聯(lián)順序(candidate k-reference sequence;Ck,參考第a5行的偽碼)集合。接下來,掃描網(wǎng)絡(luò)使用記錄141,得到Ck的出現(xiàn)次數(shù)(參考第a7行的偽碼)。最后,移除出現(xiàn)次數(shù)小于相應(yīng)的MinSup(.)的Ck,得到Lk(參考第a8行的偽碼)集合。最后,經(jīng)常關(guān)聯(lián)順序?yàn)樗蠰k的集合(參考第a10行的偽碼)。
數(shù)據(jù)準(zhǔn)備模塊1332輸入代表P的最小支持度記錄142(如圖5所示)以及D的網(wǎng)絡(luò)使用記錄141(如圖4所示),使用Prepare算法,以產(chǎn)生種子集合(seed set;SD)以及長單關(guān)聯(lián)順序L1集合。Prepare算法包含如下順序的偽碼 Algorithm Prepare(P,D)(b1) Scan database and compute frequency of each pagep∈P;(b2) Sort pages in P in ascending order of their frequency;(b3) Following sorted order,find first page f in P thatfrequency of f exceeds min_sup(f);(b4) Insert page f into seed set SD;(b5) for each subsequent page i in P that is ordered after f<!-- SIPO <DP n="5"> --><dp n="d5"/>(b6)if (i.count≥min_sup(f))(b7) insert i into set SD;(b8) end 圖6是表示本發(fā)明實(shí)施例的范例長單關(guān)聯(lián)順序(L1)以及長雙關(guān)聯(lián)順序(L2)的數(shù)據(jù)處理示意圖。請(qǐng)參考圖3所示的網(wǎng)頁架構(gòu)、圖4所示網(wǎng)絡(luò)使用記錄141范例以及圖6(a)所示最小支持度記錄142范例。經(jīng)過一次數(shù)據(jù)庫掃描,根據(jù)網(wǎng)頁的最小支持度以升冪的方式,得到如圖6(b)所示的網(wǎng)頁A到H的出現(xiàn)次數(shù)(參考第b1行的偽碼)。接下來,個(gè)別比對(duì)網(wǎng)頁A到H的出現(xiàn)次數(shù)是否大于如圖6(a)所示的最小支持度,是則將該網(wǎng)頁加入到L1中(參考第b3行至b8行的偽碼)。在其中,由于網(wǎng)頁B的出現(xiàn)次數(shù)小于其最小支持度,故將其剔除于L1之外。
雙關(guān)聯(lián)順序產(chǎn)生模塊1333輸入SD的種子集合(如圖6(b)所示),使用seqGenC2算法,以產(chǎn)生候選雙關(guān)聯(lián)順序C2集合。SeqGenC2算法包含如下順序的偽碼 Algorithm SeqGenC2(SD) (c1) for each p in SD in the same order do begin (c2) if p.count≥min_sup(p)then (c3)for each q is ordered after p in SD do begin (c4) if q.count≥min_sup(p)then (c5) insert {pq} and {qp} into C2; (c6)end (c7) end 輸入SD之后,使用雙循環(huán),依序判斷其中每一網(wǎng)頁p以及其后的網(wǎng)頁q的出現(xiàn)次數(shù)是否大于p的最小支持度,是則將{pq}以及{pq}加入到C2中(參考第c1行至c7行的偽碼)。在其中,由于網(wǎng)頁B的出現(xiàn)次數(shù)小于其最小支持度,故將{BA}{AB}{BC}{CB}剔除于C2之外。
圖7是表示本發(fā)明實(shí)施例的范例長三關(guān)聯(lián)順序(L3)的數(shù)據(jù)處理示意圖。多關(guān)聯(lián)順序產(chǎn)生模塊1334輸入Lk-1集合(如圖7(a)所示),使用SeqGenCk算法,以產(chǎn)生候選三關(guān)聯(lián)順序(candidate 3-reference sequence;C3)。SeqGenCk算法包含如下順序的偽碼 Algorithm SeqGenCk(Lk-1) (d1) insert into Ck//join Lk-1 with Lk-1 (d2) select p1,p2,…,pk-1,qk-1 from p,q∈Lk-1 where//mid_join p2=q1,…,pk-1=qk-2 and p1

MSP(p)and qk-1

MSP(q) (d3) Union (d4) select p1,p2,…,pk-1,qk-1 from p,q∈Lk-1 where//head_join p1=q1,…,pk-2=qk-2 and p1∈MSP(p) and q1∈MSP(q) (d5) Union (d6) select p1,q1,q2,…,qk-1 from p,q∈Lk-1 where//tail_join p2=q2,…,pk-1=qk-1 and pk-1∈MSP(p) and qk-1∈MSP(q); (d7) for each reference sequence c∈Ck do begin (d8)for each k-1 subsets s of c do begin (d9) if -|MSP(c)|≥2 or MinSup(s)=MinSup(c) then (d10) if(

Lk-1)then (d11) delete c from Ck; (d12)end (d13) end SeqGenCk算法輸入Lk-1集合。首先,使用三種合并形式(join form),序中合并(mid_join)、序首合并(head_join)以及序尾合并(tail_join),進(jìn)行Lk-1與Lk-1集合的自身合并(參考第d1行至第d6行的偽碼),產(chǎn)生暫存的候選k關(guān)聯(lián)順序(temporal candidate k-reference sequence;ck*)集合。
MSP(r)表示關(guān)聯(lián)順序r中的下限支持網(wǎng)頁(minimum support page),定義為MSP(r)={p|p∈r,min_sup(p)=MinSup(r)}。設(shè)有兩長k-1關(guān)聯(lián)順序p與q,分別擁有{p1,…,pk-1}以及{q1,…,qk-1}的網(wǎng)頁。若除p1以及qk-1外,p與q相同,且p1與qk-1分別不是MSP(p)與MSP(q),則進(jìn)行序中合并,成為ck*{p1,…,pk-2,qk-1}。若除pk-1以及qk-1外,p與q相同,且p1與q1分別是MSP(p)與MSP(q),則進(jìn)行序首合并,成為ck*{p1,…,pk-1,qk-1}。若除p1以及q1外,p與q相同,且pk-1與qk-1分別是MSP(p)與MSP(q),則進(jìn)行序尾合并,成為ck*{p1,q1,…,qk-1}。
之后,刪除ck*集合中但不存在于Lk-1集合中的ck*,產(chǎn)生Ck集合(參考第d7行至d13行的偽碼)。
請(qǐng)參考圖3所示的網(wǎng)頁架構(gòu)、圖4所示網(wǎng)絡(luò)使用記錄141范例以及圖6(a)所示最小支持度記錄142范例。SeqGenCk算法輸入L2(如圖7(a)所示)后,進(jìn)行自身合并,產(chǎn)生暫存的候選三關(guān)聯(lián)順序集合(temporal candidate3-reference sequence;c3*,如圖7(b)所示)。其中,{BEG}為{BG}與{EG}使用序中合并形式的合并結(jié)果。{EBG}為{BG}與{EG}使用序尾合并形式的合并結(jié)果。{BAF}為{BF}與{AF}使用序首合并形式的合并結(jié)果。最后,剔除{EBG}、{BAF}、{ABF},產(chǎn)生最終的候選三關(guān)聯(lián)順序集合(candidate 3-referencesequence;C3,如圖7(c)所示)。
最后,網(wǎng)絡(luò)使用記錄探勘程序132收集所有的Lk,產(chǎn)生經(jīng)常關(guān)聯(lián)順序集合(請(qǐng)參考mining算法的第a10行),如圖6(c)、(e)以及圖7(d)所示。
圖8是表示本發(fā)明實(shí)施例的網(wǎng)站使用記錄探勘方法的方法流程圖。首先,如步驟S811以及S812,分別輸入網(wǎng)絡(luò)使用記錄141,如圖4所示,以及最小支持度記錄142,如圖5所示。網(wǎng)絡(luò)使用記錄141在最佳的情況下,具有兩個(gè)字段,編號(hào)以及瀏覽路徑,瀏覽路徑字段記錄具順序性的網(wǎng)頁編號(hào)集合,表示一使用者依此順序?yàn)g覽網(wǎng)站中的網(wǎng)頁。最小支持度記錄142記錄了每一網(wǎng)頁的最小支持度。
如步驟S821,依據(jù)網(wǎng)絡(luò)使用記錄141,計(jì)算每一網(wǎng)頁的出現(xiàn)次數(shù)并剔除沒有出現(xiàn)過的網(wǎng)頁,之后,根據(jù)網(wǎng)頁的最小支持度以升冪的方式,產(chǎn)生SD,如圖6(b)所示。之后,如步驟S822,依據(jù)最小支持度記錄142,剔除種子集合中出現(xiàn)次數(shù)小于最小支持度的網(wǎng)頁,產(chǎn)生長單關(guān)聯(lián)順序(L1)集合,如圖6(c)所示。
如步驟S831,輸入種子集合(如圖6(b)所示),參考偽碼第c1行至c7行,由上至下選取一網(wǎng)頁p,并逐一選取之后的網(wǎng)頁q,判斷網(wǎng)頁p以及網(wǎng)頁q的出現(xiàn)次數(shù)是否小于網(wǎng)頁p的最小支持度,是則將{pq}以及{qp}當(dāng)作C2,加入到C2集合。如步驟S831,參考偽碼第a7行至a8行,掃描網(wǎng)絡(luò)使用記錄141,計(jì)算并比較每一C2的出現(xiàn)次數(shù)是否大于MinSup(C2)。若是則將此C2當(dāng)作L2,加入到L2集合(如圖6(e)所示)。
如步驟S840,設(shè)定k值為3,表示將產(chǎn)生L3集合。之后,進(jìn)行步驟S841的判斷,因存在L2,接著執(zhí)行步驟S842。在步驟S842中,輸入L2集合,進(jìn)行L2與L2的自身合并,并參考偽碼第d1行至d6行,使用序首、序中、序尾合并規(guī)則,據(jù)以產(chǎn)生c3*集合(如圖7(b)所示)。之后,參考偽碼第d7行至d13行,刪除c3*集合中但不存在于L2集合中的c3*,產(chǎn)生最終的C3集合(如圖7(c)所示)。如步驟S843,參考偽碼第a7行至a8行,掃描網(wǎng)絡(luò)使用記錄141,計(jì)算并比較每一C3的出現(xiàn)次數(shù)是否大于MinSup(C3)。若是則將此C3當(dāng)作一L3,加入L3集合(如圖6(d)所示)。如步驟S844所示,將k加1,表示將產(chǎn)生長四關(guān)聯(lián)順序(large 4-reference sequence;L4)集合。
由于只存在一L3,因此,不可能會(huì)再產(chǎn)生任何的L4,所以,最后會(huì)執(zhí)行步驟S851,合并所有的L1、L2以及L3,成為經(jīng)常關(guān)聯(lián)順序集合,如圖6(c)、(e)以及圖7(d)所示。
再者,本發(fā)明提出一種計(jì)算機(jī)可讀取儲(chǔ)存媒體,用以儲(chǔ)存上述網(wǎng)絡(luò)使用記錄探勘程序132。圖9是表示本發(fā)明實(shí)施例的計(jì)算機(jī)可讀取儲(chǔ)存媒體示意圖。此計(jì)算機(jī)可讀取儲(chǔ)存媒體90,儲(chǔ)存網(wǎng)絡(luò)使用記錄探勘程序133,包含四個(gè)模塊,包含探勘模塊1331、數(shù)據(jù)準(zhǔn)備模塊1332、雙關(guān)聯(lián)順序產(chǎn)生模塊1333以及多關(guān)聯(lián)順序產(chǎn)生模塊1334。
雖然本發(fā)明是以網(wǎng)頁作為分析單元以進(jìn)行范例解說,任何熟悉此項(xiàng)技藝者都知道其亦可以分析被網(wǎng)頁所連結(jié)的任何對(duì)象,例如,圖片、聲音、多媒體文件、可被下載的文件。
因此,藉由本發(fā)明所提供的網(wǎng)絡(luò)使用記錄探勘系統(tǒng)及方法以及計(jì)算機(jī)可讀取儲(chǔ)存媒體,可使用考慮模式長度與網(wǎng)頁階層的關(guān)聯(lián)法則分析算法,據(jù)以增加產(chǎn)出結(jié)果的有效性。
雖然本發(fā)明已以較佳實(shí)施例揭露如上,然其并非用以限定本發(fā)明,任何熟悉此項(xiàng)技藝者,在不脫離本發(fā)明的精神和范圍內(nèi),當(dāng)可做些許更動(dòng)與潤飾,因此本發(fā)明的保護(hù)范圍當(dāng)視后附的申請(qǐng)專利范圍所界定者為準(zhǔn)。
權(quán)利要求
1.一種網(wǎng)站使用記錄探勘裝置,包括
一儲(chǔ)存裝置,用以儲(chǔ)存多個(gè)網(wǎng)絡(luò)使用記錄以及多個(gè)最小支持度記錄,上述網(wǎng)絡(luò)使用記錄包含具順序性的多個(gè)連結(jié)對(duì)象,上述最小支持度記錄儲(chǔ)存相應(yīng)于上述連結(jié)對(duì)象的一支持度數(shù)值,上述連結(jié)對(duì)象的連結(jié)階層越高則上述支持度數(shù)值越高;
一內(nèi)存,包含一記錄探勘程序;以及
一處理單元,耦接于上述儲(chǔ)存裝置以及上述內(nèi)存,用以加載上述記錄探勘程序,依據(jù)上述記錄探勘程序的指示進(jìn)行運(yùn)算,產(chǎn)生一經(jīng)常關(guān)聯(lián)順序集合,上述記錄探勘程序輸入上述網(wǎng)絡(luò)使用記錄以及上述最小支持度記錄,上述記錄探勘程序掃描上述網(wǎng)絡(luò)使用記錄,計(jì)算上述連結(jié)對(duì)象的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)大于上述支持度數(shù)值的上述連結(jié)對(duì)象加入到一第一長關(guān)聯(lián)順序集合,上述記錄探勘程序選擇出現(xiàn)次數(shù)大于零的上述連結(jié)對(duì)象為多個(gè)候選連結(jié)對(duì)象,產(chǎn)生包含兩個(gè)上述候選連結(jié)對(duì)象的多個(gè)第一候選關(guān)聯(lián)順序,上述記錄探勘程序掃描上述網(wǎng)絡(luò)使用記錄,計(jì)算上述第一候選關(guān)聯(lián)順序的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)大于所包含上述候選連結(jié)對(duì)象的最小上述支持度數(shù)值的上述第一候選關(guān)聯(lián)順序加入到一第二長關(guān)聯(lián)順序集合,上述記錄探勘程序合并上述第一長關(guān)聯(lián)順序集合以及上述第二長關(guān)聯(lián)順序集合,產(chǎn)生上述經(jīng)常關(guān)聯(lián)順序集合。
2.如權(quán)利要求1所述的網(wǎng)站使用記錄探勘裝置,其中,上述連結(jié)對(duì)象為網(wǎng)頁或被網(wǎng)頁所連結(jié)的電子文件。
3.如權(quán)利要求1所述的網(wǎng)站使用記錄探勘裝置,其中,上述記錄探勘程序選擇上述第二長關(guān)聯(lián)順序集合中所包含的上述第一候選關(guān)聯(lián)順序,進(jìn)行上述第一候選關(guān)聯(lián)順序的自身合并,產(chǎn)生包含三個(gè)上述候選連結(jié)對(duì)象的多個(gè)第二候選關(guān)聯(lián)順序,上述記錄探勘程序掃描上述網(wǎng)絡(luò)使用記錄,計(jì)算上述第二候選關(guān)聯(lián)順序的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)大于所包含上述候選連結(jié)對(duì)象中的最小上述支持度數(shù)值的上述第二候選關(guān)聯(lián)順序加入到一第三長關(guān)聯(lián)順序集合,上述記錄探勘程序合并上述第三長關(guān)聯(lián)順序集合至上述經(jīng)常關(guān)聯(lián)順序集合。
4.如權(quán)利要求3所述的網(wǎng)站使用記錄探勘裝置,其中,上述記錄探勘程序進(jìn)行自身合并時(shí),合并形式為序首合并、序中合并或序尾合并。
5.如權(quán)利要求1所述的網(wǎng)站使用記錄探勘裝置,其中,上述記錄探勘程序會(huì)依據(jù)先前所產(chǎn)生的上述長關(guān)聯(lián)順序集合中的上述候選關(guān)聯(lián)順序,進(jìn)行自身合并,產(chǎn)生包含超過兩個(gè)上述候選連結(jié)對(duì)象的新候選關(guān)聯(lián)順序。
6.如權(quán)利要求5所述的網(wǎng)站使用記錄探勘裝置,其中,上述記錄探勘程序進(jìn)行自身合并時(shí),合并形式為序首合并、序中合并或序尾合并。
7.一種網(wǎng)站使用記錄探勘方法,其方法被一計(jì)算機(jī)加載執(zhí)行,包括下列步驟
輸入一網(wǎng)絡(luò)使用記錄以及一最小支持度記錄,其中,上述網(wǎng)絡(luò)使用記錄包含具順序性的多個(gè)連結(jié)對(duì)象,上述最小支持度記錄儲(chǔ)存相應(yīng)于上述連結(jié)對(duì)象的一支持度數(shù)值,上述連結(jié)對(duì)象的連結(jié)階層越高則上述支持度數(shù)值越高;
掃描上述網(wǎng)絡(luò)使用記錄,計(jì)算上述連結(jié)對(duì)象的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)大于上述支持度數(shù)值的上述連結(jié)對(duì)象加入到一第一長關(guān)聯(lián)順序集合;
選擇出現(xiàn)次數(shù)大于零的上述連結(jié)對(duì)象為多個(gè)候選連結(jié)對(duì)象,產(chǎn)生包含兩個(gè)上述候選連結(jié)對(duì)象的多個(gè)第一候選關(guān)聯(lián)順序;
掃描上述網(wǎng)絡(luò)使用記錄,計(jì)算上述第一候選關(guān)聯(lián)順序的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)大于所包含上述候選連結(jié)對(duì)象中的最小上述支持度數(shù)值的上述第一候選關(guān)聯(lián)順序加入到一第二長關(guān)聯(lián)順序集合;以及
合并上述第一長關(guān)聯(lián)順序集合以及上述第二長關(guān)聯(lián)順序集合,產(chǎn)生上述經(jīng)常關(guān)聯(lián)順序集合。
8.如權(quán)利要求7所述的網(wǎng)站使用記錄探勘方法,其中,上述連結(jié)對(duì)象為網(wǎng)頁或被網(wǎng)頁所連結(jié)的電子文件。
9.如權(quán)利要求7所述的網(wǎng)站使用記錄探勘方法,其中,更包括下列步驟
選擇上述第二長關(guān)聯(lián)順序集合中所包含的上述第一候選關(guān)聯(lián)順序,進(jìn)行上述第一候選關(guān)聯(lián)順序的自身合并,產(chǎn)生包含三個(gè)上述候選連結(jié)對(duì)象的多個(gè)第二候選關(guān)聯(lián)順序;
掃描上述網(wǎng)絡(luò)使用記錄,計(jì)算上述第二候選關(guān)聯(lián)順序的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)大于所包含上述候選連結(jié)對(duì)象中的最小上述支持度數(shù)值的上述第二候選關(guān)聯(lián)順序加入到一第三長關(guān)聯(lián)順序集合;以及
合并上述第三長關(guān)聯(lián)順序集合到上述經(jīng)常關(guān)聯(lián)順序集合。
10.如權(quán)利要求9所述的網(wǎng)站使用記錄探勘方法,在合并步驟中,自身合并所采用的合并形式為序首合并、序中合并或序尾合并。
11.如權(quán)利要求7所述的網(wǎng)站使用記錄探勘方法,其中,更包括一步驟,依據(jù)先前所產(chǎn)生的上述長關(guān)聯(lián)順序集合中的上述候選關(guān)聯(lián)順序,進(jìn)行自身合并,產(chǎn)生包含超過兩個(gè)上述候選連結(jié)對(duì)象的新候選關(guān)聯(lián)順序。
12.如權(quán)利要求1所述的網(wǎng)站使用記錄探勘方法,在合并步驟中,自身合并所采用的合并形式為序首合并、序中合并或序尾合并。
13.一種計(jì)算機(jī)可讀取儲(chǔ)存媒體,用以儲(chǔ)存一計(jì)算機(jī)程序,該計(jì)算機(jī)程序用以加載至一計(jì)算機(jī)系統(tǒng)中并且使得該計(jì)算機(jī)系統(tǒng)執(zhí)行如權(quán)利要求7至12中任一個(gè)所述的方法。
全文摘要
一種網(wǎng)站使用記錄探勘裝置及方法以及計(jì)算機(jī)可讀取儲(chǔ)存媒體,其系統(tǒng)包括一儲(chǔ)存裝置,儲(chǔ)存網(wǎng)絡(luò)使用記錄以及最小支持度記錄,其中,網(wǎng)絡(luò)使用記錄包含具順序性的連結(jié)對(duì)象,最小支持度記錄儲(chǔ)存連結(jié)對(duì)象的支持度數(shù)值。一處理單元,輸入網(wǎng)絡(luò)使用記錄以及最小支持度記錄,將出現(xiàn)次數(shù)大于支持度數(shù)值的連結(jié)對(duì)象加入到第一長關(guān)聯(lián)順序集合。選擇出現(xiàn)次數(shù)大于零的連結(jié)對(duì)象為候選連結(jié)對(duì)象,產(chǎn)生包含兩個(gè)候選連結(jié)對(duì)象的第一候選關(guān)聯(lián)順序,將出現(xiàn)次數(shù)大于所包含候選連結(jié)對(duì)象的最小支持度數(shù)值的第一候選關(guān)聯(lián)順序加入到第二長關(guān)聯(lián)順序集合。
文檔編號(hào)G06F17/00GK1632788SQ200310123519
公開日2005年6月29日 申請(qǐng)日期2003年12月24日 優(yōu)先權(quán)日2003年12月24日
發(fā)明者李昌鴻 申請(qǐng)人:明基電通股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
黑山县| 安化县| 道孚县| 郯城县| 柘荣县| 葫芦岛市| 河南省| 长汀县| 政和县| 隆德县| 拉萨市| 陈巴尔虎旗| 忻城县| 宁河县| 长乐市| 阿勒泰市| 托克逊县| 陆良县| 无极县| 蕉岭县| 翼城县| 昂仁县| 庆元县| 古蔺县| 黎川县| 浦江县| 团风县| 米脂县| 晋州市| 三都| 白朗县| 蒲江县| 长沙市| 昌邑市| 绍兴县| 徐水县| 景德镇市| 禹州市| 上杭县| 孙吴县| 句容市|