專(zhuān)利名稱(chēng):相同或相似文件的過(guò)濾方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種文件的過(guò)濾方法,特別是涉及一種利用電腦在多篇文件中過(guò)濾相
同或相似文件并予以做群集分類(lèi)的方法。
背景技術(shù):
電腦及因特網(wǎng)的快速發(fā)展,使得待處理的信息量迅速的爆增,使用者經(jīng)常利用
電腦在龐大的文件檔案或是因特網(wǎng)的中尋找需要的數(shù)據(jù)或信息;因特網(wǎng)中的搜尋引擎
(searching engine)就是一種幫助網(wǎng)絡(luò)使用者在龐大的因特網(wǎng)中快速搜尋數(shù)據(jù)的工具。 —般而言,搜尋引擎會(huì)把符合檢索關(guān)鍵詞的搜尋結(jié)果全部呈現(xiàn)給使用者,即使是
內(nèi)容相同的網(wǎng)頁(yè)也會(huì)全部呈現(xiàn),并不作任何的過(guò)濾處理,雖然有少部份的搜尋引擎會(huì)搜尋
的結(jié)果進(jìn)行過(guò)濾,但是近似高的網(wǎng)頁(yè)仍然很容易一再地重復(fù)出現(xiàn),對(duì)使用者而言,將會(huì)把時(shí)
間浪費(fèi)在閱讀重復(fù)的內(nèi)容,并且降低了數(shù)據(jù)搜尋的便利性。 在已公開(kāi)的中國(guó)發(fā)明專(zhuān)利CN10109348提出了一種《網(wǎng)頁(yè)重復(fù)內(nèi)容過(guò)濾方法》,包括文件服務(wù)器、網(wǎng)頁(yè)內(nèi)容提取服務(wù)器、網(wǎng)頁(yè)過(guò)濾服務(wù)器、爬蟲(chóng)服務(wù)器,其中利用爬蟲(chóng)服務(wù)器抓取網(wǎng)頁(yè)的數(shù)據(jù)再交由網(wǎng)頁(yè)內(nèi)容提取服務(wù)器分析,將內(nèi)容提取出來(lái)并使用哈希算法(HashAlgorithm)生成哈希碼(Hash Code),然后把哈希碼和內(nèi)容、抓取的時(shí)間等信息一起存入文件服務(wù)器,而網(wǎng)頁(yè)過(guò)濾服務(wù)器分析內(nèi)容服務(wù)器中的信息,對(duì)每個(gè)由步驟b中獲得的哈希碼出現(xiàn)沖突的網(wǎng)站中出現(xiàn)沖突的數(shù)量,對(duì)沖突的數(shù)量和該網(wǎng)站的網(wǎng)頁(yè)數(shù)量設(shè)定一個(gè)閥值,如果一個(gè)網(wǎng)站的沖突的數(shù)量和該網(wǎng)站的網(wǎng)頁(yè)數(shù)量高于該閥值,則直接通知爬蟲(chóng)服務(wù)器,禁止該網(wǎng)站,并過(guò)濾掉該網(wǎng)頁(yè)的所有內(nèi)容,如果低于該閥值而且抓取的時(shí)間較早,則提高該網(wǎng)頁(yè)的重要性,否則降低該網(wǎng)頁(yè)的重要性或過(guò)濾掉。
發(fā)明內(nèi)容
本發(fā)明的目的的一是提出一種在多篇文件的中找出文件內(nèi)容彼此相同或是近似程度高的文件并予以做群集分類(lèi)的方法。 本發(fā)明的另一目的是在找出彼此相同或是近似程度高的文件之后,將多篇相同文
件中的任一篇顯示于搜尋的結(jié)果中,而不顯示其余被標(biāo)記為相同或近似的文件。 為達(dá)上述目的,本發(fā)明一種相同或相似文件的過(guò)濾方法,利用電子設(shè)備實(shí)施下列
步驟,其可于多篇文件中找出文件內(nèi)容彼此相同或是近似程度高的文件并予以做群集分
類(lèi),該方法包括 (a)讀取多篇待過(guò)濾的文件; (b)將多篇待過(guò)濾的文件的數(shù)據(jù)結(jié)構(gòu)進(jìn)行轉(zhuǎn)換,并合并儲(chǔ)存為預(yù)設(shè)的數(shù)據(jù)結(jié)構(gòu)文件; (c)設(shè)定一低門(mén)坎值,表示連續(xù)字符長(zhǎng)度的最小長(zhǎng)度;
(d)設(shè)定一高門(mén)坎值,表示連續(xù)字符長(zhǎng)度; (e)搜尋該數(shù)據(jù)結(jié)構(gòu)文件中連續(xù)字符長(zhǎng)度達(dá)到該低門(mén)坎值的所有字符串節(jié)點(diǎn)(node I),該字符串節(jié)點(diǎn)內(nèi)儲(chǔ)存有所出現(xiàn)的文件的文件編號(hào)(FID); (f)將每一個(gè)被找出的該字符串節(jié)點(diǎn)(node I)內(nèi)儲(chǔ)存的該文件編號(hào)記錄為一字 符串群(G);及 (g)對(duì)該字符串群(G)中的全部文件編號(hào)(FID)所指向的文件設(shè)為第一類(lèi)文件,以 該字符串節(jié)點(diǎn)(node I)內(nèi)所儲(chǔ)存的字符串內(nèi)容為前綴去尋找連續(xù)字符長(zhǎng)度大于或等于該 高門(mén)坎值的字符串節(jié)點(diǎn)(node Il),若存在此字符串節(jié)點(diǎn),將此連續(xù)字符長(zhǎng)度大于或等于高 門(mén)坎值的字符串節(jié)點(diǎn)所儲(chǔ)存的字符串群(Gl)皆標(biāo)示為彼此相同或是近似程度高的文件。
所述過(guò)濾方法還包括下列步驟 (h)在該第一類(lèi)文件構(gòu)成的群集中尋找一第二類(lèi)文件,該第二類(lèi)文件是第一類(lèi)文 件中連續(xù)字符長(zhǎng)度尚未達(dá)到該高門(mén)坎值的文件所組成的群集;
(i)設(shè)定一比率門(mén)坎值;及 (j)在該第二類(lèi)文件的群集中尋找相同的連續(xù)字符長(zhǎng)度占有文件內(nèi)容總字符長(zhǎng)度 的比率達(dá)到該比率門(mén)坎值的文件,將該些被找出的文件設(shè)為內(nèi)容彼此相同或是近似程度高 的文件。 該步驟(a)之前還包括有一個(gè)先將該多篇待過(guò)濾的文件內(nèi)容進(jìn)行自動(dòng)摘要處理, 產(chǎn)生摘要文件的步驟。 還包括有一個(gè)將該多篇待過(guò)濾的文件內(nèi)容進(jìn)行同義字處理的步驟。 所述過(guò)濾方法還包括將該多篇摘要文件的內(nèi)容進(jìn)行同義字處理的步驟。 所述過(guò)濾方法還包括有一個(gè)將該多篇待過(guò)濾的文件內(nèi)容進(jìn)行去除標(biāo)點(diǎn)符號(hào)處理
的步驟。 在找出彼此相同或是近似程度高的文件之后,還包括有一個(gè)將該多篇相同文件中
的任一篇顯示于搜尋的結(jié)果中,而不顯示其余被標(biāo)記為相同或近似的文件的步驟。 該文件為網(wǎng)頁(yè)、文本文件、數(shù)據(jù)庫(kù)內(nèi)容和以其它方式儲(chǔ)存的形態(tài)的數(shù)據(jù)的其中一種。 該數(shù)據(jù)結(jié)構(gòu)文件為pat tree數(shù)據(jù)結(jié)構(gòu)或字符樹(shù)數(shù)據(jù)結(jié)構(gòu)。 本發(fā)明還公開(kāi)了一種相同或相似文件的過(guò)濾方法,利用電子設(shè)備實(shí)施下列步驟, 其可于多篇文件中找出文件內(nèi)容彼此相同或是近似程度高的文件并予以做群集分類(lèi),該方 法包括 (al)將該多篇待過(guò)濾的文件內(nèi)容進(jìn)行自動(dòng)摘要處理,產(chǎn)生摘要文件;
(a)讀取多篇該摘要文件; (b)將多篇該摘要文件以帕特樹(shù)數(shù)據(jù)結(jié)構(gòu)儲(chǔ)存為帕特樹(shù)數(shù)據(jù)結(jié)構(gòu)文件;
(c)設(shè)定一低門(mén)坎值,表示連續(xù)字符長(zhǎng)度的最小長(zhǎng)度;
(d)設(shè)定一高門(mén)坎值,表示連續(xù)字符長(zhǎng)度; (e)搜尋該P(yáng)T文件中連續(xù)字符長(zhǎng)度達(dá)到該低門(mén)坎值的所有字符串節(jié)點(diǎn)(node I);
(f)將每一個(gè)被找出的該字符串節(jié)點(diǎn)(node I)內(nèi)儲(chǔ)存的該文件編號(hào)(FID)記錄為 一字符串群(G);及 (g)對(duì)該字符串群(G)中的全部文件編號(hào)(FID)所指向的文件設(shè)為第一類(lèi)文件, 在這些第一類(lèi)文件的群集中兩兩作比對(duì),在這些第一類(lèi)文件的群集中尋找連續(xù)字符內(nèi)容相 同,以及相同的連續(xù)字符長(zhǎng)度達(dá)到該高門(mén)坎值的文件,將該些被找出的文件標(biāo)示為彼此相同或是近似程度高的文件。
所述過(guò)濾方法還包括下列步驟 (h)在該第一類(lèi)文件的群集中尋找一第二類(lèi)文件,該第二類(lèi)文件是連續(xù)字符內(nèi)容 相同,以及相同的連續(xù)字符長(zhǎng)度尚未達(dá)到該高門(mén)坎值的文件所組成的群集;
(i)設(shè)定一比率門(mén)坎值;及 (j)在該第二類(lèi)文件的群集中尋找相同的連續(xù)字符長(zhǎng)度占有文件內(nèi)容總字符長(zhǎng)度 的比率達(dá)到該比率門(mén)坎值的文件,將這些被找出的文件設(shè)為內(nèi)容彼此相同或是近似程度高 的文件。 所述過(guò)濾方法還包括將該多篇待過(guò)濾的文件內(nèi)容進(jìn)行同義字處理的步驟。 所述過(guò)濾方法還包括有一個(gè)將該多篇摘要文件的內(nèi)容進(jìn)行去除標(biāo)點(diǎn)符號(hào)處理的步驟。 在找出彼此相同或是近似程度高的文件或網(wǎng)頁(yè)之后,還包括有一個(gè)將該多篇相同 文件中的任一篇顯示于搜尋的結(jié)果中,而不顯示其余被標(biāo)記為相同或近似的文件的步驟。
該文件為網(wǎng)頁(yè)、文本文件、數(shù)據(jù)庫(kù)內(nèi)容和以其它方式儲(chǔ)存的形態(tài)的數(shù)據(jù)的其中一 種。 該數(shù)據(jù)結(jié)構(gòu)文件為帕特樹(shù)數(shù)據(jù)結(jié)構(gòu)或字符樹(shù)數(shù)據(jù)結(jié)構(gòu)。 本發(fā)明的技術(shù)方案可以獲致的功效包括可以對(duì)文件內(nèi)容相同或是近似程度高的
文件進(jìn)行過(guò)濾,進(jìn)而解決相同或近似文件大量重復(fù)的問(wèn)題,特別適合用于對(duì)大量文件的檢
索結(jié)果的過(guò)濾,也可以應(yīng)用在對(duì)網(wǎng)頁(yè)搜尋引擎的搜尋結(jié)果的過(guò)濾,用以將內(nèi)容相同或是近
似程度高的網(wǎng)頁(yè)過(guò)濾,以減少網(wǎng)頁(yè)搜尋結(jié)果大量重復(fù)的問(wèn)題。 有關(guān)本發(fā)明的技術(shù)內(nèi)容及其較實(shí)施例,配合附圖詳細(xì)說(shuō)明如下。
圖l為本發(fā)明的一 圖2為本發(fā)明的另 圖3為本發(fā)明的另 圖4為本發(fā)明的另 圖5為本發(fā)明的另 圖6為本發(fā)明的另 圖7為本發(fā)明的另 其中,附圖標(biāo)記 ll字符串節(jié)點(diǎn)
較佳實(shí)施例的步驟流程圖; 種較佳實(shí)施例的步驟流程圖; 種較佳實(shí)施例的步驟流程圖; 種較佳實(shí)施例的步驟流程圖; 種較佳實(shí)施例的步驟流程圖; 種較佳實(shí)施例的步驟流程圖; 種較佳實(shí)施例的步驟流程圖。
2字符串節(jié)點(diǎn)
具體實(shí)施例方式
本發(fā)明以下所公開(kāi)的方法,可以通過(guò)一般的電子設(shè)備實(shí)施,例如電腦,該電腦包 含但不限于個(gè)人電腦(Personal Computer),筆記型電腦(Note BookComputer)禾卩服務(wù)器 (Server)電腦設(shè)備執(zhí)行本發(fā)明以下所公開(kāi)的方法來(lái)加以實(shí)現(xiàn),凡是本領(lǐng)域的技術(shù)人員,在 了解本發(fā)明以下所公開(kāi)的方法,應(yīng)當(dāng)能夠據(jù)以實(shí)施。 依據(jù)本發(fā)明所公開(kāi)的方法的較佳實(shí)施例之一,如圖1所示包括下列的步驟
(a)讀取多篇待過(guò)濾的文件; (b)將多篇待過(guò)濾的文件的數(shù)據(jù)結(jié)構(gòu)進(jìn)行轉(zhuǎn)換,并合并儲(chǔ)存為預(yù)設(shè)的數(shù)據(jù)結(jié)構(gòu)文 件; (c)設(shè)定一低門(mén)坎值,表示連續(xù)字符長(zhǎng)度的最小長(zhǎng)度;
(d)設(shè)定一高門(mén)坎值,表示連續(xù)字符長(zhǎng)度; (e)搜尋該數(shù)據(jù)結(jié)構(gòu)文件中連續(xù)字符長(zhǎng)度達(dá)到低門(mén)坎值的所有字符串節(jié)點(diǎn) (nodel),該字符串節(jié)點(diǎn)內(nèi)儲(chǔ)存有所出現(xiàn)的文件的文件編號(hào)(File Identity, FID);
(f)將每一個(gè)被找出的字符串節(jié)點(diǎn)(node I)內(nèi)儲(chǔ)存的文件編號(hào)(FileIdentity, FID)記錄為一字符串群(G); (g)對(duì)字符串群(G)中的全部文件編號(hào)(FID)所指向的文件設(shè)為第一類(lèi)文件,以該 字符串節(jié)點(diǎn)(node I)內(nèi)所儲(chǔ)存的字符串內(nèi)容為前綴去尋找連續(xù)字符長(zhǎng)度大于或等于該高 門(mén)坎值的字符串節(jié)點(diǎn)(node Il),若存在此字符串節(jié)點(diǎn),將此連續(xù)字符長(zhǎng)度大于或等于高門(mén) 坎值的字符串節(jié)點(diǎn)所儲(chǔ)存的字符串群(Gl)皆標(biāo)示為彼此相同或是近似程度高的文件。
前述的方法可以應(yīng)用于過(guò)濾網(wǎng)絡(luò)搜尋引擎的搜尋結(jié)果,并且在找出彼此相同或是 近似程度高的文件(或網(wǎng)頁(yè))之后,將多篇相同文件中的任一份顯示于搜尋的結(jié)果中,而不 顯示其余被標(biāo)記為相同或近似的文件(或網(wǎng)頁(yè))。 本發(fā)明所提出的方法適合用于對(duì)大量文件的檢索結(jié)果的過(guò)濾,也可以應(yīng)用在對(duì)網(wǎng) 頁(yè)搜尋引擎的搜尋結(jié)果的過(guò)濾,用以將內(nèi)容相同或是近似程度高的網(wǎng)頁(yè)過(guò)濾,以減少網(wǎng)頁(yè) 搜尋結(jié)果大量重復(fù)的問(wèn)題,而這些待過(guò)濾的文件的數(shù)據(jù)結(jié)構(gòu)可能都不相同,例如是以文字 (text),超文字標(biāo)記語(yǔ)言(Hypertext MarkupLanguage file,HTML file),可延伸超文字標(biāo) 示語(yǔ)言(extensible HyperTextMarkup Language, XHTML)等數(shù)據(jù)結(jié)構(gòu)所記錄的文件,所以 較佳的實(shí)施例是將多篇待過(guò)濾的文件的數(shù)據(jù)結(jié)構(gòu)進(jìn)行轉(zhuǎn)換,并合并儲(chǔ)存為預(yù)設(shè)的數(shù)據(jù)結(jié)構(gòu) 文件,而數(shù)據(jù)結(jié)構(gòu)文件的較佳實(shí)施例可以是pat tree數(shù)據(jù)結(jié)構(gòu)文件或字符樹(shù)數(shù)據(jù)結(jié)構(gòu)文件 的其中一種,下文中有詳細(xì)描述。 表1顯示了一種基于pat tree (帕特樹(shù))數(shù)據(jù)結(jié)構(gòu)所產(chǎn)生的pat tree數(shù)據(jù)結(jié)構(gòu) 文件(下文簡(jiǎn)稱(chēng)PT文件),pat tree為一棵二元樹(shù)(見(jiàn)圖2),在pat tree中的每一個(gè)字 符串節(jié)點(diǎn)(node)都代表了一個(gè)由二進(jìn)制代碼所組成的二進(jìn)制字符串(此字符字符串相對(duì) 應(yīng)的二進(jìn)制字符串),pat tree中的每一個(gè)字符串節(jié)點(diǎn)的數(shù)據(jù)格式都相同,每一個(gè)字符串節(jié) 點(diǎn)中所記錄的數(shù)據(jù)包括"二進(jìn)制字符串內(nèi)容"、"檢查位(CHECK BIT)"、和這個(gè)"二進(jìn)制字符 串內(nèi)容"所出現(xiàn)的文件的"文件編號(hào)";檢查位代表此字符串節(jié)點(diǎn)與其子字符串節(jié)點(diǎn)的二進(jìn) 制字符串在第幾個(gè)位開(kāi)始不同。
表1
7字符串內(nèi)^^^\_1 917 25
個(gè)人電腦/節(jié)點(diǎn)o10101101 1101001110100100
人電腦/節(jié)點(diǎn)210100100 0100100010111001
電腦/節(jié)點(diǎn)410111001 0111000100000000
腦/節(jié)點(diǎn)610111000 0111000100000000
人腦/節(jié)點(diǎn)910100100 o讓ooo00000000
腦/節(jié)點(diǎn)610111000 0000000000000000 例如圖2中字符串節(jié)點(diǎn)6其中記錄了以下的信息 (1)字符串內(nèi)容1011100000000000 ; (2) CHECK BIT :8 ; (3)文件編號(hào)D0C1, D0C2。 圖3顯示了字符樹(shù)數(shù)據(jù)結(jié)構(gòu)文件的一個(gè)例子,在字符樹(shù)數(shù)據(jù)結(jié)構(gòu)文件中的每一個(gè) 字符串節(jié)點(diǎn)(node)都代表了一個(gè)由連續(xù)字符所組成的字符串,每一個(gè)字符串節(jié)點(diǎn)的數(shù)據(jù) 格式都相同,每一個(gè)字符串節(jié)點(diǎn)中所記錄的數(shù)據(jù)包括"字符串內(nèi)容"、"連續(xù)字符的長(zhǎng)度"、 和這個(gè)"字符串內(nèi)容"所出現(xiàn)的文件的"文件編號(hào)";例如圖3中字符串節(jié)點(diǎn)11其中記錄了 以下的信息 (1)字符串內(nèi)容"今年春天"; (2)連續(xù)字符的長(zhǎng)度4 ; (3)文件編號(hào)AOl, A04, A07。
字符串節(jié)點(diǎn)12則記錄了以下的信息 (1)字符串內(nèi)容"今天天氣很好"; (2)連續(xù)字符的長(zhǎng)度6 ; (3)文件編號(hào):AOl, A03, A06, A07, A09。 以過(guò)濾網(wǎng)絡(luò)搜尋引擎的搜尋結(jié)果為例子,當(dāng)搜尋到的多篇網(wǎng)頁(yè)的中出現(xiàn)了內(nèi)容完 全相同的句子,而且當(dāng)內(nèi)容完全相同的句子的連續(xù)字符長(zhǎng)度愈長(zhǎng),就表示這些網(wǎng)頁(yè)的內(nèi)容 可能相同或是高度的近似;另一方面,若是內(nèi)容完全相同的句子的連續(xù)字符長(zhǎng)度占有整個(gè) 網(wǎng)頁(yè)的總字符長(zhǎng)度的比例愈高時(shí),也表示這些網(wǎng)頁(yè)的內(nèi)容可能相同或是高度的近,依據(jù)此 一邏輯,前述的較佳實(shí)施例分別設(shè)有一低門(mén)坎值和一高門(mén)坎值,先在多篇網(wǎng)頁(yè)中尋找連續(xù) 字符內(nèi)容相同,以及相同的連續(xù)字符長(zhǎng)度達(dá)到低門(mén)坎值的文件,這個(gè)步驟可以減少待比對(duì) 處理的網(wǎng)頁(yè)的數(shù)量,有助于節(jié)省過(guò)濾的處理時(shí)間,然后再以高門(mén)坎值檢驗(yàn)這些文件,在這些 文件中尋找連續(xù)字符內(nèi)容相同,以及相同的連續(xù)字符長(zhǎng)度達(dá)到高門(mén)坎值的文件,將這些文 件標(biāo)示為彼此相同或是近似程度高的文件。 在圖4所公開(kāi)的本發(fā)明的另一較佳實(shí)施例中,是在前述圖1的步驟中增加下列步 驟 (h)在第一類(lèi)文件的群集中尋找第二類(lèi)文件,而所稱(chēng)的第二類(lèi)文件是指連續(xù)字符
8內(nèi)容相同,以及相同的連續(xù)字符長(zhǎng)度尚未達(dá)到高門(mén)坎值的文件所組成的群集;
(i)設(shè)定一比率門(mén)坎值; (j)在第二類(lèi)文件的群集中尋找相同的連續(xù)字符長(zhǎng)度占了原有文件內(nèi)容總字符長(zhǎng) 度的比率達(dá)到比率門(mén)坎值的文件,將這些被找出的文件設(shè)為內(nèi)容彼此相同或是近似程度高 的文件。 例如有兩篇文件A01和A04,文件A01的內(nèi)容的總字符長(zhǎng)度為40,文件A04的內(nèi) 容的總字符長(zhǎng)度為60,文件A01和A04的相同的連續(xù)字符長(zhǎng)度為14,比率門(mén)坎值設(shè)為1/5, 其中文件A01的相同的連續(xù)字符長(zhǎng)度占原有文件內(nèi)容總字符長(zhǎng)度的比率是14/4001/5), 文件A04的相同的連續(xù)字符長(zhǎng)度占原有文件內(nèi)容總字符長(zhǎng)度的比率是14/60 ( > 1/5),所以 依據(jù)前述的較佳實(shí)施例的步驟,就會(huì)將文件A01和文件A04設(shè)為內(nèi)容彼此相同或是近似程 度高的文件。 圖5公開(kāi)了本發(fā)明的另一較佳實(shí)施例,主是要在圖1的步驟(a)之前先將多篇待 過(guò)濾的文件內(nèi)容進(jìn)行自動(dòng)摘要處理產(chǎn)生摘要文件(al),再將此具有代表性的摘要文件以 pat tree數(shù)據(jù)結(jié)構(gòu)儲(chǔ)存為PT文件,有助于縮短待過(guò)濾文件的處理時(shí)間。
依據(jù)本發(fā)明的另一較佳實(shí)施例,還包括了對(duì)待過(guò)濾的文件或是經(jīng)過(guò)自動(dòng)摘要處理 步驟生成的摘要文件先進(jìn)行同義字處理,圖6所示的實(shí)施例是以圖5的摘要文件為例作說(shuō) 明,其中的步驟(a2)是對(duì)摘要文件內(nèi)容進(jìn)行同義字處理,使文件內(nèi)容的同義字能有相同的 字符長(zhǎng)度,將有助于提高過(guò)濾相同或相似文件的正確性;例如將簡(jiǎn)體字的待過(guò)濾文件中 的"計(jì)算器"以及繁體字中文的待過(guò)濾文件中的"電腦"全部改為繁體字的"電腦",就可以 避免同義字/詞的長(zhǎng)度不一致的問(wèn)題。 本發(fā)明的另一較佳實(shí)施還包括對(duì)待過(guò)濾的文件或是經(jīng)過(guò)自動(dòng)摘要處理步驟生成 的摘要文件進(jìn)行去除標(biāo)點(diǎn)符號(hào)的處理,圖7所示的實(shí)施例是以圖6摘要文件為例作說(shuō)明,其 中的步驟(a3)是對(duì)多篇待過(guò)濾的摘要文件內(nèi)容進(jìn)行去除標(biāo)點(diǎn)符號(hào)的處理,可讓本發(fā)明的 方法的處理結(jié)果更正確,亦可加快執(zhí)行速度。 前述幾種較佳實(shí)施例中的步驟(a2)、 (a3)也可以互相任意的搭配組合地運(yùn)用,這 種變化凡本領(lǐng)域的技術(shù)人員,在了解本發(fā)明的上述實(shí)施例說(shuō)明之后,應(yīng)該可以充分了解其 變化并且據(jù)以實(shí)施。
權(quán)利要求
一種相同或相似文件的過(guò)濾方法,利用電子設(shè)備實(shí)施下列步驟,其可于多篇文件中找出文件內(nèi)容彼此相同或是近似程度高的文件并予以做群集分類(lèi),其特征在于,該方法包括(a)讀取多篇待過(guò)濾的文件;(b)將多篇待過(guò)濾的文件的數(shù)據(jù)結(jié)構(gòu)進(jìn)行轉(zhuǎn)換,并合并儲(chǔ)存為預(yù)設(shè)的數(shù)據(jù)結(jié)構(gòu)文件;(c)設(shè)定一低門(mén)坎值,表示連續(xù)字符長(zhǎng)度的最小長(zhǎng)度;(d)設(shè)定一高門(mén)坎值,表示連續(xù)字符長(zhǎng)度;(e)搜尋該數(shù)據(jù)結(jié)構(gòu)文件中連續(xù)字符長(zhǎng)度達(dá)到該低門(mén)坎值的所有字符串節(jié)點(diǎn)(node I),該字符串節(jié)點(diǎn)內(nèi)儲(chǔ)存有所出現(xiàn)的文件的文件編號(hào)(FID);(f)將每一個(gè)被找出的該字符串節(jié)點(diǎn)(node I)內(nèi)儲(chǔ)存的該文件編號(hào)記錄為一字符串群(G);及(g)對(duì)該字符串群(G)中的全部文件編號(hào)(FID)所指向的文件設(shè)為第一類(lèi)文件,以該字符串節(jié)點(diǎn)(node I)內(nèi)所儲(chǔ)存的字符串內(nèi)容為前綴去尋找連續(xù)字符長(zhǎng)度大于或等于該高門(mén)坎值的字符串節(jié)點(diǎn)(node I1),若存在此字符串節(jié)點(diǎn),將此連續(xù)字符長(zhǎng)度大于或等于高門(mén)坎值的字符串節(jié)點(diǎn)所儲(chǔ)存的字符串群(G1)皆標(biāo)示為彼此相同或是近似程度高的文件。
2. 如權(quán)利要求1所述的相同或相似文件的過(guò)濾方法,其特征在于,還包括下列步驟(h) 在該第一類(lèi)文件構(gòu)成的群集中尋找一第二類(lèi)文件,該第二類(lèi)文件是第一類(lèi)文件中 連續(xù)字符長(zhǎng)度尚未達(dá)到該高門(mén)坎值的文件所組成的群集;(i) 設(shè)定一比率門(mén)坎值;及(j)在該第二類(lèi)文件的群集中尋找相同的連續(xù)字符長(zhǎng)度占有文件內(nèi)容總字符長(zhǎng)度的比 率達(dá)到該比率門(mén)坎值的文件,將該些被找出的文件設(shè)為內(nèi)容彼此相同或是近似程度高的文 件。
3. 如權(quán)利要求l所述的相同或相似文件的過(guò)濾方法,其特征在于,該步驟(a)之前還包 括有一個(gè)先將該多篇待過(guò)濾的文件內(nèi)容進(jìn)行自動(dòng)摘要處理,產(chǎn)生摘要文件的步驟。
4. 如權(quán)利要求1所述的相同或相似文件的過(guò)濾方法,其特征在于,還包括有一個(gè)將該 多篇待過(guò)濾的文件內(nèi)容進(jìn)行同義字處理的步驟。
5. 如權(quán)利要求3所述的相同或相似文件的過(guò)濾方法,其特征在于,還包括有一個(gè)將該 多篇摘要文件的內(nèi)容進(jìn)行同義字處理的步驟。
6. 如權(quán)利要求1或3或4或5所述的相同或相似文件的過(guò)濾方法,其特征在于,還包括 有一個(gè)將該多篇待過(guò)濾的文件內(nèi)容進(jìn)行去除標(biāo)點(diǎn)符號(hào)處理的步驟。
7. 如權(quán)利要求1所述的相同或相似文件的過(guò)濾方法,其特征在于,在找出彼此相同或 是近似程度高的文件之后,還包括有一個(gè)將該多篇相同文件中的任一篇顯示于搜尋的結(jié)果 中,而不顯示其余被標(biāo)記為相同或近似的文件的步驟。
8. 如權(quán)利要求1所述相同或相似文件的過(guò)濾方法,其特征在于,該文件為網(wǎng)頁(yè)、文本文 件、數(shù)據(jù)庫(kù)內(nèi)容和以其它方式儲(chǔ)存的形態(tài)的數(shù)據(jù)的其中一種。
9. 如權(quán)利要求1所述相同或相似文件的過(guò)濾方法,其特征在于,該數(shù)據(jù)結(jié)構(gòu)文件為帕 特樹(shù)數(shù)據(jù)結(jié)構(gòu)或字符樹(shù)數(shù)據(jù)結(jié)構(gòu)。
10. —種相同或相似文件的過(guò)濾方法,利用電子設(shè)備實(shí)施下列步驟,其可于多篇文件中 找出文件內(nèi)容彼此相同或是近似程度高的文件并予以做群集分類(lèi),其特征在于,該方法包括(al)將該多篇待過(guò)濾的文件內(nèi)容進(jìn)行自動(dòng)摘要處理,產(chǎn)生摘要文件;(a) 讀取多篇該摘要文件;(b) 將多篇該摘要文件以帕特樹(shù)數(shù)據(jù)結(jié)構(gòu)儲(chǔ)存為帕特樹(shù)數(shù)據(jù)結(jié)構(gòu)文件;(c) 設(shè)定一低門(mén)坎值,表示連續(xù)字符長(zhǎng)度的最小長(zhǎng)度;(d) 設(shè)定一高門(mén)坎值,表示連續(xù)字符長(zhǎng)度;(e) 搜尋該P(yáng)T文件中連續(xù)字符長(zhǎng)度達(dá)到該低門(mén)坎值的所有字符串節(jié)點(diǎn)(node I);(f) 將每一個(gè)被找出的該字符串節(jié)點(diǎn)(node I)內(nèi)儲(chǔ)存的該文件編號(hào)(FID)記錄為一字 符串群(G);及(g) 對(duì)該字符串群(G)中的全部文件編號(hào)(FID)所指向的文件設(shè)為第一類(lèi)文件,在這些 第一類(lèi)文件的群集中兩兩作比對(duì),在這些第一類(lèi)文件的群集中尋找連續(xù)字符內(nèi)容相同,以 及相同的連續(xù)字符長(zhǎng)度達(dá)到該高門(mén)坎值的文件,將該些被找出的文件標(biāo)示為彼此相同或是 近似程度高的文件。
11. 如權(quán)利要求10所述的相同或相似文件的過(guò)濾方法,其特征在于,還包括下列步驟(h) 在該第一類(lèi)文件的群集中尋找一第二類(lèi)文件,該第二類(lèi)文件是連續(xù)字符內(nèi)容相同, 以及相同的連續(xù)字符長(zhǎng)度尚未達(dá)到該高門(mén)坎值的文件所組成的群集;(i) 設(shè)定一比率門(mén)坎值;及(j)在該第二類(lèi)文件的群集中尋找相同的連續(xù)字符長(zhǎng)度占有文件內(nèi)容總字符長(zhǎng)度的比 率達(dá)到該比率門(mén)坎值的文件,將這些被找出的文件設(shè)為內(nèi)容彼此相同或是近似程度高的文 件。
12. 如權(quán)利要求IO所述的相同或相似文件的過(guò)濾方法,其特征在于,還包括有一個(gè)將 該多篇待過(guò)濾的文件內(nèi)容進(jìn)行同義字處理的步驟。
13. 如權(quán)利要求10或12所述的相同或相似文件的過(guò)濾方法,其特征在于,還包括有一 個(gè)將該多篇摘要文件的內(nèi)容進(jìn)行去除標(biāo)點(diǎn)符號(hào)處理的步驟。
14. 如權(quán)利要求10所述的相同或相似文件的過(guò)濾方法,其特征在于,在找出彼此相同 或是近似程度高的文件或網(wǎng)頁(yè)之后,還包括有一個(gè)將該多篇相同文件中的任一篇顯示于搜 尋的結(jié)果中,而不顯示其余被標(biāo)記為相同或近似的文件的步驟。
15. 如權(quán)利要求10所述的相同或相似文件的過(guò)濾方法,其特征在于,該文件為網(wǎng)頁(yè)、文本文件、數(shù)據(jù)庫(kù)內(nèi)容和以其它方式儲(chǔ)存的形態(tài)的數(shù)據(jù)的其中一種。
16. 如權(quán)利要求IO所述的相同或相似文件的過(guò)濾方法,其特征在于,該數(shù)據(jù)結(jié)構(gòu)文件為帕特樹(shù)數(shù)據(jù)結(jié)構(gòu)或字符樹(shù)數(shù)據(jù)結(jié)構(gòu)。
全文摘要
本發(fā)明公開(kāi)了一種相同或相似文件的過(guò)濾方法,包括將多篇待過(guò)濾的文件以pat tree數(shù)據(jù)結(jié)構(gòu)儲(chǔ)存為pat tree數(shù)據(jù)結(jié)構(gòu)文件(PT文件),搜尋PT文件中連續(xù)字符長(zhǎng)度達(dá)一低門(mén)坎值的所有字符串節(jié)點(diǎn)和這些字符串節(jié)點(diǎn)所屬的所有文件,在這些文件中尋找連續(xù)字符內(nèi)容相同,且相同的連續(xù)字符長(zhǎng)度達(dá)到一高門(mén)坎值的文件;搜尋PT文件中連續(xù)字符長(zhǎng)度達(dá)一低門(mén)坎值的所有字符串節(jié)點(diǎn)和這些字符串節(jié)點(diǎn)所屬的所有文件,在這些文件中尋找連續(xù)字符內(nèi)容相同,且相同的連續(xù)字符長(zhǎng)度占原有文件內(nèi)容總長(zhǎng)度的比率達(dá)到一比率門(mén)坎值的文件,將這些文件標(biāo)示為內(nèi)容彼此相同或近似程度高的文件。可以對(duì)文件內(nèi)容相同或是近似程度高的文件進(jìn)行過(guò)濾,解決相同或近似文件大量重復(fù)的問(wèn)題。
文檔編號(hào)G06F17/30GK101714147SQ20081016823
公開(kāi)日2010年5月26日 申請(qǐng)日期2008年10月6日 優(yōu)先權(quán)日2008年10月6日
發(fā)明者卓訓(xùn)學(xué), 蔡弘揚(yáng) 申請(qǐng)人:易搜比控股公司