相同或相似文件的過(guò)濾方法

文檔序號(hào)：6467239閱讀：225來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：相同或相似文件的過(guò)濾方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種文件的過(guò)濾方法，特別是涉及一種利用電腦在多篇文件中過(guò)濾相
同或相似文件并予以做群集分類(lèi)的方法。
背景技術(shù)：
電腦及因特網(wǎng)的快速發(fā)展，使得待處理的信息量迅速的爆增，使用者經(jīng)常利用
電腦在龐大的文件檔案或是因特網(wǎng)的中尋找需要的數(shù)據(jù)或信息；因特網(wǎng)中的搜尋引擎
(searching engine)就是一種幫助網(wǎng)絡(luò)使用者在龐大的因特網(wǎng)中快速搜尋數(shù)據(jù)的工具。 —般而言，搜尋引擎會(huì)把符合檢索關(guān)鍵詞的搜尋結(jié)果全部呈現(xiàn)給使用者，即使是
內(nèi)容相同的網(wǎng)頁(yè)也會(huì)全部呈現(xiàn)，并不作任何的過(guò)濾處理，雖然有少部份的搜尋引擎會(huì)搜尋
的結(jié)果進(jìn)行過(guò)濾，但是近似高的網(wǎng)頁(yè)仍然很容易一再地重復(fù)出現(xiàn)，對(duì)使用者而言，將會(huì)把時(shí)
間浪費(fèi)在閱讀重復(fù)的內(nèi)容，并且降低了數(shù)據(jù)搜尋的便利性。在已公開(kāi)的中國(guó)發(fā)明專(zhuān)利CN10109348提出了一種《網(wǎng)頁(yè)重復(fù)內(nèi)容過(guò)濾方法》，包括文件服務(wù)器、網(wǎng)頁(yè)內(nèi)容提取服務(wù)器、網(wǎng)頁(yè)過(guò)濾服務(wù)器、爬蟲(chóng)服務(wù)器，其中利用爬蟲(chóng)服務(wù)器抓取網(wǎng)頁(yè)的數(shù)據(jù)再交由網(wǎng)頁(yè)內(nèi)容提取服務(wù)器分析，將內(nèi)容提取出來(lái)并使用哈希算法(HashAlgorithm)生成哈希碼(Hash Code)，然后把哈希碼和內(nèi)容、抓取的時(shí)間等信息一起存入文件服務(wù)器，而網(wǎng)頁(yè)過(guò)濾服務(wù)器分析內(nèi)容服務(wù)器中的信息，對(duì)每個(gè)由步驟b中獲得的哈希碼出現(xiàn)沖突的網(wǎng)站中出現(xiàn)沖突的數(shù)量，對(duì)沖突的數(shù)量和該網(wǎng)站的網(wǎng)頁(yè)數(shù)量設(shè)定一個(gè)閥值，如果一個(gè)網(wǎng)站的沖突的數(shù)量和該網(wǎng)站的網(wǎng)頁(yè)數(shù)量高于該閥值，則直接通知爬蟲(chóng)服務(wù)器，禁止該網(wǎng)站，并過(guò)濾掉該網(wǎng)頁(yè)的所有內(nèi)容，如果低于該閥值而且抓取的時(shí)間較早，則提高該網(wǎng)頁(yè)的重要性，否則降低該網(wǎng)頁(yè)的重要性或過(guò)濾掉。

發(fā)明內(nèi)容
本發(fā)明的目的的一是提出一種在多篇文件的中找出文件內(nèi)容彼此相同或是近似程度高的文件并予以做群集分類(lèi)的方法。本發(fā)明的另一目的是在找出彼此相同或是近似程度高的文件之后，將多篇相同文
件中的任一篇顯示于搜尋的結(jié)果中，而不顯示其余被標(biāo)記為相同或近似的文件。為達(dá)上述目的，本發(fā)明一種相同或相似文件的過(guò)濾方法，利用電子設(shè)備實(shí)施下列
步驟，其可于多篇文件中找出文件內(nèi)容彼此相同或是近似程度高的文件并予以做群集分
類(lèi)，該方法包括 (a)讀取多篇待過(guò)濾的文件； (b)將多篇待過(guò)濾的文件的數(shù)據(jù)結(jié)構(gòu)進(jìn)行轉(zhuǎn)換，并合并儲(chǔ)存為預(yù)設(shè)的數(shù)據(jù)結(jié)構(gòu)文件； (c)設(shè)定一低門(mén)坎值，表示連續(xù)字符長(zhǎng)度的最小長(zhǎng)度；
(d)設(shè)定一高門(mén)坎值，表示連續(xù)字符長(zhǎng)度； (e)搜尋該數(shù)據(jù)結(jié)構(gòu)文件中連續(xù)字符長(zhǎng)度達(dá)到該低門(mén)坎值的所有字符串節(jié)點(diǎn)(node I)，該字符串節(jié)點(diǎn)內(nèi)儲(chǔ)存有所出現(xiàn)的文件的文件編號(hào)(FID); (f)將每一個(gè)被找出的該字符串節(jié)點(diǎn)(node I)內(nèi)儲(chǔ)存的該文件編號(hào)記錄為一字符串群(G);及 (g)對(duì)該字符串群(G)中的全部文件編號(hào)(FID)所指向的文件設(shè)為第一類(lèi)文件，以該字符串節(jié)點(diǎn)(node I)內(nèi)所儲(chǔ)存的字符串內(nèi)容為前綴去尋找連續(xù)字符長(zhǎng)度大于或等于該高門(mén)坎值的字符串節(jié)點(diǎn)(node Il)，若存在此字符串節(jié)點(diǎn)，將此連續(xù)字符長(zhǎng)度大于或等于高門(mén)坎值的字符串節(jié)點(diǎn)所儲(chǔ)存的字符串群(Gl)皆標(biāo)示為彼此相同或是近似程度高的文件。
所述過(guò)濾方法還包括下列步驟 (h)在該第一類(lèi)文件構(gòu)成的群集中尋找一第二類(lèi)文件，該第二類(lèi)文件是第一類(lèi)文件中連續(xù)字符長(zhǎng)度尚未達(dá)到該高門(mén)坎值的文件所組成的群集；
(i)設(shè)定一比率門(mén)坎值；及 (j)在該第二類(lèi)文件的群集中尋找相同的連續(xù)字符長(zhǎng)度占有文件內(nèi)容總字符長(zhǎng)度的比率達(dá)到該比率門(mén)坎值的文件，將該些被找出的文件設(shè)為內(nèi)容彼此相同或是近似程度高的文件。該步驟(a)之前還包括有一個(gè)先將該多篇待過(guò)濾的文件內(nèi)容進(jìn)行自動(dòng)摘要處理，產(chǎn)生摘要文件的步驟。還包括有一個(gè)將該多篇待過(guò)濾的文件內(nèi)容進(jìn)行同義字處理的步驟。所述過(guò)濾方法還包括將該多篇摘要文件的內(nèi)容進(jìn)行同義字處理的步驟。所述過(guò)濾方法還包括有一個(gè)將該多篇待過(guò)濾的文件內(nèi)容進(jìn)行去除標(biāo)點(diǎn)符號(hào)處理
的步驟。在找出彼此相同或是近似程度高的文件之后，還包括有一個(gè)將該多篇相同文件中
的任一篇顯示于搜尋的結(jié)果中，而不顯示其余被標(biāo)記為相同或近似的文件的步驟。該文件為網(wǎng)頁(yè)、文本文件、數(shù)據(jù)庫(kù)內(nèi)容和以其它方式儲(chǔ)存的形態(tài)的數(shù)據(jù)的其中一種。該數(shù)據(jù)結(jié)構(gòu)文件為pat tree數(shù)據(jù)結(jié)構(gòu)或字符樹(shù)數(shù)據(jù)結(jié)構(gòu)。本發(fā)明還公開(kāi)了一種相同或相似文件的過(guò)濾方法，利用電子設(shè)備實(shí)施下列步驟，其可于多篇文件中找出文件內(nèi)容彼此相同或是近似程度高的文件并予以做群集分類(lèi)，該方法包括 (al)將該多篇待過(guò)濾的文件內(nèi)容進(jìn)行自動(dòng)摘要處理，產(chǎn)生摘要文件；
(a)讀取多篇該摘要文件； (b)將多篇該摘要文件以帕特樹(shù)數(shù)據(jù)結(jié)構(gòu)儲(chǔ)存為帕特樹(shù)數(shù)據(jù)結(jié)構(gòu)文件；
(c)設(shè)定一低門(mén)坎值，表示連續(xù)字符長(zhǎng)度的最小長(zhǎng)度；
(d)設(shè)定一高門(mén)坎值，表示連續(xù)字符長(zhǎng)度； (e)搜尋該P(yáng)T文件中連續(xù)字符長(zhǎng)度達(dá)到該低門(mén)坎值的所有字符串節(jié)點(diǎn)(node I);
(f)將每一個(gè)被找出的該字符串節(jié)點(diǎn)(node I)內(nèi)儲(chǔ)存的該文件編號(hào)(FID)記錄為一字符串群(G);及 (g)對(duì)該字符串群(G)中的全部文件編號(hào)(FID)所指向的文件設(shè)為第一類(lèi)文件，在這些第一類(lèi)文件的群集中兩兩作比對(duì)，在這些第一類(lèi)文件的群集中尋找連續(xù)字符內(nèi)容相同，以及相同的連續(xù)字符長(zhǎng)度達(dá)到該高門(mén)坎值的文件，將該些被找出的文件標(biāo)示為彼此相同或是近似程度高的文件。
所述過(guò)濾方法還包括下列步驟 (h)在該第一類(lèi)文件的群集中尋找一第二類(lèi)文件，該第二類(lèi)文件是連續(xù)字符內(nèi)容相同，以及相同的連續(xù)字符長(zhǎng)度尚未達(dá)到該高門(mén)坎值的文件所組成的群集；
(i)設(shè)定一比率門(mén)坎值；及 (j)在該第二類(lèi)文件的群集中尋找相同的連續(xù)字符長(zhǎng)度占有文件內(nèi)容總字符長(zhǎng)度的比率達(dá)到該比率門(mén)坎值的文件，將這些被找出的文件設(shè)為內(nèi)容彼此相同或是近似程度高的文件。所述過(guò)濾方法還包括將該多篇待過(guò)濾的文件內(nèi)容進(jìn)行同義字處理的步驟。所述過(guò)濾方法還包括有一個(gè)將該多篇摘要文件的內(nèi)容進(jìn)行去除標(biāo)點(diǎn)符號(hào)處理的步驟。在找出彼此相同或是近似程度高的文件或網(wǎng)頁(yè)之后，還包括有一個(gè)將該多篇相同文件中的任一篇顯示于搜尋的結(jié)果中，而不顯示其余被標(biāo)記為相同或近似的文件的步驟。
該文件為網(wǎng)頁(yè)、文本文件、數(shù)據(jù)庫(kù)內(nèi)容和以其它方式儲(chǔ)存的形態(tài)的數(shù)據(jù)的其中一種。該數(shù)據(jù)結(jié)構(gòu)文件為帕特樹(shù)數(shù)據(jù)結(jié)構(gòu)或字符樹(shù)數(shù)據(jù)結(jié)構(gòu)。本發(fā)明的技術(shù)方案可以獲致的功效包括可以對(duì)文件內(nèi)容相同或是近似程度高的
文件進(jìn)行過(guò)濾，進(jìn)而解決相同或近似文件大量重復(fù)的問(wèn)題，特別適合用于對(duì)大量文件的檢
索結(jié)果的過(guò)濾，也可以應(yīng)用在對(duì)網(wǎng)頁(yè)搜尋引擎的搜尋結(jié)果的過(guò)濾，用以將內(nèi)容相同或是近
似程度高的網(wǎng)頁(yè)過(guò)濾，以減少網(wǎng)頁(yè)搜尋結(jié)果大量重復(fù)的問(wèn)題。有關(guān)本發(fā)明的技術(shù)內(nèi)容及其較實(shí)施例，配合附圖詳細(xì)說(shuō)明如下。

圖l為本發(fā)明的一圖2為本發(fā)明的另圖3為本發(fā)明的另圖4為本發(fā)明的另圖5為本發(fā)明的另圖6為本發(fā)明的另圖7為本發(fā)明的另其中，附圖標(biāo)記 ll字符串節(jié)點(diǎn)
較佳實(shí)施例的步驟流程圖；種較佳實(shí)施例的步驟流程圖; 種較佳實(shí)施例的步驟流程圖; 種較佳實(shí)施例的步驟流程圖; 種較佳實(shí)施例的步驟流程圖; 種較佳實(shí)施例的步驟流程圖; 種較佳實(shí)施例的步驟流程圖。
2字符串節(jié)點(diǎn)
具體實(shí)施例方式
本發(fā)明以下所公開(kāi)的方法，可以通過(guò)一般的電子設(shè)備實(shí)施，例如電腦，該電腦包含但不限于個(gè)人電腦(Personal Computer)，筆記型電腦(Note BookComputer)禾卩服務(wù)器 (Server)電腦設(shè)備執(zhí)行本發(fā)明以下所公開(kāi)的方法來(lái)加以實(shí)現(xiàn)，凡是本領(lǐng)域的技術(shù)人員，在了解本發(fā)明以下所公開(kāi)的方法，應(yīng)當(dāng)能夠據(jù)以實(shí)施。依據(jù)本發(fā)明所公開(kāi)的方法的較佳實(shí)施例之一，如圖1所示包括下列的步驟
(a)讀取多篇待過(guò)濾的文件； (b)將多篇待過(guò)濾的文件的數(shù)據(jù)結(jié)構(gòu)進(jìn)行轉(zhuǎn)換，并合并儲(chǔ)存為預(yù)設(shè)的數(shù)據(jù)結(jié)構(gòu)文件； (c)設(shè)定一低門(mén)坎值，表示連續(xù)字符長(zhǎng)度的最小長(zhǎng)度；
(d)設(shè)定一高門(mén)坎值，表示連續(xù)字符長(zhǎng)度； (e)搜尋該數(shù)據(jù)結(jié)構(gòu)文件中連續(xù)字符長(zhǎng)度達(dá)到低門(mén)坎值的所有字符串節(jié)點(diǎn) (nodel)，該字符串節(jié)點(diǎn)內(nèi)儲(chǔ)存有所出現(xiàn)的文件的文件編號(hào)(File Identity, FID);
(f)將每一個(gè)被找出的字符串節(jié)點(diǎn)(node I)內(nèi)儲(chǔ)存的文件編號(hào)(FileIdentity， FID)記錄為一字符串群(G); (g)對(duì)字符串群(G)中的全部文件編號(hào)(FID)所指向的文件設(shè)為第一類(lèi)文件，以該字符串節(jié)點(diǎn)(node I)內(nèi)所儲(chǔ)存的字符串內(nèi)容為前綴去尋找連續(xù)字符長(zhǎng)度大于或等于該高門(mén)坎值的字符串節(jié)點(diǎn)(node Il)，若存在此字符串節(jié)點(diǎn)，將此連續(xù)字符長(zhǎng)度大于或等于高門(mén) 坎值的字符串節(jié)點(diǎn)所儲(chǔ)存的字符串群(Gl)皆標(biāo)示為彼此相同或是近似程度高的文件。
前述的方法可以應(yīng)用于過(guò)濾網(wǎng)絡(luò)搜尋引擎的搜尋結(jié)果，并且在找出彼此相同或是近似程度高的文件(或網(wǎng)頁(yè))之后，將多篇相同文件中的任一份顯示于搜尋的結(jié)果中，而不顯示其余被標(biāo)記為相同或近似的文件(或網(wǎng)頁(yè))。本發(fā)明所提出的方法適合用于對(duì)大量文件的檢索結(jié)果的過(guò)濾，也可以應(yīng)用在對(duì)網(wǎng) 頁(yè)搜尋引擎的搜尋結(jié)果的過(guò)濾，用以將內(nèi)容相同或是近似程度高的網(wǎng)頁(yè)過(guò)濾，以減少網(wǎng)頁(yè) 搜尋結(jié)果大量重復(fù)的問(wèn)題，而這些待過(guò)濾的文件的數(shù)據(jù)結(jié)構(gòu)可能都不相同，例如是以文字 (text)，超文字標(biāo)記語(yǔ)言(Hypertext MarkupLanguage file,HTML file)，可延伸超文字標(biāo) 示語(yǔ)言(extensible HyperTextMarkup Language, XHTML)等數(shù)據(jù)結(jié)構(gòu)所記錄的文件，所以較佳的實(shí)施例是將多篇待過(guò)濾的文件的數(shù)據(jù)結(jié)構(gòu)進(jìn)行轉(zhuǎn)換，并合并儲(chǔ)存為預(yù)設(shè)的數(shù)據(jù)結(jié)構(gòu) 文件，而數(shù)據(jù)結(jié)構(gòu)文件的較佳實(shí)施例可以是pat tree數(shù)據(jù)結(jié)構(gòu)文件或字符樹(shù)數(shù)據(jù)結(jié)構(gòu)文件的其中一種，下文中有詳細(xì)描述。表1顯示了一種基于pat tree (帕特樹(shù))數(shù)據(jù)結(jié)構(gòu)所產(chǎn)生的pat tree數(shù)據(jù)結(jié)構(gòu) 文件(下文簡(jiǎn)稱(chēng)PT文件)，pat tree為一棵二元樹(shù)(見(jiàn)圖2)，在pat tree中的每一個(gè)字符串節(jié)點(diǎn)(node)都代表了一個(gè)由二進(jìn)制代碼所組成的二進(jìn)制字符串(此字符字符串相對(duì) 應(yīng)的二進(jìn)制字符串)，pat tree中的每一個(gè)字符串節(jié)點(diǎn)的數(shù)據(jù)格式都相同，每一個(gè)字符串節(jié) 點(diǎn)中所記錄的數(shù)據(jù)包括"二進(jìn)制字符串內(nèi)容"、"檢查位(CHECK BIT)"、和這個(gè)"二進(jìn)制字符串內(nèi)容"所出現(xiàn)的文件的"文件編號(hào)"；檢查位代表此字符串節(jié)點(diǎn)與其子字符串節(jié)點(diǎn)的二進(jìn) 制字符串在第幾個(gè)位開(kāi)始不同。
表1
7字符串內(nèi)^^^\_1 917 25
個(gè)人電腦/節(jié)點(diǎn)o10101101 1101001110100100
人電腦/節(jié)點(diǎn)210100100 0100100010111001
電腦/節(jié)點(diǎn)410111001 0111000100000000
腦/節(jié)點(diǎn)610111000 0111000100000000
人腦/節(jié)點(diǎn)910100100 o讓ooo00000000
腦/節(jié)點(diǎn)610111000 0000000000000000 例如圖2中字符串節(jié)點(diǎn)6其中記錄了以下的信息 (1)字符串內(nèi)容1011100000000000 ; (2) CHECK BIT :8 ; (3)文件編號(hào)D0C1， D0C2。圖3顯示了字符樹(shù)數(shù)據(jù)結(jié)構(gòu)文件的一個(gè)例子，在字符樹(shù)數(shù)據(jù)結(jié)構(gòu)文件中的每一個(gè) 字符串節(jié)點(diǎn)(node)都代表了一個(gè)由連續(xù)字符所組成的字符串，每一個(gè)字符串節(jié)點(diǎn)的數(shù)據(jù) 格式都相同，每一個(gè)字符串節(jié)點(diǎn)中所記錄的數(shù)據(jù)包括"字符串內(nèi)容"、"連續(xù)字符的長(zhǎng)度"、和這個(gè)"字符串內(nèi)容"所出現(xiàn)的文件的"文件編號(hào)";例如圖3中字符串節(jié)點(diǎn)11其中記錄了以下的信息 (1)字符串內(nèi)容"今年春天"； (2)連續(xù)字符的長(zhǎng)度4 ; (3)文件編號(hào)AOl， A04， A07。
字符串節(jié)點(diǎn)12則記錄了以下的信息 (1)字符串內(nèi)容"今天天氣很好"； (2)連續(xù)字符的長(zhǎng)度6 ; (3)文件編號(hào):AOl， A03， A06， A07， A09。以過(guò)濾網(wǎng)絡(luò)搜尋引擎的搜尋結(jié)果為例子，當(dāng)搜尋到的多篇網(wǎng)頁(yè)的中出現(xiàn)了內(nèi)容完全相同的句子，而且當(dāng)內(nèi)容完全相同的句子的連續(xù)字符長(zhǎng)度愈長(zhǎng)，就表示這些網(wǎng)頁(yè)的內(nèi)容可能相同或是高度的近似；另一方面，若是內(nèi)容完全相同的句子的連續(xù)字符長(zhǎng)度占有整個(gè) 網(wǎng)頁(yè)的總字符長(zhǎng)度的比例愈高時(shí)，也表示這些網(wǎng)頁(yè)的內(nèi)容可能相同或是高度的近，依據(jù)此一邏輯，前述的較佳實(shí)施例分別設(shè)有一低門(mén)坎值和一高門(mén)坎值，先在多篇網(wǎng)頁(yè)中尋找連續(xù) 字符內(nèi)容相同，以及相同的連續(xù)字符長(zhǎng)度達(dá)到低門(mén)坎值的文件，這個(gè)步驟可以減少待比對(duì) 處理的網(wǎng)頁(yè)的數(shù)量，有助于節(jié)省過(guò)濾的處理時(shí)間，然后再以高門(mén)坎值檢驗(yàn)這些文件，在這些文件中尋找連續(xù)字符內(nèi)容相同，以及相同的連續(xù)字符長(zhǎng)度達(dá)到高門(mén)坎值的文件，將這些文件標(biāo)示為彼此相同或是近似程度高的文件。在圖4所公開(kāi)的本發(fā)明的另一較佳實(shí)施例中，是在前述圖1的步驟中增加下列步驟 (h)在第一類(lèi)文件的群集中尋找第二類(lèi)文件，而所稱(chēng)的第二類(lèi)文件是指連續(xù)字符
8內(nèi)容相同，以及相同的連續(xù)字符長(zhǎng)度尚未達(dá)到高門(mén)坎值的文件所組成的群集；
(i)設(shè)定一比率門(mén)坎值； (j)在第二類(lèi)文件的群集中尋找相同的連續(xù)字符長(zhǎng)度占了原有文件內(nèi)容總字符長(zhǎng) 度的比率達(dá)到比率門(mén)坎值的文件，將這些被找出的文件設(shè)為內(nèi)容彼此相同或是近似程度高的文件。例如有兩篇文件A01和A04，文件A01的內(nèi)容的總字符長(zhǎng)度為40，文件A04的內(nèi) 容的總字符長(zhǎng)度為60，文件A01和A04的相同的連續(xù)字符長(zhǎng)度為14，比率門(mén)坎值設(shè)為1/5，其中文件A01的相同的連續(xù)字符長(zhǎng)度占原有文件內(nèi)容總字符長(zhǎng)度的比率是14/4001/5)，文件A04的相同的連續(xù)字符長(zhǎng)度占原有文件內(nèi)容總字符長(zhǎng)度的比率是14/60 ( > 1/5)，所以依據(jù)前述的較佳實(shí)施例的步驟，就會(huì)將文件A01和文件A04設(shè)為內(nèi)容彼此相同或是近似程度高的文件。圖5公開(kāi)了本發(fā)明的另一較佳實(shí)施例，主是要在圖1的步驟(a)之前先將多篇待過(guò)濾的文件內(nèi)容進(jìn)行自動(dòng)摘要處理產(chǎn)生摘要文件(al)，再將此具有代表性的摘要文件以 pat tree數(shù)據(jù)結(jié)構(gòu)儲(chǔ)存為PT文件，有助于縮短待過(guò)濾文件的處理時(shí)間。
依據(jù)本發(fā)明的另一較佳實(shí)施例，還包括了對(duì)待過(guò)濾的文件或是經(jīng)過(guò)自動(dòng)摘要處理步驟生成的摘要文件先進(jìn)行同義字處理，圖6所示的實(shí)施例是以圖5的摘要文件為例作說(shuō) 明，其中的步驟(a2)是對(duì)摘要文件內(nèi)容進(jìn)行同義字處理，使文件內(nèi)容的同義字能有相同的字符長(zhǎng)度，將有助于提高過(guò)濾相同或相似文件的正確性；例如將簡(jiǎn)體字的待過(guò)濾文件中的"計(jì)算器"以及繁體字中文的待過(guò)濾文件中的"電腦"全部改為繁體字的"電腦"，就可以避免同義字/詞的長(zhǎng)度不一致的問(wèn)題。本發(fā)明的另一較佳實(shí)施還包括對(duì)待過(guò)濾的文件或是經(jīng)過(guò)自動(dòng)摘要處理步驟生成的摘要文件進(jìn)行去除標(biāo)點(diǎn)符號(hào)的處理，圖7所示的實(shí)施例是以圖6摘要文件為例作說(shuō)明，其中的步驟(a3)是對(duì)多篇待過(guò)濾的摘要文件內(nèi)容進(jìn)行去除標(biāo)點(diǎn)符號(hào)的處理，可讓本發(fā)明的方法的處理結(jié)果更正確，亦可加快執(zhí)行速度。前述幾種較佳實(shí)施例中的步驟(a2)、 (a3)也可以互相任意的搭配組合地運(yùn)用，這種變化凡本領(lǐng)域的技術(shù)人員，在了解本發(fā)明的上述實(shí)施例說(shuō)明之后，應(yīng)該可以充分了解其變化并且據(jù)以實(shí)施。
權(quán)利要求
一種相同或相似文件的過(guò)濾方法，利用電子設(shè)備實(shí)施下列步驟，其可于多篇文件中找出文件內(nèi)容彼此相同或是近似程度高的文件并予以做群集分類(lèi)，其特征在于，該方法包括(a)讀取多篇待過(guò)濾的文件；(b)將多篇待過(guò)濾的文件的數(shù)據(jù)結(jié)構(gòu)進(jìn)行轉(zhuǎn)換，并合并儲(chǔ)存為預(yù)設(shè)的數(shù)據(jù)結(jié)構(gòu)文件；(c)設(shè)定一低門(mén)坎值，表示連續(xù)字符長(zhǎng)度的最小長(zhǎng)度；(d)設(shè)定一高門(mén)坎值，表示連續(xù)字符長(zhǎng)度；(e)搜尋該數(shù)據(jù)結(jié)構(gòu)文件中連續(xù)字符長(zhǎng)度達(dá)到該低門(mén)坎值的所有字符串節(jié)點(diǎn)(node I)，該字符串節(jié)點(diǎn)內(nèi)儲(chǔ)存有所出現(xiàn)的文件的文件編號(hào)(FID)；(f)將每一個(gè)被找出的該字符串節(jié)點(diǎn)(node I)內(nèi)儲(chǔ)存的該文件編號(hào)記錄為一字符串群(G)；及(g)對(duì)該字符串群(G)中的全部文件編號(hào)(FID)所指向的文件設(shè)為第一類(lèi)文件，以該字符串節(jié)點(diǎn)(node I)內(nèi)所儲(chǔ)存的字符串內(nèi)容為前綴去尋找連續(xù)字符長(zhǎng)度大于或等于該高門(mén)坎值的字符串節(jié)點(diǎn)(node I1)，若存在此字符串節(jié)點(diǎn)，將此連續(xù)字符長(zhǎng)度大于或等于高門(mén)坎值的字符串節(jié)點(diǎn)所儲(chǔ)存的字符串群(G1)皆標(biāo)示為彼此相同或是近似程度高的文件。
2. 如權(quán)利要求1所述的相同或相似文件的過(guò)濾方法，其特征在于，還包括下列步驟(h) 在該第一類(lèi)文件構(gòu)成的群集中尋找一第二類(lèi)文件，該第二類(lèi)文件是第一類(lèi)文件中連續(xù)字符長(zhǎng)度尚未達(dá)到該高門(mén)坎值的文件所組成的群集；(i) 設(shè)定一比率門(mén)坎值；及(j)在該第二類(lèi)文件的群集中尋找相同的連續(xù)字符長(zhǎng)度占有文件內(nèi)容總字符長(zhǎng)度的比率達(dá)到該比率門(mén)坎值的文件，將該些被找出的文件設(shè)為內(nèi)容彼此相同或是近似程度高的文件。
3. 如權(quán)利要求l所述的相同或相似文件的過(guò)濾方法，其特征在于，該步驟(a)之前還包括有一個(gè)先將該多篇待過(guò)濾的文件內(nèi)容進(jìn)行自動(dòng)摘要處理，產(chǎn)生摘要文件的步驟。
4. 如權(quán)利要求1所述的相同或相似文件的過(guò)濾方法，其特征在于，還包括有一個(gè)將該多篇待過(guò)濾的文件內(nèi)容進(jìn)行同義字處理的步驟。
5. 如權(quán)利要求3所述的相同或相似文件的過(guò)濾方法，其特征在于，還包括有一個(gè)將該多篇摘要文件的內(nèi)容進(jìn)行同義字處理的步驟。
6. 如權(quán)利要求1或3或4或5所述的相同或相似文件的過(guò)濾方法，其特征在于，還包括有一個(gè)將該多篇待過(guò)濾的文件內(nèi)容進(jìn)行去除標(biāo)點(diǎn)符號(hào)處理的步驟。
7. 如權(quán)利要求1所述的相同或相似文件的過(guò)濾方法，其特征在于，在找出彼此相同或是近似程度高的文件之后，還包括有一個(gè)將該多篇相同文件中的任一篇顯示于搜尋的結(jié)果中，而不顯示其余被標(biāo)記為相同或近似的文件的步驟。
8. 如權(quán)利要求1所述相同或相似文件的過(guò)濾方法，其特征在于，該文件為網(wǎng)頁(yè)、文本文件、數(shù)據(jù)庫(kù)內(nèi)容和以其它方式儲(chǔ)存的形態(tài)的數(shù)據(jù)的其中一種。
9. 如權(quán)利要求1所述相同或相似文件的過(guò)濾方法，其特征在于，該數(shù)據(jù)結(jié)構(gòu)文件為帕特樹(shù)數(shù)據(jù)結(jié)構(gòu)或字符樹(shù)數(shù)據(jù)結(jié)構(gòu)。
10. —種相同或相似文件的過(guò)濾方法，利用電子設(shè)備實(shí)施下列步驟，其可于多篇文件中找出文件內(nèi)容彼此相同或是近似程度高的文件并予以做群集分類(lèi)，其特征在于，該方法包括(al)將該多篇待過(guò)濾的文件內(nèi)容進(jìn)行自動(dòng)摘要處理，產(chǎn)生摘要文件；(a) 讀取多篇該摘要文件；(b) 將多篇該摘要文件以帕特樹(shù)數(shù)據(jù)結(jié)構(gòu)儲(chǔ)存為帕特樹(shù)數(shù)據(jù)結(jié)構(gòu)文件；(c) 設(shè)定一低門(mén)坎值，表示連續(xù)字符長(zhǎng)度的最小長(zhǎng)度；(d) 設(shè)定一高門(mén)坎值，表示連續(xù)字符長(zhǎng)度；(e) 搜尋該P(yáng)T文件中連續(xù)字符長(zhǎng)度達(dá)到該低門(mén)坎值的所有字符串節(jié)點(diǎn)(node I);(f) 將每一個(gè)被找出的該字符串節(jié)點(diǎn)(node I)內(nèi)儲(chǔ)存的該文件編號(hào)(FID)記錄為一字符串群(G);及(g) 對(duì)該字符串群(G)中的全部文件編號(hào)(FID)所指向的文件設(shè)為第一類(lèi)文件，在這些第一類(lèi)文件的群集中兩兩作比對(duì)，在這些第一類(lèi)文件的群集中尋找連續(xù)字符內(nèi)容相同，以及相同的連續(xù)字符長(zhǎng)度達(dá)到該高門(mén)坎值的文件，將該些被找出的文件標(biāo)示為彼此相同或是近似程度高的文件。
11. 如權(quán)利要求10所述的相同或相似文件的過(guò)濾方法，其特征在于，還包括下列步驟(h) 在該第一類(lèi)文件的群集中尋找一第二類(lèi)文件，該第二類(lèi)文件是連續(xù)字符內(nèi)容相同，以及相同的連續(xù)字符長(zhǎng)度尚未達(dá)到該高門(mén)坎值的文件所組成的群集；(i) 設(shè)定一比率門(mén)坎值；及(j)在該第二類(lèi)文件的群集中尋找相同的連續(xù)字符長(zhǎng)度占有文件內(nèi)容總字符長(zhǎng)度的比率達(dá)到該比率門(mén)坎值的文件，將這些被找出的文件設(shè)為內(nèi)容彼此相同或是近似程度高的文件。
12. 如權(quán)利要求IO所述的相同或相似文件的過(guò)濾方法，其特征在于，還包括有一個(gè)將該多篇待過(guò)濾的文件內(nèi)容進(jìn)行同義字處理的步驟。
13. 如權(quán)利要求10或12所述的相同或相似文件的過(guò)濾方法，其特征在于，還包括有一個(gè)將該多篇摘要文件的內(nèi)容進(jìn)行去除標(biāo)點(diǎn)符號(hào)處理的步驟。
14. 如權(quán)利要求10所述的相同或相似文件的過(guò)濾方法，其特征在于，在找出彼此相同或是近似程度高的文件或網(wǎng)頁(yè)之后，還包括有一個(gè)將該多篇相同文件中的任一篇顯示于搜尋的結(jié)果中，而不顯示其余被標(biāo)記為相同或近似的文件的步驟。
15. 如權(quán)利要求10所述的相同或相似文件的過(guò)濾方法，其特征在于，該文件為網(wǎng)頁(yè)、文本文件、數(shù)據(jù)庫(kù)內(nèi)容和以其它方式儲(chǔ)存的形態(tài)的數(shù)據(jù)的其中一種。
16. 如權(quán)利要求IO所述的相同或相似文件的過(guò)濾方法，其特征在于，該數(shù)據(jù)結(jié)構(gòu)文件為帕特樹(shù)數(shù)據(jù)結(jié)構(gòu)或字符樹(shù)數(shù)據(jù)結(jié)構(gòu)。
全文摘要
本發(fā)明公開(kāi)了一種相同或相似文件的過(guò)濾方法，包括將多篇待過(guò)濾的文件以pat tree數(shù)據(jù)結(jié)構(gòu)儲(chǔ)存為pat tree數(shù)據(jù)結(jié)構(gòu)文件(PT文件)，搜尋PT文件中連續(xù)字符長(zhǎng)度達(dá)一低門(mén)坎值的所有字符串節(jié)點(diǎn)和這些字符串節(jié)點(diǎn)所屬的所有文件，在這些文件中尋找連續(xù)字符內(nèi)容相同，且相同的連續(xù)字符長(zhǎng)度達(dá)到一高門(mén)坎值的文件；搜尋PT文件中連續(xù)字符長(zhǎng)度達(dá)一低門(mén)坎值的所有字符串節(jié)點(diǎn)和這些字符串節(jié)點(diǎn)所屬的所有文件，在這些文件中尋找連續(xù)字符內(nèi)容相同，且相同的連續(xù)字符長(zhǎng)度占原有文件內(nèi)容總長(zhǎng)度的比率達(dá)到一比率門(mén)坎值的文件，將這些文件標(biāo)示為內(nèi)容彼此相同或近似程度高的文件。可以對(duì)文件內(nèi)容相同或是近似程度高的文件進(jìn)行過(guò)濾，解決相同或近似文件大量重復(fù)的問(wèn)題。
文檔編號(hào)G06F17/30GK101714147SQ20081016823
公開(kāi)日2010年5月26日申請(qǐng)日期2008年10月6日優(yōu)先權(quán)日2008年10月6日
發(fā)明者卓訓(xùn)學(xué), 蔡弘揚(yáng) 申請(qǐng)人:易搜比控股公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蔡弘揚(yáng);卓訓(xùn)學(xué)
技術(shù)所有人：易搜比控股公司
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

相同或相似文件的過(guò)濾方法