專利名稱:能加快反剽竊或轉(zhuǎn)載文檔檢測速度的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機領(lǐng)域,具體涉及利用計算機保護知識產(chǎn)權(quán)、懲治學(xué)術(shù)腐敗的方法,特別是文字文檔的反剽竊或轉(zhuǎn)載檢測方法。
背景技術(shù):
反剽竊系統(tǒng)是通過比對源文檔和目標(biāo)文檔的相似性給出剽竊相似度結(jié)果的一種自動化計算機網(wǎng)絡(luò)系統(tǒng)。反剽竊系統(tǒng)可用于知識產(chǎn)權(quán)保護、電子學(xué)習(xí)、數(shù)字圖書館、轉(zhuǎn)載監(jiān)控、信息安全、網(wǎng)上論文提交系統(tǒng)、音樂及多媒體反剽竊等多個領(lǐng)域。由此可知對反剽竊系統(tǒng)技術(shù)的研究具有重要的理論和實踐意義。
現(xiàn)有的文字文檔反剽竊或轉(zhuǎn)載檢測方法為用戶將被檢測文檔的全文,通過網(wǎng)絡(luò)提交給提供文字文檔反剽竊或轉(zhuǎn)載檢測服務(wù)的服務(wù)商,服務(wù)商的服務(wù)器將被檢測文檔的全文與文獻庫中的文獻進行比較,得出結(jié)論后提供給用戶。
現(xiàn)有的文字文檔反剽竊或轉(zhuǎn)載檢測方法的缺陷在于1、當(dāng)被檢測文檔的全文的數(shù)據(jù)量大或被檢測文檔的數(shù)量很大時,網(wǎng)絡(luò)傳輸?shù)乃俣嚷加镁W(wǎng)絡(luò)資源;2、服務(wù)商的服務(wù)器的工作量大,速度慢。
發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題是一種能加快反剽竊或轉(zhuǎn)載文檔檢測速度的方法。
本發(fā)明解決上述技術(shù)問題所采用的技術(shù)方案是能加快反剽竊或轉(zhuǎn)載文檔檢測速度的方法,具體步驟包括(1)建立用于存放遺留格式計算機編碼的存儲空間;(2)用存儲空間內(nèi)的遺留格式計算機編碼對被檢測文檔進行匹配搜索,判斷是否存在相同的遺留格式計算機編碼,并作出以下選擇a、如存在相同的遺留格式計算機編碼,則將遺留格式計算機編碼附近文檔的關(guān)鍵詞或/和句子或/和段落通過網(wǎng)絡(luò)提交給指定的服務(wù)器;b、如不存在相同的遺留格式計算機編碼,則將被檢測文檔的關(guān)鍵詞或/和全文通過網(wǎng)絡(luò)提交給指定的服務(wù)器;或,結(jié)束。
能加快反剽竊或轉(zhuǎn)載文檔檢測速度的方法,具體步驟包括(1)建立用于存放遺留格式計算機編碼的存儲空間;(2)用存儲空間內(nèi)的遺留格式計算機編碼對被檢測文檔進行匹配搜索,判斷是否存在相同的遺留格式計算機編碼,并作出以下選擇a、如存在相同的遺留格式計算機編碼,則將遺留格式計算機編碼附近文檔的關(guān)鍵詞或/和句子或/和段落與文獻庫中的文獻內(nèi)容進行比較;b、如不存在相同的遺留格式計算機編碼,則將被檢測文檔的關(guān)鍵詞或/和全文與文獻庫中的文獻內(nèi)容進行比較。
上述方案中,遺留格式的計算機編碼包括表示軟回車符號含義的計算機編碼。
上述方案中,遺留格式的計算機編碼包括表示兩個以上的連續(xù)空格符號加上回車符號含義的計算機編碼。
本發(fā)明方法的工作原理為如果文檔的作者存在剽竊或轉(zhuǎn)載行為,作者往往會直接復(fù)制其剽竊或轉(zhuǎn)載原文件的全文或部分,因此,作者提供的文檔(如Doc、DocX、PDF、HTML、XML等格式的文檔)中,往往存在一些其剽竊或轉(zhuǎn)載的原文檔中的一些遺留格式,如軟回車符號“↓”、兩個以上的連續(xù)空格符號加上回車符號“
”。本發(fā)明方法就是先找到這些格式遺留,再將這些遺留格式附近文檔的關(guān)鍵詞或/和句子或/和段落與文獻庫中的文獻內(nèi)容進行比較,從而減少了被檢測文檔的數(shù)據(jù)量,提高了網(wǎng)絡(luò)傳輸?shù)乃俣龋瑴p少了對網(wǎng)絡(luò)資源的占用,減少了服務(wù)器的工作量。
與現(xiàn)有技術(shù)相比,本發(fā)明優(yōu)點在于本發(fā)明方法從用戶剽竊行為習(xí)慣角度研究反剽竊問題,而傳統(tǒng)方法的思路主要從字符串本身的語義角度進行研究。本方法第一次從用戶行為習(xí)慣角度分析剽竊文檔本身存在的規(guī)律性痕跡,從而從心理學(xué)、行為學(xué)、社會學(xué)角度研究本身是計算機問題的反剽竊或轉(zhuǎn)載技術(shù),為反剽竊或轉(zhuǎn)載問題提供新的社會性技術(shù)解決思路。
本發(fā)明方法可用在計算機網(wǎng)絡(luò)的客戶機和服務(wù)器上。
圖1為本發(fā)明實施例1的軟件流程圖圖2為本發(fā)明實施例2的軟件流程圖具體實施方式
本發(fā)明實施例1,它為在計算機網(wǎng)絡(luò)的客戶機使用的能加快反剽竊或轉(zhuǎn)載文檔檢測速度的方法。其具體步驟包括(1)在客戶機的硬盤或內(nèi)存中建立用于存放遺留格式計算機編碼的存儲空間;遺留格式的計算機編碼包括表示軟回車符號“↓”含義的計算機編碼和表示兩個以上的連續(xù)空格符號加上回車符號“
”含義的計算機編碼。
(2)用存儲空間內(nèi)的遺留格式計算機編碼對被檢測文檔(剔除引文后的文檔)進行匹配搜索,判斷是否存在相同的遺留格式計算機編碼,并作出以下選擇a、如存在相同的遺留格式計算機編碼,則將遺留格式計算機編碼附近文檔的關(guān)鍵詞或/和句子或/和段落通過網(wǎng)絡(luò)提交給指定的、能提供文字文檔反剽竊或轉(zhuǎn)載檢測服務(wù)的服務(wù)器;
b、如不存在相同的遺留格式計算機編碼,則將被檢測文檔的關(guān)鍵詞或/和全文通過網(wǎng)絡(luò)提交給指定的、能提供文字文檔反剽竊或轉(zhuǎn)載檢測服務(wù)的服務(wù)器;或,結(jié)束。
本發(fā)明實施例1的軟件流程如圖1所示。
本發(fā)明實施例1減少了被檢測文檔的數(shù)據(jù)量,提高了網(wǎng)絡(luò)傳輸?shù)乃俣龋瑴p少了對網(wǎng)絡(luò)資源的占用,減少了服務(wù)器的工作量。
本發(fā)明實施例2,它為在計算機網(wǎng)絡(luò)的服務(wù)器使用的能加快反剽竊或轉(zhuǎn)載文檔檢測速度的方法。其具體步驟包括(1)在服務(wù)器的硬盤或內(nèi)存中建立用于存放遺留格式計算機編碼的存儲空間;遺留格式的計算機編碼包括表示軟回車符號“↓”含義的計算機編碼和表示兩個以上的連續(xù)空格符號加上回車符號“
”含義的計算機編碼。
(2)用存儲空間內(nèi)的遺留格式計算機編碼對被檢測文檔進行匹配搜索,判斷是否存在相同的遺留格式計算機編碼,并作出以下選擇a、如存在相同的遺留格式計算機編碼,則將遺留格式計算機編碼附近文檔的關(guān)鍵詞或/和句子或/和段落與文獻庫中的文獻進行比較,得出結(jié)論后提供給用戶;b、如不存在相同的遺留格式計算機編碼,則將被檢測文檔的關(guān)鍵詞或/和全文與文獻庫中的文獻進行比較,得出結(jié)論后提供給用戶。
本發(fā)明實施例2的軟件流程如圖2所示。
本發(fā)明實施例2減少了服務(wù)器的工作量。
上述用于存放遺留格式計算機編碼的存儲空間中的遺留格式計算機編碼可任意添加和刪減。遺留格式計算機編碼還可以包括用戶在不同文檔格式進行轉(zhuǎn)換或者復(fù)制剪貼時,在新文檔中遺留的老文檔格式。這些格式在正常創(chuàng)建新文檔時一般不會出現(xiàn),但在文檔轉(zhuǎn)換或拷貝時,因文檔格式差異而遺留下來。
權(quán)利要求
1.能加快反剽竊或轉(zhuǎn)載文檔檢測速度的方法,具體步驟包括(1)建立用于存放遺留格式計算機編碼的存儲空間;(2)用存儲空間內(nèi)的遺留格式計算機編碼對被檢測文檔進行匹配搜索,判斷是否存在相同的遺留格式計算機編碼,并作出以下選擇a、如存在相同的遺留格式計算機編碼,則將遺留格式計算機編碼附近文檔的關(guān)鍵詞或/和句子或/和段落通過網(wǎng)絡(luò)提交給指定的服務(wù)器;b、如不存在相同的遺留格式計算機編碼,則將被檢測文檔的關(guān)鍵詞或/和全文通過網(wǎng)絡(luò)提交給指定的服務(wù)器;或,結(jié)束。
2.能加快反剽竊或轉(zhuǎn)載文檔檢測速度的方法,具體步驟包括(1)建立用于存放遺留格式計算機編碼的存儲空間;(2)用存儲空間內(nèi)的遺留格式計算機編碼對被檢測文檔進行匹配搜索,判斷是否存在相同的遺留格式計算機編碼,并作出以下選擇a、如存在相同的遺留格式計算機編碼,則將遺留格式計算機編碼附近文檔的關(guān)鍵詞或/和句子或/和段落與文獻庫中的文獻內(nèi)容進行比較;b、如不存在相同的遺留格式計算機編碼,則將被檢測文檔的關(guān)鍵詞或/和全文與文獻庫中的文獻內(nèi)容進行比較。
3.如權(quán)利要求
1或2所述的方法,其特征在于遺留格式的計算機編碼包括表示軟回車符號含義的計算機編碼。
4.如權(quán)利要求
1或2所述的方法,其特征在于遺留格式的計算機編碼包括表示兩個以上的連續(xù)空格符號加上回車符號含義的計算機編碼。
專利摘要
本發(fā)明涉及能加快反剽竊或轉(zhuǎn)載文檔檢測速度的方法,具體步驟包括(1)建立用于存放遺留格式計算機編碼的存儲空間;(2)用存儲空間內(nèi)的遺留格式計算機編碼對被檢測文檔進行匹配搜索,判斷是否存在相同的遺留格式計算機編碼,并作出后面的選擇。本發(fā)明方法就是先找到這些格式遺留,再將這些遺留格式附近文檔的關(guān)鍵詞或/和句子或/和段落與文獻庫中的文獻內(nèi)容進行比較,從而減少了被檢測文檔的數(shù)據(jù)量,提高了網(wǎng)絡(luò)傳輸?shù)乃俣龋瑴p少了對網(wǎng)絡(luò)資源的占用,減少了服務(wù)器的工作量。
文檔編號G06F17/30GK1996300SQ200610166577
公開日2007年7月11日 申請日期2006年12月31日
發(fā)明者沈陽 申請人:武漢大學(xué)導(dǎo)出引文BiBTeX, EndNote, RefMan