中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)與方法

文檔序號(hào)：6373754閱讀：221來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)與方法
中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)與方法技術(shù)領(lǐng)域
本發(fā)明是關(guān)于中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)與方法，尤指一種利用搜索引擎的功能，將要比對(duì)的文章以拆解字句算法拆解分句后分別拿去搜尋，當(dāng)搜尋結(jié)果的總結(jié)吻合搜尋的句子時(shí)，就把搜尋結(jié)果的網(wǎng)頁載下來進(jìn)行全文比對(duì)，即可快速判斷是否有從此網(wǎng)站抄襲的中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)與方法。
背景技術(shù)：
近年來網(wǎng)絡(luò)發(fā)達(dá)，也改變了學(xué)生寫作業(yè)的習(xí)慣，從過去鼓勵(lì)學(xué)生多查閱網(wǎng)絡(luò)數(shù)據(jù)，到現(xiàn)在必須防堵學(xué)生使用網(wǎng)絡(luò)數(shù)據(jù)，而網(wǎng)絡(luò)使用也確實(shí)造成了大量抄襲的現(xiàn)象，互聯(lián)網(wǎng)營(yíng) 造出高度抄襲的環(huán)境，在環(huán)境與時(shí)間的壓力下，容易產(chǎn)生抄襲行為；其次社會(huì)彌漫“走快捷方式”取巧的心理，學(xué)生只關(guān)心寫作業(yè)的效率而不重視作業(yè)質(zhì)量，學(xué)術(shù)界也重視論文的出版量，而較少關(guān)注內(nèi)容質(zhì)量，社會(huì)彌漫取巧的心態(tài)；再者，抄襲的偏差行為已成常態(tài)，代寫服務(wù) 更讓整個(gè)學(xué)術(shù)環(huán)境惡化，抄襲不誠(chéng)實(shí)行為已惡化為學(xué)術(shù)欺騙的嚴(yán)重犯行。
有鑒于學(xué)生抄襲行為日益嚴(yán)重，尤其是抄襲網(wǎng)絡(luò)數(shù)據(jù)或?qū)⒕W(wǎng)絡(luò)數(shù)據(jù)二次加工，重新拼貼與排列組合成大雜燴文章的行為，國(guó)外的營(yíng)利企業(yè)發(fā)明了數(shù)字抄襲偵測(cè)軟件進(jìn)行防范，經(jīng)過長(zhǎng)時(shí)間的運(yùn)作與測(cè)試，確實(shí)能降低抄襲行為的發(fā)生率，抑制學(xué)生想要僥幸投機(jī)的行為，只是多數(shù)偵測(cè)系統(tǒng)的測(cè)驗(yàn)報(bào)告與相關(guān)文獻(xiàn)幾乎是以英語系國(guó)家為主，各種累積的知識(shí) 僅止于英文環(huán)境，無法移植到中文語系，由于中文語體不管是書寫結(jié)構(gòu)、字詞組合、文字?jǐn)?句(segmentation)、標(biāo)點(diǎn)符號(hào)的使用等，都與英文環(huán)境有極大差異，因此中文化界面的數(shù)字抄襲比對(duì)系統(tǒng)與方法仍需要開發(fā)，以適合華語教育界使用。
已知的中文抄襲文章比對(duì)系統(tǒng)與方法，如中國(guó)臺(tái)灣第1262402號(hào)題為《特征擷取、數(shù)據(jù)解密方法以及抄襲文章搜尋的系統(tǒng)與方法》的發(fā)明專利公告，其是對(duì)已植入水印的文章10進(jìn)行特征擷取，以取得文件特征20，根據(jù)所取得的詞匯輸入搜索引擎30，并且比對(duì)索引數(shù)據(jù)庫40以搜尋因特網(wǎng)上可能抄襲的文章50 ;接著將搜尋所得的文章50與原文比對(duì)，根據(jù)比對(duì)結(jié)果取得的句子執(zhí)行水印解析；最后，將所取得的水印信息60與原來的水印比對(duì)，然后根據(jù)比對(duì)結(jié)果判斷該搜尋所得的文章是否為抄襲文章，若比對(duì)結(jié)果大于一臨界值，則表不其為抄襲文章70。
而該已知發(fā)明的特征擷取方法是將自植入水印的文章取得的句子、詞匯予以斷詞及詞性標(biāo)注，然后根據(jù)文章中水印植入的詞與句型，利用同義詞庫與同義句型庫，針對(duì)文章的文字產(chǎn)生其語意層面的特征，即將內(nèi)容中藏有水印的句子與詞匯取出。然后以詞匯以及詞性作為查詢定義的依據(jù)，在同義詞數(shù)據(jù)庫中進(jìn)行搜尋，以取得可作為該文章的特征的詞匯。然后以該詞匯為關(guān)鍵詞，利用搜索引擎進(jìn)行網(wǎng)絡(luò)搜尋，以獲得相關(guān)可能的抄襲文章。
然而，該種已知的抄襲文章搜尋系統(tǒng)與方法由于必需經(jīng)過將文章植入水印、將植入水印的文章進(jìn)行特征擷取、根據(jù)所取得的詞匯輸入搜索引擎30、比對(duì)索引數(shù)據(jù)庫40以搜尋因特網(wǎng)上可能抄襲的文章50、將搜尋所得的文章50與原文比對(duì)、根據(jù)比對(duì)結(jié)果取得的句子執(zhí)行水印解析、將所取得的水印信息60與原來的水印比對(duì)及根據(jù)比對(duì)結(jié)果判斷該搜尋所得的文章是否為抄襲文章等繁雜的步驟，雖然可比對(duì)出改變同義詞與同義句的部分，但對(duì)于比對(duì)一般論文或長(zhǎng)篇文章而言，如此大量復(fù)雜的步驟對(duì)計(jì)算機(jī)服務(wù)器會(huì)造成很大的負(fù)荷，進(jìn)而影響文章比對(duì)的速度，而降低使用的效率。其次，因?yàn)楸葘?duì)系統(tǒng)所搜尋到相同的部分可能是“參考書目”或合乎規(guī)范圍的“直接引用”，故再精確的比對(duì)系統(tǒng)也很難直接判斷一篇文章是否為抄襲文章；最后，“抄襲”一詞仍未有客觀明確的界定，雷同字?jǐn)?shù)多寡也成為判斷抄襲與否的重要參考因素，而水印范圍的設(shè)定，并無法讓使用者根據(jù)自己主觀界定或客觀學(xué)術(shù)環(huán)境作彈性調(diào)整。因此，為更有效率地判斷一篇文章是否為抄襲文章，首先必需加快文章比對(duì)的速度，并利用抄襲比對(duì)系統(tǒng)的比對(duì)結(jié)果做為輔助判斷是否為抄襲文章的依據(jù)，最后再以人工檢視方法做進(jìn)一步查驗(yàn)即可有效的判斷一文章是否為抄襲文章；其次，使用者可以透過本身所處的學(xué)術(shù)環(huán)境或需求對(duì)于“抄襲”字?jǐn)?shù)的定義作彈性調(diào)整，也符合用戶的需求。所以，如何加快文章比對(duì)的速度，以及讓審查者可清楚且快速得知比對(duì)文章中涉嫌抄襲部分與搜尋部分的差異，與對(duì)于抄襲字?jǐn)?shù)定義作為彈性調(diào)整，則為該已知抄襲文章搜尋系統(tǒng)所欠缺考慮的部分。為此，本發(fā)明者基于多年相關(guān)系統(tǒng)開發(fā)與方法研究的經(jīng)驗(yàn)，特針對(duì)目前中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)與方法加以研究，從而得出本發(fā)明專利申請(qǐng)。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種中文數(shù)字反抄襲偵測(cè)比對(duì)方法，使用者可將比對(duì)文章上傳至中心伺服器以進(jìn)行數(shù)據(jù)存取，并將比對(duì)文章透過系統(tǒng)程序所設(shè)定的拆解規(guī)則進(jìn)行拆解，而得到固定字?jǐn)?shù)的拆解文句，再利用搜索引擎將拆解文句一句一句搜尋后，即可獲得多篇與拆解文句雷同的網(wǎng)頁或文章，再將雷同的網(wǎng)頁或文章與比對(duì)文章進(jìn)行全文比對(duì)，對(duì)比對(duì)文章和與所述比對(duì)文章相雷同的網(wǎng)頁或文章的雷同部分進(jìn)行標(biāo)記及分析，即可獲得比對(duì)結(jié)果，該比對(duì)結(jié)果可供審查者進(jìn)行人工查驗(yàn)，并判斷比對(duì)文章是否為抄襲文章。本發(fā)明的中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)，其中文章訪問機(jī)制設(shè)首頁元件以提供用戶進(jìn)入中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)的管道，并設(shè)有上傳元件與數(shù)據(jù)庫元件；文章拆解機(jī)制在開始偵測(cè)上傳比對(duì)文章時(shí)，將該比對(duì)文章以拆解字句算法，將每篇比對(duì)文章先以換行方式拆成多個(gè)段落，再依自定義的拆解字?jǐn)?shù)，以固定字?jǐn)?shù)將每個(gè)段落拆解成固定長(zhǎng)度的最小偵測(cè)句子，并將各最小偵測(cè)句子的標(biāo)點(diǎn)符號(hào)刪除，再依自定義的搜尋比對(duì)字?jǐn)?shù)，以固定字?jǐn)?shù)做作為門坎篩選符合搜尋比對(duì)條件的最小偵測(cè)句子，最后即可將前述各符合搜尋比對(duì)條件的最小偵測(cè)句子登錄編號(hào)，以提供搜尋比對(duì)機(jī)制進(jìn)行偵測(cè)抄襲之用；搜尋比對(duì)機(jī)制設(shè)比對(duì)元件、判定元件及抄襲來源比對(duì)元件，利用比對(duì)元件及判定元件可獲得與拆解文章部分雷同的網(wǎng)頁或文章，并以抄襲來源比對(duì)元件連接并下載與比對(duì)文章相似的雷同的網(wǎng)頁或文章，即可將比對(duì)文章與雷同的網(wǎng)頁或文章以比對(duì)元件及判定元件進(jìn)行全文比對(duì)；評(píng)估報(bào)告機(jī)制是在前述比對(duì)文章進(jìn)行全文比對(duì)、判定后，即可針對(duì)每一份上傳的比對(duì)文章做出分析，并獲得比對(duì)結(jié)果。本發(fā)明的中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)與方法，乃在中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)的中心伺服器設(shè)有多個(gè)運(yùn)算主機(jī)，經(jīng)由中心伺服器將各使用者上傳的比對(duì)文章分派給各運(yùn)算主機(jī)，利用運(yùn)算主機(jī)進(jìn)行文章拆解、下載多篇與文章拆解部分雷同的網(wǎng)頁或文章、并進(jìn)行全文比對(duì)，以獲得比對(duì)結(jié)果，并將比對(duì)結(jié)果回傳至中心伺服器，再經(jīng)由中心伺服器傳送至使用者。

圖1是本發(fā)明所述的中文數(shù)字反抄襲偵測(cè)比對(duì)方法的步驟流程圖。
圖2是本發(fā)明所述的實(shí)施例。
圖3是本發(fā)明所述的中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)的示意圖。
主要元件符號(hào)說明
比對(duì)文章10中心伺服器11拆解文章12搜索引擎13
雷同的網(wǎng)頁或文章14全文比對(duì)15比對(duì)結(jié)果16
文章訪問機(jī)制2
首頁元件20上傳元件21數(shù)據(jù)庫元件22
文章拆解機(jī)制3
拆解字句算法30段落310拆解字?jǐn)?shù)32
最小偵測(cè)句子320搜尋比對(duì)字?jǐn)?shù)33
搜尋比對(duì)機(jī)制4
比對(duì)元件40判定元件41抄襲來源比對(duì)元件42
評(píng)估報(bào)告機(jī)制5
用戶6
運(yùn)算主機(jī)110具體實(shí)施方式
如此，為使公眾得以充分了解本發(fā)明的特征，茲依附圖標(biāo)解說如下
如圖1所示，其為本發(fā)明的數(shù)字反抄襲比對(duì)方法的步驟流程圖。首先，使用者可將比對(duì)文章10上傳至中心伺服器11以進(jìn)行數(shù)據(jù)存取，并將比對(duì)文章10以拆解字句算法進(jìn)行拆解而得到拆解文章12，利用搜索引擎13將拆解文章12的最小偵測(cè)句子一句一句上傳搜尋后，即可獲得多篇與拆解文章12部分雷同的網(wǎng)頁或文章14，并將該雷同的網(wǎng)頁或文章14 下載，并將比對(duì)文章10與雷同的網(wǎng)頁或文章14進(jìn)行全文比對(duì)15，對(duì)比對(duì)文章10與雷同的網(wǎng)頁或文章14相同的部分進(jìn)行標(biāo)記及分析，即可獲得比對(duì)結(jié)果16，該比對(duì)結(jié)果16可供審查者進(jìn)行人工查驗(yàn)，以進(jìn)一步判斷比對(duì)文章是否為抄襲文章。
再者，如圖3所示，本發(fā)明所述的中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)至少包含
文章訪問機(jī)制2，設(shè)首頁元件20以提供用戶進(jìn)入中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)的管道，包括網(wǎng)站首頁、用戶賬號(hào)與密碼的鑒別、用戶賬號(hào)密碼遺忘重領(lǐng)的機(jī)制等；并可將用戶身份區(qū)分為系統(tǒng)管理者、教師、學(xué)生與參觀者，以方便使用者的管理與設(shè)定權(quán)限。
前述文章訪問機(jī)制2設(shè)上傳元件21，以提供網(wǎng)站頁面供使用者上傳比對(duì)文章10至中心伺服器11，此上傳元件21將會(huì)判別上傳比對(duì)文章10的格式(Word格式或PDF格式) 是否符合系統(tǒng)需求；上傳元件21會(huì)把上傳比對(duì)文章10儲(chǔ)存并入中心伺服器11的數(shù)據(jù)庫元件22之中，并監(jiān)控使用者在期限之內(nèi)可以重新上傳比對(duì)文章10。
前述文章訪問機(jī)制2設(shè)數(shù)據(jù)庫元件22，主要是隨時(shí)在因特網(wǎng)上搜集各類型的數(shù)字?jǐn)?shù)據(jù)，并加以儲(chǔ)存，以增加比對(duì)時(shí)的數(shù)據(jù)源。文章拆解機(jī)制3，前述文章拆解機(jī)制3在開始偵測(cè)上傳比對(duì)文章10時(shí)，將該比對(duì)文章10以拆解字句算法30，將每篇比對(duì)文章10先以換行方式31拆成多個(gè)段落310，再依自定義的拆解字?jǐn)?shù)32，以固定字?jǐn)?shù)將每個(gè)段落310拆解成固定長(zhǎng)度的最小偵測(cè)句子320，并將各最小偵測(cè)句子320的標(biāo)點(diǎn)符號(hào)刪除，再依自定義的搜尋比對(duì)字?jǐn)?shù)33，以固定字?jǐn)?shù)作為門坎篩選符合搜尋比對(duì)條件的最小偵測(cè)句子320，若一刪除標(biāo)點(diǎn)符號(hào)后的最小偵測(cè)句子320所剩余的字?jǐn)?shù)少于所設(shè)定的搜尋比對(duì)字?jǐn)?shù)33時(shí)，即不搜尋比對(duì)該句子；如此，利用拆解字句算法30即可解決比對(duì)文章10拆解后的句子太短無搜尋意義，或比對(duì)文章10拆解后的句子太長(zhǎng)不易搜尋的問題；最后即可將前述各符合搜尋比對(duì)條件的最小偵測(cè)句子320登錄編號(hào)，以提供搜尋比對(duì)機(jī)制4進(jìn)行偵測(cè)抄襲之用。關(guān)于前述拆解字句算法30，例如某一比對(duì)文章10以換行方式31拆成之段落310為“他慢慢蹲下來，好了一點(diǎn)，好了一點(diǎn)。從略微的仰角，他看到街對(duì)面有個(gè)手拿氣球的奇怪女人正抬頭仰望天空，她像發(fā)現(xiàn)幽浮似地，嘴不由自主地張開來?！?若自定義的拆解字?jǐn)?shù)32為15個(gè)字，即可將該段落310拆解成固定長(zhǎng)度的最小偵測(cè)句子320為“(他慢慢蹲下來，好了一點(diǎn)，好了一)(點(diǎn)。從略微的仰角，他看到街對(duì)面)(有個(gè)手拿氣球的奇怪女人正抬頭仰)(望天空，她像發(fā)現(xiàn)幽浮似地，嘴不)(由自主地張開來。之后再將各最小偵測(cè)句子320刪除標(biāo)點(diǎn)符號(hào)，可得到不含標(biāo)點(diǎn)符號(hào)的最小偵測(cè)句子320為“(他慢慢蹲下來好了一點(diǎn)好了一)(點(diǎn)從略微的仰角他看到街對(duì)面)(有個(gè)手拿氣球的奇怪女人正抬頭仰)(望天空她像發(fā)現(xiàn)幽浮似地嘴不)(由自主地張開來)”;若自定義的搜尋比對(duì)字?jǐn)?shù)33為8個(gè)字，其中該句“(由自主地張開來)”只有7個(gè)字，不符合篩選門坎，因此最后可登錄編號(hào)及上傳搜尋比對(duì)的最小偵測(cè)句子320為“(他慢慢蹲下來好了一點(diǎn)好了一)(點(diǎn)從略微的仰角他看到街對(duì)面)(有個(gè)手拿氣球的奇怪女人正抬頭仰)(望天空她像發(fā)現(xiàn)幽浮似地嘴不)”;共4句。搜尋比對(duì)機(jī)制4設(shè)比對(duì)元件40，前述比對(duì)元件40可透過互聯(lián)網(wǎng)搜索引擎13 (如Google搜索引擎或YAHOO搜索引擎等)、各式電子文章數(shù)據(jù)庫或其他學(xué)生的文章等加以登錄比對(duì)前述經(jīng)篩選過的最小偵測(cè)句子320，或?qū)⒈葘?duì)文章10與雷同的網(wǎng)頁或文章14進(jìn)行全文比對(duì)15。前述搜尋比對(duì)機(jī)制4設(shè)判定元件41，此判定元件41的功能在于根據(jù)前述比對(duì)元件40的比對(duì)結(jié)果，針對(duì)比對(duì)文章10中的每一句、每一段落做出是否抄襲的判斷，并以百分比來呈現(xiàn)其抄襲可能性；或?qū)⒈葘?duì)文章10與雷同的網(wǎng)頁或文章14進(jìn)行全文比對(duì)15的抄襲比例也做出評(píng)估判定。前述搜尋比對(duì)機(jī)制4設(shè)抄襲來源比對(duì)元件42，主要是建立抄襲文字與抄襲來源間的連結(jié)工作，以連結(jié)并下載與比對(duì)文章10相似的雷同的網(wǎng)頁或文章14進(jìn)行全文比對(duì)15。本發(fā)明所述的獲得與比對(duì)文章10相似的雷同的網(wǎng)頁或文章14的方法，是利用搜尋比對(duì)機(jī)制4的搜索引擎13、比對(duì)元件40及判定元件41，將經(jīng)過拆解字句算法30篩選過的最小偵測(cè)句子320 —句一句分別進(jìn)行搜尋比對(duì)，而搜尋后所得到的搜尋比對(duì)結(jié)果，根據(jù)拿去搜尋的句子和搜尋比對(duì)結(jié)果的總結(jié)，計(jì)算兩者共同子序列的比例，并設(shè)定一門坎值，若共同子序列的比例超過該門坎值時(shí)，即以抄襲來源比對(duì)元件42連接并下載該網(wǎng)頁或文章，即可獲得與拆解文章12部分雷同的網(wǎng)頁或文章14，以進(jìn)行后續(xù)全文比對(duì)15的程序。本發(fā)明所述的全文比對(duì)15的方法，是利用搜尋比對(duì)機(jī)制4的比對(duì)元件40，將比對(duì)文章10與雷同的網(wǎng)頁或文章14直接以無意義字符接在一起，利用詞尾數(shù)組(Suffix Array)的數(shù)據(jù)結(jié)構(gòu)處理過,再利用數(shù)據(jù)分割(Data Partitioning,簡(jiǎn)稱DP)的技巧，即可得到所有在比對(duì)文章10中局部最長(zhǎng)且有出現(xiàn)在雷同的網(wǎng)頁或文章14的句子，之后再以搜尋比對(duì)機(jī)制4的判定元件41，將全文比對(duì)15后的抄襲比例做出評(píng)估判定；因?yàn)楸葘?duì)相同的部分可能是“參考書目”或合乎規(guī)范的“直接引用”，為方便審查者進(jìn)行人工查驗(yàn)，該比對(duì)文章 10與雷同網(wǎng)相14的比對(duì)相同部分，搜尋比對(duì)機(jī)制4會(huì)分別以反黃方式標(biāo)記于比對(duì)文章10 及雷同的網(wǎng)頁或文章14中。
評(píng)估報(bào)告機(jī)制5，是所有偵測(cè)工作的最后一項(xiàng)，也就是在前述比對(duì)文章10與雷同的網(wǎng)頁或文章14進(jìn)行全文比對(duì)、判定后，利用評(píng)估報(bào)告機(jī)制5即可針對(duì)每一份上傳的比對(duì) 文章10做出分析，并獲得比對(duì)結(jié)果16。
如圖2所示，其為本發(fā)明的中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)的實(shí)施例，各使用者6 將比對(duì)文章10經(jīng)由文章訪問機(jī)制2上傳至中心伺服器11以進(jìn)行數(shù)據(jù)存取后，中心伺服器 11即會(huì)將各使用者6上傳的比對(duì)文章10分派給各運(yùn)算主機(jī)110，該運(yùn)算主機(jī)110利用文章拆解機(jī)制3對(duì)比對(duì)文章10進(jìn)行拆解而得到拆解文章12，并以搜尋比對(duì)機(jī)制4利用搜索引擎 13將拆解文章12 —句一句分別上傳搜尋比對(duì)后，即可將與拆解文章12部分雷同的網(wǎng)頁或文章14下載回傳至運(yùn)算主機(jī)110，以進(jìn)行比對(duì)文章10與雷同的網(wǎng)頁或文章14的全文比對(duì) 15，利用評(píng)估報(bào)告機(jī)制5即可針對(duì)每一份上傳的比對(duì)文章10做出分析，并于產(chǎn)生比對(duì)結(jié)果 16后，將此一比對(duì)結(jié)果16回傳至中心伺服器11，因此使用者6即可觀看比對(duì)結(jié)果16。
如此，本發(fā)明利用中心伺服器11與運(yùn)算主機(jī)110之分工機(jī)制可提升中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)的搜尋比對(duì)速度，且本發(fā)明的中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)利用文章拆解機(jī)制3及搜尋比對(duì)機(jī)制4可加快比對(duì)文章10比對(duì)的速度，并于比對(duì)文章10與雷同的網(wǎng)頁或文章14的相同部分以反黃方式各別標(biāo)記于文章及網(wǎng)頁中，使該使用者6可快速獲得比對(duì) 文章10的比對(duì)結(jié)果16，并利用比對(duì)結(jié)果16進(jìn)行人工查驗(yàn)，以判斷比對(duì)文章是否為抄襲文.1V.早。
權(quán)利要求
1.一種中文數(shù)字反抄襲偵測(cè)比對(duì)方法，包括下列步驟將比對(duì)文章上傳至中心伺服器以進(jìn)行數(shù)據(jù)存?。? 將比對(duì)文章以拆解字句算法進(jìn)行拆解而得到拆解文章；利用搜索引擎將拆解文章的最小偵測(cè)句子一句一句上傳搜尋后，即可獲得多篇與拆解文章部分雷同的網(wǎng)頁或文章，并將該雷同的網(wǎng)頁或文章下載；將比對(duì)文章與雷同的網(wǎng)頁或文章進(jìn)行全文比對(duì)，對(duì)比對(duì)文章與雷同的網(wǎng)頁或文章相似的部分進(jìn)行標(biāo)記及分析，即可獲得比對(duì)結(jié)果，該比對(duì)結(jié)果可供審查者進(jìn)行人工查驗(yàn)，并判斷比對(duì)文章是否為抄襲文章。
2.一種中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)，至少包含文章存取機(jī)制，設(shè)首頁元件以提供用戶進(jìn)入中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)的管道；前述文章存取機(jī)制設(shè)上傳元件以提供網(wǎng)站頁面供使用者上傳比對(duì)文章至中心伺服器；前述文章存取機(jī)制設(shè)數(shù)據(jù)庫元件以隨時(shí)在因特網(wǎng)上搜集各類型的數(shù)字?jǐn)?shù)據(jù)，并加以儲(chǔ)存，可增加比對(duì)時(shí)的數(shù)據(jù)源；文章拆解機(jī)制，前述文章拆解機(jī)制在開始偵測(cè)上傳比對(duì)文章時(shí)，將該比對(duì)文章以拆解字句算法，將每篇比對(duì)文章先以換行方式拆成多個(gè)段落，再依自定義的拆解字?jǐn)?shù)，以固定字?jǐn)?shù)將每個(gè)段落拆解成固定長(zhǎng)度的最小偵測(cè)句子，并將各最小偵測(cè)句子的標(biāo)點(diǎn)符號(hào)刪除，再依自定義的搜尋比對(duì)字?jǐn)?shù)，以固定字?jǐn)?shù)作為門坎篩選符合搜尋比對(duì)條件的最小偵測(cè)句子，最后即可將前述各符合搜尋比對(duì)條件的最小偵測(cè)句子登錄編號(hào)，以供搜尋比對(duì)機(jī)制進(jìn)行偵測(cè)抄襲之用；搜尋比對(duì)機(jī)制設(shè)比對(duì)元件，前述比對(duì)元件可透過因特網(wǎng)搜索引擎、各式電子文章數(shù)據(jù)庫或其他學(xué)生的文章等加以登錄比對(duì)前述經(jīng)篩選過的最小偵測(cè)句子，或?qū)⒈葘?duì)文章與雷同的網(wǎng)頁或文章進(jìn)行全文比對(duì)；前述搜尋比對(duì)機(jī)制設(shè)判定元件，此判定元件的功能在于根據(jù)前述比對(duì)元件的比對(duì)結(jié)果，針對(duì)比對(duì)文章中的每一句、每一段落做出是否抄襲的判斷，并以百分比來呈現(xiàn)其抄襲可能性，或?qū)Ρ葘?duì)文章與雷同的網(wǎng)頁或文章進(jìn)行全文比對(duì)的抄襲比例也做出評(píng)估判定；前述搜尋比對(duì)機(jī)制設(shè)抄襲來源比對(duì)元件，主要是建立抄襲文字與抄襲來源間之連接工作，以連接并下載與比對(duì)文章相似之雷同的網(wǎng)頁或文章進(jìn)行全文比對(duì)；評(píng)估報(bào)告機(jī)制，是所有偵測(cè)工作的最后一項(xiàng)，在前述比對(duì)文章進(jìn)行全文比對(duì)、判定后，即可針對(duì)每一份上傳的比對(duì)文章做出分析，并獲得比對(duì)結(jié)果。
3.如權(quán)利要求2所述的中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)，其特征在于，首頁元件包括網(wǎng)站首頁、用戶賬號(hào)與密碼的鑒別、用戶賬號(hào)密碼遺忘重領(lǐng)的機(jī)制等；并可將用戶身份區(qū)分為系統(tǒng)管理者、教師、學(xué)生與參觀者，以方便使用者的管理與設(shè)定權(quán)限。
4.所述的中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)，其特征在于，上傳元件將會(huì)判別上傳比對(duì)文章的格式是否符合系統(tǒng)需求，且上傳元件會(huì)把上傳比對(duì)文章儲(chǔ)存并入中心伺服器的數(shù)據(jù)庫元件之中，并監(jiān)控使用者在期限之內(nèi)可以重新上傳比對(duì)文章。
5.如權(quán)利要求1或2所述的中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)，其特征在于，獲得與比對(duì)文章相似的雷同的網(wǎng)頁或文章之方法，是利用搜尋比對(duì)機(jī)制之搜索引擎、比對(duì)元件及判定元件，將經(jīng)過拆解字句算法篩選過之最小偵測(cè)句子一句一句各別進(jìn)行搜尋比對(duì)，而搜尋后所得到的搜尋比對(duì)結(jié)果，根據(jù)拿去搜尋的句子和搜尋比對(duì)結(jié)果之總結(jié)，計(jì)算兩者共同子序列的比例，并設(shè)定一門坎值，若共同子序列的比例超過該門坎值時(shí)，即以抄襲來源比對(duì)元件連接并下載該網(wǎng)頁或文章，即可獲得與拆解文章部分雷同的網(wǎng)頁或文章，以進(jìn)行后續(xù)全文比對(duì)之程序。
6.如權(quán)利要求1或2所述的中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)，其特征在于，全文比對(duì)的方法，是利用搜尋比對(duì)機(jī)制的比對(duì)元件，將比對(duì)文章與雷同的網(wǎng)頁或文章直接以無意義字符接在一起，利用詞尾數(shù)組(Suffix Array)的數(shù)據(jù)結(jié)構(gòu)處理過，再利用數(shù)據(jù)分割(DataPartitioning，簡(jiǎn)稱DP)的技巧，即可得到所有在比對(duì)文章中局部最長(zhǎng)且有出現(xiàn)在雷同的網(wǎng)頁或文章中的句子；之后再以搜尋比對(duì)機(jī)制的判定元件，將全文比對(duì)后的抄襲比例做出評(píng)估判定。
7.如權(quán)利要求1或2所述的中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)與方法，其特征在于，比對(duì)文章與雷同的網(wǎng)或文章的比對(duì)相同部分，搜尋比對(duì)機(jī)制會(huì)分別以反黃方式標(biāo)記于比對(duì)文章及雷同的網(wǎng)頁或文章中。
8.如權(quán)利要求1或2所述的中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)與方法，其特征在于，中心伺服器設(shè)有多個(gè)運(yùn)算主機(jī)，經(jīng)由中心伺服器將各使用者上傳的比對(duì)文章分派給各運(yùn)算主機(jī)，利用運(yùn)算主機(jī)進(jìn)行文章拆解、下載多筆與比對(duì)文章部分雷同的網(wǎng)頁或文章及全文比對(duì)，以獲得比對(duì)結(jié)果，并將比對(duì)結(jié)果回傳至中心伺服器，再經(jīng)由中心伺服器傳送至使用者。
全文摘要
本發(fā)明涉及一種中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)與方法，本系統(tǒng)包含文章存取、拆解、搜尋比對(duì)及評(píng)估報(bào)告等機(jī)制，使用過程中，使用者首先將比對(duì)文章經(jīng)由文章存取機(jī)制上傳至中心伺服器進(jìn)行數(shù)據(jù)存取，中心伺服器將上傳的比對(duì)文章分派給運(yùn)算主機(jī)，該運(yùn)算主機(jī)即通過文章拆解機(jī)制將比對(duì)文章拆解成句子群，并將所獲之句群逐句上傳至搜索引擎，透過搜尋比對(duì)機(jī)制進(jìn)行搜尋，即可獲得與拆解文章字句雷同的網(wǎng)頁或文章并下載回傳至運(yùn)算主機(jī)，以進(jìn)行比對(duì)文章與雷同網(wǎng)頁或文章的全文比對(duì)，全文比對(duì)結(jié)果會(huì)將比對(duì)文章和與所述比對(duì)文章相雷同的網(wǎng)頁或文章的雷同部分標(biāo)示并陳，并注記網(wǎng)頁之來源，此一比對(duì)結(jié)果將會(huì)回傳至中心伺服器，因此使用者即可觀看比對(duì)結(jié)果。
文檔編號(hào)G06F17/30GK103049467SQ20121025851
公開日2013年4月17日申請(qǐng)日期2012年7月24日優(yōu)先權(quán)日2011年10月12日
發(fā)明者楊純青申請(qǐng)人:楊純青

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊純青
技術(shù)所有人：楊純青
我是此專利的發(fā)明人

上一篇：曲線圖顯示裝置以及曲線圖顯示方法
上一篇：鏡像紋理生成方法、裝置以及計(jì)算機(jī)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

自偵測(cè)數(shù)字式倒車?yán)走_(dá)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)與方法