欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)與方法

文檔序號(hào):6373754閱讀:221來源:國(guó)知局
專利名稱:中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)與方法
中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)與方法技術(shù)領(lǐng)域
本發(fā)明是關(guān)于中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)與方法,尤指一種利用搜索引擎的功 能,將要比對(duì)的文章以拆解字句算法拆解分句后分別拿去搜尋,當(dāng)搜尋結(jié)果的總結(jié)吻合搜 尋的句子時(shí),就把搜尋結(jié)果的網(wǎng)頁載下來進(jìn)行全文比對(duì),即可快速判斷是否有從此網(wǎng)站抄 襲的中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)與方法。
背景技術(shù)
近年來網(wǎng)絡(luò)發(fā)達(dá),也改變了學(xué)生寫作業(yè)的習(xí)慣,從過去鼓勵(lì)學(xué)生多查閱網(wǎng)絡(luò)數(shù)據(jù), 到現(xiàn)在必須防堵學(xué)生使用網(wǎng)絡(luò)數(shù)據(jù),而網(wǎng)絡(luò)使用也確實(shí)造成了大量抄襲的現(xiàn)象,互聯(lián)網(wǎng)營(yíng) 造出高度抄襲的環(huán)境,在環(huán)境與時(shí)間的壓力下,容易產(chǎn)生抄襲行為;其次社會(huì)彌漫“走快捷 方式”取巧的心理,學(xué)生只關(guān)心寫作業(yè)的效率而不重視作業(yè)質(zhì)量,學(xué)術(shù)界也重視論文的出版 量,而較少關(guān)注內(nèi)容質(zhì)量,社會(huì)彌漫取巧的心態(tài);再者,抄襲的偏差行為已成常態(tài),代寫服務(wù) 更讓整個(gè)學(xué)術(shù)環(huán)境惡化,抄襲不誠(chéng)實(shí)行為已惡化為學(xué)術(shù)欺騙的嚴(yán)重犯行。
有鑒于學(xué)生抄襲行為日益嚴(yán)重,尤其是抄襲網(wǎng)絡(luò)數(shù)據(jù)或?qū)⒕W(wǎng)絡(luò)數(shù)據(jù)二次加工,重 新拼貼與排列組合成大雜燴文章的行為,國(guó)外的營(yíng)利企業(yè)發(fā)明了數(shù)字抄襲偵測(cè)軟件進(jìn)行防 范,經(jīng)過長(zhǎng)時(shí)間的運(yùn)作與測(cè)試,確實(shí)能降低抄襲行為的發(fā)生率,抑制學(xué)生想要僥幸投機(jī)的行 為,只是多數(shù)偵測(cè)系統(tǒng)的測(cè)驗(yàn)報(bào)告與相關(guān)文獻(xiàn)幾乎是以英語系國(guó)家為主,各種累積的知識(shí) 僅止于英文環(huán)境,無法移植到中文語系,由于中文語體不管是書寫結(jié)構(gòu)、字詞組合、文字?jǐn)?句(segmentation)、標(biāo)點(diǎn)符號(hào)的使用等,都與英文環(huán)境有極大差異,因此中文化界面的數(shù)字 抄襲比對(duì)系統(tǒng)與方法仍需要開發(fā),以適合華語教育界使用。
已知的中文抄襲文章比對(duì)系統(tǒng)與方法,如中國(guó)臺(tái)灣第1262402號(hào)題為《特征擷取、 數(shù)據(jù)解密方法以及抄襲文章搜尋的系統(tǒng)與方法》的發(fā)明專利公告,其是對(duì)已植入水印的文 章10進(jìn)行特征擷取,以取得文件特征20,根據(jù)所取得的詞匯輸入搜索引擎30,并且比對(duì)索 引數(shù)據(jù)庫40以搜尋因特網(wǎng)上可能抄襲的文章50 ;接著將搜尋所得的文章50與原文比對(duì), 根據(jù)比對(duì)結(jié)果取得的句子執(zhí)行水印解析;最后,將所取得的水印信息60與原來的水印比 對(duì),然后根據(jù)比對(duì)結(jié)果判斷該搜尋所得的文章是否為抄襲文章,若比對(duì)結(jié)果大于一臨界值, 則表不其為抄襲文章70。
而該已知發(fā)明的特征擷取方法是將自植入水印的文章取得的句子、詞匯予以斷詞 及詞性標(biāo)注,然后根據(jù)文章中水印植入的詞與句型,利用同義詞庫與同義句型庫,針對(duì)文章 的文字產(chǎn)生其語意層面的特征,即將內(nèi)容中藏有水印的句子與詞匯取出。然后以詞匯以及 詞性作為查詢定義的依據(jù),在同義詞數(shù)據(jù)庫中進(jìn)行搜尋,以取得可作為該文章的特征的詞 匯。然后以該詞匯為關(guān)鍵詞,利用搜索引擎進(jìn)行網(wǎng)絡(luò)搜尋,以獲得相關(guān)可能的抄襲文章。
然而,該種已知的抄襲文章搜尋系統(tǒng)與方法由于必需經(jīng)過將文章植入水印、將植 入水印的文章進(jìn)行特征擷取、根據(jù)所取得的詞匯輸入搜索引擎30、比對(duì)索引數(shù)據(jù)庫40以搜 尋因特網(wǎng)上可能抄襲的文章50、將搜尋所得的文章50與原文比對(duì)、根據(jù)比對(duì)結(jié)果取得的句 子執(zhí)行水印解析、將所取得的水印信息60與原來的水印比對(duì)及根據(jù)比對(duì)結(jié)果判斷該搜尋所得的文章是否為抄襲文章等繁雜的步驟,雖然可比對(duì)出改變同義詞與同義句的部分,但對(duì)于比對(duì)一般論文或長(zhǎng)篇文章而言,如此大量復(fù)雜的步驟對(duì)計(jì)算機(jī)服務(wù)器會(huì)造成很大的負(fù)荷,進(jìn)而影響文章比對(duì)的速度,而降低使用的效率。其次,因?yàn)楸葘?duì)系統(tǒng)所搜尋到相同的部分可能是“參考書目”或合乎規(guī)范圍的“直接引用”,故再精確的比對(duì)系統(tǒng)也很難直接判斷一篇文章是否為抄襲文章;最后,“抄襲”一詞仍未有客觀明確的界定,雷同字?jǐn)?shù)多寡也成為判斷抄襲與否的重要參考因素,而水印范圍的設(shè)定,并無法讓使用者根據(jù)自己主觀界定或客觀學(xué)術(shù)環(huán)境作彈性調(diào)整。因此,為更有效率地判斷一篇文章是否為抄襲文章,首先必需加快文章比對(duì)的速度,并利用抄襲比對(duì)系統(tǒng)的比對(duì)結(jié)果做為輔助判斷是否為抄襲文章的依據(jù),最后再以人工檢視方法做進(jìn)一步查驗(yàn)即可有效的判斷一文章是否為抄襲文章;其次,使用者可以透過本身所處的學(xué)術(shù)環(huán)境或需求對(duì)于“抄襲”字?jǐn)?shù)的定義作彈性調(diào)整,也符合用戶的需求。所以,如何加快文章比對(duì)的速度,以及讓審查者可清楚且快速得知比對(duì)文章中涉嫌抄襲部分與搜尋部分的差異,與對(duì)于抄襲字?jǐn)?shù)定義作為彈性調(diào)整,則為該已知抄襲文章搜尋系統(tǒng)所欠缺考慮的部分。為此,本發(fā)明者基于多年相關(guān)系統(tǒng)開發(fā)與方法研究的經(jīng)驗(yàn),特針對(duì)目前中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)與方法加以研究,從而得出本發(fā)明專利申請(qǐng)。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種中文數(shù)字反抄襲偵測(cè)比對(duì)方法,使用者可將比對(duì)文章上傳至中心伺服器以進(jìn)行數(shù)據(jù)存取,并將比對(duì)文章透過系統(tǒng)程序所設(shè)定的拆解規(guī)則進(jìn)行拆解,而得到固定字?jǐn)?shù)的拆解文句,再利用搜索引擎將拆解文句一句一句搜尋后,即可獲得多篇與拆解文句雷同的網(wǎng)頁或文章,再將雷同的網(wǎng)頁或文章與比對(duì)文章進(jìn)行全文比對(duì),對(duì)比對(duì)文章和與所述比對(duì)文章相雷同的網(wǎng)頁或文章的雷同部分進(jìn)行標(biāo)記及分析,即可獲得比對(duì)結(jié)果,該比對(duì)結(jié)果可供審查者進(jìn)行人工查驗(yàn),并判斷比對(duì)文章是否為抄襲文章。本發(fā)明的中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng),其中文章訪問機(jī)制設(shè)首頁元件以提供用戶進(jìn)入中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)的管道,并設(shè)有上傳元件與數(shù)據(jù)庫元件;文章拆解機(jī)制在開始偵測(cè)上傳比對(duì)文章時(shí),將該比對(duì)文章以拆解字句算法,將每篇比對(duì)文章先以換行方式拆成多個(gè)段落,再依自定義的拆解字?jǐn)?shù),以固定字?jǐn)?shù)將每個(gè)段落拆解成固定長(zhǎng)度的最小偵測(cè)句子,并將各最小偵測(cè)句子的標(biāo)點(diǎn)符號(hào)刪除,再依自定義的搜尋比對(duì)字?jǐn)?shù),以固定字?jǐn)?shù)做作為門坎篩選符合搜尋比對(duì)條件的最小偵測(cè)句子,最后即可將前述各符合搜尋比對(duì)條件的最小偵測(cè)句子登錄編號(hào),以提供搜尋比對(duì)機(jī)制進(jìn)行偵測(cè)抄襲之用;搜尋比對(duì)機(jī)制設(shè)比對(duì)元件、判定元件及抄襲來源比對(duì)元件,利用比對(duì)元件及判定元件可獲得與拆解文章部分雷同的網(wǎng)頁或文章,并以抄襲來源比對(duì)元件連接并下載與比對(duì)文章相似的雷同的網(wǎng)頁或文章,即可將比對(duì)文章與雷同的網(wǎng)頁或文章以比對(duì)元件及判定元件進(jìn)行全文比對(duì);評(píng)估報(bào)告機(jī)制是在前述比對(duì)文章進(jìn)行全文比對(duì)、判定后,即可針對(duì)每一份上傳的比對(duì)文章做出分析,并獲得比對(duì)結(jié)果。本發(fā)明的中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)與方法,乃在中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)的中心伺服器設(shè)有多個(gè)運(yùn)算主機(jī),經(jīng)由中心伺服器將各使用者上傳的比對(duì)文章分派給各運(yùn)算主機(jī),利用運(yùn)算主機(jī)進(jìn)行文章拆解、下載多篇與文章拆解部分雷同的網(wǎng)頁或文章、并進(jìn)行全文比對(duì),以獲得比對(duì)結(jié)果,并將比對(duì)結(jié)果回傳至中心伺服器,再經(jīng)由中心伺服器傳送至使用者。


圖1是本發(fā)明所述的中文數(shù)字反抄襲偵測(cè)比對(duì)方法的步驟流程圖。
圖2是本發(fā)明所述的實(shí)施例。
圖3是本發(fā)明所述的中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)的示意圖。
主要元件符號(hào)說明
比對(duì)文章10中心伺服器11拆解文章12搜索引擎13
雷同的網(wǎng)頁或文章14全文比對(duì)15比對(duì)結(jié)果16
文章訪問機(jī)制2
首頁元件20上傳元件21數(shù)據(jù)庫元件22
文章拆解機(jī)制3
拆解字句算法30段落310拆解字?jǐn)?shù)32
最小偵測(cè)句子320搜尋比對(duì)字?jǐn)?shù)33
搜尋比對(duì)機(jī)制4
比對(duì)元件40判定元件41抄襲來源比對(duì)元件42
評(píng)估報(bào)告機(jī)制5
用戶6
運(yùn)算主機(jī)110具體實(shí)施方式
如此,為使公眾得 以充分了解本發(fā)明的特征,茲依附圖標(biāo)解說如下
如圖1所示,其為本發(fā)明的數(shù)字反抄襲比對(duì)方法的步驟流程圖。首先,使用者可將比對(duì)文章10上傳至中心伺服器11以進(jìn)行數(shù)據(jù)存取,并將比對(duì)文章10以拆解字句算法進(jìn)行拆解而得到拆解文章12,利用搜索引擎13將拆解文章12的最小偵測(cè)句子一句一句上傳搜尋后,即可獲得多篇與拆解文章12部分雷同的網(wǎng)頁或文章14,并將該雷同的網(wǎng)頁或文章14 下載,并將比對(duì)文章10與雷同的網(wǎng)頁或文章14進(jìn)行全文比對(duì)15,對(duì)比對(duì)文章10與雷同的網(wǎng)頁或文章14相同的部分進(jìn)行標(biāo)記及分析,即可獲得比對(duì)結(jié)果16,該比對(duì)結(jié)果16可供審查者進(jìn)行人工查驗(yàn),以進(jìn)一步判斷比對(duì)文章是否為抄襲文章。
再者,如圖3所示,本發(fā)明所述的中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)至少包含
文章訪問機(jī)制2,設(shè)首頁元件20以提供用戶進(jìn)入中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)的管道,包括網(wǎng)站首頁、用戶賬號(hào)與密碼的鑒別、用戶賬號(hào)密碼遺忘重領(lǐng)的機(jī)制等;并可將用戶身份區(qū)分為系統(tǒng)管理者、教師、學(xué)生與參觀者,以方便使用者的管理與設(shè)定權(quán)限。
前述文章訪問機(jī)制2設(shè)上傳元件21,以提供網(wǎng)站頁面供使用者上傳比對(duì)文章10至中心伺服器11,此上傳元件21將會(huì)判別上傳比對(duì)文章10的格式(Word格式或PDF格式) 是否符合系統(tǒng)需求;上傳元件21會(huì)把上傳比對(duì)文章10儲(chǔ)存并入中心伺服器11的數(shù)據(jù)庫元件22之中,并監(jiān)控使用者在期限之內(nèi)可以重新上傳比對(duì)文章10。
前述文章訪問機(jī)制2設(shè)數(shù)據(jù)庫元件22,主要是隨時(shí)在因特網(wǎng)上搜集各類型的數(shù)字?jǐn)?shù)據(jù),并加以儲(chǔ)存,以增加比對(duì)時(shí)的數(shù)據(jù)源。文章拆解機(jī)制3,前述文章拆解機(jī)制3在開始偵測(cè)上傳比對(duì)文章10時(shí),將該比對(duì)文章10以拆解字句算法30,將每篇比對(duì)文章10先以換行方式31拆成多個(gè)段落310,再依自定義的拆解字?jǐn)?shù)32,以固定字?jǐn)?shù)將每個(gè)段落310拆解成固定長(zhǎng)度的最小偵測(cè)句子320,并將各最小偵測(cè)句子320的標(biāo)點(diǎn)符號(hào)刪除,再依自定義的搜尋比對(duì)字?jǐn)?shù)33,以固定字?jǐn)?shù)作為門坎篩選符合搜尋比對(duì)條件的最小偵測(cè)句子320,若一刪除標(biāo)點(diǎn)符號(hào)后的最小偵測(cè)句子320所剩余的字?jǐn)?shù)少于所設(shè)定的搜尋比對(duì)字?jǐn)?shù)33時(shí),即不搜尋比對(duì)該句子;如此,利用拆解字句算法30即可解決比對(duì)文章10拆解后的句子太短無搜尋意義,或比對(duì)文章10拆解后的句子太長(zhǎng)不易搜尋的問題;最后即可將前述各符合搜尋比對(duì)條件的最小偵測(cè)句子320登錄編號(hào),以提供搜尋比對(duì)機(jī)制4進(jìn)行偵測(cè)抄襲之用。關(guān)于前述拆解字句算法30,例如某一比對(duì)文章10以換行方式31拆成之段落310為“他慢慢蹲下來,好了一點(diǎn),好了一點(diǎn)。從略微的仰角,他看到街對(duì)面有個(gè)手拿氣球的奇怪女人正抬頭仰望天空,她像發(fā)現(xiàn)幽浮似地,嘴不由自主地張開來?!?若自定義的拆解字?jǐn)?shù)32為15個(gè)字,即可將該段落310拆解成固定長(zhǎng)度的最小偵測(cè)句子320為“(他慢慢蹲下來,好了一點(diǎn),好了一)(點(diǎn)。從略微的仰角,他看到街對(duì)面)(有個(gè)手拿氣球的奇怪女人正抬頭仰)(望天空,她像發(fā)現(xiàn)幽浮似地,嘴不)(由自主地張開來。之后再將各最小偵測(cè)句子320刪除標(biāo)點(diǎn)符號(hào),可得到不含標(biāo)點(diǎn)符號(hào)的最小偵測(cè)句子320為“(他慢慢蹲下來好了一點(diǎn)好了一)(點(diǎn)從略微的仰角他看到街對(duì)面)(有個(gè)手拿氣球的奇怪女人正抬頭仰)(望天空她像發(fā)現(xiàn)幽浮似地嘴不)(由自主地張開來)”;若自定義的搜尋比對(duì)字?jǐn)?shù)33為8個(gè)字,其中該句“(由自主地張開來)”只有7個(gè)字,不符合篩選門坎,因此最后可登錄編號(hào)及上傳搜尋比對(duì)的最小偵測(cè)句子320為“(他慢慢蹲下來好了一點(diǎn)好了一)(點(diǎn)從略微的仰角他看到街對(duì)面)(有個(gè)手拿氣球的奇怪女人正抬頭仰)(望天空她像發(fā)現(xiàn)幽浮似地嘴不)”;共4句。搜尋比對(duì)機(jī)制4設(shè)比對(duì)元件40,前述比對(duì)元件40可透過互聯(lián)網(wǎng)搜索引擎13 (如Google搜索引擎或YAHOO搜索引擎等)、各式電子文章數(shù)據(jù)庫或其他學(xué)生的文章等加以登錄比對(duì)前述經(jīng)篩選過的最小偵測(cè)句子320,或?qū)⒈葘?duì)文章10與雷同的網(wǎng)頁或文章14進(jìn)行全文比對(duì)15。前述搜尋比對(duì)機(jī)制4設(shè)判定元件41,此判定元件41的功能在于根據(jù)前述比對(duì)元件40的比對(duì)結(jié)果,針對(duì)比對(duì)文章10中的每一句、每一段落做出是否抄襲的判斷,并以百分比來呈現(xiàn)其抄襲可能性;或?qū)⒈葘?duì)文章10與雷同的網(wǎng)頁或文章14進(jìn)行全文比對(duì)15的抄襲比例也做出評(píng)估判定。前述搜尋比對(duì)機(jī)制4設(shè)抄襲來源比對(duì)元件42,主要是建立抄襲文字與抄襲來源間的連結(jié)工作,以連結(jié)并下載與比對(duì)文章10相似的雷同的網(wǎng)頁或文章14進(jìn)行全文比對(duì)15。本發(fā)明所述的獲得與比對(duì)文章10相似的雷同的網(wǎng)頁或文章14的方法,是利用搜尋比對(duì)機(jī)制4的搜索引擎13、比對(duì)元件40及判定元件41,將經(jīng)過拆解字句算法30篩選過的最小偵測(cè)句子320 —句一句分別進(jìn)行搜尋比對(duì),而搜尋后所得到的搜尋比對(duì)結(jié)果,根據(jù)拿去搜尋的句子和搜尋比對(duì)結(jié)果的總結(jié),計(jì)算兩者共同子序列的比例,并設(shè)定一門坎值,若共同子序列的比例超過該門坎值時(shí),即以抄襲來源比對(duì)元件42連接并下載該網(wǎng)頁或文章,即可獲得與拆解文章12部分雷同的網(wǎng)頁或文章14,以進(jìn)行后續(xù)全文比對(duì)15的程序。本發(fā)明所述的全文比對(duì)15的方法,是利用搜尋比對(duì)機(jī)制4的比對(duì)元件40,將比對(duì)文章10與雷同的網(wǎng)頁或文章14直接以無意義字符接在一起,利用詞尾數(shù)組(Suffix Array)的數(shù)據(jù)結(jié)構(gòu)處理過,再利用數(shù)據(jù)分割(Data Partitioning,簡(jiǎn)稱DP)的技巧,即可得 到所有在比對(duì)文章10中局部最長(zhǎng)且有出現(xiàn)在雷同的網(wǎng)頁或文章14的句子,之后再以搜尋 比對(duì)機(jī)制4的判定元件41,將全文比對(duì)15后的抄襲比例做出評(píng)估判定;因?yàn)楸葘?duì)相同的部 分可能是“參考書目”或合乎規(guī)范的“直接引用”,為方便審查者進(jìn)行人工查驗(yàn),該比對(duì)文章 10與雷同網(wǎng)相14的比對(duì)相同部分,搜尋比對(duì)機(jī)制4會(huì)分別以反黃方式標(biāo)記于比對(duì)文章10 及雷同的網(wǎng)頁或文章14中。
評(píng)估報(bào)告機(jī)制5,是所有偵測(cè)工作的最后一項(xiàng),也就是在前述比對(duì)文章10與雷同 的網(wǎng)頁或文章14進(jìn)行全文比對(duì)、判定后,利用評(píng)估報(bào)告機(jī)制5即可針對(duì)每一份上傳的比對(duì) 文章10做出分析,并獲得比對(duì)結(jié)果16。
如圖2所示,其為本發(fā)明的中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)的實(shí)施例,各使用者6 將比對(duì)文章10經(jīng)由文章訪問機(jī)制2上傳至中心伺服器11以進(jìn)行數(shù)據(jù)存取后,中心伺服器 11即會(huì)將各使用者6上傳的比對(duì)文章10分派給各運(yùn)算主機(jī)110,該運(yùn)算主機(jī)110利用文章 拆解機(jī)制3對(duì)比對(duì)文章10進(jìn)行拆解而得到拆解文章12,并以搜尋比對(duì)機(jī)制4利用搜索引擎 13將拆解文章12 —句一句分別上傳搜尋比對(duì)后,即可將與拆解文章12部分雷同的網(wǎng)頁或 文章14下載回傳至運(yùn)算主機(jī)110,以進(jìn)行比對(duì)文章10與雷同的網(wǎng)頁或文章14的全文比對(duì) 15,利用評(píng)估報(bào)告機(jī)制5即可針對(duì)每一份上傳的比對(duì)文章10做出分析,并于產(chǎn)生比對(duì)結(jié)果 16后,將此一比對(duì)結(jié)果16回傳至中心伺服器11,因此使用者6即可觀看比對(duì)結(jié)果16。
如此,本發(fā)明利用中心伺服器11與運(yùn)算主機(jī)110之分工機(jī)制可提升中文數(shù)字反抄 襲偵測(cè)比對(duì)系統(tǒng)的搜尋比對(duì)速度,且本發(fā)明的中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)利用文章拆解 機(jī)制3及搜尋比對(duì)機(jī)制4可加快比對(duì)文章10比對(duì)的速度,并于比對(duì)文章10與雷同的網(wǎng)頁 或文章14的相同部分以反黃方式各別標(biāo)記于文章及網(wǎng)頁中,使該使用者6可快速獲得比對(duì) 文章10的比對(duì)結(jié)果16,并利用比對(duì)結(jié)果16進(jìn)行人工查驗(yàn),以判斷比對(duì)文章是否為抄襲文.1V.早。
權(quán)利要求
1.一種中文數(shù)字反抄襲偵測(cè)比對(duì)方法,包括下列步驟 將比對(duì)文章上傳至中心伺服器以進(jìn)行數(shù)據(jù)存?。? 將比對(duì)文章以拆解字句算法進(jìn)行拆解而得到拆解文章; 利用搜索引擎將拆解文章的最小偵測(cè)句子一句一句上傳搜尋后,即可獲得多篇與拆解文章部分雷同的網(wǎng)頁或文章,并將該雷同的網(wǎng)頁或文章下載; 將比對(duì)文章與雷同的網(wǎng)頁或文章進(jìn)行全文比對(duì),對(duì)比對(duì)文章與雷同的網(wǎng)頁或文章相似的部分進(jìn)行標(biāo)記及分析,即可獲得比對(duì)結(jié)果,該比對(duì)結(jié)果可供審查者進(jìn)行人工查驗(yàn),并判斷比對(duì)文章是否為抄襲文章。
2.一種中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng),至少包含 文章存取機(jī)制,設(shè)首頁元件以提供用戶進(jìn)入中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)的管道;前述文章存取機(jī)制設(shè)上傳元件以提供網(wǎng)站頁面供使用者上傳比對(duì)文章至中心伺服器;前述文章存取機(jī)制設(shè)數(shù)據(jù)庫元件以隨時(shí)在因特網(wǎng)上搜集各類型的數(shù)字?jǐn)?shù)據(jù),并加以儲(chǔ)存,可增加比對(duì)時(shí)的數(shù)據(jù)源; 文章拆解機(jī)制,前述文章拆解機(jī)制在開始偵測(cè)上傳比對(duì)文章時(shí),將該比對(duì)文章以拆解字句算法,將每篇比對(duì)文章先以換行方式拆成多個(gè)段落,再依自定義的拆解字?jǐn)?shù),以固定字?jǐn)?shù)將每個(gè)段落拆解成固定長(zhǎng)度的最小偵測(cè)句子,并將各最小偵測(cè)句子的標(biāo)點(diǎn)符號(hào)刪除,再依自定義的搜尋比對(duì)字?jǐn)?shù),以固定字?jǐn)?shù)作為門坎篩選符合搜尋比對(duì)條件的最小偵測(cè)句子,最后即可將前述各符合搜尋比對(duì)條件的最小偵測(cè)句子登錄編號(hào),以供搜尋比對(duì)機(jī)制進(jìn)行偵測(cè)抄襲之用; 搜尋比對(duì)機(jī)制設(shè)比對(duì)元件,前述比對(duì)元件可透過因特網(wǎng)搜索引擎、各式電子文章數(shù)據(jù)庫或其他學(xué)生的文章等加以登錄比對(duì)前述經(jīng)篩選過的最小偵測(cè)句子,或?qū)⒈葘?duì)文章與雷同的網(wǎng)頁或文章進(jìn)行全文比對(duì);前述搜尋比對(duì)機(jī)制設(shè)判定元件,此判定元件的功能在于根據(jù)前述比對(duì)元件的比對(duì)結(jié)果,針對(duì)比對(duì)文章中的每一句、每一段落做出是否抄襲的判斷,并以百分比來呈現(xiàn)其抄襲可能性,或?qū)Ρ葘?duì)文章與雷同的網(wǎng)頁或文章進(jìn)行全文比對(duì)的抄襲比例也做出評(píng)估判定;前述搜尋比對(duì)機(jī)制設(shè)抄襲來源比對(duì)元件,主要是建立抄襲文字與抄襲來源間之連接工作,以連接并下載與比對(duì)文章相似之雷同的網(wǎng)頁或文章進(jìn)行全文比對(duì); 評(píng)估報(bào)告機(jī)制,是所有偵測(cè)工作的最后一項(xiàng),在前述比對(duì)文章進(jìn)行全文比對(duì)、判定后,即可針對(duì)每一份上傳的比對(duì)文章做出分析,并獲得比對(duì)結(jié)果。
3.如權(quán)利要求2所述的中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng),其特征在于,首頁元件包括網(wǎng)站首頁、用戶賬號(hào)與密碼的鑒別、用戶賬號(hào)密碼遺忘重領(lǐng)的機(jī)制等;并可將用戶身份區(qū)分為系統(tǒng)管理者、教師、學(xué)生與參觀者,以方便使用者的管理與設(shè)定權(quán)限。
4.所述的中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng),其特征在于,上傳元件將會(huì)判別上傳比對(duì)文章的格式是否符合系統(tǒng)需求,且上傳元件會(huì)把上傳比對(duì)文章儲(chǔ)存并入中心伺服器的數(shù)據(jù)庫元件之中,并監(jiān)控使用者在期限之內(nèi)可以重新上傳比對(duì)文章。
5.如權(quán)利要求1或2所述的中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng),其特征在于,獲得與比對(duì)文章相似的雷同的網(wǎng)頁或文章之方法,是利用搜尋比對(duì)機(jī)制之搜索引擎、比對(duì)元件及判定元件,將經(jīng)過拆解字句算法篩選過之最小偵測(cè)句子一句一句各別進(jìn)行搜尋比對(duì),而搜尋后所得到的搜尋比對(duì)結(jié)果,根據(jù)拿去搜尋的句子和搜尋比對(duì)結(jié)果之總結(jié),計(jì)算兩者共同子序列的比例,并設(shè)定一門坎值,若共同子序列的比例超過該門坎值時(shí),即以抄襲來源比對(duì)元件連接并下載該網(wǎng)頁或文章,即可獲得與拆解文章部分雷同的網(wǎng)頁或文章,以進(jìn)行后續(xù)全文比對(duì)之程序。
6.如權(quán)利要求1或2所述的中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng),其特征在于,全文比對(duì)的方法,是利用搜尋比對(duì)機(jī)制的比對(duì)元件,將比對(duì)文章與雷同的網(wǎng)頁或文章直接以無意義字符接在一起,利用詞尾數(shù)組(Suffix Array)的數(shù)據(jù)結(jié)構(gòu)處理過,再利用數(shù)據(jù)分割(DataPartitioning,簡(jiǎn)稱DP)的技巧,即可得到所有在比對(duì)文章中局部最長(zhǎng)且有出現(xiàn)在雷同的網(wǎng)頁或文章中的句子;之后再以搜尋比對(duì)機(jī)制的判定元件,將全文比對(duì)后的抄襲比例做出評(píng)估判定。
7.如權(quán)利要求1或2所述的中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)與方法,其特征在于,比對(duì)文章與雷同的網(wǎng)或文章的比對(duì)相同部分,搜尋比對(duì)機(jī)制會(huì)分別以反黃方式標(biāo)記于比對(duì)文章及雷同的網(wǎng)頁或文章中。
8.如權(quán)利要求1或2所述的中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)與方法,其特征在于,中心伺服器設(shè)有多個(gè)運(yùn)算主機(jī),經(jīng)由中心伺服器將各使用者上傳的比對(duì)文章分派給各運(yùn)算主機(jī),利用運(yùn)算主機(jī)進(jìn)行文章拆解、下載多筆與比對(duì)文章部分雷同的網(wǎng)頁或文章及全文比對(duì),以獲得比對(duì)結(jié)果,并將比對(duì)結(jié)果回傳至中心伺服器,再經(jīng)由中心伺服器傳送至使用者。
全文摘要
本發(fā)明涉及一種中文數(shù)字反抄襲偵測(cè)比對(duì)系統(tǒng)與方法,本系統(tǒng)包含文章存取、拆解、搜尋比對(duì)及評(píng)估報(bào)告等機(jī)制,使用過程中,使用者首先將比對(duì)文章經(jīng)由文章存取機(jī)制上傳至中心伺服器進(jìn)行數(shù)據(jù)存取,中心伺服器將上傳的比對(duì)文章分派給運(yùn)算主機(jī),該運(yùn)算主機(jī)即通過文章拆解機(jī)制將比對(duì)文章拆解成句子群,并將所獲之句群逐句上傳至搜索引擎,透過搜尋比對(duì)機(jī)制進(jìn)行搜尋,即可獲得與拆解文章字句雷同的網(wǎng)頁或文章并下載回傳至運(yùn)算主機(jī),以進(jìn)行比對(duì)文章與雷同網(wǎng)頁或文章的全文比對(duì),全文比對(duì)結(jié)果會(huì)將比對(duì)文章和與所述比對(duì)文章相雷同的網(wǎng)頁或文章的雷同部分標(biāo)示并陳,并注記網(wǎng)頁之來源,此一比對(duì)結(jié)果將會(huì)回傳至中心伺服器,因此使用者即可觀看比對(duì)結(jié)果。
文檔編號(hào)G06F17/30GK103049467SQ20121025851
公開日2013年4月17日 申請(qǐng)日期2012年7月24日 優(yōu)先權(quán)日2011年10月12日
發(fā)明者楊純青 申請(qǐng)人:楊純青
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
定安县| 金平| 左权县| 西城区| 福清市| 万宁市| 榆林市| 洛川县| 乌苏市| 桃园县| 调兵山市| 张家口市| 长阳| 赤壁市| 沂水县| 靖西县| 名山县| 邵东县| 武汉市| 井冈山市| 如东县| 长治市| 华容县| 贵阳市| 万年县| 德惠市| 卢湾区| 青田县| 依安县| 卓尼县| 蓬莱市| 黑龙江省| 揭西县| 中西区| 延长县| 武威市| 绥滨县| 吴桥县| 禹州市| 赤城县| 五莲县|