欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于句子級別的文本特征提取方法和文檔拷貝檢測系統(tǒng)的制作方法

文檔序號:6356239閱讀:765來源:國知局
專利名稱:基于句子級別的文本特征提取方法和文檔拷貝檢測系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明屬于拷貝檢測技術(shù)領(lǐng)域,具體涉及一種基于句子級別的文本特征提取方法和文檔拷貝檢測系統(tǒng)。
背景技術(shù)
隨著互聯(lián)網(wǎng)時(shí)代的發(fā)展,信息呈現(xiàn)出爆炸式增長的趨勢。由于數(shù)字文檔本身易于被復(fù)制的特點(diǎn),導(dǎo)致網(wǎng)絡(luò)中出現(xiàn)了大數(shù)量的重復(fù)的網(wǎng)頁和文檔。這些重復(fù)的信息對基于Web 信息的應(yīng)用來說,造成了嚴(yán)重的負(fù)擔(dān)。因此,對于拷貝檢測問題的研究,在近年來逐漸成為了信息檢索領(lǐng)域的一個(gè)研究熱點(diǎn)?,F(xiàn)有的研究工作主要著眼于如何進(jìn)行文檔級別的拷貝檢測。文檔級別拷貝檢測的研究成果在普通的網(wǎng)頁的拷貝檢測中取得了不錯(cuò)的成果。但目前仍存在一些問題,無法用現(xiàn)有的針對文檔級別的方法來解決。兩個(gè)較為典型的例子分別為文檔中抄襲部分和引用部分的拷貝檢測。由于抄襲通常不會是文檔級別的抄襲,而是段落級別和句子級別的抄襲,即將他人文章中的部分段落或句子抄入自己的文章中。因此抄襲的檢測無法使用文檔級別的拷貝檢測方法有效地檢測出來。而對于文檔中的引用也存在相同的問題。在文章或是新聞中出現(xiàn)引用時(shí),引用的通常是幾句話或是一個(gè)短小的文字段落,因此兩個(gè)文檔之間的相似度不會高,因而也無法使用文檔級別的拷貝檢測方法有效地檢測出來。除了以上的問題之外,在網(wǎng)頁的拷貝檢測中還存在一些不能使用文檔級別拷貝檢測方法解決的問題,如分頁新聞以及論壇中帖子(Thread)等的拷貝檢測。這些問題的一個(gè)共同特點(diǎn)是,兩個(gè)文檔之中只是部分互為拷貝,這些部分拷貝需要基于更細(xì)粒度的句子級別拷貝檢測的方法才能被有效地檢測出來。這類問題的解決方法通常分為兩個(gè)步驟首先進(jìn)行句子級別的拷貝檢測,即將文檔中互為拷貝的句子對檢測出來;然后,通過對互為拷貝的句子進(jìn)行序列匹配(即將上一步中得到的互為拷貝的句子對,按照文檔集中起來,并從中找出互為拷貝的連續(xù)的序列),從而將文檔間互為拷貝的部分檢測并定位出來。如圖I所示, 文檔I中第I1個(gè)句子到第J1個(gè)句子的部分與文檔2中第Hl1個(gè)句子到第Ii1個(gè)句子的部分互為拷貝,而同時(shí)文檔I中第i2個(gè)句子到第j2個(gè)句子的部分與文檔2中第m2個(gè)句子到第n2 個(gè)句子的部分互為拷貝,這樣就將句子級別的拷貝檢測提高到了段落的級別??梢钥闯鏊惴ǖ谝徊街械木渥蛹墑e的拷貝檢測將直接影響到整個(gè)任務(wù)的精度和效率。因此有必要對句子級別的拷貝檢測進(jìn)行更詳細(xì)的研究。同時(shí)如何實(shí)現(xiàn)一個(gè)可以高速準(zhǔn)確地找出文檔集中包含部分拷貝的文檔對,并定位互為拷貝的范圍的文檔拷貝檢測系統(tǒng)也是本發(fā)明的研究內(nèi)容之一。

發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種算法精度和效率高的文本特征提取方法,以及相應(yīng)的文檔拷貝檢測系統(tǒng)。
本發(fā)明提出的文本特征提取方法,是一種改進(jìn)型的基于句子級別的文本特征提取方法,稱為Low-IDF-Sig算法。該算法可以高效地從句子中提取出可以很好地表示整個(gè)句子核心內(nèi)容的Low-IDF-Sig特征。本發(fā)明在句子級別的GoldenSet實(shí)驗(yàn)集上對本發(fā)明的 Low-IDF-Sig方法,以及現(xiàn)在已有的文檔級別上較有代表性的方法(包括Shingling算法、 SpotSig算法以及I-Match算法)進(jìn)行了綜合性的評測。本發(fā)明提出的文檔拷貝檢測系統(tǒng),是一種基于倒排索引進(jìn)行剪枝的可以高速準(zhǔn)確地找出文檔集中包含部分拷貝的文檔對,并定位互為拷貝的范圍的文檔拷貝檢測系統(tǒng)。接下來將對上述兩個(gè)方面分別進(jìn)行說明?!?、Low-IDF-Sig 特征提取方法
該算法選取一定數(shù)量的具有最低逆向文件頻率(inverse document frequency, IDF) 的常見詞匯作為先行詞,以抽取改進(jìn)的Shingle特征,用以表示整個(gè)句子。一個(gè)Low-IDF-Sig特征Si可以表示為一條緊跟在一個(gè)先行詞Bi后的具有固定長度Ci的詞鏈,該詞鏈的取詞間隔為一個(gè)固定值dj。使用標(biāo)記Bi(C^Ci)表不一個(gè)先行詞為ai;詞鏈長度為Ci,取詞間隔為di的Low-IDF-Sig特征Si。舉例來說,is (2,3)表示的 Low-IDF-Sig特征在句子中每次出現(xiàn)is時(shí)進(jìn)行提取,其中提取的間隔為2,詞鏈長度為3,假設(shè)is在文中出現(xiàn)的位置為I的話,則位置3,5,7處的詞被提取出來作為詞鏈的組成部分, 如果在前一先行詞的詞鏈范圍內(nèi)出現(xiàn)了其他的先行詞的情況下,有可能出現(xiàn)兩個(gè)特征部分重疊的情況。Low-IDF-Sig特征提取方法的具體步驟如下
(1)給定先行詞集合A,詞鏈長度C,取詞間隔d;
(2)遍歷句子中的每個(gè)詞,若詞匯出現(xiàn)在先行詞集合中,詞匯當(dāng)前位置為p,則提取 p+0*d, p+l*d, p+2*d…p+c*d處的詞形成一個(gè)特征;
(3)對句子中的每個(gè)詞重復(fù)步驟(2),直到?jīng)]有更多詞匯,從而將句子轉(zhuǎn)換為一個(gè)有權(quán)特征集合。一個(gè)利用Low-IDF-Sig進(jìn)行特征抽取的例子如下
考慮如下的句子“As we are taking your candidature ahead we would like to highlight that INTEL as an organization believes and practices high standards of ethical behavior from every potential candidate. ”
假設(shè)我們從逆向文件頻率表中獲得了前五個(gè)具有最低的逆向文件詞頻的單詞{as, to, that, of, from}作為先行詞,并以Ci=2作為詞鏈的長度,(Ii=I作為取詞間隔,則我們可以將上面的句子變?yōu)槿缦碌挠蒐ow-IDF-Sig特征組成的集合S = {as:we:are, to!highlight: that, that:intel: as, as: an: organization, of: ethical:behavior, from:every:potential}。可以看出上述集合已經(jīng)很好地覆蓋到了整個(gè)句子的核心內(nèi)容。Low-IDF-Sig特征作為改進(jìn)型SpotSig算法,與SpotSig算法主要存在以下幾個(gè)差別
(1)Low-IDF-Sig特征在選取先行詞時(shí),總是從作為外部資源的一個(gè)逆向文件頻率表中選取具有最低逆向文件頻率的前η個(gè)常見詞作為Low-IDF-Sig特征的先行詞;但為了保證每個(gè)句子至少有一個(gè)特征,我們簡單地選取句子中的第一個(gè)詞作為一個(gè)特殊的先行詞;
(2)Low-IDF-Sig特征在構(gòu)成Shingle時(shí),詞鏈中不僅包括先行詞后提取的詞,同時(shí)也包括先行詞本身;
(3)SpotSig算法在選取構(gòu)成詞鏈的詞語時(shí),簡單地跳過了所有的停止詞,即停止詞不會出現(xiàn)在如何一條詞鏈中。SpotSig的理由是停止詞本身的語義信息較少,對于文檔級別的文本來說可以忽略。但我們在實(shí)驗(yàn)中發(fā)現(xiàn),對于文本長度較短的句子而言,停止詞的信息量仍對整個(gè)句子可以產(chǎn)生較大的影響,因此不應(yīng)該簡單地跳過所有的停止詞。在Low-IDF-Sig 算法中,本發(fā)明在選取構(gòu)成詞鏈的詞語時(shí),只跳過少部分的停止詞,這部分的停止詞包括部分的冠詞與介詞。原因是,在實(shí)驗(yàn)中發(fā)現(xiàn)兩個(gè)互為拷貝的句子,可能會使用不同的冠詞或介詞,但仍然表示相同的意義。本發(fā)明通過實(shí)驗(yàn)證明Low-IDF-Sig特征提取算法的表現(xiàn)優(yōu)于其他類似方法。表I各特征在GoldenSet上的綜合表現(xiàn)
權(quán)利要求
1.一種基于句子級別的文本特征提取方法,選取一定數(shù)量的具有最低逆向文件頻率的常見詞匯作為先行詞,以抽取改進(jìn)的Shingle特征,用以表示整個(gè)句子;設(shè)一個(gè) Low-IDF-Sig特征Si表示為一條緊跟在一個(gè)先行詞%后的具有固定長度Ci的詞鏈,該詞鏈的取詞間隔為一個(gè)固定值dj ;使用標(biāo)記ai (dO表不一個(gè)先行詞為ai;詞鏈長度為Ci,取詞間隔為(Ii的Low-IDF-Sig特征Si ;具體步驟如下(1)給定先行詞集合A,詞鏈長度C,取詞間隔d;(2)遍歷句子中的每個(gè)詞,若詞匯出現(xiàn)在先行詞集合中,詞匯當(dāng)前位置為p,則提取 p+0*d, p+l*d, p+2*d…p+c*d處的詞形成一個(gè)特征;(3)對句子中的每個(gè)詞重復(fù)步驟(2),直到?jīng)]有更多詞匯,從而將句子轉(zhuǎn)換為一個(gè)有權(quán)特征集合。
2.一種基于句子級別的文檔拷貝檢測系統(tǒng),其特征在于由文檔讀取子系統(tǒng)、斷句子系統(tǒng)、特征提取子系統(tǒng)、拷貝檢測子系統(tǒng)、序列匹配子系統(tǒng)組成;其中所述文檔讀取子系統(tǒng),以文檔集合作為輸入,單個(gè)的文檔為輸出,用于讀取文檔集合中的文檔,并將單個(gè)的文檔輸出到后續(xù)的斷句子系統(tǒng)中;所述斷句子系統(tǒng),以文檔讀取子系統(tǒng)輸出的單個(gè)文檔為輸入,單個(gè)的句子為輸出,用于讀取文檔并斷句后輸出文本表示的句子;所述特征提取子系統(tǒng),以斷句子系統(tǒng)輸出的單個(gè)句子為輸入,句子的特征向量表示以及倒排索引為輸出,用于將句子文本轉(zhuǎn)換為特征向量表示,并加入倒排索引中;所述拷貝檢測子系統(tǒng),以特征提取子系統(tǒng)輸出的句子的特征向量表示以及倒排索引為輸入,互為拷貝的句子對集合為輸出,用于根據(jù)倒排索引找出互為拷貝的句子對;所述序列匹配子系統(tǒng),以拷貝檢測子系統(tǒng)輸出的互為拷貝的句子對集合為輸入,互為拷貝的段落序列集合為輸出,用于將句子對集合按照文檔組織起來,并找出互為拷貝的序列;文檔拷貝檢測系統(tǒng)處理流程為首先由文檔讀取子系統(tǒng)從文檔集合中獲取一個(gè)文檔, 由斷句子系統(tǒng)將文檔轉(zhuǎn)換為句子的集合,然后由特征提取子系統(tǒng)將句子轉(zhuǎn)換為特征向量, 并加入倒排索引中;當(dāng)對所有文檔都進(jìn)行過上述處理后,由拷貝檢測子系統(tǒng)分析倒排索引和句子向量集合,找出互為拷貝的句子對;最后由序列匹配子系統(tǒng)將句子對按照文檔整理, 匹配文檔中互為拷貝的序列,并產(chǎn)生最后的結(jié)果。
3.根據(jù)權(quán)利要求2所述的基于句子級別的文檔拷貝檢測系統(tǒng),其特征在于所述拷貝檢測子系統(tǒng)使用如下相似度計(jì)算方法假設(shè)兩個(gè)句子經(jīng)過轉(zhuǎn)換,變?yōu)閮蓚€(gè)由Low-IDF-Sig特征組成的集合A和B,它們間的相似度定義為
全文摘要
本發(fā)明屬于拷貝檢測技術(shù)領(lǐng)域,具體為一種基于句子級別的文本特征提取方法和文檔拷貝檢測系統(tǒng)。本發(fā)明提出的基于句子級別的文本特征提取方法,選取一定數(shù)量的具有最低逆向文件頻率的常見詞匯作為先行詞,以抽取改進(jìn)的Shingle特征,用以表示整個(gè)句子;本還提出基于句子級別的文檔拷貝檢測系統(tǒng),該系統(tǒng)包括文檔讀取子系統(tǒng)、斷句子系統(tǒng)、特征提取子系統(tǒng)、拷貝檢測子系統(tǒng)和序列匹配子系統(tǒng),可以高速準(zhǔn)確地找出文檔集合中包含部分拷貝的文檔對,并定位互為拷貝的范圍。
文檔編號G06F17/22GK102591976SQ201210000918
公開日2012年7月18日 申請日期2012年1月4日 優(yōu)先權(quán)日2012年1月4日
發(fā)明者俞昊旻, 張奇, 黃萱菁 申請人:復(fù)旦大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
榆社县| 读书| 安义县| 松江区| 巨鹿县| 华宁县| 额敏县| 新安县| 富平县| 洛隆县| 文安县| 澜沧| 尚义县| 闸北区| 岗巴县| 普兰店市| 大安市| 高阳县| 丰镇市| 平舆县| 彰化市| 泽库县| 浑源县| 太保市| 荥阳市| 永登县| 尚义县| 遂宁市| 南昌市| 香格里拉县| 绥阳县| 开平市| 鄂伦春自治旗| 西畴县| 左贡县| 武山县| 称多县| 宁都县| 和林格尔县| 缙云县| 柳河县|