專利名稱:類似內(nèi)容提取方法
技術(shù)領(lǐng)域:
本發(fā)明專利涉及一種用于提取對象文檔和比較文檔之間的類似內(nèi)容的提取方法和提取裝置。
背景技術(shù):
近年,對目標對象和檢測對象進行比較來提取相似度較高的類似內(nèi)容的信息檢測技術(shù)變得非常流行。例如,隨著科學(xué)技術(shù)的發(fā)展,被發(fā)表的論文越來越多,因此,在新的論文提交時,會存在一個普遍的問題,即各個學(xué)會和雜志的評審們會花費大量的時間去檢測論文是否剽竊其他論文,為了更有效地更快地評審,信息檢測技術(shù)被應(yīng)用到論文防剽竊系統(tǒng)中,利用信息檢測技術(shù),能夠檢測被檢測文檔中是否含有目標文檔中信息。
·
并且,信息檢測技術(shù)還被應(yīng)用到客觀題審批領(lǐng)域中,從而提高批閱設(shè)備的效率。此夕卜,信息檢測技術(shù)還可以應(yīng)用到輸出管理系統(tǒng)中。用來防止傳統(tǒng)的人工管理中存在的效率低、容易發(fā)生遺漏的問題。在現(xiàn)有信息檢測技術(shù)中,一般來說,逐一比較對象文檔的每一個句子和目標文檔的每一個句子,計算各個句子之間的相似度。在中國發(fā)明專利《一種利用網(wǎng)絡(luò)資源實現(xiàn)剽竊和格式檢查的在線論文管理方法(2006101150. 8)》中提出了一種信息檢測技術(shù)中的相似度計算方法。在該管理方法中,將文檔直接劃分成句子,然后利用Google搜索引擎對被劃分的句子的主干進行檢索,最后根據(jù)得到相似度權(quán)值來判斷抄襲的等級。此外,在論文《基于語義分析樹核的句子相似度計算》(王利局大連理工大學(xué)中國知網(wǎng))中也曾有提出過一種相似度的計算方法。這篇論文是針對漢語句子進行的。具體來說,對句子進行分詞和詞性標注后,分別從句法結(jié)構(gòu)特征、詞語語義特征和詞形特征三個方面得到的特征權(quán)重進行加權(quán)計算,來計算兩個句子的相似度。在這些現(xiàn)有技術(shù)中,都存在的問題是在系統(tǒng)對被檢測文檔進行處理時,都是直接將對象文檔劃分成每個句子,然后逐句地與目標文檔進行比較處理,分別求出相似度。這樣一來,計算系統(tǒng)的數(shù)據(jù)處理量相當大,需要花費大量的時間,導(dǎo)致工作效率低下。
發(fā)明內(nèi)容
本發(fā)明就是為了解決上述技術(shù)問題而完成的,其目的在于提供一種能夠大大減少數(shù)據(jù)處理量和處理時間的類似內(nèi)容提取方法和提取裝置。本發(fā)明是一種對象文檔與比較文檔的類似內(nèi)容提取方法,其特征在于,包括輸入步驟,輸入對象文檔和比較文檔;段落名詞組生成步驟,將對象文檔和比較文檔按照每個段落進行拆分,從上述對象文檔的各個段落中提取名詞,生成各個段落對應(yīng)的對象名詞組,從上述比較文檔的各個段落中提取名詞,生成各個段落對應(yīng)的比較名詞組;選擇步驟,從上述對象名詞組中,選擇包含有上述比較文檔中記載的、進入特定單詞列表中的單詞在內(nèi)的對象名詞組;計算步驟,計算所選擇的上述對象名詞組與上述比較名詞組之間的第一相似度;句子名詞組生成步驟,以上述第一相似度的規(guī)定順序依次將對應(yīng)于所選擇的對象名詞組的段落按照每個句子進行拆分,并提取名詞,生成各個句子對應(yīng)的對象句名詞組,將對應(yīng)于上述比較名詞組的段落按照每個句子進行拆分,并提取名詞,生成各個句子對應(yīng)的比較句名詞組;以及對象句提取步驟,計算上述對象句名詞組與上述比較句名詞組之間的第二相似度,按照上述第二相似度的規(guī)定順序依次提取對應(yīng)于對象句名詞組的句子即對象句。此外,本發(fā)明的類似內(nèi)容提取方法也可以是,還具有數(shù)值比較步驟,在對象句提取步驟中提取的對象句和目標文檔的句子中包括數(shù)值的情況下,進行數(shù)值及數(shù)值相關(guān)詞干的比較,僅在數(shù)值及數(shù)值相關(guān)詞干都符合規(guī)定的條例的情況下,輸出相似且符合,在不符合規(guī)定的條例的情況下,輸出相似但不符合。本發(fā)明還可以是一種對象文檔與比較文檔的類似內(nèi)容提取裝置,其特征在于,包括輸入模塊,輸入對象文檔和比較文檔;段落名詞組生成模塊,將對象文檔和比較文檔按照每個段落進行拆分,從上述對象文檔的各個段落中提取名詞,生成各個段落對應(yīng)的對象名詞組,從上述比較文檔的各個段落中提取名詞,生成各個段落對應(yīng)的比較名詞組;選擇模 塊,從上述對象名詞組中,選擇包含有上述比較文檔中記載的、進入特定單詞列表中的單詞在內(nèi)的對象名詞組;計算模塊,計算所選擇的上述對象名詞組與上述比較名詞組之間的第一相似度;句子名詞組生成模塊,以上述第一相似度的規(guī)定順序依次將對應(yīng)于所選擇的對象名詞組的段落按照每個句子進行拆分,并提取名詞,生成各個句子對應(yīng)的對象句名詞組,將對應(yīng)于上述比較名詞組的段落按照每個句子進行拆分,并提取名詞,生成各個句子對應(yīng)的比較句名詞組;以及對象句提取模塊,計算上述對象句名詞組與上述比較句名詞組之間的第二相似度,按照上述第二相似度的規(guī)定順序依次提取對應(yīng)于對象句名詞組的句子即對象句。本發(fā)明的類似內(nèi)容提取方法中,先將文檔按照段落進行劃分,然后找到與目標段落較為相似(相似度較高)的檢測段落,再對與目標段落較為相似的檢測段落進行句子劃分,僅比較選擇出的與目標段落較為相似的檢測段落的各個句子與目標句子之間的相似度。通過如上所述分兩個階段計算相似度,能夠大大減少處理數(shù)據(jù)量以及處理時間,提高提取裝置的整體效率。本發(fā)明的提取方法不但能夠應(yīng)用到論文防剽竊系統(tǒng)以及客觀題審批領(lǐng)域,更可以應(yīng)用到輸出管理系統(tǒng)中,從而高效地進行輸出管理。
圖I是本發(fā)明的提取裝置涉及的計算機系統(tǒng)的組成圖。圖2是說明本發(fā)明的第一實施方式涉及的提取方法的流程圖。圖3是本發(fā)明的第一實施方式中例舉的被測文檔和目標文檔的示例圖。圖4是說明本發(fā)明的提取裝置中的段落劃分模塊進行段落劃分之后的結(jié)果示例圖。圖5是說明本發(fā)明的提取裝置中的名詞抽取模塊進行名詞抽取之后的結(jié)果示例圖。圖6是本發(fā)明的第一實施方式涉及的敏感字典的示例圖。圖7是本發(fā)明的第一實施方式中例舉的相似度較高的被檢測段落和目標段落的示例圖。圖8是本發(fā)明的第一實施方式中例舉的被測句子的名詞集合和目標句子的名詞集合的示例圖。圖9是說明本發(fā)明的第二實施方式的流程圖。圖10是本發(fā)明的第二實施方式中例舉的被測文檔和目標文檔的示例圖。圖11是本發(fā)明的第二實施方式中例舉的段落劃分模塊處理結(jié)果的示例圖。圖12是本發(fā)明的第二實施方式中例舉的名詞抽取模塊處理結(jié)果的示例圖。圖13是本發(fā)明的第二實施方式中例舉的相似度較高的被檢測段落和目標段落的示例圖。
圖14是本發(fā)明的第二實施方式中例舉的被測句子的名詞集合和目標句子的名詞集合的示例圖。圖15是用于說明本發(fā)明的第二實施方式涉及的數(shù)值比較方法的示例圖。
具體實施例方式以下結(jié)合附圖來詳細說明本發(fā)明涉及的具體實施方式
。(第一實施方式)本發(fā)明的類似內(nèi)容提取裝置能夠作為軟件或硬件模塊嵌入計算機系統(tǒng)中發(fā)揮作用。圖I是本發(fā)明的提取裝置涉及的計算機系統(tǒng)的組成圖。如圖I所示,本發(fā)明的提取裝置涉及的計算機系統(tǒng)主要包括處理核心、處理核心外圍的數(shù)據(jù)庫以及對提取結(jié)果107、110進行顯示的瀏覽器。處理核心相當于本實施方式涉及的對象文檔與比較文檔的類似內(nèi)容提取裝置。其中,處理核心外圍的數(shù)據(jù)庫可以通過現(xiàn)有的存儲裝置加以實現(xiàn),包括預(yù)先從目標文檔100中抽取的敏感詞字典101、作為普通的電子字典的同義詞字典102、被檢測文檔103以及歷史數(shù)據(jù)庫108等。其中,敏感詞字典101中預(yù)先保存有特定單詞列表中的單詞,可以將某些輸出管理中的敏感名詞作為特定單詞存儲在敏感詞字典101中。此外,除了同義詞字典102,也可以包括其他現(xiàn)有的類似數(shù)據(jù)庫,以供處理核心使用。對提取結(jié)果107、110進行顯示的瀏覽器是該計算機系統(tǒng)的輸出裝置。也可以使用語音等輸出裝置。處理核心相當于本發(fā)明的類似內(nèi)容提取裝置,包括段落劃分模塊104、名詞抽取模塊105、檢測模塊106以及歷史記錄查詢模塊109。具體來說,段落劃分模塊104用于從目標文檔100或被檢測文檔103中提取文本數(shù)據(jù),將這些文本數(shù)據(jù)按照每個段落進行劃分,從而建立各個段落與文檔之間的索引并儲存在數(shù)據(jù)庫中。同時,段落劃分模塊104還具有將目標文檔100或被檢測文檔103的段落的文本數(shù)據(jù)按照每個句子進行劃分,從而建立各個句子與文檔之間的索引并儲存在數(shù)據(jù)庫中的功能。名詞抽取模塊105從被段落劃分模塊104劃分后的各個段落或句子中提取該段落或句子中記載的所有名詞,將所提取的名詞保存成與各個段落或句子相對應(yīng)的名詞集合。段落劃分模塊104與名詞抽取模塊105對應(yīng)于本發(fā)明中的“輸入模塊”、“段落名詞組生成模塊”以及“句子名詞組生成模塊”。
檢測模塊106是提取裝置中的檢索及計算模塊,能夠?qū)⒚舾性~字典101中保存的敏感詞作為關(guān)鍵字,在名詞抽取模塊105生成的與被檢測文檔103的各個段落相對應(yīng)的各個名詞集合中檢索是否含有這些敏感詞,并且,對含有敏感詞的名詞集合與名詞抽取模塊105從目標文檔100提取的與各個段落相對應(yīng)的名詞集合進行相似度計算,把相似度的計算結(jié)果保存到歷史數(shù)據(jù)庫108中,并作為結(jié)果107顯示到瀏覽器上。并且,檢測模塊106還按照上述段落之間的相似度結(jié)果,將與各個名詞集合對應(yīng)的被檢測文檔103的段落進行排序,按照規(guī)定順序(例如從高到低的順序)依次計算被檢測文檔103的段落的每個句子的名詞集合與所類似的目標文檔100的段落中的每個句子的名詞集合之間的類似度,并將結(jié)果顯示在瀏覽器上。此外,檢測模塊106還可以按照句子之間的類似度的規(guī)定順序(例如從高到低的順序)提取被檢測文檔103的相應(yīng)的句子作為對象句用于顯示。檢測模塊106對應(yīng)于本發(fā)明中的“選擇模塊”、“計算模塊”以及“對象句提取模塊”。歷史記錄查詢模塊109提供搜索歷史記錄查詢功能并將搜索結(jié)果顯示到瀏覽器上110。歷史記錄查詢模塊109主要用于用戶查詢過去的比較結(jié)果,在本發(fā)明中,在不需要進行歷史查詢的情況下,也可以省略歷史記錄查詢模塊109。 圖2是說明本發(fā)明的第一實施方式涉及的提取方法的流程圖。以下利用圖2所示的流程詳細說明第一實施方式涉及的對象文檔與比較文檔的類似內(nèi)容提取方法。如圖2所示,在本發(fā)明的被檢測文檔103(對象文檔)與目標文檔100(比較文檔)的類似內(nèi)容提取裝置中,首先,通過段落劃分模塊104對被檢測文檔103 (對象文檔)與目標文檔100(比較文檔)進行分段處理(步驟201),把目標文檔100和用戶上傳到數(shù)庫的所有被檢測文檔103進行段落劃分,并建立段落與文檔之間的索引。接著,名詞抽取模塊105從劃分后的各個段落中提取該段落中的所有名詞,生成與各個段落相對應(yīng)的多個名詞集合后加以保存(步驟202)。之所以對文檔只進行名詞抽取,是因為名詞可以代表所在文檔的大概意思,并且易于進行比較。接著,為了減少系統(tǒng)的工作量,在本發(fā)明中,利用敏感詞字典101對這些名詞集合進行敏感詞檢測,即,將敏感詞字典101中的敏感詞作為關(guān)鍵字,檢索被檢測文檔103的各個段落所對應(yīng)的名詞集合,來進行敏感詞匯的搜索(步驟203)。該步驟203是第一次過濾,能夠剔除與目標文檔100毫無關(guān)聯(lián)的被檢測文檔103的段落。如果檢索結(jié)果是在被檢測文檔103中沒有出現(xiàn)任何敏感詞,則進入步驟204,判斷為該被檢測文檔103與目標文檔100沒有任何關(guān)系。如果在輸出管理體系中則可以判斷為能夠輸出。相反地,如果檢索結(jié)果是在被檢測文檔103中出現(xiàn)了敏感詞,則進入步驟205,對被檢測文檔103進行下一步處理。在步驟205中,檢測模塊106利用同義詞字典102對所檢測出的含有敏感詞的被檢測文檔103的段落所對應(yīng)的名詞集合與目標文檔100的某個段落所對應(yīng)的名詞集合進行相似度計算。對所計算出的相似度進行預(yù)定的排序。此處所謂的規(guī)定排序是指根據(jù)用戶需要所進行的排序,例如在將本發(fā)明應(yīng)用到論文防剽竊系統(tǒng)中時,需要找出相似度較高的文檔,因此,可以根據(jù)相似度的大小,將各個段落按照相似度從大到小的順序進行排序。以便從相似度最大的段落開始進行處理。也可以根據(jù)用戶的需求,基于所計算出的段落相似度結(jié)果,僅選擇相似度大小超過規(guī)定閾值或滿足某種條件的段落來進行下一步的處理。由此,能夠進一步剔除與目標文檔100的段落關(guān)聯(lián)不大的被檢測文檔103的段落。在第一實施方式中,此處設(shè)置為僅選擇在相似度從大到小排列中規(guī)定數(shù)量(例如從頭開始前10個相似度所對應(yīng)的段落文檔)的相似度較高的被檢測文檔103的段落(步驟206)。接著,針對所選擇出的上述規(guī)定數(shù)量的被檢測文檔103的段落以及作為上述比較的基礎(chǔ)的目標文檔100的段落,通過段落劃分模塊104對被檢測文檔103的段落與目標文檔100的段落進行句子劃分,將各個段落按照每個句子劃分成句子文檔,并利用名詞抽取模塊105從各個句子文檔中提取各個句子相對應(yīng)的名詞集合(步驟207),進而,再一次通過檢測模塊106對在步驟207中被劃分出來的、被檢測文檔103的句子所對應(yīng)的名詞集合與目標文檔100的句子所對應(yīng)的名詞集合進行相似度計算(步驟208)。并且,在目標文檔103包括多個段落的情況,能夠?qū)⑺x擇出的上述規(guī)定數(shù)量的被檢測文檔103的段落與目標文檔103的多個段落逐一進行比較。最后把相似度的計算結(jié)果加以存儲以便用于輸出管理,或者按照規(guī)定的順序(例如從大到小的順序)將步驟208計算 出的相似度排序,以該相同順序?qū)⑾嗨贫人鶎?yīng)的被檢測文檔103的句子作為對象句顯示在顯示器(瀏覽器)上來提示給用戶(步驟209)。此外,如果用戶想查詢上次的記錄,通過歷史記錄查詢模塊109可以實現(xiàn)歷史查詢。上述分別對段落以及句子進行的相似度計算也可以采用現(xiàn)有的相似度計算方法。例如,采用依賴兩個字符串含有共同詞形的數(shù)量的相似度計算方法。舉例說明,設(shè)兩個字符串包含名詞的數(shù)量分別是M和N,兩個字符串共同詞形的數(shù)量是NK。只存在于第一個字符串中名詞的個數(shù)是NL等于M-NK,只存在于第二個字符串中名詞的個數(shù)是ND等于N-NK。則相似度計算公式如公式I. I所示。SIM = -~1,1
Nk + Nl + Np下面例舉在提取某一被檢測文檔103 (簡稱為被測文檔)與目標文檔100之間的類似內(nèi)容時進行的具體動作來詳細說明本發(fā)明。圖3是本發(fā)明的第一實施方式中例舉的被測文檔和目標文檔的示例圖。如圖3所示,目標文檔(sourcel)與被測文檔(testl)都是多段落文檔,本發(fā)明的提取裝置用于檢測被測文檔與目標文檔之間的相似關(guān)系。圖4是說明本發(fā)明的提取裝置中的段落劃分模塊進行段落劃分之后的結(jié)果示例圖。如圖4所示,經(jīng)過段落劃分模塊104的處理,目標文檔(sourcel)被劃分為兩個段落文檔sourcel. paragraphl、sourcel. paragraph〗,被測文檔(testl)被劃分為三個段落文檔。分段之后,名詞抽取模塊105對劃分后的每個段落逐一進行名詞抽取,并以名詞集合的形式保存在服務(wù)器上,圖5是說明本發(fā)明的提取裝置中的名詞抽取模塊進行名詞抽取之后的結(jié)果示例圖。接著,然后調(diào)用如圖6所示的敏感詞字典對剛剛得到的各個名詞集合進行敏感詞搜索。因為在被測文檔的名詞集合中存在敏感詞,所以要運用同義詞字典102和上述公式I. I進行段落之間的相似度的計算處理。作為圖3所示的例子目標段落和被測段落相似度的計算結(jié)果如表I所示。表I :本發(fā)明實施例中目標段落和被測段落相似度的計算結(jié)果的示例
權(quán)利要求
1.一種對象文檔與比較文檔的類似內(nèi)容提取方法,其特征在于,包括 輸入步驟,輸入對象文檔和比較文檔; 段落名詞組生成步驟,將對象文檔和比較文檔按照每個段落進行拆分,從上述對象文檔的各個段落中提取名詞,生成各個段落對應(yīng)的對象名詞組,從上述比較文檔的各個段落中提取名詞,生成各個段落對應(yīng)的比較名詞組; 選擇步驟,從上述對象名詞組中,選擇包含有上述比較文檔中記載的、進入特定單詞列表中的單詞在內(nèi)的對象名詞組; 計算步驟,計算所選擇的上述對象名詞組與上述比較名詞組之間的第一相似度; 句子名詞組生成步驟,以上述第一相似度的規(guī)定順序依次將對應(yīng)于所選擇的對象名詞組的段落按照每個句子進行拆分,并提取名詞,生成各個句子對應(yīng)的對象句名詞組,將對應(yīng)于上述比較名詞組的段落按照每個句子進行拆分,并提取名詞,生成各個句子對應(yīng)的比較句名詞組;以及 對象句提取步驟,計算上述對象句名詞組與上述比較句名詞組之間的第二相似度,按照上述第二相似度的規(guī)定順序依次提取對應(yīng)于對象句名詞組的句子即對象句。
2.根據(jù)權(quán)利要求I所述的類似內(nèi)容提取方法,其特征在于, 還具有數(shù)值比較步驟,在對象句提取步驟中提取的對象句和目標文檔的句子中包括數(shù)值的情況下,進行數(shù)值及數(shù)值相關(guān)詞干的比較,僅在數(shù)值及數(shù)值相關(guān)詞干都符合規(guī)定的條例的情況下,輸出相似且符合,在不符合規(guī)定的條例的情況下,輸出相似但不符合。
3.根據(jù)權(quán)利要求I所述的類似內(nèi)容提取方法,其特征在于, 還具有數(shù)值比較步驟,在對象句提取步驟中提取的對象句或目標文檔的句子中不包括數(shù)值的情況下,輸出相似且符合。
4.根據(jù)權(quán)利要求2或3所述的類似內(nèi)容提取方法,其特征在于, 所述數(shù)值相關(guān)詞干包括領(lǐng)域關(guān)鍵詞、物理量名稱、大小關(guān)系或者單位。
5 根據(jù)權(quán)利要求I所述的類似內(nèi)容提取方法,其特征在于, 上述第一相似度的規(guī)定順序和上述第二相似度的規(guī)定順序都是相似度從大到小排列的順序。
6.根據(jù)權(quán)利要求I所述的類似內(nèi)容提取方法,其特征在于, 還具有歷史記錄查詢步驟,提取在上述對象句提取步驟中提取的對象句并通過輸出裝置提示給用戶。
全文摘要
本發(fā)明的目的在于提供能夠減少數(shù)據(jù)處理量和處理時間的提取方法。該類似內(nèi)容提取方法包括輸入對象文檔和比較文檔的步驟;將對象文檔和比較文檔按照每個段落進行拆分,生成對象名詞組和比較名詞組的步驟;從上述對象名詞組中,選擇包含有進入特定單詞列表中的單詞在內(nèi)的對象名詞組的步驟;計算所選擇的對象名詞組與比較名詞組之間的第一相似度的步驟;以第一相似度的規(guī)定順序依次將對應(yīng)于所選擇的對象名詞組和比較名詞組的段落按照每個句子進行拆分,生成對象句名詞組和比較句名詞組的步驟;以及計算對象句名詞組與比較句名詞組之間的第二相似度,按照第二相似度的規(guī)定順序依次提取對應(yīng)于對象句名詞組的句子即對象句的步驟。
文檔編號G06F17/30GK102789452SQ20111012549
公開日2012年11月21日 申請日期2011年5月16日 優(yōu)先權(quán)日2011年5月16日
發(fā)明者尚磊, 細矢淳 申請人:株式會社日立制作所