欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種多文檔自動文摘方法

文檔序號:6616187閱讀:175來源:國知局

專利名稱::一種多文檔自動文摘方法
技術領域
:本發(fā)明涉及信息處理領域,進一步地,涉及到一種多文檔自動文摘方法。
背景技術
:隨著時代的進步和經(jīng)濟的發(fā)展,人們?nèi)粘I钪袑π畔⒌男枨罅吭絹碓酱?,尤其是隨著互聯(lián)網(wǎng)的日益普及,每天都有海量的信息在互聯(lián)網(wǎng)上發(fā)布和傳播。以中國互聯(lián)網(wǎng)的發(fā)展為例,根據(jù)北大天網(wǎng)提供的搜索結果,2005年底中國的網(wǎng)頁總數(shù)約為10.8億個,另據(jù)CNNIC的統(tǒng)計,截至2007年3月底,中國WAP網(wǎng)頁數(shù)量約為2.6億,網(wǎng)頁字節(jié)凄t約為800GB。網(wǎng)頁規(guī)模急劇增長的互聯(lián)網(wǎng),在為人們提供更加豐富的信息服務的同時,也給人們帶來了如何高速有效獲取有用信息的困惑。以搜索引擎為代表的信息檢索技術可以根據(jù)用戶的需求從海量信息中找出一批相關網(wǎng)頁,提高了信息獲取的效率。但這種方法很大程度上依賴于對于用戶查詢的準確理解以及查詢結果的排序策略,同時在返回的查詢結果的基礎上還需要用戶自己逐個網(wǎng)頁查看以獲取真正想要的信息,在用戶查詢意圖不明確時難以做到準確高效,另外受搜索引擎采集和存儲能力的影響,很難保證無信息的遺漏。在信息極大豐富的情況下,人們迫切需要取代獲取相關信息、直接獲取有用信息甚至最有價值信息的方法,以進一步減輕信息獲取的工作量。多文檔自動文摘技術可以在未給定先驗知識的條件下對大量未知信息進行大意概括以幫助人們快速了解信息內(nèi)容,可以在用戶查詢意圖不明確時對雜亂的檢索結果進行自動摘要以輔助人們加快查找速度,從而大大減輕了信息獲取的代價,進一步提高了信息獲取效率。多文檔自動文摘方法在信息融合、信息檢索、在線問答、移動內(nèi)容服務和互聯(lián)網(wǎng)內(nèi)容安全等許多領域都具有重要價值和良好的應用前景。人工生成摘要信息的方法在針對單篇文檔時比較有效,但由于代價昂貴,在面對大量文檔時顯得無能為力。通過機器學習和人工智能的方法,從多篇文檔中自動進行重要信息的提取并形成多文檔文摘,成為重要信息高效獲取的最為現(xiàn)實而有效的技術手段。目前的自動文摘技術主要是基于句子級的內(nèi)容分析與抽取,即從原始的文檔(或文檔集)中抽取一些關鍵的句子組成文摘,主要的文摘算法可以概括為以下三類基于機器學習的文摘方法。該方法在向量空間模型的基礎上利用分類、聚類等機器學習方法將句子劃分為不同的類別,再從每個類別中抽取出最重要的句子來構成文摘。這種方法不受應用領域的限制,但受模型和機器學習方法的限制,往往算法精度有限。搜索式的文摘方法。該方法借助文本搜索領域的算法,針對文摘任務的特點,對所有句子構造一種特殊的查詢結果排序策略,再根據(jù)文摘長度要求選取排在前面的若干句子構成文摘。這種方法不用單獨去構造句子所在的類別信息,但受查詢結果排序策略的影響很大?;趫D排列的文摘方法。該方法先利用聚類算法把文檔集劃分為不同類別,再借助圖模型對不同類別的文檔集進行建模,通過對同一類別中句子間關聯(lián)關系分析,計算出此類別中權重最大的句子作為最重要的句子,這些重要句子組成文摘。這種方法與基于機器學習的文摘方法相比能夠更好的進行重要句的選取,但文摘性能往往取決于聚類算法的性能。綜上所述,現(xiàn)有技術中自動提取文摘的能力,受各種不同因素限制,精度難以保證。
發(fā)明內(nèi)容本發(fā)明的目的是提供一種多文檔自動文摘的方法,即能夠有效地進行句子類別信息的區(qū)分,又能從中抽取最重要句子,從而得到一種精度高、推廣性好的多文檔自動文摘方法。為實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種多文檔自動文摘方法,包括以下步驟1)把文檔集進行句子邊界切分,用向量空間模型表示句子;2)計算句子向量間的距離構成句子關聯(lián)矩陣;3)根據(jù)句子關聯(lián)矩陣計算初始句子權重向量;4)根據(jù)初始句子權重向量,選取權重最大的結點,把此結點所對應的句子作為候選文摘句,從句子關聯(lián)矩陣中劃分出對應句子所代表子主題所在的子矩陣,更新句子關聯(lián)矩陣;5)重復步驟3)和4),完成文摘。根據(jù)本發(fā)明的另一方面,上述步驟3)包含根據(jù)初始句子權重向量、句子對主題的貢獻度和句子位置偏好性計算句子權重調(diào)整模型;步驟4)根據(jù)句子權重調(diào)整模型,選取當前權重最大的結點,把此結點所對應的句子作為候選文摘句,從句子關聯(lián)矩陣中劃分出對應句子所代表子主題所在的子矩陣,更新句子關聯(lián)矩陣。根據(jù)本發(fā)明的另一方面,上述步驟2)包含對句子關聯(lián)矩陣進行規(guī)范化,形成句子關系圖;步驟3)根據(jù)句子關系圖計算初始句子權重向量;步驟4)根據(jù)初始句子權重向量,選取當前權重最大的結點,把此結點所對應的句子作為候選文摘句,從句子關系圖中劃分出對應句子所代表子主題所在的子圖,更新句子關系圖。根據(jù)本發(fā)明的另一方面,上述步驟2)包含對句子關聯(lián)矩陣進行規(guī)范化,形成句子關系圖;步驟3)根據(jù)句子關系圖計算初始句子權重向量;步驟4)根據(jù)句子權重調(diào)整模型,選取當前權重最大的結點,把此結點所對應的句子作為候選文摘句,從句子關系圖中劃分出對應句子所代表子主題所在的子圖,更新句子關系圖。根據(jù)本發(fā)明的再一方面,上述步驟2)包含對句子關聯(lián)矩陣根據(jù)閾值進行約簡,然后對約簡后的矩陣進行規(guī)范化,形成句子關系圖。根據(jù)本發(fā)明的又一方面,上述根據(jù)初始句子權重向量、句子對主題的貢獻度和句子位置偏好性計算句子權重調(diào)整模型包含步驟a)首先計算句子對主題的貢獻度;b)對句子在文檔中的位置進行分類,學習訓練語料,得到句子位置偏好性;c)對初始句子權重向量、句子對主題的貢獻度按線性模型進行加權,對位置偏好性按乘積進行加權,得到句子權重調(diào)整模型。根據(jù)本發(fā)明的又一方面,上述步驟a)包含計算句子與主題的相似度和句子所在文檔與主題的相似度。根據(jù)本發(fā)明的又一方面,上述步驟4)—包含根據(jù)初始句子權重向量計算調(diào)整的句子權重向量;然后從調(diào)整的句子權重向量中選取具有最大權重的結點,把此結點所對應的句子作為候選文摘句;利用圖劃分的方法,從句子關聯(lián)矩陣中劃分出與具有最大權重的結點關系密切的結點,共同構成一個子主題;從句子關聯(lián)矩陣中刪除子主題中所有結點的連邊。本發(fā)明所述方法與現(xiàn)有技術相比,具有以下效果在借助圖模型進行最重要句子抽取的同時利用圖的劃分方法進行文檔中類別信息的有效區(qū)分,提高了多文檔自動文摘的精度。以下,結合附圖來詳細說明本發(fā)明的實施例,其中圖l是本發(fā)明方法的流程圖。圖2是本發(fā)明的句子位置特征概率分布實例圖。圖3是本發(fā)明方法的圖劃分過程示意圖。具體實施方式本發(fā)明的核心思想在于,在多文檔文摘中引入句子關系圖模型和主題-子主題的隱性邏輯結構的挖掘,把文摘問題轉換為一個子主題查找和子圖劃分的迭代過程。圖1繪制了根據(jù)本發(fā)明的一個較佳實施例的多文檔文摘方法的流程圖。下面結合附圖1對本發(fā)明的具體實施方式進行詳細說明。如附圖1步驟101所示,讀入所需的文檔集,利用句子邊界檢測方法把文檔用切分出來的句子集合表示,再進行中文分詞/去停用詞和西文還原/去停用詞操作,用向量空間模型表示句子。如附圖1步驟102所示,計算句子兩兩之間的距離,這里釆用下面的cosine7>式來度量任意兩個句子s,.和^之間的距離必,(^,^;):其中;5是兩個句子對應的詞向量表示,詞向量中每個詞的權重可以依據(jù)f/W/公式計算得到,《是句子中詞的出現(xiàn)頻次,&/=l。g(1.0+W/M),w是出現(xiàn)該詞的句子總數(shù),w是所有句子數(shù);H是句子向量S的范數(shù)。根據(jù)句子距離可以得到句子關聯(lián)矩陣??梢砸罁?jù)某一閾值纟對得到的句子關聯(lián)矩陣按以下規(guī)則進行約簡:其中,^是關聯(lián)矩陣中第i行第j列的值,本實施例中0<《<0.5。然后可以對約簡后的矩陣按行進行規(guī)范化,以規(guī)范化后的'表示兩結點(句子s,,A)之間的距離,構建出句子關系圖。如圖1步驟103所示,根據(jù)句子關聯(lián)矩陣或句子關系圖,采用特征值求解方法,例如冪解法(PowerMethod),求解句子的初始4又重向量/(;):fr/A',其中1/(1—("l)(3)5./(>)Mz>=l、」,其中,/(;),代表第i次迭代后的/(;)向量,u表示所有元素為1/n的向量,B為句子關聯(lián)矩陣或句子關系圖,c為";)的收斂閾值,其取值范圍為(0.6,1.0),收斂時的/(》,.即為句子初始權重向量。如附圖1步驟104所示,初始權重向量沒有考慮主題偏向性和摘要選取主觀性因素。因此,本發(fā)明引入了句子權重調(diào)整模型。首先計算句子對主題的貢獻度,即利用cosine公式分別計算每個句子與主題的相似度以及句子所在文檔與主題的相似度,其中針對主題無關與主題相關的文摘任務的不同,主題可以定義為多檔集的中心或是用戶指定的某個特定主題或查詢主題;為了挖掘人工文摘對長度和句式,特別是句子在文檔中的位置方面的偏好性,本發(fā)明對句子在文檔中的位置進行了如下表1的分類,然后采用概率模型擬合人工摘要選取的偏好性,在給定的訓練語料上,對長度、位置和句式特征進行監(jiān)督學習得到相應的概率分布。最后,為了綜合考慮這兩類因素對句子重要度度量的影響,本發(fā)明對圖模型中受詞特征影響的部分按線性模型進行加權,而對受主觀偏好影響的部分在獨立性假設的前提下用乘積形式進行加權,從而得到句子權重調(diào)整模型<formula>formulaseeoriginaldocumentpage8</formula>其中(4)<formula>formulaseeoriginaldocumentpage8</formula>其中,n多文檔集中句子的個數(shù),i為對應句子的編號,/(;)為用公式(3)求得的句子向量^的初始權重,f和^T)代表主題向量及當前句子所的貢獻度,flp(/yI&表示事先學習的各個偏好性特征對文摘影響的概率分一l布,其中k是偏好性特征的總數(shù),fj代表偏好性特征,AA表示加權系數(shù),其取值范圍為(O,10)。表1文章中句子的位置屬性<table>tableseeoriginaldocumentpage9</column></row><table>以某一西文新聞語料為例,文章中句子位置偏好性特征的概率分布如附圖2所示。附圖2中每個位置的值對應于該位置上出現(xiàn)文摘句的條件概率。如附圖1步驟105所示,根據(jù)句子權重調(diào)整模型,在句子關聯(lián)矩陣或句子關系圖上選取當前權重最大的結點,把此結點所對應的句子作為候選文摘句,利用圖劃分方法從句子關系圖中劃分出該句子所代表子主題所在的子矩陣或子圖,更新句子關聯(lián)矩陣或句子關系圖。具體過程如附圖3所示,先利用句子權重調(diào)整模型計算調(diào)整的句子權重向量A;然后從A中選取具有最大權重的句子Si作為候選文摘句;再利用圖劃分的方法,從關聯(lián)矩陣或關系圖上劃分出與Si關系密切的結點,這些結點與Sj—起構成一個子主題;最后從關聯(lián)矩陣或關系圖上刪除與當前子主題中所有結點的連邊,即刪除此結點在關聯(lián)矩陣或關系圖中所對應的行和列,完成子主題所在子圖的劃分和關系圖的調(diào)整。其中圖劃分方法可以選擇圖的查找算法,例如BFS,或切分算法,例如Mincut。在此步驟中,也可以直接根據(jù)初始權重向量,在句子關聯(lián)矩陣或句子關系圖上選取權重最大的結點,把此結點所對應的句子作為候選文摘句,利用圖劃分方法從句子關聯(lián)矩陣或句子關系圖中劃分出該句子所代表子主題所在的子矩陣或子圖。具體過程與上述過程類似。重復步驟103、104、105,—旦文摘長度滿足用戶設定的條件,例如文摘長度要求,或是圖中已無子圖可劃分,則算法終止,此時所有候選文摘句構成文摘,即在關系圖結點規(guī)模不斷縮減的迭代過程中,本發(fā)明完成文摘句提耳又和文摘生成的過禾呈。為了-瞼證本發(fā)明的有效性,采用文檔理解會議(DocumentUnderstandingConference)2005年的測試數(shù)據(jù)進行測試,4吏用目前通用的ROUGE工具對結果進行評測,并將ROUGE中兩種最主要的指標ROUGE-2和ROUGE-SU4的評測結果與DUC2005最好的三個系統(tǒng)NUS3、PolyU、IIITH-Sum和基準系統(tǒng)(Baseline)的評測結果進行了對比,結果如表2所示表2:在DUC2005任務上系統(tǒng)評測的比較結果<table>tableseeoriginaldocumentpage10</column></row><table>其中ROUGE-2和ROUGE-SU4的得分越高,文摘效果越好,即與人工標準文摘更接近。表2的評測結果表明,本發(fā)明的方法表現(xiàn)優(yōu)異,在兩個主要評價指標上都優(yōu)于國際上最好的評測系統(tǒng)以及基準系統(tǒng)。提供所述公開的實施例子的上述描述,使得本領域的技術人員能夠制造或者使用本發(fā)明。對于本領域的技術人員來說,這些實施例的各種修改是顯而易見的,并且這里定義的總體原理也可以在不脫離本發(fā)明的范圍的基礎上應用于其他實施例。因此,本發(fā)明并不限于這里示出的實施例,而是與符合這里公開的原理和新穎特征的最廣范圍相一致。權利要求1.一種多文檔自動文摘方法,包括下列步驟1)把文檔集進行句子邊界切分,用向量空間模型表示句子;2)計算所述句子向量間的距離構成句子關聯(lián)矩陣;3)根據(jù)所述句子關聯(lián)矩陣計算初始句子權重向量;4)根據(jù)所述初始句子權重向量,選取權重最大的結點,把此結點所對應的句子作為候選文摘句,從所述句子關聯(lián)矩陣中劃分出所述對應句子所代表子主題所在的子矩陣,更新句子關聯(lián)矩陣;5)重復步驟3)和4),完成文摘。2.如權利要求l所述的方法,其特征在于所述步驟3)包含根據(jù)所述初始句子權重向量、句子對主題的貢獻度和句子位置偏好性計算句子權重調(diào)整模型;所述步驟4)根據(jù)所述句子權重調(diào)整模型,選取當前權重最大的結點,把此結點所對應的句子作為候選文摘句,從所述句子關聯(lián)矩陣中劃分出所述對應句子所代表子主題所在的子矩陣,更新句子關聯(lián)矩陣。3.如權利要求l所述的方法,其特征在于所述步驟2)包含對所述句子關聯(lián)矩陣進行規(guī)范化,形成句子關系圖;所述步驟3)根據(jù)所述句子關系圖計算初始句子權重向量;所述步驟4)根據(jù)所述初始句子權重向量,選取當前權重最大的結點,把此結點所對應的句子作為候選文摘句,從所述句子關系圖中劃分出所述對應句子所代表子主題所在的子圖,更新句子關系圖。4.如權利要求2所述的方法,其特征在于所述步驟2)包含對所述句子關聯(lián)矩陣進行規(guī)范化,形成句子關系圖;所述步驟3)根據(jù)所述句子關系圖計算初始句子權重向量;所述步驟4)根據(jù)所述句子權重調(diào)整模型,選取當前權重最大的結點,把此結點所對應的句子作為候選文摘句,從所述句子關系圖中劃分出所述對應句子所代表子主題所在的子圖,更新句子關系圖。5.如權利要求3或4所述的方法,其特征在于所述步驟2)包含對所述句子關聯(lián)矩陣根據(jù)閾值進行約筒,然后對約簡后的矩陣進行規(guī)范化,形成句子關系圖。6.如權利要求2或4所述的方法,其特征在于所述根據(jù)所述初始句子權重向量、句子對主題的貢獻度和句子位置偏好性計算句子權重調(diào)整模型包含步驟1)首先計算所述句子對主題的貢獻度;2)對所述句子在所述文檔中的位置進行分類,學習訓練語料,得到所述句子位置偏好性;3)對所述初始句子權重向量、所述句子對主題的貢獻度按線性模型進行加權,對位置偏好性按乘積進行加權,得到所述句子權重調(diào)整模型。7.如權利要求6所述的方法,其特征在于所述步驟1)包含計算所述句子與主題的相似度和所述句子所在文檔與主題的相似度。8.如權利要求1中所述的方法,其特征在于,所述步驟4)包含根據(jù)所述初始句子權重向量計算調(diào)整的句子權重向量;然后從所述調(diào)整的句子權重向量中選取具有最大權重的結點,把此結點所對應的句子作為候選文摘句;利用圖劃分的方法,從所述句子關聯(lián)矩陣中劃分出與所述具有最大權重的結點關系密切的結點,共同構成一個子主題;從所述句子關聯(lián)矩陣中刪除所述子主題中所有結點的連邊。全文摘要本發(fā)明公開了一種利用圖劃分方法來自動提取多文檔文摘的方法,包括以下步驟進行句子邊界切分,把文檔用切分出來的句子表示;將句子表示成向量,計算句子兩兩間的相似度構成句子關聯(lián)矩陣,并按指定的閾值對關聯(lián)矩陣進行約簡,同時進行規(guī)范化處理;在多文檔文摘中引入主題的隱性邏輯結構的挖掘,將文檔集按主題劃分成不同的隱性子主題,從而把文摘任務轉化為對子主題的選取和抽取過程;利用圖劃分的方法,既從全局特性上保證句子所在子主題的重要度,又從局部特性上保證不同子主題之間內(nèi)容的低冗余性,從而有效提高了文摘質(zhì)量。文檔編號G06F17/27GK101231634SQ20071030851公開日2008年7月30日申請日期2007年12月29日優(yōu)先權日2007年12月29日發(fā)明者瑾張,王小磊,許洪波申請人:中國科學院計算技術研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
丹阳市| 桓仁| 望奎县| 电白县| 区。| 姜堰市| 洛隆县| 竹山县| 黄浦区| 库尔勒市| 金坛市| 九龙城区| 仁化县| 越西县| 冷水江市| 曲沃县| 金坛市| 和平县| 十堰市| 云和县| 榆社县| 邯郸市| 昌宁县| 色达县| 临城县| 保德县| 济南市| 邵阳市| 盐边县| 囊谦县| 定边县| 得荣县| 延吉市| 肥东县| 都江堰市| 讷河市| 牡丹江市| 小金县| 平安县| 河曲县| 垫江县|