專利名稱:文獻自動評價方法及系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及文本檢索領域,特別涉及一種文獻自動評價方法以及相應的系統(tǒng)。
背景技術:
科學研究的成果之一就是學術論文的發(fā)表,數(shù)字圖書館的飛速發(fā)展使得浩如煙海 的學術文獻可以被計算機檢索、分析和評價。截至本文撰寫時,中國知網(wǎng)(CNKI)僅核心期 刊庫從1994年至今(部分刊物回溯至創(chuàng)刊)就已經(jīng)有近34,210,000篇文獻,而且每日新增 約3萬多篇文獻??蒲泄ぷ髡咭獜娜绱硕嗟膶W術文獻中找到有價值的高質(zhì)量的文獻需要耗 費大量時間,如果能夠利用計算機語言信息處理技術自動為科研工作者推薦相關的文獻、 給出論文作者對文獻的評價結(jié)果,那么將大大減輕科研工作者的檢索工作量,節(jié)省時間,從 而提高文獻調(diào)研效率。文獻評價最常用的指標之一是被引頻次,一般被引頻次不包括文獻著者對自己所 著文獻的引用。被引頻次一方面反映了該文獻被其他研究者的關注程度,他引次數(shù)越多說 明關注者越多、文獻價值越大;另一方面被引頻次也有它自身的局限性。首先,最新發(fā)表的 文獻不可能獲得很高的引用頻次,而科研工作者往往希望獲得最新的有價值的文獻,被引 頻次不利于新發(fā)表論文的傳播和價值體現(xiàn)。其次,被引頻次只是從數(shù)量上進行了統(tǒng)計,沒有 考慮文獻來源期刊的質(zhì)量。期刊質(zhì)量一般用影響因子來衡量,影響因子越大說明期刊影響 范圍越大或質(zhì)量越高。在影響因子大或質(zhì)量高的期刊發(fā)表的論文其質(zhì)量也較高,被引頻次 沒有反映出這方面的特性。第三,從文獻的被引頻次中也得不到引用該文獻的論文對該文 獻的態(tài)度或評價,在某些論文中會指出引用文獻的不足之處甚至是錯誤之處,當然也會對 引用文獻進行肯定、贊同或推薦。這種主觀性的評價信息目前一般通過同行專家評議或打 分得到對文獻的綜合評價得分,體現(xiàn)出文獻在本領域內(nèi)的影響或價值。從上述說明可以看出,單純采用被引頻次來評價文獻具有局限性。因此本領域技 術人員提出了文本情感傾向性分析方法,該方法能夠直接從文獻的語言陳述中獲取文獻作 者對引用文獻的評價或態(tài)度,給出被引文獻的推薦度,從而更好地服務于科研工作者對文 獻檢索、文獻評價的需求?,F(xiàn)有技術中的文本情感傾向性分析方法的基本原理是利用計算機分析文本中的 語句結(jié)構(gòu)、詞語及其內(nèi)在語義關系,獲得主觀性文本中評價者對于某些評價對象的一種傾 向性態(tài)度。要獲得評價者對評價對象的傾向性態(tài)度,其實現(xiàn)基礎是極性詞典。所謂的極性 詞典包括如“很好、贊同、很差、缺陷”等具有明顯傾向性和評價態(tài)度的極性詞語,以及與極 性詞語相關的知識描述。有了極性詞典以后,文本情感傾向性分析方法就可以從文本中找 出極性詞語,然后以極性詞語為中心,分析極性詞語周圍的文本,獲得極性詞語所關聯(lián)的評 價對象和評價者,從而確定出評價者對于評價對象的傾向性態(tài)度。在上述基本實現(xiàn)原理的基礎上,現(xiàn)有技術中的文本情感傾向性分析方法可進一步 分為兩類。一類是機器學習的方法,該方法通過已經(jīng)標注好極性詞、評價對象、評價者、傾向 性態(tài)度的文本(文本中的這些知識通常由下面所提到的語法分析加規(guī)則的方法獲取)進行訓練,得到統(tǒng)計模型的參數(shù),再用訓練好的統(tǒng)計模型去分析新的文本,常見的模型和方法有 Boosting, SVM(支持向量機)、CRF(條件隨機場)和最大熵模型等。另一類是語法分析加 規(guī)則的方法,即分析極性詞語所在的句子,得到詞語的句法成分,根據(jù)一定的評價模式或規(guī) 則確定評價者、評價對象和傾向性態(tài)度,主要用到詞語詞性、句法主謂賓結(jié)構(gòu)、推理規(guī)則等 知識。上述兩類方法都有各自的缺陷。機器學習的方法需要大量的標注好的訓練語料文 本,增加了前期準備的成本,此外在實際分析的文本中會有許多訓練語料中沒有出現(xiàn)的詞 語,造成數(shù)據(jù)稀疏的處理難題。語法分析需要精確細致的語句結(jié)構(gòu)分析結(jié)果,傳統(tǒng)語法的主 謂賓結(jié)構(gòu)還無法適應傾向性評價的多種模式,只能獲得部分簡單的、粗顆粒度的評價結(jié)果。
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術中文獻主觀評價信息獲取方法存在的前期成本高、 易出現(xiàn)數(shù)據(jù)稀疏,以及評價結(jié)果粗糙的缺陷,從而提供一種成本低、評價結(jié)果客觀公正的文 獻自動評價方法和系統(tǒng)。為了實現(xiàn)上述目的,本發(fā)明還提供了一種文獻自動評價方法,包括步驟1)、從文獻中提取所述文獻中所含參考文獻的內(nèi)容以及所述文獻中對參考文 獻的引證文本;步驟2)、對所述引證文本中的語句做語義分析,所述語義分析包括將所述語句切 分成詞語的分詞處理,根據(jù)所述詞語的概念類別生成所述語句的概念類別的語義塊切分, 以及根據(jù)所述語句的概念類別生成該語句的句類表達式和語義塊的句類假設和檢驗;步驟3)、根據(jù)步驟2)所得到的語句的語義塊和句類表達式、所述語句中所包含 的極性詞語以及傾向性評價模型對所述引證文本中的語句做傾向性分析,由所述傾向性分 析的結(jié)果以及步驟1)所得到的參考文獻的內(nèi)容得到所述引證文本對參考文獻的傾向性態(tài) 度。上述技術方案中,還包括步驟4)、統(tǒng)計一個文獻集合中的各個文獻對參考文獻的傾向性態(tài)度,根據(jù)所述傾 向性態(tài)度中所包含的某一文獻作為參考文獻出現(xiàn)的次數(shù)、作為參考文獻獲得好評的次數(shù)、 該文獻中對其他文獻加以好評與差評的比率,生成對所述文獻集合中文獻的推薦度。上述技術方案中,在所述的步驟2)中,在所述的句類假設和檢驗后還包括對包含 有句子以及句子變形的復雜語義塊的構(gòu)成分析。上述技術方案中,在所述的步驟2)中,所述的分詞處理包括根據(jù)已知的通用詞語 知識庫對所述引證文本中的語句切分成字或詞語,同時得到該字或詞語的概念符號和概念 類別。上述技術方案中,在所述的步驟2)中,所述的語義塊切分包括步驟2-1-1)、根據(jù)所述分詞處理所得到的詞語的概念類別,找出所述語句中用于 表示語言邏輯虛詞的“ 1,,類概念以及用于表示動態(tài)概念的“V”類概念;步驟2-1-2)、對于所述語句中得到的多個“V”類概念,逐個進行如下操作如果其 前后概念符合預先制定的排除規(guī)則的條件,那么去除該概念的“V”類概念屬性;步驟2-1-3)、對于進行排除操作后剩下的多個“V”類概念,按照優(yōu)選規(guī)則計算出
6每一個“v”類概念作為特征語義塊的權重,然后按所述權重做從大到小的排隊;步驟2-1-4)、根據(jù)特征語義塊的構(gòu)成規(guī)則,把“V”類概念與前后的修飾概念合并 得到特征語義塊EK;步驟2-1-5)、根據(jù)特征語義塊EK和EK之前的“ 1 ”類概念,把它們切分語句后形成 的字詞組合作為廣義對象語義塊GBK。上述技術方案中,在所述的步驟2)中,所述的句類假設和檢驗包括步驟2-2-1)、在排隊后的多個特征語義塊中按順序進行假設,根據(jù)假設的特征語 義塊得到語句的概念類別,由所述語句的概念類別得到該語句對應的所有可能的實際句類 表達式和語義塊,并得到語句所對應的實際語句格式;步驟2-2-2)、由所述語句的概念類別得到句類知識中標準的句類表達式和語義塊 約束知識,由特征語義塊的核心概念詞語得到詞語知識庫中的句類約束、語句格式約束和 語義塊約束知識;步驟2-2-3)、將步驟2-2-2)得到的約束知識與步驟2_2_1)中假設得到的實際句 類表達式和語義塊在語義塊個數(shù)、語句格式、語義塊核心概念三個方面依次進行比較,保留 比較結(jié)果都符合的句類表達式和語義塊。上述技術方案中,在所述的步驟2)中,所述復雜語義塊的構(gòu)成分析包括步驟2-3-1)、判斷所述復雜語義塊的類型,若為塊擴或原型句蛻,執(zhí)行下一步,若 為要素句蛻,執(zhí)行步驟2-3-3),若為包裝句蛻,執(zhí)行步驟2-3-4);步驟2-3-2)、將所述復雜語義塊中的用于表示動態(tài)概念的“V”類概念作為新語句 的特征語義塊進行句類的假設和檢驗,結(jié)束本步驟的操作;步驟2-3-3)、對所述復雜語義塊中的用于表示動態(tài)概念的“V”類概念重新恢復特 征語義塊的資格,然后進行新語句的句類假設和檢驗,結(jié)束本步驟的操作;步驟2-3-4)、識別出所述包裝句蛻外部作為“包裝品”的字或詞或短語,去除該包 裝品,然后對剩余的部分進行句類的假設和檢驗,結(jié)束本步驟的操作。上述技術方案中,所述的步驟3)包括步驟3-1)、判斷所述引證文本的語句中是否包含極性詞語,如果未包含,則所述引 證文本對參考文獻的傾向性態(tài)度為中性,結(jié)束本步驟的操作,如果包含,則執(zhí)行下一步;步驟3-2)、提取所述引證文本中的語句的語義分析結(jié)果,所述語義分析結(jié)果包括 語句的句類、語義塊以及語義塊的內(nèi)部結(jié)構(gòu);步驟3-3)、如果語句的每一個廣義對象語義塊GBK都只含有一個特征詞語,且語 句的主語義塊個數(shù)為2,那么按二元模型計算語句的傾向性態(tài)度;其中,所述主語義塊包括 特征語義塊以及廣義對象語義塊,所述二元模型為“AB”的形式,A表示被評價對象,B表示 極性詞語;步驟3-4)、如果語句的每一個廣義對象語義塊GBK都只含有一個特征詞語,且語 句的主語義塊個數(shù)為3,那么按三元模型計算語句的傾向性態(tài)度;其中,三元模型為“CXD” 的形式,C表示評價者,X表示極性詞語,D表示被評價對象;步驟3-5)、如果語句的每一個廣義對象語義塊GBK都只含有一個特征詞語,且語 句的主語義塊個數(shù)為4,那么先按二元模型計算廣義對象語義塊GBK2和廣義對象語義塊 GBK3的組合,然后再與廣義對象語義塊GBKl和特征語義塊EK組合,按三元模型計算語句的傾向性態(tài)度;步驟3-6)、如果廣義對象語義塊GBK只含兩個特征詞語,那么按二元模型計算其 傾向性態(tài)度,并把結(jié)果返回;步驟3-7)、如果廣義對象語義塊GBK內(nèi)含多個特征詞語,按照特征詞語在語句中 的位置,從左到右逐個減少進行遞歸處理,減少到只有兩個特征詞語時,轉(zhuǎn)步驟3-6);步驟3-8)、如果語句的廣義對象語義塊GBK內(nèi)含語句,那么把廣義對象語義塊GBK 作為新語句,對該新語句做語義塊分析后執(zhí)行步驟3-2),做遞歸處理;步驟3-9)、遞歸處理結(jié)束,獲得語句的一個總的傾向性態(tài)度。上述技術方案中,所述的步驟4)包括步驟4-1)、統(tǒng)計一個文獻集合中的各個文獻對參考文獻的傾向性態(tài)度以及相關的 統(tǒng)計信息,包括引證文本中出現(xiàn)的參考文獻總數(shù)凡、某篇文獻的他引次數(shù) ;、作者對參考文 獻的好評總數(shù)&、作者對參考文獻的差評總數(shù)民、在文獻的他引次數(shù)中獲得好評的次數(shù)Gte、 在文獻的他引次數(shù)中獲得好評和差評的總次數(shù)Pte ;步驟4-2)、分別計算文獻的他引好評率Gte/Pte、文獻的評他好評率(VX、文獻的評
他差評率Br/Nr ;步驟4-3)、設定權重修正系數(shù)α ;步驟4-4)、根據(jù)下列公式計算文獻推薦度Rec = Tr+Gtr/Ptr+Max (Gr/Nr, Br/Nr) + α (Gr+Br) /Nr。本發(fā)明還提供了一種文獻自動評價系統(tǒng),包括文獻及引文分析器、特征詞語知識 庫、通用詞語知識庫、分詞處理器、語句語義分析器以及文獻評價器;其中,所述的文獻及引文分析器用于從文獻中提取所述文獻中所含參考文獻的內(nèi)容以 及所述文獻中對參考文獻的引證文本,并傳給所述的分詞處理器;所述的特征詞語知識庫用于存儲極性詞語及詞語的褒貶屬性、立場屬性、邏輯屬 性和程度屬性,這些信息被提供給所述的文獻評價器使用;所述的通用詞語知識庫用于存儲常用詞語及其概念符號,并向分詞處理器和語句 語義分析器提供所需的詞語及其概念符號;所述的分詞處理器用于將所述引證文本中的語句切分成詞語,并送入到所述語句 語義分析器;所述的語句語義分析器用于根據(jù)詞語的概念類別生成所述語句的概念類別,以及 根據(jù)所述語句的概念類別生成該語句的句類表達式和語義塊;所述的文獻評價器用于根據(jù)語句語義分析器所得到的語句的語義塊和句類表達 式、所述語句中所包含的極性詞語以及傾向性評價模型對所述引證文本中的語句做傾向性 分析,由所述傾向性分析的結(jié)果以及所述文獻及引文分析器所得到的參考文獻的內(nèi)容得到 所述弓I證文本對參考文獻的傾向性態(tài)度。上述技術方案中,還包括有文獻推薦度評價器,它用于統(tǒng)計一個文獻集合中的各 個文獻對參考文獻的傾向性態(tài)度,根據(jù)所述傾向性態(tài)度中所包含的某一文獻作為參考文獻 出現(xiàn)的次數(shù)、作為參考文獻獲得好評的次數(shù)、該文獻中對其他文獻加以好評與差評的比率, 生成對所述文獻集合中文獻的推薦度。本發(fā)明的優(yōu)點在于
本發(fā)明通過分析文獻中的引證文本,自動獲取了文獻作者對所引用參考文獻的評 價,具有適用范圍廣、受制約較少的優(yōu)點。而本發(fā)明所生成的文獻推薦度由于綜合考慮了他 引頻次、他引好評率、評他率等多方面的主客觀影響因素,因而也具有全面、客觀、公正的優(yōu)
點ο
圖1為本發(fā)明的文獻自動評價方法的流程圖;圖2為本發(fā)明的文獻自動評價方法中的語義塊切分操作的流程圖;圖3為本發(fā)明的文獻自動評價方法中的句類假設和檢驗操作的流程圖;圖4為本發(fā)明的文獻自動評價方法中的語句傾向性分析的流程圖;圖5為本發(fā)明的文獻自動評價系統(tǒng)的結(jié)構(gòu)圖。
具體實施例方式下面結(jié)合附圖和具體實施方式
對本發(fā)明加以說明。在本發(fā)明的一個實施例中,從中國知網(wǎng)(http://Vw.cnki.net)下載了關于新能 源汽車領域的論文文獻139篇,得到一個文獻集合。在本實施例中需要對該文獻集合中的 各個文獻進行評價。由于對各文獻的評價過程基本類似,因此在下面的描述中將以其中的 一篇文獻為例并結(jié)合圖1進行說明。提取與參考文獻有關的文本在一篇名稱為《天然氣汽車甲烷專用吸附劑的研究開發(fā)概況》的論文中,首先要找 出該論文所包含的所有參考文獻的信息。眾所周知,在論文中對參考文獻的引用有一定的規(guī)定,例如在一篇論文的結(jié)尾處 有對論文中所引用的全部參考文獻進行說明的附錄。前述論文《天然氣汽車甲烷專用吸附 劑的研究開發(fā)概況》中的附錄的形式如下“參考文獻[1]肖錦堂.國外天然氣消費利用現(xiàn)狀和發(fā)展動向[J].石油與天然氣化工,1997, 26(2) 94-99.[2]陳進富,陸紹信.吸附法儲存天然氣汽車燃料技術的研究[J].天然氣工業(yè), 1999,19(4) 81-83.[3]鄒勇,吳肇亮,陸紹信,朱亞杰.微孔炭質(zhì)吸附劑吸附儲存天然氣的最佳孔徑 研究[J]·石油與天然氣化工,1997,26(1) 15-16.[4]陳進富,婁世松,陸紹信.天然氣吸附劑的開發(fā)及其儲氣性能的研究[J].燃料 化學學報,1999,27 (5) 399-402.[5]鄒勇,韓布興,閻???儲存天然氣用高目的微孔炭質(zhì)吸附劑的研究[J].炭素 技術,1998,(5) 23-25.[6]劉海燕,喬文明,凌立成,劉朗.炭質(zhì)吸附劑吸附儲存天然氣淺談[J].炭素技 術,1999,(1) 17-21.[7]唐曉東.天然氣汽車的儲氣技術[J].石油與天然氣化工,1997,26(4) 227-231.[8]徐文淵.液化天然氣、壓縮天然氣的生產(chǎn)和應用[J].天然氣工業(yè),1993,
913(3) 76-79.[9]Matranga K R, Myers A L, Glandt E D, Storage of nature gas by adsorption on activated carbon[J]. Chemical Engineering Science,1991,47 (7) 1569.[10]Quinn D F, Macdonald J A, Nature gas storage[J], C arbon,1992,30 (7) 1097-1103.[11]Parkyns N D,Quinn D F,Nature gas adsorbed on carbon[A]. Porosity in carbons[C]. Patrick J W, London Edward Arnold,1995. 302. ”上述附錄中包含有論文所引用的參考文獻的作者、出處、發(fā)表日期等信息。由于 本發(fā)明所要完成的工作是要對參考文獻做出評價,因此必然要將參考文獻信息從整個論文 文本中提取出來。在一個具體的實現(xiàn)方式中,在輸入前述論文的文本后,首先尋找“參”字, 然后跳過文本中的空格等非漢字字符,獲得四個漢字組成的字符串R。如果R等于“參考文 獻”,且R前為空格、回車或標點符號,R后為一篇參考文獻的起始特征(如“[1]”、“1. ”), 那么記錄R在論文文本中的位置iPos。接著從iPos開始,逐篇獲取論文文本中的所有參考 文獻。在獲取一篇論文的參考文獻的過程中,先獲取iPos后的參考文獻起始特征(如 “⑴”、“L ”、“1”等),然后獲取下一篇參考文獻(如“[2]”、“2. ”、“2”等)的起始位置 iPosl,如果參考文獻起始特征的風格一致,即“ [1] ”后面是“ [2] ”、“1”后面是“2”,那么由 iPos和iPosl之間的文本內(nèi)容就可以得到一篇參考文獻的內(nèi)容,如參考文獻的作者、文獻 名、出版單位、出版時間等,這些內(nèi)容存入一個數(shù)組refArray中。如果沒有找到下一篇參考 文獻的起始特征,那么把所述的iPosl設置為其后回車符號的位置(沒有回車符號則為文 本末尾),把iPos和iPosl之間的文本內(nèi)容作為最后一篇參考文獻存入數(shù)組refArray中。 在完成對一篇論文的參考文獻的獲取后,可以把iPos的位置設為iPosl的位置,然后重復 上述操作就能夠得到論文文本中的所有參考文獻。上述說明有一個潛在的前提,那就是論文文本中所有論文的附錄中的參考文獻的 格式描述是一致的,在實際情況中必然存在不同論文文本中的參考文獻的格式描述不一致 的情況。但一般來說,同一論文文本中的參考文獻的格式描述是一樣的,因此在獲取一篇論 文文本的參考文獻的內(nèi)容之前,可以預先確定該論文對參考文獻的格式描述,然后根據(jù)具 體的格式描述調(diào)用相應的參考文獻內(nèi)容獲取方法。雖然在前面的例子中只給出了如前面所 列舉的參考文獻內(nèi)容的獲取方法,但對于其它格式的參考文獻,參照前述方法同樣可以獲 取與參考文獻有關的信息。論文中對參考文獻的描述除了附錄中的內(nèi)容外,還包括在論文正文部分對參考文 獻的評述,這些評述可被稱為引證文本。本發(fā)明還需要將引證文本從論文文本中提取出來。 在提取引證文本的過程中,對于論文文本,在所述的iPos之前,找到引用參考文獻的起始 標志(如“[”)的位置iPos2,然后往后尋找對應的結(jié)束標志(如“]”)iPos3。如果iPos2 和iPos3之間的內(nèi)容為數(shù)字,或者數(shù)字之間用符號(如“_”、“,”)隔開,并且iPos3之后的 內(nèi)容為標點符號或回車,那么從iPos2往前找到句號等語句結(jié)束符的位置iPos4,從iPos3 往后找到句號等語句結(jié)束符的位置iPos5,把iPos4和iPos5之間的文本內(nèi)容S作為一個引 用了參考文獻的語句,并存入一個數(shù)組sArray中。然后在S之后iPos之前繼續(xù)尋找參考文獻的起始標志,直到找不到為止。對于參考文獻起始標志不是“[”的情況,如“ (Abney, 1990) ”,可以根據(jù)標志符做類似的處理。通過上述兩個步驟的相關操作,可以得到兩種類型的數(shù)組,在數(shù)組refArray中包 含有參考文獻的內(nèi)容,在數(shù)組sArray中包含有引證文本的內(nèi)容。在下面的操作中將根據(jù)上 述兩個數(shù)組中的內(nèi)容實現(xiàn)對論文文獻的評價。語義分析所述語義分析是要對前一操作中所得到的引證文本進行分析,得到引證文本中所 包含的語義內(nèi)容。語義分析可以分為分詞、語義塊切分、假設檢驗和語義塊構(gòu)成分析等多個 操作。通過語義分析可以得到語句的概念類型、語句中語義塊的劃分和角色、各語義塊內(nèi)部 的構(gòu)成成分及其關系等多種類型的信息。下面對語義分析中的各個操作分別予以說明。1、分詞處理與西文句子中詞與詞之間存在間隔不同,漢語句子中的各個詞語之間并沒有明確 的分界線,因此需要對漢語句子做分詞、分段操作。所述的分詞操作是根據(jù)通用詞語知識庫 形成的詞典按照諸如最大匹配法等相關算法把句子切分為詞語,同時獲得字、詞在通用詞 語知識庫中的概念符號、概念類別等知識,以備后續(xù)階段使用。所述的分段操作主要是把連 續(xù)出現(xiàn)的數(shù)字、英文字母、以及配對標號(如書名號“《》”)形成的數(shù)字段、英文段和標號段 作為一個整體處理。特別的,對于成語、俗語等固定的整體也把它們作為字段處理,而不是 拆成字或詞。在上述的分詞、分段過程中所涉及的通用詞語知識庫是指用來存儲常用詞語 及其概念符號的知識庫。上述說明中,分詞、分段操作的具體實現(xiàn)以及詞語知識庫的構(gòu)建都 為本領域技術人員的公知常識,因此不在此處做詳細說明。2、語義塊切分引證文本中的句子在經(jīng)過前述的分詞操作而被切分成詞語以后,詞語成為了相關 操作的基本單位。由于詞語在通用詞語知識庫中已經(jīng)對詞語的屬性信息有定義好的概念類 別,例如“ 1,,類概念是指“把、被、向、對”等語言邏輯虛詞,“V”類概念是指動態(tài)概念(通常 是動詞),因此可以由詞語的概念類別進一步得到句子的概念類別。考慮到句子中語義塊的 切分主要依靠“1”類概念和“V”類概念,因此一個句子經(jīng)過分詞后,可以用下面的公式(1) 來表示
權利要求
一種文獻自動評價方法,包括步驟1)、從文獻中提取所述文獻中所含參考文獻的內(nèi)容以及所述文獻中對參考文獻的引證文本;步驟2)、對所述引證文本中的語句做語義分析,所述語義分析包括將所述語句切分成詞語的分詞處理,根據(jù)所述詞語的概念類別生成所述語句的概念類別的語義塊切分,以及根據(jù)所述語句的概念類別生成該語句的句類表達式和語義塊的句類假設和檢驗;步驟3)、根據(jù)步驟2)所得到的語句的語義塊和句類表達式、所述語句中所包含的極性詞語以及傾向性評價模型對所述引證文本中的語句做傾向性分析,由所述傾向性分析的結(jié)果以及步驟1)所得到的參考文獻的內(nèi)容得到所述引證文本對參考文獻的傾向性態(tài)度。
2.根據(jù)權利要求1所述的文獻自動評價方法,其特征在于,還包括步驟4)、統(tǒng)計一個文獻集合中的各個文獻對參考文獻的傾向性態(tài)度,根據(jù)所述傾向性 態(tài)度中所包含的某一文獻作為參考文獻出現(xiàn)的次數(shù)、作為參考文獻獲得好評的次數(shù)、該文 獻中對其他文獻加以好評與差評的比率,生成對所述文獻集合中文獻的推薦度。
3.根據(jù)權利要求1或2所述的文獻自動評價方法,其特征在于,在所述的步驟2)中,在 所述的句類假設和檢驗后還包括對包含有句子以及句子變形的復雜語義塊的構(gòu)成分析。
4.根據(jù)權利要求1或2或3所述的文獻自動評價方法,其特征在于,在所述的步驟2) 中,所述的分詞處理包括根據(jù)已知的通用詞語知識庫對所述引證文本中的語句切分成字或 詞語,同時得到該字或詞語的概念符號和概念類別。
5.根據(jù)權利要求1或2或3所述的文獻自動評價方法,其特征在于,在所述的步驟2) 中,所述的語義塊切分包括步驟2-1-1)、根據(jù)所述分詞處理所得到的詞語的概念類別,找出所述語句中用于表示 語言邏輯虛詞的“ 1,,類概念以及用于表示動態(tài)概念的“V”類概念;步驟2-1-2)、對于所述語句中得到的多個“V”類概念,逐個進行如下操作如果其前后 概念符合預先制定的排除規(guī)則的條件,那么去除該概念的“V”類概念屬性;步驟2-1-3)、對于進行排除操作后剩下的多個“V”類概念,按照優(yōu)選規(guī)則計算出每一 個“V”類概念作為特征語義塊的權重,然后按所述權重做從大到小的排隊;步驟2-1-4)、根據(jù)特征語義塊的構(gòu)成規(guī)則,把“V”類概念與前后的修飾概念合并得到 特征語義塊EK ;步驟2-1-5)、根據(jù)特征語義塊EK和EK之前的“ 1 ”類概念,把它們切分語句后形成的字 詞組合作為廣義對象語義塊GBK。
6.根據(jù)權利要求1或2或3所述的文獻自動評價方法,其特征在于,在所述的步驟2) 中,所述的句類假設和檢驗包括步驟2-2-1)、在排隊后的多個特征語義塊中按順序進行假設,根據(jù)假設的特征語義塊 得到語句的概念類別,由所述語句的概念類別得到該語句對應的所有可能的實際句類表達 式和語義塊,并得到語句所對應的實際語句格式;步驟2-2-2)、由所述語句的概念類別得到句類知識中標準的句類表達式和語義塊約束 知識,由特征語義塊的核心概念詞語得到詞語知識庫中的句類約束、語句格式約束和語義 塊約束知識;步驟2-2-3)、將步驟2-2-2)得到的約束知識與步驟2-2-1)中假設得到的實際句類表達式和語義塊在語義塊個數(shù)、語句格式、語義塊核心概念三個方面依次進行比較,保留比較 結(jié)果都符合的句類表達式和語義塊。
7.根據(jù)權利要求3所述的文獻自動評價方法,其特征在于,在所述的步驟2)中,所述復 雜語義塊的構(gòu)成分析包括步驟2-3-1)、判斷所述復雜語義塊的類型,若為塊擴或原型句蛻,執(zhí)行下一步,若為要 素句蛻,執(zhí)行步驟2-3-3),若為包裝句蛻,執(zhí)行步驟2-3-4);步驟2-3-2)、將所述復雜語義塊中的用于表示動態(tài)概念的“V”類概念作為新語句的特 征語義塊進行句類的假設和檢驗,結(jié)束本步驟的操作;步驟2-3-3)、對所述復雜語義塊中的用于表示動態(tài)概念的“V”類概念重新恢復特征語 義塊的資格,然后進行新語句的句類假設和檢驗,結(jié)束本步驟的操作;步驟2-3-4)、識別出所述包裝句蛻外部作為“包裝品”的字或詞或短語,去除該包裝品, 然后對剩余的部分進行句類的假設和檢驗,結(jié)束本步驟的操作。
8.根據(jù)權利要求1或2或3所述的文獻自動評價方法,其特征在于,所述的步驟3)包括步驟3-1)、判斷所述引證文本的語句中是否包含極性詞語,如果未包含,則所述引證文 本對參考文獻的傾向性態(tài)度為中性,結(jié)束本步驟的操作,如果包含,則執(zhí)行下一步;步驟3-2)、提取所述引證文本中的語句的語義分析結(jié)果,所述語義分析結(jié)果包括語句 的句類、語義塊以及語義塊的內(nèi)部結(jié)構(gòu);步驟3-3)、如果語句的每一個廣義對象語義塊GBK都只含有一個特征詞語,且語句的 主語義塊個數(shù)為2,那么按二元模型計算語句的傾向性態(tài)度;其中,所述主語義塊包括特征 語義塊以及廣義對象語義塊,所述二元模型為“AB”的形式,A表示被評價對象,B表示極性 詞語;步驟3-4)、如果語句的每一個廣義對象語義塊GBK都只含有一個特征詞語,且語句的 主語義塊個數(shù)為3,那么按三元模型計算語句的傾向性態(tài)度;其中,三元模型為“CXD”的形 式,C表示評價者,X表示極性詞語,D表示被評價對象;步驟3-5)、如果語句的每一個廣義對象語義塊GBK都只含有一個特征詞語,且語句的 主語義塊個數(shù)為4,那么先按二元模型計算廣義對象語義塊GBK2和廣義對象語義塊GBK3的 組合,然后再與廣義對象語義塊GBKl和特征語義塊EK組合,按三元模型計算語句的傾向性 態(tài)度;步驟3-6)、如果廣義對象語義塊GBK只含兩個特征詞語,那么按二元模型計算其傾向 性態(tài)度,并把結(jié)果返回;步驟3-7)、如果廣義對象語義塊GBK內(nèi)含多個特征詞語,按照特征詞語在語句中的位 置,從左到右逐個減少進行遞歸處理,減少到只有兩個特征詞語時,轉(zhuǎn)步驟3-6);步驟3-8)、如果語句的廣義對象語義塊GBK內(nèi)含語句,那么把廣義對象語義塊GBK作為 新語句,對該新語句做語義塊分析后執(zhí)行步驟3-2),做遞歸處理; 步驟3-9)、遞歸處理結(jié)束,獲得語句的一個總的傾向性態(tài)度。
9.根據(jù)權利要求2或3所述的文獻自動評價方法,其特征在于,所述的步驟4)包括 步驟4-1)、統(tǒng)計一個文獻集合中的各個文獻對參考文獻的傾向性態(tài)度以及相關的統(tǒng)計信息,包括引證文本中出現(xiàn)的參考文獻總數(shù)凡、某篇文獻的他引次數(shù)Tl·、作者對參考文獻的好評總數(shù)4、作者對參考文獻的差評總數(shù)民、在文獻的他引次數(shù)中獲得好評的次數(shù)Gte、在文 獻的他引次數(shù)中獲得好評和差評的總次數(shù)Pte ;步驟4-2)、分別計算文獻的他引好評率Gte/Pte、文獻的評他好評率(VX、文獻的評他差 評率;步驟4-3)、設定權重修正系數(shù)α ;步驟4-4)、根據(jù)下列公式計算文獻推薦度Rec = Tr+Gtr/Ptr+Max (Gr/Nr, Br/Nr) + α (Gr+Br)/Nr。
10.一種文獻自動評價系統(tǒng),其特征在于,包括文獻及引文分析器、特征詞語知識庫、通 用詞語知識庫、分詞處理器、語句語義分析器以及文獻評價器;其中,所述的文獻及引文分析器用于從文獻中提取所述文獻中所含參考文獻的內(nèi)容以及所 述文獻中對參考文獻的引證文本,并傳給所述的分詞處理器;所述的特征詞語知識庫用于存儲極性詞語及詞語的褒貶屬性、立場屬性、邏輯屬性和 程度屬性,這些信息被提供給所述的文獻評價器使用;所述的通用詞語知識庫用于存儲常用詞語及其概念符號,并向分詞處理器和語句語義 分析器提供所需的詞語及其概念符號;所述的分詞處理器用于將所述引證文本中的語句切分成詞語,并送入到所述語句語義 分析器;所述的語句語義分析器用于根據(jù)詞語的概念類別生成所述語句的概念類別,以及根據(jù) 所述語句的概念類別生成該語句的句類表達式和語義塊;所述的文獻評價器用于根據(jù)語句語義分析器所得到的語句的語義塊和句類表達式、所 述語句中所包含的極性詞語以及傾向性評價模型對所述引證文本中的語句做傾向性分析, 由所述傾向性分析的結(jié)果以及所述文獻及引文分析器所得到的參考文獻的內(nèi)容得到所述 弓I證文本對參考文獻的傾向性態(tài)度。
11.根據(jù)權利要求10所述的文獻自動評價系統(tǒng),其特征在于,還包括有文獻推薦度評 價器,它用于統(tǒng)計一個文獻集合中的各個文獻對參考文獻的傾向性態(tài)度,根據(jù)所述傾向性 態(tài)度中所包含的某一文獻作為參考文獻出現(xiàn)的次數(shù)、作為參考文獻獲得好評的次數(shù)、該文 獻中對其他文獻加以好評與差評的比率,生成對所述文獻集合中文獻的推薦度。
全文摘要
本發(fā)明提供一種文獻自動評價方法,包括從文獻中提取所述文獻中所含參考文獻的內(nèi)容以及所述文獻中對參考文獻的引證文本;對所述引證文本中的語句做語義分析,所述語義分析包括將所述語句切分成詞語的分詞處理,根據(jù)所述詞語的概念類別生成所述語句的概念類別的語義塊切分,以及根據(jù)所述語句的概念類別生成該語句的句類表達式和語義塊的句類假設和檢驗;根據(jù)語義塊和句類表達式、所述語句中所包含的極性詞語以及傾向性評價模型對所述引證文本中的語句做傾向性分析,由所述傾向性分析的結(jié)果以及參考文獻的內(nèi)容得到所述引證文本對參考文獻的傾向性態(tài)度。
文檔編號G06F17/30GK101937462SQ20101027298
公開日2011年1月5日 申請日期2010年9月3日 優(yōu)先權日2010年9月3日
發(fā)明者張全, 池毓煥, 繆建明, 韋向峰, 黃曾陽 申請人:中國科學院聲學研究所