欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

從非結構化文本提取和顯現(xiàn)圖表結構化關系的方法和系統(tǒng)的制作方法

文檔序號:6569571閱讀:335來源:國知局
專利名稱:從非結構化文本提取和顯現(xiàn)圖表結構化關系的方法和系統(tǒng)的制作方法
技術領域
本發(fā)明涉及數(shù)據(jù)處理,更特別地,涉及一種用于從非結構化文本 自動提取和顯現(xiàn)表示出關系的圖表結構化數(shù)據(jù)的方法、系統(tǒng)和計算 機程序。
背景技術
技術領域
結構化信息可以定義為其預期意義以數(shù)據(jù)的結構或格式明顯地 表示的信息。結構化信息的典型例子是關系數(shù)據(jù)庫。非結構化信息 可以表征為其意義需要解釋以接近和提取預期意義的信息。例子包 括自然語言文檔、語音、音頻、圖像和視頻。換言之,非結構化數(shù) 據(jù)是無組織地駐留于數(shù)據(jù)庫外部的任何數(shù)據(jù)。非結構化數(shù)據(jù)可以是 文本、音頻、視頻或圖形。
非結構化信息代表可用于商界或政府的最大、最流行和最快發(fā)展 的信息源。在一些估計中,非結構化數(shù)據(jù)代表所有共同信息中的
80%。在這些大量數(shù)據(jù)中的高價值信息是難以發(fā)現(xiàn)的。非結構化信息 不是適于搜索技術的格式。在非結構化源中搜索信息是不實際的。 首先,必須分析數(shù)據(jù)以檢測和定位所關心的項。然后必須將結果結 構化為使得強大的搜索引擎和數(shù)據(jù)庫引擎可以在內(nèi)容被請求時有效 地找到所請求的內(nèi)容。從非結構化世界到結構化世界的橋梁稱為信 息提取(IE)。
非結構化信息管理(UIM)應用通常是軟件系統(tǒng),其分析大量非 結構化信息(文本、音頻、視頻、圖像等)以發(fā)現(xiàn)、組織和傳遞相 關知識到客戶端或終端用戶。 一個例子是處理數(shù)百萬醫(yī)學文檔和報 告以發(fā)現(xiàn)藥物間關鍵相互作用、副作用和疾病史的應用。另一例子是處理數(shù)百萬文檔以發(fā)現(xiàn)表明可能的恐怖分子威脅的關鍵證據(jù)的應用。
非結構化數(shù)據(jù)的管理被認為是信息技術(IT )產(chǎn)業(yè)中主要未解決 問題之一,主要原因是可以成功地將結構化數(shù)據(jù)轉換為商業(yè)情報和 可用信息的工具和技術當應用于非結構化數(shù)據(jù)時完全不起作用。
非結構化信息管理(UIM)系統(tǒng)對大量非結構化信息使用信息提 取(IE)技術以發(fā)現(xiàn)、組織和傳遞相關知識到客戶端。
信息提取(IE)是自然語言處理(NLP)的重要未解決問題。信 息提取中最重要的問題之 一 是從文本文檔中提取實體以及提取這些 實體間的關系。實體的例子是"民族"、"組織"和"位置"。關 系的例子是"組織-雇用-執(zhí)行官"、"組織-位置,,等。例如,句子 "John Adams是XYZ公司的首席執(zhí)行官,,包括個人"John Adams" 和組織"XYZ公司"之間的"組織-雇用-執(zhí)行官"關系。
已經(jīng)使用各種技術來提取相關實體間的關系。
在監(jiān)督方法中,在給出的例子中人力專家人工地識別實體和關 系。針對這些例子訓練分類器,該分類器用于在以后運行時識別關 系和實體。
.半監(jiān)督方法使用由專家提供的種子樣本并設法自動獲得類似于 種子樣本的更多樣本。然后,種子樣本和所獲得的樣本被用于訓練 類似于監(jiān)督情況中的分類器。
非結構化數(shù)據(jù)包括不同于實體和關系的其他信息,例如表示不同 實體間的關系的社交網(wǎng)絡,其間實體具有某些關系的周期,不同實 體間共享的公共因素,...該復雜和豐富的信息難以獲取并且非常難
以用信息化方式表示。
HITS ("超文本引導主題選擇")算法是用于對網(wǎng)頁進行分級 并因此還進行排序的算法。HITS對每個頁面使用兩個值,"權威值" 和"中心值"。"權威值,,和"中心值"在相互遞歸中相互定義。 權威值計算為指向該頁面的定標中心值的和。中心值是其指向的頁 面的定標權威值的和。在一些實現(xiàn)中也考慮了所鏈接頁面的關聯(lián)性。HITS算法得益于以下研究當頁面(中心)鏈接到另一頁面(權威) 時,前者對后者給予授權。HITS方法在JKleinberg, J.ACM( 1999) 的標題為 "Authoritative Sources in a Hyperlinked Environment"(超
鏈接環(huán)境中的權威源)的出版物中描述。
初始問題
對于 一 些領域,從非結構化數(shù)據(jù)提取知識是昂貴且不可行的任 務,因為需要生成很多手工規(guī)則以捕獲各種信息。盡管對于任何給 定領域提取這種知識都是非常困難的操作,但以清楚和有用的方式 向用戶呈現(xiàn)和顯現(xiàn)數(shù)據(jù)是更困難的。本發(fā)明處理三個主要問題
-用于在任何領域(應用)中從任何非結構化數(shù)據(jù)提取實體間關 系的圖案的自動發(fā)現(xiàn)
-從非結構化數(shù)據(jù)提取表征每個實體和關系的知識(例如其間關 系有效的時間以及在該時間該實體的位置)。
.多層關系的定義(具有各種約束和條件的關系,例如在給定時 間幀中的關系或者在給定組織中兩個人之間的關系,...)
所提取知識的顯現(xiàn)(以使用戶能夠吸收和消化該知識的方式呈 現(xiàn)所提取知識)。
現(xiàn)有技術
本發(fā)明集中于用于從非結構化數(shù)據(jù)提取和呈現(xiàn)信息的三個關鍵 問題
用于提取實體間關系的圖案的自動發(fā)現(xiàn); 從非結構化數(shù)據(jù)提取深層知識; 所提取知識的顯現(xiàn)。
大多數(shù)現(xiàn)有技術僅集中于第 一個問題,其包括從非結構化文本提 耳又實體間關系。出版于"The proceedings of the 1998 International Workshop on the Web and Databases"中的標題為"Extracting Pattern and Relations from the World Wide Web"(從萬維網(wǎng)中提取圖案和關系)(SergyBrin,斯坦福大學計算機科學系)的文章可以找到該領 域中的工作。該出版物公開了作者身份信息的提取,如在萬維網(wǎng)上 在圖書描述中找到的那樣。該出版物基于雙重迭代圖案-關系提取, 其中關系和圖案集合被迭代地結構化。該方法具有兩個主要缺陷
(1)使用手工種子樣本以提取更多類似于這些手工種子樣本 的樣本。
(2)使用詞典作為用于提取信息的主要來源。
出版于"Proceedings of the Fifth ACM International Conference on Digital Libraries"2000中的標題為"Snowball: Extracting Relation from Large Plain-Text collections"(雪球從大型明文集合中提取關系) (Eugene Agichtein和Luis Gravano-哥倫比亞大學計算機科學系, 1214 Amsterdam Avenue NY)的文章公開了 一種類似于先前工作的 思想,通過使用種子樣本生成初始圖案以及迭代地獲得更多圖案。 然后使用特殊(ad-hoc)測量以估計最近獲得的圖案的相關性。該方 法的主要缺陷是
.(1 )對種子樣本的依賴導致有限的概括能力,
(2)使用手工樣本導致領域依賴,以及
.(3)圖案的相關性的估計要求特殊測量的使用。 才示題為 "Visualization of integrated structured data and extracted relational facts from free text"(顯現(xiàn)整合的結構化文本和從自由文本 中提取的關系事實)(Wakefield等人)的美國專利申請US 2004/0167907公開了一種機制,用于從非結構化自由文本提取簡單 關系。然而,該機制具有可以概述如下的主要缺陷
-提取關系的機制取決于語法分析樹。這是主要缺陷,因為不能 提取精確關系。
-取決于人為規(guī)則。機制設計用于某些問題,并且必須針對每個 問題而改變,這是昂貴且困難的。
使用詞典和其他昂貴資源來提取信息。
.不是通用的并且不能解決不同領域中的不同問題。 僅提供簡單關系但不能提供高度詳細的關系。
不完全自動并且需要人為干涉。
標題為 "System and method for automatically and iteratively mining related terms in a document through relations and patterns of occurrences"(用于通過出現(xiàn)關系和圖案自動地和迭代地挖掘文檔中 的相關項的系統(tǒng)和方法)(Sundaresan等人)的美國專利US 6,505,197 公開了 一種自動和迭代數(shù)據(jù)挖掘系統(tǒng),用于使用二元概念識別萬維 網(wǎng)上的一組定義了關系的相關信息。具體地,挖掘系統(tǒng)迭代地提煉 以特定方式相關的項的配對,以及它們在網(wǎng)頁中出現(xiàn)的圖案。自動 挖掘系統(tǒng)以迭代方式運^f亍,用于連續(xù)地和遞增地#是煉關系及其相應 圖案。在一個實施例中,自動挖掘系統(tǒng)根據(jù)關系在網(wǎng)頁中出現(xiàn)的圖 案來識別關系。自動挖掘系統(tǒng)包括導出新關系的關系標識器以及導 出新圖案的圖案標識器。最近導出的關系和圖案存儲在數(shù)據(jù)庫中, 其最初以關系和圖案的小種子集合開始,其連續(xù)地和迭代地被自動 挖掘系統(tǒng)加寬。
然而,該專利受制于多個缺陷 取決于用于提供種子圖案的人為工作。
所得圖案類似于原始種子圖案。
.對于每個領域或應用,新種子圖案必須由專家提供;這是乏味 且昂貴的過程。
提取關系和圖案僅取決于非常有限的詞匯(詞)特征。 標題為 "Wrapper induction by hierarchical data analysis" (通過 層級數(shù)據(jù)分析來進行封裝包導入)(Muslea等人)的美國專利US 6,606,625公開了一種歸納算法,其基于用戶標記的訓練樣本生成提 取規(guī)則。問題在于對訓練數(shù)據(jù)的標記形成了嚴重的瓶頸。
剩余問題
所有先前解決方案都受制于下述缺陷中的一個或多個 -需要手工規(guī)則或大量人為注解樣本用于組成用于提取關系的圖案。
是領域?qū)S玫牟⑶以O計為解決非常特殊的問題。
-取決于種子樣本。所得圖案不是通用的并且非常類似于種子樣本。
不是獨立于語言的。
僅提供簡單關系但不能提供高度詳細的關系。 .不針對每個實體和關系提取詳細的特征。
不能對所提取信息挖掘復雜數(shù)據(jù)。
不提供針對大量數(shù)據(jù)的有效顯現(xiàn)。

發(fā)明內(nèi)容
發(fā)明目的
-本發(fā)明的目的是從非結構化數(shù)據(jù)自動提取實體間關系,獨立于 領域和語言,不要求任何種類的任何人為干涉,并且不考慮數(shù)據(jù)數(shù) 量如何。
.本發(fā)明的另一目的是提取高度復雜的關系和相關實體,每個所 提取實體和關系都由非常豐富的信息結構表示。
-本發(fā)明的另 一 目的是提取實體間多層關系以及實現(xiàn)對所提取信 息的復雜數(shù)據(jù)挖掘。
.本發(fā)明的另一目的是以清楚和可利用的方式顯現(xiàn)信息,可以幫 助用戶吸收和消化大量非結構化信息。
發(fā)明概要
本發(fā)明公開了如獨立權利要求中所定義的系統(tǒng)、方法和計算機程序。
本發(fā)明公開了 一種用于從非結構化文本自動提取和挖掘關系和 相關實體的系統(tǒng)、方法和計算機程序。更特別地,本發(fā)明涉及一種
方法,用于
從非結構化文本數(shù)據(jù)提取關系和相關實體, 將所提取信息表現(xiàn)為圖表,以及
操縱所得圖表以更加了解其包含的信息。 首先通過自動導入圖案以及其次通過將這些導入的圖案應用于 非結構化文本數(shù)據(jù),執(zhí)行關系和相關實體的提取。對于每個關系和 實體,提取多個特征以構造圖表,其中節(jié)點表示實體,并且邊表示 關系。
本發(fā)明提供如下裝置,其用于開發(fā)圖表,并用于導出其他圖表, 這些圖表集中于某些時間幀內(nèi)的關系或涉及某些特征。這是分別使 用時間圖表和基于特征的圖表來完成的。兩種方法基本上都查詢與 圖表的節(jié)點和邊相關聯(lián)的數(shù)據(jù)結構的內(nèi)容。
本發(fā)明提供顯現(xiàn)技術,用于更好地理解圖表中包含的信息。
本發(fā)明提供用于吸收和消化非結構化信息的有效解決方案并實 現(xiàn)大量文檔的有效顯現(xiàn)。
在所附從屬權利要求中提供本發(fā)明的其他實施例。
參照以下描述、權利要求和附圖可以更好地理解本發(fā)明的前述以 及其他目的、特征和優(yōu)點。


在所附權利要求中闡述被認為是本發(fā)明所特有的新穎和創(chuàng)造'性 特征。然而,當結合附圖閱讀時通過參照以下示例性詳細實施例的 詳細描述將最好地理解本發(fā)明本身及其優(yōu)選使用模式、其他目的和
優(yōu)點,附圖中
圖1示出根據(jù)本發(fā)明的系統(tǒng)的概略圖。
圖2是根據(jù)本發(fā)明的圖表結構化關系提取器的詳細視圖。
圖3是根據(jù)本發(fā)明的導入圖案的步驟的框圖。
圖4是模板、圖案和元組的例子。
圖5示出根據(jù)本發(fā)明用于導入圖案的方法。
圖6是根據(jù)本發(fā)明用于圖案的初始表示的有限狀態(tài)機(FSM)。
圖7示出根據(jù)HITS算法的圖案和元組的表示。圖8是淺圖表的例子。
圖9是基于特征的圖表的例子。
具體實施例方式
提供以下描述以使得人們或者本領域普通技術人員能夠進行和 使用本發(fā)明,并且在專利申請及其要求的上下文中提供以下描述。 對這里描述的優(yōu)選實施例以及 一 般原則和特征的各種修改對于本領 域技術人員而言是顯而易見的。因此,本發(fā)明不旨在受限于所示實 施例,而是符合與這里描述的原則和特征一致的最寬范圍。
本發(fā)明的主要目的是處理非結構化文本數(shù)據(jù)以提取關系和相關 實體以及對于二者的特征。結果是其節(jié)點和邊分別表示實體和這些 實體間關系的圖表。當提取大量信息時,系統(tǒng)還提供操縱圖表的能 力,以動態(tài)地生成示出關系和/或?qū)嶓w的不同方面的各種圖表。
圖1示出根據(jù)本發(fā)明的系統(tǒng)的概略圖。
系統(tǒng)接收指定已命名實體(例如人名、組織名或在任何領域中
的任何其他已命名實體)的用戶查詢103。該已命名實體以下將稱為 "主實體"。
將大量非結構化文本數(shù)據(jù)100 (例如萬維網(wǎng))提供到圖表結構 化關系提取器101,其提取相關實體、所述相關實體間的關系以及表 征所述相關實體和關系的各種信息。
.系統(tǒng)構造其節(jié)點表示與主實體最密切相關的實體并且邊表示實 體間關系的圖表。
將圖表查詢104應用到圖表以獲得數(shù)據(jù)的具體視圖。
-由圖表顯現(xiàn)器102生成最終輸出圖表105。該最終輸出圖表105 根據(jù)在應用到圖表的查詢中指定的標準來表示實體及其關系。
圖表結構化關系提取器圖2是根據(jù)本發(fā)明的圖表結構化關系提取器101的詳細視圖。系
統(tǒng)操作如下
'將從用戶接收的查詢103傳輸?shù)剿饕骱退阉饕?00用于在 非結構化文本數(shù)據(jù)100中進行搜索(例如在Web上)。非結構化文 本數(shù)據(jù)100包括大量文檔(即WEB上的各種文檔,例如網(wǎng)頁)。搜 索引擎200從非結構化文本數(shù)據(jù)IOO檢索包含查詢103中指定的主 實體的文檔。
-對包含查詢103中指定的主實體的文檔應用語法和語義標簽器 201 (所述文檔由搜索引擎200得到)以提取各種已命名實體、詞匯 類型以及詞的語義。
-相關實體和關系提取器202從先前步驟中標記的文檔提取與查 詢103中指定的主實體強烈相關的實體和關系。
-特征提取器203從由搜索產(chǎn)生的并包含查詢中指定的主實體的 文檔提取信息,以表征先前在步驟202中提取的每個實體和關系。 例如,對于特定實體,可以提取與該實體密切相關的接近該實體的 人、組織、位置、時間特征、詞...。
圖表擴展器204重復先前步驟,即提取與查詢103中指定的主 實體特別相關的關系和實體。進行該操作以將圖表擴展為具有附加 的相關實體和關系。很多實體與查詢中指定的主實體相關。在這些 實體中, 一些是特別相關的并且必須添加到圖表。問題在于不知道 這些相關實體如何彼此相關以及與其他實體相關。這就是圖表擴展 器對非結構化文本(100)(而不是僅僅對包含主實體的所選文檔) 重復先前步驟的原因。
然后,圖表擴展器204基于所述提取的實體和關系形成圖表。 查詢中指定的主實體作為圖表的中心點,所有其他實體連接在其周 圍。
-關系分類器205根據(jù)關系的語義意義根據(jù)一組預定類別來對所 得關系進行分類。例如,諸如"領導"、"總裁"和"主席"的關 系被分類為"執(zhí)行官"。該步驟是可選的并且不影響系統(tǒng)的輸出。 在圖表中表示所提取實體和關系。圖表擴展器204從非結構化 文本數(shù)據(jù)收集信息并以與每個實體和關系相關聯(lián)的結構表示所述信 息。以便于內(nèi)容操縱的方式構造圖表。
將圖表傳輸?shù)綀D表顯現(xiàn)器102。該圖表可能會受到來自用戶的 指定某一標準的查詢104。響應于該查詢,圖表顯現(xiàn)器102在輸出 105中輸出相對較簡單的圖表。該輸出圖表105根據(jù)在查詢104中指 定的標準表示實體及其關系。
關系和相關實體提取
根據(jù)優(yōu)選實施例的系統(tǒng)從非結構化文本提取相關實體和這些實 體間的關系。將各種標簽器應用到文本以附上不同種類的標簽(例 如已命名實體標簽器向每個詞附上表示其已命名實體類別的標簽)。 關系和相關實體提取器202提取相關實體以及對所述實體間關系的 描述。關系分類器203將所提取關系分類在預定關系集合中。
關系和相關實體提取器202自動提取相關實體以及它們的關系。 為了提取關系和相關實體,關系和相關實體提取器使用具有相關聯(lián) 的置信測量的圖案。導入(自動獲取)圖案的過程被執(zhí)行一次,然 后在系統(tǒng)構造期間脫機。使用通用框架導入圖案,該框架可以用于 任何實體和相關類型。在運行時,將導入的圖案應用到非結構化文 本以提取實體以及與它們相關聯(lián)的關系。
圖3是導入圖案的方法的概略圖。將非結構化文本數(shù)據(jù)300提供 到圖案導入器301中,其導入圖案302用于接著提取實體以及所述 實體間的關系(注意非結構化文本數(shù)據(jù)300與非結構化文本數(shù)據(jù) 100相同)。
如上所述,根據(jù)優(yōu)選實施例的圖案導入器301對非結構化文本數(shù) 據(jù)進行操作以導入圖案。圖4描述圖案結構以及對非結構化文本執(zhí) 行的處理。例如,輸入文本400 "美國副總統(tǒng)Al Gore今天說..."被 通過各種標簽器(例如詞性(POS)標簽器、語義標簽器和已命名實 體標簽器)加上標簽。換言之,標簽與句子中每個詞相關聯(lián)。結果是表示句子400的各種特征的一組多流標簽401。 詞美國 實體民族 詞性形容詞 語義居民
詞副總統(tǒng) 實體職業(yè) 詞性名詞短語 語義執(zhí)行官
詞Al Gore
實體個人
詞性名詞
語義無
使用不同類型的標簽的組合可以形成相同句子的不同表示。在給 定表示中使用的標簽類型取決于系統(tǒng)將嘗試匹配的圖案。
模板
模板是通用標簽的序列。模板402的例子是
民族—居民職業(yè)—名詞短語個人[2]動詞_短語
該模板來源于401中已命名實體標簽、詞性(POS)標簽和語義 標簽的表示。所有這些標簽被認為是單個標簽。這里圖案的選擇僅 用于示意目的,可以使用標簽、表示和加標簽樣式的任何組合。
圖案
圖案比模板更具體。圖案指定由標簽扮演的角色(第一實體、第 二實體、或關系)。如后面說明的,圖案從模板獲得。模板的例子表示在403中,其中識別關系以及關系中的每個實體。
該圖案表明句子中具有標簽民族一居民_形容詞的詞表示關系中 第二實體(實體2),而具有標簽個人[2]的詞表示關系中第一實體 (實體l)。最后,具有標簽職業(yè)_執(zhí)行官_名詞短語的詞表示兩個先 前實體間的關系。
元組
"元組"是將圖案應用到非結構化文本的結果。在上述例子中, 將圖案應用到原始文本的結果是以下元組 實體1: Al Gore 實體2:美國 關系副總統(tǒng)
元組404、 405示出不同元組可以如何與相同圖案匹配。 根據(jù)本發(fā)明的方法包括導入一組包含信息的高置信度的圖案的
步驟。該組圖案在運行時間期間被應用于原始文本以正確識別相關
實體以及這些實體間的關系。
圖案導入器
圖3中的圖案導入器302進一步在圖5中詳細示出。用于導入圖 案的方法僅在構造系統(tǒng)時執(zhí)行一次。用于導入圖案的方法包括以下 步驟
500:由語法和語義標簽器模塊對非結構化文本數(shù)據(jù)300 (即 大型文本數(shù)據(jù)或WEB數(shù)據(jù))應用諸如POS標簽器、已命名實體標 簽器和語義標簽器的各種標簽器。
501:所得數(shù)據(jù)分成兩部分小部分和大部分。該劃分是有用 的,因為僅數(shù)據(jù)的小部分需要得到圖案的初始集合,而數(shù)據(jù)的大部 分需要使用以下描述的導入過程來排序和檢驗這些圖案。
502:數(shù)據(jù)的小部分用于構造有限狀態(tài)機502,類似于圖6中 所示有限狀態(tài)機。-503:初始圖案生成器用于濾出不太可能的模板,其在有限狀 態(tài)機中具有較低可能性。然后,初始圖案生成器使用初始模板以生 成圖案的初始集合。先前獲得的集合中每個模板可以通過將不同角 色附加到模板的不同部分生成多個圖案。如果現(xiàn)在考慮以下模板
民族名詞一短語個人個人位置
則從該模板可以生成以下3個圖案
.民族實體1名詞_短語關系個人實體2個人_實體2位

民族實體1名詞一短語關系個人個人位置實體2 民族名詞一短語_關系個人實體1個人實體1位置實
體2
因此,通過從模板的初始集合中的每個模板生成所有可能圖案, 構造圖案的初始集合。
504:元組匹配器將圖案的初始集合中的每個圖案應用于非結 構化數(shù)據(jù)。結果包括圖案的配對(p, t)以及與這些圖案匹配的元組。 注意到,這些配對中的很多是錯誤的,即它們錯誤地識別相關實體 和/或關系。
有限狀態(tài)機
圖6示出用于所考慮的圖案的有限狀態(tài)機。 '第一狀態(tài)601表示"民族"已命名實體, .第二狀態(tài)602表示"名詞—短語",
.第三狀態(tài)603表示"個人"已命名實體,其可以由一個或多個 名字表示。對第 一弧線的加權604表示該狀態(tài)序列的可能性。
HITS圖案導入器
步驟505使用以下研究用于自動識別信息量最大的圖案與很多 元組匹配的圖案傾向于為正確。類似地,與^f艮多圖案匹配的元組傾 向于為正確。因此,問題可以視為中心(元組)和權威(圖案)問題,其可以使用HITS ("超文本引導主題選擇")算法來解決?;?于一組相關"權威頁面"和一組"中心頁面"之間的關系,HITS是 權威概念的算法公式。HITS算法原始用于通過分析WWW(萬維網(wǎng)) 的鏈接結構在考慮搜索查詢時確定最權威的網(wǎng)頁。HITS算法受益于 以下研究當頁面(中心)鏈接到另一頁面(權威)時,前者對后 者給予授權。
HITS圖案導入器操作如下
假設很大一組數(shù)據(jù)D包括很大一組圖案P ,希望識別與最正確元 組集合T匹配的圖案集合》。換言之,希望在數(shù)據(jù)中巨大圖案空間 之中選擇信息量最大、置信度最高的圖案,其可以識別正確元組。 然而,?和T二者是未知的。
應用導入過程如下
P中的每個圖案g]與數(shù)字的權威加權Ap相關聯(lián),其表示多少元 組與該圖案匹配。類似地,T中每個元組t具有數(shù)字的中心加斥又Ht, 其表示該元組與多少圖案匹配。
加權被迭代地計算如下
然后加權被歸一化,使得
拒絕加權低于預定閾值的圖案。
計算權威加權使得在第 一迭代HITS計算中通過針對與圖案匹配 的每個元組加1來計算權威加權,該總和纟皮進一步加權以有利于得 到更短的圖案。加權的增量計算如下
其中&是圖案的基于長度的加權,MaxLength是最長圖案的長度。對于更短的圖案,該修改得到更好的加權。
由該最后步驟產(chǎn)生包括信息量最大的圖案的集合,每個圖案具有
存儲在導入的圖案302數(shù)據(jù)庫中的權威加權。
在運行時,如圖2所示,關系和相關實體提取器202對非結構化 文本數(shù)據(jù)300使用導入的圖案302以提取關系和相關實體。
圖7示出作為雙向圖表的圖案和元組的表示。圖案701和702 連接到多個元組,類似地,元組703連接到兩個圖案701和702。該 連接導致相互干擾,其增加圖案和元組二者的加權。另一方面,圖 案704具有單個連接,因此具有低加權。
特征提取
如圖2所示,在被關系和相關實體提取器202提取之后,相關實 體連同它們的關系存儲在圖表結構中?;谟脩舨樵?03中指定的 主實體創(chuàng)建圖表。特征提取器203從非結構化文本數(shù)據(jù)提取用以表 征每個實體和關系的信息。結果是其節(jié)點表示實體并且邊表示關系 的復雜圖表。圖表是復雜的,因為不是具有簡單標簽,而是節(jié)點和 邊具有與它們相關聯(lián)的數(shù)據(jù)結構。鑒于圖表中包含的信息量,需要 發(fā)明 一種方法,其間接地使得對節(jié)點和邊數(shù)據(jù)結構的查詢可以動態(tài) 地生成原始圖表的變體。
節(jié)點結構
每個節(jié)點是包括基于從上下文導出的特征的實體和矢量的結構, 在該上下文中實體在文本中頻繁出現(xiàn)。例如,對于某個人,結構看 起來是這樣的
實體名個人1
相關聯(lián)的個人
名字1 0.43
名字2 0.21相關聯(lián)的組織: 組織1 0.71 組織2 0.12
相關聯(lián)的位置 位置1 0.50 位置2 0.24
相關聯(lián)的詞包
詞1詞2詞3 0.7
相關聯(lián)的時間 時間1 0.12 時間2 0.09
對于實體,與每個特征相關聯(lián)的數(shù)值是當考慮該實體所出現(xiàn)的所 有類似特征時出現(xiàn)該特征的概率。
邊結構
如上所示,關系提取器202可以識別原始文本中哪個詞用作關 系。提取用于每個包括以下字段的邊/關系的結構,其中有 關系類(例如管理人),
關系強度(例如0.85意味著"強烈相關"), 關于關系的時間信息(例如關系是在80年代)。時間信息用 于構造考慮了關系的時間幀的時間圖表。所得圖表可以表明在給定 時間哪些實體相關。這種時間圖表可以示出例如個人在其一生與不
同組織和個人的關系的種類。
節(jié)點和邊結構中包含的信息幫助對圖表執(zhí)行各種操作。圖表擴展
為了確定實體相關強度如何,系統(tǒng)依靠與節(jié)點配對相關聯(lián)的特征
矢量之間的距離。圖表擴展器204使用這些距離來確定是否需要通
過添加某些實體來擴展圖表。選擇接近主實體的實體來擴展圖表。
通過對選擇用于擴展的實體重復關系提取和特征提取步驟來進 行圖表擴展,所選實體是到主實體的距離測量值為小的實體。因此, 圖表擴展導致多個子圖表,每個子圖表集中于被選擇用于擴展的實
體之一。
可以使用各種距離度量,其中有歐幾里德距離和余弦距離。在優(yōu) 選實施例中,使用兩個矢量之間的余弦距離。
可選圖表表示
在先前步驟中構建的圖表由于存儲在它的節(jié)點和邊中的數(shù)據(jù)而 非常豐富。為此,可行的是提供一些方法用于通過不同種類的圖表 表示底層數(shù)據(jù)。通過以不同方式查詢節(jié)點和邊數(shù)據(jù)結構的內(nèi)容獲得
這些圖表。圖表顯現(xiàn)器102使用圖表查詢104來對復雜圖表執(zhí)行進 一步數(shù)據(jù)挖掘以更加了解數(shù)據(jù)。在更簡單和更集中的圖表(輸出圖 表105))中針對某些特征和特性顯現(xiàn)數(shù)據(jù)。
將作為例子討論這些種類的圖表中的3個。其他圖表可以通過改 變前述查詢而獲得。
淺圖表
對節(jié)點和邊結構的最簡單查詢檢索實體的名字以及由圖表描述 的關系。這導致非常"淺"的圖表,其僅示出必需的幾條信息。圖8 是這種淺圖表的例子。節(jié)點801表示查詢中指定的主實體,節(jié)點802 和803表示與主實體最強烈相關的實體。邊804表示節(jié)點實體801 和803之間的關系,而邊805表示節(jié)點實體801和802之間的關系。 節(jié)點806表示圖表中與主實體801相關的很多所得實體之一?;谔卣鞯膱D表
圍繞用戶查詢而構造的圖表基于每個節(jié)點的特征矢量。基于特征 矢量的不同子集使用其他查詢可能獲得其他圖表。當決定2個實體 間關系的強度時,僅考慮所選特征子集,因此名為"基于特征的" 圖表。該種圖表解決了如下問題,例如"哪些實體與和主實體X相
同的組織集合相關聯(lián)?"或"哪些人有與主實體X類似的愛好?"。
因為可能將所選距離度量應用到所考慮的較小特征矢量,因此可能 獲得兩個實體間針對所選特征的接近程度。換言之,可以僅針對某 些特征測量兩個實體的接近度以提供對數(shù)據(jù)的更多關注。
因為集中于特征矢量的子集可以使在原始圖表中遠離的兩個節(jié) 點更接近,因此可能跨子圖表邊界測量節(jié)點間的距離。這可以展現(xiàn) 出所關注的關系,否貝'j該關系將難以在原始圖表中被發(fā)現(xiàn)。
圖9示出這種子圖表的例子,其中已從圖8中所示圖表中提取關 于"中東危機"的實體。節(jié)點901表示主查詢,而節(jié)點卯2表示圖 表中的主節(jié)點。節(jié)點903是圖8中滿足用于該子圖表的基于特征的 標準的節(jié)點之一。
時間圖表
如前所述,每個關系的結構包括時間信息。這打開了到另一類型 的查詢的大門,該另一類型的查詢考慮了關系的時間幀。所得圖表 可以表明在給定時間哪些實體相關。通過改變時間,圖表可以在兩 方面不同
它們包含的節(jié)點(因為2個實體可能在給定時間開始/停止具 有關系),以及
邊的加權(因為關系的強度可以隨時間變化)。 這種時間圖表可以示出例如個人在其一生與不同組織和個人的 不同關系。
顯現(xiàn)圖表顯現(xiàn)器102以下列方式提供圖表的增強可視表示 節(jié)點外形寬度表明某一網(wǎng)絡中哪個節(jié)點是中心。
節(jié)點顏色對節(jié)點的已命名實體標簽(例如個人,組織)進行編 碼。顏色的強度表明該節(jié)點與當前選擇的中心節(jié)點相關的程度(例 如深綠色節(jié)點是與X強烈相關的組織,淡藍色節(jié)點是與X不那么相 關的位置)。
邊顏色反映關系所屬的分類。
邊厚度反映關系的強度。
-刷涂和鏈接用于顯示基于特征的圖表。在信息顯現(xiàn)中,刷涂和 鏈接用于動態(tài)地表明相關實體。在多個顯示以不同形式呈現(xiàn)相同底 層數(shù)據(jù)的情況下,刷涂和鏈接是特別有用的。在這種情況下,在一 個顯示中"刷涂" 一個數(shù)據(jù)項造成在所有其他顯示("鏈接的") 中刷涂相同項。在優(yōu)選實施例中,用戶可以選擇將在構造基于特征 的圖表中被考慮的特征。當刷涂為激活時,節(jié)點的顏色強度反映其 屬于圖表的程度。例如,如果圖表表示某人并且希望關注與特定組 織相關的其他人;所得新圖表是包括僅與該組織相關的人的子圖表。
時間滑塊允許用戶在時間上前后移動。作為該移動的結果,創(chuàng) 建時間圖表。這些時間圖表反映在特定時間的關系和相關實體。然 而,這些圖表不針對每次滑塊移動進行顯示。實體的節(jié)點的顏色強 度可以變化以反映在它與主實體之間的關系的變化強度。因此,隨 著滑塊移動,某些節(jié)點變暗淡出并且其他節(jié)點變亮;關系越遠離(過 去或?qū)?當前選擇時間,相關節(jié)點看起來越暗。在所選時間處與 中心實體相關的實體看起來最亮。
本領域技術人員將認識到,盡管適于操作本發(fā)明的數(shù)據(jù)處理系統(tǒng) 的完整結構未在此描述,其結構和操作可以符合本領域已知的現(xiàn)有 實現(xiàn)。特別地,注意到,本方法的步驟可以從通過任何類型計算機 網(wǎng)絡(公共或?qū)S?連接的分布式系統(tǒng)在客戶端-服務器模式中操作。
盡管已經(jīng)參照優(yōu)選實施例特別地示出和描述了本發(fā)明。應該理 解,在不脫離本發(fā)明的精神和范圍的前提下,可以做出形式和細節(jié)上的各種改變。
權利要求
1. 一種用于從非結構化文本自動提取和挖掘關系和相關實體的方法,所述方法包括以下步驟·接收指定主實體的查詢;·從非結構化文本提取與查詢中指定的主實體相關的關系和相關實體,所述步驟包括進一步的步驟·在非結構化文本中搜索和選擇包含主實體的文檔,·向所選文檔的每個詞附加一個或多個標簽,每個標簽是不同類型的;·通過將圖案應用到所述加標簽的文檔來提取關系和相關實體;·從所選文檔提取表征每個實體和關系的特征;·基于所提取特征構造圖表,其節(jié)點表示與所指定主實體相關的實體并且其邊表示所述實體間的關系。
2. 根據(jù)權利要求1的方法,包括進一步的步驟 .操縱所得圖表以更加了解其包含的信息。
3. 根據(jù)前述權利要求中任一項的方法,其中向所選文檔的每個詞 附加一個或多個標簽,每個標簽是不同類型的步驟包括以下步驟 對所選文檔應用語法和語義標簽器以提取已命名實體、詞匯類 型以及詞的i吾義。
4. 根據(jù)前述權利要求中任一項的方法,其中操縱所得圖表以更加 了解其包含的信息的步驟包括進一步的步驟 接收圖表查詢以根據(jù)特定標準獲得相關實體和關系的特定表示;-響應于所述圖表查詢,生成輸出圖表,其根據(jù)圖表查詢中指定 的標準表示實體以及它們的關系。
5. 根據(jù)權利要求4的方法,其中所述標準是時間標準或者是與一個或多個與關系和相關實體相關聯(lián)的特征相關的條件或/和約束。
6. 根據(jù)前述權利要求中任一項的方法,其中基于所提取特征構造 圖表的步驟包括進一步的步驟-使表示實體的每個節(jié)點與基于表征所述關系和相關實體的特征 的值的矢量相關聯(lián)。
7. 根據(jù)前述權利要求中任一項的方法,其中從在包含主實體的所 選文檔內(nèi)頻繁出現(xiàn)某實體的上下文中導出表征該實體的一個或多個 特征。
8. 根據(jù)前述權利要求中任一 項的方法,其中與表征實體的特征相 關聯(lián)的值基于相關聯(lián)的實體出現(xiàn)所述特征的概率。
9.根據(jù)前述權利要求中任 一 項的方法,其中從所選文檔提取表征 每個關系的特征的步驟包括進一步的步驟 使每個關系與以下內(nèi)容相關聯(lián) 關系類;和/或 關系強度;和/或 時間信息;并且其中生成輸出圖表的步驟包括進一步的步驟 在圖表上顯現(xiàn) 關系類; 關系強度; 時間信息。
10.根據(jù)前述權利要求中任 一 項的方法,其中基于所提取特征構 造圖表的步驟包括進一步的步驟 根據(jù)關系的語義意義將關系分類在預定類別中。
11 .根據(jù)前述權利要求中任一項的方法,其中基于所提取特征構 造圖表的步驟包括進一步的步驟 基于節(jié)點間的距離擴展圖表;所述步驟包括進一步的步驟-選擇一個或多個擴展的實體,優(yōu)選地是接近主實體的實體; 從非結構化文本提取與所述擴展的實體相關的關系和相關實
12. 根據(jù)前述權利要求中任一項的方法,包括從非結構化文本導 入圖案的預備步驟,所述步驟包括進一步的步驟 向非結構化文本的每個詞附加一個或多個不同類型的標簽; -定義一個或多個模板,每個模板基于標簽的序列; 從每個模板生成一個或多個圖案,每個圖案指定用于模板中每 個標簽的角色。
13. 根據(jù)前述權利要求中任一項的方法,其中標簽是語音標簽或 已命名實體標簽或語義標簽器或任何其他類型的標簽。
14. 根據(jù)權利要求12-13中任一項的方法,其中定義基于標簽的 序列的一個或多個模板的步驟包括進一步的步驟 選擇模板的初始集合; 濾出不太可能的模板。
15. 根據(jù)權利要求12-14中任一項的方法,其中從每個模板生成 一個或多個圖案的步驟包括進一步的步驟 從模板的初始集合生成圖案的初始集合; .將圖案的初始集合中包含的每個圖案應用于非結構化文本,以 針對每個圖案獲得盡可能多的與所述圖案匹配的元組,元組是應用圖案到非結構化文本的結果; .識別信息量最大的圖案。
16. 根據(jù)權利要求15的方法,其中識別信息量最大的圖案的步驟 包括進一步的步驟.運行超文本引導主題選擇(HITS)算法。
17. 根據(jù)權利要求12-16中任一項的方法,其中每個圖案針對模 板中的每個標簽指定該標簽是第一實體、第二實體還是關系。
18. —種用于執(zhí)行根據(jù)前述權利要求中任 一 項的方法的步驟的系統(tǒng)。
19. 一種包括指令的計算機程序,用于當所述計算機程序在計算 機系統(tǒng)上執(zhí)行時執(zhí)行根據(jù)權利要求1-17中任一項的方法。
20. —種包括用于向客戶端系統(tǒng)分發(fā)根據(jù)權利要求19的計算機程序的裝置的服務器系統(tǒng)。
全文摘要
本發(fā)明公開了用于從非結構化文本自動提取和挖掘關系和相關實體的系統(tǒng)、方法和計算機程序。更特別地,本發(fā)明涉及一種方法,用于從非結構化文本數(shù)據(jù)提取關系和相關實體,將所提取信息表示為圖表,以及操縱所得圖表以更加了解其包含的信息。首先通過自動導入圖案以及其次通過將這些導入的圖案應用于非結構化文本數(shù)據(jù),執(zhí)行關系和相關實體的提取。對于每個關系和實體,提取多個特征以構造圖表,其中節(jié)點表示實體,并且邊表示關系。本發(fā)明提供如下裝置,其用于開發(fā)圖表,并用于導出其他圖表,這些圖表集中于某些時間幀內(nèi)的關系或涉及某些特征。這是分別使用時間圖表和基于特征的圖表來完成的。兩種方法基本上都查詢與圖表的節(jié)點和邊相關聯(lián)的數(shù)據(jù)結構的內(nèi)容。
文檔編號G06F17/30GK101305366SQ200680041525
公開日2008年11月12日 申請日期2006年9月18日 優(yōu)先權日2005年11月29日
發(fā)明者H·哈桑, H·莫索塔費 申請人:國際商業(yè)機器公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
景东| 陇川县| 成安县| 保康县| 什邡市| 岑巩县| 阳西县| 呼玛县| 布尔津县| 大石桥市| 苗栗市| 内黄县| 北票市| 禄劝| 吉安县| 绥化市| 金塔县| 孟津县| 利川市| 林西县| 尼木县| 肃宁县| 阿尔山市| 武冈市| 辽源市| 万全县| 伊吾县| 五原县| 武威市| 巧家县| 沙洋县| 无锡市| 日土县| 山阴县| 砚山县| 绿春县| 宽城| 安多县| 青田县| 绥芬河市| 沙坪坝区|