欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種實體信息圖譜生成方法及裝置的制造方法_4

文檔序號:9708305閱讀:來源:國知局
四、指代消解對實體關(guān)系的提取具有重要意義,在中文行文中,很多信息是會聚合 在指代詞諸如人稱代詞、稱謂名詞、職位詞等詞之上的,本實施例所述指代消解是將被指代 的人名實體與其指代詞建立起關(guān)系,具體包括指代詞消解和別名識別。
[0094] 其中,所述指代詞消解的消解對象主要包括人稱代詞(你、我、他等),稱謂詞(先 生、女士等),指人名詞(父親、哥哥等),職位詞(經(jīng)理、總監(jiān)等),以及中文中使用較多而 形式很特殊的零形回指,例如,"1999年3月,馬云正式辭去公職,Φ和他的團隊回杭州", 句中Φ是最后一個小句被隱去的主語,指代對象為"馬云"。所述別名識別中的別名是一 種特殊的指代詞,其本身可以是完整姓名的簡稱,也可以是完全無關(guān)的化名、假名,甚至是 字符串,不限于姓名命名規(guī)則的用戶名等,此類詞的消解需要單獨處理,換句換說,別名是 指同一實體的其他稱呼,比如,中國石油化工集團可以簡稱為中石化,在別名模塊中,結(jié)合 詞表和規(guī)則方法以及模式匹配方法將實體和別名以三元組形式alias (實體,別名)標(biāo)注在 tokenlist 結(jié)構(gòu)上。
[0095] 在指代消解中,利用詞性標(biāo)注和淺層句法分析結(jié)果,采用FST規(guī)則方法先將可文 本內(nèi)可能的指代詞及其屬性(人,物,單復(fù)數(shù),角色,性別)在tokenlist上標(biāo)注,在通過 程序掃描文本將實體及可能指代詞,通過決策樹或者SVM分類方法得出相關(guān)的實體指代關(guān) 系,并以三元組Coreference(實體,指代詞)在token list加以標(biāo)注。
[0096] 五、實體關(guān)系(Correlated Entity, CE):表示實體與實體之間的相關(guān)聯(lián)系,比如: 人物和所屬工作單位,其根據(jù)預(yù)定義關(guān)系字,對所采集的各文本文件中的命名實體分別進 行關(guān)聯(lián)性處理,得到各個命名實體之間的實體關(guān)系。
[0097] 1.CE識別首先對只需要NE識別結(jié)果的關(guān)系實體進行識別,例如"北京旭宏東方測 控技術(shù)有限公司總經(jīng)理郝然",實體關(guān)系為:郝然=>北京旭宏東方測控技術(shù)有限公司,又 例如"中國電力建設(shè)集團有限公司副總經(jīng)理、黨委常委王民浩",實體關(guān)系為:王民浩=> 中 國電力建設(shè)集團有限公司。此類較復(fù)雜的并列句式在進行CE識別時不需要進行句法分析。
[0098] 2.對于相對復(fù)雜的句式,需要進行淺層句法分析,包括組塊分析(即短語分析)及 句法分析。其中,所述組塊分析主要是將句中的短語聚合在一起,以供后續(xù)句法結(jié)構(gòu)分析, 重點是對名詞短語(NP)、動詞短語(VP),以及介詞短語(PP)進行了識別,例如,對"在1996 年他再開設(shè)另一間店鋪"的分析結(jié)果為:[在1996年]/PP[他]/r [再開設(shè)]/VP[另一間店 鋪]/NP。在短語分析完成后進行句法分析,即分析句式中的主謂賓結(jié)構(gòu)(SV0),系統(tǒng)中句法 成分的表現(xiàn)方式為各組塊間建立起句法關(guān)系,例如,對"在1996年他再開設(shè)另一間店鋪"的 句法分析結(jié)果為:VS (謂語_主語):再開設(shè)= > 他;V0 (謂語_賓語):再開設(shè)= > 另一間 店鋪;V_AD (謂語_狀語):再開設(shè)= > 在1996年。
[0099] 進一步地,句法分析時還需要對基本語義進行分析,如動詞的否定形式、被動形式 等,例如,"她不是閩南人,是魯南人。",第一個謂詞"是"是否定形態(tài),在后期使用這一關(guān)系 時,要做否定判定;又例如,"林肯被布斯槍殺。",謂語動詞"槍殺"的邏輯主語是"布斯",而 邏輯賓語"林肯"。
[0100] 在句法分析的基礎(chǔ)上,再次進行CE識別,例如,對"她不是閩南人,是魯南人。",存 在CE關(guān)系:人物與家鄉(xiāng),即她=> 魯南。而通過句法分析的結(jié)果,謂語動詞"是"的否定形 式,可知同一個類型的關(guān)系:她=> 閩南,是不成立的。
[0101] 在識別實體關(guān)系的模塊,系統(tǒng)也可以分成兩個子模塊,采用FST語法規(guī)則和統(tǒng)計 方法結(jié)合的方法,形成三元組R(Nel,Ne2),同樣在tokenlist加以標(biāo)注。
[0102] 六、預(yù)定義事件(Predefined Events, PE)是對動詞及其對應(yīng)主謂語等做出了預(yù)先 定義的事件,系統(tǒng)中事件的表現(xiàn)形式是以謂語動詞為中心的一系列關(guān)系。例如,"2013年5 月10日,馬云卸任阿里巴巴集團CEO。",定義事件:離職;其表現(xiàn)為:離職_人:卸任=> 馬 云;離職_職位:卸任=>CE0 ;離職_機構(gòu):卸任= > 阿里巴巴集團;離職_時間:卸任= >2013年5月10日??梢姡鶕?jù)預(yù)定義事件名,可以查找與其有關(guān)的命名實體,將預(yù)定義事 件名與查找到的命名實體進行綁定。
[0103] 七、系統(tǒng)對單篇文章中的信息,抽取的結(jié)果形成概覽profile進行存儲,所述 profile分有兩大類:以命名實體為核心的NE類profile和以事件為核心的events類 profile。本實施例利用指代關(guān)系和實體的別名關(guān)系,完成文本中的實體信息聚合,使得同一 文本中的同一實體信息整合為一個實體概覽,即將所有實體看做信息實體對象,如圖6所 示。對于同名的實體,按照一篇文章內(nèi)一個名字代表一個意思的原則,進行合并。例如:人 物的Profile定義如表1所示:
[0104] 實現(xiàn)跨文本信息聚合的模塊實際上是將各個文本中的分散的,片段的信息以實體 和事件有中心,通過實體關(guān)系連接聚合在一起,以得到事物的全貌,對于人們理解自然事物 及其事物發(fā)展有著重要作用。在不同的文本源中,相同的名字可能表示不同的實體,不同的 名字也可能表示相同的實體,這種現(xiàn)象的存在極大的制約著信息抽取技術(shù)應(yīng)用的可靠性 與實用性。因此需要在數(shù)百萬計的文本中,進行實體名稱辨析。對于基本的命名實體,人名 相對于地名、組織機構(gòu)、時間有更強的歧義性(同名人物,昵稱等),解決難度也更高。組織 機構(gòu)名稱的具有單一性,可以通過自然語言處理技術(shù)對于別名和簡稱的處理就可以得到較 好的效果,對于時間和地點的信息聚合,可以通過時間、地點的歸一化技術(shù)處理完成。對于 人物實體的消歧,本實施例利用實體共存、實體關(guān)系以及上下文本信息的特征,通過LSH或 者層次聚類的方法進行消岐,考慮到計算量問題,可以采用Map Reduce分布式計算的方式 完成消岐。在完成了實時信息聚合之后,所有的實體信息及其關(guān)系將存儲在數(shù)據(jù)庫中。
[0105] 表 1
[0106]
[0107] 八、在完成了文本內(nèi)實體Profile以后,每個文本的profiles均存儲在hadoop的 Hbase之中,進行跨文本的實體信息驗證和融合。實體中,由于地點和時間均已經(jīng)進行了歸 一化處理,可以進行簡單的合并算法中,組織機構(gòu)實體由于其名稱的唯一性,也可以進行簡 單的利用規(guī)則和別名關(guān)系進行合并。對于人物,由于存在著同名現(xiàn)象以及不同人名可能為 同意人物,采用了層次聚類方法,并采用的百度百科和維基百科數(shù)據(jù)作為外部知識庫進行 人物名稱消岐,再進行合并。
[0108] 在對不同文章形成的名稱相同的profile進行存儲時,需要將有用的信息聚合后 存儲,這個過程就是profile合并(Merge)。例如:"馬云,1964年10月15日出生于浙江省 杭州市,中國著名企業(yè)家.馬云是阿里巴巴集團、淘寶網(wǎng)、支付寶創(chuàng)始人。馬云現(xiàn)為阿里巴 巴集團董事局主席、中國雅虎董事局主席、杭州師范大學(xué)阿里巴巴商學(xué)院院長、華誼兄弟傳 媒集團董事、菜鳥網(wǎng)絡(luò)董事長。2013年5月10日,馬云卸任阿里巴巴集團CE0。馬云1988 年畢業(yè)于杭州師范學(xué)院。馬云的妻子張瑛跟他是大學(xué)同學(xué)。"。例文將形成以"馬云"為核 心的人物profile :
[0109] profile type :PersonProfile
[0110] name :馬云
[0111] relation :
[0112] {出生地:中國.浙江.杭州
[0113] 出生日期:19641015000000 [0m] 配偶:張瑛
[0115] 事件:創(chuàng)辦
[0116] 事件:畢業(yè)
[0117] 事件:卸任}
[
當(dāng)前第4頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
北宁市| 涿鹿县| 襄城县| 贵定县| 宝兴县| 额济纳旗| 桐城市| 嘉鱼县| 射阳县| 剑阁县| 大悟县| 尉氏县| 松滋市| 金溪县| 赞皇县| 十堰市| 甘孜县| 商水县| 固安县| 克山县| 黔东| 抚远县| 西宁市| 河北省| 左权县| 吴江市| 昌乐县| 白水县| 宕昌县| 黎城县| 兴业县| 嘉善县| 西畴县| 阳原县| 拉孜县| 上虞市| 朝阳市| 武乡县| 六盘水市| 信宜市| 无棣县|