欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種實(shí)體信息圖譜生成方法及裝置的制造方法

文檔序號(hào):9708305閱讀:224來源:國(guó)知局
一種實(shí)體信息圖譜生成方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語(yǔ)言處理技術(shù),特別涉及一種實(shí)體信息圖譜生成方法及相關(guān)的裝 置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的快速發(fā)展,人們面臨著信息爆炸,海量信息分散在互聯(lián)網(wǎng)上,具有碎 片化,多語(yǔ)言和國(guó)際化的性質(zhì)?;ヂ?lián)網(wǎng)實(shí)際上就像是一個(gè)巨大的圖書館,每臺(tái)連接在網(wǎng)絡(luò)上 的機(jī)算機(jī)就像一個(gè)個(gè)書柜,這個(gè)圖書館是沒有目錄,是動(dòng)態(tài)的,飛速增加的。目前搜索引擎 所作的工作僅僅是按照用戶的關(guān)鍵詞給出包含用戶所查詢的關(guān)鍵詞相關(guān)書本的位置,找出 圖書館中書本的位置,人們往往被淹沒在信息的海洋之中。
[0003] 由于網(wǎng)絡(luò)的飛速發(fā)展使得互聯(lián)網(wǎng)信息的傳播速度呈現(xiàn)幾何增長(zhǎng),現(xiàn)有的信息搜集 手段不能滿足對(duì)于信息的需要。傳統(tǒng)的搜索引擎大致可以分為兩大類:全文搜索引擎和分 類目錄。全文搜索引擎通過Spider/crawlers的軟件,自動(dòng)分析網(wǎng)絡(luò)上的各種鏈接并獲取 網(wǎng)頁(yè)信息內(nèi)容,按規(guī)則加以分析整理,記入數(shù)據(jù)庫(kù)。谷歌、百度就是比較典型的全文搜索引 擎系統(tǒng)。分類目錄則是通過人工的方式收集整理網(wǎng)站資料形成數(shù)據(jù)庫(kù)的,比如雅虎中國(guó)以 及國(guó)內(nèi)的搜狐、新浪、網(wǎng)易分類目錄。
[0004] 全文搜索引擎的使用以關(guān)鍵詞和一定的語(yǔ)法為特點(diǎn),而分類目錄則通過建立多級(jí) 目錄對(duì)網(wǎng)站進(jìn)行分類。全文搜索引擎因?yàn)橐揽烤W(wǎng)絡(luò)機(jī)器人搜集數(shù)據(jù),所以數(shù)據(jù)庫(kù)的容量非 常龐大,但是,它的查詢結(jié)果往往不夠準(zhǔn)確;分類目錄依靠人工收集和整理網(wǎng)站,能夠提供 更為準(zhǔn)確的查詢結(jié)果,但收集的內(nèi)容卻非常有限,更新慢。
[0005] 具體地,現(xiàn)有的互聯(lián)網(wǎng)信息搜索技術(shù)(例如百度和谷歌)存在著以下不足:
[0006] 1.搜索引擎召回的相關(guān)信息太多,用戶很難定位到所需要的信息;
[0007] 2.以關(guān)鍵詞為基礎(chǔ)的搜索,匹配算法盡管簡(jiǎn)單易行,但停留在語(yǔ)言的表層,沒有觸 及語(yǔ)義,很難以幾個(gè)關(guān)鍵詞的邏輯組合來表達(dá)清楚用戶的檢索意圖;
[0008] 3.既使得到了正確的結(jié)果,也僅僅是各個(gè)獨(dú)立的文章鏈接,需要用戶一一瀏覽;
[0009] 4.不能提供文章之間的實(shí)體事物關(guān)聯(lián)以及時(shí)間關(guān)聯(lián)性,揭示事物內(nèi)部聯(lián)系和關(guān) 系。
[0010] 互聯(lián)網(wǎng)的發(fā)展已經(jīng)成為一個(gè)巨大的知識(shí)庫(kù),可是由于多數(shù)信息都是以非結(jié)構(gòu)化數(shù) 據(jù)存在,人們無(wú)法組織利用這一知識(shí)成果,所以空擁有信息,沒有知識(shí)。
[0011] 隨著信息化的飛速發(fā)展和互聯(lián)網(wǎng)接入終端的大規(guī)模普及,大量非結(jié)構(gòu)化的文本數(shù) 據(jù)充斥著互聯(lián)網(wǎng),如何從海量信息源中挖掘出有價(jià)值的信息是一個(gè)巨大的挑戰(zhàn)。

【發(fā)明內(nèi)容】

[0012] 本發(fā)明的目的在于提供一種實(shí)體信息圖譜生成方法及裝置,能更好地通過挖掘有 用信息從而形成實(shí)體信息圖譜。
[0013] 根據(jù)本發(fā)明的一個(gè)方面,提供了一種實(shí)體信息圖譜生成方法,包括:
[0014] 從本地和/或網(wǎng)絡(luò)中采集文本文件;
[0015] 根據(jù)預(yù)先定義的類別名和關(guān)系字,從所采集的各文本文件中分別抽取與各個(gè)類別 名相關(guān)的命名實(shí)體,以及與各個(gè)關(guān)系字相關(guān)的命名實(shí)體的屬性;
[0016] 根據(jù)命名實(shí)體的屬性,對(duì)所采集的各文本文件中的命名實(shí)體分別進(jìn)行關(guān)聯(lián)性處 理,得到各個(gè)命名實(shí)體之間的實(shí)體關(guān)系;
[0017] 根據(jù)預(yù)定義事件名,查找與其有關(guān)的命名實(shí)體,并將預(yù)定義事件名與查找到的命 名實(shí)體進(jìn)行綁定;
[0018] 以所述預(yù)定義事件名為線索,根據(jù)所抽取的命名實(shí)體以及所述實(shí)體關(guān)系,通過將 分散在所述各個(gè)文本文件中相關(guān)信息建立映射,使其聚合在一起,形成實(shí)體信息圖譜。
[0019] 優(yōu)選地,所述的根據(jù)預(yù)先定義的類別名和關(guān)系字,從所采集的各文本文件中分別 抽取與各個(gè)類別名相關(guān)的命名實(shí)體,以及與各個(gè)關(guān)系字相關(guān)的命名實(shí)體的屬性的步驟包 括:
[0020] 通過對(duì)從本地和/或網(wǎng)絡(luò)中采集的文本文件進(jìn)行分解,得到文本文件的分詞及其 詞性;
[0021] 根據(jù)所得到的分詞及其詞性,從所得到的分詞中確定與預(yù)先定義的各個(gè)類別名相 關(guān)的命名實(shí)體,并確定與預(yù)先定義的各個(gè)關(guān)系字相關(guān)的所述命名實(shí)體的關(guān)系屬性;
[0022] 提取所確定的命名實(shí)體,以及命名實(shí)體的關(guān)系屬性。
[0023] 優(yōu)選地,在所述的根據(jù)預(yù)先定義的類別名和關(guān)系字,從所采集的各文本文件中分 別抽取與各個(gè)類別名相關(guān)的命名實(shí)體,以及與各個(gè)關(guān)系字相關(guān)的命名實(shí)體的屬性的步驟之 后,還包括:
[0024] 將各文本文件中分別抽取的與時(shí)間相關(guān)的命名實(shí)體進(jìn)行歸一化處理,得到時(shí)間歸 一化的命名實(shí)體;
[0025] 將各文本文件中分別抽取的與地點(diǎn)相關(guān)的命名實(shí)體進(jìn)行歸一化處理,得到地點(diǎn)歸 一化的命名實(shí)體。
[0026] 優(yōu)選地,所述的根據(jù)命名實(shí)體的屬性,對(duì)所采集的各文本文件中的命名實(shí)體分別 進(jìn)行關(guān)聯(lián)性處理,得到各個(gè)命名實(shí)體之間的實(shí)體關(guān)系的步驟包括:
[0027] 在所采集的各文本文件中,確定命名實(shí)體及其關(guān)系屬性在文本文件中的位置;
[0028] 利用所確定的命名實(shí)體及其關(guān)系屬性在文本文件中的位置,將鄰近的命名實(shí)體進(jìn) 行關(guān)聯(lián),從而得到相關(guān)聯(lián)的命名實(shí)體之間的實(shí)體關(guān)系。
[0029] 優(yōu)選地,所述的根據(jù)預(yù)定義事件名,查找與其有關(guān)的命名實(shí)體的步驟包括:
[0030] 在所采集的各文本文件中,確定預(yù)定義事件名在文本文件中的位置;
[0031] 利用所述預(yù)定義事件名在文本文件中的位置,從已抽取的命名實(shí)體中查找與所述 預(yù)定義事件名有關(guān)的命名實(shí)體。
[0032] 優(yōu)選地,所述的以預(yù)定義事件名為線索,根據(jù)所抽取的命名實(shí)體以及所述實(shí)體關(guān) 系,通過將分散在所述各個(gè)文本文件中相關(guān)信息建立映射,使其聚合在一起,形成實(shí)體信息 圖譜的步驟包括:
[0033] 根據(jù)抽取的命名實(shí)體、命名實(shí)體之間的實(shí)體關(guān)系、與命名實(shí)體綁定的預(yù)定義事件 名,將分散在同一文本文件中的相應(yīng)信息建立映射,形成同一文本文件的具有不同命名的 各個(gè)實(shí)體概覽;
[0034] 通過對(duì)各個(gè)文本文件的實(shí)體概覽進(jìn)行消歧處理,將各個(gè)文本文件中的具有相同命 名的實(shí)體概覽進(jìn)行合并,從而將分散在各個(gè)文本文件中的相關(guān)信息建立映射,形成跨文本 的各個(gè)全局實(shí)體概覽;
[0035] 利用所形成的跨文本的各個(gè)全局實(shí)體概覽,形成實(shí)體信息圖譜。
[0036] 優(yōu)選地,所述實(shí)體概覽包括事件類概覽和命名實(shí)體類概覽,在同一文本文件中,利 用預(yù)定義事件名與所找到的命名實(shí)體的綁定關(guān)系,形成事件類概覽,利用所述命名實(shí)體及 相應(yīng)的實(shí)體關(guān)系,形成命名實(shí)體類概覽。
[0037] 優(yōu)選地,通過確定具有相同命名的實(shí)體概覽的相似度,對(duì)各個(gè)文本文件的實(shí)體概 覽進(jìn)行消歧處理。
[0038] 優(yōu)選地,通過將各個(gè)全局實(shí)體概覽的命名實(shí)體作為節(jié)點(diǎn),將各個(gè)全局實(shí)體概覽的 實(shí)體關(guān)系作為邊,形成所述實(shí)體信息圖譜。
[0039] 根據(jù)本發(fā)明的另一方面,提供了一種實(shí)體信息圖譜生成裝置,包括:
[0040] 采集模塊,用于從本地和/或網(wǎng)絡(luò)中采集文本文件;
[0041] 抽取模塊,用于根據(jù)預(yù)先定義的類別名和關(guān)系字,從所采集的各文本文件中分別 抽取與各個(gè)類別名相關(guān)的命名實(shí)體,以及與各個(gè)關(guān)系字相關(guān)的命名實(shí)體的屬性;
[0042] 關(guān)聯(lián)模塊,用于根據(jù)命名實(shí)體的屬性,對(duì)所采集的各文本文件中的命名實(shí)體分別 進(jìn)行關(guān)聯(lián)性處理,得到各個(gè)命名實(shí)體之間的實(shí)體關(guān)系;
[0043] 綁定模塊,用于根據(jù)預(yù)定義事件名,查找與其有關(guān)的命名實(shí)體,并將預(yù)定義事件名 與查找到的命名實(shí)體進(jìn)行綁定;
[0044] 聚合模塊,用于以所述預(yù)定義事件名為線索,根據(jù)所抽取的命名實(shí)體以及所述實(shí) 體關(guān)系,通過將所分散在所述各個(gè)文本文件中相關(guān)信息建立映射,使其聚合在一起,形成實(shí) 體信息圖譜。
[0045] 與現(xiàn)有技術(shù)相比較,本發(fā)明的有益效果在于:
[0046] 本發(fā)明能夠?qū)⒎墙Y(jié)構(gòu)化文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),及時(shí)、大量、準(zhǔn)確的獲取用戶 需
當(dāng)前第1頁(yè)1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
香河县| 巴中市| 将乐县| 绩溪县| 沁水县| 上虞市| 凭祥市| 仙居县| 巴林左旗| 诸暨市| 明光市| 武义县| 兴山县| 巫山县| 楚雄市| 乌拉特前旗| 新宾| 水城县| 建瓯市| 宁强县| 鞍山市| 邻水| 顺平县| 淮北市| 温宿县| 永吉县| 鄂伦春自治旗| 荣昌县| 江北区| 饶河县| 抚顺市| 新巴尔虎左旗| 庆安县| 南华县| 彭泽县| 涿州市| 高青县| 依安县| 万源市| 吕梁市| 永年县|