一種實(shí)體信息圖譜生成方法及裝置的制造方法

文檔序號(hào)：9708305閱讀：224來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種實(shí)體信息圖譜生成方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語(yǔ)言處理技術(shù)，特別涉及一種實(shí)體信息圖譜生成方法及相關(guān)的裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的快速發(fā)展，人們面臨著信息爆炸，海量信息分散在互聯(lián)網(wǎng)上，具有碎片化，多語(yǔ)言和國(guó)際化的性質(zhì)?；ヂ?lián)網(wǎng)實(shí)際上就像是一個(gè)巨大的圖書館，每臺(tái)連接在網(wǎng)絡(luò)上的機(jī)算機(jī)就像一個(gè)個(gè)書柜，這個(gè)圖書館是沒有目錄，是動(dòng)態(tài)的，飛速增加的。目前搜索引擎所作的工作僅僅是按照用戶的關(guān)鍵詞給出包含用戶所查詢的關(guān)鍵詞相關(guān)書本的位置，找出圖書館中書本的位置，人們往往被淹沒在信息的海洋之中。
[0003] 由于網(wǎng)絡(luò)的飛速發(fā)展使得互聯(lián)網(wǎng)信息的傳播速度呈現(xiàn)幾何增長(zhǎng)，現(xiàn)有的信息搜集手段不能滿足對(duì)于信息的需要。傳統(tǒng)的搜索引擎大致可以分為兩大類：全文搜索引擎和分類目錄。全文搜索引擎通過Spider/crawlers的軟件，自動(dòng)分析網(wǎng)絡(luò)上的各種鏈接并獲取網(wǎng)頁(yè)信息內(nèi)容，按規(guī)則加以分析整理，記入數(shù)據(jù)庫(kù)。谷歌、百度就是比較典型的全文搜索引擎系統(tǒng)。分類目錄則是通過人工的方式收集整理網(wǎng)站資料形成數(shù)據(jù)庫(kù)的，比如雅虎中國(guó)以及國(guó)內(nèi)的搜狐、新浪、網(wǎng)易分類目錄。
[0004] 全文搜索引擎的使用以關(guān)鍵詞和一定的語(yǔ)法為特點(diǎn)，而分類目錄則通過建立多級(jí) 目錄對(duì)網(wǎng)站進(jìn)行分類。全文搜索引擎因?yàn)橐揽烤W(wǎng)絡(luò)機(jī)器人搜集數(shù)據(jù)，所以數(shù)據(jù)庫(kù)的容量非常龐大，但是，它的查詢結(jié)果往往不夠準(zhǔn)確；分類目錄依靠人工收集和整理網(wǎng)站，能夠提供更為準(zhǔn)確的查詢結(jié)果，但收集的內(nèi)容卻非常有限，更新慢。
[0005] 具體地，現(xiàn)有的互聯(lián)網(wǎng)信息搜索技術(shù)（例如百度和谷歌）存在著以下不足：
[0006] 1.搜索引擎召回的相關(guān)信息太多，用戶很難定位到所需要的信息；
[0007] 2.以關(guān)鍵詞為基礎(chǔ)的搜索，匹配算法盡管簡(jiǎn)單易行，但停留在語(yǔ)言的表層，沒有觸及語(yǔ)義，很難以幾個(gè)關(guān)鍵詞的邏輯組合來表達(dá)清楚用戶的檢索意圖；
[0008] 3.既使得到了正確的結(jié)果，也僅僅是各個(gè)獨(dú)立的文章鏈接，需要用戶一一瀏覽；
[0009] 4.不能提供文章之間的實(shí)體事物關(guān)聯(lián)以及時(shí)間關(guān)聯(lián)性，揭示事物內(nèi)部聯(lián)系和關(guān) 系。
[0010] 互聯(lián)網(wǎng)的發(fā)展已經(jīng)成為一個(gè)巨大的知識(shí)庫(kù)，可是由于多數(shù)信息都是以非結(jié)構(gòu)化數(shù) 據(jù)存在，人們無(wú)法組織利用這一知識(shí)成果，所以空擁有信息，沒有知識(shí)。
[0011] 隨著信息化的飛速發(fā)展和互聯(lián)網(wǎng)接入終端的大規(guī)模普及，大量非結(jié)構(gòu)化的文本數(shù) 據(jù)充斥著互聯(lián)網(wǎng)，如何從海量信息源中挖掘出有價(jià)值的信息是一個(gè)巨大的挑戰(zhàn)。

【發(fā)明內(nèi)容】

[0012] 本發(fā)明的目的在于提供一種實(shí)體信息圖譜生成方法及裝置，能更好地通過挖掘有用信息從而形成實(shí)體信息圖譜。
[0013] 根據(jù)本發(fā)明的一個(gè)方面，提供了一種實(shí)體信息圖譜生成方法，包括：
[0014] 從本地和/或網(wǎng)絡(luò)中采集文本文件；
[0015] 根據(jù)預(yù)先定義的類別名和關(guān)系字，從所采集的各文本文件中分別抽取與各個(gè)類別名相關(guān)的命名實(shí)體，以及與各個(gè)關(guān)系字相關(guān)的命名實(shí)體的屬性；
[0016] 根據(jù)命名實(shí)體的屬性，對(duì)所采集的各文本文件中的命名實(shí)體分別進(jìn)行關(guān)聯(lián)性處理，得到各個(gè)命名實(shí)體之間的實(shí)體關(guān)系；
[0017] 根據(jù)預(yù)定義事件名，查找與其有關(guān)的命名實(shí)體，并將預(yù)定義事件名與查找到的命名實(shí)體進(jìn)行綁定；
[0018] 以所述預(yù)定義事件名為線索，根據(jù)所抽取的命名實(shí)體以及所述實(shí)體關(guān)系，通過將分散在所述各個(gè)文本文件中相關(guān)信息建立映射，使其聚合在一起，形成實(shí)體信息圖譜。
[0019] 優(yōu)選地，所述的根據(jù)預(yù)先定義的類別名和關(guān)系字，從所采集的各文本文件中分別抽取與各個(gè)類別名相關(guān)的命名實(shí)體，以及與各個(gè)關(guān)系字相關(guān)的命名實(shí)體的屬性的步驟包括：
[0020] 通過對(duì)從本地和/或網(wǎng)絡(luò)中采集的文本文件進(jìn)行分解，得到文本文件的分詞及其詞性；
[0021] 根據(jù)所得到的分詞及其詞性，從所得到的分詞中確定與預(yù)先定義的各個(gè)類別名相關(guān)的命名實(shí)體，并確定與預(yù)先定義的各個(gè)關(guān)系字相關(guān)的所述命名實(shí)體的關(guān)系屬性；
[0022] 提取所確定的命名實(shí)體，以及命名實(shí)體的關(guān)系屬性。
[0023] 優(yōu)選地，在所述的根據(jù)預(yù)先定義的類別名和關(guān)系字，從所采集的各文本文件中分別抽取與各個(gè)類別名相關(guān)的命名實(shí)體，以及與各個(gè)關(guān)系字相關(guān)的命名實(shí)體的屬性的步驟之后，還包括：
[0024] 將各文本文件中分別抽取的與時(shí)間相關(guān)的命名實(shí)體進(jìn)行歸一化處理，得到時(shí)間歸一化的命名實(shí)體；
[0025] 將各文本文件中分別抽取的與地點(diǎn)相關(guān)的命名實(shí)體進(jìn)行歸一化處理，得到地點(diǎn)歸一化的命名實(shí)體。
[0026] 優(yōu)選地，所述的根據(jù)命名實(shí)體的屬性，對(duì)所采集的各文本文件中的命名實(shí)體分別進(jìn)行關(guān)聯(lián)性處理，得到各個(gè)命名實(shí)體之間的實(shí)體關(guān)系的步驟包括：
[0027] 在所采集的各文本文件中，確定命名實(shí)體及其關(guān)系屬性在文本文件中的位置；
[0028] 利用所確定的命名實(shí)體及其關(guān)系屬性在文本文件中的位置，將鄰近的命名實(shí)體進(jìn) 行關(guān)聯(lián)，從而得到相關(guān)聯(lián)的命名實(shí)體之間的實(shí)體關(guān)系。
[0029] 優(yōu)選地，所述的根據(jù)預(yù)定義事件名，查找與其有關(guān)的命名實(shí)體的步驟包括：
[0030] 在所采集的各文本文件中，確定預(yù)定義事件名在文本文件中的位置；
[0031] 利用所述預(yù)定義事件名在文本文件中的位置，從已抽取的命名實(shí)體中查找與所述預(yù)定義事件名有關(guān)的命名實(shí)體。
[0032] 優(yōu)選地，所述的以預(yù)定義事件名為線索，根據(jù)所抽取的命名實(shí)體以及所述實(shí)體關(guān) 系，通過將分散在所述各個(gè)文本文件中相關(guān)信息建立映射，使其聚合在一起，形成實(shí)體信息圖譜的步驟包括：
[0033] 根據(jù)抽取的命名實(shí)體、命名實(shí)體之間的實(shí)體關(guān)系、與命名實(shí)體綁定的預(yù)定義事件名，將分散在同一文本文件中的相應(yīng)信息建立映射，形成同一文本文件的具有不同命名的各個(gè)實(shí)體概覽；
[0034] 通過對(duì)各個(gè)文本文件的實(shí)體概覽進(jìn)行消歧處理，將各個(gè)文本文件中的具有相同命名的實(shí)體概覽進(jìn)行合并，從而將分散在各個(gè)文本文件中的相關(guān)信息建立映射，形成跨文本的各個(gè)全局實(shí)體概覽；
[0035] 利用所形成的跨文本的各個(gè)全局實(shí)體概覽，形成實(shí)體信息圖譜。
[0036] 優(yōu)選地，所述實(shí)體概覽包括事件類概覽和命名實(shí)體類概覽，在同一文本文件中，利用預(yù)定義事件名與所找到的命名實(shí)體的綁定關(guān)系，形成事件類概覽，利用所述命名實(shí)體及相應(yīng)的實(shí)體關(guān)系，形成命名實(shí)體類概覽。
[0037] 優(yōu)選地，通過確定具有相同命名的實(shí)體概覽的相似度，對(duì)各個(gè)文本文件的實(shí)體概覽進(jìn)行消歧處理。
[0038] 優(yōu)選地，通過將各個(gè)全局實(shí)體概覽的命名實(shí)體作為節(jié)點(diǎn)，將各個(gè)全局實(shí)體概覽的實(shí)體關(guān)系作為邊，形成所述實(shí)體信息圖譜。
[0039] 根據(jù)本發(fā)明的另一方面，提供了一種實(shí)體信息圖譜生成裝置，包括：
[0040] 采集模塊，用于從本地和/或網(wǎng)絡(luò)中采集文本文件；
[0041] 抽取模塊，用于根據(jù)預(yù)先定義的類別名和關(guān)系字，從所采集的各文本文件中分別抽取與各個(gè)類別名相關(guān)的命名實(shí)體，以及與各個(gè)關(guān)系字相關(guān)的命名實(shí)體的屬性；
[0042] 關(guān)聯(lián)模塊，用于根據(jù)命名實(shí)體的屬性，對(duì)所采集的各文本文件中的命名實(shí)體分別進(jìn)行關(guān)聯(lián)性處理，得到各個(gè)命名實(shí)體之間的實(shí)體關(guān)系；
[0043] 綁定模塊，用于根據(jù)預(yù)定義事件名，查找與其有關(guān)的命名實(shí)體，并將預(yù)定義事件名與查找到的命名實(shí)體進(jìn)行綁定；
[0044] 聚合模塊，用于以所述預(yù)定義事件名為線索，根據(jù)所抽取的命名實(shí)體以及所述實(shí) 體關(guān)系，通過將所分散在所述各個(gè)文本文件中相關(guān)信息建立映射，使其聚合在一起，形成實(shí) 體信息圖譜。
[0045] 與現(xiàn)有技術(shù)相比較，本發(fā)明的有益效果在于：
[0046] 本發(fā)明能夠?qū)⒎墙Y(jié)構(gòu)化文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)，及時(shí)、大量、準(zhǔn)確的獲取用戶需

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3 4 5

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李曉戈;李宗海;高劍凌;
技術(shù)所有人：濟(jì)南中林信息科技有限公司;
我是此專利的發(fā)明人

上一篇：網(wǎng)頁(yè)保存的方法及裝置的制造方法
上一篇：一種終端智能調(diào)節(jié)按鍵的方法及裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

知識(shí)圖譜實(shí)體消歧相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種實(shí)體信息圖譜生成方法及裝置的制造方法