一種基于形式語義推理和深度學(xué)習(xí)的自然語言知識(shí)挖掘方法與流程

文檔序號(hào)：12271409閱讀：586來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及知識(shí)挖掘領(lǐng)域，尤其涉及一種利用形式語義推理、深度學(xué)習(xí)技術(shù)對(duì)自然語言進(jìn)行知識(shí)挖掘方法。

背景技術(shù)：

隨著人工智能的發(fā)展，生活中越來越需要對(duì)自然語言進(jìn)行知識(shí)、語義的挖掘?，F(xiàn)有技術(shù)中對(duì)自然語言進(jìn)行挖掘時(shí)，通常采用詞語分解的方式，例如當(dāng)獲取到自然語言時(shí)，通過將語句劃分成多個(gè)詞語，以這些詞語作為關(guān)鍵詞，進(jìn)行知識(shí)構(gòu)建，從而獲取該自然語言的主要信息。

然而上述語言挖掘方法并不能很好地體現(xiàn)自然語言的特點(diǎn)和內(nèi)涵。人類語言具有多樣化表達(dá)方式和復(fù)雜的結(jié)構(gòu)特性，同樣的含義可以有很多種表達(dá)，同一種表達(dá)在不同語境下還可以有很多種含義，有時(shí)甚至在一種語言中穿插多種其他語言。因此，在對(duì)一段自然語言進(jìn)行挖掘時(shí)，由于整體文本的數(shù)據(jù)結(jié)構(gòu)性較差，數(shù)據(jù)多源異構(gòu)等問題，導(dǎo)致語言挖掘結(jié)果只能機(jī)械化地表達(dá)語義，而不能適應(yīng)真實(shí)語言環(huán)境下的自然語言的知識(shí)內(nèi)涵。

此外，現(xiàn)有技術(shù)在對(duì)非結(jié)構(gòu)化數(shù)據(jù)群進(jìn)行處理時(shí)，通常使用常見數(shù)據(jù)庫進(jìn)行搜索分析，不能快速地進(jìn)行精準(zhǔn)定位，其處理過程不夠高效，也無法實(shí)現(xiàn)智能化的知識(shí)挖掘。

技術(shù)實(shí)現(xiàn)要素：

為了克服現(xiàn)有技術(shù)中的上述缺陷，本發(fā)明提出了一種基于形式語義推理和深度學(xué)習(xí)的自然語言知識(shí)挖掘方法。本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的。該方法包括以下步驟：機(jī)器學(xué)習(xí)步驟，用于將形式語義推理和機(jī)器學(xué)習(xí)方法相結(jié)合，并進(jìn)行包含語義的機(jī)器學(xué)習(xí)；意圖學(xué)習(xí)步驟，用于學(xué)習(xí)待挖掘的自然語言的描述意圖；文本主題提取步驟，用于根據(jù)LDA模型分析文本主題內(nèi)容和段落內(nèi)容描述意圖；文檔結(jié)構(gòu)分類模型搭建步驟，用于根據(jù)深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練，在訓(xùn)練過程中自動(dòng)修飾完善該神經(jīng)網(wǎng)絡(luò)，并搭建自動(dòng)文檔結(jié)構(gòu)分類器。

本發(fā)明提出的所述基于形式語義推理與深度學(xué)習(xí)的自然語言知識(shí)挖掘方法中，所述意圖學(xué)習(xí)步驟還包括，結(jié)合形式語義推理，對(duì)待挖掘的數(shù)據(jù)進(jìn)行語法分析和語義推理，進(jìn)行意圖推理以了解文字描述的意圖。特別地，所述意圖包括定義、描述、否定。

本發(fā)明提出的所述基于形式語義推理與深度學(xué)習(xí)的自然語言知識(shí)挖掘方法中，所述意圖學(xué)習(xí)步驟還包括，使用機(jī)器學(xué)習(xí)技術(shù)，學(xué)習(xí)文本數(shù)據(jù)的意圖。通過引入機(jī)器學(xué)習(xí)技術(shù)，有助于對(duì)動(dòng)態(tài)化的數(shù)據(jù)群進(jìn)行及時(shí)更新，從而實(shí)現(xiàn)更好的知識(shí)挖掘效果。

本發(fā)明提出的所述基于形式語義推理與深度學(xué)習(xí)的自然語言知識(shí)挖掘方法中，所述文本主題提取步驟還包括,根據(jù)LDA主題模型自動(dòng)提取文本主題，根據(jù)該文本主題進(jìn)行文本分類、信息提取和自動(dòng)文稿撰寫。文本主題是對(duì)文本數(shù)據(jù)進(jìn)行處理和分析的基礎(chǔ)，通過該步驟，能夠有效提高文本數(shù)據(jù)處理能力，實(shí)現(xiàn)信息挖掘以及文稿的自動(dòng)撰寫和編輯。

本發(fā)明提出的所述基于形式語義推理與深度學(xué)習(xí)的自然語言知識(shí)挖掘方法中，所述文本主題提取步驟還包括，利用LDA模型設(shè)置特殊隱層變量及變量關(guān)系，對(duì)自動(dòng)學(xué)習(xí)模型進(jìn)行完善。所設(shè)定的特殊隱層變量及變量關(guān)系可以解決數(shù)據(jù)特征提取困難的問題，有效豐富了自動(dòng)學(xué)習(xí)模型。

本發(fā)明提出的所述基于形式語義推理與深度學(xué)習(xí)的自然語言知識(shí)挖掘方法中，所述文本主題提取步驟還包括，提取文本數(shù)據(jù)的屬性，根據(jù)該屬性選擇關(guān)系數(shù)據(jù)的先驗(yàn)分布信息。

本發(fā)明提出的所述基于形式語義推理與深度學(xué)習(xí)的自然語言知識(shí)挖掘方法中，所述文本主題提取步驟還包括，設(shè)計(jì)LDA模型的算法，采用分布式及塊分裂技術(shù)構(gòu)建模型。通過分布式數(shù)據(jù)處理，并且將文本數(shù)據(jù)進(jìn)行分塊，可以滿足大規(guī)模文本數(shù)據(jù)處理的要求。

本發(fā)明提出的所述基于形式語義推理與深度學(xué)習(xí)的自然語言知識(shí)挖掘方法中，所述文檔結(jié)構(gòu)分類模型搭建步驟還包括，利用文本處理的經(jīng)驗(yàn)信息，對(duì)文本進(jìn)行結(jié)構(gòu)特征提取。

本發(fā)明提出的所述基于形式語義推理與深度學(xué)習(xí)的自然語言知識(shí)挖掘方法中，所述文檔結(jié)構(gòu)分類模型搭建步驟還包括，將語言特征進(jìn)行分解并提取特征，當(dāng)特征規(guī)模較小時(shí)，使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)特征進(jìn)行擴(kuò)充，所述卷積神經(jīng)網(wǎng)絡(luò)包括多層隱含層，從而完善整體神經(jīng)網(wǎng)絡(luò)。

本發(fā)明的優(yōu)點(diǎn)在于：本發(fā)明構(gòu)造了一個(gè)可高速挖掘和檢索非結(jié)構(gòu)化數(shù)據(jù)中的知識(shí)信息的方法，依靠自動(dòng)化語義推理與深度學(xué)習(xí)兩方面的技術(shù)，并將兩方面技術(shù)與自然語言處理相結(jié)合，直接對(duì)以文獻(xiàn)、語音等為代表的非結(jié)構(gòu)化數(shù)據(jù)群進(jìn)行處理，同時(shí)進(jìn)行“意圖”性推理，以了解文字描述的真實(shí)意圖，并且將挖掘和檢索到的知識(shí)用于新知識(shí)結(jié)構(gòu)的分析和構(gòu)造，從而實(shí)現(xiàn)高效、智能與可學(xué)習(xí)和自演化地進(jìn)行知識(shí)挖掘與檢索。

本發(fā)明的基于形式語義推理與深度學(xué)習(xí)的自然語言知識(shí)挖掘方法，實(shí)現(xiàn)了將語義推理應(yīng)用于知識(shí)點(diǎn)的挖掘過程，可在數(shù)秒內(nèi)對(duì)常規(guī)篇幅的文章進(jìn)行結(jié)構(gòu)信息、主題信息、參數(shù)信息以及多種其它不同維度語義信息的知識(shí)點(diǎn)挖掘。同時(shí)，可以對(duì)千萬級(jí)的非結(jié)構(gòu)化數(shù)據(jù)文件進(jìn)行高速檢索。可在較短的時(shí)間對(duì)非結(jié)構(gòu)化數(shù)據(jù)中的知識(shí)信息進(jìn)行帶有多種約束的高性能檢索。與如百度、谷歌等在內(nèi)的搜索系統(tǒng)對(duì)比，本項(xiàng)目產(chǎn)品能適應(yīng)更多不同行業(yè)的特殊需求。

本發(fā)明的有益效果是，實(shí)現(xiàn)更加垂直的自然語言知識(shí)挖掘方法，可針對(duì)不同行業(yè)進(jìn)行知識(shí)點(diǎn)定制，省去用戶不需要的信息而更專注于用戶所需領(lǐng)域的知識(shí)。同時(shí)，知識(shí)呈現(xiàn)方式也更加貼合用戶的領(lǐng)域應(yīng)用場景。本發(fā)明的自然語言知識(shí)挖掘方法更加智能，通過不斷學(xué)習(xí)和自我完善神經(jīng)網(wǎng)絡(luò)，能更加深度了解非結(jié)構(gòu)化數(shù)據(jù)表達(dá)的意圖，知識(shí)點(diǎn)挖掘工作依照這些意圖進(jìn)行分類與索引，形成模型化的數(shù)據(jù)格式，同時(shí)，通過機(jī)器學(xué)習(xí)技術(shù)使系統(tǒng)自動(dòng)演化，結(jié)合云計(jì)算技術(shù)，能夠使得本方法具有自演化能力，實(shí)現(xiàn)更加靈活的自然語言知識(shí)挖掘，根據(jù)用戶的需求定制新的知識(shí)點(diǎn)與挖掘意圖，使系統(tǒng)更加方便地向其它領(lǐng)域遷移，滿足靈活多變的用戶需求。

附圖說明

通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述，各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的，而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中，用相同的參考符號(hào)表示相同的部件。在附圖中：

附圖1示出了根據(jù)本發(fā)明實(shí)施方式的基于形式語義推理與深度學(xué)習(xí)的自然語言知識(shí)挖掘方法的流程圖。

具體實(shí)施方式

下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施方式。雖然附圖中顯示了本公開的示例性實(shí)施方式，然而應(yīng)當(dāng)理解，可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施方式所限制。相反，提供這些實(shí)施方式是為了能夠更透徹地理解本公開，并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。

根據(jù)本發(fā)明的實(shí)施方式，提出一種可高速挖掘與檢索非結(jié)構(gòu)化數(shù)據(jù)中知識(shí)信息的方法，通過將挖掘和檢索到的知識(shí)用于新知識(shí)的分析與構(gòu)造過程,依靠自動(dòng)化語義推理與深度學(xué)習(xí)兩方面技術(shù)，并將兩方面技術(shù)與自然語言處理技術(shù)相結(jié)合，直接對(duì)以文獻(xiàn)、語音等為代表的非結(jié)構(gòu)化數(shù)據(jù)群進(jìn)行處理，同時(shí)進(jìn)行意圖性推理以了解文字描述的意圖，實(shí)現(xiàn)高效、智能與可學(xué)習(xí)和自演化地進(jìn)行知識(shí)挖掘與檢索。

參見圖1，本發(fā)明基于形式語義推理與深度學(xué)習(xí)的自然語言知識(shí)挖掘方法，包括以下步驟：機(jī)器學(xué)習(xí)步驟，用于將形式語義推理和機(jī)器學(xué)習(xí)方法相結(jié)合，并進(jìn)行包含語義的機(jī)器學(xué)習(xí)；意圖學(xué)習(xí)步驟，用于學(xué)習(xí)待挖掘的自然語言的描述意圖；文本主題提取步驟，用于根據(jù)LDA模型分析文本主題內(nèi)容和段落內(nèi)容描述意圖；文檔結(jié)構(gòu)分類模型搭建步驟，用于根據(jù)深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練，在訓(xùn)練過程中自動(dòng)修飾完善該神經(jīng)網(wǎng)絡(luò)，并搭建自動(dòng)文檔結(jié)構(gòu)分類器。

其中，所述機(jī)器學(xué)習(xí)步驟具有語義分析功能，可以對(duì)文獻(xiàn)進(jìn)行知識(shí)點(diǎn)和知識(shí)鏈的提取，并根據(jù)所提取的知識(shí)點(diǎn)、知識(shí)鏈進(jìn)行語義分析和推理，從而可以對(duì)海量的文獻(xiàn)和其它非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行知識(shí)挖掘。所述機(jī)器學(xué)習(xí)步驟還包括對(duì)知識(shí)點(diǎn)和知識(shí)鏈的再整理、再構(gòu)造，以實(shí)現(xiàn)智能化的學(xué)習(xí)過程，構(gòu)建更加完善的數(shù)據(jù)庫。

所述意圖學(xué)習(xí)步驟結(jié)合形式語義推理，對(duì)待挖掘的數(shù)據(jù)進(jìn)行語法分析和語義推理，使用機(jī)器學(xué)習(xí)技術(shù)，學(xué)習(xí)文本數(shù)據(jù)的意圖，并進(jìn)行意圖推理以了解文字描述的意圖。所學(xué)習(xí)的文本數(shù)據(jù)的意圖包括定義、描述、否定，并且不限于此。該意圖學(xué)習(xí)步驟用于輔助進(jìn)行更加精準(zhǔn)的知識(shí)挖掘。

所述文本主題提取步驟用于有效提高內(nèi)容的處理精度。通過分析主題內(nèi)容與段落內(nèi)容描述意圖，結(jié)合LDA(Latent Dirichlet Allocation)文檔主題生成模型，自動(dòng)提取文本主題，根據(jù)該文本主題進(jìn)行文本分類、信息提取和自動(dòng)文稿撰寫。文本主題是對(duì)文本數(shù)據(jù)進(jìn)行處理和分析的基礎(chǔ)，通過該步驟，能夠有效提高文本數(shù)據(jù)處理能力，實(shí)現(xiàn)信息挖掘以及文稿的自動(dòng)撰寫和編輯。

所述文本主題提取步驟還利用LDA模型設(shè)置特殊隱層變量及變量關(guān)系，對(duì)自動(dòng)學(xué)習(xí)模型進(jìn)行完善。所設(shè)定的特殊隱層變量及變量關(guān)系可以解決數(shù)據(jù)特征提取困難的問題，有效豐富了自動(dòng)學(xué)習(xí)模型。

所述文本主題提取步驟還用于提取文本數(shù)據(jù)的屬性，根據(jù)該屬性選擇關(guān)系數(shù)據(jù)的先驗(yàn)分布信息，以及設(shè)計(jì)LDA模型的算法，采用分布式及塊分裂技術(shù)構(gòu)建模型。通過分布式數(shù)據(jù)處理，并且將文本數(shù)據(jù)進(jìn)行分塊，可以滿足大規(guī)模文本數(shù)據(jù)處理的要求。

所述文檔結(jié)構(gòu)分類模型搭建步驟基于深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行模型搭建和完善，用于提高處理精度，有高度的平行度與可擴(kuò)展性，達(dá)到高效的基于機(jī)器學(xué)習(xí)與結(jié)合語義推理的知識(shí)挖掘的目的。所述文檔結(jié)構(gòu)分類模型搭建步驟利用文本處理的經(jīng)驗(yàn)信息，對(duì)文本進(jìn)行結(jié)構(gòu)特征提取，將語言特征進(jìn)行分解并提取特征，當(dāng)特征規(guī)模較小時(shí)，使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)特征進(jìn)行擴(kuò)充，所述卷積神經(jīng)網(wǎng)絡(luò)包括多層隱含層，從而完善整體神經(jīng)網(wǎng)絡(luò)。

本發(fā)明基于形式語義推理與深度學(xué)習(xí)的自然語言知識(shí)挖掘方法，實(shí)現(xiàn)將語義推理技術(shù)應(yīng)用于知識(shí)點(diǎn)的挖掘過程中，可在數(shù)秒內(nèi)對(duì)常規(guī)篇幅的文章進(jìn)行結(jié)構(gòu)信息、主題信息、參數(shù)信息以及多種其它不同維度語義信息的知識(shí)點(diǎn)挖掘。同時(shí)，可以對(duì)千萬級(jí)的非結(jié)構(gòu)化數(shù)據(jù)文件進(jìn)行高速檢索?？稍谳^短的時(shí)間對(duì)非結(jié)構(gòu)化數(shù)據(jù)中的知識(shí)信息進(jìn)行帶有多種約束的高性能檢索。與如百度、谷歌等在內(nèi)的搜索系統(tǒng)對(duì)比，本發(fā)明更加能適應(yīng)不同行業(yè)的特殊需求。

以上所述，僅為本發(fā)明較佳的具體實(shí)施方式，但本發(fā)明的保護(hù)范圍并不局限于此，任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi)，可輕易想到的變化或替換，都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此，本發(fā)明的保護(hù)范圍應(yīng)所述以權(quán)利要求的保護(hù)范圍為準(zhǔn)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：史建琦;吳雙;黃滟鴻;王祥豐;吳苑斌;
技術(shù)所有人：華東師范大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于形式語義推理和深度學(xué)習(xí)的自然語言知識(shí)挖掘方法與流程