文本段落識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備、可讀存儲(chǔ)介質(zhì)和程序產(chǎn)品與流程

文檔序號(hào)：40648861發(fā)布日期：2025-01-10 18:55閱讀：6來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

文本段落識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備、可讀存儲(chǔ)介質(zhì)和程序產(chǎn)品與流程

本技術(shù)涉及大數(shù)據(jù)，特別是涉及一種文本段落識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備、可讀存儲(chǔ)介質(zhì)和程序產(chǎn)品。

背景技術(shù)：

1、隨著大數(shù)據(jù)技術(shù)的迅猛發(fā)展，各行各業(yè)出現(xiàn)了大量的文本信息。在處理大量文本信息時(shí)，通常需要對(duì)這些文本信息進(jìn)行段落識(shí)別，然后再進(jìn)行分類處理。段落識(shí)別是指識(shí)別出文本信息中的各個(gè)段落的過(guò)程。

2、傳統(tǒng)的段落識(shí)別通常采用段落標(biāo)注的方式實(shí)現(xiàn)，即預(yù)先會(huì)在文本中添加段落標(biāo)注，以此來(lái)區(qū)分各個(gè)文本段落。然而，段落標(biāo)注存在標(biāo)注形式不統(tǒng)一的問(wèn)題，且段落標(biāo)注普遍是由人工進(jìn)行的，容易出現(xiàn)錯(cuò)標(biāo)注、漏標(biāo)注的情況，這些現(xiàn)象均會(huì)導(dǎo)致目前文本段落識(shí)別的準(zhǔn)確性不高。

技術(shù)實(shí)現(xiàn)思路

1、基于此，有必要針對(duì)上述技術(shù)問(wèn)題，提供一種能夠提高文本段落識(shí)別準(zhǔn)確性的文本段落識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)程序產(chǎn)品。

2、第一方面，本技術(shù)提供了一種文本段落識(shí)別方法，包括：響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令，獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息；通過(guò)語(yǔ)義分析模型，對(duì)第一文本信息和第二文本信息之間進(jìn)行語(yǔ)義關(guān)聯(lián)分析，得到第一文本信息和第二文本信息之間的語(yǔ)義關(guān)聯(lián)性；語(yǔ)義分析模型是預(yù)先基于長(zhǎng)短期記憶網(wǎng)絡(luò)訓(xùn)練得到的模型；通過(guò)詞組分析模型，對(duì)第一文本信息和第二文本信息之間進(jìn)行詞組關(guān)聯(lián)分析，得到第一文本信息和第二文本信息之間的詞組關(guān)聯(lián)分析結(jié)果；詞組分析模型是預(yù)先基于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的模型；在語(yǔ)義關(guān)聯(lián)性達(dá)到關(guān)聯(lián)性閾值、以及詞組關(guān)聯(lián)分析結(jié)果表示第一文本信息包含第二文本信息的關(guān)鍵詞組的情況下，將目標(biāo)文本行與上一文本行歸為同一段落。

3、在其中一個(gè)實(shí)施例中，通過(guò)語(yǔ)義分析模型，對(duì)第一文本信息和第二文本信息之間進(jìn)行語(yǔ)義關(guān)聯(lián)分析，得到第一文本信息和第二文本信息之間的語(yǔ)義關(guān)聯(lián)性，包括：通過(guò)語(yǔ)義分析模型，分別對(duì)第一文本信息和第二文本信息進(jìn)行語(yǔ)義特征提取，得到第一文本信息的第一語(yǔ)義特征、以及第二文本信息的第二語(yǔ)義特征；對(duì)第一語(yǔ)義特征和第二語(yǔ)義特征進(jìn)行相似度分析，得到第一語(yǔ)義特征和第二語(yǔ)義特征之間的特征相似度；基于特征相似度，確定第一文本信息和第二文本信息之間的語(yǔ)義關(guān)聯(lián)性。

4、在其中一個(gè)實(shí)施例中，方法還包括：獲取包含多個(gè)段落標(biāo)識(shí)的初始樣本文本，對(duì)初始樣本文本，進(jìn)行段落標(biāo)識(shí)剔除，得到第一樣本文本；對(duì)初始樣本文本，進(jìn)行段落標(biāo)識(shí)替換，得到第二樣本文本；對(duì)初始樣本文本，進(jìn)行段落順序調(diào)整，得到第三樣本文本；將第一樣本文本、第二樣本文本和第三樣本文本共同作為訓(xùn)練樣本，基于訓(xùn)練樣本，對(duì)預(yù)訓(xùn)練語(yǔ)義分析模型進(jìn)行模型訓(xùn)練，直至預(yù)訓(xùn)練語(yǔ)義分析模型的訓(xùn)練次數(shù)達(dá)到次數(shù)閾值，得到語(yǔ)義分析模型；基于訓(xùn)練樣本，對(duì)預(yù)訓(xùn)練詞組分析模型進(jìn)行模型訓(xùn)練，直至預(yù)訓(xùn)練詞組分析模型的訓(xùn)練次數(shù)達(dá)到次數(shù)閾值，得到詞組分析模型。

5、在其中一個(gè)實(shí)施例中，響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令，獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息，包括：響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令，對(duì)目標(biāo)文本進(jìn)行安全性檢測(cè)，得到目標(biāo)文本的安全性檢測(cè)結(jié)果；在安全性檢測(cè)結(jié)果表示目標(biāo)文本屬于安全文本的情況下，獲取目標(biāo)文本的文本內(nèi)容；對(duì)文本內(nèi)容進(jìn)行完整性檢測(cè)，得到文本內(nèi)容的完整性檢測(cè)結(jié)果；在完整性檢測(cè)結(jié)果表示文本內(nèi)容完整的情況下，獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息。

6、在其中一個(gè)實(shí)施例中，方法還包括：分別對(duì)第一文本信息和第二文本信息進(jìn)行分詞處理，得到第一文本信息的各第一文本分詞、以及第二文本信息的各第二文本分詞；分別對(duì)各第一文本分詞和各第二文本分詞進(jìn)行詞嵌入，得到每一第一文本分詞的第一詞向量、以及每一第二文本分詞的第二詞向量；第一詞向量和第二詞向量均作為語(yǔ)義分析模型和詞組分析模型的輸入。

7、在其中一個(gè)實(shí)施例中，第一文本信息的關(guān)鍵詞組的獲取過(guò)程包括：分別對(duì)各第一文本分詞進(jìn)行詞頻統(tǒng)計(jì)，得到每一第一文本分詞各自的出現(xiàn)頻率；在各第一文本分詞中，篩選出出現(xiàn)頻率超過(guò)頻率閾值的目標(biāo)文本分詞；將目標(biāo)文本分詞和第一文本信息中指定文本位置處的文本詞組共同作為關(guān)鍵詞組。

8、第二方面，本技術(shù)還提供了一種文本段落識(shí)別裝置，包括：文本信息獲取模塊，用于響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令，獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息；語(yǔ)義分析模塊，用于通過(guò)語(yǔ)義分析模型，對(duì)第一文本信息和第二文本信息之間進(jìn)行語(yǔ)義關(guān)聯(lián)分析，得到第一文本信息和第二文本信息之間的語(yǔ)義關(guān)聯(lián)性；語(yǔ)義分析模型是預(yù)先基于長(zhǎng)短期記憶網(wǎng)絡(luò)訓(xùn)練得到的模型；詞組分析模塊，用于通過(guò)詞組分析模型，對(duì)第一文本信息和第二文本信息之間進(jìn)行詞組關(guān)聯(lián)分析，得到第一文本信息和第二文本信息之間的詞組關(guān)聯(lián)分析結(jié)果；詞組分析模型是預(yù)先基于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的模型；段落識(shí)別模塊，用于在語(yǔ)義關(guān)聯(lián)性達(dá)到關(guān)聯(lián)性閾值、以及詞組關(guān)聯(lián)分析結(jié)果表示第一文本信息包含第二文本信息的關(guān)鍵詞組的情況下，將目標(biāo)文本行與上一文本行歸為同一段落。

9、在其中一個(gè)實(shí)施例中，語(yǔ)義分析模塊還用于：通過(guò)語(yǔ)義分析模型，分別對(duì)第一文本信息和第二文本信息進(jìn)行語(yǔ)義特征提取，得到第一文本信息的第一語(yǔ)義特征、以及第二文本信息的第二語(yǔ)義特征；對(duì)第一語(yǔ)義特征和第二語(yǔ)義特征進(jìn)行相似度分析，得到第一語(yǔ)義特征和第二語(yǔ)義特征之間的特征相似度；基于特征相似度，確定第一文本信息和第二文本信息之間的語(yǔ)義關(guān)聯(lián)性。

10、在其中一個(gè)實(shí)施例中，裝置還用于：獲取包含多個(gè)段落標(biāo)識(shí)的初始樣本文本，對(duì)初始樣本文本，進(jìn)行段落標(biāo)識(shí)剔除，得到第一樣本文本；對(duì)初始樣本文本，進(jìn)行段落標(biāo)識(shí)替換，得到第二樣本文本；對(duì)初始樣本文本，進(jìn)行段落順序調(diào)整，得到第三樣本文本；將第一樣本文本、第二樣本文本和第三樣本文本共同作為訓(xùn)練樣本，基于訓(xùn)練樣本，對(duì)預(yù)訓(xùn)練語(yǔ)義分析模型進(jìn)行模型訓(xùn)練，直至預(yù)訓(xùn)練語(yǔ)義分析模型的訓(xùn)練次數(shù)達(dá)到次數(shù)閾值，得到語(yǔ)義分析模型；基于訓(xùn)練樣本，對(duì)預(yù)訓(xùn)練詞組分析模型進(jìn)行模型訓(xùn)練，直至預(yù)訓(xùn)練詞組分析模型的訓(xùn)練次數(shù)達(dá)到次數(shù)閾值，得到詞組分析模型。

11、在其中一個(gè)實(shí)施例中，文本信息獲取模塊還用于：響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令，對(duì)目標(biāo)文本進(jìn)行安全性檢測(cè)，得到目標(biāo)文本的安全性檢測(cè)結(jié)果；在安全性檢測(cè)結(jié)果表示目標(biāo)文本屬于安全文本的情況下，獲取目標(biāo)文本的文本內(nèi)容；對(duì)文本內(nèi)容進(jìn)行完整性檢測(cè)，得到文本內(nèi)容的完整性檢測(cè)結(jié)果；在完整性檢測(cè)結(jié)果表示文本內(nèi)容完整的情況下，獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息。

12、在其中一個(gè)實(shí)施例中，裝置還用于：分別對(duì)第一文本信息和第二文本信息進(jìn)行分詞處理，得到第一文本信息的各第一文本分詞、以及第二文本信息的各第二文本分詞；分別對(duì)各第一文本分詞和各第二文本分詞進(jìn)行詞嵌入，得到每一第一文本分詞的第一詞向量、以及每一第二文本分詞的第二詞向量；第一詞向量和第二詞向量均作為語(yǔ)義分析模型和詞組分析模型的輸入。

13、在其中一個(gè)實(shí)施例中，裝置還用于：分別對(duì)各第一文本分詞進(jìn)行詞頻統(tǒng)計(jì)，得到每一第一文本分詞各自的出現(xiàn)頻率；在各第一文本分詞中，篩選出出現(xiàn)頻率超過(guò)頻率閾值的目標(biāo)文本分詞；將目標(biāo)文本分詞和第一文本信息中指定文本位置處的文本詞組共同作為關(guān)鍵詞組。

14、第三方面，本技術(shù)還提供了一種計(jì)算機(jī)設(shè)備，包括存儲(chǔ)器和處理器，存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序，處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)以下步驟：響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令，獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息；通過(guò)語(yǔ)義分析模型，對(duì)第一文本信息和第二文本信息之間進(jìn)行語(yǔ)義關(guān)聯(lián)分析，得到第一文本信息和第二文本信息之間的語(yǔ)義關(guān)聯(lián)性；語(yǔ)義分析模型是預(yù)先基于長(zhǎng)短期記憶網(wǎng)絡(luò)訓(xùn)練得到的模型；通過(guò)詞組分析模型，對(duì)第一文本信息和第二文本信息之間進(jìn)行詞組關(guān)聯(lián)分析，得到第一文本信息和第二文本信息之間的詞組關(guān)聯(lián)分析結(jié)果；詞組分析模型是預(yù)先基于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的模型；在語(yǔ)義關(guān)聯(lián)性達(dá)到關(guān)聯(lián)性閾值、以及詞組關(guān)聯(lián)分析結(jié)果表示第一文本信息包含第二文本信息的關(guān)鍵詞組的情況下，將目標(biāo)文本行與上一文本行歸為同一段落。

15、第四方面，本技術(shù)還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)以下步驟：響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令，獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息；通過(guò)語(yǔ)義分析模型，對(duì)第一文本信息和第二文本信息之間進(jìn)行語(yǔ)義關(guān)聯(lián)分析，得到第一文本信息和第二文本信息之間的語(yǔ)義關(guān)聯(lián)性；語(yǔ)義分析模型是預(yù)先基于長(zhǎng)短期記憶網(wǎng)絡(luò)訓(xùn)練得到的模型；通過(guò)詞組分析模型，對(duì)第一文本信息和第二文本信息之間進(jìn)行詞組關(guān)聯(lián)分析，得到第一文本信息和第二文本信息之間的詞組關(guān)聯(lián)分析結(jié)果；詞組分析模型是預(yù)先基于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的模型；在語(yǔ)義關(guān)聯(lián)性達(dá)到關(guān)聯(lián)性閾值、以及詞組關(guān)聯(lián)分析結(jié)果表示第一文本信息包含第二文本信息的關(guān)鍵詞組的情況下，將目標(biāo)文本行與上一文本行歸為同一段落。

16、第五方面，本技術(shù)還提供了一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)以下步驟：響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令，獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息；通過(guò)語(yǔ)義分析模型，對(duì)第一文本信息和第二文本信息之間進(jìn)行語(yǔ)義關(guān)聯(lián)分析，得到第一文本信息和第二文本信息之間的語(yǔ)義關(guān)聯(lián)性；語(yǔ)義分析模型是預(yù)先基于長(zhǎng)短期記憶網(wǎng)絡(luò)訓(xùn)練得到的模型；通過(guò)詞組分析模型，對(duì)第一文本信息和第二文本信息之間進(jìn)行詞組關(guān)聯(lián)分析，得到第一文本信息和第二文本信息之間的詞組關(guān)聯(lián)分析結(jié)果；詞組分析模型是預(yù)先基于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的模型；在語(yǔ)義關(guān)聯(lián)性達(dá)到關(guān)聯(lián)性閾值、以及詞組關(guān)聯(lián)分析結(jié)果表示第一文本信息包含第二文本信息的關(guān)鍵詞組的情況下，將目標(biāo)文本行與上一文本行歸為同一段落。

17、上述文本段落識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)程序產(chǎn)品，響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令，首先獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息。并通過(guò)語(yǔ)義分析模型，對(duì)第一文本信息和第二文本信息之間進(jìn)行語(yǔ)義關(guān)聯(lián)分析，從而得到第一文本信息和第二文本信息之間的語(yǔ)義關(guān)聯(lián)性。以及通過(guò)詞組分析模型，對(duì)第一文本信息和第二文本信息之間進(jìn)行詞組關(guān)聯(lián)分析，得到第一文本信息和第二文本信息之間的詞組關(guān)聯(lián)分析結(jié)果。在語(yǔ)義關(guān)聯(lián)性達(dá)到關(guān)聯(lián)性閾值、以及詞組關(guān)聯(lián)分析結(jié)果表示第一文本信息包含第二文本信息的關(guān)鍵詞組的情況下，認(rèn)為目標(biāo)文本行與上一文本行屬于同一段落。因此，本技術(shù)從語(yǔ)義層面和詞組層面，分析相鄰文本行之間的關(guān)聯(lián)性，以此來(lái)判斷兩個(gè)文本行是否屬于同一段落，提高了文本段落識(shí)別的準(zhǔn)確性。另外，本技術(shù)中的語(yǔ)義分析模型是預(yù)先基于長(zhǎng)短期記憶網(wǎng)絡(luò)訓(xùn)練得到的模型，能夠捕捉到文本信息中的長(zhǎng)期依賴關(guān)系，提高了文本語(yǔ)義關(guān)聯(lián)分析的準(zhǔn)確性。而詞組分析模型是預(yù)先基于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的模型，卷積神經(jīng)網(wǎng)絡(luò)通過(guò)卷積層可以捕捉文本信息中的局部特征，這種局部感知能力使得卷積神經(jīng)網(wǎng)絡(luò)能夠高效地處理文本數(shù)據(jù)，尤其是在檢測(cè)當(dāng)前文本行是否包含上一文本行的關(guān)鍵詞組時(shí)，能夠準(zhǔn)確高效地識(shí)別出詞組的存在。所以，本技術(shù)能夠克服目前文本段落識(shí)別的準(zhǔn)確性不高的技術(shù)缺陷，有效提高文本段落識(shí)別的準(zhǔn)確性。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：卜麗
技術(shù)所有人：中國(guó)建設(shè)銀行股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文本段落識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備、可讀存儲(chǔ)介質(zhì)和程序產(chǎn)品與流程

文本段落識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備、可讀存儲(chǔ)介質(zhì)和程序產(chǎn)品與流程