本技術(shù)涉及大數(shù)據(jù),特別是涉及一種文本段落識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備、可讀存儲(chǔ)介質(zhì)和程序產(chǎn)品。
背景技術(shù):
1、隨著大數(shù)據(jù)技術(shù)的迅猛發(fā)展,各行各業(yè)出現(xiàn)了大量的文本信息。在處理大量文本信息時(shí),通常需要對(duì)這些文本信息進(jìn)行段落識(shí)別,然后再進(jìn)行分類處理。段落識(shí)別是指識(shí)別出文本信息中的各個(gè)段落的過(guò)程。
2、傳統(tǒng)的段落識(shí)別通常采用段落標(biāo)注的方式實(shí)現(xiàn),即預(yù)先會(huì)在文本中添加段落標(biāo)注,以此來(lái)區(qū)分各個(gè)文本段落。然而,段落標(biāo)注存在標(biāo)注形式不統(tǒng)一的問(wèn)題,且段落標(biāo)注普遍是由人工進(jìn)行的,容易出現(xiàn)錯(cuò)標(biāo)注、漏標(biāo)注的情況,這些現(xiàn)象均會(huì)導(dǎo)致目前文本段落識(shí)別的準(zhǔn)確性不高。
技術(shù)實(shí)現(xiàn)思路
1、基于此,有必要針對(duì)上述技術(shù)問(wèn)題,提供一種能夠提高文本段落識(shí)別準(zhǔn)確性的文本段落識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)程序產(chǎn)品。
2、第一方面,本技術(shù)提供了一種文本段落識(shí)別方法,包括:響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令,獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息;通過(guò)語(yǔ)義分析模型,對(duì)第一文本信息和第二文本信息之間進(jìn)行語(yǔ)義關(guān)聯(lián)分析,得到第一文本信息和第二文本信息之間的語(yǔ)義關(guān)聯(lián)性;語(yǔ)義分析模型是預(yù)先基于長(zhǎng)短期記憶網(wǎng)絡(luò)訓(xùn)練得到的模型;通過(guò)詞組分析模型,對(duì)第一文本信息和第二文本信息之間進(jìn)行詞組關(guān)聯(lián)分析,得到第一文本信息和第二文本信息之間的詞組關(guān)聯(lián)分析結(jié)果;詞組分析模型是預(yù)先基于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的模型;在語(yǔ)義關(guān)聯(lián)性達(dá)到關(guān)聯(lián)性閾值、以及詞組關(guān)聯(lián)分析結(jié)果表示第一文本信息包含第二文本信息的關(guān)鍵詞組的情況下,將目標(biāo)文本行與上一文本行歸為同一段落。
3、在其中一個(gè)實(shí)施例中,通過(guò)語(yǔ)義分析模型,對(duì)第一文本信息和第二文本信息之間進(jìn)行語(yǔ)義關(guān)聯(lián)分析,得到第一文本信息和第二文本信息之間的語(yǔ)義關(guān)聯(lián)性,包括:通過(guò)語(yǔ)義分析模型,分別對(duì)第一文本信息和第二文本信息進(jìn)行語(yǔ)義特征提取,得到第一文本信息的第一語(yǔ)義特征、以及第二文本信息的第二語(yǔ)義特征;對(duì)第一語(yǔ)義特征和第二語(yǔ)義特征進(jìn)行相似度分析,得到第一語(yǔ)義特征和第二語(yǔ)義特征之間的特征相似度;基于特征相似度,確定第一文本信息和第二文本信息之間的語(yǔ)義關(guān)聯(lián)性。
4、在其中一個(gè)實(shí)施例中,方法還包括:獲取包含多個(gè)段落標(biāo)識(shí)的初始樣本文本,對(duì)初始樣本文本,進(jìn)行段落標(biāo)識(shí)剔除,得到第一樣本文本;對(duì)初始樣本文本,進(jìn)行段落標(biāo)識(shí)替換,得到第二樣本文本;對(duì)初始樣本文本,進(jìn)行段落順序調(diào)整,得到第三樣本文本;將第一樣本文本、第二樣本文本和第三樣本文本共同作為訓(xùn)練樣本,基于訓(xùn)練樣本,對(duì)預(yù)訓(xùn)練語(yǔ)義分析模型進(jìn)行模型訓(xùn)練,直至預(yù)訓(xùn)練語(yǔ)義分析模型的訓(xùn)練次數(shù)達(dá)到次數(shù)閾值,得到語(yǔ)義分析模型;基于訓(xùn)練樣本,對(duì)預(yù)訓(xùn)練詞組分析模型進(jìn)行模型訓(xùn)練,直至預(yù)訓(xùn)練詞組分析模型的訓(xùn)練次數(shù)達(dá)到次數(shù)閾值,得到詞組分析模型。
5、在其中一個(gè)實(shí)施例中,響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令,獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息,包括:響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令,對(duì)目標(biāo)文本進(jìn)行安全性檢測(cè),得到目標(biāo)文本的安全性檢測(cè)結(jié)果;在安全性檢測(cè)結(jié)果表示目標(biāo)文本屬于安全文本的情況下,獲取目標(biāo)文本的文本內(nèi)容;對(duì)文本內(nèi)容進(jìn)行完整性檢測(cè),得到文本內(nèi)容的完整性檢測(cè)結(jié)果;在完整性檢測(cè)結(jié)果表示文本內(nèi)容完整的情況下,獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息。
6、在其中一個(gè)實(shí)施例中,方法還包括:分別對(duì)第一文本信息和第二文本信息進(jìn)行分詞處理,得到第一文本信息的各第一文本分詞、以及第二文本信息的各第二文本分詞;分別對(duì)各第一文本分詞和各第二文本分詞進(jìn)行詞嵌入,得到每一第一文本分詞的第一詞向量、以及每一第二文本分詞的第二詞向量;第一詞向量和第二詞向量均作為語(yǔ)義分析模型和詞組分析模型的輸入。
7、在其中一個(gè)實(shí)施例中,第一文本信息的關(guān)鍵詞組的獲取過(guò)程包括:分別對(duì)各第一文本分詞進(jìn)行詞頻統(tǒng)計(jì),得到每一第一文本分詞各自的出現(xiàn)頻率;在各第一文本分詞中,篩選出出現(xiàn)頻率超過(guò)頻率閾值的目標(biāo)文本分詞;將目標(biāo)文本分詞和第一文本信息中指定文本位置處的文本詞組共同作為關(guān)鍵詞組。
8、第二方面,本技術(shù)還提供了一種文本段落識(shí)別裝置,包括:文本信息獲取模塊,用于響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令,獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息;語(yǔ)義分析模塊,用于通過(guò)語(yǔ)義分析模型,對(duì)第一文本信息和第二文本信息之間進(jìn)行語(yǔ)義關(guān)聯(lián)分析,得到第一文本信息和第二文本信息之間的語(yǔ)義關(guān)聯(lián)性;語(yǔ)義分析模型是預(yù)先基于長(zhǎng)短期記憶網(wǎng)絡(luò)訓(xùn)練得到的模型;詞組分析模塊,用于通過(guò)詞組分析模型,對(duì)第一文本信息和第二文本信息之間進(jìn)行詞組關(guān)聯(lián)分析,得到第一文本信息和第二文本信息之間的詞組關(guān)聯(lián)分析結(jié)果;詞組分析模型是預(yù)先基于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的模型;段落識(shí)別模塊,用于在語(yǔ)義關(guān)聯(lián)性達(dá)到關(guān)聯(lián)性閾值、以及詞組關(guān)聯(lián)分析結(jié)果表示第一文本信息包含第二文本信息的關(guān)鍵詞組的情況下,將目標(biāo)文本行與上一文本行歸為同一段落。
9、在其中一個(gè)實(shí)施例中,語(yǔ)義分析模塊還用于:通過(guò)語(yǔ)義分析模型,分別對(duì)第一文本信息和第二文本信息進(jìn)行語(yǔ)義特征提取,得到第一文本信息的第一語(yǔ)義特征、以及第二文本信息的第二語(yǔ)義特征;對(duì)第一語(yǔ)義特征和第二語(yǔ)義特征進(jìn)行相似度分析,得到第一語(yǔ)義特征和第二語(yǔ)義特征之間的特征相似度;基于特征相似度,確定第一文本信息和第二文本信息之間的語(yǔ)義關(guān)聯(lián)性。
10、在其中一個(gè)實(shí)施例中,裝置還用于:獲取包含多個(gè)段落標(biāo)識(shí)的初始樣本文本,對(duì)初始樣本文本,進(jìn)行段落標(biāo)識(shí)剔除,得到第一樣本文本;對(duì)初始樣本文本,進(jìn)行段落標(biāo)識(shí)替換,得到第二樣本文本;對(duì)初始樣本文本,進(jìn)行段落順序調(diào)整,得到第三樣本文本;將第一樣本文本、第二樣本文本和第三樣本文本共同作為訓(xùn)練樣本,基于訓(xùn)練樣本,對(duì)預(yù)訓(xùn)練語(yǔ)義分析模型進(jìn)行模型訓(xùn)練,直至預(yù)訓(xùn)練語(yǔ)義分析模型的訓(xùn)練次數(shù)達(dá)到次數(shù)閾值,得到語(yǔ)義分析模型;基于訓(xùn)練樣本,對(duì)預(yù)訓(xùn)練詞組分析模型進(jìn)行模型訓(xùn)練,直至預(yù)訓(xùn)練詞組分析模型的訓(xùn)練次數(shù)達(dá)到次數(shù)閾值,得到詞組分析模型。
11、在其中一個(gè)實(shí)施例中,文本信息獲取模塊還用于:響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令,對(duì)目標(biāo)文本進(jìn)行安全性檢測(cè),得到目標(biāo)文本的安全性檢測(cè)結(jié)果;在安全性檢測(cè)結(jié)果表示目標(biāo)文本屬于安全文本的情況下,獲取目標(biāo)文本的文本內(nèi)容;對(duì)文本內(nèi)容進(jìn)行完整性檢測(cè),得到文本內(nèi)容的完整性檢測(cè)結(jié)果;在完整性檢測(cè)結(jié)果表示文本內(nèi)容完整的情況下,獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息。
12、在其中一個(gè)實(shí)施例中,裝置還用于:分別對(duì)第一文本信息和第二文本信息進(jìn)行分詞處理,得到第一文本信息的各第一文本分詞、以及第二文本信息的各第二文本分詞;分別對(duì)各第一文本分詞和各第二文本分詞進(jìn)行詞嵌入,得到每一第一文本分詞的第一詞向量、以及每一第二文本分詞的第二詞向量;第一詞向量和第二詞向量均作為語(yǔ)義分析模型和詞組分析模型的輸入。
13、在其中一個(gè)實(shí)施例中,裝置還用于:分別對(duì)各第一文本分詞進(jìn)行詞頻統(tǒng)計(jì),得到每一第一文本分詞各自的出現(xiàn)頻率;在各第一文本分詞中,篩選出出現(xiàn)頻率超過(guò)頻率閾值的目標(biāo)文本分詞;將目標(biāo)文本分詞和第一文本信息中指定文本位置處的文本詞組共同作為關(guān)鍵詞組。
14、第三方面,本技術(shù)還提供了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)以下步驟:響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令,獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息;通過(guò)語(yǔ)義分析模型,對(duì)第一文本信息和第二文本信息之間進(jìn)行語(yǔ)義關(guān)聯(lián)分析,得到第一文本信息和第二文本信息之間的語(yǔ)義關(guān)聯(lián)性;語(yǔ)義分析模型是預(yù)先基于長(zhǎng)短期記憶網(wǎng)絡(luò)訓(xùn)練得到的模型;通過(guò)詞組分析模型,對(duì)第一文本信息和第二文本信息之間進(jìn)行詞組關(guān)聯(lián)分析,得到第一文本信息和第二文本信息之間的詞組關(guān)聯(lián)分析結(jié)果;詞組分析模型是預(yù)先基于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的模型;在語(yǔ)義關(guān)聯(lián)性達(dá)到關(guān)聯(lián)性閾值、以及詞組關(guān)聯(lián)分析結(jié)果表示第一文本信息包含第二文本信息的關(guān)鍵詞組的情況下,將目標(biāo)文本行與上一文本行歸為同一段落。
15、第四方面,本技術(shù)還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)以下步驟:響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令,獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息;通過(guò)語(yǔ)義分析模型,對(duì)第一文本信息和第二文本信息之間進(jìn)行語(yǔ)義關(guān)聯(lián)分析,得到第一文本信息和第二文本信息之間的語(yǔ)義關(guān)聯(lián)性;語(yǔ)義分析模型是預(yù)先基于長(zhǎng)短期記憶網(wǎng)絡(luò)訓(xùn)練得到的模型;通過(guò)詞組分析模型,對(duì)第一文本信息和第二文本信息之間進(jìn)行詞組關(guān)聯(lián)分析,得到第一文本信息和第二文本信息之間的詞組關(guān)聯(lián)分析結(jié)果;詞組分析模型是預(yù)先基于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的模型;在語(yǔ)義關(guān)聯(lián)性達(dá)到關(guān)聯(lián)性閾值、以及詞組關(guān)聯(lián)分析結(jié)果表示第一文本信息包含第二文本信息的關(guān)鍵詞組的情況下,將目標(biāo)文本行與上一文本行歸為同一段落。
16、第五方面,本技術(shù)還提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)以下步驟:響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令,獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息;通過(guò)語(yǔ)義分析模型,對(duì)第一文本信息和第二文本信息之間進(jìn)行語(yǔ)義關(guān)聯(lián)分析,得到第一文本信息和第二文本信息之間的語(yǔ)義關(guān)聯(lián)性;語(yǔ)義分析模型是預(yù)先基于長(zhǎng)短期記憶網(wǎng)絡(luò)訓(xùn)練得到的模型;通過(guò)詞組分析模型,對(duì)第一文本信息和第二文本信息之間進(jìn)行詞組關(guān)聯(lián)分析,得到第一文本信息和第二文本信息之間的詞組關(guān)聯(lián)分析結(jié)果;詞組分析模型是預(yù)先基于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的模型;在語(yǔ)義關(guān)聯(lián)性達(dá)到關(guān)聯(lián)性閾值、以及詞組關(guān)聯(lián)分析結(jié)果表示第一文本信息包含第二文本信息的關(guān)鍵詞組的情況下,將目標(biāo)文本行與上一文本行歸為同一段落。
17、上述文本段落識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)程序產(chǎn)品,響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令,首先獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息。并通過(guò)語(yǔ)義分析模型,對(duì)第一文本信息和第二文本信息之間進(jìn)行語(yǔ)義關(guān)聯(lián)分析,從而得到第一文本信息和第二文本信息之間的語(yǔ)義關(guān)聯(lián)性。以及通過(guò)詞組分析模型,對(duì)第一文本信息和第二文本信息之間進(jìn)行詞組關(guān)聯(lián)分析,得到第一文本信息和第二文本信息之間的詞組關(guān)聯(lián)分析結(jié)果。在語(yǔ)義關(guān)聯(lián)性達(dá)到關(guān)聯(lián)性閾值、以及詞組關(guān)聯(lián)分析結(jié)果表示第一文本信息包含第二文本信息的關(guān)鍵詞組的情況下,認(rèn)為目標(biāo)文本行與上一文本行屬于同一段落。因此,本技術(shù)從語(yǔ)義層面和詞組層面,分析相鄰文本行之間的關(guān)聯(lián)性,以此來(lái)判斷兩個(gè)文本行是否屬于同一段落,提高了文本段落識(shí)別的準(zhǔn)確性。另外,本技術(shù)中的語(yǔ)義分析模型是預(yù)先基于長(zhǎng)短期記憶網(wǎng)絡(luò)訓(xùn)練得到的模型,能夠捕捉到文本信息中的長(zhǎng)期依賴關(guān)系,提高了文本語(yǔ)義關(guān)聯(lián)分析的準(zhǔn)確性。而詞組分析模型是預(yù)先基于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的模型,卷積神經(jīng)網(wǎng)絡(luò)通過(guò)卷積層可以捕捉文本信息中的局部特征,這種局部感知能力使得卷積神經(jīng)網(wǎng)絡(luò)能夠高效地處理文本數(shù)據(jù),尤其是在檢測(cè)當(dāng)前文本行是否包含上一文本行的關(guān)鍵詞組時(shí),能夠準(zhǔn)確高效地識(shí)別出詞組的存在。所以,本技術(shù)能夠克服目前文本段落識(shí)別的準(zhǔn)確性不高的技術(shù)缺陷,有效提高文本段落識(shí)別的準(zhǔn)確性。