本發(fā)明涉及文本分類技術(shù),尤其涉及一種基于增量預(yù)訓(xùn)練的社會訴求數(shù)據(jù)的文本分類優(yōu)化方法。
背景技術(shù):
1、隨著自然語言處理nlp技術(shù)的發(fā)展,預(yù)訓(xùn)練模型,如bert(來自變壓器的雙向編碼器表示),gpt(生成式預(yù)訓(xùn)練變壓器)和t5(文本到文本傳輸變壓器)在各種文本處理任務(wù)上取得了令人印象深刻的結(jié)果。這些模型在大量未標(biāo)記的文本數(shù)據(jù)中進(jìn)行預(yù)訓(xùn)練,然后對特定任務(wù)進(jìn)行微調(diào),以達(dá)到合理的性能。然而,當(dāng)關(guān)注特定領(lǐng)域,如社會訴求時,傳統(tǒng)的預(yù)訓(xùn)練模型可能無法全面捕獲該領(lǐng)域的細(xì)節(jié)和特征。
技術(shù)實現(xiàn)思路
1、為解決現(xiàn)有技術(shù)中存在的不足,本發(fā)明的目的在于,提供一種基于增量預(yù)訓(xùn)練的社會訴求數(shù)據(jù)的文本分類優(yōu)化方法。
2、為實現(xiàn)本發(fā)明的目的,本發(fā)明所采用的技術(shù)方案是:
3、一種基于增量預(yù)訓(xùn)練的社會訴求數(shù)據(jù)的文本分類優(yōu)化方法,包括步驟:
4、(1)收集各社會訴求平臺的社會訴求數(shù)據(jù),社會訴求數(shù)據(jù)以文本格式呈現(xiàn);
5、(2)對收集的社會訴求數(shù)據(jù)進(jìn)行預(yù)處理;
6、(3)預(yù)處理后基于改進(jìn)樹的詞挖掘算法挖掘新詞,對其進(jìn)行分詞處理,然后利用術(shù)語頻率逆文檔頻率tf-idf算法提取關(guān)鍵詞;
7、(4)基于gpt的數(shù)據(jù)增強(qiáng)技術(shù)擴(kuò)大關(guān)鍵詞數(shù)據(jù)集;
8、(5)輸入預(yù)訓(xùn)練bert模型,并選擇增量預(yù)訓(xùn)練策略對預(yù)訓(xùn)練bert模型進(jìn)行訓(xùn)練;
9、(6)采用基于訓(xùn)練好的bert模型的文本分類算法和命名實體識別算法實現(xiàn)社會訴求數(shù)據(jù)的文本信息分類。
10、進(jìn)一步地,步驟(2)中,社會訴求數(shù)據(jù)預(yù)處理包括:去除無關(guān)符號、特殊字符以及噪聲信息,并將所有文本轉(zhuǎn)換為統(tǒng)一格式,接著,利用預(yù)設(shè)的停止詞庫刪除對文本分析無實際意義的詞匯。
11、進(jìn)一步地,步驟(3)中,基于改進(jìn)樹的詞挖掘算法識別在文本數(shù)據(jù)中表現(xiàn)出強(qiáng)烈上下文相關(guān)性的高頻單詞,依賴于互信息mi和熵兩個關(guān)鍵統(tǒng)計指標(biāo)。
12、進(jìn)一步地,步驟(3)中,增強(qiáng)的字典樹結(jié)構(gòu)將漢字作為樹的主要節(jié)點,每一個樹根從漢語詞匯的第一個漢字開始,形成一個新的樹根,每個根下的子樹對應(yīng)于以該特定漢字開頭的所有潛在單詞。
13、進(jìn)一步地,步驟(3)中,采用術(shù)語頻率逆文檔頻率算法衡量每個詞在文本中的重要性,其中,術(shù)語頻率tf表示某一詞在特定文檔中的出現(xiàn)頻率,逆文檔頻率idf則衡量該詞在整個文檔集合中的稀有程度;
14、tf-idf值越高,表示該詞在區(qū)分文檔時的作用越大,根據(jù)各詞的tf-idf值,提取每篇文檔中最具代表性的若干術(shù)語,生成該文檔的關(guān)鍵詞列表。
15、進(jìn)一步地,步驟(4)中,使用通義千問大模型進(jìn)行數(shù)據(jù)增強(qiáng),根據(jù)輸入生成與類別相關(guān)的多樣化文本,通過調(diào)整生成參數(shù)確保生成的文本與原始類別特征匹配,生成的文本經(jīng)過嚴(yán)格篩選后將與原始數(shù)據(jù)集合并,形成平衡數(shù)據(jù)集。
16、進(jìn)一步地,步驟(5)中,預(yù)訓(xùn)練bert模型包括掩模語言建模mlm和下一句預(yù)測nsp兩個任務(wù);
17、掩模語言建模mlm,在輸入句子中隨機(jī)屏蔽部分標(biāo)記,通過預(yù)訓(xùn)練模型預(yù)測被屏蔽的標(biāo)記,訓(xùn)練模型對殘缺文本的識別度;
18、下一句預(yù)測nsp,向預(yù)訓(xùn)練模型提供兩個句子,并要確定第二個句子是否是第一個句子的直接繼承者。
19、進(jìn)一步地,步驟(6)中,基于bert模型的文本分類算法,具體步驟為:利用bert模型的詞嵌入表將文本的每個字符映射到向量表示,結(jié)合前后文后產(chǎn)生單詞級向量表示,bert在每個文本段的開頭引入一個[cls]標(biāo)簽,將該標(biāo)簽對應(yīng)的輸出向量作為文本的全局語義表示。
20、進(jìn)一步地,步驟(6)中,基于bert模型的命名實體識別算法,具體步驟為:使用bert或bert-?bi?-?lstm作為底層文本特征編碼器,使用crf進(jìn)行實體標(biāo)簽預(yù)測。
21、本發(fā)明的有益效果在于,與現(xiàn)有技術(shù)相比,本發(fā)明與傳統(tǒng)的預(yù)訓(xùn)練模型相比,利用特定領(lǐng)域數(shù)據(jù)進(jìn)行模型再訓(xùn)練提高模型的領(lǐng)域適應(yīng)性;引入新的詞挖掘算法優(yōu)化對數(shù)據(jù)文本的分類識別,使用基于gpt的數(shù)據(jù)增強(qiáng)技術(shù)進(jìn)行數(shù)據(jù)增強(qiáng),最后采用文本分類算法和命名實體識別算法對社會訴求數(shù)據(jù)中深層信息進(jìn)行充分提取。
22、本發(fā)明采用增量預(yù)訓(xùn)練技術(shù),結(jié)合改進(jìn)樹的詞挖掘算法和基于gpt的數(shù)據(jù)增強(qiáng)技術(shù)的文本分類優(yōu)化策略,旨在解決城市治理中的社會訴求和優(yōu)化社會訴求領(lǐng)域的文本分類功能,實現(xiàn)對社會訴求數(shù)據(jù)深層信息的有效提取。
1.一種基于增量預(yù)訓(xùn)練的社會訴求數(shù)據(jù)的文本分類優(yōu)化方法,其特征在于,包括步驟:
2.根據(jù)權(quán)利要求1所述的基于增量預(yù)訓(xùn)練的社會訴求數(shù)據(jù)的文本分類優(yōu)化方法,其特征在于,步驟(2)中,社會訴求數(shù)據(jù)預(yù)處理包括:去除無關(guān)符號、特殊字符以及噪聲信息,并將所有文本轉(zhuǎn)換為統(tǒng)一格式,接著,利用預(yù)設(shè)的停止詞庫刪除對文本分析無實際意義的詞匯。
3.根據(jù)權(quán)利要求1所述的基于增量預(yù)訓(xùn)練的社會訴求數(shù)據(jù)的文本分類優(yōu)化方法,其特征在于,步驟(3)中,基于改進(jìn)樹的詞挖掘算法識別在文本數(shù)據(jù)中表現(xiàn)出強(qiáng)烈上下文相關(guān)性的高頻單詞,依賴于互信息mi和熵兩個關(guān)鍵統(tǒng)計指標(biāo)。
4.根據(jù)權(quán)利要求1所述的基于增量預(yù)訓(xùn)練的社會訴求數(shù)據(jù)的文本分類優(yōu)化方法,其特征在于,步驟(3)中,增強(qiáng)的字典樹結(jié)構(gòu)將漢字作為樹的主要節(jié)點,每一個樹根從漢語詞匯的第一個漢字開始,形成一個新的樹根,每個根下的子樹對應(yīng)于以該特定漢字開頭的所有潛在單詞。
5.根據(jù)權(quán)利要求1所述的基于增量預(yù)訓(xùn)練的社會訴求數(shù)據(jù)的文本分類優(yōu)化方法,其特征在于,步驟(3)中,采用術(shù)語頻率逆文檔頻率算法衡量每個詞在文本中的重要性,其中,術(shù)語頻率tf表示某一詞在特定文檔中的出現(xiàn)頻率,逆文檔頻率idf則衡量該詞在整個文檔集合中的稀有程度;
6.根據(jù)權(quán)利要求1所述的基于增量預(yù)訓(xùn)練的社會訴求數(shù)據(jù)的文本分類優(yōu)化方法,其特征在于,步驟(4)中,使用通義千問大模型進(jìn)行數(shù)據(jù)增強(qiáng),根據(jù)輸入生成與類別相關(guān)的多樣化文本,通過調(diào)整生成參數(shù)確保生成的文本與原始類別特征匹配,生成的文本經(jīng)過嚴(yán)格篩選后將與原始數(shù)據(jù)集合并,形成平衡數(shù)據(jù)集。
7.根據(jù)權(quán)利要求1所述的基于增量預(yù)訓(xùn)練的社會訴求數(shù)據(jù)的文本分類優(yōu)化方法,其特征在于,步驟(5)中,預(yù)訓(xùn)練bert模型包括掩模語言建模mlm和下一句預(yù)測nsp兩個任務(wù);
8.根據(jù)權(quán)利要求1所述的基于增量預(yù)訓(xùn)練的社會訴求數(shù)據(jù)的文本分類優(yōu)化方法,其特征在于,步驟(6)中,基于bert模型的文本分類算法,具體步驟為:利用bert模型的詞嵌入表將文本的每個字符映射到向量表示,結(jié)合前后文后產(chǎn)生單詞級向量表示,bert在每個文本段的開頭引入一個[cls]標(biāo)簽,將該標(biāo)簽對應(yīng)的輸出向量作為文本的全局語義表示。
9.?根據(jù)權(quán)利要求1所述的基于增量預(yù)訓(xùn)練的社會訴求數(shù)據(jù)的文本分類優(yōu)化方法,其特征在于,步驟(6)中,基于bert模型的命名實體識別算法,具體步驟為:使用bert或bert-?bi-?lstm作為底層文本特征編碼器,使用crf進(jìn)行實體標(biāo)簽預(yù)測。