欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

多標(biāo)簽文本的主題分類方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):40553137發(fā)布日期:2025-01-03 11:12閱讀:12來(lái)源:國(guó)知局
多標(biāo)簽文本的主題分類方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

本發(fā)明涉及主題分類,具體地涉及一種多標(biāo)簽文本的主題分類方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、題分類是一種將文本數(shù)據(jù)按照主題類別進(jìn)行分類的任務(wù),目前實(shí)現(xiàn)主題分類的方法有很多,包括:樸素貝葉斯、決策樹(shù)等統(tǒng)計(jì)學(xué)習(xí)方法,以及一些深度學(xué)習(xí)方法。在進(jìn)行主題分類的過(guò)程中,存在兩個(gè)較為困難的問(wèn)題需要解決:1、多標(biāo)簽分類,同一篇文檔可能會(huì)涉及多個(gè)主題,且部分主題之間的耦合性較高。2、長(zhǎng)尾分布,該問(wèn)題主要體現(xiàn)在數(shù)據(jù)上,即不同主題數(shù)據(jù)極度不平衡。

2、深度長(zhǎng)尾學(xué)習(xí)是視覺(jué)識(shí)別中極具挑戰(zhàn)的任務(wù),同時(shí)也經(jīng)常出現(xiàn)在自然語(yǔ)言處理的任務(wù)中,長(zhǎng)尾分布是指數(shù)據(jù)集中少量類別占總數(shù)據(jù)集的比重較大,即所謂的“頭部”標(biāo)簽,而多數(shù)類別樣本較少,集中在“尾部”。目前解決長(zhǎng)尾分布問(wèn)題的方法有很多,包括采樣的方式、互信息的方式等,采樣的方式有很多,包括通過(guò)復(fù)制現(xiàn)有樣本或合成新數(shù)據(jù)的過(guò)采樣以及減少多數(shù)樣本的欠采樣等,通過(guò)采樣來(lái)處理數(shù)據(jù)不平衡問(wèn)題最為直接,但同時(shí)也存在著較多的問(wèn)題,包括特征丟失、過(guò)擬合、增加噪聲影響、不適用于多標(biāo)簽處理等問(wèn)題。

3、通過(guò)采樣能夠在一定程度上解決樣本不平衡的問(wèn)題,但對(duì)于多標(biāo)簽分類任務(wù),標(biāo)簽之間可能會(huì)存在較高的耦合性,盲目的采樣不僅無(wú)法達(dá)到優(yōu)化的效果,可能還會(huì)造成更大的影響,例如:關(guān)于一些科技公司發(fā)布新產(chǎn)品的新聞,這個(gè)新聞涉及到科技創(chuàng)新主題,包含了發(fā)布的新產(chǎn)品信息,此外,該新聞還提到由于新產(chǎn)品發(fā)布導(dǎo)致股票上漲的內(nèi)容,同時(shí)涉及了科技和財(cái)經(jīng)主題。當(dāng)存在多篇文檔同時(shí)具備科技創(chuàng)新主題和財(cái)經(jīng)股票主題的情況下,直接對(duì)財(cái)經(jīng)股票主題進(jìn)行采樣,同時(shí)也會(huì)對(duì)科技創(chuàng)新主題的數(shù)據(jù)造成影響。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明實(shí)施例的目的是提供一種多標(biāo)簽文本的主題分類方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì),用于全部或至少部分的解決上述現(xiàn)有技術(shù)中存在的技術(shù)問(wèn)題。

2、為了實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例提供一種多標(biāo)簽文本的主題分類方法,包括:

3、獲取待預(yù)測(cè)多標(biāo)簽文本;

4、將所述待預(yù)測(cè)多標(biāo)簽文本輸入至預(yù)先構(gòu)建的文本分類模型中,輸出待預(yù)測(cè)多標(biāo)簽文本的主題分類結(jié)果,其中,所述文本分類模型是基于roberta-base算法并結(jié)合分類層構(gòu)建的。

5、可選的,所述多標(biāo)簽文本的主題分類方法還包括:

6、獲取待預(yù)測(cè)多標(biāo)簽文本之后,對(duì)待預(yù)測(cè)多標(biāo)簽文本按照預(yù)設(shè)長(zhǎng)度進(jìn)行文檔切分,并對(duì)切分后的片段進(jìn)行特殊符號(hào)去除并進(jìn)行單元化,獲得目標(biāo)待預(yù)測(cè)多標(biāo)簽文本數(shù)據(jù)。

7、可選的,所述文本分類模型的構(gòu)建過(guò)程包括:

8、選取roberta-base模型的結(jié)構(gòu)為文本分類模型的基礎(chǔ)架構(gòu),并通過(guò)transformers加載roberta-base模型;

9、在經(jīng)roberta-base模型編碼后增加一層全連接層,用于調(diào)整向量維度;

10、在全連接層之后添加多個(gè)獨(dú)立的二分類器,用于分類;

11、定義加權(quán)損失函數(shù)作為文本分類模型的損失函數(shù)。

12、可選的,所述文本分類模型的損失函數(shù)如下:

13、;

14、式中,用于修正在不同情況下產(chǎn)生的交叉熵?fù)p失,為真實(shí)標(biāo)簽,為預(yù)測(cè)結(jié)果。

15、可選的,;

16、式中,為不同分類器的閾值,為真實(shí)標(biāo)簽,為預(yù)測(cè)結(jié)果,k表示實(shí)數(shù)。

17、可選的,將所述待預(yù)測(cè)多標(biāo)簽文本輸入至預(yù)先構(gòu)建的文本分類模型中,輸出待預(yù)測(cè)多標(biāo)簽文本的主題分類結(jié)果,包括:

18、將待預(yù)測(cè)多標(biāo)簽文本進(jìn)行文檔切分,去除特殊符號(hào),并經(jīng)單元化后將待預(yù)測(cè)多標(biāo)簽文本轉(zhuǎn)化為符合文本分類模型的輸入格式;

19、將符合文本分類模型的輸入格式的待預(yù)測(cè)多標(biāo)簽文本輸入roberta-base模型中,輸出嵌入向量,并將嵌入向量輸入到全連接層,使嵌入向量維度映射到低維度使其與分類類別維度一致,然后經(jīng)多個(gè)二分類器進(jìn)行分類,其中,每個(gè)分類器對(duì)應(yīng)輸出一個(gè)分類類別;

20、對(duì)多個(gè)二分類器輸出的結(jié)果進(jìn)行映射,確定待預(yù)測(cè)多標(biāo)簽文本的主題。

21、另一方面,本發(fā)明還提供一種多標(biāo)簽文本的主題分類系統(tǒng),包括:

22、獲取單元,用于獲取待預(yù)測(cè)多標(biāo)簽文本;

23、分類單元,用于將所述待預(yù)測(cè)多標(biāo)簽文本輸入至預(yù)先構(gòu)建的文本分類模型中,輸出待預(yù)測(cè)多標(biāo)簽文本的主題分類結(jié)果,其中,所述文本分類模型是基于roberta-base算法并結(jié)合分類層構(gòu)建的。

24、另一方面,本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上進(jìn)行運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)上述所述的多標(biāo)簽文本的主題分類方法的步驟。

25、另一方面,本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述所述的多標(biāo)簽文本的主題分類方法的步驟。

26、通過(guò)上述技術(shù)方案,使用改進(jìn)后的文本分類模型,能夠使模型更關(guān)注于少量樣本,降低由數(shù)據(jù)長(zhǎng)尾分布導(dǎo)致模型效果差的影響,提升模型召回率。在主題分類任務(wù)中,能夠有效緩解因?yàn)閿?shù)據(jù)不平衡導(dǎo)致的模型效果差的情況。

27、本發(fā)明實(shí)施例的其它特征和優(yōu)點(diǎn)將在隨后的具體實(shí)施方式部分予以詳細(xì)說(shuō)明。



技術(shù)特征:

1.一種多標(biāo)簽文本的主題分類方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的多標(biāo)簽文本的主題分類方法,其特征在于,所述多標(biāo)簽文本的主題分類方法還包括:

3.根據(jù)權(quán)利要求1所述的多標(biāo)簽文本的主題分類方法,其特征在于,所述文本分類模型的構(gòu)建過(guò)程包括:

4.根據(jù)權(quán)利要求3所述的多標(biāo)簽文本的主題分類方法,其特征在于,所述文本分類模型的損失函數(shù)如下:

5.根據(jù)權(quán)利要求4所述的多標(biāo)簽文本的主題分類方法,其特征在于,

6.根據(jù)權(quán)利要求1所述的多標(biāo)簽文本的主題分類方法,其特征在于,將所述待預(yù)測(cè)多標(biāo)簽文本輸入至預(yù)先構(gòu)建的文本分類模型中,輸出待預(yù)測(cè)多標(biāo)簽文本的主題分類結(jié)果,包括:

7.一種多標(biāo)簽文本的主題分類系統(tǒng),其特征在于,包括:

8.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上進(jìn)行運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1-6任一項(xiàng)所述的多標(biāo)簽文本的主題分類方法的步驟。

9.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-6任一項(xiàng)所述的多標(biāo)簽文本的主題分類方法的步驟。


技術(shù)總結(jié)
本發(fā)明實(shí)施例提供一種多標(biāo)簽文本的主題分類方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì),屬于主題分類領(lǐng)域。該方法包括:獲取待預(yù)測(cè)多標(biāo)簽文本;將待預(yù)測(cè)多標(biāo)簽文本輸入至預(yù)先構(gòu)建的文本分類模型中,輸出待預(yù)測(cè)多標(biāo)簽文本的主題分類結(jié)果,其中,文本分類模型是基于RoBerta?base算法并結(jié)合分類層構(gòu)建的。通過(guò)上述技術(shù)方案,使用改進(jìn)后的文本分類模型,能夠使模型更關(guān)注于少量樣本,降低由數(shù)據(jù)長(zhǎng)尾分布導(dǎo)致模型效果差的影響,提升模型召回率。在主題分類任務(wù)中,能夠有效緩解因?yàn)閿?shù)據(jù)不平衡導(dǎo)致的模型效果差的情況。

技術(shù)研發(fā)人員:蔣榮,孫琦,羅圣美,韋文峰,唐上
受保護(hù)的技術(shù)使用者:中孚安全技術(shù)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/2
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
芜湖市| 桐梓县| 井冈山市| 仪陇县| 扶风县| 布尔津县| 阿拉善盟| 西安市| 万盛区| 岐山县| 高雄市| 乾安县| 千阳县| 龙岩市| 海宁市| 鹰潭市| 通榆县| 晋州市| 南丹县| 莒南县| 尼木县| 商都县| 九龙城区| 鹤峰县| 满洲里市| 咸丰县| 武陟县| 开远市| 晴隆县| 德阳市| 攀枝花市| 马关县| 闵行区| 收藏| 志丹县| 尤溪县| 沂源县| 宿州市| 天长市| 东阳市| 桂林市|