本發(fā)明涉及人工智能和自然語(yǔ)言處理領(lǐng)域,具體為一種面向政策問答的意圖分類方法及系統(tǒng)。
背景技術(shù):
1、政策問答系統(tǒng)是指向用戶提供與政策相關(guān)的問答服務(wù)的系統(tǒng),政策文本通常較為繁瑣和復(fù)雜,公眾難以理解,政策問答系統(tǒng)可以將政策內(nèi)容進(jìn)行梳理和分類,使得公眾更容易理解和掌握相關(guān)政策,政策問答系統(tǒng)可以為公眾提供公正、客觀、透明的政策信息,提高政府的公信力和透明度,增強(qiáng)政府和民眾之間的互信關(guān)系。
2、然而,傳統(tǒng)的基于規(guī)則的方法需要人工定義規(guī)則或關(guān)鍵詞庫(kù),某些用戶意圖相關(guān)的數(shù)據(jù)可能會(huì)比其他數(shù)據(jù)更多,難以覆蓋各種復(fù)雜的用戶意圖,這會(huì)導(dǎo)致模型更偏向于這些數(shù)據(jù),忽略其他數(shù)據(jù),且易出現(xiàn)漏洞,機(jī)器學(xué)習(xí)方法需要大量標(biāo)注數(shù)據(jù),且需要對(duì)不同領(lǐng)域進(jìn)行重新訓(xùn)練,工作量較大且魯棒性不足,政策問答系統(tǒng)涉及廣泛的政策領(lǐng)域和復(fù)雜的政策問題,分類器在新的領(lǐng)域或問題中可能會(huì)受到干擾,導(dǎo)致分類效果下降。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述問題,本發(fā)明提供如下技術(shù)方案:一種面向政策問答的意圖分類方法,所述面向政策問答的意圖分類方法,包括如下步驟:
2、構(gòu)建大規(guī)模政策問答數(shù)據(jù)集,預(yù)訓(xùn)練政策領(lǐng)域語(yǔ)言模型;
3、構(gòu)造模板,根據(jù)構(gòu)造的模板構(gòu)建訓(xùn)練樣本;
4、通過提示學(xué)習(xí)方法,對(duì)所述訓(xùn)練樣本進(jìn)行意圖分類;
5、通過調(diào)整模板參數(shù)和模型參數(shù),優(yōu)化意圖分類效果。
6、進(jìn)一步的,所述構(gòu)建大規(guī)模政策問答數(shù)據(jù)集,用來預(yù)訓(xùn)練政策領(lǐng)域語(yǔ)言模型,包括:數(shù)據(jù)預(yù)處理,通過互聯(lián)網(wǎng)收集政策文本數(shù)據(jù)和政策問答語(yǔ)料庫(kù),將政策問答數(shù)據(jù)進(jìn)行預(yù)處理;預(yù)訓(xùn)練模型,利用大規(guī)模無(wú)標(biāo)注政策領(lǐng)域文本,采用自編碼器或者基于掩碼語(yǔ)言模型的預(yù)訓(xùn)練模型。
7、進(jìn)一步的,所述預(yù)訓(xùn)練模型包括無(wú)標(biāo)注數(shù)據(jù)預(yù)訓(xùn)練以及有標(biāo)注數(shù)據(jù)微調(diào)。
8、進(jìn)一步的,所述預(yù)訓(xùn)練模型還包括特征選擇。
9、進(jìn)一步的,所述構(gòu)造模板,根據(jù)構(gòu)造的模板構(gòu)建訓(xùn)練樣本,包括:
10、根據(jù)實(shí)際業(yè)務(wù)場(chǎng)景定義意圖分類標(biāo)簽;
11、根據(jù)意圖分類標(biāo)簽設(shè)計(jì)模板;
12、根據(jù)模板、關(guān)鍵詞和問題類型生成相應(yīng)的問題樣本。
13、進(jìn)一步的,所述意圖分類標(biāo)簽,至少包括:辦理方式、辦理?xiàng)l件、辦理時(shí)間、辦理進(jìn)度、常見問題中的任意一種。
14、進(jìn)一步的,通過提示學(xué)習(xí)方法,對(duì)所述訓(xùn)練樣本進(jìn)行意圖分類;包括:針對(duì)訓(xùn)練樣本提取其關(guān)鍵信息;構(gòu)建提示信息,形成帶提示的輸入。
15、進(jìn)一步的,所述通過提示學(xué)習(xí)方法,對(duì)所述訓(xùn)練樣本進(jìn)行意圖分類;包括:
16、針對(duì)訓(xùn)練樣本提取其關(guān)鍵信息;
17、構(gòu)建提示信息,形成帶提示的輸入。
18、進(jìn)一步的,還包括根據(jù)文本、關(guān)鍵詞和問題類型設(shè)計(jì)模板。
19、一種面向政策問答的意圖分類系統(tǒng),包括計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括處理器、存儲(chǔ)器和儲(chǔ)存在所述儲(chǔ)存器上并可被所述處理器執(zhí)行的大規(guī)模政策問答數(shù)據(jù)集,用于實(shí)現(xiàn)上述面向政策問答的意圖分類方法的步驟。
20、有益效果
21、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
22、1、相較于傳統(tǒng)的基于規(guī)則或者機(jī)器學(xué)習(xí)的方法,本發(fā)明通過引入提示學(xué)習(xí),可以顯著提高在政策問答意圖分類上的準(zhǔn)確性和泛化能力,基于transformer的語(yǔ)言模型會(huì)根據(jù)輸入文本的不同,自適應(yīng)性地處理上下文信息,通過學(xué)習(xí),在預(yù)測(cè)下一個(gè)詞匯時(shí),模型能夠自適應(yīng)性地選擇合適的上下文信息,顯著提高分類效果,從而提高模型的預(yù)測(cè)準(zhǔn)確性和泛化性能。
23、2、可以降低對(duì)于標(biāo)注數(shù)據(jù)的需求,利用更少的標(biāo)注數(shù)據(jù)提升模型性能,通過無(wú)監(jiān)督學(xué)習(xí)方式進(jìn)行預(yù)訓(xùn)練的模型,可以充分學(xué)習(xí)到大量的語(yǔ)言知識(shí)和規(guī)律,從而提高模型的預(yù)測(cè)準(zhǔn)確率。這種方式比傳統(tǒng)的有監(jiān)督學(xué)習(xí)更加高效和靈活,可以適應(yīng)不同的應(yīng)用場(chǎng)景和數(shù)據(jù)集。在微調(diào)階段,模型可以根據(jù)具體的任務(wù)和數(shù)據(jù)進(jìn)行有監(jiān)督學(xué)習(xí),進(jìn)一步提高模型的預(yù)測(cè)準(zhǔn)確率。
24、3、基于提示學(xué)習(xí)的方法,可以有效提高系統(tǒng)的自適應(yīng)性和智能化水平,使政策問答系統(tǒng)更加符合實(shí)際需求,可以更好地提高模型的預(yù)測(cè)準(zhǔn)確率:通過無(wú)監(jiān)督學(xué)習(xí)方式進(jìn)行預(yù)訓(xùn)練的模型,可以充分學(xué)習(xí)到大量的語(yǔ)言知識(shí)和規(guī)律,從而提高模型的預(yù)測(cè)準(zhǔn)確率。這種方式比傳統(tǒng)的有監(jiān)督學(xué)習(xí)更加高效和靈活,可以適應(yīng)不同的應(yīng)用場(chǎng)景和數(shù)據(jù)集。在微調(diào)階段,模型可以根據(jù)具體的任務(wù)和數(shù)據(jù)進(jìn)行有監(jiān)督學(xué)習(xí),進(jìn)一步提高模型的預(yù)測(cè)準(zhǔn)確率。
1.一種面向政策問答的意圖分類方法,其特征在于:所述面向政策問答的意圖分類方法,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的一種面向政策問答的意圖分類方法,其特征在于:所述構(gòu)建大規(guī)模政策問答數(shù)據(jù)集,用來預(yù)訓(xùn)練政策領(lǐng)域語(yǔ)言模型,包括:
3.根據(jù)權(quán)利要求2所述的一種面向政策問答的意圖分類方法,其特征在于:所述預(yù)訓(xùn)練模型包括無(wú)標(biāo)注數(shù)據(jù)預(yù)訓(xùn)練以及有標(biāo)注數(shù)據(jù)微調(diào)。
4.根據(jù)權(quán)利要求2所述的一種面向政策問答的意圖分類方法,其特征在于:所述預(yù)訓(xùn)練模型還包括特征選擇。
5.根據(jù)權(quán)利要求1所述的一種面向政策問答的意圖分類方法,其特征在于:所述構(gòu)造模板,根據(jù)構(gòu)造的模板構(gòu)建訓(xùn)練樣本,包括:
6.根據(jù)權(quán)利要求1所述的一種面向政策問答的意圖分類方法,其特征在于:所述意圖分類標(biāo)簽,至少包括:辦理方式、辦理?xiàng)l件、辦理時(shí)間、辦理進(jìn)度、常見問題中的任意一種。
7.根據(jù)權(quán)利要求1所述的一種面向政策問答的意圖分類方法,其特征在于:通過提示學(xué)習(xí)方法,對(duì)所述訓(xùn)練樣本進(jìn)行意圖分類;包括:針對(duì)訓(xùn)練樣本提取其關(guān)鍵信息;構(gòu)建提示信息,形成帶提示的輸入。
8.根據(jù)權(quán)利要求1所述的一種面向政策問答的意圖分類方法,其特征在于:所述通過提示學(xué)習(xí)方法,對(duì)所述訓(xùn)練樣本進(jìn)行意圖分類;包括:
9.根據(jù)權(quán)利要求1所述的一種面向政策問答的意圖分類方法,其特征在于:還包括根據(jù)文本、關(guān)鍵詞和問題類型設(shè)計(jì)模板。
10.一種面向政策問答的意圖分類系統(tǒng),其特征在于:包括計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括處理器、存儲(chǔ)器和儲(chǔ)存在所述儲(chǔ)存器上并可被所述處理器執(zhí)行的大規(guī)模政策問答數(shù)據(jù)集,用于實(shí)現(xiàn)如權(quán)利要求1-9中任意一項(xiàng)所述的一種面向政策問答的意圖分類方法的步驟。