一種主客觀分類器構(gòu)建方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開(kāi)的主客觀分類器構(gòu)建方法和系統(tǒng),在著眼于對(duì)問(wèn)題進(jìn)行訓(xùn)練的同時(shí),還著眼于對(duì)問(wèn)題的答案進(jìn)行訓(xùn)練,分別在問(wèn)題和答案兩類文本上構(gòu)建基分類器,后續(xù)通過(guò)對(duì)兩個(gè)基分類器進(jìn)行融合,得到最終的主客觀分類器??梢?jiàn),本發(fā)明在主客觀分類中加入了答案分類,通過(guò)結(jié)合答案特征對(duì)問(wèn)題分類進(jìn)行補(bǔ)正、校準(zhǔn),實(shí)現(xiàn)了基于問(wèn)題與答案互補(bǔ)的主客觀分類,規(guī)避了因問(wèn)題訓(xùn)練樣本的歧義性而導(dǎo)致分類器準(zhǔn)確率低的弊端,提高了利用主客觀分類器對(duì)問(wèn)題進(jìn)行分類的準(zhǔn)確率,進(jìn)而提升了問(wèn)答系統(tǒng)的性能。
【專利說(shuō)明】一種主客觀分類器構(gòu)建方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于自然語(yǔ)言處理及模式識(shí)別【技術(shù)領(lǐng)域】,尤其涉及一種主客觀分類器構(gòu)建 方法和系統(tǒng)。
【背景技術(shù)】
[0002] 自動(dòng)問(wèn)答技術(shù)是自然語(yǔ)言處理領(lǐng)域中的一個(gè)研究熱點(diǎn),其一般包括三個(gè)主要組成 部分:?jiǎn)栴}分類、信息檢索和答案抽取。
[0003] 問(wèn)題分類能夠有效地減少候選答案的空間,提高自動(dòng)問(wèn)答系統(tǒng)返回答案的準(zhǔn)確 率。其中,主客觀分類是實(shí)現(xiàn)問(wèn)題分類的基礎(chǔ),針對(duì)用戶提出的問(wèn)題,自動(dòng)問(wèn)答系統(tǒng)首先需 對(duì)其進(jìn)行主客觀分類,后續(xù)在主客觀分類的基礎(chǔ)上對(duì)問(wèn)題的類別進(jìn)行進(jìn)一步細(xì)分。目前, 主流的主客觀分類方法是基于機(jī)器學(xué)習(xí)的監(jiān)督分類方法,該方法實(shí)現(xiàn)主客觀分類的過(guò)程包 括:訓(xùn)練過(guò)程和分類過(guò)程。其中,在訓(xùn)練過(guò)程中,人工標(biāo)注一定數(shù)目的主觀性問(wèn)題和客觀 性問(wèn)題,作為標(biāo)注樣本,然后利用標(biāo)注樣本和機(jī)器學(xué)習(xí)分類方法(例如,支持向量機(jī)分類方 法)訓(xùn)練主客觀分類器;后續(xù)利用訓(xùn)練所得的主客觀分類器對(duì)未知問(wèn)題進(jìn)行分類給出其主 客觀類別。
[0004] 可見(jiàn),現(xiàn)有主客觀分類器的構(gòu)建僅著眼于對(duì)問(wèn)題進(jìn)行訓(xùn)練,然而,有些問(wèn)題的類別 可能會(huì)存在歧義,即其可能會(huì)因答案的不同而屬于不同的主客觀類別,從而導(dǎo)致最終訓(xùn)練 所得的主客觀分類器的分類準(zhǔn)確率較低。
【發(fā)明內(nèi)容】
[0005] 有鑒于此,本發(fā)明的目的在于提供一種主客觀分類器構(gòu)建方法和系統(tǒng),以克服現(xiàn) 有技術(shù)的上述問(wèn)題,提高主客觀分類器的分類準(zhǔn)確率,進(jìn)而提升問(wèn)答系統(tǒng)的性能。
[0006] 為此,本發(fā)明公開(kāi)如下技術(shù)方案:
[0007] -種主客觀分類器構(gòu)建方法,包括:
[0008] 利用預(yù)定個(gè)數(shù)的問(wèn)題訓(xùn)練樣本對(duì)第一預(yù)設(shè)分類算法進(jìn)行主、客觀分類訓(xùn)練,得到 問(wèn)題基分類器;
[0009] 利用所述預(yù)定個(gè)數(shù)的答案訓(xùn)練樣本對(duì)第二預(yù)設(shè)分類算法進(jìn)行主、客觀分類訓(xùn)練, 得到答案基分類器,其中,所述答案訓(xùn)練樣本與所述問(wèn)題訓(xùn)練樣本一一對(duì)應(yīng),且一一對(duì)應(yīng)的 問(wèn)題訓(xùn)練樣本與答案訓(xùn)練樣本為具有問(wèn)答關(guān)系的問(wèn)答對(duì);
[0010] 依據(jù)預(yù)先設(shè)定的融合規(guī)則,對(duì)所述問(wèn)題基分類器、答案基分類器進(jìn)行融合,得到目 標(biāo)主客觀分類器。
[0011] 上述方法,優(yōu)選的,所述第一預(yù)設(shè)分類算法及所述第二預(yù)設(shè)分類算法為支持向量 機(jī)分類方法,所述融合規(guī)則為貝葉斯融合規(guī)則。
[0012] 上述方法,優(yōu)選的,所述第一預(yù)設(shè)分類算法利用問(wèn)題訓(xùn)練樣本的一元詞特征對(duì)問(wèn) 題訓(xùn)練樣本進(jìn)行主客觀分類;所述第二預(yù)設(shè)算法利用答案訓(xùn)練樣本的一元詞特征對(duì)答案訓(xùn) 練樣本進(jìn)行主客觀分類。
[0013] 上述方法,優(yōu)選的,還包括如下的預(yù)處理過(guò)程:
[0014] 抓取第一預(yù)設(shè)數(shù)量的問(wèn)答對(duì);
[0015] 過(guò)濾掉參考價(jià)值較低的問(wèn)答對(duì),其中參考價(jià)值較低的問(wèn)答對(duì)包括:人工無(wú)法判別 問(wèn)題或答案的主客觀類別的問(wèn)答對(duì)和答非所問(wèn)、答案無(wú)效的問(wèn)答對(duì);
[0016] 對(duì)過(guò)濾后所剩余問(wèn)答對(duì)的主客觀類別進(jìn)行人工標(biāo)注,其中,主觀類別問(wèn)答對(duì)的個(gè) 數(shù)與客觀類別問(wèn)答對(duì)的個(gè)數(shù)相同;
[0017] 從已標(biāo)注類別的問(wèn)答對(duì)中選取第二預(yù)設(shè)數(shù)量的問(wèn)答對(duì)作為測(cè)試樣本,其余問(wèn)答對(duì) 作為訓(xùn)練樣本,其中,測(cè)試樣本及訓(xùn)練樣本中主、客觀類別的問(wèn)答對(duì)數(shù)目相同。
[0018] 上述方法,優(yōu)選的,還包括:
[0019] 利用所述測(cè)試樣本驗(yàn)證所述目標(biāo)主客觀分類器的分類準(zhǔn)確率,并基于所述分類準(zhǔn) 確率評(píng)估所述目標(biāo)主客觀分類器的分類性能。
[0020] 上述方法,優(yōu)選的,所述利用測(cè)試樣本驗(yàn)證所述目標(biāo)主客觀分類器的分類準(zhǔn)確率, 并基于所述分類準(zhǔn)確率評(píng)估所述目標(biāo)主客觀分類器的分類性能包括:
[0021] 利用所述目標(biāo)主客觀分類器,對(duì)所述測(cè)試樣本進(jìn)行主客觀分類;
[0022] 將利用所述目標(biāo)主客觀分類器分類所得的測(cè)試樣本的分類類別與所述測(cè)試樣本 的標(biāo)注類別相比對(duì),并獲取分類類別與標(biāo)注類別相同的測(cè)試樣本的個(gè)數(shù)^ ;
[0023] 基于式k = &/%,獲取所述目標(biāo)主客觀分類器的分類準(zhǔn)確率k,其中,%表示測(cè)試 樣本的總個(gè)數(shù);
[0024] 基于所述分類準(zhǔn)確率k評(píng)估所述目標(biāo)主客觀分類器的分類性能。
[0025] 一種主客觀分類器構(gòu)建系統(tǒng),包括:
[0026] 第一訓(xùn)練模塊,用于利用預(yù)定個(gè)數(shù)的問(wèn)題訓(xùn)練樣本對(duì)第一預(yù)設(shè)分類算法進(jìn)行主、 客觀分類訓(xùn)練,得到問(wèn)題基分類器;
[0027] 第二訓(xùn)練模塊,用于利用所述預(yù)定個(gè)數(shù)的答案訓(xùn)練樣本對(duì)第二預(yù)設(shè)分類算法進(jìn)行 主、客觀分類訓(xùn)練,得到答案基分類器,其中,所述答案訓(xùn)練樣本與所述問(wèn)題訓(xùn)練樣本一一 對(duì)應(yīng),且一一對(duì)應(yīng)的問(wèn)題訓(xùn)練樣本與答案訓(xùn)練樣本為具有問(wèn)答關(guān)系的問(wèn)答對(duì);
[0028] 融合模塊,用于依據(jù)預(yù)先設(shè)定的融合規(guī)則,對(duì)所述問(wèn)題基分類器、答案基分類器進(jìn) 行融合,得到目標(biāo)主客觀分類器。
[0029] 上述系統(tǒng),優(yōu)選的,還包括預(yù)處理模塊,所述預(yù)處理模塊包括:
[0030] 抓取單元,用于抓取第一預(yù)設(shè)數(shù)量的問(wèn)答對(duì);
[0031] 過(guò)濾單元,用于過(guò)濾掉參考價(jià)值較低的問(wèn)答對(duì),其中參考價(jià)值較低的問(wèn)答對(duì)包括 人工無(wú)法判別問(wèn)題或答案的主客觀類別的問(wèn)答對(duì)和答非所問(wèn)、答案無(wú)效的問(wèn)答對(duì);
[0032] 標(biāo)注單元,用于對(duì)過(guò)濾后所剩余問(wèn)答對(duì)的主客觀類別進(jìn)行人工標(biāo)注,其中,主觀類 別問(wèn)答對(duì)的個(gè)數(shù)與客觀類別問(wèn)答對(duì)的個(gè)數(shù)相同;
[0033] 選取單元,用于從已標(biāo)注類別的問(wèn)答對(duì)中選取第二預(yù)設(shè)數(shù)量的問(wèn)答對(duì)作為測(cè)試樣 本,其余問(wèn)答對(duì)作為訓(xùn)練樣本,其中,測(cè)試樣本及訓(xùn)練樣本中主、客觀類別的問(wèn)答對(duì)數(shù)目相 同。
[0034] 上述系統(tǒng),優(yōu)選的,還包括:
[0035] 驗(yàn)證和評(píng)估模塊,用于利用所述測(cè)試樣本驗(yàn)證所述目標(biāo)主客觀分類器的分類準(zhǔn)確 率,并基于所述分類準(zhǔn)確率評(píng)估所述目標(biāo)主客觀分類器的分類性能。
[0036] 上述系統(tǒng),優(yōu)選的,所述驗(yàn)證和評(píng)估模塊包括:
[0037] 分類單元,用于利用所述目標(biāo)主客觀分類器,對(duì)所述的測(cè)試樣本進(jìn)行主客觀分 類;
[0038] 比對(duì)單元,用于將利用所述目標(biāo)主客觀分類器分類所得的測(cè)試樣本的分類類別與 所述測(cè)試樣本的標(biāo)注類別相比對(duì),并獲取分類類別與標(biāo)注類別相同的測(cè)試樣本的個(gè)數(shù)^ ;
[0039] 計(jì)算單元,用于基于式k = n/rv計(jì)算所述目標(biāo)主客觀分類器的分類準(zhǔn)確率k,其 中,1?表示測(cè)試樣本的總個(gè)數(shù);
[0040] 評(píng)估單元,用于基于所述分類準(zhǔn)確率k評(píng)估所述目標(biāo)主客觀分類器的分類性能。
[0041] 由以上方案可知,本發(fā)明公開(kāi)的主客觀分類器構(gòu)建方法和系統(tǒng),在著眼于對(duì)問(wèn)題 進(jìn)行訓(xùn)練的同時(shí),還著眼于對(duì)問(wèn)題的答案進(jìn)行訓(xùn)練,分別在問(wèn)題和答案兩類文本上構(gòu)建基 分類器,后續(xù)通過(guò)對(duì)兩個(gè)基分類器進(jìn)行融合,得到最終的主客觀分類器??梢?jiàn),本發(fā)明在主 客觀分類中加入了答案分類,通過(guò)結(jié)合答案特征對(duì)問(wèn)題分類進(jìn)行補(bǔ)正、校準(zhǔn),實(shí)現(xiàn)了基于問(wèn) 題與答案互補(bǔ)的主客觀分類,規(guī)避了因問(wèn)題訓(xùn)練樣本的歧義性而導(dǎo)致分類器準(zhǔn)確率低的弊 端,提高了利用主客觀分類器對(duì)問(wèn)題進(jìn)行分類的準(zhǔn)確率,進(jìn)而提升了問(wèn)答系統(tǒng)的性能。
【專利附圖】
【附圖說(shuō)明】
[0042] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本 發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù) 提供的附圖獲得其他的附圖。
[0043] 圖1是本發(fā)明實(shí)施例一公開(kāi)的主客觀分類器構(gòu)建方法的一種流程圖;
[0044] 圖2是本發(fā)明實(shí)施例一公開(kāi)的預(yù)處理過(guò)程流程圖;
[0045] 圖3是本發(fā)明實(shí)施例二公開(kāi)的主客觀分類器構(gòu)建方法的另一種流程圖;
[0046] 圖4是本發(fā)明實(shí)施例二公開(kāi)的四種分類器的分類準(zhǔn)確率曲線對(duì)比圖;
[0047] 圖5是本發(fā)明實(shí)施例三公開(kāi)的主客觀分類器構(gòu)建系統(tǒng)的一種結(jié)構(gòu)示意圖;
[0048] 圖6是本發(fā)明實(shí)施例三公開(kāi)的主客觀分類器構(gòu)建系統(tǒng)的另一種結(jié)構(gòu)示意圖;
[0049] 圖7是本發(fā)明實(shí)施例三公開(kāi)的主客觀分類器構(gòu)建系統(tǒng)的又一種結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0050] 為了引用和清楚起見(jiàn),下文中使用的技術(shù)名詞、簡(jiǎn)寫或縮寫總結(jié)解釋如下:
[0051] 主客觀分類:是將文本分為主觀性文本或者客觀性文本的任務(wù)。
[0052] 主觀性文本:是指對(duì)于非事實(shí)進(jìn)行描述的文本,在文本中會(huì)帶有發(fā)表者的個(gè)人情 感傾向。例如,"送懷孕班主任什么禮物好?送康乃馨吧"為主觀性文本。
[0053] 客觀性文本:是指作者對(duì)于事件、對(duì)象等進(jìn)行基于事實(shí)的描述,不帶有個(gè)人的好惡 或偏見(jiàn)等個(gè)人情感傾向。例如,"淘寶從什么時(shí)候開(kāi)的? 2003年5月10日投資創(chuàng)立"為客 觀性文本。
[0054] -元模型(Unigram):-元詞特征,例如"秦羊奶粉怎么認(rèn)真假"分詞成:'秦'、 '羊'、'奶粉'、'怎么'、'認(rèn)'、'真假'。
[0055] 二元模型(Bigram):二元詞特征,將上述一元詞特征前后兩兩結(jié)合,例如:'秦_ 羊'、'羊_奶粉'、'奶粉_怎么'、'怎么_認(rèn)'、'認(rèn)_真'、'真_假'。
[0056] Unigram+Bigram :在一元詞特征的基礎(chǔ)上,加入二元詞特征,例如"秦羊奶粉怎么 認(rèn)真假"的Unigram+Bigram特征為:'秦'、'羊'......'認(rèn)'、'真假'、'秦_羊'、'羊_奶 粉'……'認(rèn)_真假"從包裝、粉質(zhì)、顏色來(lái)辨別"的Unigram+Bigram特征為:'從'、'包 裝'……'來(lái)'、'辨別'、'從_包裝'、'包裝_粉質(zhì)'……'來(lái)_辨別'。
[0057] 機(jī)器學(xué)習(xí)分類方法(Classification Methods Based on Machine Learning):用 于構(gòu)建分類器的統(tǒng)計(jì)學(xué)習(xí)方法,輸入是表示樣本的向量,輸出是樣本的類別標(biāo)簽。根據(jù)學(xué)習(xí) 算法的不同,常見(jiàn)的分類方法有樸素貝葉斯、最大熵分類方法、支持向量機(jī)等分類方法,本 發(fā)明采用支持向量機(jī)。
[0058] TF向量表示法:即文檔向量的分量為相應(yīng)的單詞在該文檔中出現(xiàn)的頻度。
[0059] 支持向量機(jī)分類方法(SVM):是在統(tǒng)計(jì)理論基礎(chǔ)上發(fā)展起來(lái)的一種新的通用學(xué)習(xí) 方法,它在結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的近似實(shí)現(xiàn),因?yàn)樗瑫r(shí)是最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)和VC維的界。 在主客觀分類任務(wù)中,這種分類方法得到了很大的應(yīng)用,相關(guān)的研究工作非常多。
[0060] 基分類器(Base Classifier):在多分類器系統(tǒng)(Multiple Classifier System)中, 參與的每個(gè)分類器稱為基分類器。
[0061] 融合規(guī)則(Combining Rule):用于融合多個(gè)分類器結(jié)果的方法。
[0062] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;?本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0063] 實(shí)施例一
[0064] 本實(shí)施例一公開(kāi)一種主客觀分類器構(gòu)建方法,參考圖1,所述方法可以包括以下步 驟:
[0065] S101 :利用預(yù)定個(gè)數(shù)的問(wèn)題訓(xùn)練樣本對(duì)第一預(yù)設(shè)分類算法進(jìn)行主、客觀分類訓(xùn)練, 得到問(wèn)題基分類器。
[0066] 參考圖2,在執(zhí)行本發(fā)明方法的各個(gè)步驟之前,需首先進(jìn)行如下的預(yù)處理過(guò)程: [0067] S201 :抓取第一預(yù)設(shè)數(shù)量的問(wèn)答對(duì);
[0068] S202 :過(guò)濾掉參考價(jià)值較低的問(wèn)答對(duì),其中參考價(jià)值較低的問(wèn)答對(duì)包括人工無(wú)法 判別問(wèn)題或答案的主客觀類別的問(wèn)答對(duì)和答非所問(wèn)、答案無(wú)效的問(wèn)答對(duì);
[0069] S203:對(duì)過(guò)濾后所剩余問(wèn)答對(duì)的主客觀類別進(jìn)行人工標(biāo)注,其中,主觀類別問(wèn)答對(duì) 的個(gè)數(shù)與客觀類別問(wèn)答對(duì)的個(gè)數(shù)相同;
[0070] S204:從已標(biāo)注類別的問(wèn)答對(duì)中選取第二預(yù)設(shè)數(shù)量的問(wèn)答對(duì)作為測(cè)試樣本,其余 問(wèn)答對(duì)作為訓(xùn)練樣本,其中,測(cè)試樣本及訓(xùn)練樣本中主、客觀類別的問(wèn)答對(duì)數(shù)目相同。
[0071] 具體地,本實(shí)施例通過(guò)網(wǎng)絡(luò)爬蟲(chóng)程序從百度知道生活類別中抓取15000對(duì)高懸賞 的問(wèn)答對(duì),并基于如下原因過(guò)濾掉其中的一些問(wèn)答對(duì):
[0072] a、不少問(wèn)題的答案太過(guò)簡(jiǎn)短,人工無(wú)法判別其主客觀類別;
[0073] b、許多問(wèn)題答非所問(wèn),導(dǎo)致答案無(wú)效;
[0074] c、一些問(wèn)答對(duì)的內(nèi)容抓取不全,導(dǎo)致難以判別其主客觀類別。
[0075] 最終篩選出1300對(duì)參考價(jià)值較高的問(wèn)答對(duì),并對(duì)其進(jìn)行主客觀類別的人工標(biāo)注, 其中,1300對(duì)問(wèn)答對(duì)中,主、客觀問(wèn)答對(duì)的數(shù)目分別為650對(duì)。在此基礎(chǔ)上,從1300對(duì)問(wèn)答 對(duì)中選出1000對(duì)作為訓(xùn)練樣本(500對(duì)主觀、500對(duì)客觀),其中,1000對(duì)問(wèn)答對(duì)中的1000 條問(wèn)題用于作為問(wèn)題訓(xùn)練樣本,1000條答案用于作為答案訓(xùn)練樣本;而剩余的300對(duì)問(wèn)答 對(duì)作為測(cè)試樣本(150對(duì)主觀、150對(duì)客觀)。
[0076] 本實(shí)施例中,語(yǔ)料標(biāo)注具體由兩位不同標(biāo)注者參與。在實(shí)際標(biāo)注過(guò)程中,不同的標(biāo) 注者對(duì)語(yǔ)料主客觀類別的標(biāo)注可能存在不一致性,即不同標(biāo)注者可能會(huì)對(duì)相同語(yǔ)料有不同 的標(biāo)注結(jié)果,具體地,諸如受人工失誤、理解偏差,或語(yǔ)料的類別本身存在歧義等各種因素 的影響,均可導(dǎo)致標(biāo)注不一致現(xiàn)象的產(chǎn)生,參考表1,表1即提供了不同標(biāo)注者標(biāo)注不一致 的示例。
[0077] 表 1
[0078]
【權(quán)利要求】
1. 一種主客觀分類器構(gòu)建方法,其特征在于,包括: 利用預(yù)定個(gè)數(shù)的問(wèn)題訓(xùn)練樣本對(duì)第一預(yù)設(shè)分類算法進(jìn)行主、客觀分類訓(xùn)練,得到問(wèn)題 基分類器; 利用所述預(yù)定個(gè)數(shù)的答案訓(xùn)練樣本對(duì)第二預(yù)設(shè)分類算法進(jìn)行主、客觀分類訓(xùn)練,得到 答案基分類器,其中,所述答案訓(xùn)練樣本與所述問(wèn)題訓(xùn)練樣本一一對(duì)應(yīng),且一一對(duì)應(yīng)的問(wèn)題 訓(xùn)練樣本與答案訓(xùn)練樣本為具有問(wèn)答關(guān)系的問(wèn)答對(duì); 依據(jù)預(yù)先設(shè)定的融合規(guī)則,對(duì)所述問(wèn)題基分類器、答案基分類器進(jìn)行融合,得到目標(biāo)主 客觀分類器。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第一預(yù)設(shè)分類算法及所述第二預(yù)設(shè) 分類算法為支持向量機(jī)分類方法,所述融合規(guī)則為貝葉斯融合規(guī)則。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一預(yù)設(shè)分類算法利用問(wèn)題訓(xùn)練樣 本的一元詞特征對(duì)問(wèn)題訓(xùn)練樣本進(jìn)行主客觀分類;所述第二預(yù)設(shè)算法利用答案訓(xùn)練樣本的 一元詞特征對(duì)答案訓(xùn)練樣本進(jìn)行主客觀分類。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括如下的預(yù)處理過(guò)程: 抓取第一預(yù)設(shè)數(shù)量的問(wèn)答對(duì); 過(guò)濾掉參考價(jià)值較低的問(wèn)答對(duì),其中參考價(jià)值較低的問(wèn)答對(duì)包括:人工無(wú)法判別問(wèn)題 或答案的主客觀類別的問(wèn)答對(duì)和答非所問(wèn)、答案無(wú)效的問(wèn)答對(duì); 對(duì)過(guò)濾后所剩余問(wèn)答對(duì)的主客觀類別進(jìn)行人工標(biāo)注,其中,主觀類別問(wèn)答對(duì)的個(gè)數(shù)與 客觀類別問(wèn)答對(duì)的個(gè)數(shù)相同; 從已標(biāo)注類別的問(wèn)答對(duì)中選取第二預(yù)設(shè)數(shù)量的問(wèn)答對(duì)作為測(cè)試樣本,其余問(wèn)答對(duì)作為 訓(xùn)練樣本,其中,測(cè)試樣本及訓(xùn)練樣本中主、客觀類別的問(wèn)答對(duì)數(shù)目相同。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,還包括: 利用所述測(cè)試樣本驗(yàn)證所述目標(biāo)主客觀分類器的分類準(zhǔn)確率,并基于所述分類準(zhǔn)確率 評(píng)估所述目標(biāo)主客觀分類器的分類性能。
6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述利用測(cè)試樣本驗(yàn)證所述目標(biāo)主客觀 分類器的分類準(zhǔn)確率,并基于所述分類準(zhǔn)確率評(píng)估所述目標(biāo)主客觀分類器的分類性能包 括: 利用所述目標(biāo)主客觀分類器,對(duì)所述測(cè)試樣本進(jìn)行主客觀分類; 將利用所述目標(biāo)主客觀分類器分類所得的測(cè)試樣本的分類類別與所述測(cè)試樣本的標(biāo) 注類別相比對(duì),并獲取分類類別與標(biāo)注類別相同的測(cè)試樣本的個(gè)數(shù)^ ; 基于式k = n/rv獲取所述目標(biāo)主客觀分類器的分類準(zhǔn)確率k,其中,%表示測(cè)試樣本 的總個(gè)數(shù); 基于所述分類準(zhǔn)確率k評(píng)估所述目標(biāo)主客觀分類器的分類性能。
7. -種主客觀分類器構(gòu)建系統(tǒng),其特征在于,包括: 第一訓(xùn)練模塊,用于利用預(yù)定個(gè)數(shù)的問(wèn)題訓(xùn)練樣本對(duì)第一預(yù)設(shè)分類算法進(jìn)行主、客觀 分類訓(xùn)練,得到問(wèn)題基分類器; 第二訓(xùn)練模塊,用于利用所述預(yù)定個(gè)數(shù)的答案訓(xùn)練樣本對(duì)第二預(yù)設(shè)分類算法進(jìn)行主、 客觀分類訓(xùn)練,得到答案基分類器,其中,所述答案訓(xùn)練樣本與所述問(wèn)題訓(xùn)練樣本一一對(duì) 應(yīng),且一一對(duì)應(yīng)的問(wèn)題訓(xùn)練樣本與答案訓(xùn)練樣本為具有問(wèn)答關(guān)系的問(wèn)答對(duì); 融合模塊,用于依據(jù)預(yù)先設(shè)定的融合規(guī)則,對(duì)所述問(wèn)題基分類器、答案基分類器進(jìn)行融 合,得到目標(biāo)主客觀分類器。
8. 根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,還包括預(yù)處理模塊,所述預(yù)處理模塊包 括: 抓取單元,用于抓取第一預(yù)設(shè)數(shù)量的的問(wèn)答對(duì); 過(guò)濾單元,用于過(guò)濾掉參考價(jià)值較低的問(wèn)答對(duì),其中參考價(jià)值較低的問(wèn)答對(duì)包括人工 無(wú)法判別問(wèn)題或答案的主客觀類別的問(wèn)答對(duì)和答非所問(wèn)、答案無(wú)效的問(wèn)答對(duì); 標(biāo)注單元,用于對(duì)過(guò)濾后所剩余問(wèn)答對(duì)的主客觀類別進(jìn)行人工標(biāo)注,其中,主觀類別問(wèn) 答對(duì)的個(gè)數(shù)與客觀類別問(wèn)答對(duì)的個(gè)數(shù)相同; 選取單元,用于從已標(biāo)注類別的問(wèn)答對(duì)中選取第二預(yù)設(shè)數(shù)量的問(wèn)答對(duì)作為測(cè)試樣本, 其余問(wèn)答對(duì)作為訓(xùn)練樣本,其中,測(cè)試樣本及訓(xùn)練樣本中主、客觀類別的問(wèn)答對(duì)數(shù)目相同。
9. 根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,還包括: 驗(yàn)證和評(píng)估模塊,用于利用所述測(cè)試樣本驗(yàn)證所述目標(biāo)主客觀分類器的分類準(zhǔn)確率, 并基于所述分類準(zhǔn)確率評(píng)估所述目標(biāo)主客觀分類器的分類性能。
10. 根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,所述驗(yàn)證和評(píng)估模塊包括: 分類單元,用于利用所述目標(biāo)主客觀分類器,對(duì)所述的測(cè)試樣本進(jìn)行主客觀分類; 比對(duì)單元,用于將利用所述目標(biāo)主客觀分類器分類所得的測(cè)試樣本的分類類別與所述 測(cè)試樣本的標(biāo)注類別相比對(duì),并獲取分類類別與標(biāo)注類別相同的測(cè)試樣本的個(gè)數(shù)^ ; 計(jì)算單元,用于基于式k = h/rv計(jì)算所述目標(biāo)主客觀分類器的分類準(zhǔn)確率k,其中,% 表示測(cè)試樣本的總個(gè)數(shù); 評(píng)估單元,用于基于所述分類準(zhǔn)確率k評(píng)估所述目標(biāo)主客觀分類器的分類性能。
【文檔編號(hào)】G06F17/28GK104268134SQ201410508281
【公開(kāi)日】2015年1月7日 申請(qǐng)日期:2014年9月28日 優(yōu)先權(quán)日:2014年9月28日
【發(fā)明者】李壽山, 張棟, 周國(guó)棟 申請(qǐng)人:蘇州大學(xué)