一種主客觀分類器構(gòu)建方法和系統(tǒng)的制作方法

文檔序號(hào)：6628775閱讀：274來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種主客觀分類器構(gòu)建方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開(kāi)的主客觀分類器構(gòu)建方法和系統(tǒng)，在著眼于對(duì)問(wèn)題進(jìn)行訓(xùn)練的同時(shí)，還著眼于對(duì)問(wèn)題的答案進(jìn)行訓(xùn)練，分別在問(wèn)題和答案兩類文本上構(gòu)建基分類器，后續(xù)通過(guò)對(duì)兩個(gè)基分類器進(jìn)行融合，得到最終的主客觀分類器?？梢?jiàn)，本發(fā)明在主客觀分類中加入了答案分類，通過(guò)結(jié)合答案特征對(duì)問(wèn)題分類進(jìn)行補(bǔ)正、校準(zhǔn)，實(shí)現(xiàn)了基于問(wèn)題與答案互補(bǔ)的主客觀分類，規(guī)避了因問(wèn)題訓(xùn)練樣本的歧義性而導(dǎo)致分類器準(zhǔn)確率低的弊端，提高了利用主客觀分類器對(duì)問(wèn)題進(jìn)行分類的準(zhǔn)確率，進(jìn)而提升了問(wèn)答系統(tǒng)的性能。
【專利說(shuō)明】一種主客觀分類器構(gòu)建方法和系統(tǒng)

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于自然語(yǔ)言處理及模式識(shí)別【技術(shù)領(lǐng)域】，尤其涉及一種主客觀分類器構(gòu)建方法和系統(tǒng)。

【背景技術(shù)】
[0002] 自動(dòng)問(wèn)答技術(shù)是自然語(yǔ)言處理領(lǐng)域中的一個(gè)研究熱點(diǎn)，其一般包括三個(gè)主要組成部分：?jiǎn)栴}分類、信息檢索和答案抽取。
[0003] 問(wèn)題分類能夠有效地減少候選答案的空間，提高自動(dòng)問(wèn)答系統(tǒng)返回答案的準(zhǔn)確率。其中，主客觀分類是實(shí)現(xiàn)問(wèn)題分類的基礎(chǔ)，針對(duì)用戶提出的問(wèn)題，自動(dòng)問(wèn)答系統(tǒng)首先需對(duì)其進(jìn)行主客觀分類，后續(xù)在主客觀分類的基礎(chǔ)上對(duì)問(wèn)題的類別進(jìn)行進(jìn)一步細(xì)分。目前，主流的主客觀分類方法是基于機(jī)器學(xué)習(xí)的監(jiān)督分類方法，該方法實(shí)現(xiàn)主客觀分類的過(guò)程包括：訓(xùn)練過(guò)程和分類過(guò)程。其中，在訓(xùn)練過(guò)程中，人工標(biāo)注一定數(shù)目的主觀性問(wèn)題和客觀性問(wèn)題，作為標(biāo)注樣本，然后利用標(biāo)注樣本和機(jī)器學(xué)習(xí)分類方法（例如，支持向量機(jī)分類方法）訓(xùn)練主客觀分類器；后續(xù)利用訓(xùn)練所得的主客觀分類器對(duì)未知問(wèn)題進(jìn)行分類給出其主客觀類別。
[0004] 可見(jiàn)，現(xiàn)有主客觀分類器的構(gòu)建僅著眼于對(duì)問(wèn)題進(jìn)行訓(xùn)練，然而，有些問(wèn)題的類別可能會(huì)存在歧義，即其可能會(huì)因答案的不同而屬于不同的主客觀類別，從而導(dǎo)致最終訓(xùn)練所得的主客觀分類器的分類準(zhǔn)確率較低。

【發(fā)明內(nèi)容】

[0005] 有鑒于此，本發(fā)明的目的在于提供一種主客觀分類器構(gòu)建方法和系統(tǒng)，以克服現(xiàn) 有技術(shù)的上述問(wèn)題，提高主客觀分類器的分類準(zhǔn)確率，進(jìn)而提升問(wèn)答系統(tǒng)的性能。
[0006] 為此，本發(fā)明公開(kāi)如下技術(shù)方案：
[0007] -種主客觀分類器構(gòu)建方法，包括：
[0008] 利用預(yù)定個(gè)數(shù)的問(wèn)題訓(xùn)練樣本對(duì)第一預(yù)設(shè)分類算法進(jìn)行主、客觀分類訓(xùn)練，得到問(wèn)題基分類器；
[0009] 利用所述預(yù)定個(gè)數(shù)的答案訓(xùn)練樣本對(duì)第二預(yù)設(shè)分類算法進(jìn)行主、客觀分類訓(xùn)練，得到答案基分類器，其中，所述答案訓(xùn)練樣本與所述問(wèn)題訓(xùn)練樣本一一對(duì)應(yīng)，且一一對(duì)應(yīng)的問(wèn)題訓(xùn)練樣本與答案訓(xùn)練樣本為具有問(wèn)答關(guān)系的問(wèn)答對(duì)；
[0010] 依據(jù)預(yù)先設(shè)定的融合規(guī)則，對(duì)所述問(wèn)題基分類器、答案基分類器進(jìn)行融合，得到目標(biāo)主客觀分類器。
[0011] 上述方法，優(yōu)選的，所述第一預(yù)設(shè)分類算法及所述第二預(yù)設(shè)分類算法為支持向量機(jī)分類方法，所述融合規(guī)則為貝葉斯融合規(guī)則。
[0012] 上述方法，優(yōu)選的，所述第一預(yù)設(shè)分類算法利用問(wèn)題訓(xùn)練樣本的一元詞特征對(duì)問(wèn) 題訓(xùn)練樣本進(jìn)行主客觀分類；所述第二預(yù)設(shè)算法利用答案訓(xùn)練樣本的一元詞特征對(duì)答案訓(xùn) 練樣本進(jìn)行主客觀分類。
[0013] 上述方法，優(yōu)選的，還包括如下的預(yù)處理過(guò)程：
[0014] 抓取第一預(yù)設(shè)數(shù)量的問(wèn)答對(duì)；
[0015] 過(guò)濾掉參考價(jià)值較低的問(wèn)答對(duì)，其中參考價(jià)值較低的問(wèn)答對(duì)包括：人工無(wú)法判別問(wèn)題或答案的主客觀類別的問(wèn)答對(duì)和答非所問(wèn)、答案無(wú)效的問(wèn)答對(duì)；
[0016] 對(duì)過(guò)濾后所剩余問(wèn)答對(duì)的主客觀類別進(jìn)行人工標(biāo)注，其中，主觀類別問(wèn)答對(duì)的個(gè) 數(shù)與客觀類別問(wèn)答對(duì)的個(gè)數(shù)相同；
[0017] 從已標(biāo)注類別的問(wèn)答對(duì)中選取第二預(yù)設(shè)數(shù)量的問(wèn)答對(duì)作為測(cè)試樣本，其余問(wèn)答對(duì) 作為訓(xùn)練樣本，其中，測(cè)試樣本及訓(xùn)練樣本中主、客觀類別的問(wèn)答對(duì)數(shù)目相同。
[0018] 上述方法，優(yōu)選的，還包括：
[0019] 利用所述測(cè)試樣本驗(yàn)證所述目標(biāo)主客觀分類器的分類準(zhǔn)確率，并基于所述分類準(zhǔn) 確率評(píng)估所述目標(biāo)主客觀分類器的分類性能。
[0020] 上述方法，優(yōu)選的，所述利用測(cè)試樣本驗(yàn)證所述目標(biāo)主客觀分類器的分類準(zhǔn)確率，并基于所述分類準(zhǔn)確率評(píng)估所述目標(biāo)主客觀分類器的分類性能包括：
[0021] 利用所述目標(biāo)主客觀分類器，對(duì)所述測(cè)試樣本進(jìn)行主客觀分類；
[0022] 將利用所述目標(biāo)主客觀分類器分類所得的測(cè)試樣本的分類類別與所述測(cè)試樣本的標(biāo)注類別相比對(duì)，并獲取分類類別與標(biāo)注類別相同的測(cè)試樣本的個(gè)數(shù)^ ;
[0023] 基于式k = &/%，獲取所述目標(biāo)主客觀分類器的分類準(zhǔn)確率k，其中，％表示測(cè)試樣本的總個(gè)數(shù)；
[0024] 基于所述分類準(zhǔn)確率k評(píng)估所述目標(biāo)主客觀分類器的分類性能。
[0025] 一種主客觀分類器構(gòu)建系統(tǒng)，包括：
[0026] 第一訓(xùn)練模塊，用于利用預(yù)定個(gè)數(shù)的問(wèn)題訓(xùn)練樣本對(duì)第一預(yù)設(shè)分類算法進(jìn)行主、客觀分類訓(xùn)練，得到問(wèn)題基分類器；
[0027] 第二訓(xùn)練模塊，用于利用所述預(yù)定個(gè)數(shù)的答案訓(xùn)練樣本對(duì)第二預(yù)設(shè)分類算法進(jìn)行主、客觀分類訓(xùn)練，得到答案基分類器，其中，所述答案訓(xùn)練樣本與所述問(wèn)題訓(xùn)練樣本一一對(duì)應(yīng)，且一一對(duì)應(yīng)的問(wèn)題訓(xùn)練樣本與答案訓(xùn)練樣本為具有問(wèn)答關(guān)系的問(wèn)答對(duì)；
[0028] 融合模塊，用于依據(jù)預(yù)先設(shè)定的融合規(guī)則，對(duì)所述問(wèn)題基分類器、答案基分類器進(jìn) 行融合，得到目標(biāo)主客觀分類器。
[0029] 上述系統(tǒng)，優(yōu)選的，還包括預(yù)處理模塊，所述預(yù)處理模塊包括：
[0030] 抓取單元，用于抓取第一預(yù)設(shè)數(shù)量的問(wèn)答對(duì)；
[0031] 過(guò)濾單元，用于過(guò)濾掉參考價(jià)值較低的問(wèn)答對(duì)，其中參考價(jià)值較低的問(wèn)答對(duì)包括人工無(wú)法判別問(wèn)題或答案的主客觀類別的問(wèn)答對(duì)和答非所問(wèn)、答案無(wú)效的問(wèn)答對(duì)；
[0032] 標(biāo)注單元，用于對(duì)過(guò)濾后所剩余問(wèn)答對(duì)的主客觀類別進(jìn)行人工標(biāo)注，其中，主觀類別問(wèn)答對(duì)的個(gè)數(shù)與客觀類別問(wèn)答對(duì)的個(gè)數(shù)相同；
[0033] 選取單元，用于從已標(biāo)注類別的問(wèn)答對(duì)中選取第二預(yù)設(shè)數(shù)量的問(wèn)答對(duì)作為測(cè)試樣本，其余問(wèn)答對(duì)作為訓(xùn)練樣本，其中，測(cè)試樣本及訓(xùn)練樣本中主、客觀類別的問(wèn)答對(duì)數(shù)目相同。
[0034] 上述系統(tǒng)，優(yōu)選的，還包括：
[0035] 驗(yàn)證和評(píng)估模塊，用于利用所述測(cè)試樣本驗(yàn)證所述目標(biāo)主客觀分類器的分類準(zhǔn)確率，并基于所述分類準(zhǔn)確率評(píng)估所述目標(biāo)主客觀分類器的分類性能。
[0036] 上述系統(tǒng)，優(yōu)選的，所述驗(yàn)證和評(píng)估模塊包括：
[0037] 分類單元，用于利用所述目標(biāo)主客觀分類器，對(duì)所述的測(cè)試樣本進(jìn)行主客觀分類；
[0038] 比對(duì)單元，用于將利用所述目標(biāo)主客觀分類器分類所得的測(cè)試樣本的分類類別與所述測(cè)試樣本的標(biāo)注類別相比對(duì)，并獲取分類類別與標(biāo)注類別相同的測(cè)試樣本的個(gè)數(shù)^ ;
[0039] 計(jì)算單元，用于基于式k = n/rv計(jì)算所述目標(biāo)主客觀分類器的分類準(zhǔn)確率k，其中，1?表示測(cè)試樣本的總個(gè)數(shù)；
[0040] 評(píng)估單元，用于基于所述分類準(zhǔn)確率k評(píng)估所述目標(biāo)主客觀分類器的分類性能。
[0041] 由以上方案可知，本發(fā)明公開(kāi)的主客觀分類器構(gòu)建方法和系統(tǒng)，在著眼于對(duì)問(wèn)題進(jìn)行訓(xùn)練的同時(shí)，還著眼于對(duì)問(wèn)題的答案進(jìn)行訓(xùn)練，分別在問(wèn)題和答案兩類文本上構(gòu)建基分類器，后續(xù)通過(guò)對(duì)兩個(gè)基分類器進(jìn)行融合，得到最終的主客觀分類器?？梢?jiàn)，本發(fā)明在主客觀分類中加入了答案分類，通過(guò)結(jié)合答案特征對(duì)問(wèn)題分類進(jìn)行補(bǔ)正、校準(zhǔn)，實(shí)現(xiàn)了基于問(wèn) 題與答案互補(bǔ)的主客觀分類，規(guī)避了因問(wèn)題訓(xùn)練樣本的歧義性而導(dǎo)致分類器準(zhǔn)確率低的弊端，提高了利用主客觀分類器對(duì)問(wèn)題進(jìn)行分類的準(zhǔn)確率，進(jìn)而提升了問(wèn)答系統(tǒng)的性能。

【專利附圖】

【附圖說(shuō)明】
[0042] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見(jiàn)地，下面描述中的附圖僅僅是本發(fā)明的實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù) 提供的附圖獲得其他的附圖。
[0043] 圖1是本發(fā)明實(shí)施例一公開(kāi)的主客觀分類器構(gòu)建方法的一種流程圖；
[0044] 圖2是本發(fā)明實(shí)施例一公開(kāi)的預(yù)處理過(guò)程流程圖；
[0045] 圖3是本發(fā)明實(shí)施例二公開(kāi)的主客觀分類器構(gòu)建方法的另一種流程圖；
[0046] 圖4是本發(fā)明實(shí)施例二公開(kāi)的四種分類器的分類準(zhǔn)確率曲線對(duì)比圖；
[0047] 圖5是本發(fā)明實(shí)施例三公開(kāi)的主客觀分類器構(gòu)建系統(tǒng)的一種結(jié)構(gòu)示意圖；
[0048] 圖6是本發(fā)明實(shí)施例三公開(kāi)的主客觀分類器構(gòu)建系統(tǒng)的另一種結(jié)構(gòu)示意圖；
[0049] 圖7是本發(fā)明實(shí)施例三公開(kāi)的主客觀分類器構(gòu)建系統(tǒng)的又一種結(jié)構(gòu)示意圖。

【具體實(shí)施方式】
[0050] 為了引用和清楚起見(jiàn)，下文中使用的技術(shù)名詞、簡(jiǎn)寫或縮寫總結(jié)解釋如下：
[0051] 主客觀分類：是將文本分為主觀性文本或者客觀性文本的任務(wù)。
[0052] 主觀性文本：是指對(duì)于非事實(shí)進(jìn)行描述的文本，在文本中會(huì)帶有發(fā)表者的個(gè)人情感傾向。例如，"送懷孕班主任什么禮物好？送康乃馨吧"為主觀性文本。
[0053] 客觀性文本：是指作者對(duì)于事件、對(duì)象等進(jìn)行基于事實(shí)的描述，不帶有個(gè)人的好惡或偏見(jiàn)等個(gè)人情感傾向。例如，"淘寶從什么時(shí)候開(kāi)的？ 2003年5月10日投資創(chuàng)立"為客觀性文本。
[0054] -元模型（Unigram):-元詞特征，例如"秦羊奶粉怎么認(rèn)真假"分詞成：'秦'、 '羊'、'奶粉'、'怎么'、'認(rèn)'、'真假'。
[0055] 二元模型（Bigram):二元詞特征，將上述一元詞特征前后兩兩結(jié)合，例如：'秦_ 羊'、'羊_奶粉'、'奶粉_怎么'、'怎么_認(rèn)'、'認(rèn)_真'、'真_假'。
[0056] Unigram+Bigram :在一元詞特征的基礎(chǔ)上，加入二元詞特征，例如"秦羊奶粉怎么認(rèn)真假"的Unigram+Bigram特征為：'秦'、'羊'......'認(rèn)'、'真假'、'秦_羊'、'羊_奶粉'……'認(rèn)_真假"從包裝、粉質(zhì)、顏色來(lái)辨別"的Unigram+Bigram特征為：'從'、'包裝'……'來(lái)'、'辨別'、'從_包裝'、'包裝_粉質(zhì)'……'來(lái)_辨別'。
[0057] 機(jī)器學(xué)習(xí)分類方法（Classification Methods Based on Machine Learning):用于構(gòu)建分類器的統(tǒng)計(jì)學(xué)習(xí)方法，輸入是表示樣本的向量，輸出是樣本的類別標(biāo)簽。根據(jù)學(xué)習(xí) 算法的不同，常見(jiàn)的分類方法有樸素貝葉斯、最大熵分類方法、支持向量機(jī)等分類方法，本發(fā)明采用支持向量機(jī)。
[0058] TF向量表示法：即文檔向量的分量為相應(yīng)的單詞在該文檔中出現(xiàn)的頻度。
[0059] 支持向量機(jī)分類方法（SVM):是在統(tǒng)計(jì)理論基礎(chǔ)上發(fā)展起來(lái)的一種新的通用學(xué)習(xí) 方法，它在結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的近似實(shí)現(xiàn)，因?yàn)樗瑫r(shí)是最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)和VC維的界。在主客觀分類任務(wù)中，這種分類方法得到了很大的應(yīng)用，相關(guān)的研究工作非常多。
[0060] 基分類器（Base Classifier):在多分類器系統(tǒng)（Multiple Classifier System)中，參與的每個(gè)分類器稱為基分類器。
[0061] 融合規(guī)則（Combining Rule):用于融合多個(gè)分類器結(jié)果的方法。
[0062] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；?本發(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。
[0063] 實(shí)施例一
[0064] 本實(shí)施例一公開(kāi)一種主客觀分類器構(gòu)建方法，參考圖1，所述方法可以包括以下步驟：
[0065] S101 :利用預(yù)定個(gè)數(shù)的問(wèn)題訓(xùn)練樣本對(duì)第一預(yù)設(shè)分類算法進(jìn)行主、客觀分類訓(xùn)練，得到問(wèn)題基分類器。
[0066] 參考圖2,在執(zhí)行本發(fā)明方法的各個(gè)步驟之前，需首先進(jìn)行如下的預(yù)處理過(guò)程： [0067] S201 :抓取第一預(yù)設(shè)數(shù)量的問(wèn)答對(duì)；
[0068] S202 :過(guò)濾掉參考價(jià)值較低的問(wèn)答對(duì)，其中參考價(jià)值較低的問(wèn)答對(duì)包括人工無(wú)法判別問(wèn)題或答案的主客觀類別的問(wèn)答對(duì)和答非所問(wèn)、答案無(wú)效的問(wèn)答對(duì)；
[0069] S203:對(duì)過(guò)濾后所剩余問(wèn)答對(duì)的主客觀類別進(jìn)行人工標(biāo)注，其中，主觀類別問(wèn)答對(duì) 的個(gè)數(shù)與客觀類別問(wèn)答對(duì)的個(gè)數(shù)相同；
[0070] S204:從已標(biāo)注類別的問(wèn)答對(duì)中選取第二預(yù)設(shè)數(shù)量的問(wèn)答對(duì)作為測(cè)試樣本，其余問(wèn)答對(duì)作為訓(xùn)練樣本，其中，測(cè)試樣本及訓(xùn)練樣本中主、客觀類別的問(wèn)答對(duì)數(shù)目相同。
[0071] 具體地，本實(shí)施例通過(guò)網(wǎng)絡(luò)爬蟲(chóng)程序從百度知道生活類別中抓取15000對(duì)高懸賞的問(wèn)答對(duì)，并基于如下原因過(guò)濾掉其中的一些問(wèn)答對(duì)：
[0072] a、不少問(wèn)題的答案太過(guò)簡(jiǎn)短，人工無(wú)法判別其主客觀類別；
[0073] b、許多問(wèn)題答非所問(wèn)，導(dǎo)致答案無(wú)效；
[0074] c、一些問(wèn)答對(duì)的內(nèi)容抓取不全，導(dǎo)致難以判別其主客觀類別。
[0075] 最終篩選出1300對(duì)參考價(jià)值較高的問(wèn)答對(duì)，并對(duì)其進(jìn)行主客觀類別的人工標(biāo)注，其中，1300對(duì)問(wèn)答對(duì)中，主、客觀問(wèn)答對(duì)的數(shù)目分別為650對(duì)。在此基礎(chǔ)上，從1300對(duì)問(wèn)答對(duì)中選出1000對(duì)作為訓(xùn)練樣本（500對(duì)主觀、500對(duì)客觀），其中，1000對(duì)問(wèn)答對(duì)中的1000 條問(wèn)題用于作為問(wèn)題訓(xùn)練樣本，1000條答案用于作為答案訓(xùn)練樣本；而剩余的300對(duì)問(wèn)答對(duì)作為測(cè)試樣本（150對(duì)主觀、150對(duì)客觀）。
[0076] 本實(shí)施例中，語(yǔ)料標(biāo)注具體由兩位不同標(biāo)注者參與。在實(shí)際標(biāo)注過(guò)程中，不同的標(biāo) 注者對(duì)語(yǔ)料主客觀類別的標(biāo)注可能存在不一致性，即不同標(biāo)注者可能會(huì)對(duì)相同語(yǔ)料有不同的標(biāo)注結(jié)果，具體地，諸如受人工失誤、理解偏差，或語(yǔ)料的類別本身存在歧義等各種因素的影響，均可導(dǎo)致標(biāo)注不一致現(xiàn)象的產(chǎn)生，參考表1，表1即提供了不同標(biāo)注者標(biāo)注不一致的示例。
[0077] 表 1
[0078]

【權(quán)利要求】
1. 一種主客觀分類器構(gòu)建方法，其特征在于，包括：利用預(yù)定個(gè)數(shù)的問(wèn)題訓(xùn)練樣本對(duì)第一預(yù)設(shè)分類算法進(jìn)行主、客觀分類訓(xùn)練，得到問(wèn)題基分類器；利用所述預(yù)定個(gè)數(shù)的答案訓(xùn)練樣本對(duì)第二預(yù)設(shè)分類算法進(jìn)行主、客觀分類訓(xùn)練，得到答案基分類器，其中，所述答案訓(xùn)練樣本與所述問(wèn)題訓(xùn)練樣本一一對(duì)應(yīng)，且一一對(duì)應(yīng)的問(wèn)題訓(xùn)練樣本與答案訓(xùn)練樣本為具有問(wèn)答關(guān)系的問(wèn)答對(duì)；依據(jù)預(yù)先設(shè)定的融合規(guī)則，對(duì)所述問(wèn)題基分類器、答案基分類器進(jìn)行融合，得到目標(biāo)主客觀分類器。
2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述第一預(yù)設(shè)分類算法及所述第二預(yù)設(shè) 分類算法為支持向量機(jī)分類方法，所述融合規(guī)則為貝葉斯融合規(guī)則。
3. 根據(jù)權(quán)利要求2所述的方法，其特征在于，所述第一預(yù)設(shè)分類算法利用問(wèn)題訓(xùn)練樣本的一元詞特征對(duì)問(wèn)題訓(xùn)練樣本進(jìn)行主客觀分類；所述第二預(yù)設(shè)算法利用答案訓(xùn)練樣本的一元詞特征對(duì)答案訓(xùn)練樣本進(jìn)行主客觀分類。
4. 根據(jù)權(quán)利要求1所述的方法，其特征在于，還包括如下的預(yù)處理過(guò)程：抓取第一預(yù)設(shè)數(shù)量的問(wèn)答對(duì)；過(guò)濾掉參考價(jià)值較低的問(wèn)答對(duì)，其中參考價(jià)值較低的問(wèn)答對(duì)包括：人工無(wú)法判別問(wèn)題或答案的主客觀類別的問(wèn)答對(duì)和答非所問(wèn)、答案無(wú)效的問(wèn)答對(duì)；對(duì)過(guò)濾后所剩余問(wèn)答對(duì)的主客觀類別進(jìn)行人工標(biāo)注，其中，主觀類別問(wèn)答對(duì)的個(gè)數(shù)與客觀類別問(wèn)答對(duì)的個(gè)數(shù)相同；從已標(biāo)注類別的問(wèn)答對(duì)中選取第二預(yù)設(shè)數(shù)量的問(wèn)答對(duì)作為測(cè)試樣本，其余問(wèn)答對(duì)作為訓(xùn)練樣本，其中，測(cè)試樣本及訓(xùn)練樣本中主、客觀類別的問(wèn)答對(duì)數(shù)目相同。
5. 根據(jù)權(quán)利要求4所述的方法，其特征在于，還包括：利用所述測(cè)試樣本驗(yàn)證所述目標(biāo)主客觀分類器的分類準(zhǔn)確率，并基于所述分類準(zhǔn)確率評(píng)估所述目標(biāo)主客觀分類器的分類性能。
6. 根據(jù)權(quán)利要求5所述的方法，其特征在于，所述利用測(cè)試樣本驗(yàn)證所述目標(biāo)主客觀分類器的分類準(zhǔn)確率，并基于所述分類準(zhǔn)確率評(píng)估所述目標(biāo)主客觀分類器的分類性能包括：利用所述目標(biāo)主客觀分類器，對(duì)所述測(cè)試樣本進(jìn)行主客觀分類；將利用所述目標(biāo)主客觀分類器分類所得的測(cè)試樣本的分類類別與所述測(cè)試樣本的標(biāo) 注類別相比對(duì)，并獲取分類類別與標(biāo)注類別相同的測(cè)試樣本的個(gè)數(shù)^ ; 基于式k = n/rv獲取所述目標(biāo)主客觀分類器的分類準(zhǔn)確率k，其中，％表示測(cè)試樣本的總個(gè)數(shù)；基于所述分類準(zhǔn)確率k評(píng)估所述目標(biāo)主客觀分類器的分類性能。
7. -種主客觀分類器構(gòu)建系統(tǒng)，其特征在于，包括：第一訓(xùn)練模塊，用于利用預(yù)定個(gè)數(shù)的問(wèn)題訓(xùn)練樣本對(duì)第一預(yù)設(shè)分類算法進(jìn)行主、客觀分類訓(xùn)練，得到問(wèn)題基分類器；第二訓(xùn)練模塊，用于利用所述預(yù)定個(gè)數(shù)的答案訓(xùn)練樣本對(duì)第二預(yù)設(shè)分類算法進(jìn)行主、客觀分類訓(xùn)練，得到答案基分類器，其中，所述答案訓(xùn)練樣本與所述問(wèn)題訓(xùn)練樣本一一對(duì) 應(yīng)，且一一對(duì)應(yīng)的問(wèn)題訓(xùn)練樣本與答案訓(xùn)練樣本為具有問(wèn)答關(guān)系的問(wèn)答對(duì)；融合模塊，用于依據(jù)預(yù)先設(shè)定的融合規(guī)則，對(duì)所述問(wèn)題基分類器、答案基分類器進(jìn)行融合，得到目標(biāo)主客觀分類器。
8. 根據(jù)權(quán)利要求7所述的系統(tǒng)，其特征在于，還包括預(yù)處理模塊，所述預(yù)處理模塊包括：抓取單元，用于抓取第一預(yù)設(shè)數(shù)量的的問(wèn)答對(duì)；過(guò)濾單元，用于過(guò)濾掉參考價(jià)值較低的問(wèn)答對(duì)，其中參考價(jià)值較低的問(wèn)答對(duì)包括人工無(wú)法判別問(wèn)題或答案的主客觀類別的問(wèn)答對(duì)和答非所問(wèn)、答案無(wú)效的問(wèn)答對(duì)；標(biāo)注單元，用于對(duì)過(guò)濾后所剩余問(wèn)答對(duì)的主客觀類別進(jìn)行人工標(biāo)注，其中，主觀類別問(wèn) 答對(duì)的個(gè)數(shù)與客觀類別問(wèn)答對(duì)的個(gè)數(shù)相同；選取單元，用于從已標(biāo)注類別的問(wèn)答對(duì)中選取第二預(yù)設(shè)數(shù)量的問(wèn)答對(duì)作為測(cè)試樣本，其余問(wèn)答對(duì)作為訓(xùn)練樣本，其中，測(cè)試樣本及訓(xùn)練樣本中主、客觀類別的問(wèn)答對(duì)數(shù)目相同。
9. 根據(jù)權(quán)利要求8所述的系統(tǒng)，其特征在于，還包括：驗(yàn)證和評(píng)估模塊，用于利用所述測(cè)試樣本驗(yàn)證所述目標(biāo)主客觀分類器的分類準(zhǔn)確率，并基于所述分類準(zhǔn)確率評(píng)估所述目標(biāo)主客觀分類器的分類性能。
10. 根據(jù)權(quán)利要求9所述的系統(tǒng)，其特征在于，所述驗(yàn)證和評(píng)估模塊包括：分類單元，用于利用所述目標(biāo)主客觀分類器，對(duì)所述的測(cè)試樣本進(jìn)行主客觀分類；比對(duì)單元，用于將利用所述目標(biāo)主客觀分類器分類所得的測(cè)試樣本的分類類別與所述測(cè)試樣本的標(biāo)注類別相比對(duì)，并獲取分類類別與標(biāo)注類別相同的測(cè)試樣本的個(gè)數(shù)^ ; 計(jì)算單元，用于基于式k = h/rv計(jì)算所述目標(biāo)主客觀分類器的分類準(zhǔn)確率k，其中，％表示測(cè)試樣本的總個(gè)數(shù)；評(píng)估單元，用于基于所述分類準(zhǔn)確率k評(píng)估所述目標(biāo)主客觀分類器的分類性能。
【文檔編號(hào)】G06F17/28GK104268134SQ201410508281
【公開(kāi)日】2015年1月7日申請(qǐng)日期:2014年9月28日優(yōu)先權(quán)日:2014年9月28日
【發(fā)明者】李壽山, 張棟, 周國(guó)棟申請(qǐng)人:蘇州大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李壽山;張棟;周國(guó)棟
技術(shù)所有人：蘇州大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

評(píng)價(jià)分類器的方法相關(guān)技術(shù)

構(gòu)建系統(tǒng)發(fā)育樹(shù)的方法相關(guān)技術(shù)

系統(tǒng)發(fā)育樹(shù)構(gòu)建方法相關(guān)技術(shù)

電子商務(wù)系統(tǒng)構(gòu)建方法相關(guān)技術(shù)

貝葉斯分類器相關(guān)技術(shù)

分類器相關(guān)技術(shù)

svm分類器相關(guān)技術(shù)

樸素貝葉斯分類器相關(guān)技術(shù)

softmax分類器相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種主客觀分類器構(gòu)建方法和系統(tǒng)的制作方法