本發(fā)明涉及一種文本分類,特別涉及一種基于決策樹(shù)和svm(支持向量機(jī))混合模型的中文句型分類方法。
背景技術(shù):
現(xiàn)今時(shí)代互聯(lián)網(wǎng)發(fā)展迅速,信息急劇膨脹,充斥著人們的生活。微博、微信、論壇等信息發(fā)布和社交網(wǎng)絡(luò)平臺(tái),在各個(gè)方面滲透著人們的生活,已然成為人們獲取信息、交流互動(dòng)、發(fā)表觀點(diǎn)的平臺(tái)?;ヂ?lián)網(wǎng)上的中文文本信息傳播量大、類型多樣、更新快,隨著情報(bào)加工的深入,對(duì)文本數(shù)據(jù)精確判斷的要求也越來(lái)越高。在分析中文句子時(shí),不同句型即使使用類似的關(guān)鍵詞,表達(dá)的含義仍有很大差別,特別是在情感判斷中,更需要精準(zhǔn)判斷關(guān)鍵詞的作用。因此,通過(guò)精準(zhǔn)的句法分析對(duì)這些中文文本進(jìn)行句型判別成為一個(gè)熱門(mén)的研究話題。上述問(wèn)題是一個(gè)文本多分類問(wèn)題,即判斷句子是屬于疑問(wèn)句、否定句,還是屬于其他類別。問(wèn)題看似簡(jiǎn)單,實(shí)際上卻存在許多難點(diǎn)。第一,中文的語(yǔ)法靈活多變,句法復(fù)雜多樣;句子中不僅包含了多種句法成分,而且不同句法成分的搭配生成了各種各樣的語(yǔ)義,導(dǎo)致句子難以統(tǒng)一歸納分析。第二,句子中的某些詞語(yǔ)對(duì)句子類型起到了關(guān)鍵作用,但這些關(guān)鍵詞在不同語(yǔ)境下有不同語(yǔ)義,發(fā)揮著不同的作用,造成了一詞多義的難題;第三,來(lái)自微博、論壇等社交網(wǎng)絡(luò)平臺(tái)的中文文本,絕大部分都是口語(yǔ)化的句子;這些句子有的缺少完整的句法成分,有的存在明顯的語(yǔ)法錯(cuò)誤,有的甚至不符合口語(yǔ)化的使用規(guī)律,導(dǎo)致難以按照正確的語(yǔ)法規(guī)則來(lái)分析,極大地增加了挑戰(zhàn)性。
當(dāng)前常用的分類算法主要有:
決策樹(shù):決策樹(shù)是用于分類和預(yù)測(cè)的主要技術(shù)之一,決策樹(shù)學(xué)習(xí)是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,它著眼于從一組無(wú)次序、無(wú)規(guī)則的實(shí)例中推理出以決策樹(shù)表示的分類規(guī)則。構(gòu)造決策樹(shù)的目的是找出屬性和類別間的關(guān)系,用它來(lái)預(yù)測(cè)將來(lái)未知類別的記錄的類別。它采用自頂向下的遞歸方式,在決策樹(shù)的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性的比較,并根據(jù)不同屬性值判斷從該節(jié)點(diǎn)向下的分支,在決策樹(shù)的葉節(jié)點(diǎn)得到結(jié)論。主要的決策樹(shù)算法有id3、c4.5(c5.0)、cart、public、sliq和sprint算法等。它們?cè)谶x擇測(cè)試屬性采用的技術(shù)、生成的決策樹(shù)的結(jié)構(gòu)、剪枝的方法以及時(shí)刻,能否處理大數(shù)據(jù)集等方面都有各自的不同之處。
貝葉斯算法:貝葉斯(bayes)分類算法是一類利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類的算法,如樸素貝葉斯(naivebayes)算法。這些算法主要利用bayes定理來(lái)預(yù)測(cè)一個(gè)未知類別的樣本屬于各個(gè)類別的可能性,選擇其中可能性最大的一個(gè)類別作為該樣本的最終類別。由于貝葉斯定理的成立本身需要一個(gè)很強(qiáng)的條件獨(dú)立性假設(shè)前提,而此假設(shè)在實(shí)際情況中經(jīng)常是不成立的,因而其分類準(zhǔn)確性就會(huì)下降。為此就出現(xiàn)了許多降低獨(dú)立性假設(shè)的貝葉斯分類算法,如tan(treeaugmentednaivebayes)算法,它是在貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上增加屬性對(duì)之間的關(guān)聯(lián)來(lái)實(shí)現(xiàn)的。
k-近鄰算法:k-近鄰(knn,k-nearestneighbors)算法是一種基于實(shí)例的分類方法。該方法就是找出與未知樣本x距離最近的k個(gè)訓(xùn)練樣本,看這k個(gè)樣本中多數(shù)屬于哪一類,就把x歸為那一類。k-近鄰方法是一種懶惰學(xué)習(xí)方法,它存放樣本,直到需要分類時(shí)才進(jìn)行分類,如果樣本集比較復(fù)雜,可能會(huì)導(dǎo)致很大的計(jì)算開(kāi)銷,因此無(wú)法應(yīng)用到實(shí)時(shí)性很強(qiáng)的場(chǎng)合。
支持向量機(jī):支持向量機(jī)(svm,supportvectormachine)是vapnik根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論提出的一種新的學(xué)習(xí)方法,它的最大特點(diǎn)是根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則,以最大化分類間隔構(gòu)造最優(yōu)分類超平面來(lái)提高學(xué)習(xí)機(jī)的泛化能力,較好地解決了非線性、高維數(shù)、局部極小點(diǎn)等問(wèn)題。對(duì)于分類問(wèn)題,svm算法根據(jù)區(qū)域中的樣本計(jì)算該區(qū)域的決策曲面,由此確定該區(qū)域中未知樣本的類別。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提供一種基于決策樹(shù)和svm混合模型的中文句型分類方法,該方法將首先通過(guò)特殊陳述句決策樹(shù)、疑問(wèn)句決策樹(shù)和否定句決策樹(shù)對(duì)句子進(jìn)行句型判定,在未判定出結(jié)果的情況下,再采用svm分類器進(jìn)行判定,本發(fā)明方法以決策樹(shù)算法為核心,以svm算法為輔助,可以很好地解決傳統(tǒng)決策樹(shù)模型無(wú)法判斷的特殊點(diǎn),提升句型分類的準(zhǔn)確率。
本發(fā)明的目的通過(guò)下述技術(shù)方案實(shí)現(xiàn):一種基于決策樹(shù)和svm混合模型的中文句型分類方法,其特征在于,步驟如下:
s1、獲取到多個(gè)訓(xùn)練樣本,并且人工標(biāo)注出各個(gè)訓(xùn)練樣本的句型,得到訓(xùn)練樣本集;訓(xùn)練樣本集中包括特殊陳述句句型、疑問(wèn)句句型和否定句句型的訓(xùn)練樣本;
s2、構(gòu)建特殊陳述句決策樹(shù),首先根據(jù)已知的中文語(yǔ)法規(guī)則以及訓(xùn)練樣本集中各類特殊陳述句訓(xùn)練樣本所具備的特征獲取到特殊陳述句的判定規(guī)則,根據(jù)上述判定規(guī)則構(gòu)建得到特殊陳述句決策樹(shù);其中根據(jù)特殊陳述句句型具備的特征將其分為非正常句、任指型陳述句、否定假設(shè)句和反問(wèn)句,具體如下:將句子為空、句子只有一個(gè)符號(hào)或句子長(zhǎng)度超過(guò)一定值句子定義為非正常句;將句中包括任指連詞的句子定義為任指型陳述句;將句中包括否定假設(shè)詞的句子定義為否定假設(shè)句;將句中包括反問(wèn)詞的句子定義為反問(wèn)句;
構(gòu)建疑問(wèn)句決策樹(shù),首先根據(jù)已知的中文語(yǔ)法規(guī)則以及訓(xùn)練樣本集中各類疑問(wèn)句訓(xùn)練樣本所具備的特征獲取到疑問(wèn)句的判定規(guī)則,根據(jù)上述判定規(guī)則構(gòu)建得到疑問(wèn)句決策樹(shù);其中根據(jù)疑問(wèn)句句型所具備的特征將其分為是非疑問(wèn)句、選擇疑問(wèn)句、正反疑問(wèn)句和特殊疑問(wèn)句;
構(gòu)建否定句決策樹(shù),首先提取訓(xùn)練集中否定句訓(xùn)練樣本謂語(yǔ)中心語(yǔ)及狀語(yǔ),通過(guò)上述提取的謂語(yǔ)中心語(yǔ)及狀語(yǔ)獲取到否定句訓(xùn)練樣本所具備的以下特征:否定詞、狀語(yǔ)、謂語(yǔ)否定詞數(shù)量、狀語(yǔ)否定詞數(shù)量、狀語(yǔ)否定詞修飾謂語(yǔ)否定詞;然后根據(jù)已知的中文語(yǔ)法規(guī)則以及訓(xùn)練樣本集中否定句訓(xùn)練樣本所具備的特征獲取到否定句的判定規(guī)則,最后根據(jù)否定句的判定規(guī)則和否定句訓(xùn)練樣本所具備的特征訓(xùn)練得到否定句決策樹(shù);
s3、構(gòu)建svm分類器,具體步驟如下:
s31、將訓(xùn)練樣本集中的各個(gè)訓(xùn)練樣本首先分別輸入至步驟s2中構(gòu)建得到的特殊陳述句決策樹(shù)、疑問(wèn)句決策樹(shù)和否定句決策樹(shù)中,獲取到上述三個(gè)決策樹(shù)均不能判定出結(jié)果的訓(xùn)練樣本;
s32、針對(duì)步驟s31獲取到的這些訓(xùn)練樣本,根據(jù)第一疑問(wèn)詞詞典和否定詞詞典,識(shí)別出每個(gè)訓(xùn)練樣本中的疑問(wèn)詞、及其前置詞性和后置詞性,其中疑問(wèn)詞前置詞性和后置詞性分別指的是疑問(wèn)詞相鄰前面詞的詞性和相鄰后面詞的詞性;識(shí)別出每個(gè)訓(xùn)練樣本中的否定詞、及其前置詞性和后置詞性,其中否定前置詞性和后置詞性分別指的是否定詞相鄰前面詞的詞性和相鄰后面詞的詞性;識(shí)別出每個(gè)訓(xùn)練樣本中的疑問(wèn)詞和否定詞的相對(duì)位置,識(shí)別出每個(gè)訓(xùn)練樣本中否定詞的個(gè)數(shù);所述第一疑問(wèn)詞詞典包括疑問(wèn)代詞和副詞;
s33、根據(jù)步驟s31獲取到的這些訓(xùn)練樣本的人工標(biāo)注的句型,采用數(shù)據(jù)統(tǒng)計(jì)法統(tǒng)計(jì)出訓(xùn)練樣本中出現(xiàn)某個(gè)疑問(wèn)詞時(shí)句子成為疑問(wèn)句的概率,出現(xiàn)某個(gè)疑問(wèn)詞和某種前置詞性搭配時(shí)句子為疑問(wèn)句的概率;出現(xiàn)某個(gè)疑問(wèn)詞和某種后置詞性搭配時(shí)句子為疑問(wèn)句的概率;然后將出現(xiàn)某個(gè)疑問(wèn)詞和某種前置詞性搭配時(shí)句子為疑問(wèn)句的概率除以出現(xiàn)某個(gè)疑問(wèn)詞時(shí)句子成為疑問(wèn)句的概率得到出現(xiàn)某個(gè)疑問(wèn)詞和某種前置詞性搭配時(shí)句子為疑問(wèn)句的條件概率;將出現(xiàn)某個(gè)疑問(wèn)詞和某種后置詞性搭配時(shí)句子為疑問(wèn)句的概率除以出現(xiàn)某個(gè)疑問(wèn)詞時(shí)句子成為疑問(wèn)句的概率得到出現(xiàn)某個(gè)疑問(wèn)詞和某種后置詞性搭配時(shí)句子為疑問(wèn)句的條件概率;
s34、根據(jù)步驟s31獲取到的這些訓(xùn)練樣本的人工標(biāo)注的句型,采用數(shù)據(jù)統(tǒng)計(jì)法統(tǒng)計(jì)出訓(xùn)練樣本中出現(xiàn)某個(gè)否定詞時(shí)句子成為否定句的概率,出現(xiàn)某個(gè)否定詞和某種前置詞性搭配時(shí)句子為否定句的概率;出現(xiàn)某個(gè)否定詞和某種后置詞性搭配時(shí)句子為否定句的概率;然后將出現(xiàn)某個(gè)否定詞和某種前置詞性搭配時(shí)句子為否定句的概率除以出現(xiàn)某個(gè)否定詞時(shí)句子成為否定句的概率得到出現(xiàn)某個(gè)否定詞和某種前置詞性搭配時(shí)句子為否定句的條件概率;將出現(xiàn)某個(gè)否定詞和某種后置詞性搭配時(shí)句子為否定句的概率除以出現(xiàn)某個(gè)否定詞時(shí)句子成為否定句的概率得到出現(xiàn)某個(gè)否定詞和某種后置詞性搭配時(shí)句子為否定句的條件概率;
s35、根據(jù)步驟s31獲取到的這些訓(xùn)練樣本的人工標(biāo)注的句型,采用數(shù)據(jù)統(tǒng)計(jì)法統(tǒng)計(jì)出訓(xùn)練樣本中出現(xiàn)某個(gè)疑問(wèn)詞在前而某個(gè)否定詞在后時(shí)句子分別成為疑問(wèn)句和否定句的概率,出現(xiàn)某個(gè)否定詞在前而某個(gè)疑問(wèn)詞在后時(shí)句子分別成為疑問(wèn)句和否定句的概率;
s36、針對(duì)于步驟s31獲取到的三個(gè)決策樹(shù)均不能判定出結(jié)果的訓(xùn)練樣本,通過(guò)以下步驟提取出這些訓(xùn)練樣本中每個(gè)訓(xùn)練樣本的特征,具體如下:
s361、當(dāng)訓(xùn)練樣本中識(shí)別出疑問(wèn)詞時(shí),分別獲取到該疑問(wèn)詞的前置詞性和后置詞性,然后通過(guò)步驟s33獲取到出現(xiàn)該疑問(wèn)詞和該前置詞性時(shí)句子成為疑問(wèn)句的概率,作為訓(xùn)練樣本第一特征值;同時(shí)通過(guò)步驟s33獲取到出現(xiàn)該疑問(wèn)詞和該后置詞性時(shí)句子成為疑問(wèn)句的概率,作為訓(xùn)練樣的第二特征值;當(dāng)訓(xùn)練樣本未出現(xiàn)疑問(wèn)詞時(shí),則訓(xùn)練樣本的第一特征值和訓(xùn)練樣本的第二特征值分別為零;
s362、當(dāng)訓(xùn)練樣本中識(shí)別出否定詞時(shí),統(tǒng)計(jì)否定詞的個(gè)數(shù),將否定詞的個(gè)數(shù)作為訓(xùn)練樣本的第三特征值;同時(shí)分別獲取到該否定詞的前置詞性和后置詞性,然后通過(guò)步驟s34獲取到出現(xiàn)該否定詞和該前置詞性時(shí)句子成為否定句的概率,作為訓(xùn)練樣本的第四特征值;同時(shí)通過(guò)步驟s34獲取到出現(xiàn)該否定詞和該后置詞性時(shí)句子成為否定句的概率,作為訓(xùn)練樣本的第五特征值;當(dāng)訓(xùn)練樣本未出現(xiàn)否定詞時(shí),則訓(xùn)練樣本對(duì)應(yīng)的第四特征值和第五特征值分別為零;
s363、當(dāng)訓(xùn)練樣本中同時(shí)識(shí)別出疑問(wèn)詞和否定詞時(shí),獲取該疑問(wèn)詞和該否定詞的相對(duì)位置,將該相對(duì)位置作為訓(xùn)練樣本的第六特征值;訓(xùn)練樣本中若該疑問(wèn)詞在前而該否定詞在后,則通過(guò)步驟s35獲取到出現(xiàn)該疑問(wèn)詞在前而該否定詞在后時(shí)句子分別成為疑問(wèn)句和否定句的概率,且分別作為訓(xùn)練樣本的第七特征值和第八特征值;訓(xùn)練樣本中若該否定詞在前而該疑問(wèn)詞在后,則通過(guò)步驟s35獲取到出現(xiàn)該否定詞在前而該疑問(wèn)詞在后時(shí)句子分別成為疑問(wèn)句和否定句的概率,且分別作為訓(xùn)練樣本的第七特征值和第八特征值;
s37、將步驟s36中獲取到的訓(xùn)練樣本的第一特征值、第二特征值、第三特征值、第四特征值、第五特征值、第六特征值、第七特征值和第八特征值分別作為輸入對(duì)svm進(jìn)行訓(xùn)練,得到svm分類器;
s4、當(dāng)獲取到測(cè)試文本數(shù)據(jù)時(shí),首先進(jìn)行數(shù)據(jù)預(yù)處理得到測(cè)試樣本,然后將測(cè)試樣本輸入至步驟s2構(gòu)建得到的特殊陳述句決策樹(shù)中,通過(guò)特殊陳述句決策樹(shù)判斷測(cè)試樣本句型,若特殊陳述句決策樹(shù)未能判定出測(cè)試樣本,那么進(jìn)行步驟s5的處理;
s5、首先根據(jù)第二疑問(wèn)詞詞典和否定詞詞典判斷測(cè)試樣本中是否有疑問(wèn)詞和否定詞,若測(cè)試樣本中只有疑問(wèn)詞而沒(méi)有否定詞,則將測(cè)試樣本作為候選疑問(wèn)句,進(jìn)入步驟s6;若測(cè)試樣本只有否定詞而沒(méi)有疑問(wèn)詞,則將測(cè)試樣本作為候選否定句,進(jìn)入步驟s7;若測(cè)試樣本中既有否定詞又有疑問(wèn)詞,則進(jìn)入步驟s8;其中第二疑問(wèn)詞詞典為第一疑問(wèn)詞詞典基礎(chǔ)上加上疑問(wèn)語(yǔ)氣詞后得到的詞典;
s6、將測(cè)試樣本輸入至步驟s2構(gòu)建的疑問(wèn)句決策樹(shù),通過(guò)疑問(wèn)句決策樹(shù)對(duì)測(cè)試樣本的句型進(jìn)行判定,輸出測(cè)試樣樣本的句型判定結(jié)果,若疑問(wèn)句決策樹(shù)未能輸出測(cè)試樣本的句型判定結(jié)果,則將測(cè)試樣本進(jìn)行步驟s8的處理;
s7、提取出測(cè)試樣本的謂語(yǔ)以及修飾該謂語(yǔ)的狀語(yǔ),并且輸入至步驟s2中構(gòu)建的否定句決策樹(shù),否定句決策樹(shù)根據(jù)測(cè)試樣本的謂語(yǔ)以及修飾該謂語(yǔ)的狀語(yǔ)對(duì)測(cè)試樣本的句型進(jìn)行判定,輸出判定結(jié)果,若否定句決策樹(shù)未能輸出測(cè)試樣本的判定結(jié)果,則將測(cè)試樣本進(jìn)行步驟s8的處理;
s8、通過(guò)第一疑問(wèn)詞詞典和否定詞詞典分別識(shí)別出測(cè)試樣本中的疑問(wèn)詞和否定詞,然后通過(guò)以下步驟提取出測(cè)試樣本的特征;
s81、當(dāng)測(cè)試樣本中有疑問(wèn)詞時(shí),分別獲取到該疑問(wèn)詞的前置詞性和后置詞性,然后通過(guò)步驟s33獲取到出現(xiàn)該疑問(wèn)詞和該前置詞性時(shí)句子成為疑問(wèn)句的概率,作為測(cè)試樣本第一特征值;同時(shí)通過(guò)步驟s33獲取到出現(xiàn)該疑問(wèn)詞和該后置詞性時(shí)句子成為疑問(wèn)句的概率,作為測(cè)試樣本的第二特征值;當(dāng)測(cè)試樣本未出現(xiàn)疑問(wèn)詞時(shí),則測(cè)試樣本的第一特征值和第二特征值分別為零;
s82、當(dāng)測(cè)試樣本中有否定詞時(shí),統(tǒng)計(jì)否定詞的個(gè)數(shù),將否定詞的個(gè)數(shù)作為測(cè)試樣本的第三特征值;同時(shí)分別獲取到該否定詞的前置詞性和后置詞性,然后通過(guò)步驟s34獲取到出現(xiàn)該否定詞和該前置詞性時(shí)句子成為否定句的概率,作為測(cè)試的第四特征值;同時(shí)通過(guò)步驟s34獲取到出現(xiàn)該否定詞和該后置詞性時(shí)句子成為否定句的概率,作為測(cè)試樣本的第五特征值;當(dāng)測(cè)試樣本未出現(xiàn)否定詞時(shí),則測(cè)試樣本的第四特征值和第五特征值分別為零;
s83、當(dāng)測(cè)試樣本中同時(shí)有疑問(wèn)詞和否定詞時(shí),獲取該疑問(wèn)詞和該否定詞的相對(duì)位置,將該相對(duì)位置作為測(cè)試樣本的第六特征值;測(cè)試樣本中若該疑問(wèn)詞在前而該否定詞在后,則通過(guò)步驟s35獲取到出現(xiàn)該疑問(wèn)詞在前而該否定詞在后時(shí)句子分別成為疑問(wèn)句和否定句的概率,且分別作為測(cè)試樣本的第七特征值和第八特征值;測(cè)試樣本中若該否定詞在前而該疑問(wèn)詞在后,則通過(guò)步驟s35獲取到出現(xiàn)該否定詞在前而該疑問(wèn)詞在后時(shí)句子分別成為疑問(wèn)句和否定句的概率,且分別作為測(cè)試樣本的第七特征值和第八特征值;
s9、將測(cè)試樣本的第一特征值、第二特征值、第三特征值、第四特征值、第五特征值、第六特征值、第七特征值和第八特征值分別輸入至步驟s364訓(xùn)練好的svm分類器中,通過(guò)svm分類器的輸出獲取到測(cè)試樣本的句型判定結(jié)果。
優(yōu)選的,所述步驟s2中在構(gòu)建特殊陳述句決策樹(shù)時(shí),當(dāng)根據(jù)已知的中文語(yǔ)法規(guī)則以及訓(xùn)練樣本集中疑問(wèn)句訓(xùn)練樣本所具備的特征獲取到疑問(wèn)句的判定規(guī)則時(shí),將訓(xùn)練樣本集中符合上述判定規(guī)則的特殊陳述句訓(xùn)練本輸入至上述判定規(guī)則進(jìn)行驗(yàn)證,若驗(yàn)證的準(zhǔn)確率達(dá)到設(shè)定閾值,則將對(duì)應(yīng)的判斷規(guī)則加入到?jīng)Q策樹(shù)中,從而獲取到特殊陳述句決策樹(shù)。
優(yōu)選的,所述步驟s2中在構(gòu)建疑問(wèn)句決策樹(shù)時(shí),將訓(xùn)練樣本集中符合上述判定規(guī)則的疑問(wèn)句訓(xùn)練樣本輸入至上述判定規(guī)則進(jìn)行驗(yàn)證,若驗(yàn)證的準(zhǔn)確率達(dá)到設(shè)定閾值,則將對(duì)應(yīng)的判斷規(guī)則加入到?jīng)Q策樹(shù)中,從而獲取到疑問(wèn)句決策樹(shù)。
優(yōu)選的,所述步驟s2中在構(gòu)建否定句決策樹(shù)時(shí),根據(jù)否定句的判定規(guī)則和否定句訓(xùn)練樣本所具備的特征,并且采用id3算法訓(xùn)練得到否定句決策樹(shù)。
更進(jìn)一步的,所述通過(guò)id3算法訓(xùn)練后,否定句決策樹(shù)從上至下每一層的特征分別為:判定是否存在否定詞、判定是否存在狀語(yǔ)、判定謂語(yǔ)否定詞數(shù)量、判定狀語(yǔ)否定詞數(shù)量、判定狀語(yǔ)否定詞是否修飾謂語(yǔ)否定詞。
優(yōu)選的,其特征在于,所述第二疑問(wèn)詞詞典為第一疑問(wèn)詞詞典的基礎(chǔ)上加入疑問(wèn)語(yǔ)氣詞“嗎、呢、吧、咩、捏、咯、?、?”后得到;
所述步驟s2中,將句中包含正反疑問(wèn)詞且正反疑問(wèn)詞不在句尾的句子定義為正反疑問(wèn)句;將句中出現(xiàn)空格、正反疑問(wèn)詞在空格前且空格后只有一個(gè)詞的句子也作為正反疑問(wèn)句;所述步驟s2中根據(jù)已知的中文語(yǔ)法規(guī)則以及訓(xùn)練樣本集中正反疑問(wèn)句訓(xùn)練樣本所具備的上述特征獲取到正反疑問(wèn)句的判定規(guī)則;
所述步驟s2中,將句中包含選擇疑問(wèn)詞“是”和“還是”、“是”在“還是”前面、“是”前面沒(méi)有疑問(wèn)詞并且“是”和“還是”之間沒(méi)有空格的句子定義為選擇疑問(wèn)句,所述步驟s2中根據(jù)已知的中文語(yǔ)法規(guī)則以及訓(xùn)練樣本集中選擇疑問(wèn)句訓(xùn)練樣本所具備的上述特征獲取到選擇疑問(wèn)句的判定規(guī)則;
所述步驟s2中,將句中包含疑問(wèn)語(yǔ)氣詞且疑問(wèn)語(yǔ)氣詞位置滿足一定條件的句子定義為是非疑問(wèn)句,其中疑問(wèn)語(yǔ)氣詞分為強(qiáng)疑問(wèn)語(yǔ)氣詞和弱疑問(wèn)語(yǔ)氣詞,所述強(qiáng)疑問(wèn)語(yǔ)氣詞包括“嗎”和“么”,所述弱疑問(wèn)詞包括“吧”和“啊”;將句中包含強(qiáng)疑問(wèn)語(yǔ)氣詞且強(qiáng)疑問(wèn)語(yǔ)氣詞在句末或者強(qiáng)疑問(wèn)語(yǔ)氣詞后面只有標(biāo)點(diǎn)符號(hào)的句子定義為是非疑問(wèn)句,將句中包含強(qiáng)疑問(wèn)語(yǔ)氣詞、強(qiáng)疑問(wèn)語(yǔ)氣詞未在句末且強(qiáng)疑問(wèn)語(yǔ)氣詞后面詞的個(gè)數(shù)小于3的句子定義為是非疑問(wèn)句;將句中包含弱疑問(wèn)語(yǔ)氣詞且弱疑問(wèn)語(yǔ)氣詞在句末或者弱疑問(wèn)語(yǔ)氣詞后面跟著問(wèn)號(hào)的句子定義為是非疑問(wèn)句;所述步驟s2中根據(jù)已知的中文語(yǔ)法規(guī)則以及訓(xùn)練樣本集中是非疑問(wèn)句訓(xùn)練樣本所具備的上述特征獲取到是非疑問(wèn)句的判定規(guī)則;
所述步驟s2中,將句中包含不含歧義的疑問(wèn)代詞或疑問(wèn)副詞且句尾出現(xiàn)疑問(wèn)語(yǔ)氣詞的句子定義為特殊疑問(wèn)句,其中句尾出現(xiàn)的疑問(wèn)語(yǔ)氣詞不為“嗎”和“吧”;所述步驟s2中根據(jù)已知的中文語(yǔ)法規(guī)則以及訓(xùn)練樣本集中特殊疑問(wèn)句訓(xùn)練樣本所具備的上述特征獲取到特殊疑問(wèn)句的判定規(guī)則;
根據(jù)上述獲取到的正反疑問(wèn)句的判定規(guī)則、選擇疑問(wèn)句的判定規(guī)則、是非疑問(wèn)句的判定規(guī)則和特殊疑問(wèn)句的判定規(guī)則獲取到疑問(wèn)句決策樹(shù)。
優(yōu)選的,其特征在于,還包括構(gòu)建非否定詞詞典,所述非否定詞詞典中存儲(chǔ)帶否定字眼而不屬于否定詞的非否定詞,所述步驟s5中當(dāng)根據(jù)否定詞詞典判斷出測(cè)試樣本中有否定詞時(shí),則再根據(jù)非否定詞詞典判斷是否為帶否定字眼而不屬于否定詞的非否定詞,若是,則判定測(cè)試樣本沒(méi)有否定詞,若否,則將判定測(cè)試樣本有否定詞。
優(yōu)選的,其特征在于,所述步驟s4中,數(shù)據(jù)預(yù)處理的過(guò)程具體如下:
s41、以漢語(yǔ)標(biāo)點(diǎn)符號(hào)中的句號(hào)、感嘆號(hào)、問(wèn)號(hào)和逗號(hào)以及英文標(biāo)點(diǎn)符號(hào)中的感嘆號(hào)、問(wèn)號(hào)和逗號(hào)作為斷句的分隔符對(duì)測(cè)試文本數(shù)據(jù)進(jìn)行斷句,得到測(cè)試樣本,并且保留漢語(yǔ)標(biāo)點(diǎn)符號(hào)中的問(wèn)號(hào)和英文標(biāo)點(diǎn)符號(hào)中的問(wèn)號(hào);
s42、對(duì)斷句后的獲取到的測(cè)試樣本進(jìn)行去干擾處理;
s43、利用分詞工具對(duì)測(cè)試樣本進(jìn)行分詞和詞性標(biāo)注,得到分詞和詞性標(biāo)注后的測(cè)試樣本。
優(yōu)選的,所述步驟s7中根據(jù)測(cè)試樣本的謂語(yǔ)以及修飾該謂語(yǔ)的狀語(yǔ)獲取到測(cè)試樣本以下特征:是否有否定詞、是否有狀語(yǔ)、謂語(yǔ)否定詞數(shù)量、狀語(yǔ)否定詞數(shù)量、是否存在狀語(yǔ)否定詞修飾謂語(yǔ)否定詞;所述否定句決策樹(shù)根據(jù)測(cè)試樣本上述特征通過(guò)規(guī)則對(duì)測(cè)試樣本進(jìn)行判定:
s71、若測(cè)試樣本只有謂語(yǔ),沒(méi)有狀語(yǔ),則如果謂語(yǔ)包含有否定詞且謂語(yǔ)否定詞的數(shù)量個(gè)數(shù)不為2,則將測(cè)試樣本判定為否定句;
s72、若測(cè)試樣本既有謂語(yǔ),也有狀語(yǔ),但謂語(yǔ)不包含否定詞,則如果狀語(yǔ)存在否定詞,且狀語(yǔ)否定詞個(gè)數(shù)不為2,則將測(cè)試樣本判定為否定句;
s73、若測(cè)試樣本既有謂語(yǔ),也有狀語(yǔ),但狀語(yǔ)不包含否定詞,則如果謂語(yǔ)包含有否定詞,且謂語(yǔ)否定詞個(gè)數(shù)不為2,則將測(cè)試樣本判定為否定句;
s74、若測(cè)試樣本既有謂語(yǔ),也有狀語(yǔ),且狀語(yǔ)和謂語(yǔ)都有否定詞,但狀語(yǔ)否定詞并不是修飾謂語(yǔ)否定詞,則將測(cè)試樣本判定為否定句。
優(yōu)選的,所述步驟s2中通過(guò)依存句法分析提取出訓(xùn)練集中否定句訓(xùn)練樣本謂語(yǔ)中心語(yǔ)及狀語(yǔ);所述步驟s7中通過(guò)依存句法分析提取出測(cè)試樣本的謂語(yǔ)以及修飾該謂語(yǔ)的狀語(yǔ)。
本發(fā)明相對(duì)于現(xiàn)有技術(shù)具有如下的優(yōu)點(diǎn)及效果:
(1)本發(fā)明中文句型分類方法首先獲取到訓(xùn)練樣本,并且對(duì)訓(xùn)練樣本的句型進(jìn)行人工標(biāo)注,得到訓(xùn)練樣本集;然后根據(jù)訓(xùn)練樣本集中各類句型的訓(xùn)練樣本構(gòu)建得到特殊陳述句決策樹(shù)、疑問(wèn)句決策樹(shù)和否定句決策樹(shù),并且將訓(xùn)練樣本集中的各訓(xùn)練樣本分別輸入至特殊陳述句決策樹(shù)、疑問(wèn)句決策樹(shù)和否定句決策樹(shù)進(jìn)行句型判定;最后提取出特殊陳述句決策樹(shù)、疑問(wèn)句決策樹(shù)和否定句決策樹(shù)均不能判定的訓(xùn)練樣本,針對(duì)這些訓(xùn)練樣本提取相關(guān)特征值,將這些訓(xùn)練樣本的相關(guān)特征值輸入至svm中對(duì)svm進(jìn)行訓(xùn)練,最終得到svm分類器。當(dāng)獲取到測(cè)試樣本后,首先通過(guò)特殊陳述句決策樹(shù)進(jìn)行句型判定,在特殊陳述句決策樹(shù)未判定出結(jié)果的情況下,首先根據(jù)第二疑問(wèn)詞詞典和否定詞詞典判斷測(cè)試樣本中是否有疑問(wèn)詞和否定詞,在只有疑問(wèn)詞的情況下,將測(cè)試樣本作為候選疑問(wèn)句輸入至疑問(wèn)句決策樹(shù)進(jìn)行判定;在只有否定詞的情況下,將測(cè)試樣本作為候選否定句輸入至否定句決策樹(shù)進(jìn)行判定;將疑問(wèn)句決策樹(shù)和否定句決策樹(shù)均未能判定出結(jié)果的測(cè)試樣本以及既有疑問(wèn)詞又有否定詞的測(cè)試樣本輸入至svm分類器進(jìn)行分類;可見(jiàn),本發(fā)明將特殊陳述句決策樹(shù)、疑問(wèn)句決策樹(shù)、否定句決策樹(shù)和svm分類器相結(jié)合,既可以比較準(zhǔn)確地判斷出大部分正常的句子,又可以相對(duì)高效地處理一部分難以歸納總結(jié)的句子。本發(fā)明方法以決策樹(shù)算法為核心,以svm算法為輔助,可以很好地解決傳統(tǒng)決策樹(shù)模型無(wú)法判斷的特殊點(diǎn),提升句型分類的準(zhǔn)確率。
(2)本發(fā)明在構(gòu)建svm分類器時(shí),首先根據(jù)第一疑問(wèn)詞典和否定詞典提取出特殊陳述句決策樹(shù)、疑問(wèn)句決策樹(shù)和否定句決策樹(shù)均不能判定出結(jié)果的訓(xùn)練樣本中的疑問(wèn)詞和否定詞關(guān)鍵詞,然后統(tǒng)計(jì)出訓(xùn)練樣本集中出現(xiàn)某個(gè)疑問(wèn)詞和某種前置詞性搭配時(shí)句子為疑問(wèn)句的條件概率、出現(xiàn)某個(gè)疑問(wèn)詞和某種后置詞性搭配時(shí)句子為疑問(wèn)句的條件概率、出現(xiàn)某個(gè)否定詞和某種前置詞性搭配時(shí)句子為否定句的條件概率、出現(xiàn)某個(gè)否定詞和某種后置詞性搭配時(shí)句子為否定句的條件概率、出現(xiàn)某個(gè)疑問(wèn)詞在前而某個(gè)否定詞在后時(shí)句子分別成為疑問(wèn)句和否定句的概率、出現(xiàn)某個(gè)否定詞在前而某個(gè)疑問(wèn)詞在后時(shí)句子分別成為疑問(wèn)句和否定句的概率;然后針對(duì)于特殊陳述句決策樹(shù)、疑問(wèn)句決策樹(shù)和否定句決策樹(shù)均不能判定出結(jié)果的每個(gè)訓(xùn)練樣本以及需要進(jìn)行句型分類的測(cè)試樣本,首先識(shí)別出疑問(wèn)詞及其前置詞性和后置詞性、否定詞及其前置詞性和后置詞性,將出現(xiàn)該疑問(wèn)詞和該前置詞性時(shí)句子成為疑問(wèn)句的概率作為樣本第一特征值;將出現(xiàn)該疑問(wèn)詞和該后置詞性時(shí)句子成為疑問(wèn)句的概率作為樣本的第二特征值;將出現(xiàn)的否定詞個(gè)數(shù)作為樣本的第三特征值;將出現(xiàn)該否定詞和該前置詞性時(shí)句子成為否定句的概率作為樣本的第四特征值;將出現(xiàn)該否定詞和該后置詞性時(shí)句子成為否定句的概率作為樣本的第五特征值;將該疑問(wèn)詞和該否定詞的相對(duì)位置作為樣本的第六特征值;將出現(xiàn)該疑問(wèn)詞在前而該否定詞在后時(shí)句子分別成為疑問(wèn)句和否定句的概率分別作為樣本的第七特征值和第八特征值;或者將出現(xiàn)該否定詞在前而該疑問(wèn)詞在后時(shí)句子分別成為疑問(wèn)句和否定句的概率作為樣本的第七特征值和第八特征值;在訓(xùn)練階段,將訓(xùn)練樣本對(duì)應(yīng)的上述第一特征值至第八特征值作為輸入對(duì)svm進(jìn)行訓(xùn)練,得到svm分類器;在測(cè)試階段,針對(duì)不能通過(guò)特殊陳述句決策樹(shù)、疑問(wèn)句決策樹(shù)和否定句決策樹(shù)判定出結(jié)果的測(cè)試樣本,提取對(duì)應(yīng)的上述第一特征值至第八特征值輸入svm分類器,通過(guò)svm分類器對(duì)測(cè)試樣本進(jìn)行分類,得到最終的分類結(jié)果。本發(fā)明svm分類器將疑問(wèn)詞及其前置詞性和后置詞性、否定詞及其前置詞性和后置詞性以及疑問(wèn)詞及其前后否定詞作為關(guān)鍵特征實(shí)現(xiàn)對(duì)句型的分類,較好地解決疑問(wèn)詞和否定詞多義性的問(wèn)題,進(jìn)一步提高了句型分類的準(zhǔn)確率。
(3)本發(fā)明方法中還構(gòu)建有非否定詞詞典,其中非否定詞詞典用于存儲(chǔ)帶否定字眼而不屬于否定詞的非否定詞,當(dāng)根據(jù)否定詞詞典判斷出測(cè)試樣本中有否定詞時(shí),本發(fā)明方法中再根據(jù)非否定詞詞典判斷是否只是為帶否定字眼而不屬于否定詞的非否定詞,在不是的情況下,才將判定測(cè)試樣本判定為有否定詞。進(jìn)一步提高了否定句分類的準(zhǔn)確率。
(4)本發(fā)明方法通過(guò)依存句法分析提取出否定句訓(xùn)練樣本中的謂語(yǔ)中心語(yǔ)及狀語(yǔ),然后通過(guò)提取的謂語(yǔ)中心語(yǔ)及狀語(yǔ)獲取到否定句訓(xùn)練樣本所具備的以下特征:否定詞、狀語(yǔ)、謂語(yǔ)否定詞數(shù)量、狀語(yǔ)否定詞數(shù)量、狀語(yǔ)否定詞修飾謂語(yǔ)否定詞;通過(guò)上述否定句訓(xùn)練樣本所具備的上述特征以及否定句判斷規(guī)則訓(xùn)練得到否定句決策樹(shù);同時(shí)本發(fā)明通過(guò)依存句法分析提取出候選否定句測(cè)試樣本中的謂語(yǔ)中心語(yǔ)及狀語(yǔ),否定句決策樹(shù)根據(jù)測(cè)試樣本中的謂語(yǔ)中心語(yǔ)及狀語(yǔ)對(duì)否定句進(jìn)行判定,能夠較好地處理否定句判斷的問(wèn)題,進(jìn)一步提高否定句分類的準(zhǔn)確率。
附圖說(shuō)明
圖1是本發(fā)明中文句型分類方法流程圖。
圖2是本發(fā)明特殊陳述句決策樹(shù)模型圖。
圖3是本發(fā)明疑問(wèn)句決策樹(shù)的決策流程圖。
圖4是本發(fā)明否定句決策樹(shù)模型圖。
具體實(shí)施方式
下面結(jié)合實(shí)施例及附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實(shí)施方式不限于此。
實(shí)施例
本實(shí)施例公開(kāi)了一種基于決策樹(shù)和svm混合模型的中文句型分類方法,如圖1所示,步驟如下:
s1、獲取到多個(gè)訓(xùn)練樣本,并且人工標(biāo)注出各個(gè)訓(xùn)練樣本的句型,得到訓(xùn)練樣本集;訓(xùn)練樣本集中包括特殊陳述句句型、疑問(wèn)句句型和否定句句型的訓(xùn)練樣本;
s2、構(gòu)建特殊陳述句決策樹(shù),首先根據(jù)已知的中文語(yǔ)法規(guī)則以及訓(xùn)練樣本集中各類特殊陳述句訓(xùn)練樣本所具備的特征獲取到特殊陳述句的判定規(guī)則,根據(jù)上述判定規(guī)則構(gòu)建得到特殊陳述句決策樹(shù);在本實(shí)施例中將訓(xùn)練樣本集中符合上述判定規(guī)則的特殊陳述句訓(xùn)練本輸入至上述判定規(guī)則進(jìn)行驗(yàn)證,若驗(yàn)證的準(zhǔn)確率達(dá)到設(shè)定閾值70%,則將對(duì)應(yīng)的判斷規(guī)則加入到?jīng)Q策樹(shù)中,從而獲取到特殊陳述句決策樹(shù)。
在本實(shí)施例中根據(jù)特殊陳述句句型具備的特征將其分為非正常句、任指型陳述句、否定假設(shè)句和反問(wèn)句;具體如下:
在本實(shí)施例中將句子為空、句子只有一個(gè)符號(hào)或句子長(zhǎng)度超過(guò)一定值句子定義為非正常句;
在本實(shí)施例中將句中包括任指連詞的句子定義為任指型陳述句,本實(shí)施例中任指連詞包括“無(wú)論”、“不論”和“不管”,當(dāng)句中出現(xiàn)任指連詞“無(wú)論”、“不論”時(shí),則定義句子為任指型陳述句,當(dāng)句中出現(xiàn)任指連詞“不管”且任指連詞“不管”在句首時(shí),則定義句子為任指型陳述句;例如“無(wú)論他怎么做”、“無(wú)論他去上學(xué)了沒(méi)有”、“不管他去上學(xué)了沒(méi)有”均為任指型陳述句,而“我不管他了”,此處的“不管”做否定謂語(yǔ),在本實(shí)施例中不被定義為任指型陳述句。
在本實(shí)施例中將句中包括否定假設(shè)詞的句子定義為否定假設(shè)句;本實(shí)施例中否定假設(shè)詞包括“即使”、“盡管”、“哪怕”、“就算”和“縱使”,比如“即使他不是中國(guó)人”、“就算他沒(méi)完成作業(yè)”均屬于否定假設(shè)句。
在本實(shí)施例中將句中包括反問(wèn)詞的句子定義為反問(wèn)句。本實(shí)施例中反問(wèn)詞包括“還敢”、“何曾”、“何來(lái)”、“何止”、“難道”、“難不成”、“豈不是”和“怎能”。
如圖2所示,即為本實(shí)施例構(gòu)建得到的特殊陳述句決策樹(shù)。
構(gòu)建疑問(wèn)句決策樹(shù),首先根據(jù)已知的中文語(yǔ)法規(guī)則以及訓(xùn)練樣本集中各類疑問(wèn)句訓(xùn)練樣本所具備的特征獲取到疑問(wèn)句的判定規(guī)則,根據(jù)上述判定規(guī)則構(gòu)建得到疑問(wèn)句決策樹(shù);本實(shí)施例中將訓(xùn)練樣本集中符合上述判定規(guī)則的疑問(wèn)句訓(xùn)練樣本輸入至上述判定規(guī)則進(jìn)行驗(yàn)證,若驗(yàn)證的準(zhǔn)確率達(dá)到設(shè)定閾值70%,則將對(duì)應(yīng)的判斷規(guī)則加入到?jīng)Q策樹(shù)中,從而獲取到疑問(wèn)句決策樹(shù)。
其中根據(jù)疑問(wèn)句句型所具備的特征將其分為是非疑問(wèn)句、選擇疑問(wèn)句、正反疑問(wèn)句和特殊疑問(wèn)句;具體如下:
在本實(shí)施例中將句中包含正反疑問(wèn)詞且正反疑問(wèn)詞不在句尾的句子定義為正反疑問(wèn)句;如句子:“今天是個(gè)好天氣有木有!”、“他是個(gè)好人好不好?!?,由于上述兩個(gè)句子中正反疑問(wèn)詞在句尾,因此不為正反疑問(wèn)句;另外本實(shí)施例中將句中出現(xiàn)空格、正反疑問(wèn)詞在空格前且空格后只有一個(gè)詞的句子也作為正反疑問(wèn)句,如“你愛(ài)不愛(ài)他不愛(ài)?!边@個(gè)句子為正反疑問(wèn)句。因此本實(shí)施例中根據(jù)已知的中文語(yǔ)法規(guī)則以及訓(xùn)練樣本集中正反疑問(wèn)句訓(xùn)練樣本所具備的上述特征獲取到正反疑問(wèn)句的判定規(guī)則;
在本實(shí)施例中將句中包含選擇疑問(wèn)詞“是”和“還是”、“是”在“還是”前面、“是”前面沒(méi)有疑問(wèn)詞并且“是”和“還是”之間沒(méi)有空格的句子定義為選擇疑問(wèn)句,其中最后一個(gè)條件“是”和“還是”之間沒(méi)有空格針對(duì)的問(wèn)題是使用空格當(dāng)分隔符時(shí),使得空格前后為兩個(gè)獨(dú)立的句子。如“今天是個(gè)好天氣我們還是去學(xué)校吧。”空格前后是兩個(gè)句子,因此“是”和“還是”有空格時(shí),將不認(rèn)為是選擇疑問(wèn)句;本實(shí)施例中根據(jù)已知的中文語(yǔ)法規(guī)則以及訓(xùn)練樣本集中選擇疑問(wèn)句訓(xùn)練樣本所具備的上述特征獲取到選擇疑問(wèn)句的判定規(guī)則;
在本實(shí)施例中將句中包含疑問(wèn)語(yǔ)氣詞且疑問(wèn)語(yǔ)氣詞位置滿足一定條件的句子定義為是非疑問(wèn)句,其中疑問(wèn)語(yǔ)氣詞分為強(qiáng)疑問(wèn)語(yǔ)氣詞和弱疑問(wèn)語(yǔ)氣詞,所述強(qiáng)疑問(wèn)語(yǔ)氣詞包括“嗎”和“么”,所述弱疑問(wèn)詞包括“吧”和“啊”;將句中包含強(qiáng)疑問(wèn)語(yǔ)氣詞且強(qiáng)疑問(wèn)語(yǔ)氣詞在句末或者強(qiáng)疑問(wèn)語(yǔ)氣詞后面只有標(biāo)點(diǎn)符號(hào)的句子定義為是非疑問(wèn)句;將句中包含強(qiáng)疑問(wèn)語(yǔ)氣詞、強(qiáng)疑問(wèn)語(yǔ)氣詞未在句末且強(qiáng)疑問(wèn)語(yǔ)氣詞后面詞的個(gè)數(shù)小于3的句子定義為是非疑問(wèn)句,例如在句末加表情的句子,此時(shí)表情個(gè)數(shù)小于3,所以也被認(rèn)為是非疑問(wèn)句;將句中包含弱疑問(wèn)語(yǔ)氣詞且弱疑問(wèn)語(yǔ)氣詞在句末或者弱疑問(wèn)語(yǔ)氣詞后面跟著問(wèn)號(hào)的句子定義為是非疑問(wèn)句;本實(shí)施例中根據(jù)已知的中文語(yǔ)法規(guī)則以及訓(xùn)練樣本集中是非疑問(wèn)句訓(xùn)練樣本所具備的上述特征獲取到是非疑問(wèn)句的判定規(guī)則;
本實(shí)施例中將句中包含不含歧義的疑問(wèn)代詞或疑問(wèn)副詞且句尾出現(xiàn)疑問(wèn)語(yǔ)氣詞的句子定義為特殊疑問(wèn)句,其中句尾出現(xiàn)的疑問(wèn)語(yǔ)氣詞不為“嗎”和“吧”;本實(shí)施例中根據(jù)已知的中文語(yǔ)法規(guī)則以及訓(xùn)練樣本集中特殊疑問(wèn)句訓(xùn)練樣本所具備的上述特征獲取到特殊疑問(wèn)句的判定規(guī)則。
構(gòu)建否定句決策樹(shù),首先通過(guò)依存句法分析提取出訓(xùn)練集中否定句訓(xùn)練樣本謂語(yǔ)中心語(yǔ)及狀語(yǔ),通過(guò)上述提取的謂語(yǔ)中心語(yǔ)及狀語(yǔ)獲取到否定句訓(xùn)練樣本所具備的以下特征:否定詞、狀語(yǔ)、謂語(yǔ)否定詞數(shù)量、狀語(yǔ)否定詞數(shù)量、狀語(yǔ)否定詞修飾謂語(yǔ)否定詞;然后根據(jù)已知的中文語(yǔ)法規(guī)則以及訓(xùn)練樣本集中否定句訓(xùn)練樣本所具備的特征獲取到否定句的判定規(guī)則,最后根據(jù)否定句的判定規(guī)則和否定句訓(xùn)練樣本所具備的特征,采用id3算法訓(xùn)練得到否定句決策樹(shù);本實(shí)施例中通過(guò)id3算法訓(xùn)練后,否定句決策樹(shù)從上至下每一層的特征分別為:判定是否存在否定詞、判定是否存在狀語(yǔ)、判定謂語(yǔ)否定詞數(shù)量、判定狀語(yǔ)否定詞數(shù)量、判定狀語(yǔ)否定詞是否修飾謂語(yǔ)否定詞,如圖4所示即為本實(shí)施例構(gòu)建得到的否定句決策樹(shù)模型。
s3、構(gòu)建svm分類器,具體步驟如下:
s31、將訓(xùn)練樣本集中的各個(gè)訓(xùn)練樣本首先分別輸入至步驟s2中構(gòu)建得到的特殊陳述句決策樹(shù)、疑問(wèn)句決策樹(shù)和否定句決策樹(shù)中,獲取到上述三個(gè)決策樹(shù)均不能判定出結(jié)果的訓(xùn)練樣本;
s32、針對(duì)步驟s31獲取到的三個(gè)決策樹(shù)均不能判定出結(jié)果的訓(xùn)練樣本,根據(jù)第一疑問(wèn)詞詞典和否定詞詞典,識(shí)別出每個(gè)訓(xùn)練樣本中的疑問(wèn)詞、及其前置詞性和后置詞性,其中疑問(wèn)詞前置詞性和后置詞性分別指的是疑問(wèn)詞相鄰前面詞的詞性和相鄰后面詞的詞性;識(shí)別出步驟s31獲取到的這些訓(xùn)練樣本中的每個(gè)訓(xùn)練樣本中的否定詞、及其前置詞性和后置詞性,其中否定前置詞性和后置詞性分別指的是否定詞相鄰前面詞的詞性和相鄰后面詞的詞性;識(shí)別出每個(gè)訓(xùn)練樣本中的疑問(wèn)詞和否定詞的相對(duì)位置,識(shí)別出每個(gè)訓(xùn)練樣本中否定詞的個(gè)數(shù);本實(shí)施例中第一疑問(wèn)詞詞典包括中文和英文的疑問(wèn)代詞和副詞;本實(shí)施例中第一疑問(wèn)詞詞典包括如下疑問(wèn)代詞和副詞:how、how、what、what、when、when、where、where、which、which、who、who、whom、whom、whose、whose、why、why、到底、多會(huì)兒、多會(huì)兒、多久、多少、多咱、反倒、干嗎、干嘛、干什么、幹嗎、幹嘛、幹什麼、何、何來(lái)、何來(lái)、何時(shí)、何時(shí)、何為、何為、何用、何在、幾時(shí)、幾時(shí)、究竟、可好、毛線、毛線、莫非、哪、哪兒、哪兒、哪個(gè)、哪個(gè)、哪會(huì)兒、哪會(huì)兒、哪款、哪里、哪裡、哪些、哪種、哪種、難道、難怪、難道、難怪、豈、豈、如何、啥、啥時(shí)候、啥時(shí)候、什么、什麼、神馬、神馬、孰是孰非、誰(shuí)、誰(shuí)、為何、為毛、為啥、為什么、為何、為毛、為啥、為什麼、要不、有何、有木有、怎、怎的、怎地、怎會(huì)、怎會(huì)、怎么、怎么辦、怎么回事、怎么弄、怎么樣、怎么著、怎么做、怎麼、怎麼辦、怎麼回事、怎麼弄、怎麼樣、怎麼著、怎麼做、怎樣、怎樣、知否、腫么、腫麼。本實(shí)施例中否定詞詞典包括以下否定詞:別、別、并非、並非、不、不必、不曾、不成、不大、不得、不對(duì)、不對(duì)、不敢、不夠、不夠、不管用、不好、不合理、不會(huì)、不會(huì)、不見(jiàn)、不見(jiàn)、不堪、不可、不了、不利、不利於、不利于、不料、不能、不配、不然、不讓、不讓、不是、不說(shuō)、不說(shuō)、不同、不想、不要、不宜、不易、不用、不再、不足、吃不得、從不、從來(lái)不、從不、從來(lái)不、都木、都木有、非、覅、搞不懂、還沒(méi)、還沒(méi)、行不通、毫不、記不清、記不清、經(jīng)不起、經(jīng)不起、決不能、決不能、絕不、絕不能、絕不、絕不能、看錯(cuò)、看錯(cuò)、來(lái)不及、來(lái)不及、卵、沒(méi)、沒(méi)法、沒(méi)什麼、沒(méi)用、沒(méi)用過(guò)、沒(méi)有、沒(méi)、沒(méi)法、沒(méi)什么、沒(méi)用、沒(méi)用過(guò)、沒(méi)有、木、木有、少於、少于、未必、未能、無(wú)、無(wú)度、無(wú)法、無(wú)可、無(wú)、無(wú)度、無(wú)法、無(wú)可、勿、也別、也別。
s33、根據(jù)步驟s31獲取到的這些訓(xùn)練樣本的人工標(biāo)注的句型,采用數(shù)據(jù)統(tǒng)計(jì)法統(tǒng)計(jì)出訓(xùn)練樣本中出現(xiàn)某個(gè)疑問(wèn)詞時(shí)句子成為疑問(wèn)句的概率,出現(xiàn)某個(gè)疑問(wèn)詞和某種前置詞性搭配時(shí)句子為疑問(wèn)句的概率;出現(xiàn)某個(gè)疑問(wèn)詞和某種后置詞性搭配時(shí)句子為疑問(wèn)句的概率;然后將出現(xiàn)某個(gè)疑問(wèn)詞和某種前置詞性搭配時(shí)句子為疑問(wèn)句的概率除以出現(xiàn)某個(gè)疑問(wèn)詞時(shí)句子成為疑問(wèn)句的概率得到出現(xiàn)某個(gè)疑問(wèn)詞和某種前置詞性搭配時(shí)句子為疑問(wèn)句的條件概率;將出現(xiàn)某個(gè)疑問(wèn)詞和某種后置詞性搭配時(shí)句子為疑問(wèn)句的概率除以出現(xiàn)某個(gè)疑問(wèn)詞時(shí)句子成為疑問(wèn)句的概率得到出現(xiàn)某個(gè)疑問(wèn)詞和某種后置詞性搭配時(shí)句子為疑問(wèn)句的條件概率;
例如針對(duì)訓(xùn)練樣本中識(shí)別出的某疑問(wèn)詞a,某疑問(wèn)詞a前一個(gè)詞的詞性b1,后一個(gè)詞的詞性b2;則
出現(xiàn)某個(gè)疑問(wèn)詞和某種前置詞性搭配時(shí)句子為疑問(wèn)句的條件概率為:
p(前置搭配屬于疑問(wèn)句)=p(a,b1)/p(a);
出現(xiàn)某個(gè)疑問(wèn)詞和某種后置詞性搭配時(shí)句子為疑問(wèn)句的條件概率為:
p(后置搭配屬于疑問(wèn)句)=p(a,b2)/p(a);
其中p(a,b1)為出現(xiàn)某個(gè)疑問(wèn)詞a和某種前置詞性b1搭配時(shí)句子為疑問(wèn)句的概率,p(a,b2)為出現(xiàn)某個(gè)疑問(wèn)詞a和某種后置詞性b2搭配時(shí)句子為疑問(wèn)句的概率,p(a)為出現(xiàn)某個(gè)疑問(wèn)詞a時(shí)句子成為疑問(wèn)句的概率。
s34、根據(jù)步驟s31獲取到的這些訓(xùn)練樣本的人工標(biāo)注的句型,采用數(shù)據(jù)統(tǒng)計(jì)法統(tǒng)計(jì)出訓(xùn)練樣本中出現(xiàn)某個(gè)否定詞時(shí)句子成為否定句的概率,出現(xiàn)某個(gè)否定詞和某種前置詞性搭配時(shí)句子為否定句的概率;出現(xiàn)某個(gè)否定詞和某種后置詞性搭配時(shí)句子為否定句的概率;然后將出現(xiàn)某個(gè)否定詞和某種前置詞性搭配時(shí)句子為否定句的概率除以出現(xiàn)某個(gè)否定詞時(shí)句子成為否定句的概率得到出現(xiàn)某個(gè)否定詞和某種前置詞性搭配時(shí)句子為否定句的條件概率;將出現(xiàn)某個(gè)否定詞和某種后置詞性搭配時(shí)句子為否定句的概率除以出現(xiàn)某個(gè)否定詞時(shí)句子成為否定句的概率得到出現(xiàn)某個(gè)否定詞和某種后置詞性搭配時(shí)句子為否定句的條件概率;
s35、根據(jù)步驟s31獲取到的這些訓(xùn)練樣本的人工標(biāo)注的句型,采用數(shù)據(jù)統(tǒng)計(jì)法統(tǒng)計(jì)出訓(xùn)練樣本中出現(xiàn)某個(gè)疑問(wèn)詞在前而某個(gè)否定詞在后時(shí)句子分別成為疑問(wèn)句和否定句的概率,出現(xiàn)某個(gè)否定詞在前而某個(gè)疑問(wèn)詞在后時(shí)句子分別成為疑問(wèn)句和否定句的概率;
例如針對(duì)訓(xùn)練樣本中出現(xiàn)疑問(wèn)詞a,否定詞b,且a在b之前。則本實(shí)施例方法統(tǒng)計(jì)出的訓(xùn)練樣本中出現(xiàn)某個(gè)疑問(wèn)詞在前而某個(gè)否定詞在后時(shí)句子分別成為疑問(wèn)句和否定句的概率為:
py(a_b)=cy(a_b)/c(a_b);
pf(a_b)=cf(a_b)/c(a_b);
其中c(a_b)為步驟s31獲取到的訓(xùn)練樣本中出現(xiàn)疑問(wèn)詞a在前而否定詞b在后的次數(shù);cy(a_b)表示出現(xiàn)疑問(wèn)詞a在前而否定詞b在后的訓(xùn)練樣本中為疑問(wèn)句的個(gè)數(shù),cf(a_b)表示出現(xiàn)疑問(wèn)詞a在前而否定詞b在后的訓(xùn)練樣本中為否定句的個(gè)數(shù);py(a_b)表示出現(xiàn)某個(gè)疑問(wèn)詞在前而某個(gè)否定詞在后時(shí)句子成為疑問(wèn)句的概率;pf(a_b)表示出現(xiàn)某個(gè)疑問(wèn)詞在前而某個(gè)否定詞在后時(shí)句子成為否定句的概率;
s36、針對(duì)于步驟s31獲取到的三個(gè)決策樹(shù)均不能判定出結(jié)果的訓(xùn)練樣本,通過(guò)以下步驟提取出這些訓(xùn)練樣本中每個(gè)訓(xùn)練樣本的特征,具體如下:
s361、當(dāng)訓(xùn)練樣本中識(shí)別出疑問(wèn)詞時(shí),分別獲取到該疑問(wèn)詞的前置詞性和后置詞性,然后通過(guò)步驟s33獲取到出現(xiàn)該疑問(wèn)詞和該前置詞性時(shí)句子成為疑問(wèn)句的概率,作為訓(xùn)練樣本第一特征值;同時(shí)通過(guò)步驟s33獲取到出現(xiàn)該疑問(wèn)詞和該后置詞性時(shí)句子成為疑問(wèn)句的概率,作為訓(xùn)練樣的第二特征值;當(dāng)訓(xùn)練樣本未出現(xiàn)疑問(wèn)詞時(shí),則訓(xùn)練樣本的第一特征值和訓(xùn)練樣本的第二特征值分別為零;
s362、當(dāng)訓(xùn)練樣本中識(shí)別出否定詞時(shí),統(tǒng)計(jì)否定詞的個(gè)數(shù),將否定詞的個(gè)數(shù)作為訓(xùn)練樣本的第三特征值;同時(shí)分別獲取到該否定詞的前置詞性和后置詞性,然后通過(guò)步驟s34獲取到出現(xiàn)該否定詞和該前置詞性時(shí)句子成為否定句的概率,作為訓(xùn)練樣本的第四特征值;同時(shí)通過(guò)步驟s34獲取到出現(xiàn)該否定詞和該后置詞性時(shí)句子成為否定句的概率,作為訓(xùn)練樣本的第五特征值;當(dāng)訓(xùn)練樣本未出現(xiàn)否定詞時(shí),則訓(xùn)練樣本對(duì)應(yīng)的第四特征值和第五特征值分別為零;
s363、當(dāng)訓(xùn)練樣本中同時(shí)識(shí)別出疑問(wèn)詞和否定詞時(shí),獲取該疑問(wèn)詞和該否定詞的相對(duì)位置,將該相對(duì)位置作為訓(xùn)練樣本的第六特征值,在本實(shí)施例中,若疑問(wèn)詞在否定詞前,則訓(xùn)練樣本的第六特征值為1,反之為-1;訓(xùn)練樣本中若該疑問(wèn)詞在前而該否定詞在后,則通過(guò)步驟s35獲取到出現(xiàn)該疑問(wèn)詞在前而該否定詞在后時(shí)句子分別成為疑問(wèn)句和否定句的概率,且分別作為訓(xùn)練樣本的第七特征值和第八特征值;訓(xùn)練樣本中若該否定詞在前而該疑問(wèn)詞在后,則通過(guò)步驟s35獲取到出現(xiàn)該否定詞在前而該疑問(wèn)詞在后時(shí)句子分別成為疑問(wèn)句和否定句的概率,且分別作為訓(xùn)練樣本的第七特征值和第八特征值;
s37、將步驟s36中獲取到的訓(xùn)練樣本的第一特征值、第二特征值、第三特征值、第四特征值、第五特征值、第六特征值、第七特征值和第八特征值分別作為輸入對(duì)svm進(jìn)行訓(xùn)練,得到svm分類器;
s4、當(dāng)獲取到測(cè)試文本數(shù)據(jù)時(shí),首先進(jìn)行數(shù)據(jù)預(yù)處理得到測(cè)試樣本,然后將測(cè)試樣本輸入至步驟s2構(gòu)建得到的特殊陳述句決策樹(shù)中,如圖2所示,通過(guò)特殊陳述句決策樹(shù)判斷測(cè)試樣本句型,若特殊陳述句決策樹(shù)未能判定出測(cè)試樣本,那么進(jìn)行步驟s5的處理;其中圖2中l(wèi)ength表示的是句子的長(zhǎng)度;在本實(shí)施例中數(shù)據(jù)預(yù)處理的過(guò)程具體如下:
s41、以漢語(yǔ)標(biāo)點(diǎn)符號(hào)中的句號(hào)、感嘆號(hào)、問(wèn)號(hào)和逗號(hào)以及英文標(biāo)點(diǎn)符號(hào)中的感嘆號(hào)、問(wèn)號(hào)和逗號(hào)作為斷句的分隔符對(duì)測(cè)試文本數(shù)據(jù)進(jìn)行斷句,得到測(cè)試樣本,并且保留漢語(yǔ)標(biāo)點(diǎn)符號(hào)中的問(wèn)號(hào)和英文標(biāo)點(diǎn)符號(hào)中的問(wèn)號(hào);
s42、對(duì)斷句后的獲取到的測(cè)試樣本進(jìn)行去干擾處理;在本實(shí)施例中去除測(cè)試樣本中的以下干擾:
(1)將測(cè)試樣本中出現(xiàn)的中括號(hào)【】及中括號(hào)【】里面的內(nèi)容進(jìn)行刪除;
(2)將測(cè)試樣本中出現(xiàn)的【和?以及【和?之間的內(nèi)容進(jìn)行刪除,將測(cè)試樣本中的【和?以及【和?之間的內(nèi)容進(jìn)行刪除;
(3)將測(cè)試樣本中#以及#和#之間的內(nèi)容進(jìn)行刪除;
(4)將測(cè)試樣本中//@和:以及//@和之間的內(nèi)容進(jìn)行刪除,將測(cè)試樣本中的//@和:以及//@和:之間的內(nèi)容進(jìn)行刪除;
(5)將測(cè)試樣本中@和制表符及它們之間的內(nèi)容進(jìn)行刪除,將測(cè)試樣本中的@和空格符及它們之間的內(nèi)容進(jìn)行刪除;
(6)當(dāng)測(cè)試樣本中僅有】而沒(méi)有【時(shí),則將】及其之前的內(nèi)容進(jìn)行刪除;
(7)將測(cè)試樣本中尖括號(hào)《》及其中的內(nèi)容進(jìn)行刪除;
(8)將測(cè)試樣本中括號(hào)及其中的內(nèi)容進(jìn)行刪除:
(9)將測(cè)試樣本中的中文省略號(hào)“……”替換為逗號(hào)“,”;
(10)將測(cè)試樣本中的中文分號(hào)“;”和英文分號(hào)“;”替換為逗號(hào)“,”;
(11)將測(cè)試樣本中的雙引號(hào)“”及雙引號(hào)“”中的內(nèi)容進(jìn)行刪除;
(12)將測(cè)試文本中的網(wǎng)址進(jìn)行刪除;
s43、利用分詞工具對(duì)測(cè)試樣本進(jìn)行分詞和詞性標(biāo)注,得到分詞和詞性標(biāo)注后的測(cè)試樣本,即為數(shù)據(jù)預(yù)處理后的測(cè)試樣本。
s5、首先根據(jù)第二疑問(wèn)詞詞典和否定詞詞典判斷測(cè)試樣本中是否有疑問(wèn)詞和否定詞,若測(cè)試樣本中只有疑問(wèn)詞而沒(méi)有否定詞,則將測(cè)試樣本作為候選疑問(wèn)句,進(jìn)入步驟s6;若測(cè)試樣本只有否定詞而沒(méi)有疑問(wèn)詞,則將測(cè)試樣本作為候選否定句,進(jìn)入步驟s7;若測(cè)試樣本中既有否定詞又有疑問(wèn)詞,則進(jìn)入步驟s8;其中第二疑問(wèn)詞詞典為第一疑問(wèn)詞詞典基礎(chǔ)上加上疑問(wèn)語(yǔ)氣詞后得到的詞典;其中加上的疑問(wèn)語(yǔ)氣詞包括中文疑問(wèn)語(yǔ)氣詞“嗎、呢、吧、咩、捏、咯、?、?”。
s6、將測(cè)試樣本輸入至步驟s2構(gòu)建的疑問(wèn)句決策樹(shù),通過(guò)疑問(wèn)句決策樹(shù)對(duì)測(cè)試樣本的句型進(jìn)行判定,輸出判定結(jié)果,若疑問(wèn)句決策樹(shù)未能輸出測(cè)試樣本的判定結(jié)果,則將測(cè)試樣本進(jìn)行步驟s8的處理;其中如圖3所示,本實(shí)施例中疑問(wèn)句決策樹(shù)針對(duì)輸入的測(cè)試樣本首先判定是否為正反疑問(wèn)句,當(dāng)判定為不是正方疑問(wèn)句的情況下判斷是否為選擇疑問(wèn)句,當(dāng)判定為不是選擇疑問(wèn)句時(shí)再判定是否為是否非疑問(wèn)句,當(dāng)判定為不是是非疑問(wèn)句時(shí)再判定是否為特殊疑問(wèn)句,當(dāng)判定為不是特殊疑問(wèn)句時(shí),即疑問(wèn)句決策樹(shù)沒(méi)有輸出判定結(jié)果時(shí),則將測(cè)試樣本進(jìn)行步驟s8的處理。
s7、通過(guò)依存句法分析提取出測(cè)試樣本的謂語(yǔ)以及修飾該謂語(yǔ)的狀語(yǔ),根據(jù)測(cè)試樣本的謂語(yǔ)以及修飾該謂語(yǔ)的狀語(yǔ)獲取到測(cè)試樣本以下特征:否定詞、狀語(yǔ)、謂語(yǔ)否定詞數(shù)量、狀語(yǔ)否定詞數(shù)量、狀語(yǔ)否定詞修飾謂語(yǔ)否定詞;并且輸入至步驟s2中構(gòu)建的否定句決策樹(shù),如圖4所示,否定句決策樹(shù)根據(jù)測(cè)試樣本上述特征對(duì)測(cè)試樣本的句型進(jìn)行判定,輸出判定結(jié)果,若否定句決策樹(shù)未能輸出測(cè)試樣本的判定結(jié)果,則將測(cè)試樣本進(jìn)行步驟s8的處理;
本步驟中否定句決策樹(shù)根據(jù)測(cè)試樣本上述特征通過(guò)規(guī)則對(duì)測(cè)試樣本進(jìn)行判定:
s71、若測(cè)試樣本只有謂語(yǔ),沒(méi)有狀語(yǔ),則如果謂語(yǔ)包含有否定詞且謂語(yǔ)否定詞的數(shù)量個(gè)數(shù)不為2,則將測(cè)試樣本判定為否定句;
s72、若測(cè)試樣本既有謂語(yǔ),也有狀語(yǔ),但謂語(yǔ)不包含否定詞,則如果狀語(yǔ)存在否定詞,且狀語(yǔ)否定詞個(gè)數(shù)不為2,則將測(cè)試樣本判定為否定句;
s73、若測(cè)試樣本既有謂語(yǔ),也有狀語(yǔ),但狀語(yǔ)不包含否定詞,則如果謂語(yǔ)包含有否定詞,且謂語(yǔ)否定詞個(gè)數(shù)不為2,則將測(cè)試樣本判定為否定句。
s74、若測(cè)試樣本既有謂語(yǔ),也有狀語(yǔ),且狀語(yǔ)和謂語(yǔ)都有否定詞,但狀語(yǔ)否定詞并不是修飾謂語(yǔ)否定詞,則將測(cè)試樣本判定為否定句。
其中圖4中neg_exist=1表示句中存在否定詞;adv_exist=0表示測(cè)試樣本只有謂語(yǔ)而沒(méi)有狀語(yǔ);adv_exist=1表示測(cè)試樣本既有謂語(yǔ)也有狀語(yǔ);neg_count表示謂語(yǔ)否定詞的個(gè)數(shù),neg_count=0表示謂語(yǔ)否定詞的數(shù)量個(gè)數(shù)為0個(gè),neg_count=1表示謂語(yǔ)否定詞的數(shù)量個(gè)數(shù)為1個(gè),neg_count?。?表示謂語(yǔ)否定詞的數(shù)量個(gè)數(shù)不為2個(gè),neg_count>=2表示謂語(yǔ)否定詞的數(shù)量個(gè)數(shù)大于等于2個(gè);adv_neg_count表示狀語(yǔ)包含否定詞的個(gè)數(shù),adv_neg_count=0表示狀語(yǔ)否定詞的個(gè)數(shù)為0;adv_neg_count?。?表示狀語(yǔ)否定詞的個(gè)數(shù)不為2個(gè);adv_neg_count>=2表示狀語(yǔ)否定詞的個(gè)數(shù)大于等于2個(gè)。
s8、通過(guò)第一疑問(wèn)詞詞典和否定詞詞典分別識(shí)別出測(cè)試樣本中的疑問(wèn)詞和否定詞,然后通過(guò)以下步驟提取出測(cè)試樣本的特征;
s81、當(dāng)測(cè)試樣本中有疑問(wèn)詞時(shí),分別獲取到該疑問(wèn)詞的前置詞性和后置詞性,然后通過(guò)步驟s33獲取到出現(xiàn)該疑問(wèn)詞和該前置詞性時(shí)句子成為疑問(wèn)句的概率,作為測(cè)試樣本第一特征值;同時(shí)通過(guò)步驟s33獲取到出現(xiàn)該疑問(wèn)詞和該后置詞性時(shí)句子成為疑問(wèn)句的概率,作為測(cè)試樣本的第二特征值;當(dāng)測(cè)試樣本未出現(xiàn)疑問(wèn)詞時(shí),則測(cè)試樣本的第一特征值和第二特征值分別為零;
s82、當(dāng)測(cè)試樣本中有否定詞時(shí),統(tǒng)計(jì)否定詞的個(gè)數(shù),將否定詞的個(gè)數(shù)作為測(cè)試樣本的第三特征值;同時(shí)分別獲取到該否定詞的前置詞性和后置詞性,然后通過(guò)步驟s34獲取到出現(xiàn)該否定詞和該前置詞性時(shí)句子成為否定句的概率,作為測(cè)試的第四特征值;同時(shí)通過(guò)步驟s34獲取到出現(xiàn)該否定詞和該后置詞性時(shí)句子成為否定句的概率,作為測(cè)試樣本的第五特征值;當(dāng)測(cè)試樣本未出現(xiàn)否定詞時(shí),則測(cè)試樣本的第四特征值和第五特征值分別為零;
s83、當(dāng)測(cè)試樣本中同時(shí)有疑問(wèn)詞和否定詞時(shí),獲取該疑問(wèn)詞和該否定詞的相對(duì)位置,將該相對(duì)位置作為測(cè)試樣本的第六特征值,在本實(shí)施例中,若疑問(wèn)詞在否定詞前,則測(cè)試樣本的第六特征值為1,反之為-1;測(cè)試樣本中若該疑問(wèn)詞在前而該否定詞在后,則通過(guò)步驟s35獲取到出現(xiàn)該疑問(wèn)詞在前而該否定詞在后時(shí)句子分別成為疑問(wèn)句和否定句的概率,且分別作為測(cè)試樣本的第七特征值和第八特征值;測(cè)試樣本中若該否定詞在前而該疑問(wèn)詞在后,則通過(guò)步驟s35獲取到出現(xiàn)該否定詞在前而該疑問(wèn)詞在后時(shí)句子分別成為疑問(wèn)句和否定句的概率,且分別作為測(cè)試樣本的第七特征值和第八特征值;
s9、將測(cè)試樣本的第一特征值、第二特征值、第三特征值、第四特征值、第五特征值、第六特征值、第七特征值和第八特征值分別輸入至步驟s364訓(xùn)練好的svm分類器中,通過(guò)svm分類器的輸出獲取到測(cè)試樣本的句型判定結(jié)果。
本實(shí)施例中還包括構(gòu)建非否定詞詞典的步驟,其中非否定詞詞典中存儲(chǔ)帶否定字眼而不屬于否定詞的非否定詞;本實(shí)施例中非否定詞詞典包括以下非否定詞:不變、不變、不錯(cuò)、不錯(cuò)、不但、不得不、不等、不過(guò)、不過(guò)、不介意、不僅、不僅、不久、不久前、不愧、不滿、不滿、不停、不吐不快、對(duì)不起、對(duì)不起、告別、告別、絕不、絕不、沒(méi)錯(cuò)、沒(méi)關(guān)係、沒(méi)事、沒(méi)準(zhǔn)、沒(méi)錯(cuò)、沒(méi)關(guān)系、沒(méi)事、沒(méi)準(zhǔn)、無(wú)所謂、無(wú)憂、無(wú)所謂、無(wú)憂、要不是、只不過(guò)、只不過(guò)。
本實(shí)施例上述步驟s5中當(dāng)根據(jù)否定詞詞典判斷出測(cè)試樣本中有否定詞時(shí),則再根據(jù)非否定詞詞典判斷是否為帶否定字眼而不屬于否定詞的非否定詞,若是,則判定測(cè)試樣本沒(méi)有否定詞,若否,則將判定測(cè)試樣本有否定詞。進(jìn)而進(jìn)行步驟s5之后的操作。通過(guò)本實(shí)施例中的非否定詞詞典帶將帶否定字眼而不屬于否定詞的非否定詞去掉,以避免將非否定詞誤認(rèn)為是否定詞,進(jìn)一步提到否定句分類的準(zhǔn)確性。
在信息論中,信息熵(entropy)越小表示數(shù)據(jù)的混亂程度越低,數(shù)據(jù)純度越高。其中id3算法中采用信息增益(informationgain)來(lái)衡量節(jié)點(diǎn)分裂后的信息量損失。該算法的核心思想是選擇分裂后信息增益最大的特征進(jìn)行分裂。
設(shè)d為訓(xùn)練元組集合,則采用以下公式計(jì)算d的信息熵:
上式中,m代表該元組集合總共被劃分到多少個(gè)類別,“句式判定”是每個(gè)元組的類別,因此m=2。p(i)代表的是第i個(gè)類別出現(xiàn)的概率。假設(shè)現(xiàn)在對(duì)屬性a進(jìn)行分裂,則可以根據(jù)下面的公式求出a分裂后的信息熵:
在上述公式中,v代表屬性a的取值個(gè)數(shù),比如a的取值有{a1,a2,a3,a4},則v=4。dj代表所有屬性a值等于aj的元組集合。|d|表示的是元組集合d的元組數(shù)量。該公式代表的含義是a分裂后的信息熵等于分裂后各個(gè)節(jié)點(diǎn)各自的信息熵之和。
信息增益即為上述兩者的差值:
gain(a)=entropy(d)-entropya(d)
本實(shí)施例上述步驟s2中否定句決策樹(shù)訓(xùn)練所采用的id3算法就是在每次分裂前,使用信息增益計(jì)算還未使用特征的信息增益,然后選擇出信息增益值最大的特征作為分裂標(biāo)準(zhǔn)。重復(fù)這一過(guò)程直到?jīng)Q策樹(shù)訓(xùn)練完畢。
本實(shí)施例上述方法首先獲取到訓(xùn)練樣本,并且對(duì)訓(xùn)練樣本的句型進(jìn)行人工標(biāo)注,得到訓(xùn)練樣本集;然后根據(jù)訓(xùn)練樣本集中各類句型的訓(xùn)練樣本構(gòu)建得到特殊陳述句決策樹(shù)、疑問(wèn)句決策樹(shù)和否定句決策樹(shù),并且將訓(xùn)練樣本集中的各訓(xùn)練樣本分別輸入至特殊陳述句決策樹(shù)、疑問(wèn)句決策樹(shù)和否定句決策樹(shù)進(jìn)行句型判定;最后提取出特殊陳述句決策樹(shù)、疑問(wèn)句決策樹(shù)和否定句決策樹(shù)均不能判定的訓(xùn)練樣本,針對(duì)這些訓(xùn)練樣本,通過(guò)第一疑問(wèn)詞詞典和否定詞詞典提取各訓(xùn)練樣本中的疑問(wèn)詞和否定詞,并且統(tǒng)計(jì)出以下情況:出現(xiàn)某個(gè)疑問(wèn)詞和某種前置詞性搭配時(shí)句子為疑問(wèn)句的條件概率、出現(xiàn)某個(gè)疑問(wèn)詞和某種后置詞性搭配時(shí)句子為疑問(wèn)句的條件概率、出現(xiàn)某個(gè)否定詞和某種前置詞性搭配時(shí)句子為否定句的條件概率、出現(xiàn)某個(gè)否定詞和某種后置詞性搭配時(shí)句子為否定句的條件概率、出現(xiàn)某個(gè)疑問(wèn)詞在前而某個(gè)否定詞在后時(shí)句子分別成為疑問(wèn)句和否定句的概率、出現(xiàn)某個(gè)否定詞在前而某個(gè)疑問(wèn)詞在后時(shí)句子分別成為疑問(wèn)句和否定句的概率;然后識(shí)別出每個(gè)訓(xùn)練樣本中的疑問(wèn)詞及其前置詞性和后置詞性、否定詞及其前置詞性和后置詞性,獲取到出現(xiàn)該疑問(wèn)詞和該前置詞性時(shí)句子成為疑問(wèn)句的概率,作為訓(xùn)練樣本第一特征值;獲取到出現(xiàn)該疑問(wèn)詞和該后置詞性時(shí)句子成為疑問(wèn)句的概率,作為訓(xùn)練樣的第二特征值;獲取到訓(xùn)練樣本中否定詞的個(gè)數(shù)作為訓(xùn)練樣本的第三特征值;獲取到出現(xiàn)該否定詞和該前置詞性時(shí)句子成為否定句的概率,作為訓(xùn)練樣本的第四特征值;獲取到出現(xiàn)該否定詞和該后置詞性時(shí)句子成為否定句的概率,作為訓(xùn)練樣本的第五特征值;獲取該疑問(wèn)詞和該否定詞的相對(duì)位置,將該相對(duì)位置作為訓(xùn)練樣本的第六特征值;獲取到出現(xiàn)該疑問(wèn)詞在前而該否定詞在后時(shí)句子分別成為疑問(wèn)句和否定句的概率,且分別作為訓(xùn)練樣本的第七特征值和第八特征值;或者獲取到出現(xiàn)該否定詞在前而該疑問(wèn)詞在后時(shí)句子分別成為訓(xùn)練樣本的疑問(wèn)句和否定句的概率,且分別作為訓(xùn)練樣本的第七特征值和第八特征值;將訓(xùn)練樣本的第一特征值至第八特征值分別作為輸入對(duì)svm進(jìn)行訓(xùn)練,得到svm分類器。當(dāng)獲取到測(cè)試樣本后,首先通過(guò)特殊陳述句決策樹(shù)進(jìn)行句型判定,在特殊陳述句決策樹(shù)未判定出結(jié)果的情況下,首先根據(jù)第二疑問(wèn)詞詞典和否定詞詞典判斷測(cè)試樣本中是否有疑問(wèn)詞和否定詞,在只有疑問(wèn)詞的情況下,將測(cè)試樣本作為候選疑問(wèn)句輸入至疑問(wèn)句決策樹(shù)進(jìn)行判定;在只有否定詞的情況下,將測(cè)試樣本作為候選否定句輸入至否定句決策樹(shù)進(jìn)行判定;將疑問(wèn)句決策樹(shù)和否定句決策樹(shù)均未能判定出結(jié)果的測(cè)試樣本以及既有疑問(wèn)詞又有否定詞的測(cè)試樣本提取第一特征值至第八特征值后,通過(guò)svm分類器進(jìn)行分類,得到分類結(jié)果;可見(jiàn),本實(shí)施例方法將特殊陳述句決策樹(shù)、疑問(wèn)句決策樹(shù)、否定句決策樹(shù)和svm分類器相結(jié)合既可以比較準(zhǔn)確地判斷出大部分正常的句子,又可以相對(duì)高效地處理一部分難以歸納總結(jié)的句子。本發(fā)明方法以決策樹(shù)算法為核心,以svm算法為輔助,可以很好地解決傳統(tǒng)決策樹(shù)模型無(wú)法判斷的特殊點(diǎn),提升句型分類的準(zhǔn)確率。
上述實(shí)施例為本發(fā)明較佳的實(shí)施方式,但本發(fā)明的實(shí)施方式并不受上述實(shí)施例的限制,其他的任何未背離本發(fā)明的精神實(shí)質(zhì)與原理下所作的改變、修飾、替代、組合、簡(jiǎn)化,均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。