專利名稱:用于分類文本以及構(gòu)造文本分類器的方法和裝置的制作方法
1.本發(fā)明的背景1.1.本發(fā)明的領(lǐng)域本發(fā)明涉及確定諸如文本信息對象之類的對象是否屬于某個或某些特定種類。通過使用諸如文本分類器之類的分類器實現(xiàn)上述確定。本發(fā)明還涉及通過確定用于該(文本)分類器的適當參數(shù)來構(gòu)造(文本)分類器。
1.2.相關(guān)技術(shù)1.2.1.文本分類的需求為了增加其效用和智能,要求在越來越廣的范圍內(nèi),調(diào)用諸如計算機之類的機器,來分類(或識別)對象。例如,計算機可以使用光學字符識別來分類手寫或掃描數(shù)字和字母,使用模式識別來分類諸如面孔、指紋、戰(zhàn)斗機之類的圖像,或者使用語音識別來分類聲音、語音等等。
同樣,調(diào)用機器來分類文本信息對象,如計算機文本文件或文檔。文本分類應用既不同又重要。例如,可以使用文本分類將文本信息對象組織為預定類或種類的層次。這樣,查找(或?qū)Ш降?與特定主題有關(guān)的文本信息對象的工作可以簡化??梢允褂梦谋痉诸悓⑦m當?shù)奈谋拘畔ο舐酚傻竭m當?shù)娜嘶蛭恢?。這樣,信息服務可以將涉及各種主題(如商業(yè)、體育、股票、足球、特定公司、特定足球隊)的文本信息對象,路由到具有不同興趣的人??梢允褂梦谋痉诸悂磉^濾文本信息對象,從而人們可以免受不需要的文本內(nèi)容(如不需要的未經(jīng)請求的電子郵件,也稱為垃圾郵件或“垃圾”)的騷擾。正如可以從上述幾個示例中能夠理解的那樣,文本分類有許多令人激動的重要應用。
1.2.2.已知的文本分類方法在本節(jié)中,將介紹幾種已知的分類方法。此外,介紹這些分類方法的公認或可疑限制。首先,在1.2.2.1節(jié)中討論基于規(guī)則的分類。然后,在1.2.2.2節(jié)中討論同時使用學習部件和執(zhí)行部件的分類系統(tǒng)。
1.2.2.1.基于規(guī)則的分類在某些實例中,必需根據(jù)某種公認邏輯,利用絕對可信度對文本內(nèi)容進行分類??梢允褂没谝?guī)則的系統(tǒng)實現(xiàn)此類分類。基本上,基于規(guī)則的系統(tǒng)使用以下形式的產(chǎn)生式規(guī)則IF條件,THEN事實。
條件可以包括文本信息是否包括某些單詞或短語,是否具有某種語法或某些屬性。例如,如果文本內(nèi)容具有單詞“收盤”、短語“nasdaq”和數(shù)字,則將其分類為“股票”文本。
不幸的是,在許多實例中,基于規(guī)則的系統(tǒng)并不實用,特別是在測量或輸入值(或特征或?qū)傩灾?很大、組合條件或規(guī)則的邏輯很復雜、和/或可能的分類數(shù)目很大的實例中。由于文本信息可能具有許多特征和復雜的語義,所以除最簡單的應用之外,基于規(guī)則的系統(tǒng)的上述限制,使其不適合于對文本進行分類。
在前十年中,越來越多地使用其他類型的分類器。盡管這些分類器并不象基于規(guī)則的分類器一樣使用靜態(tài)預定邏輯,但它們已經(jīng)在許多應用中比基于規(guī)則的分類器好。在1.2.2.2中介紹此類分類器,它們通常包括一個學習部件和一個執(zhí)行部件。此類分類器包括神經(jīng)網(wǎng)絡(luò),貝葉斯網(wǎng)絡(luò)和支持向量機。盡管上述分類器是周知的,但為了方便讀者,仍然簡短介紹各種分類器。
1.2.2.2.具有學習和執(zhí)行部件的分類器正如在上節(jié)結(jié)束時提到的那樣,在許多應用中,具有學習和執(zhí)行部件的分類器比基于規(guī)則的分類器好。再次重申,這些分類器包括神經(jīng)網(wǎng)絡(luò)(在1.2.2.2.1節(jié)中介紹以方便讀者),貝葉斯網(wǎng)絡(luò)(在1.2.2.2.2節(jié)中介紹以方便讀者)和支持向量機(在1.2.2.2.3節(jié)中介紹以方便讀者)。
1.2.2.2.1.神經(jīng)網(wǎng)絡(luò)基本上,神經(jīng)網(wǎng)絡(luò)是相同處理部件(也稱為神經(jīng)元)的多層、層次排列。各神經(jīng)元可以有一個或多個輸入,但只有一個輸出。用一個系數(shù)對各神經(jīng)元的輸入進行加權(quán)。神經(jīng)元的輸出通常為其加權(quán)輸入和偏差值之和的函數(shù)。此函數(shù),也稱為激活函數(shù),通常為S形函數(shù)。即,激活函數(shù)可以為S形單調(diào)增加,并且當其輸入分別接近正負無窮大時,漸進逼近固定值(即+1,0,-1)。S形函數(shù)以及各神經(jīng)系統(tǒng)的權(quán)重與偏差,確定神經(jīng)元對輸入信號的響應或“興奮性”。
在神經(jīng)元的層次排列中,可以將一層中各神經(jīng)元的輸出,分發(fā)到下一層中的一個或多個神經(jīng)元,作為其輸入。一個典型神經(jīng)網(wǎng)絡(luò)可以包括一個輸入層和兩個(2)不同層;即一個輸入層,一個中間神經(jīng)元層和一個輸出神經(jīng)元層。請注意,輸入層上的節(jié)點不是神經(jīng)元。輸入層上的節(jié)點僅有一個輸入,并且基本上將未處理的輸入提供到下一層的輸入。例如,如果使用神經(jīng)網(wǎng)絡(luò)來識別20乘15象素陣列中數(shù)字字符,則輸入層將有300個神經(jīng)元(即每個輸入象素一個),而輸出陣列有10個神經(jīng)元(即每10個數(shù)字一個)。
神經(jīng)網(wǎng)絡(luò)的使用一般涉及兩個(2)連續(xù)步驟。首先,初始化神經(jīng)網(wǎng)絡(luò),并以具有已知輸出值(或分類)的已知輸入訓練該網(wǎng)絡(luò)。一旦訓練了神經(jīng)網(wǎng)絡(luò),就可以使用它來分類未知輸入。通過將神經(jīng)元的權(quán)重和偏差設(shè)置為通常根據(jù)高斯分布生成的隨機值,來初始化神經(jīng)網(wǎng)絡(luò)。然后使用具有已知輸出(或分類)的一連串輸入,訓練該神經(jīng)網(wǎng)絡(luò)。在將訓練輸入饋入到神經(jīng)網(wǎng)絡(luò)時,調(diào)整(如,根據(jù)眾所周知的反向傳播技術(shù))神經(jīng)系統(tǒng)的權(quán)重和偏差值,從而各個訓練模式的神經(jīng)網(wǎng)絡(luò)的輸出逼近已知輸出,或與已知輸出匹配?;旧希褂脵?quán)重空間中的梯度下降使輸出誤差達到最小。這樣,使用連續(xù)訓練輸入的學習,朝權(quán)重和偏差的局部最優(yōu)解收斂。即,調(diào)節(jié)權(quán)重和偏差使誤差達到最小。
實際上,并不將該系統(tǒng)訓練為收斂到最佳解。否則,該系統(tǒng)將會“過度訓練”,從而使其太適應訓練數(shù)據(jù),并且可能不能很好地對與訓練集有些不同的輸入進行分類。因此,在其訓練的不同時期,在一組驗證數(shù)據(jù)上測試該系統(tǒng)。當該系統(tǒng)的性能在驗證集上不再改進時,訓練停止。
一旦訓練完成,就可以使用該神經(jīng)網(wǎng)絡(luò),根據(jù)訓練期間確定的權(quán)重和偏差,對未知輸入進行分類。如果該神經(jīng)網(wǎng)絡(luò)能夠有把握地對未知輸入進行分類,則輸出層中某個神經(jīng)元的輸出,將遠遠高于其他神經(jīng)元的輸出。
為了確保權(quán)重和偏差項不發(fā)散,該算法使用小步長。此外,用于訓練神經(jīng)網(wǎng)絡(luò)的反向傳播(梯度下降)技術(shù)較慢。(例如,參見論文作者Schütze等,“用于路由問題的分類器和文檔表示的比較”,International ACM SIGIR Conference on Research and Developmentin Information Retrieval,第5節(jié)(1995)(以下稱為“Schütze論文”))。因此,收斂較慢。此外,事先不能輕易確定隱藏層中的神經(jīng)元的數(shù)目。因此,通常執(zhí)行許多耗費時間的實驗,以確定隱藏神經(jīng)元的最佳數(shù)目。
1.2.2.2.2.貝葉斯網(wǎng)絡(luò)在介紹了神經(jīng)網(wǎng)絡(luò)之后,現(xiàn)在簡要介紹貝葉斯網(wǎng)絡(luò)。通常,貝葉斯網(wǎng)絡(luò)使用一些假設(shè)作為數(shù)據(jù)(如輸入特征向量)和預言(如分類)之間的中間物??梢怨烙嫿o定數(shù)據(jù)時各假設(shè)的概率(“P(假設(shè)|數(shù)據(jù))”)。通過使用所有假設(shè)的后驗概率來對各假設(shè)的特有預言進行加權(quán),根據(jù)所有假設(shè)作出預報??梢詫⒔o定數(shù)據(jù)D時預言X的概率表示為P(X|D)=ΣiP(X|D,Hi)P(Hi|D)=ΣiP(X|Hi)P(Hi|D)]]>其中Hi為第i個假設(shè)。給定數(shù)據(jù)D時使Hi的概率(P(Hi|D))取最大值的最可能假設(shè)Hi,稱為最大后驗假設(shè)(或“HMAP”),并且可以表示為P(X|D)≈P(X|HMAP)通過使用貝葉斯規(guī)則,可以將給定數(shù)據(jù)D時假設(shè)Hi的概率表示為P(Hi|D)=P(D|Hi)P(Hi)P(D)]]>數(shù)據(jù)D的概率保持不變。因此,為了查找HMAP,分子必需取最大值。
分子的第一項表示給定假設(shè)i時觀察到該數(shù)據(jù)的概率。第二項表示指派給定假設(shè)i的先驗概率。
貝葉斯網(wǎng)絡(luò)包括變量和在變量之間的有向邊,從而定義一個有向無環(huán)圖(即“DAG”)。各變量可以取有限個互斥狀態(tài)中的任意狀態(tài)。對于具有父變量B1,...,Bn的各變量A,有一個附屬概率表(P(A|B1,...,Bn))。貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)可編碼以下的假設(shè)即給定其父變量時,各變量與其非后裔有條件地獨立。
假設(shè)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)是已知的,并且所有變量是可觀察的,則只需學習條件概率表集合。直接使用學習示例集中的統(tǒng)計,可以估計上述表。如果結(jié)構(gòu)是已知的,但某些變量是隱藏的,則學習類似于上面討論的神經(jīng)網(wǎng)絡(luò)學習。
以下介紹簡單貝葉斯網(wǎng)絡(luò)的示例。變量“MML”可以表示“我的草坪的水分”,并具有狀態(tài)“濕”和“干”。MML變量可以具有“下雨”和“我的灑水器處于工作狀態(tài)”父變量,其中各父變量具有“是”和“否”狀態(tài)。另一變量“MNL”可以表示“我的鄰居的草坪的水分”,并具有狀態(tài)“濕”和“干”。MNL變量可以共享“下雨”父變量。在此示例中,預言可以為我的草坪是“濕”還是“干”。此預言取決于假設(shè)(ⅰ)如果下雨,則我的草坪是濕的概率為x1,(ⅱ)如果我的灑水器處于工作狀態(tài),則我的草坪是濕的概率為x2。下雨或我的灑水器處于工作狀態(tài)的概率可取決于其他變量。例如,如果我的鄰居的草坪是濕的,并且他們沒有灑水器,則更可能下過雨。在下文中說明了與“濕草地”有關(guān)的貝葉斯網(wǎng)絡(luò)的示例,作者Jensen,貝葉斯網(wǎng)絡(luò)引論,pp.22-25,Spinger-Verlag,紐約(1997)。
如上所述,正如神經(jīng)網(wǎng)絡(luò)一樣,可以訓練貝葉斯網(wǎng)絡(luò)中的條件概率表。其優(yōu)點在于,通過允許提供先驗知識,可以縮短學習過程。然而,不幸的是,通常并不知道有關(guān)條件概率的先驗概率,此時使用一致的先驗概率。
1.2.2.2.3.支持向量機支持向量機(即“SVM”)是另一種類型的可訓練分類器。據(jù)報道,在諸如文本分類之類的某些應用中,SVM分類比樸素(naive)貝葉斯網(wǎng)絡(luò)分類更準確。(例如,參見論文作者Joachims,“利用支持向量機進行文本分類利用許多有關(guān)特征進行學習”,LS-8,報告23,多特蒙德大學,計算機科學系(1997年11月))。另據(jù)報道,在諸如讀取手寫字符之類的某些應用中,它們比神經(jīng)網(wǎng)絡(luò)更準確。(例如,參見論文作者LeCun等,“用于分類的學習算法有關(guān)手寫數(shù)字識別的比較”,神經(jīng)網(wǎng)絡(luò)統(tǒng)計方法觀點,Oh等人(編著),PP.261-276,World Scientific(1995))。然而,不幸的是,據(jù)報道,SVM的訓練時間比樸素貝葉斯網(wǎng)絡(luò)更長。在以下美國專利申請中公開了一種更有效地構(gòu)造(或訓練)SVM的新方法和裝置,該美國專利的申請?zhí)枮?9/055,477,申請人為John Platt,題目為“用于構(gòu)造支持向量分類器的方法和裝置”,申請日期為1998年4月6日,這里引用作為參考。
盡管熟練技術(shù)人員了解SVM,但為了方便讀者,仍然介紹其理論和操作。
可以利用許多特征來表示要分類的對象。例如,如果利用兩個(2)特征表示要分類的對象,則可以用二(2)維空間中的一個點表示它。同樣,如果用n個特征,也稱為特征向量,表示要分類的對象,則可以用n維空間中的一個點表示它。SVM的最簡單形式定義n維空間中的一個平面(也稱為超平面),該平面分割與“在某個類”中的對象有關(guān)的特征向量點以及與“不在該類”中的對象有關(guān)的特征向量點。通過定義多個超平面,可以定義多個類。由經(jīng)過訓練的SVM定義的超平面,使從該平面到“在該類”和“不在該類”中的最近點(也稱為“支持向量”)的距離最大。查找使在支持向量和超平面之間之距離最大的超平面,從而由該超平面定義的SVM對輸入噪聲穩(wěn)定。利用訓練過程定義超平面(或超表面),其中在4.2.1.4.1節(jié)中討論某些訓練過程。
1.2.2.2.4.把具有學習和執(zhí)行部件的分類器用于文本分類的挑戰(zhàn)如上所述,盡管基于規(guī)則的分類器僅在最簡單的文本分類應用中可行,但是當使用具有學習和執(zhí)行部件(也稱為“學習機器”)的系統(tǒng)進行文本分類時,存在一些重要挑戰(zhàn)。下面將在1.2.2.2.4.1到1.2.2.2.4.3節(jié)中介紹某些比較重要的挑戰(zhàn)。
1.2.2.2.4.1.特征向量的大小在訓練用于文本分類的學習機器時,使用學習示例集。各學習示例包括一個與文本信息對象有關(guān)的特征向量。在某些應用中,此特征向量的數(shù)量級為108。通過考慮單詞是否在文檔中出現(xiàn)作為特征,可以輕而易舉地生成很多特征。如果將某本全集中的所有單詞都作為可能特征,則可以有數(shù)百萬個獨特特征。例如,網(wǎng)頁具有許多獨特字符串,并且能夠生成數(shù)百萬個特征。如果考慮單詞或詞組的配對或更一般的組合,或者考慮單詞的出現(xiàn)頻率,則更大數(shù)目的特征也是可能的??梢岳盟^的“特征精簡”或“特征選擇”方法來精簡特征向量中的特征數(shù),從而生成具有原始特征向量之特征子集的精簡特征向量。實際上,某些人認為,為了使文本分類器之學習機器切實可行,需要特征選擇。
已知的特征選擇技術(shù)包括DF-閾值處理(例如,參見論文作者Yang和Peterson,“有關(guān)文本分類中特征選擇的比較研究”,國際機器學習會議(1997);以下稱為“Yang-Peterson論文”),x2測試(例如,參見Schütze論文),條件強度標準(例如,參見論文作者Yang和Wilbur,“使用全集統(tǒng)計刪除文本分類中的冗余單詞”,美國信息科學學會期刊,第47卷,第5其,PP.357-369(1996),以下稱為“Yang-Wilbur論文”),信息增益標準(例如,參見Yang-Peterson論文),為x2測量值的平方根的相關(guān)系數(shù)(例如,參見論文作者Ng等人,“用于文本分類的特征選擇、感知器學習和可用性事例學習”SIGIR’97會議錄,pp.67-73(1997)),以及使用單值分解(即“SVD”)的潛在語義索引處理(即“LSI”),其中SVD為一種利用正交索引變量之低維線性組合(例如,參見Schütze等人論文)表示特征的技術(shù)。
然而,某些人認定應避免特征選擇。例如,贊成使用SVM進行文本分類的Joachims論文,認定由于損失了信息,特征選擇很可能損害性能。(例如,參見Joachims論文,第3頁)。Joachims論文還認定,由于SVM能夠在高維空間中很好地歸納,所以無需進行特征選擇,從而使文本分類更容易。(例如,參見Joachims論文,第11頁)。因此,盡管某些技術(shù)人員發(fā)現(xiàn)特征選擇是有用的,但當使用SVM進行文本分類時,要在某些實例中避免特征選擇。
1.2.2.2.4.2.過度適應在訓練學習機器時,根據(jù)一組特征向量中的訓練實例進行訓練。一般而言,學習機器的性能在某種程度上依賴于訓練該機器所使用的訓練實例的數(shù)目。即使有很多訓練實例,屬于某些種類的訓練實例的數(shù)目也可能較少。
許多訓練機器根據(jù)輸入(如未知對象的特征向量),利用S形函數(shù)(即S形的單調(diào)函數(shù))來確定輸出(如確定對象是否在某個種類中)。不幸的是,當給定種類的可用訓練數(shù)據(jù)很少時,不能明確定義S形函數(shù)的參數(shù)。因此,當給定種類的可用訓練數(shù)據(jù)很少時,S形函數(shù)可能過度適應于以前的數(shù)據(jù)。此類過度適應不能保證學習機器的輸出的可信度,所以應該避免。
1.2.2.2.4.3.分類速度訓練時間和響應(如分類)時間是學習機器的兩個(2)重要特性。例如,即使贊成使用學習機器(特別是SVM)對文本進行分類的人員,也承認SVM的訓練時間比其他方法長。以下美國專利解決了此挑戰(zhàn),該美國專利的申請?zhí)枮?9/055,477,申請人為John Platt,題目為“用于構(gòu)造支持向量分類器的方法和裝置”,申請日期為1998年4月6日并且轉(zhuǎn)讓給同一受讓人(這里引用作為參考),此處不再詳細介紹。
剩下的問題是響應(即分類)時間。本發(fā)明認為,在Joachims論文中討論的SVM分類器,根據(jù)以下表達式對未知對象進行分類O=Σi=1nteαi(xi→•xj→)yi---(1)]]>其中O=分類輸出;nte=訓練實例的數(shù)目;αi=訓練實例i的拉格朗日乘數(shù);xi=訓練實例i的特征向量;xi=未知對象j的特征向量;以及yi=訓練實例i的已知輸出。
使用式(1)確定輸出是比較慢的。很自然地,需要更快的分類器。
Schütze論文討論了利用權(quán)重向量(β)的對數(shù)回歸分類器,其中權(quán)重向量是利用數(shù)值優(yōu)化的最大似然性和Newton-Raphson方法導出的。盡管人們認為,此分類器分類對象比Joachims論文中討論的SVM分類器快,但人們堅信,所確定的權(quán)重向量(β)不能提供最佳分類結(jié)果。
2.本發(fā)明的概要本發(fā)明可以執(zhí)行兩個(2)基本功能中的至少一個(1)功能,兩個基本功能為生成用于分類器的參數(shù)和對諸如文本信息對象之類的對象進行分類。
基本上,根據(jù)一組訓練實例,生成分類器的參數(shù)??梢愿鶕?jù)一組訓練實例生成特征向量集??梢跃喬卣飨蛄考奶卣?。要生成的參數(shù)可以包括一個定義的單調(diào)(如S形)函數(shù)和一個權(quán)重向量??梢酝ㄟ^SVM訓練(或通過其他已知技術(shù))確定權(quán)重向量??梢酝ㄟ^優(yōu)化方法定義單調(diào)(如S形)函數(shù)。
文本分類器可以包括一個權(quán)重向量和一個定義的單調(diào)(如S形)函數(shù)?;旧希梢詫⒈景l(fā)明的文本分類器的輸出表示為Oc=11+eA(wc-•x-)+B---(2)]]>
其中Oc=種類c的分類輸出;wc=與種類c有關(guān)的權(quán)重向量參數(shù);x=基于未知文本信息對象的(精簡)特征向量;以及A和B為單調(diào)(如S形)函數(shù)的可調(diào)參數(shù)。
根據(jù)式(2)計算輸出比根據(jù)式(1)計算輸出快。
根據(jù)要分類的對象的形式,分類器可以(ⅰ)將文本信息對象轉(zhuǎn)換為特征向量,以及(ⅱ)將特征向量精簡為具有較少元素的精簡特征向量。
3.附圖的簡要說明
圖1為可由本發(fā)明之第一方面執(zhí)行的過程的高級圖。
圖2為可由本發(fā)明之第二方面執(zhí)行的過程的高級圖。
圖3A為文本信息對象的訓練實例的典型數(shù)據(jù)結(jié)構(gòu)。圖3B和3C為文本信息對象的另一種典型稀疏向量數(shù)據(jù)結(jié)構(gòu)。
圖4A為圖3A的訓練實例的典型數(shù)據(jù)結(jié)構(gòu),其中已精簡了特征向量。圖4B和4C為精簡特征向量的另一種典型稀疏向量數(shù)據(jù)結(jié)構(gòu)。
圖5A為圖4A的訓練實例的典型數(shù)據(jù)結(jié)構(gòu),其中已經(jīng)二進制化了精簡特征向量的值。圖5B和5C為已二進制化的精簡特征向量的另一種典型稀疏向量數(shù)據(jù)結(jié)構(gòu)。
圖6為典型特征抽取過程的流程圖。
圖7為典型特征精簡過程的流程圖。
圖8為用于生成分類引擎之參數(shù)的典型過程的流程圖。
圖9表示某些特征精簡技術(shù)使用的信息。
圖10表示各種S形函數(shù)。
圖11A為可用于實現(xiàn)本發(fā)明所執(zhí)行過程的計算機環(huán)境的框圖。
圖11B為可用于實現(xiàn)本發(fā)明所執(zhí)行過程的機器的框圖。
4.詳細說明本發(fā)明涉及諸如文本分類器之類的獨創(chuàng)分類器,以及構(gòu)造此類(文本)分類器。提供以下說明以使熟練技術(shù)人員能夠使用本發(fā)明,并在特定應用以及其需求的范圍內(nèi)提供說明。對熟練技術(shù)人員而言,對所公開實施方式的各種更改是顯而易見的,并且可以將下面闡述的一般原則應用于其他實施方式和應用中。因此,本發(fā)明并不是用來限制所示實施方式的。
關(guān)于說明中使用的記號,利用“帽子”箭頭或利用黑體字來表示向量。
下面在4.1節(jié)中說明本發(fā)明可以執(zhí)行的功能。然后,在4.2節(jié)中說明典型方法以及用于執(zhí)行該方法的結(jié)構(gòu)。
4.1.功能本發(fā)明可以執(zhí)行兩個(2)基本功能中的至少一個(1)功能。下面在4.1.1節(jié)中說明第一個基本功能,即生成分類器的參數(shù)。在4.1.2節(jié)中說明第二個基本功能,即對文本進行分類。
4.1.1.生成分類器的參數(shù)基本上,根據(jù)一組訓練實例生成分類器的參數(shù)。本發(fā)明可以根據(jù)一組訓練實例生成特征向量集。本發(fā)明也可以精簡特征向量集中的特征數(shù)目。要生成的參數(shù)可以包括一個定義的單調(diào)(如S形)函數(shù)和一個權(quán)重向量??梢酝ㄟ^SVM訓練確定權(quán)重向量??梢酝ㄟ^優(yōu)化方法定義單調(diào)(如S形)函數(shù)。優(yōu)化方法可以使用一個特殊目標函數(shù),以避免過度適應。
4.1.2.分類文本本發(fā)明可以分類文本。一個文本分類器可以包括一個權(quán)重向量和一個定義的單調(diào)(如S形)函數(shù)。基本上,可以將文本分類器的輸出表示為Oc=11+eA(wc-•x-)+B---(2)]]>其中Oc=種類c的分類輸出;wc=與種類c有關(guān)的權(quán)重向量參數(shù);x=基于未知文本信息對象的(精簡)特征向量;以及
A和B為單調(diào)(如S形)函數(shù)的可調(diào)參數(shù)。
再次重申,根據(jù)式(2)計算輸出比根據(jù)式(1)計算輸出快。
根據(jù)要分類的對象的形式,分類器可以(ⅰ)將文本信息對象轉(zhuǎn)換為特征向量,以及(ⅱ)將特征向量精簡為具有較少元素的精簡特征向量。
4.2.典型結(jié)構(gòu)/方法在4.2.1中說明用于生成分類器之參數(shù)的典型過程和方法。下面在4.2.2中說明用于分類文本的典型過程和方法。最后,在4.2.3中說明用于實現(xiàn)所述過程和方法的典型裝置(或體系結(jié)構(gòu))。
4.2.1.用于生成分類器之參數(shù)的過程/方法圖1表示本發(fā)明可用來生成文本分類器之參數(shù)的過程和數(shù)據(jù)。假設(shè)提供一組訓練數(shù)據(jù)115(如,文本信息對象和種類標記),則特征抽取過程(或更一般地,特征抽取程序)110生成與訓練集的各文本信息對象相對應的特征向量??梢詫⒃撎卣飨蛄看鎯υ诖鎯ξ恢?25。在4.2.1.1中說明典型特征抽取過程。
圖3A表示訓練對象的典型數(shù)據(jù)結(jié)構(gòu)300,該結(jié)構(gòu)包括特征向量310和種類向量320。特征向量310包括與各特征(即屬性)相對應的字段312,其中各特征是根據(jù)文本信息對象導出的。在此實例中,特征向量310中有“n”個特征。特征向量310的特征(即屬性)字段312,包括根據(jù)文本信息對象導出的相應值。例如,如果假設(shè)文本對象可包括2,500,000詞表中的單詞,則特征向量310可包括2,500,000個字段,每個字段對應于詞匯表中的一個單詞。字段中存儲的值可以對應于詞匯表中的特定單詞在該文本信息對象中的出現(xiàn)次數(shù)。
由于文本信息對象的特征向量中的大部分值為零(0),所以可以使用稀疏向量技術(shù),從而利用兩個(2)較小的數(shù)組而不是一個大數(shù)組來表示該特征向量。第一數(shù)組索引具有非零值的特征。第二數(shù)組包含由第一數(shù)組索引的特征值。例如,參照圖3B,如果特征向量只有第一、第50、第57、第101和第220特征具有非零值,則可以使用稀疏數(shù)據(jù)結(jié)構(gòu)310′代替圖3A中的特征向量310。稀疏數(shù)據(jù)結(jié)構(gòu)310′包括第一數(shù)組350和第二數(shù)組360,數(shù)組350包含非零特征的下標(即l,50,57,101和220),數(shù)組360包含索引特征的值。圖3C表示另一種稀疏數(shù)據(jù)結(jié)構(gòu)310″,該結(jié)構(gòu)具有與非零特征相對應另一種索引字段和值字段。
種類向量320包含與“m”個不同種類相對應的字段322。種類向量320的字段322可以包含一個二進制值,此值表示該文本信息對象是否屬于某個特定種類。一個文本信息對象可以屬于不止一個種類。
可以將與訓練集中的各文本信息對象相對應的的數(shù)據(jù)結(jié)構(gòu)300,存儲在存儲區(qū)域125中。特征精簡過程(或更一般地,特征精簡設(shè)施)120,或者從存儲區(qū)域125或者從特征抽取過程110,接收數(shù)據(jù)結(jié)構(gòu)300,然后將特征向量310的特征數(shù)目從“n”精簡到“z”,其中“z”小于“n”,并且可以比“n”小三(3)個數(shù)量級。參照圖4A,由特征精簡過程120生成一種新的數(shù)據(jù)結(jié)構(gòu)400。數(shù)據(jù)結(jié)構(gòu)400包含一個種類向量320,后者對應于數(shù)據(jù)結(jié)構(gòu)300的種類向量。數(shù)據(jù)結(jié)構(gòu)400還包含一個精簡特征向量410,后者具有字段412,字段412對應于由特征精簡過程120確定的、訓練集中的文本信息對象的所有特征(或?qū)傩?中比較重要的特征。特征精簡過程120還生成一個精簡特征集,后者定義被認為是比較重要的特征向量的“n”個字段412中的“z”個字段。下面在4.2.1.2節(jié)中說明典型的特征精簡過程120。
盡管以一個較大特征向量數(shù)組的形式,說明各文本信息對象,但實際上,如上所述,可以使用稀疏數(shù)組技術(shù),從而利用兩個(2)較小數(shù)組而不是一(1)個大數(shù)組來表示各文本信息對象。例如,參照圖4B,如果認為第一和第57特征不重要,則產(chǎn)生稀疏數(shù)據(jù)結(jié)構(gòu)410′。稀疏數(shù)據(jù)結(jié)構(gòu)410′包括第一數(shù)組450和第二數(shù)組460,數(shù)組450包含所選的非零特征的下標(即50,101和220),數(shù)組460包含由第一數(shù)組450索引的特征的值。圖4C表示另一種稀疏數(shù)據(jù)結(jié)構(gòu)410″,后者具有與所選非零特征相對應的另一種索引字段和值字段。
可以使用可選的(用虛線表示)二進制化過程150,將訓練集中各對象的精簡特征向量410的各字段412的各值,轉(zhuǎn)換為二進制值。在各字段412的情況下,通過將所有值應用于一個預定(或?qū)С?的閾值,進行這種二進制值轉(zhuǎn)換。因此,各字段412可以與不同閾值關(guān)聯(lián)。自然地,也可以將單個閾值應用于所有字段412。圖5A為可用來表示包含二進制值的所得到的精簡特征向量510的數(shù)據(jù)結(jié)構(gòu)。向量510與圖4A中的數(shù)據(jù)結(jié)構(gòu)400的向量410具有相同數(shù)目的字段“z”。然而,在此情況中,各字段512均包含一個二進制值(如,利用一(1)位表示)而不是一個更一般的值。數(shù)據(jù)結(jié)構(gòu)500的種類向量320與數(shù)據(jù)結(jié)構(gòu)300和400的種類向量相同。下面在4.2.1.3節(jié)中說明典型的二進制化過程。
參照圖5B,如果所選的非零特征101和220超過其閾值,而所選的非零特征50未超過其閾值,則稀疏數(shù)據(jù)結(jié)構(gòu)510′包括第一數(shù)組550和第二數(shù)組560,數(shù)組550包含超過其閾值的所選非零特征的下標(即101和220),數(shù)組560包含索引的特征的值。如圖5C所示,由于超過其閾值的二進制化的、所選非零特征的值全部為“1”,所以可以使用僅包括索引數(shù)組550的另一種稀疏數(shù)據(jù)結(jié)構(gòu)510″。
自然地,可以使用其他量化器提供q進制(其中q>2)量化,以代替二進制量化。
可以將精簡特征向量(或二進制化的精簡特征向量)存儲于存儲部件135中。
一個通用文本分類器可包括用于“m”中不同種類之各種類的分類器。我們記得,要為“m”個分類器的各分類器,確定具有可調(diào)參數(shù)A和B的權(quán)重向量參數(shù)和單調(diào)(如S形)函數(shù)。因此,“m”過程140(可以包括一個支持向量機訓練設(shè)施和一個函數(shù)生成器),或者從存儲部件135或者從特征精簡過程120(或二進制化過程150),接收精簡特征向量(或二進制化的精簡特征向量)。盡管圖1描述了“m”個并行過程140,但是,可以使用單一過程140來處理“m”個連續(xù)種類(或能夠運行m/p次的p個過程)。無論如何,均為“m”個種類中的各種類,生成一個權(quán)重向量參數(shù)和一個單調(diào)(如S形)函數(shù)。下面在4.2.1.4節(jié)中說明用于生成文本分類器之參數(shù)的典型過程。
4.2.1.1.特征抽取回憶圖1,特征抽取過程110根據(jù)一組訓練文本信息對象,生成特征向量集(以數(shù)據(jù)結(jié)構(gòu)300進行存儲)。
圖6為典型特征抽取過程110′的流程圖。在步驟610中,初始化用作文本信息對象之下標的COUNT值,其方法是將其設(shè)置為1。接著,如步驟620所示,接收由COUNT值索引的文本信息對象。如步驟630所示,將FEATURE_COUNT值初始化為1,并且將由FEATURE_COUNT值索引的VALUE值初始化為0。接著,如步驟640所示,確定在由COUNT值索引的文本信息對象中由FEATURE_COUNT值索引的VALUE值。例如,如果第5特征為單詞“體育”,并且單詞“體育”在第一文本信息對象中出現(xiàn)了三(3)次,則OBJECT(1)的VALUE(5)為三(3)。如步驟650和660所示,確定給定對象的各個特征值。如步驟670和680所示,一旦確定了某個對象的所有特征值,就確定下一個對象的所有特征值。在確定了所有對象的所有特征值之后,過程110′經(jīng)由返回節(jié)點690終止。
再次重申,步驟640確定一個文本信息對象的一個特征值。此確定過程的實現(xiàn)方式如下。可以使用文本分析器,將各文本信息對象語法分析為組成記號。記號為任意文本成分,如單詞、字母、內(nèi)部標點符號等等,這種成分是利用空白(白色)間隔或前導(后繼)標點符號,從其他此類成分中分離出來的。同時,利用文本分析模塊來抽取合成短語以及時間和日期的規(guī)范表示。也可以適當定義并抽取特定的領(lǐng)域特征。各特征可以定義一個單詞、短語或字母分組。因此,特征向量與各文本信息對象關(guān)聯(lián)。
在步驟640中,如果使用具有索引數(shù)組和值數(shù)組(例如,參見圖3B)或具有其他索引字段和值字段數(shù)組(例如,參見圖3C)的稀疏數(shù)據(jù)結(jié)構(gòu),且如果VALUE(FEATURE_COUNT)不為零,則(ⅰ)將索引數(shù)組的下一元素(即下一索引字段)設(shè)置為FEATURE_COUNT,并且(ⅱ)將值數(shù)組的下一元素(即下一值字段)設(shè)置為VALUE(FEATURE_COUNT)。
4.2.1.2.特征精簡(高級)
如上所述,與文本信息對象有關(guān)的特征向量,可能包含數(shù)百萬個特征元素。為了使訓練文本分類器的過程更可行,可以將特征向量精簡到較少元素。圖7為可以在本發(fā)明中使用的典型特征精簡過程120′(“特征精簡”也稱為“特征選擇”)的高級流程圖。首先,圖步驟710所示,本發(fā)明可以使用種類無關(guān)的特征精簡步驟(如ZIPF或頻率)(盡管是周知的,但為了方便讀者,仍在4.2.1.2.1節(jié)中說明)。接著,如步驟720所示,執(zhí)行種類相關(guān)特征精簡技術(shù)(在4.2.1.2.2節(jié)中說明其中一些技術(shù))。然后,過程120′經(jīng)由返回節(jié)點730終止。
4.2.1.2.1.種類無關(guān)的特征精簡通過應用集合范圍的頻率統(tǒng)計,可以精簡許多訓練實例文本信息對象的特征向量矩陣。技術(shù)人員熟知的Zipf定律,涉及文本中不同單詞的分布,并且它主要指出,單詞的秩(r)和頻率(f)的乘積為一常數(shù)(C),即(r*f=C),就如同頻率f與出現(xiàn)次數(shù)(N)的乘積一樣(f*N=C)。即,許多單詞在集合中僅出現(xiàn)一次;該數(shù)目一半的單詞出現(xiàn)兩次;該數(shù)目三分之一的單詞出現(xiàn)三次,等等。假設(shè)僅出現(xiàn)少數(shù)幾次的單詞對分類新項目沒有什么幫助,因此忽略它們。在頻譜的另一端,經(jīng)常出現(xiàn)的單詞也不可能很好地區(qū)分種類,因此有時忽略它們。通過應用Zipf頻率閾值,生成各文本信息對象訓練實例的精簡特征向量結(jié)果。由Yang-Pedersen論文提出的文檔頻率閾值處理與Zipf選擇類似。然而,在Yang-Pedersen論文中討論的方法使用不同的選擇準則,只保留最常見的條目。
4.2.1.2.2.種類相關(guān)的特征精簡在根據(jù)諸如Zipf定律之類的種類無關(guān)特征精簡技術(shù),精簡了訓練實例的文本信息對象的特征向量后,可以利用種類相關(guān)的特征精簡技術(shù)進一步精簡它們。此類種類相關(guān)的特征精簡可以使用周知技術(shù),如在4.2.1.2.2.1節(jié)中說明的交互信息技術(shù),或在4.2.1.2.2.2節(jié)中說明的信息增益技術(shù)。也可以使用其他已知的種類相關(guān)的特征精簡技術(shù)代替,如x2、相關(guān)系數(shù)和SVD(均為周知技術(shù),此處不在論述)??梢愿鶕?jù)專利技術(shù),如在4.2.1.2.2.3節(jié)中說明的貝葉斯評分技術(shù),實現(xiàn)種類相關(guān)的特征精簡。
4.2.1.2.2.1.交互信息交互信息為特征與分類(在此實例中為文本種類)之關(guān)聯(lián)程度的度量。體現(xiàn)出高交互信息度量的特征是分類的優(yōu)秀鑒別器,因此選擇它們。在典型實施方式中,特征為單詞,而分類為種類。在此情況中,對于給定特征(fi)(如單詞)在給定種類ci中的交互信息“MI”,可以表示為MI=P(f+c+)log(P(f+c+)P(f+)P(c+))+P(f+c-)log(P(f+c-)P(f+)P(c-))+]]>P(f-c+)log(P(f-c+)P(f-)P(c+))+P(f-c-)log(P(f-c-)P(f-)P(c-))---(3)]]>其中P(f+c+)為文檔具有特征f并屬于種類c的概率;P(f-c+)為文檔不具有特征f但屬于種類c的概率;P(f+c-)為文檔具有特征f但不屬于種類c的概率;以及P(f-c-)為文檔不具有特征f并且不屬于種類c的概率;圖9表示特征“f”,950和種類“c”960的雙向可能性表900。各文本信息對象體現(xiàn)出以下四(4)種特性種的一(1)種特性(ⅰ)具有特征“f”950并屬于種類“c”960(f+c+910);(ⅱ)具有特征“f”950但不屬于種類“c”960(f+c-920);(ⅲ)不具有特征“f”950但屬于種類“c”960(f-c+930);或(ⅳ)不具有特征“f”950并且不屬于種類“c”960(f-c-940)。如果A為體現(xiàn)特性f+c+910的文本信息對象的數(shù)目,B為體現(xiàn)特性f+c-920的文本信息對象的數(shù)目,C為體現(xiàn)特性f-c+930的文本信息對象的數(shù)目,D為體現(xiàn)特性f-c-940的文本信息對象的數(shù)目,并且N為文本信息對象的總數(shù),則可以將交互信息(MI)表示為MI=ANlog(AN(A+C)(A+B))+BNlog(BN(A+B)(B+D))+]]>CNlog(CN(A+C)(C+D))+DNlog(DN(B+D)(C+D))---(4)]]>
可以將特征(如單詞)精簡為交互信息最高的那些特征(單詞)。
若給定訓練全集,則可以計算各特有條目的交互信息??梢詮奶卣飨蛄恐袆h除那些交互信息值低于某預定閾值的條目。作為選擇,如果需要將特征數(shù)精簡為預定數(shù)目“x”,則保留具有最高交互信息值的x個特征,而不考慮其他特征。
4.2.1.2.2.2.信息增益信息增益是一種條目選擇準則,它通過了解某個條目是否在文檔中出現(xiàn),測量為種類預言獲得的信息的比特數(shù)。對于二進制分類任務(即在種類(c+)中對不在種類(c-)中)和二進制特征值(即特征出現(xiàn)(f+)對特征未出現(xiàn)(f-))的情況,特征(f)的信息增益(G(f))被定義為G(f)=-Σi∈{+,-}P(ci)log2P(ci)+P(f+)Σi∈{+,-}P(f+c+)log2P(f+ci)]]>+P(f-)Σi∈{+,-}P(f-ci)log2P(f-ci)---(5)]]>其中P(c+)為文檔屬于種類c的概率;P(c-)為文檔不屬于種類c的概率;P(f+)為文檔包含特征f的概率;P(f-)為文檔不包含特征f的概率;P(f+ci)為文檔具有特征f并屬于種類ci的概率-對于二進制分類i具有值+和-;P(f-ci)為文檔不具有特征f但屬于種類ci的概率-對于二進制分類i具有值+和-;通過在m個可能種類上求和,可以將上述測量推廣到m進制分類。
若給定訓練全集,則可以計算各特有特征的信息增益??梢詮奶卣飨蛄恐袆h除那些信息增益值低于某預定閾值的特征。作為選擇,如果需要將特征數(shù)精簡為預定數(shù)目“x”,則保留具有最高信息增益值的x個特征,而不考慮其他特征。
4.2.1.2.2.3.貝葉斯評分可以根據(jù)貝葉斯評分(BS)精簡特征向量。以下專利申請說明了貝葉斯評分的確定,該專利申請?zhí)枮?8/240,019,題目為“用于改善貝葉斯網(wǎng)絡(luò)的方法”(這里引用作為參考)??梢詫⒌趇個特征f的貝葉斯評分(BS)定義為BSf1=lgΓ(A+1)+lgΓ(B+I)+lgΓ(C+1)+lgΓ(D+I)]]>-lgΓ(A+B+2)-lgΓ(C+D+2)-lgΓ(A+C+2)-lgΓ(B+D+2)(6)+lgΓ(N+4)其中Γ(n)=nF(n-1),對所有n>0;Γ(1)=1;Γ(n+1)=n!,對n=0,1,2,...;A為體現(xiàn)特性f+c+910的文本信息對象的數(shù)目,B為體現(xiàn)特性f+c-920的文本信息對象的數(shù)目,C為體現(xiàn)特性f-c+930的文本信息對象的數(shù)目,D為體現(xiàn)特性f-c-940的文本信息對象的數(shù)目,并且N為文本信息對象的總數(shù)如果需要將特征數(shù)精簡為預定數(shù)目“x”,則保留具有最高貝葉斯評分的x個特征,而不考慮其他特征。也可以使用貝葉斯評分閾值來精簡特征數(shù)。
4.2.1.3.二進制化精簡的特征向量可以將在精簡特征向量中保存的值應用于某個閾值,或應用于特征對應的閾值,以便二進制化精簡特征向量的值。作為選擇,可以將特征向量中的值直接應用于分類器,或正如神經(jīng)網(wǎng)絡(luò)技術(shù)熟知的那樣,通過量化,以q進制(其中q>2)碼的形式進行編碼。
4.2.1.4.分類參數(shù)生成可以將上述步驟(即特征抽取、特征精簡和二進制化),看作是預處理步驟,以便更容易地確定諸如SVM文本分類器之類的文本分類器的參數(shù)?;旧希谋痉诸惼鲗⒏鶕?jù)下式,分類具有精簡特征向 量x的文本信息對象其中f=(z)為z的單調(diào)(如S形)函數(shù);以及w為權(quán)重向量。
因此,該分類器具有一個權(quán)重向量參數(shù),和一個具有可調(diào)參數(shù)的單調(diào)函數(shù)。在4.2.1.4.1節(jié)中說明權(quán)重向量參數(shù)的確定,在4.2.1.4.2節(jié)中說明單調(diào)函數(shù)的參數(shù)的確定。因此,參照圖8表示的用于生成分類引擎之參數(shù)的典型過程140′的流程圖,如圖所示,在步驟810中確定權(quán)重向量w,在步驟820中確定單調(diào)函數(shù)(以及其可調(diào)參數(shù))。過程140′經(jīng)由返回節(jié)點830終止。
4.2.1.4.1.權(quán)重向量確定各種類的分類器均具有一個權(quán)重向量參數(shù)。對于各種類,可以利用訓練支持向量機的方法,生成權(quán)重向量參數(shù)。如上所述,并且正如技術(shù)人員熟知的那樣,可以利用具有已知分類的已知對象,來訓練支持向量機(即“SVM”),以定義一個超平面或一個超表面,超平面分割n維特征向量空間中屬于該種類和不屬于該種類的所有點??梢远x一對可調(diào)參數(shù)w(一個“權(quán)重向量”)和b(一個“閾值”),使具有已知分類y的所有訓練數(shù)據(jù)x,滿足以下約束xi→•w→+b≥+1]]>對于yi=+1(7)xj→•w→+b≤-1]]>對于yi=-1(8)其中i=1’…,訓練實例數(shù);xi為第i個輸入向量;w為權(quán)重向量參數(shù);b為閾值參數(shù);以及yi為與第i個訓練實例有關(guān)的已知分類,如果該實例“在該分類中”,則為+1,如果該實例“不在該分類中”,則為-1。
可以將式(7)和(8)的不等式條件組合為以下不等式條件,其方法是,式的兩端乘以y和+1或-1,然后從兩端中減去1yi(xi→•w→+b)-1≥0---(9)]]>式(7)的等式部分的點滿足超平面xi·w+b=1,該超平面具有法線w,并且到原點的垂直距離為(1-b)/||w||,其中||w||是向量w的歐幾里得范數(shù)。同樣,式(8)的等式部分的點滿足超平面Xi·w+b=-1,該超平面到原點的垂直距離為(-1-b)/||w||。因此,容限為兩距離之和,即2/||w||。通過最小化||w||2,根據(jù)式(9)的約束,可以確定提供最大容限的超平面。
因此,訓練SVM是一個約束優(yōu)化(即最小化)問題。即,根據(jù)一個或多個約束,最小化函數(shù)(也稱為“目標函數(shù)”)。盡管熟練技術(shù)人員熟悉用于解決約束優(yōu)化問題的方法(例如,參見課本,作者Fletcher,實用優(yōu)化方法,第二版,PP.195-224,John Wiley&Sons(1987)),但為了方便讀者,將介紹有關(guān)方法。
滿足所有約束的點稱為“可行點”,并且位于“可行區(qū)域”內(nèi)。利用沒有可行下降方向的可行點,解決約束優(yōu)化(如最小化)問題。因此,用于解決約束最小化問題的方法通常為迭代方法,它可使值序列收斂到局部最小值。
熟練技術(shù)人員承認,拉格朗日乘數(shù)提供了一種將等式約束優(yōu)化問題轉(zhuǎn)換為非約束極值問題的方法。可以利用拉格朗日乘數(shù)(α),來查找服從約束g(x)的函數(shù)f(x)的極值,從而0=f(x)+αg(x),其中為梯度函數(shù)。因此,如果f(w)=||w||2并且g(W)=yi(xi·w+b)-1,則拉格朗日函數(shù)為Lp=12||w→||2-Σi=1nteαiyi(xi→•w→+b)+Σi=1nteαi---(10)]]>
其中“nte”為訓練實例的數(shù)目。
正如從數(shù)學規(guī)劃文獻中了解的那樣,“對偶性”的概念允許提供數(shù)學規(guī)劃問題的另一種便于計算的公式表示。最小化這個服從“α”必需為非負的約束條件的等式(10),稱為“最初”(即原始)問題?!皩ε肌?即變換)問題最大化等式(10),等式(10)服從以下約束,即LP的梯度相對于w和b為零,并且“α”必需為非負。此變換被認為是“Wolfe對偶”??梢詫ε技s束表示為w→=Σiαiyixi→---(11)]]>Σiαiyi=0---(12)]]>將等式(11)和(12)的條件代入等式(10)中,產(chǎn)生以下拉格朗日函數(shù)LD=Σi=1nteαi-12Σi,j=1nteαiαjyiyjxi→•xj→---(12)]]>通過最大化拉格朗日對偶問題LD,確定對偶二次規(guī)劃問題的解。
因此,通過求解對偶拉格朗日二次規(guī)劃問題,可以訓練支持向量機。對于訓練集中的每個實例i,都存在一個拉格朗日乘數(shù)αi。αi大于零的點為“支持向量”。這些支持向量是訓練集的關(guān)鍵元素,這是由于它們距離判定邊界最近,因此,從判定邊界定義其容限。
不幸的是,等式(13)的二次規(guī)劃問題,僅表示具有以下約束的優(yōu)化問題,即以比式(7)和(8)的問題更易處理的形式表示其約束??梢允褂弥T如約束共軛梯度上升、投影方法、Bunch-Kaufman分解、以及內(nèi)點方法之類的數(shù)值方法,來解決二次問題。說這些數(shù)值方法很重要就足夠了,特別是當訓練集中的實例i很多時。參照等式(13),求解二次問題涉及一個“nte”乘“nte”的矩陣(其中“nte”是訓練集中的實例數(shù))。
也可以利用塊處理(chunking)算法解決二次規(guī)劃問題。開發(fā)SVM的Vladimir Vapnik引入了稱為“塊處理”的迭代訓練方法。熟練技術(shù)人員理解訓練SVM的“塊處理”方法,但為了方便讀者,此處將予以介紹。在各步驟中,解決由上一步中之非零拉格朗日乘數(shù)的聯(lián)合組成的子問題,以及違反Kuhn-Tucher條件的許多最差訓練實例。重復上述步驟,直至所有實例滿足Kuhn-Tucher條件。這樣,各步中的矩陣的數(shù)量級為非零拉格朗日乘數(shù)的數(shù)目的平方,是在此矩陣上操作而不是在其大小為訓練實例數(shù)之平方的矩陣上操作。由于矩陣較小,所以該算法較快。盡管塊處理使得訓練SVM易于處理,但是對某些應用而言,它仍然太慢。例如,在某些應用中,非零拉格朗日乘數(shù)的數(shù)目仍能增長到數(shù)千個。還要利用數(shù)值二次規(guī)劃技術(shù)來解決二次問題,并且各迭代很消耗時間。
據(jù)報道,在下述論文中引入了更好的SVM訓練算法,該論文的作者為E.Osuna等人,題目為“用于支持向量機的改進訓練算法”,IEEENNSP′97會議錄(1997年9月)(以下稱為“Osuna方法”)。Osuna方法存儲一個固定大小的矩陣,而不是一個隨著非零拉格朗日乘數(shù)的數(shù)目增長的矩陣。在各步中,優(yōu)化固定數(shù)目的拉格朗日乘數(shù)。利用每個新步驟,考慮刪除一個舊拉格朗日乘數(shù),并添加一個其輸出違反Kuhn-Tucher條件的新實例。Osuna論文證明了二次問題將隨著各步驟而減少,從而Osuna方法可收斂到某個解。然而,Osuna方法的不利點在于,在各步中仍然需要一個數(shù)值解。盡管它收斂到某個解,但Osuna方法使用整個數(shù)值二次規(guī)劃問題的目的只不過是“修改”違反Kuhn-Tucher條件一個拉格朗日乘數(shù)。
確定權(quán)重向量的一種更快方法是,使用以下美國專利中公開的方法,該美國專利的申請?zhí)枮?9/055,477,申請人為John Platt,題目為“用于構(gòu)造支持向量機分類器的方法和裝置”,申請日期為1998年4月6日,這里引用作為參考。在Platt方法的第一公開方法(也稱為“QP1”)中,將閾值b設(shè)置為零(0)。首先,初始化與訓練集的各實例相對應的拉格朗日乘數(shù)。例如,通過將所有拉格朗日乘數(shù)設(shè)置為零(0),初始化它們。
對于訓練實例集中的各訓練實例,確定該解是否為該實例的最優(yōu)解。通過確定是否違反Kuhn-Tucher條件,檢查各實例的最優(yōu)性。如果該解不是最佳的(如,違反Kuhn-Tucher條件),則確定第n個訓練實例的新的拉格朗日乘數(shù)。更確切地說,可以根據(jù)下式,確定第n個訓練實例的新的拉格朗日乘數(shù) 在等式(14)的表達式中,可以將Kuhn-Tucher(KT)誤差表示為1-Onyn(15)在等式(14)的表達式中,分母為核心函數(shù),在線性支持向量機的情況中,該函數(shù)為第n個訓練實例的特征向量x的點積。
然后,將新的拉格朗日乘數(shù)限制(或裁剪(clipped))為 從而滿足不等式約束。
一旦完成訓練實例集的掃描,就確定該掃描過程中的任意拉格朗日乘數(shù)是否已改變。假如這樣的話,則其他實例現(xiàn)在可能違反Kuhn-Tucher條件。更確切地說,在調(diào)整拉格朗日乘數(shù)時,SVM的分割超平面(或超表面)也改變。因此,執(zhí)行該數(shù)據(jù)的另一次掃描。如果未改變拉格朗日乘數(shù),則所有實例均實現(xiàn)Kuhn-Tucher條件,且QP1過程終止。
初始掃描可處理訓練集的所有實例。假設(shè)改變了拉格朗日乘數(shù),則下一次掃描僅處理訓練集的無邊界實例。隨后的掃描也僅處理無邊界的拉格朗日乘數(shù),直至拉格朗日乘數(shù)不再改變。然后,下一次掃描處理整個訓練集。如果未改變拉格朗日乘數(shù),則處理結(jié)束。另一方面,如果改變了拉格朗日乘數(shù),則處理按上述方式繼續(xù)。自然地,各掃描可以交替處理所有訓練實例。
在線性SVM的情況下,可以以權(quán)重向量方式而不是內(nèi)核之加權(quán)和的方式,存儲所有SVM狀態(tài)。在該情況下,當改變拉格朗日乘數(shù)時,直接更新權(quán)重向量。即w→=(αinew-αiold)yixi→---(17)]]>可以使用間隔算法,檢查Kuhn-Tucher條件即,如果該條件近似滿足某個公差,則滿足該條件??梢詫⒃摴钤O(shè)置為1e-3。該公差對識別機器而言是足夠準確的,并且將阻止花費大量計算資源來生成拉格朗日乘數(shù)中不需要的精度。
當輸入點由稀疏二進制向量(如,要分類的對象有比較少的可能特征)組成時,通過使用點積的稀疏求值,可以引人注目地加速所示實施方式。即,權(quán)重和輸入點之間的點積為,與非零輸入維數(shù)相對應的權(quán)重元素之和。這可以表示為 對于訓練用于文本分類的線性SVM而言,上述優(yōu)化是有用的,這是由于可以利用稀疏特征向量(如,具有特征向量的所有單詞中的較少單詞的文本對象),來表示大部分的文本對象。
可以以其長度為訓練集之大小的向量方式,存儲α向量,該α向量包含所有訓練實例的拉格朗日乘數(shù)的值。即α→=α1,...,αnte---(19)]]>其中“nte”為訓練實例的數(shù)目。
如上所述,由于大部分拉格朗日乘數(shù)將為零(0),所以能夠以其長度為非零拉格朗日乘數(shù)數(shù)目的兩(2)個向量,存儲α向量,其中一個存儲非零拉格朗日乘數(shù)的標識(下標),另一個存儲非零拉格朗日乘數(shù)的值。
在Platt方法的第二種公開方法(也稱為“QP2”)中,二次規(guī)劃過程服從一個線性等式約束(即,閾值b不一定等于零(0))。
首先,初始化與訓練集之各實例相對應的拉格朗日乘數(shù)。我們記得,由于大部分拉格朗日乘數(shù)為零(0),所以通過將所有的拉格朗日乘數(shù)設(shè)置為零(0),初始化它們。對于訓練實例集中的各訓練實例,確定是否違反Kuhn-Tucher條件。如果違反了Kuhn-Tucher條件,則從訓練集中選擇另一個實例(如下所述),從而創(chuàng)建了一對需要聯(lián)合優(yōu)化的拉格朗日乘數(shù)。然后試圖確定新的拉格朗日乘數(shù),以便聯(lián)合優(yōu)化該實例。確定該實例是否是最優(yōu)的。如果它們不是最優(yōu)的,則從訓練集中選擇另一個特征向量,以便創(chuàng)建另一對拉格朗日乘數(shù)。
兩(2)個拉格朗日乘數(shù)的聯(lián)合優(yōu)化的第一步是,確定一個變量的邊界。不是限制第一個乘數(shù),就是限制第二個乘數(shù)。此處,選擇第二個乘數(shù)。令L為第二個拉格朗日乘數(shù)的下界,H為第二個拉格朗日乘數(shù)的上界。令y1為第一個實例的理想輸出,令y2為第二個實例的理想輸出。令α1為第一個拉格朗日乘數(shù)的當前值,令α2為第二個拉格朗日乘數(shù)的當前值。如果y1與y2相同,則計算以下邊界H=min(C,α1+α2)L=max(0,α1+α2-C)(20)如果y1與y2符號相反,則按下式計算邊界H=min(C,C-α1+α2)L=max(0,α2-α1)(21)如果值L與值H相同,則不能改進,并且確定訓練實例不是最優(yōu)的。
按照以下公式計算α2的新的優(yōu)化值α2new=α2+y1y2KTERROR1-KTERROR2k(x1→,x1→)+k(x2→,x2→)-2k(x1→,x2→)---(22)]]>如果第二個拉格朗日乘數(shù)的新值小于L,則將其設(shè)置為L。相反,如果第二個拉格朗日乘數(shù)的新值大于H,則將其設(shè)置為H。如果第二個拉格朗日乘數(shù)的新的裁剪(或限制)值與老值相同,則不能進行優(yōu)化,從而確定訓練實例不是最優(yōu)的。否則,根據(jù)第二個拉格朗日乘數(shù)的裁剪(或限制)值,導出第一個拉格朗日乘數(shù)的新值a1new=α1+y1y2(α2-α2new,clipped)(23)如果支持向量機是線性的,則更新權(quán)重和閾值,以反映新的拉格朗日乘數(shù),從而可以檢測違反Kuhn-Tucher條件的其他(實例)。
可以根據(jù)以下啟發(fā),選擇第二個拉格朗日乘數(shù)對。理想的第二個拉格朗日乘數(shù)在聯(lián)合優(yōu)化上的改變最大。在優(yōu)化上改變的簡易近似值為,第二個拉格朗日乘數(shù)中改變的分子的絕對值。
|y1y2KT ERROR1-KT ERROR2|=|(O1-y1)-(O2-y2)|(24)如果第一個拉格朗日乘數(shù)的實際誤差(O1-y1)為正,則實際誤差(O2-y2)為大負數(shù)的第二個拉格朗日乘數(shù),是聯(lián)合優(yōu)化的合適候選。如果第一個實際誤差為負,則實際誤差為大正數(shù)的第二個拉格朗日乘數(shù),是優(yōu)化的合適候選。因此,QP2過程找出以下無邊界的拉格朗日乘數(shù)(α≠0或C),即其實際誤差與第一個拉格朗日乘數(shù)的實際誤差最對立的拉格朗日乘數(shù)。
存在某些退化情況,其中不同實例具有相同的輸入特征向量。這可能阻止聯(lián)合優(yōu)化改進。應過濾掉這些冗余實例。作為選擇,可以使用層次啟發(fā)來查找第二實例,以便在聯(lián)合優(yōu)化步驟中獲得正向改進。如果上述第一啟發(fā)失敗,則QP2過程將選擇一個無邊界的拉格朗日乘數(shù),作為要聯(lián)合優(yōu)化的另一個拉格朗日乘數(shù)對。如果所有無邊界拉格朗日乘數(shù)的上述啟發(fā)均失敗,則可以選擇任何其他拉格朗日乘數(shù),作為另一個拉格朗日乘數(shù)對。
在完成訓練實例集的掃描之后,如果在掃描整個數(shù)據(jù)集時,一個或多個拉格朗日乘數(shù)改變,則優(yōu)化無邊界的拉格朗日乘數(shù)。另一方面,如果在掃描過程中,拉格朗日乘數(shù)未改變,則所有實例均符合Kuhn-Tucher條件,并且終止QP2過程。
正如可以理解的那樣,QP2過程首先掃描訓練集的所有訓練實例。假設(shè)改變了某個拉格朗日乘數(shù),則下次掃描僅處理訓練集的無邊界訓練實例。隨后的掃描也僅處理無邊界的拉格朗日乘數(shù),直至拉格朗日乘數(shù)不再改變。接著,下次掃描處理整個訓練實例集。如果拉格朗日乘數(shù)不再改變,則處理結(jié)束。另一方面,如果某個拉格朗日乘數(shù)改變,則處理按上述方式繼續(xù)。自然地,在另一種方法中,可以在每次掃描中處理訓練集的所有訓練實例。
可以或用其大小為訓練實例數(shù)目的一個數(shù)組(也稱為“全數(shù)組”),或用表示較大稀疏數(shù)組的兩(2)個數(shù)組,存儲拉格朗日乘數(shù)。
當聯(lián)合優(yōu)化拉格朗日乘數(shù)對時使用的實際誤差為,SVM的理想輸出減去SVM的實際輸出(yi-Oi)??梢愿咚倬彌_存儲具有無邊界(即,非零或非C)拉格朗日乘數(shù)的實例的實際誤差。高速緩沖存儲實際誤差,能夠智能地選擇第二個實例。
對于線性SVM而言,能夠以一個權(quán)重向量的方式,而不是以一組輸入點之線性疊加的方式,存儲線性SVM。如果輸入向量為稀疏的,則可以以眾所周知的稀疏方式,更新權(quán)重向量。
因此,通過訓練SVM,例如根據(jù)上述方法(如,塊處理、Osuna和Platt)之一,可以確定給定種類C的權(quán)重向量w。
4.2.1.4.2.單調(diào)函數(shù)參數(shù)確定如上所述,文本分類器使用單調(diào)(如S形)函數(shù),對文本信息對象進行分類??梢杂靡韵滦问絹肀硎維形函數(shù)f(u)=11+eu---(25)]]>可以使用常數(shù)A和B(也稱為“可調(diào)參數(shù)”),調(diào)整S形函數(shù)的特性,從而f(u)=11+eAu+B---(26)]]>以下說明用于求解單調(diào)函數(shù)之常數(shù)A和B的技術(shù)。
4.2.1.4.2.1.優(yōu)化(最大似然性)通過在文本信息對象的訓練集上使用最大似然性,可以確定常數(shù)A和B。為了使S形函數(shù)適合于訓練數(shù)據(jù),計算由概率分布f(假設(shè)訓練實例相互獨立)生成訓練目標y的似然性的對數(shù)。利用下式描述對數(shù)似然性Σi=1nteyilog(f(xi→))+(1-yi)log(1-f(xi→))---(28)]]>其中yi為已知結(jié)果(+1或-1);以及nte為訓練實例數(shù)。
然后,通過使對數(shù)似然性在可能的S形參數(shù)上取得最大值,導出最佳S形參數(shù)。
4.2.1.4.2.1.1.已知優(yōu)化方法可以根據(jù)諸如梯度下降、Levenberg-Marquardt、Newton-Raphson、共軛梯度以及可變量度方法之類的已知非約束優(yōu)化技術(shù),最大化式(28)。
4.2.1.4.2.1.2.連續(xù)性的拉普拉斯規(guī)則在一種實施方式中,可以利用目標值ti代替式(28)中的值yi,可以將ti表示為 其中N+是該類中的訓練集的文本信息對象數(shù);以及N-是不在該類中的訓練集的文本信息對象數(shù)。
通過使用目標值ti而不是yi,致使生成的S形函數(shù)不會比用于確定該函數(shù)的數(shù)據(jù)更精確。亦即,S形函數(shù)不會“過度適應”以前的數(shù)據(jù),特別是具有較少訓練數(shù)據(jù)的種類中的數(shù)據(jù)。這樣,確定了一個S形函數(shù),該函數(shù)在所有概率均為等概率的先驗概率的情況下,匹配未知數(shù)據(jù)。盡管在文本分類器的范圍內(nèi),介紹了使用式(30)中的目標函數(shù)ti,但它同樣適用于其他分類器。自然地,也可以使用依賴于屬于該類和不屬于該類的訓練實例數(shù)的其他目標函數(shù),代替式(29)中定義的目標函數(shù)。
在使S形函數(shù)適合于訓練數(shù)據(jù)的一種實施方式中,可以將目標值(tti)表示為 此種形式的目標函數(shù)將連續(xù)性的拉普拉斯規(guī)則的結(jié)果,限制為與實際目標y的距離不超過0.01。經(jīng)驗證明此值是理想的。
4.2.2.文本分類器的典型結(jié)構(gòu)圖2為可由根據(jù)本發(fā)明的文本分類器使用的過程圖。如圖2所示,將需要分類的文本信息對象205,應用于特征抽取過程(或更一般地,特征抽取程序)210。正如在下文4.2.2.1節(jié)中說明的那樣,此特征抽取過程210,可以與在4.2.1.1節(jié)中說明的特征抽取過程110相同。接著,在下文4.2.2.2節(jié)中說明的特征精簡過程(或更一般地,特征精簡設(shè)施)220,使用在4.2.1.2節(jié)中說明的特征精簡過程120生成的精簡特征集,精簡與文本信息對象205有關(guān)的特征向量的大小。這樣,生成與文本信息對象205有關(guān)的精簡特征向量。如圖2所示,然后將二進制化過程230應用于精簡特征向量。
將特征精簡過程220生成的精簡特征向量(或二進制化過程230生成的二進制化的精簡特征向量),應用于一個或多個分類器250。這些分類器可以使用4.2.2.4節(jié)中說明的分類器250。由4.2.1.4節(jié)中說明的分類引擎參數(shù)生成過程140,確定各分類器250的權(quán)重參數(shù)w,以及可參數(shù)化的單調(diào)函數(shù)的參數(shù)。最后,輸出其文本信息對象205屬于特殊分類的概率。
4.2.2.1.特征抽取特征抽取過程210,與參照圖1和圖6、在4.2.1.1中說明的特征抽取過程110類似。
4.2.2.2.特征精簡現(xiàn)在說明典型的特征精簡過程220。我們記得,在上文中說明特征精簡過程120,可精簡(如,根據(jù)種類無關(guān)和種類相關(guān)技術(shù))與訓練實例集115中的文本信息對象相對應的特征向量。此過程120也生成一個精簡特征集,后者可以是與文本分類有關(guān)的或?qū)ξ谋痉诸惐容^重要的特征的索引。例如,如果原始特征向量包括100個元素,則精簡特征集可以包含特征向量的第2、第5、第20、第21和第89個元素的索引。因此,將100個元素的特征向量精簡為五(5)個元素的精簡特征向量。通常,特征向量和精簡特征向量中的元素數(shù),遠遠大于此示例中使用的元素數(shù)。
典型的特征精簡過程220,使用有關(guān)特征或重要特征的索引,將特征值映射到精簡特征向量的連續(xù)下標。按照上文中的簡單示例,將第2元素的值放在精簡特征向量的第一元素位置,將第5元素的值放在精簡特征向量的第二元素位置,將第20元素的值放在精簡特征向量的第三元素位置,將第21元素的值放在精簡特征向量的第四元素位置,將第89元素的值放在精簡特征向量的第五元素位置。正如4.2.1節(jié)中說明的那樣,實際上,并不使用單一特征向量數(shù)組來表示文本信息對象,而是使用熟練技術(shù)人員熟知的稀疏技術(shù),利用較小的特征索引和值數(shù)組來表示它。
請注意,可以將精簡特征集提供到特征抽取過程210。在此情況下,特征抽取過程僅抽取屬于精簡特征集的那些特征。這樣,在抽取特征時進行特征精簡。
4.2.2.3.二進制化可選的二進制化過程230,與參照圖1、在4.2.1.3節(jié)中說明的二進制化過程150類似。
4.2.2.4.分類可以按下述方式實現(xiàn)分類過程250??梢詫⑽谋拘畔ο?05(由精簡特征向量x表示)屬于種類i的概率表示為P(x-,i)=fi(wi→·x→)=11+exp(Ai(wi→·x→)-Bi)---(31)]]>此文本分類器具有許多優(yōu)點。首先,可以在各個種類上比較不同種類的分類器輸出的概率。其次,如果使用4.2.1.4.2.1.2節(jié)中說明的目標技術(shù)確定單調(diào)函數(shù)及其可調(diào)參數(shù),則當特定種類的可用訓練數(shù)據(jù)量較小時,該函數(shù)也不會過度適應。
4.2.3.典型體系結(jié)構(gòu)圖11A以及以下說明,提供可以實現(xiàn)本發(fā)明的至少某些方面的典型裝置的概要描述。將在能夠由個人計算機執(zhí)行的、計算機可執(zhí)行指令(如程序模塊)的通用范圍內(nèi),說明本發(fā)明。然而,也可以利用其他裝置,實現(xiàn)本發(fā)明的方法。程序模塊包括執(zhí)行任務的或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等。此外,熟練技術(shù)人員可以理解,利用其他配置也能實現(xiàn)本發(fā)明的至少某些方法,其他配置包括手持設(shè)備、多處理器系統(tǒng)、基于微處理器或可編程的用戶電子設(shè)備、網(wǎng)絡(luò)計算機、小型計算機、機頂盒、大型計算機等等。也可以在由通過通信網(wǎng)絡(luò)連接的遠程處理設(shè)備執(zhí)行任務的分布式計算環(huán)境中,實現(xiàn)本發(fā)明的至少某些方面。在分布式計算環(huán)境中,程序模塊可以位于本地和/或遠程存儲設(shè)備中。
參照圖11A,用于實現(xiàn)本發(fā)明的至少某些方面的典型裝置1100,包括一臺用常規(guī)個人計算機1120表示的通用設(shè)備。個人計算機1120可以包括,一個處理部件1121,一個系統(tǒng)存儲器1122,以及一條系統(tǒng)總線1123,后者將包括系統(tǒng)存儲器在內(nèi)的各種系統(tǒng)組件,連接到處理部件1121。系統(tǒng)總線1123可以為任意類型的總線結(jié)構(gòu),包括存儲器總線或存儲器控制器,外設(shè)總線,和使用各種總線體系結(jié)構(gòu)中之任意結(jié)構(gòu)的局域總線。系統(tǒng)存儲器包括只讀存儲器(ROM)1124和/或隨機存取存儲器(RAM)1125。可以將基本輸入/輸出系統(tǒng)1126(BIOS)存儲在ROM 1124中,BIOS包含啟動時幫助個人計算機1120內(nèi)的部件傳送信息的基本例程。個人計算機1120還可以包括硬盤設(shè)備1127,用于從硬盤讀取或向硬盤寫入(未示出);磁盤驅(qū)動器1128,用于從(如,抽取式)磁盤1129讀取或向磁盤寫入;以及光盤驅(qū)動器1130,用于從諸如光盤或其他(磁)光介質(zhì)之類的抽取式(磁)光盤1131讀取或向該光盤寫入。可以借助系統(tǒng)總線1123,分別通過硬盤驅(qū)動接口1132、磁盤驅(qū)動接口1133和(磁)光驅(qū)動接口1134,連接硬盤驅(qū)動器1127、磁盤驅(qū)動器1128和(磁)光盤驅(qū)動器1130。上述驅(qū)動器以及其相關(guān)存儲介質(zhì),提供用于個人計算機1120的機器可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊以及其他數(shù)據(jù)的非易失存儲。盡管此處說明的典型環(huán)境使用硬盤、抽取式磁盤1129以及抽取式光盤1131,但熟練技術(shù)人員可以理解,可以使用其他類型的存儲介質(zhì),如磁盤、快閃存儲卡、數(shù)字視盤、伯努里盒式磁帶、隨機存取存儲器(RAM)、只讀存儲器(ROM)等等,代替上述存儲設(shè)備,或作為其補充。
在硬盤1123、磁盤1129、(磁)光盤1131、ROM 1124或RAM 1125上,可以存儲許多程序模塊,如操作系統(tǒng)1135、一個或多個應用程序1136、其他程序模塊1137、和/或程序數(shù)據(jù)。用戶可以通過諸如鍵盤1140和指點設(shè)備1142之類的輸入設(shè)備,向個人計算機1120輸入命令和信息。也可以包括其他輸入設(shè)備(未示出),如麥克風、操縱桿、游戲墊、衛(wèi)星天線、掃描儀等。通常通過連接到系統(tǒng)總線的串行接口1146,將各種各樣的輸入設(shè)備連接到處理部件1121。然而,也可以通過其他接口,如并行端口、游戲端口或通用串行總線(USB),來連接輸入設(shè)備。經(jīng)由視頻適配器1148之類的接口,將監(jiān)視器1147或其他類型的顯示設(shè)備,連接到系統(tǒng)總線1123。除監(jiān)視器之外,個人計算機1120還可以包括其他外圍輸出設(shè)備(未示出),如揚聲器和打印機。
個人計算機1120可以在連網(wǎng)環(huán)境下運行,連網(wǎng)環(huán)境定義到達一臺或多臺遠程計算機(如遠程計算機1149)的邏輯連接。遠程計算機1149可以為另一臺個人計算機、一臺服務器、一臺網(wǎng)絡(luò)PC、一臺對等設(shè)備、或其他公共網(wǎng)絡(luò)節(jié)點,并且可以包括參照個人計算機1120說明的大部分部件或所有部件,盡管圖11A僅示出了存儲設(shè)備1150。圖11A所示的邏輯連接包括局域網(wǎng)(LAN)1151、廣域網(wǎng)(WAN)1152、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)。
當在LAN中使用時,可以通過網(wǎng)絡(luò)接口適配器(或“NIC”)1153,將個人計算機1120連接到LAN 1151。當在WAN(如因特網(wǎng))中使用時,個人計算機1120可以包括一臺調(diào)制解調(diào)器1154,或用于在廣域網(wǎng)1152上建立通信的其他裝置。可經(jīng)由串行接口1146,將調(diào)制解調(diào)器1154連接到系統(tǒng)總線1123,其中調(diào)制解調(diào)器可以為內(nèi)部調(diào)制解調(diào)器,也可以為外部調(diào)制解調(diào)器。在連網(wǎng)環(huán)境中,可以在遠程存儲設(shè)備中,存儲參照個人計算機1120說明的至少一部分程序模塊。所示網(wǎng)絡(luò)連接為示范性的,可以使用在計算機之間建立通信鏈路的其他裝置。
圖11B為一臺更普通的機器1100,該機器實現(xiàn)一個或多個上述過程。機器1100主要包括一個處理器1102,一個輸入/輸出接口部件1104,一個存儲設(shè)備1106,和一個系統(tǒng)總線或網(wǎng)絡(luò)1108,部件1108用于方便相連部件之間的數(shù)據(jù)和控制通信。處理器1102可以執(zhí)行機器可執(zhí)行的指令,以便實現(xiàn)本發(fā)明的一個或多個方面。經(jīng)由輸入接口部件1104,可以將至少一部分機器可執(zhí)行的指令存儲(臨時或永久)到存儲設(shè)備(1106)上,和/或從外部信源接收至少一部分機器可執(zhí)行的指令。
4.2.4.結(jié)論公開了一種用于對文本進行分類以及構(gòu)造文本分類器的方法和裝置。這些方法和裝置的優(yōu)點在于(ⅰ)在保持對分類比較重要的特征的同時,精簡表示文本信息對象的特征向量的大??;(ⅱ)避免生成一種過度適應于較少的訓練數(shù)據(jù)量分類器;(ⅲ)訓練較快;和/或(ⅳ)分類較快。
權(quán)利要求
1.一種用于根據(jù)文本信息對象訓練集生成分類器之參數(shù)以便確定文本信息對象是否屬于該種類的方法,其中各文本信息對象或者屬于某個種類,或者不屬于某個種類,該方法包括以下步驟a)從文本信息對象中抽取特征,以便為訓練集的各文本信息對象,生成具有許多特征的關(guān)聯(lián)特征向量;b)精簡各特征向量的特征數(shù)目,以便為訓練集的各文本信息對象,生成關(guān)聯(lián)的精簡特征向量;c)通過訓練支持向量機,確定該分類器的權(quán)重向量;以及d)確定該分類器使用的單調(diào)函數(shù)。
2.權(quán)利要求1的方法,其中精簡特征數(shù)目的步驟包括以下子步驟ⅰ)根據(jù)Zipf定律,精簡特征數(shù)目;以及ⅱ)根據(jù)從一組標準中選擇的至少一條標準,進一步精簡特征數(shù)目,該組標準包括(a)交互信息,(b)信息增益,(c)貝葉斯評分,(d)x2,(e)相關(guān)系數(shù),以及(f)單值分解。
3.權(quán)利要求1的方法,其中確定由該分類器使用的單調(diào)函數(shù)的步驟包括以下步驟在給定單調(diào)函數(shù)的輸出的情況下,通過最大化文本信息對象之訓練集的似然性,確定單調(diào)函數(shù)的參數(shù)。
4.權(quán)利要求3的方法,其中在給定單調(diào)函數(shù)的輸出的情況下,通過最大化文本信息對象之訓練集的似然性,確定單調(diào)函數(shù)的參數(shù)的步驟,使用由下式定義的目標值ti 其中N+是在該種類中的訓練集的文本信息對象數(shù),而N-是不在該種類中的訓練集的文本信息對象數(shù)。
5.權(quán)利要求3的方法,其中在給定單調(diào)函數(shù)的輸出的情況下,通過最大化文本信息對象之訓練集的似然性,確定單調(diào)函數(shù)的參數(shù)的步驟,使用根據(jù)在該種類中的訓練集的文本信息對象數(shù),以及不在該種類中的訓練集的文本信息對象數(shù)導出的目標值。
6.一種用于根據(jù)與文本信息對象的訓練集有關(guān)的精簡特征向量集生成分類器之參數(shù)以便確定文本信息對象是否屬于該種類的方法,其中各文本信息對象或者屬于某個種類,或者不屬于某個種類,該方法包括以下步驟a)通過訓練支持向量機,確定該分類器的權(quán)重向量;以及b)確定該分類器使用的單調(diào)函數(shù)。
7.權(quán)利要求6的方法,其中確定由該分類器使用的單調(diào)函數(shù)的步驟包括以下步驟在給定單調(diào)函數(shù)的輸出的情況下,通過最大化文本信息對象之訓練集的似然性,確定單調(diào)函數(shù)的參數(shù)。
8.權(quán)利要求7的方法,其中在給定單調(diào)函數(shù)的輸出的情況下,通過最大化文本信息對象之訓練集的似然性,確定單調(diào)函數(shù)的參數(shù)的步驟,使用由下式定義的目標值ti 其中N+是在該種類中的訓練集的文本信息對象數(shù),而N-是不在該種類中的訓練集的文本信息對象數(shù)。
9.權(quán)利要求7的方法,其中在給定單調(diào)函數(shù)的輸出的情況下,通過最大化文本信息對象之訓練集的似然性,確定單調(diào)函數(shù)的參數(shù)的步驟,使用根據(jù)在該種類中的訓練集的文本信息對象數(shù),以及不在該種類中的訓練集的文本信息對象數(shù)導出的目標值。
10.一種用于根據(jù)與文本信息對象的訓練集有關(guān)的特征向量集生成分類器之參數(shù)以便確定文本信息對象是否屬于該種類的方法,其中各文本信息對象或者屬于某個種類,或者不屬于某個種類,該方法包括以下步驟a)精簡各特征向量的特征數(shù)目,以便為訓練集的各文本信息對象,生成關(guān)聯(lián)的精簡特征向量;b)通過訓練支持向量機,確定該分類器的權(quán)重向量;以及c)確定該分類器使用的單調(diào)函數(shù)。
11.權(quán)利要求10的方法,其中精簡特征數(shù)目的步驟包括以下子步驟ⅰ)根據(jù)Zipf定律,精簡特征數(shù)目;以及ⅱ)根據(jù)從一組標準中選擇的至少一條標準,進一步精簡特征數(shù)目,該組標準包括(a)交互信息,(b)信息增益,(c)貝葉斯評分,(d)x2,(e)相關(guān)系數(shù),以及(f)單值分解。
12.權(quán)利要求10的方法,其中確定由該分類器使用的單調(diào)函數(shù)的步驟包括以下步驟在給定單調(diào)函數(shù)的輸出的情況下,通過最大化文本信息對象之訓練集的似然性,確定單調(diào)函數(shù)的參數(shù)。
13.權(quán)利要求12的方法,其中在給定單調(diào)函數(shù)的輸出的情況下,通過最大化文本信息對象之訓練集的似然性,確定單調(diào)函數(shù)的參數(shù)的步驟,使用由下式定義的目標值ti 其中N+是在該種類中的訓練集的文本信息對象數(shù),而N-是不在該種類中的訓練集的文本信息對象數(shù)。
14.權(quán)利要求12的方法,其中在給定單調(diào)函數(shù)的輸出的情況下,通過最大化文本信息對象之訓練集的似然性,確定單調(diào)函數(shù)的參數(shù)的步驟,使用根據(jù)在該種類中的訓練集的文本信息對象數(shù),以及不在該種類中的訓練集的文本信息對象數(shù)導出的目標值。
15.一種用于根據(jù)文本信息對象的訓練集生成分類器之參數(shù)以便確定文本信息對象是否屬于該種類的裝置,其中各文本信息對象或者屬于某個種類,或者不屬于某個種類,該裝置包括a)一種特征抽取器,用于從文本信息對象中抽取特征,以便為訓練集的各文本信息對象,生成具有許多特征的關(guān)聯(lián)特征向量;b)一個特征精簡裝置,用于精簡各特征向量的特征數(shù)目,以便為訓練集的各文本信息對象,生成關(guān)聯(lián)的精簡特征向量;c)一個支持向量機訓練裝置,用于確定該分類器的權(quán)重向量;以及d)一個函數(shù)生成器,用于確定該分類器使用的單調(diào)函數(shù)。
16.權(quán)利要求15的裝置,其中函數(shù)生成器包括以下裝置在給定單調(diào)函數(shù)的輸出的情況下,通過最大化文本信息對象之訓練集的似然性,確定單調(diào)函數(shù)之參數(shù)的裝置。
17.權(quán)利要求16的裝置,其中在給定單調(diào)函數(shù)的輸出的情況下,通過最大化文本信息對象之訓練集的似然性,確定單調(diào)函數(shù)的參數(shù)的裝置,使用下式定義的目標值ti 其中N+是在該種類中的訓練集的文本信息對象數(shù),而N-是不在該種類中的訓練集的文本信息對象數(shù)。
18.權(quán)利要求16的裝置,其中在給定單調(diào)函數(shù)的輸出的情況下,通過最大化文本信息對象之訓練集的似然性,確定單調(diào)函數(shù)的參數(shù)的裝置,使用根據(jù)在該種類中的訓練集的文本信息對象數(shù),以及不在該種類中的訓練集的文本信息對象數(shù)導出的目標值。
19.一種用于根據(jù)與文本信息對象的訓練集有關(guān)的精簡特征向量集生成分類器之參數(shù)以便確定文本信息對象是否屬于該種類的裝置,其中各文本信息對象或者屬于某個種類,或者不屬于某個種類,該裝置包括a)一種支持向量機訓練裝置,用于確定該分類器的權(quán)重向量;以及b)一個函數(shù)生成器,用于確定該分類器使用的單調(diào)函數(shù)。
20.權(quán)利要求19的裝置,其中函數(shù)生成器包括以下裝置在給定單調(diào)函數(shù)的輸出的情況下,通過最大化文本信息對象之訓練集的似然性,確定單調(diào)函數(shù)之參數(shù)的裝置。
21.權(quán)利要求20的裝置,其中在給定單調(diào)函數(shù)的輸出的情況下,通過最大化文本信息對象之訓練集的似然性,確定單調(diào)函數(shù)的參數(shù)的裝置,使用由下式定義的目標值ti 其中N+是在該種類中的訓練集的文本信息對象數(shù),而N-是不在該種類中的訓練集的文本信息對象數(shù)。
22.權(quán)利要求20的裝置,其中在給定單調(diào)函數(shù)的輸出的情況下,通過最大化文本信息對象之訓練集的似然性,確定單調(diào)函數(shù)的參數(shù)的裝置,使用根據(jù)在該種類中的訓練集的文本信息對象數(shù),以及不在該種類中的訓練集的文本信息對象數(shù)導出的目標值。
23.一種用于根據(jù)與文本信息對象的訓練集關(guān)聯(lián)的特征向量集生成分類器之參數(shù)以便確定文本信息對象是否屬于該種類的裝置,其中各文本信息對象或者屬于某個種類,或者不屬于某個種類,該裝置包括a)一個特征精簡裝置,用于精簡各特征向量的特征數(shù)目,以便為訓練集的各文本信息對象,生成關(guān)聯(lián)的精簡特征向量;b)一個支持向量機訓練裝置,用于確定該分類器的權(quán)重向量;以及c)一個函數(shù)生成器,用于確定該分類器使用的單調(diào)函數(shù)。
24.權(quán)利要求23的裝置,其中函數(shù)生成器包括以下裝置在給定單調(diào)函數(shù)的輸出的情況下,通過最大化文本信息對象之訓練集的似然性,確定單調(diào)函數(shù)之參數(shù)的裝置。
25.權(quán)利要求24的裝置,其中在給定單調(diào)函數(shù)的輸出的情況下,通過最大化文本信息對象之訓練集的似然性,確定單調(diào)函數(shù)的參數(shù)的裝置,使用下式定義的目標值ti 其中N+是在該種類中的訓練集的文本信息對象數(shù),而N-是不在該種類中的訓練集的文本信息對象數(shù)。
26.權(quán)利要求24的裝置,其中在給定單調(diào)函數(shù)的輸出的情況下,通過最大化文本信息對象之訓練集的似然性,確定單調(diào)函數(shù)的參數(shù)的裝置,使用根據(jù)在該種類中的訓練集的文本信息對象數(shù),以及不在該種類中的訓練集的文本信息對象數(shù)導出的目標值。
27.一種用于把文本信息對象分類成屬于某個種類還是不屬于某個種類的方法,該方法包括以下步驟a)從文本信息對象中抽取特征,以便生成與該文本信息對象關(guān)聯(lián)的特征向量;b)精簡特征向量的特征,以便生成一個精簡特征向量;以及c)將精簡特征向量和權(quán)重向量應用于由下式定義的分類函數(shù)f(i)=11+eA(w-·x-)+B]]>
28.權(quán)利要求27的方法,其中根據(jù)應用于支持向量機訓練設(shè)施的、具有預定分類的文本信息對象的訓練集,確定權(quán)重向量。
29.一種用于把與文本信息對象關(guān)聯(lián)的精簡特征向量分類成屬于某個種類還是不屬于某個種類的方法,該方法包括以下步驟a)接受權(quán)重向量參數(shù);b)接受按下式定義的分類函數(shù);f(i)=11+eA(w-·x-)+B]]>以及c)將精簡特征向量和接受的權(quán)重向量參數(shù)應用于接受的分類函數(shù)。
30.權(quán)利要求29的方法,其中根據(jù)應用于支持向量機訓練設(shè)施的、具有預定分類的文本信息對象的訓練集,確定權(quán)重向量。
31.一種用于把與文本信息對象關(guān)聯(lián)的特征向量分類成屬于某個種類還是不屬于某個種類的方法,該方法包括以下步驟a)精簡特征向量的特征,以便生成一個精簡特征向量;以及b)將精簡特征向量和權(quán)重向量應用于由下式定義的分類函數(shù)f(i)=11+eA(w-·x-)+B]]>
32.權(quán)利要求31的方法,其中根據(jù)應用于支持向量機訓練設(shè)施的、具有預定分類的文本信息對象的訓練集,確定權(quán)重向量。
33.一種用于把文本信息對象分類成屬于某個種類還是不屬于某個種類的裝置,該裝置包括a)一個特征抽取器,用于從文本信息對象中抽取特征,以便生成與該文本信息對象關(guān)聯(lián)的特征向量;b)一個特征精簡裝置,用于精簡特征向量的特征,以便生成一個精簡特征向量;以及c)一個分類器,用于將精簡特征向量和權(quán)重向量應用于由下式定義的分類函數(shù)f(i)=11+eA(w-·x-)+B]]>
34.權(quán)利要求33的裝置,其中根據(jù)應用于支持向量機訓練設(shè)施的、具有預定分類的文本信息對象的訓練集,確定權(quán)重向量。
35.一種用于把與文本信息對象關(guān)聯(lián)的精簡特征向量分類成屬于某個種類還是不屬于某個種類的裝置,該裝置包括a)一個第一輸入端,用于接受權(quán)重向量參數(shù);b)一個第二輸入端,用于接受一個分類函數(shù);以及c)一個分類器,用于將精簡特征向量和接受的權(quán)重向量參數(shù)應用于接受的分類函數(shù),該函數(shù)定義為f(i)=11+eA(w-·x-)+B]]>
36.權(quán)利要求35的裝置,其中根據(jù)應用于支持向量機訓練設(shè)施的、具有預定分類的文本信息對象的訓練集,確定權(quán)重向量。
37.一種用于把與文本信息對象關(guān)聯(lián)的特征向量分類成屬于某個種類還是不屬于某個種類的裝置,該裝置包括a)一個特征精簡裝置,用于精簡特征向量的特征,以便生成一個精簡特征向量;以及b)一個分類器,用于將精簡特征向量和權(quán)重向量應用于下式定義的分類函數(shù)f(i)=11+eA(w-·x-)+B]]>
38.權(quán)利要求37的裝置,其中根據(jù)應用于支持向量機訓練設(shè)施的、具有預定分類的文本信息對象的訓練集,確定權(quán)重向量。
39.一種根據(jù)對象的訓練集生成分類器之S形函數(shù)的參數(shù)以便確定該對象是否屬于該種類的方法,其中各對象或者屬于某個種類,或者不屬于某個種類,該方法包括以下步驟a)根據(jù)在該種類中的訓練集的對象數(shù),以及不在該種類中的訓練集的對象數(shù),確定目標值;以及b)在給定使用確定的目標值的單調(diào)函數(shù)的輸出的情況下,通過最大化文本信息對象之訓練集的似然性,確定S形函數(shù)的參數(shù)。
40.權(quán)利要求39的方法,其中目標值ti被定義為 其中N+是在該種類中的訓練集的文本信息對象數(shù),而N-是不在該種類中的訓練集的文本信息對象數(shù)。
41.權(quán)利要求39的方法,其中將目標值限制為目標值(ti)和0.99的最大值,如果該對象屬于該種類;目標值(ti)和0.01的最小值,如果該對象不屬于該種類。
42.一種根據(jù)對象的訓練集生成分類器之S形函數(shù)的參數(shù)以便確定該對象是否屬于該種類的裝置,其中各對象或者屬于某個種類,或者不屬于某個種類,該裝置包括a)一個目標值生成器,用于根據(jù)在該種類中的訓練集的對象數(shù),以及不在該種類中的訓練集的對象數(shù),確定目標值;以及b)通過最大化一個使用確定的目標值的對象的訓練集的似然性,確定S形函數(shù)的參數(shù)的裝置。
43.權(quán)利要求42的裝置,其中目標值ti被定義為 其中N+是在該種類中的訓練集的文本信息對象數(shù),而N-是不在該種類中的訓練集的文本信息對象數(shù)。
44.權(quán)利要求43的裝置,其中將目標值限制為目標值(ti)和0.99的最大值,如果該對象屬于該種類;目標值(ti)和0.01的最小值,如果該對象不屬于該種類。
全文摘要
一種文本分類器,以及通過確定用于該文本分類器的適當參數(shù),構(gòu)造該分類器的方法。
文檔編號G06K9/62GK1310825SQ99808930
公開日2001年8月29日 申請日期1999年6月22日 優(yōu)先權(quán)日1998年6月23日
發(fā)明者蘇姍·T·杜邁斯, 戴維·??寺? 埃里克·霍爾維茨, 約漢·C·普拉特, 梅蘭·薩哈米 申請人:微軟公司