專利名稱:用于轉導數(shù)據(jù)分類的方法和系統(tǒng)以及使用機器學習方法的數(shù)據(jù)分類方法
技術領域:
本發(fā)明主要涉及用于數(shù)據(jù)分類的方法和裝置。具體地,本發(fā)明提供了改進的轉導機器學習方法。本發(fā)明還涉及使用機器學習方法的新的應用。
背景技術:
在信息時代、以及近期各行各業(yè)(包括,特別是,掃描文件、網(wǎng)上資料、搜索引擎數(shù)據(jù)、文本數(shù)據(jù)、圖像、音頻數(shù)據(jù)文件,等等)電子數(shù)據(jù)的大爆炸,如何處理數(shù)據(jù)已經(jīng)變得非常重要。
剛剛開始探索的一個領域是非人工數(shù)據(jù)分類。在許多分類方法中,機器或計算機必須依據(jù)人工輸入以及建立的規(guī)則設置和/或人工建立的訓練樣例學習。在使用訓練樣例的機器學習中,學習樣例的數(shù)量通常比所需估算的參數(shù)數(shù)量小,即,滿足由訓練樣例所給定的限制條件的解的數(shù)量更大。機器學習的一項挑戰(zhàn)在于去發(fā)現(xiàn)一種不管欠缺限定仍歸納完好的解決方案。因此需要克服這些和/或其它現(xiàn)有技術的問題。
還進一步需要各種類型的機器學習方法的實際應用。
發(fā)明內容
在一個基于計算機的系統(tǒng)中,根據(jù)本發(fā)明的一個實施例,一種用于數(shù)據(jù)分類的方法,包括接收有標記數(shù)據(jù)點,每一個所述有標記數(shù)據(jù)點具有至少一個標記,指示該數(shù)據(jù)點是被納入一個指定類別的數(shù)據(jù)點的訓練樣例,還是從一個指定類別被排除的數(shù)據(jù)點的訓練樣例;接收無標記數(shù)據(jù)點;接收所述有標記數(shù)據(jù)點和無標記數(shù)據(jù)點的至少一個預設的成本因子;通過迭代計算,使用所述至少一個成本因子,以及所述有標記數(shù)據(jù)點和無標記數(shù)據(jù)點作為訓練樣例,使用最大熵判別(MED),訓練一個轉導分類器,其中,對于每一次迭代計算,調整無標記數(shù)據(jù)點的成本因子作為一個期望標記值的函數(shù),并根據(jù)數(shù)據(jù)點組成員概率的估算,調整一個數(shù)據(jù)點標記的先驗概率;將訓練的分類器用于分類所述無標記數(shù)據(jù)點、有標記數(shù)據(jù)點、和輸入數(shù)據(jù)點中的至少一個;并將所述分類的數(shù)據(jù)點或其衍生物的類別輸出給一個用戶、另一系統(tǒng)、和另一過程中的至少一個。
根據(jù)本發(fā)明的另一個實施例,一種用于數(shù)據(jù)分類的方法,包括向計算機系統(tǒng)提供需要使用的可執(zhí)行程序代碼,并在計算機系統(tǒng)上執(zhí)行,所述程序代碼包括多個指令,用于訪問存儲在計算機存儲器的有標記數(shù)據(jù)點,每一個所述有標記數(shù)據(jù)點具有至少一個標記,指示該數(shù)據(jù)點是被納入一個指定類別的數(shù)據(jù)點的訓練樣例,還是從一個指定類別被排除的數(shù)據(jù)點的訓練樣例;從計算機存儲器訪問無標記的數(shù)據(jù)點;從計算機存儲器訪問所述有標記數(shù)據(jù)點和無標記數(shù)據(jù)點的至少一個預設的成本因子;通過迭代計算,使用所述至少一個成本因子,以及存儲的有標記數(shù)據(jù)點和存儲的無標記數(shù)據(jù)點作為訓練樣例,訓練一個最大熵判別(MED)轉導分類器,其中,對于每一次迭代計算,調整無標記數(shù)據(jù)點成本因子作為一個期望標記值的函數(shù),并根據(jù)一個數(shù)據(jù)點組成員概率的估算,調整所述數(shù)據(jù)點標記的先驗概率;將訓練的分類器用于分類所述無標記數(shù)據(jù)點、有標記數(shù)據(jù)點、和輸入數(shù)據(jù)點中的至少一個;并將所述分類的數(shù)據(jù)點或其衍生物的類別輸出給一個用戶、另一系統(tǒng)、和另一過程中的至少一個。
根據(jù)本發(fā)明的另一個實施例,一種數(shù)據(jù)處理裝置,包括至少一個存儲器,用于存儲(i)有標記數(shù)據(jù)點,所述每一個有標記數(shù)據(jù)點具有至少一個標記,指示該數(shù)據(jù)點是被納入一個指定類別的數(shù)據(jù)點的訓練樣例,還是從一個指定類別被排除的數(shù)據(jù)點的訓練樣例;(ii)無標記數(shù)據(jù)點;和(iii)所述有標記數(shù)據(jù)點和無標記數(shù)據(jù)點的至少一個預設的成本因子;以及一個轉導分類器訓練器,以使用所述至少一個存儲的成本因子,以及存儲的有標記數(shù)據(jù)點和存儲的無標記數(shù)據(jù)點作為訓練樣例,使用轉導的最大熵判別(MED),循環(huán)地訓練轉導分類器,其中,對于每一次MED迭代計算,調整無標記數(shù)據(jù)點成本因子作為一個期望標記值的函數(shù),并根據(jù)一個數(shù)據(jù)點組成員概率的估算,調整所述數(shù)據(jù)點標記的先驗概率; 其中,由轉導分類器訓練器訓練的分類器用于分類無標記數(shù)據(jù)點、有標記數(shù)據(jù)點、以及輸入數(shù)據(jù)點中的至少一個; 其中,所述分類的數(shù)據(jù)點或其衍生物的類別,被輸出給一個用戶、另一系統(tǒng)、和另一過程中的至少一個。
根據(jù)本發(fā)明的另一個實施例,一種制品,包括一個計算機可讀的程序存儲介質,該介質確切地包含有一個或多個計算機可執(zhí)行的指令程序,以執(zhí)行一種數(shù)據(jù)分類的方法,包括接收有標記數(shù)據(jù)點,每一個所述有標記數(shù)據(jù)點具有至少一個標記,指示該數(shù)據(jù)點是被納入一個指定類別的數(shù)據(jù)點的訓練樣例,還是從一個指定類別被排除的數(shù)據(jù)點的訓練樣例;接收無標記數(shù)據(jù)點;接收所述有標記數(shù)據(jù)點和無標記數(shù)據(jù)點的至少一個預設的成本因子;使用所述至少一個存儲的成本因子,以及存儲的有標記數(shù)據(jù)點和存儲的無標記數(shù)據(jù)點作為訓練樣例,利用迭代的最大熵判別(MED)計算,訓練一個轉導分類器,其中,在每一次MED迭代計算中,調整無標記數(shù)據(jù)點的成本因子作為一個期望標記值的函數(shù),并根據(jù)一個數(shù)據(jù)點組成員概率的估算,調整一個數(shù)據(jù)點標記先驗概率;將訓練的分類器用于分類所述無標記數(shù)據(jù)點、有標記數(shù)據(jù)點、以及輸入數(shù)據(jù)點中的至少一個;并將分類的數(shù)據(jù)點或其衍生物的類別輸出給一個用戶、另一系統(tǒng)、以及另一過程中的至少一個。
在一個基于計算機的系統(tǒng)中,根據(jù)本發(fā)明的另一個實施例,一種無標記數(shù)據(jù)的分類方法,包括接收有標記數(shù)據(jù)點,每一個所述有標記數(shù)據(jù)點具有至少一個標記,指示該數(shù)據(jù)點是被納入一個指定類別的數(shù)據(jù)點的訓練樣例,還是從一個指定類別被排除的數(shù)據(jù)點的訓練樣例;接收有標記和無標記數(shù)據(jù)點;接收有標記數(shù)據(jù)點和無標記數(shù)據(jù)點的先驗標記概率信息;接收所述有標記數(shù)據(jù)點和無標記數(shù)據(jù)點的至少一個預設的成本因子;根據(jù)所述數(shù)據(jù)點的標記先驗概率,確定每一個有標記和無標記數(shù)據(jù)點的期望的標記;重復下面的子步驟,直至數(shù)據(jù)值足夠收斂。
·為每一個與數(shù)據(jù)點的期望標記的絕對值成比例的無標記數(shù)據(jù)點生成一個調節(jié)的成本值; ·通過確定判定函數(shù),給定被納入訓練和被排除訓練的樣例,使用所述有標記和無標記數(shù)據(jù)點作為訓練樣例,訓練一個分類器,根據(jù)它們的期望標記,該判定函數(shù)將KL發(fā)散最小化為判定函數(shù)參數(shù)的先驗概率分布; ·使用所述訓練的分類器,確定所述有標記和無標記數(shù)據(jù)點的分類分值; ·將訓練的分類器的輸出校準為組成員概率; ·根據(jù)所述確定的組成員概率,更新所述無標記數(shù)據(jù)點的標記先驗概率; ·利用所述更新的標記先驗概率和之前確定的分類分值,使用最大熵判別(MED),確定所述標記和界限概率分布; ·使用之前確定的標記概率分布,計算新的期望標記;和 ·通過將之前迭代的所述期望標記插入所述新的期望標記,為每一個數(shù)據(jù)點更新期望標記。
輸入數(shù)據(jù)點或其衍生物的一個分類被輸出給一個用戶、另一系統(tǒng)、以及另一過程中的至少一個。
根據(jù)本發(fā)明的另一個實施例,一種文件分類方法,包括接收至少一個有標記的種子文件,其具有標記分配的已知置信級別;接收無標記文件;接收至少一個預設的成本因子;使用所述至少一個預設的成本因子、所述至少一個種子文件、以及所述無標記文件,通過迭代計算訓練一個轉導分類器,其中,對于每一次迭代計算,調整所述成本因子作為一個期望標記值的函數(shù);在至少部分迭代之后,為所述無標記文件存儲置信分值;以及將具有最高置信分值的無標記文件的標識符輸出給一個用戶、另一系統(tǒng)、以及另一過程中的至少一個。
根據(jù)本發(fā)明的另一個實施例,一種用于分析與法律查詢相關的文件的方法,包括接收與法律事件相關的文件;對所述文件執(zhí)行一種文件分類方法;以及基于其分類,輸出至少部分文件的標識符。
根據(jù)本發(fā)明的另一個實施例,一種清理數(shù)據(jù)的方法,包括接收多個有標記的數(shù)據(jù)項;為多個類別的每一個選取所述數(shù)據(jù)項的子集;在每一個子集中,將所述數(shù)據(jù)項的偏差設置成約為零;將不在所述子集中的數(shù)據(jù)項的偏差設置成一個不為約零的預設值;使用所述偏差、所述子集中的數(shù)據(jù)項、以及所述不在子集中的數(shù)據(jù)項作為訓練樣例,通過迭代計算訓練一個轉導分類器;將所述訓練的分類器應用于所述每一個有標記的數(shù)據(jù)項,以分類所述每一個數(shù)據(jù)項;以及將所述輸入數(shù)據(jù)項或其衍生物的分類輸出給一個用戶、另一系統(tǒng)、另一過程中的至少一個。
根據(jù)本發(fā)明的另一個實施例,一種用于核對發(fā)票與實體的關聯(lián)性的方法,包括基于與第一個實體相關的發(fā)票格式訓練一個分類器;訪問多張被標記為與所述第一實體和其它實體中的至少一個相關的發(fā)票;使用所述分類器對發(fā)票執(zhí)行一種文件分類方法;以及輸出至少一張發(fā)票的標識符,該發(fā)票具有較高的概率與所述第一個實體不相關。
根據(jù)本發(fā)明的另一個實施例,一種用于管理病歷的方法,包括基于醫(yī)療診斷訓練一個分類器;訪問多個病歷;使用所述分類器對所述病歷執(zhí)行一種文件分類方法;以及輸出至少一個病歷的標識符,該病歷具有較低的概率與所述醫(yī)療診斷相關。
根據(jù)本發(fā)明的另一個實施例,一種用于人臉識別的方法,包括接收至少一個人臉的有標記種子圖像,所述種子圖像具有一個已知的置信級別;接收無標記圖像;接收至少一個預設的成本因子;通過迭代計算,使用所述至少一個預設的成本因子、至少一個種子圖像、以及所述無標記的圖像,訓練一個轉導分類器,其中,對于每一次迭代計算,調整所述成本因子作為一個期望的標記值的函數(shù);在至少部分迭代之后,為所述無標記種子圖像存儲一個置信分值;以及將具有最高置信分值的無標記圖像的標識符輸出給一個用戶、另一系統(tǒng)、另一過程中的至少一個。
根據(jù)本發(fā)明的另一個實施例,一種用于分析現(xiàn)有技術文件的方法,包括基于一個搜索查詢訓練一個分類器;訪問多個現(xiàn)有技術文件;使用所述分類器對至少部分所述現(xiàn)有技術文件執(zhí)行一種文件分類方法;以及基于其分類,輸出至少部分所述現(xiàn)有技術文件的標識符。
根據(jù)本發(fā)明的另一個實施例,一種使專利分類適應文件內容變動的方法,包括接收至少一個有標記的種子文件;接收無標記的文件;使用所述至少一個種子文件和所述無標記文件訓練一個轉導分類器;使用所述分類器,將具有一個高于預設閾值的置信級別的無標記文件歸類到多個現(xiàn)有的類別;使用所述分類器,將具有一個低于預設閾值的置信級別的無標記文件歸類到至少一個新的類別;使用分類器,將至少部分所述已分類的文件重新歸類到所述現(xiàn)有的類別和所述至少一個新的類別;以及將所述已分類文件的標識符輸出給一個用戶、另一系統(tǒng)、以及另一過程中的至少一個。
根據(jù)本發(fā)明的另一個實施例,一種用于將文件與權利要求匹配的方法,包括基于一件專利或專利申請的至少一項權利要求訓練一個分類器;訪問多個文件;使用所述分類器對至少部分所述文件執(zhí)行一種文件分類方法;以及基于其分類,輸出至少部分所述文件的標識符。
根據(jù)本發(fā)明的另一個實施例,一種專利或專利申請的分類方法,包括基于多個已知屬于一個特定專利分類的文件訓練一個分類器;接收一件專利或專利申請的至少一部分;使用所述分類器對所述專利或專利申請的所述至少一部分執(zhí)行一種文件分類方法;以及輸出所述專利或專利申請的分類,其中,所述文件分類方法是一個是/否分類方法。
根據(jù)本發(fā)明的另一個實施例,一種適應文件內容變動的方法,包括接收至少一個有標記種子文件;接收無標記文件;接收至少一個預設的成本因子;使用所述至少一個預設的成本因子、所述至少一個種子文件、以及所述無標記文件,訓練一個轉導分類器;使用所述分類器,將具有高于一個預設閾值的置信級別的無標記文件歸類到多個類別;使用所述分類器,將至少部分所述分類的文件重新歸類到多個類別;以及將所述已分類文件的標識符輸出給一個用戶、另一系統(tǒng)、以及另一過程中的至少一個。
根據(jù)本發(fā)明的另一個實施例,一種分離文件的方法,包括接收有標記的數(shù)據(jù);接收一組無標記文件;基于所述有標記的數(shù)據(jù)和無標記文件,使用轉導改寫概率分類規(guī)則;根據(jù)所述概率分類規(guī)則,更新用于文件分離的權重;確定所述一組文件中分離的位置;將所述確定的分離位置的指示符輸出給一個用戶、另一系統(tǒng)、以及另一過程中的至少一個;以及給文件打上代碼,該代碼與所述指示符相關。
根據(jù)本發(fā)明的另一個實施例,一種文件搜索的方法,包括接收一個搜索查詢;基于所述搜索查詢檢索文件;輸出所述文件;為至少部分所述文件接收用戶鍵入的標記,所述標記指示所述文件與所述搜索查詢之間的相關性;基于所述搜索查詢和用戶鍵入的標記訓練一個分類器;使用所述分類器對所述文件執(zhí)行一個文件分類方法,以對所述文件重新分類;以及基于其分類,輸出至少部分所述文件的標識符。
圖1為期望標記作為分類分值的一個函數(shù)的曲線圖,該分類分值通過使用適用于標記歸納的MED判別學習而獲得。
圖2為一組由轉導MED學習獲得的判定函數(shù)的迭代計算的示意圖。
圖3為一組根據(jù)本發(fā)明一個實施例的由改進的轉導MED學習獲得的判定函數(shù)的迭代計算的示意圖。
圖4為根據(jù)本發(fā)明一個實施例,使用一個調節(jié)的成本因子,一個用于分類無標記數(shù)據(jù)的控制流程圖。
圖5為根據(jù)本發(fā)明一個實施例,使用用戶定義的先驗概率信息,一個用于分類無標記數(shù)據(jù)的流程控制圖。
圖6為根據(jù)本發(fā)明一個實施例,利用調節(jié)的成本因子和先驗概率信息,使用最大熵判別,一個用于分類無標記數(shù)據(jù)的詳細控制流程圖。
圖7為顯示實施此處描述的不同實施例的網(wǎng)絡結構的網(wǎng)絡圖。
圖8為一個有代表性的,與用戶設備相關的硬件環(huán)境的系統(tǒng)框圖。
圖9為代表本發(fā)明的一個實施例的裝置的框圖。
圖10為由根據(jù)一個實施例執(zhí)行的分類過程的流程圖。
圖11為由根據(jù)一個實施例執(zhí)行的分類過程的流程圖。
圖12為由根據(jù)一個實施例執(zhí)行的分類過程的流程圖。
圖13為由根據(jù)一個實施例執(zhí)行的分類過程的流程圖。
圖14為由根據(jù)一個實施例執(zhí)行的分類過程的流程圖。
圖15為由根據(jù)一個實施例執(zhí)行的分類過程的流程圖。
圖16為由根據(jù)一個實施例執(zhí)行的分類過程的流程圖。
圖17為由根據(jù)一個實施例執(zhí)行的分類過程的流程圖。
圖18為由根據(jù)一個實施例執(zhí)行的分類過程的流程圖。
圖19為由根據(jù)一個實施例執(zhí)行的分類過程的流程圖。
圖19為由根據(jù)一個實施例執(zhí)行的分類過程的流程圖。
圖20為由根據(jù)一個實施例執(zhí)行的分類過程的流程圖。
圖21為由根據(jù)一個實施例執(zhí)行的分類過程的流程圖。
圖22為本發(fā)明一個實施例的方法,用于一個第一文件分類系統(tǒng)的控制流程圖。
圖23為本發(fā)明一個實施例的方法,用于一個第二文件分類系統(tǒng)的控制流程圖。
圖24為由根據(jù)一個實施例執(zhí)行的分類過程的流程圖。
圖25為由根據(jù)一個實施例執(zhí)行的分類過程的流程圖。
圖26為由根據(jù)一個實施例執(zhí)行的分類過程的流程圖。
圖27為由根據(jù)一個實施例執(zhí)行的分類過程的流程圖。
圖28為由根據(jù)一個實施例執(zhí)行的分類過程的流程圖。
圖29為由根據(jù)一個實施例執(zhí)行的分類過程的流程圖。
具體實施例方式 下列的描述是目前預期的實現(xiàn)本發(fā)明的最佳方法,該描述的目的是為了說明本發(fā)明的一般原理,并不意味著限制此處所述的本發(fā)明的內容。而且,此處所描述的特定特征可與各種不同可能的組合和排列中的每一個其它描述的特征相結合。
除非另在此處特別定義,所有術語都給予其最廣的可能的解釋,包括從說明書中暗示的意思,和本領域技術人員理解的意思,以及如字典、論文等所定義的意思。
文本分類 文本數(shù)據(jù)分類的好處和需求已非常巨大,并且已經(jīng)有多種分類方法被使用。下面討論用于文本數(shù)據(jù)的分類方法 為增加其效用和智能,要求諸如計算機之類的機器能夠分類(或識別)一個不斷擴大的范圍內的對象。例如,計算機可使用光學字符識別來分類手寫或掃描的數(shù)字和文字,使用圖案識別來分類圖像,如人臉、指紋、戰(zhàn)斗機等等,或者使用語音識別來分類聲音、語音等等。
機器還被要求能夠分類文本信息對象,例如文本計算機文件或文檔。文本分類的應用是多樣且重要的。例如,文本分類可用于管理文本信息對象以將其歸入一個預定的類別或分類的層次結構。這樣,發(fā)現(xiàn)(或找到)與特定主題有關的文本信息對象就被簡化了。文本分類可用于將適當?shù)奈谋拘畔ο舐酚芍吝m當?shù)娜巳夯虻攸c。這樣,信息服務可將涉及各種主題(如,商務、體育、股票市場、足球、特定公司、特定足球隊)的文本信息對象路由至具有不同興趣的人群。文本分類可用于過濾文本信息對象,以使個人免受不需要的文本內容(如不需要和未經(jīng)請求的電子郵件,也稱為垃圾電子郵件,或“垃圾”)的侵擾。正如從這些示例中可以得知的那樣,文本分類具有多種激動人心和重要的應用。
基于規(guī)則的分類 在某些實例中,必須基于某種公認的邏輯,利用絕對確定性對文件內容進行分類。一個基于規(guī)則的系統(tǒng)可用于實現(xiàn)此類分類。基本上,基于規(guī)則的系統(tǒng)使用產(chǎn)生式規(guī)則的形式 IF條件,THEN事實。
所述條件可以包括文本信息是否包括某些單詞或短語,具有特定的語法,或具有特定的屬性。例如,如果文本內容具有單詞“收盤”,短語“納斯達克”和數(shù)字,則將其分類為“股票市場”文本。
在過去的約10年里,其它類型的分類器已被逐漸地使用。盡管這類分類器不像基于規(guī)則的分類器那樣使用靜態(tài)、預定的邏輯,但是在許多應用中,它們優(yōu)于基于規(guī)則的分類器。這類分類器通常包括一個學習元件和一個執(zhí)行元件。這類分類器包括神經(jīng)網(wǎng)絡、貝葉斯網(wǎng)絡、以及支持向量機。盡管每個這類分類器都已熟知,但為了方便讀者,下面簡要介紹各種分類器。
具有學習和執(zhí)行元件的分類器 正如上節(jié)的末尾所提到的那樣,在許多應用中,具有學習和執(zhí)行元件的分類器優(yōu)于基于規(guī)則的分類器。再次重申,這些分類器可以包括神經(jīng)網(wǎng)絡、貝葉斯網(wǎng)絡和支持向量機。
神經(jīng)網(wǎng)絡 神經(jīng)網(wǎng)絡基本上是相同處理元件(也稱為神經(jīng)元)的多層、層次排列。各神經(jīng)元可具有一個或多個輸入,但只有一個輸出。通過一個系數(shù)對各神經(jīng)元輸入進行加權。神經(jīng)元的輸出通常是其加權輸入和偏差值之和的一個函數(shù)。這個函數(shù),也稱為激活函數(shù),通常是一個S形函數(shù)。即,該激活函數(shù)可以是S形單調遞增,且當其(多個)輸入分別接近正負無窮大時,漸進逼近固定值(如+1,0,—1)。S形函數(shù)和單個神經(jīng)的權重和偏差值確定神經(jīng)元對輸入信號的響應或“興奮性”。
在神經(jīng)元的層次排列中,一層內的神經(jīng)元的輸出可分配作為下一層內一個或多個神經(jīng)元的輸入。典型的神經(jīng)網(wǎng)絡可包括一個輸入層和兩(2)個不同層;即,一個輸入層,一個中間神經(jīng)元層,和一個輸出神經(jīng)元層。請注意,所述輸入層的節(jié)點不是神經(jīng)元。更確切地講,輸入層的節(jié)點僅有一個輸入,并主要提供未處理的輸入給下一層的輸入。如果,例如神經(jīng)網(wǎng)絡將被用于識別在20×15像素陣列中的一個數(shù)字字符,該輸入層可以具有300個神經(jīng)元(即輸入的每一個像素),且輸出陣列可以具有10個神經(jīng)元(即10個數(shù)字中的每一個)。
神經(jīng)網(wǎng)絡的使用一般包括兩(2)個連續(xù)的步驟。第一,初始化神經(jīng)網(wǎng)絡,并根據(jù)具有已知輸出值(或分類)的已知輸入訓練該網(wǎng)絡。一旦神經(jīng)網(wǎng)絡被訓練,它就能用于分類未知的輸入。通過將神經(jīng)元的權重和偏差設置為隨機值(通常由一個高斯分布生成),神經(jīng)網(wǎng)絡可被初始化。然后使用一連串的具有已知輸出(或分類)的輸入,訓練該神經(jīng)網(wǎng)絡。在將訓練輸入提供給神經(jīng)網(wǎng)絡時,調整(例如根據(jù)已知的反向傳播技術)神經(jīng)權重和偏差值,以使每一個單一訓練模式的神經(jīng)網(wǎng)絡的輸出逼近或匹配該已知輸出?;旧?,權重空間的梯度下降被用于最小化輸出誤差。這樣,使用連續(xù)訓練輸入的學習,朝著權重和偏差的局部最優(yōu)解收斂。即,權重和偏差被調整至最小誤差。
實際操作中,通常并不將該系統(tǒng)訓練成收斂到最優(yōu)解的某一點。相反,系統(tǒng)將被“過度訓練”,致使其對于訓練數(shù)據(jù)過于專業(yè),且可能不善于分類與訓練集有些不同的輸入。因此,在其訓練的不同時期,在一組驗證數(shù)據(jù)上對該系統(tǒng)進行試驗。當系統(tǒng)的性能在驗證集上不再改進時,訓練停止。
一旦訓練完成,就可使用該神經(jīng)網(wǎng)絡,根據(jù)在訓練期間確定的權重和偏差,分類未知輸入。如果該神經(jīng)網(wǎng)絡能有把握地分類未知輸入,某個輸出層中的神經(jīng)元的一個輸出將會遠高于其它輸出。
貝葉斯網(wǎng)絡 通常,貝葉斯網(wǎng)絡使用假設,作為數(shù)據(jù)(如,輸入特征向量)和預測(如,分類)之間的媒介。對于給定的數(shù)據(jù)(“P(假設|數(shù)據(jù))”),每一個假設的概率可以被估算。使用假設的后驗概率,從所述假設獲得預測,以對每一個假設的單個預測進行加權。給定數(shù)據(jù)D,預測X的概率可以表示為 其中,Hi為第i個假設。最大化給定D(P(Hi|D))的Hi的概率的最大可能性的假設Hi被稱為最大后驗假設(或“HMAP”),且可表示為 P(X|D)~P(X|HMAP) 使用貝葉斯法則,給定數(shù)據(jù)D,假設Hi的概率可表示為 數(shù)據(jù)D的概率保持不變。因此,為找到HMAP,必須最大化分子。
分子的第一項表示給定假設i,可能觀察到該數(shù)據(jù)的概率。分子的第二項表示分配給所述給定假設i的先驗概率。
貝葉斯網(wǎng)絡包括變量和變量之間的有向邊,由此定義一個有向無環(huán)圖(即“DAG”)。每一個變量可假設為有限數(shù)量的互斥狀態(tài)中的任意值。對于每一個變量A,其具有母變量B1…Bn,有一個附屬概率表(P(A|B1…Bn)。貝葉斯網(wǎng)絡的所述結構編碼了所述假設,給定其母變量,每一個變量有條件地獨立于其非子變量。
假設貝葉斯網(wǎng)絡的結構已知,且變量可觀察,則只需學習條件概率列表集合。直接使用來自一組學習樣例的統(tǒng)計,可估算這些列表。如果該結構已知,而某些變量是隱藏的,則學習就類似于上述的神經(jīng)網(wǎng)絡學習。
下面介紹簡單的貝葉斯網(wǎng)絡的示例。變量“MML”可代表“我的草坪的濕度”(moisture of my lawn),且可以具有狀態(tài)“濕”和“干”。MML變量可具有“下雨”和“我的灑水器打開”母變量,每一個都具有“是”和“否”狀態(tài)。另一個變量,“MNL”可代表“我的鄰居的草坪的濕度”,且可以具有狀態(tài)“濕”和“干”。MNL變量可共享“下雨”母變量。在本例中,預測可以是我的草坪是“濕”還是“干”。該預測可以基于假設(i)如果下雨,我的草坪將會濕的概率(x1)和假設(ii)如果我的灑水器打開,我的草坪將會濕的概率(x2)。下過雨的概率或我的灑水器打開的概率可取決于其它變量。例如,如果我的鄰居的草坪是濕的,而他們沒有灑水器,那很可能下過雨了。
如上所述,像神經(jīng)網(wǎng)絡的例子一樣,可訓練貝葉斯網(wǎng)絡中的條件概率表。其優(yōu)點在于,通過允許提供先驗知識,可縮短該學習過程。然而不幸的是,條件概率的先驗概率常常是未知的,此時使用統(tǒng)一的先驗概率。
本發(fā)明的一個實施例可執(zhí)行至少兩(2)個基本函數(shù)中的一(1)個,即生成分類器的參數(shù),并分類對象,如文本信息對象。
基本上,基于一組訓練樣例,為分類器生成參數(shù)。可以從一組訓練樣例生成一組特征向量。該組特征向量的特征可被簡化。將生成的參數(shù)可包括一個定義的單調(如S形)函數(shù)和一個權重向量。該權重向量可通過SVM訓練的方式確定(或通過其它已知的技術)??赏ㄟ^最優(yōu)化方法確定該單調(如S形)函數(shù)。
文本分類器包括一個權重向量和一個定義的單調(如,S形)函數(shù)?;旧?,本發(fā)明的文本分類器的輸出可表示為 其中 Oc=類別c的分類輸出; wc=與類別c相關的權重向量參數(shù); x=基于未知文本信息對象的(簡化的)特征向量; A和B是個單調(如,S形)函數(shù)的可調節(jié)參數(shù); 由表達式(2)計算輸出比由表達式(1)計算輸出快。
根據(jù)被分類對象的形式,分類器可以(i)將文本信息對象轉換為特征向量,和(ii)將特征向量簡化為具有較少元素的簡化特征向量。
轉導機器學習 在商業(yè)上,現(xiàn)有技術中當前使用的自動分類系統(tǒng)是基于規(guī)則或者利用歸納型機器學習,即,使用人工標記訓練樣例。相比于轉導方法,兩種方法通常都需要大量人工設置工作。由基于規(guī)則的系統(tǒng)或歸納型方法提供的解決方案是靜態(tài)解決方案,若沒有人工工作,它就不能適應漂移分類概念。
歸納型機器學習用于將屬性或關系歸因于基于表征(即,基于一個或少數(shù)的觀察或經(jīng)驗)的類型;或基于有限的觀察重現(xiàn)模式來制定法則。歸納型機器學習包括從觀察到的訓練案例中推理,以建立一般規(guī)則,該規(guī)則接著用于測試實例。
特殊地,優(yōu)選實施例使用轉導機器學習方法。轉導機器學習是一個有效的方法,可以避免這些缺陷。
轉導機器方法能夠從非常少的一組有標記訓練樣例中學習,自動適應漂移分類概念,并自動糾正標記的訓練樣例。這些優(yōu)勢使得轉導機器學習成為一個有趣且有價值的方法,適合各種商業(yè)應用。
轉導在數(shù)據(jù)中學習模式。通過不僅從有標記數(shù)據(jù)而且從無標記數(shù)據(jù)中學習,轉導擴展了歸納型學習的概念。這使得轉導能夠學習并非從有標記數(shù)據(jù)中捕獲或僅部分從有標記數(shù)據(jù)中捕獲的模式。因此,相比基于規(guī)則的系統(tǒng)或基于歸納型學習的系統(tǒng),轉導能夠適應動態(tài)變化的環(huán)境。這個能力使得轉導能夠用于文件搜索、數(shù)據(jù)清理、尋址漂移分類概念等等。
下面描述利用支持向量機(SVM)分類以及最大熵判別(MED)框架的轉導分類的實施例。
支持向量機 支持向量機(SVM)是一種文本分類所采用的方法,通過使用正規(guī)化理論的概念對可能的解設置限制,該方法處理了大量解的問題,以及由此產(chǎn)生的泛化問題。例如,一個二元SVM分類器從所有準確分隔訓練數(shù)據(jù)的超平面中選取最大化界限的超平面作為解。最大界限正規(guī)化在訓練數(shù)據(jù)被準確地分類的限制條件下,滿足了前述在泛化和記憶之間選擇合適權衡的學習問題。對訓練數(shù)據(jù)的限制記憶了數(shù)據(jù),而正規(guī)化則保證了合適的泛化。歸納分類從具有已知標記的訓練樣例中學習,即,每個訓練樣例的組成員是已知的。當歸納分類從已知標記中學習,轉導分類從有標記以及無標記數(shù)據(jù)中確定分類規(guī)則。一個轉導SVM分類的示例如表1所示。
轉導SVM分類的原理 RequireData matrix X of labeled training examples and their labels Y. RequireData matrix X′of the unlabeled training examples. RequireA list of all possible labels assignments of the unlabeled training examples
1MaximumMargin=0 2
{Included label assignment of unlabeled training examples.} 3for all label assignments
in the list of label assignments do 4CurrentMaximumMargin=MaximizeMargin(X,Y,X′,
) 5if CurrentMaximumMargin>MaximumMargin then 6 MaximumMargin=CurrentMaximumMargin 7
8end if 9end for 表1 表1顯示了利用支持向量機的轉導分類的原理。解由超平面給出,該超平面針對無標記數(shù)據(jù)的所有可能的標記分配產(chǎn)生最大界限。所述可能的標記分配隨著無標記數(shù)據(jù)的數(shù)量呈指數(shù)增長,且對于實際上可用的方法,表1的算法必須被估算。該估算的例子在T.Joachims,Transductive inference for text classification using support vector machines,Technical report,Universitact Dortmund,LAS VIII,1999(Joachims)中有描述。
表1中對于標記分配的均勻分布表示,一個無標記數(shù)據(jù)點具有1/2的概率成為該組的正面樣例和具有1/2的概率成為負面樣例,即,y=+1(正面樣例)和y=—1(負面樣例)這兩種可能的標記分配機會相等,且最終的期望標記為0。為0的標記期望可由一個等于1/2的固定的類別先驗概率獲得,或由具有均勻先驗分布的一個隨機變量的類別先驗概率(即一個未知的類別先驗概率)獲得。因此,在不等于1/2的已知類別先驗概率的應用中,通過結合該附加信息可改進該算法。例如,不是使用表1中的標記分配的均勻分布,而是根據(jù)類別先驗概率,優(yōu)先選擇某些標記分配,而不是其它標記分配。然而,在較小卻具有較高標記分配的界限解與較大但具有較低標記分配的界限解之間作出權衡是困難的。標記分配的概率和界限是不同尺度的。
最大熵判別 另一種分類的方法,最大熵判別(MED)(參看,如,T.Jebara,Machine LearningDiscriminative and Generative,Kluwer Academic Publishers)(Jebara)沒有碰到與SVM相關的問題,因為判定函數(shù)正規(guī)化項以及標記分配正規(guī)化項都是來源于針對解的先驗概率分布,因此都在相同的概率尺度上。因而,如果類別先驗,以及由此的標記先驗已知時,轉導MED分類優(yōu)于轉導SVM分類,因為它允許先驗標記知識以有原則的方式結合。
歸納MED分類假設一個判定函數(shù)參數(shù)的先驗分布、一個偏差項的先驗分布,和一個界限的先驗分布。它選擇最接近于先驗分布的那個分布作為這些參數(shù)的最終分布,并產(chǎn)生一個準確地分類數(shù)據(jù)點的期望判定函數(shù)。
形式上,例如給定一個線性分類器,問題表述如下尋找超平面參數(shù)分布p(Θ),偏差分布p(b),數(shù)據(jù)點分類界限p(γ),其聯(lián)合概率分布具有一個最小的庫爾貝克萊伯勒發(fā)散(Kullback Leibler divergence)KL賦予結合的各個先驗分布p0,即 受制于限制條件 其中ΘXt是分隔超平面權重向量與第t個數(shù)據(jù)點的特征向量之間的點積。由于標記分配yt為已知且固定,無需二元標記分配的先驗分布。因此,將歸納MED分類泛化為轉導MED分類的簡便方法,是將二元標記分配作為受限于可能的標記分配的先驗分布參數(shù)來處理。轉導MED的例子如表2所示。
轉導MED分類 RequireData Matrix X of labeled and unlabeled training examples. RequireLabel prior probabilities p0(y)for labeled and unlabeled training examples. 1<Y>=ExpectedLabel(p0(y)){Expected label determined from the training examples’label prior probabilities.} 2while-converged do 3W=MinimizeKLDivergence(X,<Y>) 4Y′=InduceLabels(W,X,p0(y)) 5<Y>=∈<Y>+(1-∈)Y′ 6.end while 表2 對于有標記數(shù)據(jù),標記先驗分布是一個δ函數(shù),因而能有效地確定標記為+1或—1。對于無標記數(shù)據(jù),假設一個標記先驗概率p0(y),分配給每一個無標記數(shù)據(jù)點一個y=+1的正標記的概率為p0(y),而一個y=—1的負標記的概率為1—p0(y)。假設一個非信息標記先驗(p0(y)=1/2),產(chǎn)生一個與上述轉導SVM分類類似的轉導MED分類。
如在轉導SVM分類的情況那樣,上述MED算法的實際可適用的實施方法必須估算對于全部可能的標記分配的搜索。該方法在T.Jaakkola,M.Meila,and T.Jebara,Maximum entropy discrimination,Technical Report AITR-1668,Massachusetts Institute ofTechnology,Artificial Intelligence Laboratory,1999(Jaakkola)中有描述,其選擇一個近似值,將過程分解為兩個步驟,類似于一個期望值最大化(EM)公式。在該公式中,需要解決兩個問題。第一步,相當于在EM算法中的M步驟,當根據(jù)當前標記分配的最佳猜測,準確地分類所有數(shù)據(jù)點時,類似于界限的最大值。第二步,相當于E步驟,使用在M步驟中確定的分類結果,并為每一個樣例的組成員估算新的值。我們稱該第二步驟為標記歸納。大致的描述如表2所示。
此處引用的Jakkola的方法的特殊實施方法,假設一個具有超平面參數(shù)的零平均值和單位方差的高斯函數(shù),一個具有偏差參數(shù)的零平均值和方差
的高斯函數(shù),公式exp[-c(1-γ)]的一個界限先驗,其中γ為數(shù)據(jù)點的界限,c為成本因子,以及一個如上所述無標記數(shù)據(jù)的二元標記先驗概率p0(y)。下面所討論的轉導分類算法Jaakkola,在此引用,由于簡易性和不喪失通用性的緣故,故假設1/2的標記先驗概率。
對于給定超平面參數(shù)的一個固定概率分布,標記歸納步驟決定標記概率分布。使用上述的界限和標記先驗,產(chǎn)生如下標記歸納步驟的目標函數(shù)(參看表2)
其中λt為第t個訓練樣例拉格朗日乘子(Lagrange Multiplier),st為在前述M步驟中確定的其分類分值,c為成本因子。訓練樣例求和中的前兩項從界限先驗分布中獲得,而第三項由標記先驗分布給定。通過最大化
,拉格朗日乘子被確定,并由此確定無標記數(shù)據(jù)的標記概率分布。如式3中可看出,數(shù)據(jù)點獨自作用于目標函數(shù),因此每一個拉格朗日乘子的確定與其它拉格朗日乘子無關。例如,為了最大化一個具有高絕對值的分類分值|st|的無標記數(shù)據(jù)點的作用,需要一個小的拉格朗日乘子λt,而一個具有小的值|st|的無標記數(shù)據(jù)點,則需利用一個大的拉格朗日乘子,最大化它對
的作用。另一方面,無標記數(shù)據(jù)點的一個期望標記<y>作為其分類分值s和拉格朗日乘子λ的函數(shù)表示為 <y>=tanh(λs)(4) 圖1顯示了期望標記<y>作為一個分類分值s的函數(shù),其使用成本因子c=5和c=1.5。通過使用成本因子c=5和c=1.5求解公式3,確定用于產(chǎn)生圖1的拉格朗日乘子。由圖1可知,界限之外的無標記數(shù)據(jù)點,即|s|>1,具有接近于0的期望標記<y>,接近于界限的數(shù)據(jù)點,即|s|≈1,產(chǎn)生最高的絕對期望標記值,以及接近于超平面的數(shù)據(jù)點,即|s|<∈,產(chǎn)生|<y>|<∈。當|s|→∞,<y>→0的非直觀標記分配的原因在于所決定的判別方法,該方法只要滿足分類限制,就試圖保持盡可能地接近先驗分布。它不是一個由表2的已知方法所選擇的近似值的人工產(chǎn)物,即一個算法,該算法徹底地搜索所有可能的標記分配,并由此確保找出全局最優(yōu)解,且同樣將接近或等于零的期望標記分配給在界限之外的無標記數(shù)據(jù)。再次重申,如上所述,那是判別觀點所期望的。在界限之外的數(shù)據(jù)點對于分隔樣例并不重要,因此所有這些數(shù)據(jù)點的單個概率分布回復到了它們的先驗分布。
Jaakkola的轉導分類算法的M步驟,在此引用,確定了超平面參數(shù)的概率分布、偏差項、以及在限制的條件下最接近于各自的先驗分布的數(shù)據(jù)點的界限, 其中,st為第t個數(shù)據(jù)點分類分值,<yt>為其期望的標記,<γt>為其期望的界限。對于有標記數(shù)據(jù),期望的標記是固定的,為<y>=+1或<y>=—1。無標記數(shù)據(jù)的期望標記位于區(qū)間(—1,+1)之內,且在標記歸納步驟中被估算。根據(jù)公式5,由于分類分值由期望標記決定,無標記數(shù)據(jù)須滿足比有標記數(shù)據(jù)更嚴格的分類限制。此外,給定期望標記的關系式,作為分類分值的一個函數(shù),參看圖1,接近于分隔超平面的無標記數(shù)據(jù)具有最嚴格的分類限制,因為它們的分值以及期望標記的絕對值|<yt>|小。給定上述先驗分布的M步驟的完全目標函數(shù)為
第一項由高斯超平面參數(shù)先驗分布獲得,第二項為界限先驗正規(guī)化項,最后一項為偏差先驗正規(guī)化項,由具有零平均值和方差
的高斯先驗獲得。偏差項的先驗分布可理解為一個類別先驗概率的先驗分布。因此,對應于所述偏差先驗分布的正規(guī)化項限制了正面樣例與負面樣例的權重。參看公式6,偏差項的作用被最小化,以防超平面上的正面樣例的集體拉動等于負面樣例的集體拉動。由于偏差先驗,拉格朗日乘子的集體限制就由數(shù)據(jù)點的期望標記加權,并因此無標記數(shù)據(jù)比有標記數(shù)據(jù)的限制更少。因而,無標記數(shù)據(jù)具有比有標記數(shù)據(jù)更強的影響最終解的能力。
總之,在Jaakkola的轉導分類算法的M步驟,在此引用,無標記數(shù)據(jù)需要比有標記數(shù)據(jù)滿足更嚴格的分類限制,且它們對于解的累積權重比有標記數(shù)據(jù)的限制更少。另外,具有一個接近于零的期望標記的無標記數(shù)據(jù),位于當前M步驟的界限之內的,對解的影響最大。這樣,如圖2所示,通過將該算法應用于數(shù)據(jù)集,可以圖解說明公式化E和M步驟的凈效應。數(shù)據(jù)集包括兩個有標記樣例,一個位于x位置—1的負面樣例(x),和一個+1的正面樣例(+),以及沿x軸、位于—1與+1之間的六個無標記樣例(o)。叉(x)表示一個有標記負面樣例,加號(+)表示一個有標記正面樣例,以及圓圈(o)表示無標記數(shù)據(jù)。不同的圖表示分隔的超平面,由M步驟的不同的迭代決定。最終的解由Jaakkaola的轉導MED分類器決定,在此引用,正面有標記訓練樣例被錯誤分類。圖2顯示了M步驟的多次迭代。在M步驟的第一次迭代,未考慮無標記數(shù)據(jù),且分隔的超平面位于x=0。一個具有負x值的無標記數(shù)據(jù)點比任何其它無標記數(shù)據(jù)更接近于這個分隔的超平面。在隨后的標記歸納步驟,它將被分配以最小的|<y>|,相應地,在下一個M步驟,它具有最大的權限將超平面推向正面有標記樣例。期望標記<y>的特定形狀作為一個由選定的成本因子(參看圖1)確定的分類分值的函數(shù),與無標記數(shù)據(jù)點的特定間隔相結合產(chǎn)生了橋聯(lián)效應,在每一個連續(xù)的M步驟,分隔的超平面越來越靠近正面樣例。直觀地講,M步驟遭受一種近視的困擾,最接近于當前分隔超平面的無標記數(shù)據(jù)點最能確定該平面的最終位置,而遠離的數(shù)據(jù)點并不很重要。最終,由于偏差先驗項限制了無標記數(shù)據(jù)的集體拉動少于有標記數(shù)據(jù)的集體拉動,因而分隔超平面移到超出正面標記樣例,產(chǎn)生一個最終的解,圖2中的第15次迭代,其將正面標記樣例進行了錯誤的分類。在圖2中使用了一個的偏差方差和一個c=10的成本因子。利用任何在范圍9.8<c<13之內的成本因子產(chǎn)生一個將某一正面標記樣例進行錯誤的分類的最終超平面。而所有在區(qū)間9.8<c<13之外的成本因子,在兩個有標記樣例之間的任何地方,產(chǎn)生分隔的超平面。
該算法的不穩(wěn)定性并不僅局限于圖2所示的樣例,當應用Jaakkola方法時,在此引用,還經(jīng)歷了局限于現(xiàn)實世界數(shù)據(jù)集,包括為本領域技術人員所熟知的路透社數(shù)據(jù)集。表2中所述的該方法的固有的不穩(wěn)定性為該實施方式的一個主要缺陷,且限制了其通用性,盡管Jaakkola方法可能在本發(fā)明的某些實施例中實施。
本發(fā)明一個優(yōu)選方法采用使用最大熵判別(MED)的框架的轉導分類。容易理解,本發(fā)明的不同實施例,適用于分類,也同樣適用于其它使用轉導的MED學習問題,包括,但不限于,轉導MED復原和圖像模式。
通過假設一個參數(shù)的先驗概率分布,最大熵判別限制并減少可能的解。根據(jù)在期望的解準確地描述訓練數(shù)據(jù)的限制下,最接近于假設的先驗概率分布的概率分布,最終解為所有可能解的期望值。所有解的先驗概率分布映射到一個正規(guī)化項,即,選擇了一個特定的先驗分布,就已經(jīng)選擇了一個特定的正規(guī)化。
由支持向量機實施的判別估計在從少量的樣例的學習中是有效的。本發(fā)明實施例的方法和裝置與支持向量機一樣都具有該特點,并且不會估算比解決給定的問題所必要的參數(shù)更多的參數(shù),并因此產(chǎn)生一個稀疏解。與生成模式估算相比,生成模式估算試圖解釋基礎過程,通常需要比判別估算更高的統(tǒng)計。另一方面,生成模式更加靈活,故可用于各種各樣的問題。另外,生成模式估算能直接包括先驗知識。通過使用最大熵判別,本發(fā)明實施例的方法和裝置縮短了純判別模式估算(如,支持向量機學習)與生成模式估算之間的差距。
如表3中所示的本發(fā)明的實施例的方法是一個改進的轉導MED分類算法,其不具有前述在Jaakkola(在此引用)的方法中所存在的不穩(wěn)定的問題。區(qū)別包括,但不限于,在本發(fā)明實施例中,每個數(shù)據(jù)點都具有其自身的成本因子,與其絕對標記期望值|<y>|成比例。另外,根據(jù)估計組成員概率作為數(shù)據(jù)點到判定函數(shù)的距離的函數(shù),在各M步驟之后,更新每一個數(shù)據(jù)點的標記先驗概率。本發(fā)明實施例的方法如以下表3所示 改進的轉導MED分類 RequireData matrix X of labeled and unlabeled training examples RequireLabel prior probabilities p0(y)for labeled and unlabeled training examples. RequireGlobal cost factor c. 1<Y>ExpectedLabel(p0(y)){Expected label determined from the training examples’label prior probabilities.} 2while-converged do 3C=|<Y>|c{Scale each training example’s cost factor by the absolute value of its expected label.} 4 W=MinimizeKLDivergence(X,<Y>,C) 5 p0(y)=EstimateClassProbability(W,<Y>) 6 Y′=InduceLabels(W,X,p0(y),C) 7 <Y>=∈<Y>+(1-∈)Y′ 8end while 表3 通過|<y>|調節(jié)數(shù)據(jù)點成本因子,緩和了無標記數(shù)據(jù)對于超平面上的集體拖動的作用比有標記數(shù)據(jù)更強的問題,因為現(xiàn)在無標記數(shù)據(jù)的成本因子比有標記數(shù)據(jù)的成本因子要小,也就是說,各無標記數(shù)據(jù)點對于最終解的單獨作用總是小于有標記數(shù)據(jù)點的單獨作用。然而,倘若無標記數(shù)據(jù)的總量遠大于有標記數(shù)據(jù)的數(shù)量,無標記數(shù)據(jù)仍然能比有標記數(shù)據(jù)更多地影響最終解。另外,利用估算的類別概率,將成本因子調節(jié)與更新標記先驗概率結合,解決了上述橋聯(lián)效應的問題。在第一個M步驟,無標記數(shù)據(jù)具有小的成本因子,產(chǎn)生一個期望標記,作為分類分值的函數(shù),其相當平坦(見圖1),相應地,在某種程度上,所有無標記數(shù)據(jù)被允許繼續(xù)拉動超平面,雖然僅有較小的權重。另外,由于標記先驗概率的更新,遠離分隔的超平面的無標記數(shù)據(jù)沒有被分配一個接近于0的期望標記,但在多次迭代之后,分配一個接近于y=+1或y=—1的標記,并由此逐漸地被看作有標記數(shù)據(jù)處理。
在本發(fā)明實施例的方法的一個特定實施中,通過假設一個具有判定函數(shù)參數(shù)Θ的零平均值和單位方差的一個高斯先驗 判定函數(shù)參數(shù)的先驗分布結合了即將到來的特定分類問題的重要先驗知識。其它對于分類問題比較重要的判定函數(shù)參數(shù)的先驗分布例如多項分布,泊松分布、柯西分布(Breit-Wigner)、麥克斯韋玻耳茲曼分布或玻色—愛因斯坦分布。
判定函數(shù)閾值b的先驗分布由具有平均值μb和方差
的高斯分布給定 作為數(shù)據(jù)點的分類界限γi的先驗分布 被選定,其中c為成本因子。該先驗分布與Jaakkola(在此引用)中使用的先驗分布不同,Jaakkola的表達式為exp[—c(1—γ)]。優(yōu)選地,式9所給出的表達式優(yōu)于Jaakkola(在此引用)使用的表達式,因為即使成本因子小于1,式9也會產(chǎn)生一個正面期望界限,而當c<1時,exp[—c(1—γ)]產(chǎn)生一個負面期望界限。
給定這些先驗分布,可直接確定相應的分配函數(shù)Z(參看樣例T.M.Cover and J.A.Thomas,Elements of Information Theory,John Wiley&Sons,Inc.)(Cover),且目標函數(shù)
為
根據(jù)Jaakkola(在此引用),M步驟的目標函數(shù)為
以及E步驟的目標函數(shù)為
其中st為第t個數(shù)據(jù)點的分類分值,在前面的M步驟中確定,p0,1(yt)為數(shù)據(jù)點的二元標記先驗概率。對于有標記數(shù)據(jù),標記先驗初始化為p0,1(yt)=1,而對于無標記數(shù)據(jù),標記先驗初始化為p0,1(yt)=1/2的非信息先驗,或類別先驗概率。
這里命名為M步驟的部分描述了解決M步驟目標函數(shù)的算法。同樣地,這里命名為E步驟的部分描述了E步驟算法。
在表3第5行的估算類別概率(Estimate Class Probability)步驟,使用了訓練的數(shù)據(jù)以確定校準參數(shù),用于將分類分值變成組成員概率,即類別的概率給定分值p(c|s)。用于將分值校準估算為概率的相關方法在J.Platt,Probabilistic outputs for support vectormachines and comparison to regularized likelihood methods,pages 61-74,2000(Platt)以及B.Zadrozny and C.Elkan,Transforming classifier scores into accurate multi-classprobability estimates,2002(Zadrozny)中有描述。
特別參看圖3,叉(x)表示一個有標記負面樣例,加號(+)表示有標記正面樣例,和圓圈(o)表示無標記數(shù)據(jù)。不同的曲線表示以M步驟的不同迭代確定的分隔超平面。第20次迭代顯示了由改進的轉導MED分類器決定的最終解。圖3所示為改進的轉導MED分類算法,應用于上述的小型數(shù)據(jù)集。使用的參數(shù)為c=10,μb=0。不同的c產(chǎn)生位于x≈—0.5,和x=0之間的分隔超平面,當c<3.5時,超平面位于一個x<0的無標記數(shù)據(jù)的右側,而當c≥3.5時,超平面位于該無標記數(shù)據(jù)點的左側。
特別參看圖4,圖示了一個控制流程,顯示了本發(fā)明實施例的分類無標記數(shù)據(jù)的方法。方法100在步驟102開始,在步驟104訪問存儲數(shù)據(jù)106。該數(shù)據(jù)存儲在存儲單元且包括有標記數(shù)據(jù)、無標記數(shù)據(jù)以及至少一個預設的成本因子。數(shù)據(jù)106包括具有分配的標記的數(shù)據(jù)點。分配的數(shù)據(jù)點識別有標記數(shù)據(jù)點是否將被納入一個特定的類別,還是從一個特定類別被排除。
一旦數(shù)據(jù)在步驟104被訪問,本發(fā)明實施例的方法在步驟108接著使用數(shù)據(jù)點的標記信息,確定該數(shù)據(jù)點的標記先驗概率。然后,在步驟110,根據(jù)所述標記先驗概率,確定該數(shù)據(jù)點的期望標記。隨著期望標記在步驟110中被計算,連同有標記數(shù)據(jù),無標記數(shù)據(jù)和成本因子,步驟112包括通過調節(jié)成本因子無標記數(shù)據(jù)點,對轉導MED分類器進行迭代訓練。在每一次迭代計算中,無標記數(shù)據(jù)點的成本因子被調節(jié)。這樣,MED分類器從計算的反復迭代中學習。訓練的分類器接著在步驟116訪問輸入數(shù)據(jù)114。然后該訓練的分類器在步驟118完成分類輸入數(shù)據(jù)的步驟,并在步驟120終止。
容易理解,106的無標記數(shù)據(jù)和輸入數(shù)據(jù)114可以從一個單一的來源獲得。由此,輸入數(shù)據(jù)/無標記數(shù)據(jù)可用于步驟112的迭代過程,該過程隨后在步驟118中用于分類。而且,本發(fā)明實施例考慮,輸入數(shù)據(jù)114可包括一個反饋機構,以將輸入數(shù)據(jù)提供給在106的存儲數(shù)據(jù),以便112的MED分類器可動態(tài)地從輸入的新數(shù)據(jù)中學習。
特別參看圖5,圖示了一個控制流程圖,顯示了本發(fā)明實施例的另一種無標記數(shù)據(jù)的分類方法,包括用戶定義的先驗概率信息。方法200始于步驟202,在步驟204訪問存儲數(shù)據(jù)206。該數(shù)據(jù)206包括有標記數(shù)據(jù)、無標記數(shù)據(jù)、一個預設的成本因子、以及由用戶提供的先驗概率信息。206的有標記數(shù)據(jù)包括具有分配的標記的數(shù)據(jù)點。所述分配的標記識別該標記的數(shù)據(jù)點是將被納入一個特定的類別還是從一個特定類別被排除。
在步驟208,期望的標記由206的數(shù)據(jù)計算。然后,該期望的標記在步驟210中連同有標記數(shù)據(jù)、無標記數(shù)據(jù)和成本因子被一起使用,以引導一個轉導MED分類器的迭代訓練。210的迭代計算在每一次計算中,調節(jié)無標記數(shù)據(jù)的成本因子。計算繼續(xù),直至分類器被正確地訓練。
然后,訓練的分類器在步驟214訪問來自輸入數(shù)據(jù)212的輸入數(shù)據(jù)。訓練的分類器接下來可以在步驟216完成分類輸入數(shù)據(jù)的步驟。圖4中所述的過程和方法,輸入數(shù)據(jù)和無標記數(shù)據(jù)可以從一個單一的來源獲得,且在206和212都可以進入系統(tǒng)。這樣,輸入數(shù)據(jù)212可在210影響訓練,以便該過程可隨著連續(xù)的輸入數(shù)據(jù)動態(tài)地隨時間變化。
在圖4和圖5中所示的兩個方法中,一個監(jiān)視器可確定系統(tǒng)有沒有達到收斂。當MED計算的每一次迭代之間的超平面的變化降到一個預設的閾值以下,可確定收斂。在本發(fā)明的另一實施例中,當確定的期望標記的變化降到一個預設的閾值以下,可確定所述閾值。如果達到收斂,則迭代訓練過程可以停止。
特別參看圖6,顯示了本發(fā)明方法的至少一個實施例的迭代訓練過程的更加詳細的控制流程圖。過程300始于步驟302,在步驟304,來自數(shù)據(jù)306的數(shù)據(jù)被訪問,該數(shù)據(jù)可以包括有標記數(shù)據(jù)、無標記數(shù)據(jù)、至少一個預設的成本因子,以及先驗概率信息。306的有標記數(shù)據(jù)點包括一個標記,該標記識別所述數(shù)據(jù)點是否是將被納入一個指定類別的數(shù)據(jù)點的訓練樣例,還是將被一個指定類別排除的數(shù)據(jù)點的訓練樣例。306的先驗概率信息包括有標記數(shù)據(jù)集和無標記數(shù)據(jù)集的概率信息。
在步驟308,期望標記由來自步驟306的先驗概率信息的數(shù)據(jù)確定。在步驟310中,每一個無標記數(shù)據(jù)集的成本因子相對于數(shù)據(jù)點的期望標記的絕對值成比例調節(jié)。然后通過確定一個判定函數(shù),在步驟312訓練一個MED分類器,即根據(jù)有標記和無標記數(shù)據(jù)的期望標記,利用有標記和無標記數(shù)據(jù)作為訓練樣例,最大化在被納入的訓練樣例和被排除的訓練樣例之間的界限。在步驟314,使用步驟312的訓練的分類器確定分類分值。在步驟316,分類分值被校準為組成員概率。在步驟318,根據(jù)組成員概率更新標記先驗概率信息。在步驟320執(zhí)行一個MED計算,以確定標記和界限概率分布,其中,前面確定的分類分值在MED計算中使用。結果,新的期望標記在步驟322計算,并且在步驟324,使用來自步驟322的計算更新該期望標記。在步驟326,該方法確定是否達到收斂。如果是,該方法在步驟328終止。如果未達到收斂,則從步驟310開始,完成該方法的另一次迭代。重復迭代直至達到收斂,從而實現(xiàn)MED分類器的迭代訓練。當判定函數(shù)在每一次MED迭代計算之間的變化降到一個預設值以下時,達到收斂。在本發(fā)明另一個實施例中,當確定的期望標記值的變化降到一個預設的閾值以下時,達到收斂。
圖7顯示了根據(jù)一個實施例的一個網(wǎng)絡體系結構700。如圖所示,提供了多個遠程網(wǎng)絡702,包括第一遠程網(wǎng)絡702和第二遠程網(wǎng)絡704。網(wǎng)關707可連接在遠程網(wǎng)絡702與鄰近網(wǎng)絡708之間。在本網(wǎng)絡體系結構700的環(huán)境下,網(wǎng)絡704、706的每一個都可以采用任意形式,包括但并不限于局域網(wǎng)、廣域網(wǎng),如因特網(wǎng)、公共開關電話網(wǎng)絡(PSTN)、內部電話網(wǎng),等等。
在使用中,網(wǎng)關707作為從遠程網(wǎng)絡702到鄰近網(wǎng)絡708的入口點。由此,網(wǎng)關707可用作一個路由器,能管理一個到達網(wǎng)關707的給定的數(shù)據(jù)包,以及一個開關,其為給定的數(shù)據(jù)包進出網(wǎng)關707提供實際的路徑。
進一步包括至少一個與所述鄰近網(wǎng)絡708連接的數(shù)據(jù)服務器714,其可以通過網(wǎng)關707從遠程網(wǎng)絡702訪問。需注意的是,數(shù)據(jù)服務器714可以包括任何類型的計算機設備/組件。與每個數(shù)據(jù)服務器714連接的是多個用戶設備716。這些用戶設備716可以包括臺式計算機、膝上型計算機、手提式計算機、打印機或任何其它邏輯設備。需注意的是,在一個實施例中,用戶設備717也可以直接連接于任意網(wǎng)絡。
一臺傳真機720或一系列傳真機720可連接于一個或多個網(wǎng)絡704、706、708。
需注意的是,數(shù)據(jù)庫和/或附加組件可以與連接于網(wǎng)絡704、706、708的任意類型的網(wǎng)絡元件一起使用或整合在其中。在本描述的環(huán)境下,網(wǎng)絡元件優(yōu)選為網(wǎng)絡的任意組件。
根據(jù)一個實施例,圖8顯示了一個與圖7的用戶設備716有關的典型硬件環(huán)境。該圖顯示了一個典型工作站的硬件結構,具有一個中央處理器810,如一個微處理器,以及多個通過系統(tǒng)總線812相互連接的其它單元。
圖8所示的工作站包括隨機存取存儲器(RAM)814,只讀存儲器(ROM)816,I/O適配器818,用于連接外圍設備(如與總線812連接的磁盤存儲單元820),用戶接口適配器822,用于將鍵盤824、鼠標826、揚聲器828、話筒832、和/或其它用戶接口設備,如觸摸屏和數(shù)碼相機(圖未示),連接于總線812,通信適配器834,用于將工作站連接于通信網(wǎng)絡835(如,數(shù)據(jù)處理網(wǎng)絡),以及顯示適配器836,用于將總線812與顯示設備838連接。
特別參看圖9,顯示了本發(fā)明一個實施例的裝置414。本發(fā)明的一個實施例包括用于存儲標記數(shù)據(jù)416的存儲設備814。每一個標記數(shù)據(jù)點416都包括一個標記,指示該數(shù)據(jù)點是被納入一個指定類別的數(shù)據(jù)點的訓練樣例,還是從一個指定類別被排除的數(shù)據(jù)點的訓練樣例。存儲器814還存儲無標記數(shù)據(jù)418,先驗概率數(shù)據(jù)420和成本因子422。
處理器810訪問來自存儲器814的數(shù)據(jù),并使用轉導MED計算訓練一個二元分類器,使其能夠分類無標記數(shù)據(jù)。通過使用成本因子以及來自有標記和無標記數(shù)據(jù)訓練樣例,處理器810使用迭代轉導計算,并調節(jié)該成本因子作為期望標記值的一個函數(shù),從而影響成本因子數(shù)據(jù)422的數(shù)據(jù),該數(shù)據(jù)然后再次輸入處理器810。因此,成本因子422隨著處理器810的MED分類的每一次迭代而變化。一旦處理器810充分地訓練了一個MED分類器,處理器接著就能指導該分類器將無標記數(shù)據(jù)歸類到已分類的數(shù)據(jù)424。
現(xiàn)有技術的轉導SVM和MED公式造成潛在的標記分配呈指數(shù)增長,且近似值須向實際應用發(fā)展。在本發(fā)明的另一個實施例中,介紹了不同的轉導MED分類的公式,無需遭受呈指數(shù)增長的可能的標記分配,并允許一個常規(guī)的閉型解(closed formsolution)。對于線性分類器,問題表述如下找到超平面參數(shù)分布p(Θ),偏差分布p(b),數(shù)據(jù)點分類界限p(γ),其結合的概率分布相比結合的各自的先驗分布p0具有一個最小化庫樂伯克累積勒發(fā)散(Kullback Leibler divergence)KL,即 受制于以下有標記數(shù)據(jù)的限制 以及受制于以下無標記數(shù)據(jù)的限制 其中ΘXt為分隔的超平面的權重向量與第t個數(shù)據(jù)點的特征向量之間的點積。無需標記的先驗分布。有標記數(shù)據(jù)根據(jù)其已知的標記被限制在分隔的超平面的右側,而對于無標記數(shù)據(jù)的唯一要求是,它們到超平面的距離的平方大于界限??傊景l(fā)明的實施例找到了一個分隔的超平面,它是在最接近于選定的先驗概率,準確地分隔有標記數(shù)據(jù),以及在界限之間沒有無標記數(shù)據(jù)之間的一個權衡。其優(yōu)點在于,無需引入標記的先驗分布,因而,避免了潛在的標記分配指數(shù)增長的問題。
在本發(fā)明另一個實施例的特定實施中,使用用于超平面參數(shù)的公式7、8和9中給定的先驗分布、偏差、和界限,得到以下分配函數(shù) 其中下標t為有標記數(shù)據(jù)的下標,而t’為無標記數(shù)據(jù)的下標。
引入符號
G3=G1-2G2, 和W=∑tλtγtUt-2∑t′λt′γt′Ut′, 公式16可改寫為如下
在積分之后,產(chǎn)生下列分配函數(shù)
即,最終的目標函數(shù)為
如在這里稱為M步驟的段落中論述的已知標記的情況那樣,目標函數(shù)
可通過應用類似的方法求解。不同之處在于,最大界限項的二次型中的矩陣
當前具有非對角項。
除了分類,本發(fā)明采用最大熵判別框架的方法還存在多種應用。例如,MED可用于解決數(shù)據(jù)的分類??傊?,可用于任何種類的判別函數(shù)和先驗分布、復原和圖像模式(T.Jebara,Machine Learning Discriminative and Generative,Kluwer Academic Publishers)(Jebara)。
本發(fā)明實施例的應用可以用公式表示成具有已知標記的純歸納學習問題,以及具有有標記和無標記訓練樣例的轉導學習問題。在后面的實施例中,表3中描述的轉導MED分類算法的改進對于普通轉導MED分類、轉導MED復原、圖像模式的轉導MED學習都同樣適用。這樣,對于本公開的目的及其從屬的權利要求,詞語“分類”可包括復原或圖像模式。
M步驟 根據(jù)式11,M步驟的目標函數(shù)為
{λt|0≤λt≤c}, 其中拉格朗日乘子λt由最大化JM確定。
忽略冗余限制λt<c,上述兩個問題的拉格朗日算符為
對于最優(yōu)性必要且充分的KKT條件為
其中Ft為 在最優(yōu)解中,偏差等于期望偏差得到 <yt>(-Ft-<b>)+δt=0 (25) 通過考慮δtλt=0限制的兩種情況,可總結出這些公式。第一種情況所有λt=0,以及第二種所有0<λt<c。無需考慮第三種,如S.Keerthi,S.Shevade,C.Bhattacharhyya,and K.Murthy,Improvements to platt’ssmo algorithm for svm classifier design,1999(Keerthi),中所描述,應用于SVM算法;在此公式中,勢函數(shù)(potential function)保持λt≠c。
這些情況下某些數(shù)據(jù)點t會存在干擾,直至達到最優(yōu)解。即,當λt為非零時,F(xiàn)t≠-<b>,或當λt為零時,F(xiàn)t<yt><-<b><yt>。不幸的是,沒有最優(yōu)解λt,就無法計算<b>。對于這個問題的一個好的解決方法是借鑒Keerthi(再次在此引用)的方法,通過構建下列三個集合 I0={t0<λt<c} (28) I1={t<yt>>0,λt=0}(29) I4={t<yt><0,λt=0}(30) 通過使用這些集合,使用下面的定義,我們可以限定最優(yōu)性條件的最大極限干擾。I0中的元素為干擾,只要它們不等于-<b>,因此,來自I0的最大和最小的Ft為成為干擾的候選。當Ft<-<b>時,I1中的元素為干擾,因此,如果存在的話,來自I1的最小元素為最大極限干擾。最后,當Ft>-<b>時,在I4中的元素為干擾,其從I4干擾候選中產(chǎn)生最大元素。因此,-<b>受到如下所示的這些集合的“最小”和“最大”值的限制 由于在最優(yōu)解中,-bup和-blow必須相等的緣故,即-<b>,然后,減小-bup與-blow的差距將會推動訓練算法收斂。另外,差距也可以作為一種確定數(shù)值收斂的方法被測定。
如前所述,只有達到收斂,才能知道b的值=<b>。另一個實施例的方法的區(qū)別在于,一次只能優(yōu)化一個樣例。因此,每隔一次,啟發(fā)式訓練將在I0中的樣例與所有樣例之間交替使用。
E步驟 公式12中E步驟的目標函數(shù)為
其中st為在之前的M步驟中確定的第t個數(shù)據(jù)點的分類分值。拉格朗日乘子λt由最大化
確定。
忽略冗余限制λt<c,上述兩個問題的拉格朗日算符為
對于最優(yōu)性必要且充分的KKT條件為 由于對樣例進行了因式分解,只要忽略樣例,通過優(yōu)化KKT條件對拉格朗日乘子的求解可以完成。
對于有標記樣例,期望標記<yt>具有P0,1(yt)=1和P0,1(-yt)=0,簡化KKT條件為 并生成作為有標記樣例的拉格朗日乘子的解 對于無標記樣例,公式35不能分解求解,但必須通過使用,如對每個滿足公式35的無標記樣例的拉格朗日乘子進行線性搜索,來確定。
下面為多個非限制的樣例,其可通過上述所例舉的方法、及其推導或變化,以及其它現(xiàn)有技術已知的方法實現(xiàn)。每一個例子包括優(yōu)選的運算,結合可選的運算或參數(shù),其可在基本的優(yōu)選方法論中實施。
在實施例中,如圖10所示,有標記數(shù)據(jù)點在步驟1002被接收,每一個數(shù)據(jù)點具有至少一個標記,指示該數(shù)據(jù)點是被納入一個特定類別的數(shù)據(jù)點的訓練樣例,還是從一個特定類別被排除的數(shù)據(jù)點的訓練樣例。另外,無標記數(shù)據(jù)點在步驟1004被接收,同時接收所述有標記數(shù)據(jù)點和無標記數(shù)據(jù)點的至少一個預設成本因子。所述數(shù)據(jù)點可以包括任何介質,如單詞、圖像、聲音等等。有標記和無標記數(shù)據(jù)點的先驗概率信息也可以被接收。而且,被納入的訓練樣例的標記可映射為第一個數(shù)值,如+1等,而被排除的訓練樣例可映射為第二個數(shù)值,如—1等。另外,所述有標記數(shù)據(jù)點、無標記數(shù)據(jù)點、輸入數(shù)據(jù)點、以及有標記數(shù)據(jù)點和無標記數(shù)據(jù)點的至少一個預設成本因子可存入計算機存儲器。
進一步,在步驟1006,使用所述至少一個成本因子,以及有標記數(shù)據(jù)點和無標記數(shù)據(jù)點作為訓練樣例,通過迭代計算,一個轉導MED分類器被訓練。對于每一次迭代計算,調整無標記數(shù)據(jù)點成本因子作為一期望標記值,例如一個數(shù)據(jù)點的期望標記的絕對值等,的函數(shù),并根據(jù)數(shù)據(jù)點組成員概率的估算調整數(shù)據(jù)點標記先驗概率,由此確保穩(wěn)定性。而且,轉導分類器可學習使用有標記和無標記數(shù)據(jù)的先驗概率信息,這進一步提高了穩(wěn)定性。訓練轉導分類器的迭代步驟可以重復,直至達到數(shù)據(jù)值的收斂,例如,當轉導分類器的判定函數(shù)的變化降到一個預設的閾值以下時、當確定的期望標記值的變化降到一個預設的閾值以下時,等等。
此外,在步驟1008,訓練的分類器用于分類所述無標記數(shù)據(jù)點、有標記數(shù)據(jù)點、和輸入數(shù)據(jù)點中的至少一種。輸入數(shù)據(jù)點可在分類器被訓練之前或之后接收,或根本不接收。而且,根據(jù)它們的期望標記,利用所述有標記和無標記數(shù)據(jù)點作為學習樣例,可確定判定函數(shù),給定被納入和被逐出的訓練樣例,該判定函數(shù)可將KL發(fā)散最小化為判定函數(shù)參數(shù)的先驗概率分布。換言之,該判定函數(shù)可以使用判定函數(shù)參數(shù)的多項式分布,由最小的KL發(fā)散來確定。
在步驟1010,分類的數(shù)據(jù)點的類別,或其衍生物,被輸出給一個用戶、另一系統(tǒng)、和另一過程中的至少一個。系統(tǒng)可以是遠程的或當?shù)氐?。類別的衍生物的例子可以是,但并不限于,分類的數(shù)據(jù)點本身、分類數(shù)據(jù)點的表征或標志符、或者主文件/文檔,等等。
在另一個實施例中,計算機系統(tǒng)使用并執(zhí)行計算機可執(zhí)行程序代碼。該程序代碼包括用于訪問存儲于計算機存儲器的有標記數(shù)據(jù)點的指令,每一個所述有標記數(shù)據(jù)點具有至少一個標記,指示該數(shù)據(jù)點是否為被納入一個指定類別的數(shù)據(jù)點的訓練樣例,還是從一個指定類別中被排除的數(shù)據(jù)點的訓練樣例。另外,計算機代碼包括用于從計算機存儲器訪問無標記數(shù)據(jù)點的指令,以及從計算機存儲器訪問有標記數(shù)據(jù)點和無標記數(shù)據(jù)點的至少一個預設成本因子的指令。存儲于計算存儲器的有標記和無標記數(shù)據(jù)點的先驗概率信息也可以被訪問。而且,被納入的訓練樣例的標記可映射為第一個數(shù)值,如+1等,而被排除的訓練樣例可映射為第二個數(shù)值,如—1等。
進一步,程序代碼包括這樣的指令,所述指令使用至少一個存儲的成本因子、以及存儲的有標記數(shù)據(jù)點和存儲的無標記數(shù)據(jù)點作為訓練樣例,通過迭代計算訓練轉導分類器。而且,對于每一次迭代計算,調整無標記數(shù)據(jù)點成本因子作為該數(shù)據(jù)點的期望標記值,例如數(shù)據(jù)點的期望標記的絕對值,的一個函數(shù)。而且,對于每一次迭代,先驗概率信息可以根據(jù)數(shù)據(jù)點的組成員概率的估算進行調整。訓練轉導分類器的迭代步驟可被重復,直至數(shù)據(jù)值達到收斂,例如,當轉導分類器的判定函數(shù)的變化降到一個預設的閾值以下時、當確定的期望標記值的變化降到一個預設的閾值以下時,等等。
另外,程序代碼包括這樣的指令,所述指令用于訓練分類器,對無標記數(shù)據(jù)點、有標記數(shù)據(jù)點、和輸入數(shù)據(jù)點中的至少一種進行分類,以及用于輸出所述分類的數(shù)據(jù)點的類別或其衍生物的指令,將類別輸出給一個用戶、另一個系統(tǒng)、和另一個過程中的至少一個。而且,根據(jù)它們的期望標記,利用所述有標記和無標記數(shù)據(jù)點作為學習樣例,可確定判定函數(shù),給定被納入和被排除的訓練樣例,該判定函數(shù)可將KL發(fā)散最小化為判定函數(shù)參數(shù)的先驗概率分布。
在另一個實施例中,數(shù)據(jù)處理裝置包括至少一個存儲器,用于存儲(i)有標記數(shù)據(jù)點,每一個所述有標記數(shù)據(jù)點具有至少一個標記,指示該數(shù)據(jù)點是被納入一個指定類別的數(shù)據(jù)點的訓練樣例,還是從一個指定類別被排除的數(shù)據(jù)點的訓練樣例;(ii)無標記數(shù)據(jù)點;和(iii)所述有標記數(shù)據(jù)點和無標記數(shù)據(jù)點的至少一個預設成本因子。所述存儲器還可以存儲有標記和無標記數(shù)據(jù)點的先驗概率信息。而且,被納入的訓練樣例的標記可映射為第一個數(shù)值,如+1等,而被排除的訓練樣例可映射為第二個數(shù)值,如—1等。
另外,所述數(shù)據(jù)處理裝置包括一個轉導分類訓練器,以利用所述至少一個成本因子,以及所述有標記數(shù)據(jù)點和無標記數(shù)據(jù)點作為訓練樣例,使用轉導的最大熵判別(MED),迭代地訓練所述轉導分類器。此外,在每一次MED迭代計算,調整所述無標記數(shù)據(jù)點成本因子作為該數(shù)據(jù)點的期望標記值,例如一個數(shù)據(jù)點的期望標記的絕對值等,的一個函數(shù)。而且,在每一次MED迭代計算,先驗概率信息可以根據(jù)一個數(shù)據(jù)點組成員概率的估計被調整。該裝置還可以包括一個用于確定數(shù)據(jù)值收斂的裝置,如,當轉導分類器計算的判定函數(shù)的變化降到一個預設的閾值以下時、當確定的期望標記值的變化降到一個預設的閾值以下時,等等,以及一旦確定收斂,則終止計算。
另外,訓練的分類器用于分類無標記數(shù)據(jù)點、有標記數(shù)據(jù)點、和輸入數(shù)據(jù)點中的至少一種。而且,根據(jù)它們的期望標記,利用所述有標記和無標記數(shù)據(jù)點作為學習樣例,可確定判定函數(shù),給定被納入和被排除的訓練樣例,該判定函數(shù)可將KL發(fā)散最小化為判定函數(shù)參數(shù)的先驗概率分布。而且,分類的數(shù)據(jù)點的類別,或其衍生物,輸出給一個用戶、另一系統(tǒng)、和另一過程中的至少一個。
在另一個實施例中,一個制品,包括計算機可讀的程序存儲介質,該介質確切地包括一個或多個計算機可執(zhí)行的指令程序,以執(zhí)行數(shù)據(jù)分類的方法。在使用中,接收有標記數(shù)據(jù)點,每個有標記數(shù)據(jù)點具有至少一個標記,指示該數(shù)據(jù)點是被納入一個指定類別的數(shù)據(jù)點的訓練樣例,還是從一個指定類別被排除的數(shù)據(jù)點的訓練樣例。另外,接收無標記數(shù)據(jù)點,以及所述有標記數(shù)據(jù)點和無標記數(shù)據(jù)點的至少一個預設的成本因子。有標記數(shù)據(jù)點和無標記數(shù)據(jù)點的先驗概率信息也可以存入計算機存儲器。而且,被納入的訓練樣例的標記可映射為第一個數(shù)值,如+1等,而被排除的訓練樣例可映射為第二個數(shù)值,如—1,等。
進一步,使用至少一個存儲的成本因子和存儲的有標記數(shù)據(jù)點和無標記數(shù)據(jù)點作為訓練樣例,利用迭代的最大熵判別(MED)計算,訓練轉導分類器。在MED計算的每一次迭代中,調整無標記數(shù)據(jù)點成本因子作為該數(shù)據(jù)點的期望標記值,例如一個數(shù)據(jù)點的期望標記的絕對值等,的一個函數(shù)。而且,在每一次MED迭代計算,先驗概率信息可以根據(jù)一個數(shù)據(jù)點組成員概率的估算被調整。訓練轉導分類器的迭代步驟可被重復,直至達到數(shù)據(jù)值收斂,例如,當轉導分類器的判定函數(shù)的變化降到一個預設的閾值以下時、當確定的期望標記值的變化降到一個預設的閾值以下時,等等。
另外,從計算機存儲器訪問輸入數(shù)據(jù)點,訓練的分類器用于分類所述無標記數(shù)據(jù)點、有標記數(shù)據(jù)點、以及輸入數(shù)據(jù)點中的至少一種。而且,根據(jù)它們的期望標記,利用所述有標記和無標記數(shù)據(jù)點當作學習樣例,可確定判定函數(shù),給定被納入和被排除的訓練樣例,該判定函數(shù)可將KL發(fā)散最小化為判定函數(shù)參數(shù)的先驗概率分布。而且,分類的數(shù)據(jù)點的類別,或其衍生物,被輸出給一個用戶、另一系統(tǒng)、和另一過程中的至少一個。
在另一個實施例中,提供了一種用于在一個基于計算機的系統(tǒng)中分類無標記數(shù)據(jù)的方法。在使用中,有標記數(shù)據(jù)點被接收,每一個所述有標記數(shù)據(jù)點具有至少一個標記,指示該數(shù)據(jù)點是被納入一個指定類別的數(shù)據(jù)點的訓練樣例,還是從一個指定類別被排除的數(shù)據(jù)點的訓練樣例。
另外,有標記和無標記數(shù)據(jù)點被接收,有標記數(shù)據(jù)點和無標記數(shù)據(jù)點的先驗標記概率信息也被接收。而且,有標記數(shù)據(jù)點和無標記數(shù)據(jù)點的至少一個預設成本因子也被接收。
而且,每一個有標記和無標記數(shù)據(jù)點的期望標記根據(jù)該數(shù)據(jù)點的標記先驗概率被確定。重復下面的子步驟,直至數(shù)據(jù)值足夠收斂。
·為每一個與數(shù)據(jù)點的期望標記的絕對值成比例的無標記數(shù)據(jù)點生成一個調節(jié)的成本值; ·通過確定判定函數(shù),給定被納入訓練和被逐出訓練的樣例,使用所述有標記和無標記數(shù)據(jù)點作為訓練樣例,訓練一個最大熵判別(MED)分類器,根據(jù)它們的期望標記,該判定函數(shù)將KL發(fā)散最小化為判定函數(shù)參數(shù)的先驗概率分布; ·使用所述訓練的分類器,確定所述有標記和無標記數(shù)據(jù)點的分類分值; ·將訓練的分類器的輸出校準為組成員概率; ·根據(jù)所述確定的組成員概率,更新所述無標記數(shù)據(jù)點的標記先驗概率; ·利用所述更新的標記先驗概率和之前確定的分類分值,使用最大熵判別(MED),確定所述標記和界限概率分布; ·使用之前確定的標記概率分布,計算新的期望標記;和 ·通過將之前迭代的所述期望標記插入所述新的期望標記,為每一個數(shù)據(jù)點更新期望標記。
而且,輸入數(shù)據(jù)點的類別或其衍生物,被輸出給一個用戶、另一系統(tǒng)、和另一過程中的至少一個。
當判定函數(shù)的變化降到一個預設的閾值以下時,達到收斂。此外,當確定的期望標記值的變化降到一個預設的閾值以下時,也可以達到發(fā)散。而且,被納入的訓練樣例的標記可具有任意值,如+1,且被排除的訓練樣例可具有任意值,如—1。
在本發(fā)明的一個實施例中,一種用于分類文件的方法如圖11所示。在使用中,在步驟1100,接收至少一個具有已知置信級別的種子文件,并接收無標記文件和至少一個預設成本因子。該種子文件和其它項可以從計算機存儲器、用戶、網(wǎng)絡連接等被接收,且可以在一個來自執(zhí)行該方法的系統(tǒng)的請求后被接收。所述至少一個種子文件可以具有一個該文件是否被納入一個指定類別的指示標記,可以含有一個關鍵字列表,或具有任何其它有助于分類文件的特征。而且,在步驟1102,通過迭代計算,使用至少一個預設成本因子、至少一個種子文件、以及無標記文件,訓練一個轉導分類器,其中,對于每一次迭代計算,調整成本因子作為一個期望標記值的函數(shù)。有標記和無標記文件的數(shù)據(jù)點標記先驗概率也可以被接收,其中,對于每一次迭代計算,可以根據(jù)數(shù)據(jù)點組成員概率的估計,調整所述數(shù)據(jù)點標記先驗概率。
另外,在至少部分迭代之后,在步驟1104為無標記文件存儲置信分值,且在步驟1106,具有最高置信分值的無標記文件的標識符被輸出給一個用戶、另一系統(tǒng)、和另一過程中的至少一個。該標識符可以是該文件本身的電子副本、其部分、其標題、其名稱、指向文件的指針,等等。而且,置信分值可以在每一次迭代之后存儲,其中,在每一次迭代之后,具有最高置信分值的無標記文件的標識符被輸出。
本發(fā)明的一個實施例能夠查詢將初始文件與其余文件鏈接的模式。查詢的目標是一個這種模式查詢證明為特別有價值的區(qū)域。例如,在審前法律查詢(pre-trial legaldiscovery)中,針對手頭上訴訟的可能的鏈接,須研究大量的文件。最終目的為了發(fā)現(xiàn)“確鑿的證據(jù)”。在另一個例子中,對于發(fā)明人、專利審查員,以及專利律師的共同的任務,就是通過對現(xiàn)有技術的檢索,評估一項技術的新穎性。特別地,該任務為搜索所有公布的專利和其它出版物,并在這個集合中發(fā)現(xiàn)可能與審查新穎性的特定技術有關的文件。
查詢的任務包括在一組數(shù)據(jù)中找到一個文件或一組文件。給定一個初始文件或概念,用戶可能想要發(fā)現(xiàn)與該初始文件或概念有關的文件。然而,初始文件或概念與目標文件之間關系的見解,即,將要查詢的文件,僅在查詢過之后,才能很好地理解。通過學習有標記和無標記文件、概念等,本發(fā)明能學習單個或多個初始文件與目標文件之間的模式和關系。
在本發(fā)明的另一個實施例中,一種用于分析與法律查詢相關的文件的方法如圖12所示。在使用中,在步驟1200接收與法律事件相關的文件。這些文件可以包括文件本身的電子副本、其部分、其標題、其名稱、指向文件的指針,等等。另外,在步驟1202,對文件執(zhí)行一種文件分類方法。進一步地,在步驟1204,基于其分類輸出至少部分文件的標識符。可選地,這些文件之間的鏈接的標識也被輸出。
所述文件識別方法可以包括任何類型的過程,如一個轉導過程等等。例如,可以使用前述的任何歸納或轉導方法。在一個優(yōu)選的方法中,使用至少一個預設成本因子、至少一個種子文件、以及與法律事件有關的文件,通過迭代計算訓練一個轉導分類器。對于每一次迭代計算,成本因子優(yōu)選地調整作為一個期望標記值的函數(shù),訓練的分類器被用于分類接收的文件。該過程還可以包括為有標記和無標記文件接收一個數(shù)據(jù)點標記先驗概率,其中,對于每一次迭代計算,根據(jù)一個數(shù)據(jù)點組成員概率的估算,調整所述數(shù)據(jù)點標記先驗概率。另外,所述文件分類方法還可以包括一個或多個支持向量機過程和最大熵判別過程。
在另一個實施例中,一種分析現(xiàn)有技術文件的方法如圖13所示。在使用中,在步驟1300,基于一個搜索查詢訓練一個分類器。在步驟1302,多個現(xiàn)有技術文件被訪問。這些現(xiàn)有技術可以包括在一個給定日期前,公眾可以任何形式獲得的任何信息。該現(xiàn)有技術也可以包括在一個給定日期前,公眾還不能以任何形式獲得的任何信息。例舉的現(xiàn)有技術文件可以是任意類型的文件,如專利局的出版物、取自數(shù)據(jù)庫的數(shù)據(jù)、收集的現(xiàn)有技術、網(wǎng)頁的部分,等等。而且,在步驟1304,使用所述分類器對至少部分所述的現(xiàn)有技術文件執(zhí)行一種文件分類方法,且在步驟1306,基于其分類,輸出至少部分所述的現(xiàn)有技術文件的標識符。所述文件分類技術可以包括一個或多個過程,包括一個支持向量機過程、一個最大熵判別過程,或前述的任意歸納或轉導方法。也或者,所述文件之間鏈接的表征也可以被輸出。在另一個實施例中,至少部分現(xiàn)有技術文件之間相關性的分值基于其分類被輸出。
所述搜索查詢可以包括專利公開的至少一部分。例舉的專利公開包括,由發(fā)明人總結其發(fā)明而產(chǎn)生的公開、臨時專利申請、非臨時專利申請、國外專利或專利申請等等。
在一個優(yōu)選的方法中,所述搜索查詢包括一件專利或專利申請的權利要求的至少一部分。在另一個方法中,所述搜索查詢包括一件專利或專利申請的摘要的至少一部分。在另一個方法中,所述搜索查詢包括一件專利或專利申請的發(fā)明概要的至少一部分。
圖27顯示了一種用于將文件與權利要求匹配的方法。在步驟2700,基于一件專利或專利申請的至少一項權利要求訓練一個分類器。因此,一項或多項權利要求,或其一部分,可用于訓練分類器。在步驟2702,多個文件被訪問。這些文件可包括現(xiàn)有技術文件,描述潛在的侵權或占先使用產(chǎn)品的文件。在步驟2704,使用所述分類器對至少部分文件執(zhí)行一種文件分類方法。在步驟2706,基于其分類,輸出至少部分文件的標識符。至少部分文件的相關分值也可以基于其分類被輸出。
本發(fā)明的一個實施例可用于專利申請的分類。在美國,例如,現(xiàn)如今專利和專利申請使用美國專利分類(USPC)系統(tǒng),根據(jù)其主題被分類。該任務現(xiàn)在由人工完成,因此成本高且費時。這種人工分類還受到人為錯誤的制約。解決這個任務的復雜性在于,可將專利或專利申請分成多個種類。
根據(jù)一個實施例,圖28顯示了一種用于分類專利申請的方法。在步驟2800,基于多個已知屬于一個特定專利分類的文件訓練一個分類器。這些文件通??梢允菍@驅@暾?或其一部分),但也可以是描述特定專利分類的目標主題的概要文件。在步驟2802,一件專利或專利申請的至少一部分被接收。所述部分可以包括權利要求、發(fā)明概要、摘要、說明書、名稱,等等。在步驟2804,使用所述分類器對所述專利或專利申請的至少一部分執(zhí)行一種文件分類方法。在步驟2806,所述專利或專利申請的分類被輸出??蛇x地,用戶可以手動地校驗部分或全部專利申請的分類。
所述文件分類方法優(yōu)選地為一種是/否分類方法。換句話說,如果文件在正確的類別內的概率高于一個閾值,則判定為是,該文件屬于該類別。如果文件在正確的類別內的概率低于一個閾值,則判定為否,該文件不屬于該類別。
圖29顯示了另一個用于分類專利申請的方法。在步驟2900,使用一個分類器對一件專利或專利申請的至少一部分執(zhí)行一種文件分類方法,該分類器事先基于至少一個與一個特定專利分類相關的文件被訓練。同樣的,所述文件分類方法優(yōu)選為一種是/否分類方法。在步驟2902,所述專利或專利申請的分類被輸出。
在圖28和圖29所示的兩種方法中,可以使用不同的分類器重復各自的方法,所述分類器事先基于多個已知屬于一個不同的專利分類的文件被訓練。
正式地,專利的分類應當基于權利要求。然而,也希望執(zhí)行匹配介于(任何IP相關內容)和(任何IP相關內容)。作為一個例子,一種方法使用專利的說明書進行訓練,并根據(jù)專利申請的權利要求對專利申請進行分類。另一種方法使用說明書和權利要求進行訓練,并基于摘要分類。在特別優(yōu)選的方法中,無論專利或申請的哪個部分被用于訓練,在分類時使用相同類型的內容,即如果系統(tǒng)根據(jù)權利要求進行訓練,則分類基于權利要求。
所述文件分類方法可以包括任何類型的過程,例如一個轉導過程等等。例如,可使用上述的任何歸納或轉導方法。在一個優(yōu)選的方法中,所述分類器可以是一個轉導分類器,且所述轉導分類器使用至少一個預設成本因子、至少一個種子文件、和現(xiàn)有技術文件,通過迭代計算進行訓練,其中,對于每一次迭代計算,調整所述成本因子作為一個期望標記值的函數(shù),且所述訓練的分類器可用于分類所述現(xiàn)有技術文件。所述種子文件和現(xiàn)有技術文件的一個數(shù)據(jù)點標記先驗概率也可以被接收,其中,對于每一次迭代計算,可以根據(jù)一個數(shù)據(jù)點組成員概率的估算,調整所述數(shù)據(jù)點標記先驗概率。種子文件可以是任何文件,如專利局的出版物、取自數(shù)據(jù)庫的數(shù)據(jù)、一組現(xiàn)有技術、網(wǎng)站、專利公開等。
在一個方法中,圖14描述了本發(fā)明的一個實施例。在步驟1401,一組數(shù)據(jù)被讀取。在該組數(shù)據(jù)內,和用戶有關的文件的發(fā)現(xiàn)是需要的。在步驟1402,單個或多個初始種子文件被標記。所述文件可以是任何種類的文件,例如專利局的出版物、取自數(shù)據(jù)庫的數(shù)據(jù)、一組現(xiàn)有技術、網(wǎng)站等等。也可以一串不同的關鍵字或由用戶提供的文件安排轉導過程。在步驟1406,使用有標記數(shù)據(jù)和一個給定集合中的一組無標記數(shù)據(jù),訓練一個轉導分類器。在迭代轉導過程中的每一個標記歸納步驟,在標記歸納過程中確定的置信分值被存儲。在步驟1408,一旦完成訓練,就向用戶顯示在標記歸納步驟中獲得高置信分值的文件。這些具有高置信分值的文件代表與用戶查詢目的相關的文件。該顯示可以按照標記歸納步驟的時間先后順序,從初始種子文件開始,一直到在最后的標記歸納步驟中被發(fā)現(xiàn)的最后一組文件。
本發(fā)明的另一實施例涉及數(shù)據(jù)清理和精確分類,例如與自動化的商業(yè)過程相結合。所述清理和分類方法可以包括任何類型的過程,例如一個轉導過程等。例如,可以使用上述任何轉導或歸納方法。在一個優(yōu)選的方法中,根據(jù)數(shù)據(jù)庫的期望清潔度,進入數(shù)據(jù)庫的密鑰被用作與置信級別相關的標記。然后,該標記連同相關的置信級別,即期望標記,被用于訓練一個轉導分類器,該分類器修正所述標記(密鑰),以實現(xiàn)對數(shù)據(jù)庫中數(shù)據(jù)的更為可靠的管理。例如,發(fā)票必須首先根據(jù)開出發(fā)票的公司或個人被分類,以實現(xiàn)自動數(shù)據(jù)提取,例如確定總金額、訂單編號、產(chǎn)品數(shù)量、裝運地址等等。通常,設立一個自動分類系統(tǒng)需要訓練樣例。然而,由顧客提供的訓練樣例常常含有錯誤分類的文件或其它干擾,如傳真封頁,為了獲得準確的分類,在訓練所述自動分類系統(tǒng)之前,這些文件必須被識別并移除。在另一個實施例中,在病例的領域,有助于檢測由醫(yī)生所寫的報告與其診斷報告之間的不一致性。
在另一個實施例中,眾所周知,專利局需要經(jīng)歷連續(xù)的重新分類過程,其中,他們(1)評估他們的干擾分類法的一個現(xiàn)存分支,(2)重建該分類法以均勻地分布過度擁擠的節(jié)點,以及(3)將現(xiàn)存的專利重新分類到新的結構。這里的轉導學習方法為專利局以及他們外包的用來做這項工作的公司所用,以重新評估他們的分類法,并幫助他們(1)為一個給定的主分類建立新的分類法,(2)重新分類現(xiàn)存的專利。
轉導從有標記和無標記數(shù)據(jù)學習,由此從有標記到無標記的轉變是流暢的。圖譜的一端是具有完美的現(xiàn)有知識的有標記數(shù)據(jù),如,給定的標記無一例外都是正確的。在另一端為沒有給定現(xiàn)有知識的無標記數(shù)據(jù)。帶有某種程度干擾的組編的數(shù)據(jù)組成錯誤分類的數(shù)據(jù),并位于圖譜的兩個極端之間的某處。由數(shù)據(jù)組織給出的標記在某種程度上可以肯定地認為是正確的,但并不完全。因此,轉變可被用于清理現(xiàn)有的數(shù)據(jù)組編,通過在一個給定的數(shù)據(jù)組織之內假設一個特定的出錯程度,并在標記分配的現(xiàn)有知識中把這些解釋為不確定性。
在一個實施例中,一種清理數(shù)據(jù)的方法如圖5所示。在使用中,在步驟1500,多個有標記數(shù)據(jù)項被接收,在步驟1502,為多個類別中的每一個類別選取所述數(shù)據(jù)項的子集。另外,在步驟1504,將每一個子集中的數(shù)據(jù)項的不確定性設置成約為零,在步驟1506,將不在所述子集中的數(shù)據(jù)項的不確定性設置成一個不約為零的預設值。進一步,在步驟1508,通過迭代計算,使用所述不確定性、子集中的數(shù)據(jù)項、以及不在子集中的數(shù)據(jù)項作為訓練樣例,訓練一個轉導分類器,并在步驟1510,訓練的分類器用于每一個有標記數(shù)據(jù)項,以分類每一個所述數(shù)據(jù)項。而且,輸入數(shù)據(jù)項的分類,或其衍生物,在步驟1512被輸出給一個用戶、另一系統(tǒng)、和另一過程中的至少一個。
進一步,所述子集可隨機選取,并可以由用戶選取和校驗。至少部分所述數(shù)據(jù)項的標記可以基于其分類被改變。而且,在分類后,具有低于一個預設的閾值的置信級別的數(shù)據(jù)項的標識符被輸出給用戶。所述標識符可以是該文件本身的電子副本、其部分、其標題、其名稱、指向該文件的指針,等等。
在本發(fā)明的一個實施例中,如圖16所示,在步驟1600,啟動一個清理過程的兩個選項被呈現(xiàn)給用戶。在步驟1602,一個選項為全自動清理,對于每一個概念或類別,隨機地選取特定數(shù)量的文件,并假設它們被正確地組編。或者,在步驟1604,一定數(shù)量的文件可被打上標記,以人工檢查及校驗是否每一個概念或類別的一個或多個標記分配被準確地組編。在步驟1606,數(shù)據(jù)中干擾程度的一個估計被接收。在步驟1610,使用在步驟1608中的已校驗的(人工校驗或隨機選取)數(shù)據(jù)和未校驗的數(shù)據(jù),訓練所述轉導分類器。一旦訓練結束,文件根據(jù)新的標記被重新組編。在步驟1612,在標記分配中具有低于一個特定閾值的低置信級別的文件,被顯示給用戶,以用于人工檢查。在步驟1614,根據(jù)轉導標記分配,在標記分配中具有高于一個特定閾值的置信級別的文件被自動校對。
在另一個實施例中,一種用于管理病歷的方法如圖17所示。在使用中,在步驟1700,一個分類器基于醫(yī)療診斷被訓練,在步驟1702,多個病歷被訪問。另外,在步驟1704,使用所述分類器對所述病歷執(zhí)行一種文件分類方法,且具有低概率的與醫(yī)療診斷相關性的至少一個病歷的標識符,在步驟1706被輸出。該文件分類方法包括任何類型的過程,如一個轉導過程等,且可以包括上述一個或多個任意的歸納或轉導方法,包括支持向量機過程、最大熵判別過程等等。
在一個實施例中,所述分類器可以是一個轉導分類器,且所述轉導分類器可以通過迭代計算,使用至少一個預設的成本因子、至少一個種子文件、以及病歷被訓練,其中,對于每一次迭代計算,調整所述成本因子作為期望標記值的一個函數(shù),且訓練的分類器可用于分類所述病歷。種子文件和病歷的數(shù)據(jù)點標記先驗概率也可以被接收,其中,對于每一次迭代計算,可以根據(jù)數(shù)據(jù)點組成員概率的估算,調整所述數(shù)據(jù)點標記先驗概率。
本發(fā)明的另一實施例描述了動態(tài)、漂移的分類概念。例如,在形式處理申請中,分類文件,使用文件的版面信息和/或內容信息對文件進行分類,以分類所述文件用于進一步的處理。在許多申請中,文件不是固定不變的,而是隨時間而變化。例如,文件的內容和/或版面可能因為新的立法而改變。轉導分類自動適應這些變化,產(chǎn)生相同或類似的分類準確性,而不受漂移的分類概念的影響。與基于規(guī)則的系統(tǒng)或歸納分類方法相比,無需人工調節(jié),不會由于概念漂移而影響準確性。這個方法的一個例子是發(fā)票處理,其傳統(tǒng)地包括歸納學習,或使用利用發(fā)票版面的基于規(guī)則的系統(tǒng)。對于這些傳統(tǒng)的系統(tǒng),如果版面發(fā)生變化,則系統(tǒng)必須通過標記新的訓練數(shù)據(jù)或確定新的規(guī)則來人工重新設置。然而,轉導的使用通過自動適應發(fā)票版面上的微小變化,使得人工重新設置變得不再必要。在另一個實施例中,轉導分類可用于分析客戶投訴,以監(jiān)測這些投訴性質的變化。例如,一家公司可自動地將產(chǎn)品變化與客戶投訴相鏈接。
轉導也可用于新聞文章的分類。例如,有關戰(zhàn)爭、恐怖襲擊的新聞文章,始于針對2001年9月11日阿富汗戰(zhàn)爭的恐怖份子襲擊,直至有關伊拉克當今局勢的新聞故事,都可以使用轉導自動識別。
在另一個實施例中,生物分類(α分類學)可以隨時間而改變,通過進化,新的物種產(chǎn)生,而其它物種滅絕。隨著分類概念隨時間的改變,分類綱要或分類學的該項和其它規(guī)則是可以動態(tài)變化的。
通過使用必須被歸類為無標記數(shù)據(jù)的輸入數(shù)據(jù),轉導可以識別漂移分類概念,并由此自動地適應變化的分類綱要。例如,圖18顯示了本發(fā)明的一個給定漂移分類概念使用轉導的實施例。文件組Dt在時間tt進入系統(tǒng),如步驟1802所示。在步驟1804,使用迄今為止積累的有標記和無標記數(shù)據(jù)訓練一個轉導分類器Ct,在步驟1806,文件組Dt中的文件被分類。如果使用人工模式,在步驟1808中被確定為具有低于一個用戶提供的閾值的置信級別的文件,在步驟1810被呈現(xiàn)給用戶以用于人工檢查。如步驟1812所示,在自動模式中,一個具有置信級別的文件觸發(fā)了一個新的類別的創(chuàng)建,該類別被加入系統(tǒng),然后該文件就被歸于該新的類別。在步驟1820A-B,具有高于上述選定閾值的置信級別的文件被分類到當前的類別1至N。在步驟tt之前已經(jīng)被分類到當前類別的所有當前類別的文件,在步驟1822由分類器Ct重新分類,且在步驟1824和1826,所有不再被分類到上述指定類別的文件,被移入新的類別。
在另一個實施例中,一種適應文件內容變動的方法如圖19所示。文件內容可以包括,但不限于,圖像內容、文本內容、版面、編號,等等。變動的例子可以包括時間的變化、風格的變化(由2個或更多個人處理一個或多個文件),應用過程的變化、版面的變動,等等。在步驟1900,接收至少一個有標記種子文件、以及無標記文件和至少一個預設成本因子。所述文件可以包括,但不局限于,客戶投訴、發(fā)票、表格文件、收據(jù),等等。另外,在步驟1902,使用所述至少一個預設成本因子,至少一個種子文件,以及無標記文件,訓練一個轉導分類器。而且,在步驟1904,具有大于一個預設的閾值的置信級別的無標記文件,使用分類器被分類到多個類別,且在步驟1906,所述分類的文件的至少一部分,使用分類器被重新分類到多個類別。進一步,在步驟1908,所述分類的文件的標識符被輸出給一個客戶、另一系統(tǒng)、以及另一過程中的至少一個。所述標識符可以是文件本身的電子副本、其部分、其標題、其名稱、指向文件的指針,等等。而且,產(chǎn)品變化可以與客戶投訴等相鏈接。
另外,具有低于一個預設閾值的置信級別的無標記文件可被移入一個或多個新的類別。而且,通過迭代計算,使用至少一個預設的成本因子、至少一個種子文件、以及所述無標記文件,可以訓練一個轉導分類器,其中,對于每一次迭代計算,調整所述成本因子作為一個期望標記值的函數(shù),并使用所述訓練的分類器分類所述無標記文件。而且,所述種子文件和無標記文件的數(shù)據(jù)點標記先驗概率可以被接收,其中,對于每一次迭代計算,根據(jù)一個數(shù)據(jù)點組成員概率的估算,調整所述數(shù)據(jù)點標記先驗概率。
在另一個實施例中,一種使專利分類適應文件內容的變動的方法如圖20所示。在步驟2000,接收至少一個有標記種子文件,以及無標記文件。所述無標記文件可以包括任何類型的文件,如,專利申請、法律文件、信息公開表格、文件修正,等等。種子文件可以包括專利、專利申請等等。在步驟2002,使用所述至少一個種子文件和無標記文件訓練一個轉導分類器,以及使用所述分類器將具有高于一個預設閾值的置信級別的無標記文件分類到多個現(xiàn)有的類別。所述分類器可以是任何類型的分類器,例如轉導分類器等,且所述文件分類方法可以是任何方法,例如支持向量機方法、最大熵判別方法等等。例如,可使用上述的任何歸納或轉導方法。
而且,在步驟2004,使用所述分類器將所述具有低于一個預設閾值的置信級別的無標記文件分類到至少一個新的類別,且在步驟2006,使用所述分類器將至少部分所述分類的文件重新分類到現(xiàn)有的類別以及至少一個新的類別。進一步,在步驟2008,所述分類的文件的標識符被輸出給一個用戶、另一系統(tǒng)、和另一過程中的至少一個。而且,可以使用至少一個預設的成本因子、所述搜索查詢、以及所述文件,通過迭代計算,訓練所述轉導分類器,其中,對于每一次迭代計算,調整所述成本因子作為一個期望標記值的函數(shù),且所述訓練的分類器可用于分類所述文件。進一步,所述搜索查詢和文件的數(shù)據(jù)點先驗概率可以被接收,其中,對于每一次迭代計算,根據(jù)一個數(shù)據(jù)點組成員概率的估算,調整所述數(shù)據(jù)點先驗概率。
在本發(fā)明的另一個實施例中,描述了在文件分離領域的文件漂移。一個應用的例子包括抵押文件的過程。包括一系列不同的借貸文件,例如借貸申請、批準、請求、數(shù)量等的借貸文件夾被掃描,且在進一步處理之前,必須確定在一系列圖像中的不同的文件。使用的文件不是固定不變的,而是可隨時間變化。例如,在借貸文件夾中,使用的納稅申請表格,可根據(jù)法律法規(guī)的變化而隨時間變化。
文件分離解決了在一系列圖像中發(fā)現(xiàn)文件或子文件界限的問題。一般產(chǎn)生一系列圖像的例子是數(shù)字掃描儀或多功能外圍設備(MFP)。如在分類的實施例中,轉導可用于文件分離,以處理文件及其界限隨時間的漂移問題。靜態(tài)的分離系統(tǒng),如基于規(guī)則的系統(tǒng)或基于歸納學習方法的系統(tǒng),不能自動地適應漂移分離概念。無論何時發(fā)生漂移,這些靜態(tài)分離系統(tǒng)的表現(xiàn)性能隨時間而降低。為了保持其初始水平的性能,要么人工調整規(guī)則(就基于規(guī)則的系統(tǒng)來說),要么人工標記新的文件并重新學習系統(tǒng)(就歸納學習方法來說)。無論哪一種都是費時費財。應用轉導到文件分離,使得系統(tǒng)得以改進,其可自動適應在分離概念中的漂移。
在一個實施例中,一種分離文件的方法如圖21所示。在步驟2100,接收有標記數(shù)據(jù),且在步驟2102,接收一組無標記文件。這些數(shù)據(jù)和文件可以包括合法的查詢文件、官方通知、網(wǎng)頁數(shù)據(jù)、代理律師公函等等。另外,在步驟2104,基于所述有標記數(shù)據(jù)和無標記文件,使用轉導,概率性分類規(guī)則被調整,且在步驟2106中,根據(jù)概率性分類規(guī)則,更新用于文件分離的權重。而且,在步驟2108中,確定在一組文件中分離的位置,且在步驟2110,確定的在一組文件中分離的位置的指示符被輸出給一個用戶、另一系統(tǒng)、以及另一過程中的至少一個。所述指示符可以是文件本身的電子副本、其部分、其標題、其名稱、指向文件的指針,等等。進一步,在步驟2112,文件被打上編碼,所述編碼與所述指示符有關。
圖22顯示了本發(fā)明所使用的用于文件分離的分類方法和設備的實施過程。在數(shù)字式掃描之后,使用自動文件分離以減少涉及文件分離和識別的人工工作。通過使用推理算法,將文件分離方法與分類規(guī)則相結合以自動分離多組頁面,使用這里所述的分類方法,以減少來自所有可得到信息的最有可能的分離。本發(fā)明的一個例子如圖22所示,本發(fā)明的轉導MED的分類方法被用于文件分離。具體地,文件頁面2200被放入數(shù)字掃描儀2202或MFP,并被轉成一組數(shù)字圖像2204。所述文件頁面可以是來自任何類型文件的頁面,如專利局的出版物、取自數(shù)據(jù)庫的數(shù)據(jù)、現(xiàn)有技術的集合、網(wǎng)站等等。在步驟2206,輸入一組數(shù)字圖像,以動態(tài)適應使用轉導的概率性分類規(guī)則。步驟2206使用一組圖像2204作為無標記數(shù)據(jù)和有標記數(shù)據(jù)2208。在步驟2210,概率性網(wǎng)絡中的權重被更新,并被用于基于動態(tài)適應分類規(guī)則的自動文件分離。輸出步驟2212為自動放入分離圖像的動態(tài)自適應,這樣,一組數(shù)字化的頁面2214被隔行掃描成分離器頁面2216的自動圖像,在步驟2212,將分離器頁面自動插入到圖像序列。在本發(fā)明的一個實施例中,軟件生成的分離器頁面2216也可以指示緊隨所述分離器頁面2216的文件的類型。此處描述的系統(tǒng)自動地適應文件隨時間而發(fā)生的漂移分離概念,而不必擔心會像基于規(guī)則的靜態(tài)系統(tǒng)或基于方法的歸納型機器學習那樣出現(xiàn)分離準確度的降低。在表單處理(form processing)申請中,漂移分離或分類概念的一個常見的例子是,如之前所提到的,文件由于新的法律法規(guī)而產(chǎn)生變化。
另外,如圖22所示的系統(tǒng)可改為如圖23所示的系統(tǒng),其頁面2300放入數(shù)字掃描儀2302或MFP轉換為一組數(shù)字圖像2304。該組數(shù)字圖像在步驟2306被輸入,以使用轉導動態(tài)適應概率性分類規(guī)則。步驟2306使用該組圖像2304作為無標記數(shù)據(jù)和有標記數(shù)據(jù)2308。步驟2310,根據(jù)所采用的動態(tài)自適應分類規(guī)則,更新用于自動文件分離的概率性網(wǎng)絡中的權重。在步驟2312,不是如圖18所述的插入分離器頁面圖像,而是步驟2312動態(tài)地適應自動插入分離信息,并用編碼的描述標記所述文件圖像。由此,文件頁面圖像可被輸入一個圖像處理數(shù)據(jù)庫2316,且所述文件可通過軟件標識符訪問。
本發(fā)明的另一個實施例可使用轉導進行人臉識別。如上所述,使用轉導具有諸多優(yōu)勢,例如,僅需相對少量的訓練樣例,在訓練中使用無標記樣例的能力,等等。利用上述優(yōu)勢,轉導人臉識別可用于犯罪偵查。
例如,國土安全部必需保證恐怖份子不得登上商用班機。機場篩選過程的一部分可以是在機場安檢處采集每個乘客的相片,并嘗試識別該人。系統(tǒng)初始可以使用少量的樣例進行訓練,該樣例來自于可得到的可能是恐怖份子的有限的照片。在其它法律執(zhí)法數(shù)據(jù)庫中的、同一恐怖份子的無標記照片也可用于訓練。因此,轉導訓練器不僅可以運用最初稀疏的數(shù)據(jù)建立功能性人臉識別系統(tǒng),并且還可以使用其它來源的無標記樣例以增強性能。在處理了機場安檢處采集的照片后,轉導系統(tǒng)能夠比歸納系統(tǒng)更為精確地識別可疑人物。
在另一個實施例中,一種用于人臉識別的方法如圖24所示。在步驟2400,至少一個人臉的有標記種子圖像被接收,該種子圖像具有已知的置信級別。該至少一個種子圖像可以具有一個標記,指示該圖像是否被納入一個指定的類別。另外,在步驟2400,無標記圖像被接收,如,從警察局、政府機構、失蹤兒童數(shù)據(jù)庫、機場安全,或任何其它地方,并接收至少一個預設的成本因子。而且,在步驟2402,通過迭代計算,使用所述至少一個預設的成本因子、至少一個種子圖像,和無標記圖像,訓練一個轉導分類器,其中,對于每一次迭代計算,調整所述成本因子作為一個期望標記值的函數(shù)。在至少多次迭代之后,在步驟2404,為所述無標記種子圖像存儲一個置信分值。
進一步,在步驟2406,具有最高置信分值的無標記文件的標識符被輸出給一個用戶、另一系統(tǒng)、和另一過程中的至少一個。所述標識符可以是該文件本身的電子副本、其部分、其標題、其名稱、指向文件的指針,等等。而且,每一次迭代之后可以存儲置信分值,其中,在每一次迭代之后,輸出具有最高置信分值的無標記圖像的標識符。另外,可以接收用于所述有標記和無標記圖像的數(shù)據(jù)點標記先驗概率,其中,對于每一次迭代計算,可以根據(jù)一個數(shù)據(jù)點組成員概率的估計,調整所述數(shù)據(jù)點標記先驗概率。進一步,第三張人臉的無標記圖像,如來自上述機場安全樣例,可被接收,所述第三張無標記圖像可與具有最高置信分值的至少部分圖像比較,且如果確信該第三張無標記圖像中的人臉與種子圖像中的人臉是相同的,則可以輸出所述第三個無標記圖像的標識符。
本發(fā)明的另一個實施例通過提供反饋給文件檢索系統(tǒng),使用戶能夠改進他們的搜索結果。例如,當在一個互聯(lián)網(wǎng)搜索引擎(專利或專利申請搜索產(chǎn)品等)上執(zhí)行一項搜索時,用戶可以得到大量對應于其搜索查詢的結果。本發(fā)明的一個實施例使用戶能夠從搜索引擎瀏覽建議的結果,并告知搜索引擎一個或多個所得結果的相關性,如,“接近,但不是我真正想要的”、“絕對不是”等等。當用戶提供反饋給搜索引擎時,更好的結果按照優(yōu)先順序給用戶瀏覽。
在一個實施例中,一種用于文件搜索的方法如圖25所示。在步驟2500,接收一個搜索查詢。該搜索查詢可以是任何類型的查詢,包括區(qū)分大小寫的查詢、布爾查詢、近似匹配查詢、結構化查詢,等等。在步驟2502,獲得基于搜索查詢的文件。另外,在步驟2504,輸出所述文件,且在步驟2506,用于至少部分文件的用戶鍵入的標記被接收,該標記指示所述文件與搜索查詢之間的相關性。例如,用戶可以指示從所述查詢返回的一個特定結果是相關還是無關。而且,在步驟2508,基于所述搜索查詢和用戶鍵入的標記,一個分類器被訓練,且在步驟2510,使用所述分類器對所述文件執(zhí)行一種文件分類方法,以重新分類所述文件。進一步,在步驟2512,基于其分類,輸出至少部分文件的標識符。所述標識符可以是文件本身的電子副本、其部分、其標題、其名稱、指向文件的指針,等等。所述重新分類的文件也可以被輸出,條件是那些具有最高置信度的文件被首先輸出。
所述文件分類方法可以包括任何類型的過程,如,轉導過程、支持向量機過程、最大熵判別過程,等等??梢允褂蒙鲜鋈魏螝w納或轉導方法。在一個優(yōu)選的方法中,所述分類器可以是一個轉導分類器,且通過迭代計算,使用至少一個預設的成本因子、所述搜索查詢,以及所述文件,可以訓練所述轉導分類器,其中,對于每一次迭代計算,調整所述成本因子作為一個期望標記值的函數(shù),且所述訓練的分類器可以用于分類所述文件。另外,用于所述搜索查詢和文件的一個數(shù)據(jù)點標記先驗概率可以被接收,其中,對于每一次迭代計算,根據(jù)一個數(shù)據(jù)點組成員概率的估算,可以調整所述數(shù)據(jù)點標記先驗概率。
本發(fā)明的另一個實施例可以用于改進ICR/OCR,以及語音識別。例如,許多語音識別程序和系統(tǒng)的實施例需操作者重復許多單詞以訓練所述系統(tǒng)。本發(fā)明可以首先對一個用戶的聲音監(jiān)聽一段預定的時間,以收集“未分類”的內容,如,監(jiān)聽電話談話。結果是,當用戶開始訓練該識別系統(tǒng)時,該系統(tǒng)利用轉導學習,以利用所述監(jiān)聽的語音來協(xié)助構建一個記憶模型。
在另一個實施例中,一種用于核對一張發(fā)票與一個實體的關聯(lián)性的方法如圖26所示。在步驟2600,基于與第一實體相關的發(fā)票格式訓練一個分類器。該發(fā)票格式可以是指發(fā)票上記號的實際布局,或發(fā)票上的特征,如關鍵詞、發(fā)票號碼、客戶姓名,等等。另外,在步驟2602,被標記作為與所述第一實體和其它實體中的至少一個相聯(lián)系的多張發(fā)票被訪問,且在步驟2604,使用所述分類器對所述發(fā)票執(zhí)行一種文件分類方法。例如,上述的任何歸納或轉導方法可以用作一種文件分類方法。例如,所述文件分類方法可以包括一個轉導過程、支持向量機過程、最大熵判別過程,等等。而且,在步驟2606,輸出至少一張所述發(fā)票的標識符,該發(fā)票具有較高的概率與所述第一實體不相關。
進一步,所述分類器可以是任何類型的分類器,例如,一個轉導分類器,且通過迭代計算,使用至少一個預定的成本因子、至少一個種子文件,以及所述發(fā)票,可以訓練所述轉導分類器,其中,對于每一次迭代計算,調整所述成本因子作為一個期望標記值的函數(shù),并使用所述訓練的分類器分類所述發(fā)票。而且,用于所述種子文件和發(fā)票的一個數(shù)據(jù)點標記先驗概率可以被接收,其中,對于每一次迭代計算,根據(jù)一個數(shù)據(jù)點組成員概率的估算,調整所述數(shù)據(jù)點標記先驗概率。
這里說描述的實施例的一個優(yōu)點是轉導算法的穩(wěn)定性。這個穩(wěn)定性通過調節(jié)所述成本因子和調節(jié)所述標記先驗概率來實現(xiàn)。例如,在一個實施例中,通過迭代分類,使用至少一個成本因子、有標記數(shù)據(jù)點和無標記數(shù)據(jù)點作為訓練樣例,訓練一個轉導分類器。對于每一次迭代計算,調節(jié)所述無標記數(shù)據(jù)點的成本因子作為一個期望的標記值的函數(shù)。此外,對于每一次迭代計算,根據(jù)一個數(shù)據(jù)點組成員概率的估算調節(jié)一個數(shù)據(jù)點先驗概率。
工作站可以在一個操作系統(tǒng)上具有常駐內存,該操作系統(tǒng)例如微軟
操作系統(tǒng)(OS)、MAC操作系統(tǒng),或UNIX操作系統(tǒng)。應當理解,優(yōu)選實施例也可以在不同于那些提到的平臺和操作系統(tǒng)上實施。一個優(yōu)選的實施例可以使用JAVA、XML、C和/或C++語言、或者其它編程語言編寫,結合面向對象的程序設計方法。可以使用面向對象的程序設計(OOP),其已經(jīng)越來越多地被用來開發(fā)復雜的應用。
上述應用使用轉導學習以克服數(shù)據(jù)集非常稀少的問題,該問題困擾著歸納型人臉識別系統(tǒng)。轉導學習的這個方面并不限于此項應用,也可以用于解決其它由于數(shù)據(jù)集稀少說引起的機器學習問題。
在此處公開發(fā)明的各種實施例的范圍和精神之內,本領域技術人員可設計出不同的變化。而且,以上公開的實施例的各種特征可單獨使用,或相互之間的不同組合,且并不局限于以上描述的特定組合。因此,權利要求的范圍不限于這些描述的實施例。
權利要求
1、在一個基于計算機的系統(tǒng)中,一種用于數(shù)據(jù)分類的方法,其特征在于包括
接收有標記數(shù)據(jù)點,每一個所述有標記數(shù)據(jù)點具有至少一個標記,指示該數(shù)據(jù)點是被納入一個指定的類別的數(shù)據(jù)點的訓練樣例,還是從一個指定的類別被排除的數(shù)據(jù)點的訓練樣例;
接收無標記數(shù)據(jù)點;
接收所述有標記數(shù)據(jù)點和無標記數(shù)據(jù)點的至少一個預設的成本因子;
通過迭代計算,使用所述至少一個成本因子,以及所述有標記數(shù)據(jù)點和無標記數(shù)據(jù)點作為訓練樣例,使用最大熵判別(MED),訓練一個轉導分類器,其中,對于每一次迭代計算,調節(jié)所述無標記數(shù)據(jù)點成本因子作為一個期望標記值的函數(shù),并根據(jù)一個數(shù)據(jù)點組成員概率的估算,調節(jié)一個數(shù)據(jù)點標記先驗概率;
使用所述訓練的分類器分類所述無標記數(shù)據(jù)點、所述有標記數(shù)據(jù)點、以及輸入數(shù)據(jù)點中的至少一個;和
將所述分類的數(shù)據(jù)點的類別或其衍生物輸出給一個用戶、另一系統(tǒng)、和另一過程中的至少一個。
2、根據(jù)權利要求1所述的方法,其特征在于所述函數(shù)為一個數(shù)據(jù)點的期望標記的絕對值。
3、根據(jù)權利要求1所述的方法,其特征在于還包括接收有標記和無標記數(shù)據(jù)點的先驗概率信息的步驟。
4、根據(jù)權利要求3所述的方法,其特征在于所述轉導分類器使用所述有標記和無標記數(shù)據(jù)的先驗概率信息學習。
5、根據(jù)權利要求1所述的方法,其特征在于還包括使用判定函數(shù)參數(shù)的一個高斯先驗,給定所述被納入和被排除的訓練樣例,根據(jù)它們的期望標記,利用所述有標記和無標記數(shù)據(jù)作為訓練樣例,確定具有最小的KL發(fā)散的判定函數(shù)的步驟。
6、根據(jù)權利要求1所述的方法,其特征在于,還包括使用判定函數(shù)參數(shù)的多項式先驗分布,確定具有最小的KL散度的判定函數(shù)的步驟。
7、根據(jù)權利要求1所述的方法,其特征在于重復訓練一個轉導分類器的迭代步驟,直至達到數(shù)據(jù)值的收斂。
8、根據(jù)權利要求7所述的方法,其特征在于當所述轉導分類器的所述判定函數(shù)的變化降到一個預設的閾值以下時,達到收斂。
9、根據(jù)權利要求7所述的方法,其特征在于當確定的期望標記值的變化降到一個預設的閾值以下時,達到收斂。
10、根據(jù)權利要求1所述的方法,其特征在于所述被納入的訓練樣例的標記的值為+1,而所述被排除的訓練樣例的標記的值為—1。
11、根據(jù)權利要求1所述的方法,其特征在于所述被納入的樣例的標記被映射到第一個數(shù)值,而所述被排除的樣例的標記被映射到第二個數(shù)值。
12、根據(jù)權利要求1所述的方法,其特征在于還包括
將所述有標記數(shù)據(jù)點存入一個計算機存儲器;
將所述無標記數(shù)據(jù)點存入一個計算機存儲器;
將所述輸入數(shù)據(jù)點存入一個計算機存儲器;和
將所述有標記數(shù)據(jù)點和無標記數(shù)據(jù)點的所述至少一個預設的成本因子存入一個計算機存儲器。
13、一種用于數(shù)據(jù)分類的方法,其特征在于包括
提供計算機可執(zhí)行程序代碼,以在一個計算機系統(tǒng)上使用并執(zhí)行,所述程序代碼包括指令用于
訪問存儲于計算機存儲器的有標記數(shù)據(jù)點,每一個所述有標記數(shù)據(jù)點具有至少一個標記,指示該數(shù)據(jù)點是被納入一個指定類別的數(shù)據(jù)點的訓練樣例,還是從一個指定類別被排除的數(shù)據(jù)點的訓練樣例;
從計算機存儲器訪問所述無標記數(shù)據(jù)點;
從計算機存儲器訪問所述有標記數(shù)據(jù)點和無標記數(shù)據(jù)點的至少一個預設的成本因子;
通過迭代計算,使用所述至少一個存儲的成本因子,以及存儲的有標記數(shù)據(jù)點和存儲的無標記數(shù)據(jù)點作為訓練樣例,訓練一個最大熵判別(MED)轉導分類器,其中,對于每一次迭代計算,調節(jié)所述無標記數(shù)據(jù)點成本因子作為一個期望標記值的函數(shù),并根據(jù)一個數(shù)據(jù)點組成員概率的估算,調節(jié)一個數(shù)據(jù)點先驗概率;
使用所述訓練的分類器分類所述無標記數(shù)據(jù)點、所述有標記數(shù)據(jù)點、以及輸入數(shù)據(jù)點中的至少一個;和
將所述分類的數(shù)據(jù)點的類別或其衍生物輸出給一個用戶、另一系統(tǒng)、和另一過程中的至少一個。
14、根據(jù)權利要求13所述的方法,其特征在于所述函數(shù)為一個數(shù)據(jù)點的期望標記的絕對值。
15、根據(jù)權利要求13所述的方法,其特征在于還包括訪問存儲于計算機存儲器的有標記和無標記數(shù)據(jù)點的先驗概率信息的步驟。
16、根據(jù)權利要求15所述的方法,其特征在于對于每一次迭代,根據(jù)一個數(shù)據(jù)點組成員概率的估算,調整所述先驗概率信息。
17、根據(jù)權利要求13所述的方法,其特征在于還包括指令,給定所述被納入和被排除的訓練樣例,根據(jù)它們的期望標號,利用所述有標記和無標記數(shù)據(jù)作為學習樣例,所述指令用于將具有最小的KL發(fā)散的判定函數(shù)確定為所述判定函數(shù)參數(shù)的先驗分布。
18、根據(jù)權利要求13所述的方法,其特征在于重復訓練一個轉導分類器的迭代步驟,直至達到數(shù)據(jù)值的收斂。
19、根據(jù)權利要求18所述的方法,其特征在于當所述轉導分類器的所述判定函數(shù)的變化降到一個預設的閾值以下時,達到收斂。
20、根據(jù)權利要求18所述的方法,其特征在于當所述確定的期望標記值的變化降到一個預設的閾值以下時,達到收斂。
21、根據(jù)權利要求13所述的方法,其特征在于所述被納入的訓練樣例的標記的值為+1,而所述被排除的訓練樣例的標記的值為—1。
22、根據(jù)權利要求13所述的方法,其特征在于所述被納入的樣例的標記被映射到第一個數(shù)值,而所述被排除的樣例的標記被映射到第二個數(shù)值。
23、一個數(shù)據(jù)處理裝置,其特征在于包括
至少一個存儲器,用于存儲(i)有標記數(shù)據(jù)點,其中,每一個所述有標記數(shù)據(jù)具有至少一個標記,指示該數(shù)據(jù)點是被納入一個指定類別的數(shù)據(jù)點的訓練樣例,還是從一個指定類別被排除的數(shù)據(jù)點的訓練樣例;(ii)無標記數(shù)據(jù)點;和(iii)所述有標記數(shù)據(jù)點和無標記數(shù)據(jù)點的至少一個預設的成本因子;和
一個轉導分類器訓練器,用于使用所述至少一個存儲的成本因子,以及存儲的有標記數(shù)據(jù)點和存儲的無標記數(shù)據(jù)點作為訓練樣例,使用轉導最大熵判別(MED),迭代地培訓所述轉導分類器,其中,在每一次迭代MED計算,調節(jié)所述無標記數(shù)據(jù)點的成本因子作為一個期望標記值的函數(shù),并根據(jù)一個數(shù)據(jù)點組成員概率的估算,調節(jié)一個數(shù)據(jù)點標記先驗概率;
其中,由所述轉導分類器訓練器訓練的一個分類器用于分類所述無標記數(shù)據(jù)點、有標記數(shù)據(jù)點、以及輸入數(shù)據(jù)點中的至少一個;
其中,所述分類的數(shù)據(jù)點的類別或其衍生物,被輸出給一個用戶、另一系統(tǒng)、和另一過程中的至少一個。
24、根據(jù)權利要求23所述的裝置,其特征在于所述函數(shù)為一個數(shù)據(jù)點的期望標記的絕對值。
25、根據(jù)權利要求23所述的裝置,其特征在于所述存儲器還存儲有標記和無標記數(shù)據(jù)點的先驗概率信息。
26、根據(jù)權利要求25所述的裝置,其特征在于在每一次迭代MED計算,根據(jù)一個數(shù)據(jù)點組成員概率的估算,調節(jié)所述先驗概率信息。
27、根據(jù)權利要求23所述的裝置,其特征在于還包括一個處理器,給定所述被納入和被排除的訓練樣例,根據(jù)它們的期望標號,利用所述有標記和無標記數(shù)據(jù)作為學習樣例,所述處理器用于將具有最小的KL發(fā)散的判定函數(shù)確定為所述判定函數(shù)參數(shù)的先驗分布。
28、根據(jù)權利要求23所述的裝置,其特征在于還包括一個裝置,用于確定數(shù)據(jù)值的收斂,以及當確定收斂時終止計算。
29、根據(jù)權利要求28所述的裝置,其特征在于當所述轉導分類器計算的判定函數(shù)的變化降到一個預設的閾值以下時,達到收斂。
30、根據(jù)權利要求28所述的裝置,其特征在于當所述確定的期望標記值的變化降到一個預設的閾值以下時,達到收斂。
31、根據(jù)權利要求23所述的裝置,其特征在于所述被納入的訓練樣例的標記的值為+1,而所述被排除的訓練樣例的標記的值為—1。
32、根據(jù)權利要求23所述的方法,其特征在于所述被納入的樣例的標記被映射到第一個數(shù)值,而所述被排除的樣例的標記被映射到第二個數(shù)值。
33、一種制品,其特征在于包括一個由計算機可讀的程序存儲介質,該介質確切地包括一個或多個計算機可執(zhí)行的指令程序,以執(zhí)行一種數(shù)據(jù)分類方法,包括
接收有標記數(shù)據(jù)點,每一個所述有標記數(shù)據(jù)點具有至少一個標記,指示該數(shù)據(jù)點是被納入一個指定類別的數(shù)據(jù)點的訓練樣例,還是從一個指定的類別被排除的數(shù)據(jù)點的訓練樣例;
接收無標記數(shù)據(jù)點;
接收所述有標記數(shù)據(jù)點和無標記數(shù)據(jù)點的至少一個預設的成本因子;
使用所述至少一個存儲的成本因子,以及存儲的有標記數(shù)據(jù)點和存儲的無標記數(shù)據(jù)點作為訓練樣例,利用迭代的最大熵判別(MED)計算,訓練一個轉導分類器,其中,在每一次迭代MED計算中,調節(jié)所述無標記數(shù)據(jù)點的成本因子作為一個期望標記值的函數(shù),并根據(jù)一個數(shù)據(jù)點組成員概率的估算,調節(jié)一個數(shù)據(jù)點標記先驗概率;
使用所述訓練的分類器分類所述無標記數(shù)據(jù)點、有標記數(shù)據(jù)點、以及輸入數(shù)據(jù)點中的至少一個;和
將所述分類的數(shù)據(jù)點的類別或其衍生物,輸出給一個用戶、另一系統(tǒng)、以及另一過程中的至少一個。
34、根據(jù)權利要求33所述的制品,其特征在于所述函數(shù)為一個數(shù)據(jù)點的期望標記的絕對值。
35、根據(jù)權利要求33所述的制品,其特征在于還包括將有標記和無標記數(shù)據(jù)點的先驗概率信息存儲于一個計算機存儲器的步驟。
36、根據(jù)權利要求35所述的制品,其特征在于在每一次迭代MED計算中,根據(jù)一個數(shù)據(jù)點組成員概率,調整所述先驗概率信息。
37、根據(jù)權利要求33所述的制品,其特征在于還包括給定所述被納入和被排除的訓練樣例,根據(jù)它們的期望標號,利用所述有標記和無標記數(shù)據(jù)作為學習樣例,將具有最小的KL發(fā)散的判定函數(shù)確定為所述判定函數(shù)參數(shù)的先驗分布的步驟。
38、根據(jù)權利要求33所述的制品,其特征在于重復訓練一個轉導分類器的迭代步驟,直至達到數(shù)據(jù)值的收斂。
39、根據(jù)權利要求38所述的制品,其特征在于當所述轉導分類的判定函數(shù)的變化降到一個預設的閾值以下時,達到收斂。
40、根據(jù)權利要求38所述的方法,其特征在于當所述確定的期望標記值的變化降到一個預設的閾值以下時,達到收斂。
41、根據(jù)權利要求33所述的方法,其特征在于所述被納入的訓練樣例的標記的值為+1,而所述被排除的訓練樣例的標記的值為—1。
42、根據(jù)權利要求33所述的方法,其特征在于所述被納入的樣例的標記被映射到第一個數(shù)值,而所述被排除的樣例的標記被映射到第二個數(shù)值。
43、在一個基于計算機的系統(tǒng)中,一種分類無標記數(shù)據(jù)的方法,其特征在于包括
接收有標記數(shù)據(jù)點,每一個所述有標記數(shù)據(jù)點具有至少一個標記,指示該數(shù)據(jù)點是被納入一個指定類別的數(shù)據(jù)點的訓練樣例,還是從一個指定類別被排除的數(shù)據(jù)點的訓練樣例;
接收有標記和無標記數(shù)據(jù)點;
接收有標記數(shù)據(jù)點和無標記數(shù)據(jù)點的先驗標記概率信息;
接收所述有標記數(shù)據(jù)點和無標記數(shù)據(jù)點的至少一個預設的成本因子;
根據(jù)所述數(shù)據(jù)點的標記先驗概率,為每一個有標記和無標記數(shù)據(jù)點確定期望的標記;
重復下面的子步驟,直至數(shù)據(jù)值的實質性收斂
·為每一個與數(shù)據(jù)點的期望標記的絕對值成比例的無標記數(shù)據(jù)點生成一個調節(jié)的成本值;
·通過確定判定函數(shù)訓練一個分類器,給定被納入訓練和被排除訓練的樣例,根據(jù)它們的期望標記,使用所述有標記和無標記數(shù)據(jù)點作為訓練樣例,該判定函數(shù)將KL發(fā)散最小化為判定函數(shù)參數(shù)的先驗概率分布;
·使用所述訓練的分類器,確定所述有標記和無標記數(shù)據(jù)點的分類分值;
·將訓練的分類器的輸出校準為組成員概率;
·根據(jù)所述確定的組成員概率,更新所述無標記數(shù)據(jù)點的標記先驗概率;
·利用所述更新的標記先驗概率和之前確定的分類分值,使用最大熵判別(MED),確定標記和界限概率分布;
·使用之前確定的標記概率分布,計算新的期望標記;和
·通過將之前迭代的所述期望標記插入所述新的期望標記,為每一個數(shù)據(jù)點更新期望標記。
將輸入數(shù)據(jù)點的類別或其衍生物輸出給一個用戶、另一系統(tǒng)、以及另一過程中的至少一個。
44、根據(jù)權利要求43所述的方法,其特征在于當所述判定函數(shù)的變化降到一個預設的閾值以下時,達到收斂。
45、根據(jù)權利要求43所述的方法,其特征在于當所述確定的期望標記值的變化降到一個預設的閾值以下時,達到收斂。
46、根據(jù)權利要求43所述的方法,其特征在于所述被納入的訓練樣例的標記的值為+1,而所述被排除的訓練樣例的標記的值為—1。
47、一種文件分類方法,其特征在于包括
接收至少一個有標記種子文件,其具有標記分配的已知置信級別;
接收無標記文件;
接收至少一個預設的成本因子;
通過迭代計算,使用所述至少一個預設的成本因子、所述至少一個種子文件、以及所述無標記文件,訓練一個轉導分類器,其中,對于每一次迭代計算,調節(jié)所述成本因子作為一個期望標記值的函數(shù);
在至少部分迭代之后,為所述無標記文件存儲置信分值;和
將具有最高置信分子的無標記文件的標識符輸出給一個用戶、另一系統(tǒng)、以及另一過程中的至少一個。
48、根據(jù)權利要求47所述的方法,其特征在于所述至少一個種子文件具有關鍵字列表。
49、根據(jù)權利要求47所述的方法,其特征在于在每一次迭代之后,存儲置信分值,其中,在每一次迭代之后,輸出具有最高置信分值的無標記文件的標識符。
50、根據(jù)權利要求47所述的方法,其特征在于還包括為所述有標記和無標記文件接收一個數(shù)據(jù)點標記先驗概率,其中,對于每一次迭代計算,根據(jù)一個數(shù)據(jù)點組成員概率的估算,調節(jié)所述數(shù)據(jù)點先驗概率。
51、一種用于分析與法律檢索相關的文件的方法,其特征在于包括
接收與法律事件相關的文件;
對所述文件執(zhí)行一種文件分類方法;和
基于其分類,輸出至少部分所述文件的標識符。
52、根據(jù)權利要求51所述的方法,其特征在于所述文件分類方法包括一個轉導過程。
53、根據(jù)權利要求51所述的方法,其特征在于還包括通過迭代計算,使用至少一個預設成本因子、至少一個種子文件、以及所述與法律事件相關的文件,訓練一個轉導分類器,其中,對于每一次迭代計算,調節(jié)所述成本因子作為一個期望標記值的函數(shù),并使用所述訓練的分類器分類所述收到的文件。
54、根據(jù)權利要求53所述的方法,其特征在于還包括為所述有標記和無標記文件接收一個數(shù)據(jù)點標記先驗概率,其中,對于每一次迭代計算,根據(jù)一個數(shù)據(jù)點組成員概率的估算,調整所述數(shù)據(jù)點標記先驗概率。
55、根據(jù)權利要求51所述的方法,其特征在于所述文件分類方法包括一個支持向量機過程。
56、根據(jù)權利要求51所述的方法,其特征在于所述文件分類方法包括一個最大熵判別過程。
57、根據(jù)權利要求51所述的方法,其特征在于還包括輸出所述文件之間聯(lián)系的表征。
58、一種清理數(shù)據(jù)的方法,其特征在于包括
接收多個有標記數(shù)據(jù)項;
為多個類別的每一個選取數(shù)據(jù)項的子集;
將每一個子集中的數(shù)據(jù)項的不確定性設置成約為零;
將不在所述子集中的數(shù)據(jù)項的不確定性設置成一個不約為零的預設值;
通過迭代計算,使用所述不確定性、所述子集中的數(shù)據(jù)項、以及不在所述子集中的數(shù)據(jù)項作為訓練樣例,訓練一個轉導分類器;
將所述訓練的分類器用于每一個所述的有標記數(shù)據(jù)項,以分類每一個數(shù)據(jù)項;和
將所述輸入數(shù)據(jù)項的分類或其衍生物,輸出給一個用戶、另一系統(tǒng)、另一過程中的至少一個。
59、根據(jù)權利要求58所述的方法,其特征在于所述子集是隨機選取的。
60、根據(jù)權利要求58所述的方法,其特征在于所述子集是由用戶選取并核對。
61、根據(jù)權利要求58所述的方法,其特征在于還包括基于分類,改變至少部分所述數(shù)據(jù)項的標記。
62、根據(jù)權利要求58所述的方法,其特征在于在分類之后,具有低于一個預設閾值的置信級別的數(shù)據(jù)項的標識符被輸出給用戶。
63、一種用于核對發(fā)票與實體的相關性的方法,其特征在于包括
基于與第一實體相關的發(fā)票格式,訓練一個分類器;
訪問多張發(fā)票,該發(fā)票被標記為與所述第一實體和其它實體中的至少一個相關;
使用所述分類器,對所述發(fā)票執(zhí)行一種文件分類方法;和
輸出具有較高的概率與所述第一實體不相關的至少一張發(fā)票的標識符。
64、根據(jù)權利要求63所述的方法,其特征在于所述文件分類方法包括一個轉導過程。
65、根據(jù)權利要求64所述的方法,其特征在于所述分類器是一個轉導分類器,且還包括通過迭代計算,使用至少一個預設的成本因子、至少一個種子文件、以及所述發(fā)票,訓練所述轉導分類器,其中,對于每一次迭代計算,調節(jié)所述成本因子作為一個期望標記值的函數(shù),并使用所述訓練的分類器分類所述發(fā)票。
66、根據(jù)權利要求65所述的方法,其特征在于還包括為所述種子文件和發(fā)票接收一個數(shù)據(jù)點標記先驗概率,其中,對于每一次迭代計算,根據(jù)一個數(shù)據(jù)點組成員概率的估算,調節(jié)所述數(shù)據(jù)點標記先驗概率。
67、根據(jù)權利要求63所述的方法,其特征在于所述文件分類方法包括一個支持向量機過程。
68、根據(jù)權利要求65所述的方法,其特征在于所述文件分類方法包括一個最大熵判別過程。
69、一種用于管理病歷的方法,其特征在于包括
基于醫(yī)療診斷,訓練一個分類器;
訪問多個病歷;
使用所述分類器,對所述病歷執(zhí)行一種文件分類方法;和
輸出具有較低的概率與所述醫(yī)療診斷相關的至少一個所述病歷的標識符。
70、根據(jù)權利要求69所述的方法,其特征在于所述文件分類方法包括一個轉導過程。
71、根據(jù)權利要求70所述的方法,其特征在于所述分類器是一個轉導分類器,且還包括通過迭代計算,使用至少一個預設的成本因子、至少一個種子文件,以及所述病歷,訓練所述轉導分類器,其中,對于每一次迭代計算,調節(jié)所述成本因子作為一個期望標記值的函數(shù),并使用所述訓練的分類器分類所述病歷。
72、根據(jù)權利要求71所述的方法,其特征在于還包括為所述種子文件和病歷接收一個數(shù)據(jù)點標記先驗概率,其中,對于每一次迭代計算,根據(jù)一個數(shù)據(jù)點組成員概率的估算,調節(jié)所述數(shù)據(jù)點標記先驗概率。
73、根據(jù)權利要求69所述的方法,其特征在于所述文件分類方法包括一個支持向量機過程。
74、根據(jù)權利要求69所述的方法,其特征在于所述文件分類方法包括一個最大熵判別過程。
75、一種人臉識別方法,其特征在于包括
接收一張人臉的至少一個有標記種子圖像,該種子圖像具有一個已知的置信級別;
接收無標記圖像;
接收至少一個預設的成本因子;
通過迭代計算,使用所述至少一個預設的成本因子、所述至少一個種子圖像、以及所述無標記圖像,訓練一個轉導分類器,其中,對于每一次迭代計算,調節(jié)所述成本因子作為一個期望標記值的函數(shù);
在至少部分迭代之后,為所述無標記種子圖像存儲置信分值;和
將具有最高置信分值的無標記圖像的標識符輸出給一個用戶、另一系統(tǒng)、另一過程中的至少一個。
76、根據(jù)權利要求75所述的方法,其特征在于所述至少一個種子圖像具有一個標記,指示該圖像是否被納入一個指定的類別。
77、根據(jù)權利要求75所述的方法,其特征在于每一次迭代后存儲置信分值,其中,在每一次迭代后,具有最高置信分值的無標記圖像的標識符被輸出。
78、根據(jù)權利要求75所述的方法,其特征在于還包括為所述有標記和無標記圖像接收一個數(shù)據(jù)點標記先驗概率;其中,對于每一次迭代計算,根據(jù)一個數(shù)據(jù)點組成員概率的估算,調節(jié)所述數(shù)據(jù)點標記先驗概率。
79、根據(jù)權利要求75所述的方法,其特征在于還包括接收一張人臉的第三個無標記圖像,將所述第三個無標記圖像與至少部分具有最高置信分值的圖像比較,且如果確信第三個無標記圖像中的人臉與所述種子圖像中的人臉是相同的,則輸出所述第三個無標記圖像的標識符。
80、一種分析現(xiàn)有文件的方法,其特征在于包括
基于一個搜索查詢,訓練一個分類器;
訪問多個現(xiàn)有技術文件;
使用所述分類器,對至少部分所述現(xiàn)有技術文件執(zhí)行一種文件分類方法;和
基于其分類,輸出至少部分所述現(xiàn)有技術文件的標識符。
81、根據(jù)權利要求80所述的方法,其特征在于所述文件分類方法包括一個轉導過程。
82、根據(jù)權利要求81所述的方法,其特征在于所述分類器是一個轉導分類器,且還包括通過迭代計算,使用至少一個預設的成本因子、至少一個種子文件、以及所述現(xiàn)有技術文件,訓練所述轉導分類器;其中,對于每一次迭代計算,調節(jié)所述成本因子作為一個期望標記值的函數(shù),并使用所述訓練的分類器分類所述現(xiàn)有技術文件。
83、根據(jù)權利要求82所述的方法,其特征在于還包括為所述種子文件和現(xiàn)有技術文件接收一個數(shù)據(jù)點標記先驗概率;其中,對于每一次迭代計算,根據(jù)一個數(shù)據(jù)點組成員概率的估算,調節(jié)所述數(shù)據(jù)點標記先驗概率。
84、根據(jù)權利要求80所述的方法,其特征在于所述搜索查詢包括一件專利公開的至少一部分。
85、根據(jù)權利要求80所述的方法,其特征在于所述搜索查詢包括一件專利或專利申請的權利要求的至少一部分。
86、根據(jù)權利要求80所述的方法,其特征在于所述搜索查詢包括一件專利或專利申請的摘要的至少一部分。
87、根據(jù)權利要求80所述的方法,其特征在于所述搜索查詢包括一件專利或專利申請的發(fā)明概要的至少一部分。
88、根據(jù)權利要求80所述的方法,其特征在于所述文件分類方法包括一個支持向量機過程。
89、根據(jù)權利要求80所述的方法,其特征在于所述文件分類方法包括一個最大熵判別過程。
90、根據(jù)權利要求80所述的方法,其特征在于所述現(xiàn)有技術文件為專利局的出版物。
91、根據(jù)權利要求80所述的方法,其特征在于還包括輸出所述文件之間聯(lián)系的表征。
92、根據(jù)權利要求80所述的方法,其特征在于還包括基于其分類,輸出至少部分所述現(xiàn)有技術方法文件的相關性分值。
93、一種用于使專利分類適應文件內容的變化的方法,其特征在于包括
接收至少一個有標記種子文件;
接收一個無標記文件;
使用所述至少一個種子文件和所述無標記文件,訓練一個轉導分類器;
使用所述分類器,將具有高于一個預設閾值的置信級別的無標記文件分類到多個現(xiàn)有的類別;
使用所述分類器,將具有低于一個預設閾值的置信級別的無標記文件分類到至少一個新的類別;
使用所述分類器,將至少部分所述分類的文件重新分類到所述現(xiàn)有的類別和所述至少一個新的類別;和
將所述分類的文件的標識符輸出給一個用戶、另一系統(tǒng)、以及另一過程中的至少一個。
94、根據(jù)權利要求93所述的方法,其特征在于所述分類器是一個轉導分類器,且還包括通過迭代計算,使用至少一個預設的成本因子、所述搜索查詢、以及所述文件,訓練所述轉導分類器,其中,對于每一次迭代計算,調節(jié)所述成本因子作為一個期望標記值的函數(shù),并使用所述訓練的分類器分類所述文件。
95、根據(jù)權利要求94所述的方法,其特征在于還包括為所述搜索查詢和文件接收一個數(shù)據(jù)點標記先驗概率;其中,對于每一次迭代計算,根據(jù)一個數(shù)據(jù)點組成員概率的估算,調節(jié)所述數(shù)據(jù)點標記先驗概率。
96、根據(jù)權利要求93所述的方法,其特征在于所述文件分類方法包括一個支持向量機過程。
97、根據(jù)權利要求93所述的方法,其特征在于所述文件分類方法包括一個最大熵判別過程。
98、根據(jù)權利要求93所述的方法,其特征在于所述無標記文件為專利申請。
99、根據(jù)權利要求93所述的方法,其特征在于所述至少一個種子文件選自一個專利和一個專利申請。
100、一種將文件與權利要求匹配的方法,其特征在于包括
基于一件專利或專利申請的至少一項權利要求,訓練一個分類器;
訪問多個文件;
使用所述分類器,對至少部分所述文件執(zhí)行一種文件分類方法;和
基于其分類,輸出至少部分所述文件的標識符。
101、根據(jù)權利要求100所述的方法,其特征在于還包括基于其分類,輸出至少部分所述文件的相關性分值。
102、根據(jù)權利要求100所述的方法,其特征在于所述文件為現(xiàn)有技術文件。
103、根據(jù)權利要求100所述的方法,其特征在于所述文件描述產(chǎn)品。
104、一種分類專利或專利申請的方法,其特征在于包括
基于多個已知屬于一個特定專利分類的文件,訓練一個分類器;
接收一件專利或專利申請的至少一部分;
使用所述分類器,對所述專利或專利申請的所述至少一部分執(zhí)行一種文件分類方法;和
輸出所述專利或專利申請的分類,
其中,所述文件分類方法是一個是/否分類方法。
105、根據(jù)權利要求104所述的方法,其特征在于所述文件選自專利和專利申請。
106、根據(jù)權利要求105所述的方法,其特征在于所述專利或專利申請的至少一部分包括專利或專利申請的權利要求的至少一部分。
107、根據(jù)權利要求105所述方法,其特征在于所述專利或專利申請的至少一部分包括專利或專利申請的摘要的至少一部分。
108、根據(jù)權利要求105所述方法,其特征在于所述專利或專利申請的至少一部分包括專利或專利申請的發(fā)明概要的至少一部分。
109、一種用于分類專利或專利申請的方法,其特征在于包括
使用一個分類器,對一件專利或專利申請的至少一部分執(zhí)行一種文件分類方法,該分類器基于與一個特定專利分類相關的至少一個文件而被訓練,其中,所述文件分類方法是一個是/否分類方法;和
輸出所述專利或專利申請的分類。
110、根據(jù)權利要求109所述的方法,其特征在于還包括使用一個不同的分類器重復所述方法,該分類器基于多個已知屬于第二個專利分類的文件而被訓練。
111、根據(jù)權利要求109所述的方法,其特征在于所述專利或專利申請的至少一部分包括專利或專利申請的權利要求的至少一部分。
112、根據(jù)權利要求109所述的方法,其特征在于所述專利或專利申請的至少一部分包括專利或專利申請的摘要的至少一部分。
113、根據(jù)權利要求109所述的方法,其特征在于所述專利或專利申請的至少一部分包括專利或專利申請的發(fā)明概要的至少一部分。
114、一種適應文件內容變化的方法,其特征在于包括
接收至少一個有標記種子文件;
接收無標記文件;
接收至少一個預設的成本因子;
使用所述至少一個預設的所述成本因子、至少一個種子文件、以及所述無標記文件,訓練一個轉導分類器;
使用所述分類器,將具有高于一個預設閾值的置信級別的無標記文件分類到多個類別;
使用所述分類器,將至少部分所述分類的文件重新分類到多個類別;和
將所述分類的文件的標識符輸出給一個用戶、另一系統(tǒng)、以及另一過程中的至少一個。
115、根據(jù)權利要求114所述的方法,其特征在于還包括將具有低于一個預設閾值的置信級別的無標記文件移入一個或多個新的類別。
116、根據(jù)權利要求114所述的方法,其特征在于還包括通過迭代計算,使用至少一個預設的成本因子、所述至少一個種子文件、以及所述無標記文件,訓練所述轉導分類器;其中,對于每一次迭代計算,調節(jié)所述成本因子作為一個期望標記值的函數(shù),并使用所述訓練的分類器分類所述無標記文件。
117、根據(jù)權利要求116所述的方法,其特征在于還包括為所述種子文件和無標記文件接收一個數(shù)據(jù)點標記先驗概率;其中,對于每一次迭代計算,根據(jù)一個數(shù)據(jù)點組成員概率的估算,調節(jié)所述數(shù)據(jù)點標記先驗概率。
118、根據(jù)權利要求114所述的方法,其特征在于所述無標記文件為客戶投訴,且還包括將產(chǎn)品變化與客戶投訴相聯(lián)系。
119、根據(jù)權利要求114所述的方法,其特征在于所述無標記文件為發(fā)票。
120、一種分離文件的方法,其特征在于包括
接收有標記數(shù)據(jù);
接收一組無標記文件;
基于所述有標記數(shù)據(jù)和無標記文件,使用轉導,自適應概率性分類規(guī)則;
根據(jù)所述概率性分類規(guī)則,更新用于文件分離的權重;
確定在一組文件中分離的位置;
將確定的該組文件中分離的位置的標識符輸出給一個用戶、另一系統(tǒng)、以及另一過程中的至少一個;和
給所述文件標記代碼,該代碼與所述標識符有關。
121、一種文件搜索的方法,其特征在于包括
接收一個搜索查詢;
基于所述搜索查詢,獲取文件;
輸出所述文件;
為至少部分所述文件接收用戶鍵入的標記,所述標記指示該文件與所述搜索查詢的相關性;
基于所述搜索查詢和用戶鍵入的標記,訓練一個分類器;
使用所述分類器,對所述文件執(zhí)行一種文件分類方法,以重新分類所述文件;和
基于其分類,輸出至少部分所述文件的標識符。
122、根據(jù)權利要求121所述的方法,其特征在于所述文件分類方法包括一個轉導過程。
123、根據(jù)權利要求122所述的方法,其特征在于所述分類器是一個轉導分類器,且還包括通過迭代計算,使用至少一個預設的成本因子、所述搜索查詢、以及所述文件,訓練所述轉導分類器,其中,對于每一次迭代計算,調節(jié)所述成本因子作為一個期望標記值的函數(shù),并使用所述訓練的分類器分類所述文件。
124、根據(jù)權利要求123所述的方法,其特征在于還包括為所述搜索查詢和文件接收一個數(shù)據(jù)點標記先驗概率;其中,對于每一次迭代計算,根據(jù)一個數(shù)據(jù)點組成員概率的估算,調節(jié)所述數(shù)據(jù)點標記先驗概率。
125、根據(jù)權利要求121所述的方法,其特征在于所述文件分類方法包括一個支持向量機過程。
126、根據(jù)權利要求121所述的方法,其特征在于所述文件分類方法包括一個最大熵判別過程。
127、根據(jù)權利要求121所述的方法,其特征在于所述重新分類的文件被輸出,那些具有最高置信度的文件被首先輸出。
全文摘要
本發(fā)明公開了一種用于分類數(shù)據(jù)的系統(tǒng)、方法、數(shù)據(jù)處理裝置和制品。還公開了使用機器學習方法的數(shù)據(jù)分類方法。
文檔編號G06F15/18GK101449264SQ200780001197
公開日2009年6月3日 申請日期2007年6月7日 優(yōu)先權日2006年7月12日
發(fā)明者毛里蒂烏斯·A·R·施密特勒, 克里斯托弗·K·哈里斯, 羅蘭·博雷, 安東尼·薩拉, 妮古拉·卡魯索 申請人:柯法克斯公司