本發(fā)明總體上涉及用于標(biāo)注批量樣本的計(jì)算機(jī)實(shí)施的方法。特別地,本發(fā)明涉及這樣的方法:在其中人工標(biāo)注被用于標(biāo)注樣本當(dāng)中的基礎(chǔ)實(shí)例和特殊實(shí)例而其余樣本被機(jī)器標(biāo)注。
背景技術(shù):
隨著互聯(lián)網(wǎng)和社交媒體的普及,數(shù)字對(duì)象快速生成。這些數(shù)字對(duì)象通常為多媒體,例如視頻、圖像、音頻文件、文本和其組合。對(duì)數(shù)字對(duì)象的標(biāo)注提高了其可搜索性。通過(guò)標(biāo)注,數(shù)字對(duì)象被標(biāo)注有用于描述數(shù)字對(duì)象的元數(shù)據(jù),例如一個(gè)或多個(gè)關(guān)鍵詞。盡管通過(guò)標(biāo)注使得在包含大量數(shù)字對(duì)象的庫(kù)中搜索期望的對(duì)象高效,但是標(biāo)注大量的數(shù)字對(duì)象就其本身來(lái)說(shuō)是一個(gè)技術(shù)挑戰(zhàn)。
通常,機(jī)器學(xué)習(xí)算法被用于分類(lèi)數(shù)字對(duì)象以進(jìn)行標(biāo)注。智能認(rèn)知系統(tǒng)需要初始分類(lèi)器訓(xùn)練。初始用于訓(xùn)練分類(lèi)器的數(shù)字對(duì)象首先通過(guò)人工標(biāo)注而被手動(dòng)標(biāo)注。人工標(biāo)注無(wú)疑是一個(gè)耗時(shí)的高成本過(guò)程。在標(biāo)注時(shí)減少人工工作是可取的。更具體地,從數(shù)字對(duì)象庫(kù)中選擇較少量的數(shù)字對(duì)象來(lái)進(jìn)行人工標(biāo)注以訓(xùn)練分類(lèi)器是可取的。然而,大多數(shù)現(xiàn)有的標(biāo)注技術(shù)(例如cn104142912a、cn102999516a和us2010/0076923a1中提出的技術(shù))針對(duì)另一方面——在可利用的訓(xùn)練樣本已經(jīng)被標(biāo)注的假設(shè)下增加分類(lèi)器的標(biāo)注準(zhǔn)確性。技術(shù)領(lǐng)域中存在對(duì)減少或最小化被選擇用于人工標(biāo)注的數(shù)字樣本的數(shù)量的技術(shù)的需要。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的第一方面是為了提供一種用于標(biāo)注批量原始樣本的計(jì)算機(jī)實(shí)施的方法。
在所述方法中,從所述批量中選擇原始樣本的第一子集進(jìn)行人工標(biāo)注以產(chǎn)生人工標(biāo)注的樣本。所述第一子集通過(guò)在最小化所述第一子集的熵均和所述批量的熵均之間的差的方式優(yōu)化所述第一子集來(lái)確定。原始樣本的任意集合的熵均通過(guò)平均屬于前述集合的原始樣本的熵值來(lái)計(jì)算。在獲得人工標(biāo)注的樣本之后,從所述批量中去除屬于選擇的第一子集的原始樣本。人工標(biāo)注的樣本被用作訓(xùn)練數(shù)據(jù)以配置用于標(biāo)注輸入樣本以產(chǎn)生標(biāo)注的輸出樣本的至少一個(gè)標(biāo)注過(guò)程。在配置之后的標(biāo)注過(guò)程用于標(biāo)注所述批量中剩余的任何原始樣本。
優(yōu)選地,人工標(biāo)注的樣本還被用作訓(xùn)練數(shù)據(jù)以配置用于驗(yàn)證標(biāo)注的輸出樣本的標(biāo)注準(zhǔn)確性的檢查過(guò)程。此外,對(duì)所述批量中剩余的任何原始樣本執(zhí)行標(biāo)注和檢查過(guò)程。標(biāo)注和檢查過(guò)程包括下述步驟。通過(guò)標(biāo)注過(guò)程對(duì)所述批量中剩余的單獨(dú)的原始樣本進(jìn)行標(biāo)注以產(chǎn)生單獨(dú)的機(jī)器標(biāo)注的樣本。通過(guò)檢查過(guò)程驗(yàn)證單獨(dú)的機(jī)器標(biāo)注的樣本的標(biāo)注準(zhǔn)確性。如果單獨(dú)的機(jī)器標(biāo)注的樣本的標(biāo)注被驗(yàn)證為是準(zhǔn)確的,則從所述批量中去除單獨(dú)的原始樣本;否則,丟棄單獨(dú)的機(jī)器標(biāo)注的樣本??蛇x的步驟是為單獨(dú)的原始樣本生成驗(yàn)證結(jié)果。驗(yàn)證結(jié)果包括單獨(dú)的原始樣本、單獨(dú)的機(jī)器標(biāo)注的樣本和單獨(dú)的機(jī)器標(biāo)注的樣本是否準(zhǔn)確的指示。如果在執(zhí)行標(biāo)注和檢查過(guò)程之后所述批量非空,則執(zhí)行更新過(guò)程。
在更新過(guò)程的一個(gè)實(shí)施方式中,從所述批量中選擇原始樣本的第二子集進(jìn)行人工標(biāo)注以產(chǎn)生額外的人工標(biāo)注的樣本。在獲得額外人工標(biāo)注的樣本之后,從所述批量中去除屬于選擇的第二子集的原始樣本。額外的人工標(biāo)注的樣本被用作額外的訓(xùn)練數(shù)據(jù)以更新標(biāo)注過(guò)程和檢查過(guò)程。如果在執(zhí)行更新過(guò)程之后所述批量非空,則重復(fù)標(biāo)注和檢查過(guò)程。
在更新過(guò)程的另一實(shí)施方式中,根據(jù)在標(biāo)注和檢查過(guò)程中獲得的一個(gè)或多個(gè)驗(yàn)證結(jié)果來(lái)更新標(biāo)注過(guò)程和檢查過(guò)程。特別地,一個(gè)或多個(gè)驗(yàn)證結(jié)果的全部或部分被用作額外的訓(xùn)練數(shù)據(jù)以更新標(biāo)注過(guò)程和檢查過(guò)程。在完成更新過(guò)程之后,重復(fù)標(biāo)注和檢查過(guò)程。
本發(fā)明的第二方面是為了提供一種用于標(biāo)注原始樣本的組的計(jì)算機(jī)實(shí)施的方法。所述方法包括聚類(lèi)所述組中的原始樣本以便將所述組分割成原始樣本的一個(gè)或多個(gè)聚類(lèi)。根據(jù)在本發(fā)明的第一方面中闡述的方法的任一實(shí)施方式來(lái)標(biāo)注原始樣本的每個(gè)聚類(lèi)。
如下文的實(shí)施方式所示意地公開(kāi)了本發(fā)明的其他方面。
附圖說(shuō)明
圖1描繪了根據(jù)本發(fā)明的標(biāo)注批量原始樣本的流程圖。
圖2a和2b提供了說(shuō)明標(biāo)注所述批量原始樣本的處理流程的示例,其中圖2a描繪了第一輪處理而圖2b描繪了第二輪處理。
具體實(shí)施方式
本文在說(shuō)明書(shū)和隨附的權(quán)利要求書(shū)中使用了下述定義?!皹颖尽钡囊馑际菙?shù)字對(duì)象。數(shù)字對(duì)象是在計(jì)算機(jī)環(huán)境中的非實(shí)體數(shù)字內(nèi)容。在大多情況下,數(shù)字對(duì)象是多媒體內(nèi)容,例如視頻、圖像、音頻文件、文本或文本文件或其組合?!霸紭颖尽钡囊馑际俏幢粯?biāo)注或僅被預(yù)標(biāo)注的原樣本。“預(yù)標(biāo)注”在下述意義上不同于“標(biāo)注”。對(duì)于未被標(biāo)注的原始樣本,原始樣本不包含與原始樣本關(guān)聯(lián)的任何標(biāo)注消息。原始樣本即原樣本。對(duì)于被預(yù)標(biāo)注的原始樣本,原樣本與第一標(biāo)注消息關(guān)聯(lián)以形成原始樣本但是第一標(biāo)注消息將通過(guò)某個(gè)標(biāo)注過(guò)程被第二標(biāo)注消息取代。第一標(biāo)注消息可以被用作例如至標(biāo)注過(guò)程的輸入以便在標(biāo)注描述方面改進(jìn)第一標(biāo)注消息并且從而產(chǎn)生第二標(biāo)注消息。在一個(gè)特定示例中,第一標(biāo)注消息由人工檢視以在人工標(biāo)注中用對(duì)于原始樣本更準(zhǔn)確的描述來(lái)準(zhǔn)備第二標(biāo)注消息。“標(biāo)注的樣本”的意思是通過(guò)標(biāo)注原始樣本而得到的作為結(jié)果的樣本。標(biāo)注的樣本通過(guò)將標(biāo)注消息與原始樣本中的原樣本關(guān)聯(lián)而形成。通常,標(biāo)注的樣本是標(biāo)注有標(biāo)注消息的原樣本,或者標(biāo)注的樣本由數(shù)據(jù)結(jié)構(gòu)來(lái)表示,所述數(shù)據(jù)結(jié)構(gòu)至少包括作為一個(gè)字段的原樣本和作為另一字段的標(biāo)注消息。對(duì)于標(biāo)注的樣本,其可以被分類(lèi)為人工標(biāo)注的樣本或機(jī)器標(biāo)注的樣本?!叭斯?biāo)注的樣本”的意思是通過(guò)原始樣本的人工標(biāo)注而獲得的標(biāo)注的樣本。“機(jī)器標(biāo)注的樣本”的意思是其標(biāo)注消息整個(gè)地由計(jì)算機(jī)處理來(lái)確定的經(jīng)標(biāo)注的樣本。
本發(fā)明的第一方面是為了提供一種用于標(biāo)注批量原始樣本的計(jì)算機(jī)實(shí)施的方法。在所述方法中,選擇所述批量的子集用于人工標(biāo)注。在對(duì)所述子集的選擇中,人工標(biāo)注僅關(guān)注原始樣本的基礎(chǔ)實(shí)例和特殊實(shí)例,而機(jī)器標(biāo)注用于標(biāo)注其余原始樣本,從而有利地最小化或至少減少用于人工標(biāo)注的樣本的數(shù)量。發(fā)明人已經(jīng)發(fā)現(xiàn)可以根據(jù)每個(gè)原始樣本的熵值來(lái)識(shí)別基礎(chǔ)實(shí)例和特殊實(shí)例。借助圖1來(lái)示意所述方法,圖1描繪了標(biāo)注批量原始樣本105的流程圖。
所述方法的示例性實(shí)施例詳述如下。
在步驟110中,從所述批量105中選擇原始樣本的第一子集。一般地,為所述第一子集選擇所述批量105中預(yù)先確定的比例數(shù)量的原始樣本。然而,并非總是這種情況,例如,當(dāng)由于資源限制需要用于人工標(biāo)注的原始樣本的數(shù)量具有上界時(shí)。所述第一子集中的原始樣本用于人工標(biāo)注以產(chǎn)生人工標(biāo)注的樣本(步驟115)。在步驟110中,原始樣本的所述第一子集有利地通過(guò)在最小化所述第一子集的熵均和所述批量的熵均之間的差的方式優(yōu)化所述第一子集來(lái)確定。原始樣本的任意集合的熵均通過(guò)平均屬于前述集合的原始樣本的熵值來(lái)計(jì)算。通過(guò)下列四個(gè)步驟獲得單獨(dú)的原始樣本的熵值。
第一,將單個(gè)的原始樣本分成多個(gè)組成元素{yj}。所述組成元素屬于相同類(lèi)型的特征。作為示意性示例,對(duì)于分別為文本、圖像、視頻和音頻信號(hào)的四個(gè)樣本,對(duì)應(yīng)的特征類(lèi)型可以分別被選擇為詞、子圖像、關(guān)鍵幀和音頻信號(hào)的時(shí)間/頻率分量。
第二,從{yj}識(shí)別相異的組成元素{xi},以使得{yj}中的每個(gè)元素都可以在{xi}中找到。
第三,根據(jù){yj}中等于xi的一個(gè)或多個(gè)組成元素的數(shù)量來(lái)估計(jì)xi的概率p(xi)。特別地,將p(xi)估計(jì)為xi在組成元素{yj}上出現(xiàn)的相對(duì)頻率。
第四,將單獨(dú)的原始樣本的熵值計(jì)算為:-σip(xi)logbp(xi),其中b為底數(shù)。實(shí)際上并且優(yōu)選地,在公開(kāi)的方法的實(shí)現(xiàn)方式中,使用了b=2。
下面提供了用于示意計(jì)算單獨(dú)的原始樣本的熵值的示例??紤]為字符串“cathatbat”的樣本。所述字符串可以被當(dāng)作數(shù)據(jù)集合{cat,hat,bat}。特征類(lèi)型被選擇為英語(yǔ)字母。因此,樣本的每個(gè)組成元素均為英語(yǔ)字母。要注意,字符串中的空格被排除在組成元素之外。由此得出,將樣本分成9個(gè)組成元素{c,a,t,h,a,t,b,a,t},當(dāng)作上面的{yj},其中j=1,…,9。存在5個(gè)相異的組成元素{a,t,c,h,b},當(dāng)作上面的{xi},其中i=1,…,5。通過(guò)計(jì)算:對(duì)于“a”的p(x1)被估計(jì)為p(x1)=3/9=1/3;對(duì)于“t”的p(x2)被估計(jì)為1/3;并且對(duì)于“b”的p(x5)被估計(jì)為1/9。字母“a”的熵通過(guò)-p(x1)log2p(x1)=0.52來(lái)計(jì)算,字母“b”的熵通過(guò)-p(x5)log2p(x5)=0.35來(lái)計(jì)算。由于“b”的熵低于“a”的熵,所以在該情況下我們說(shuō)字母“b”比字母“a”的信息量少。暗示就是,如果給出字母“b”作為輸入的一部分,則可以推斷所述輸入非??赡苁窃~“bat”。在另一方面,如果給出字母“a”作為輸入的一部分,則不知道輸入為何。此外,詞的熵是所述詞的字母的單獨(dú)的熵的和。整個(gè)數(shù)據(jù)集合的熵均是字符串中的所有詞的熵的和再除以詞的數(shù)量(在該示例中為3)。如果使用圖片作為另一樣本,則可以將所述圖片轉(zhuǎn)換為灰度圖片并且將其劃分成小塊(即子圖像)。當(dāng)每塊足夠小時(shí),圖片的每個(gè)小塊可以被當(dāng)做殤計(jì)算中詞的字母。
在選擇第一子集中最小化第一子集和所述批量105之間的熵均差的優(yōu)點(diǎn)證明如下。單獨(dú)的原始樣本的熵值是該樣本的信息量的度量。通過(guò)在所述批量的所有可能的候選子集上找到第一子集的熵均和所述批量105的熵均之間的差被最小化或相對(duì)小的第一子集,第一子集和所述批量105的信息量有可能接近。由此得出,所述第一子集有可能包含代表所述批量105中所有原始樣本的原始樣本。由此得出,基于這些代表性原始樣本和因此產(chǎn)生的人工標(biāo)注的樣本的機(jī)器學(xué)習(xí)和分類(lèi)器訓(xùn)練較不可能是誤導(dǎo)的。這些代表性原始樣本形成上述的“基礎(chǔ)實(shí)例”。
在步驟115中獲得人工標(biāo)注的樣本之后,從所述批量105中去除屬于選擇的第一子集的原始樣本。從所述批量105中去除這些原始樣本僅是這些原始樣本已經(jīng)被標(biāo)注并且不需要機(jī)器標(biāo)注的指示。
人工標(biāo)注的樣本被用作訓(xùn)練數(shù)據(jù)以配置用于標(biāo)注輸入樣本以產(chǎn)生標(biāo)注的輸出樣本的至少一個(gè)標(biāo)注過(guò)程(步驟120)。配置之后的標(biāo)注過(guò)程在步驟140中用于標(biāo)注批量105’中剩余的任何原始樣本。(代替105使用參考標(biāo)號(hào)105’以便指示當(dāng)與在開(kāi)始時(shí)的原始批量105相比時(shí),批量105’的大小可能已經(jīng)被減小)。通常,所述標(biāo)注過(guò)程使用機(jī)器學(xué)習(xí)算法來(lái)分類(lèi)輸入的樣本。所述機(jī)器學(xué)習(xí)算法可以從命名實(shí)體識(shí)別(ner)分類(lèi)器、支持向量機(jī)(svm)分類(lèi)器和神經(jīng)網(wǎng)絡(luò)選擇。在技術(shù)領(lǐng)域中,存在使用基于語(yǔ)言學(xué)語(yǔ)法技術(shù)以及統(tǒng)計(jì)模型(即,機(jī)器學(xué)習(xí))的ner系統(tǒng)。手工的基于語(yǔ)法的系統(tǒng)一般獲得較佳的精度,但是要以較低的檢索率和富有經(jīng)驗(yàn)的計(jì)算語(yǔ)言學(xué)家數(shù)月的工作為代價(jià)。統(tǒng)計(jì)ner系統(tǒng)一般需要大量的手動(dòng)標(biāo)注的訓(xùn)練數(shù)據(jù)。半監(jiān)管的方法可用于避免一部分標(biāo)注工作。在技術(shù)領(lǐng)域中已經(jīng)使用許多不同的分類(lèi)器類(lèi)型來(lái)執(zhí)行機(jī)器學(xué)習(xí)的ner,其中條件隨機(jī)場(chǎng)是典型選擇。
一般地,在步驟110中使用選擇過(guò)程以從所述批量105中選擇原始樣本的所述第一子集。
在選擇過(guò)程的一個(gè)實(shí)施方式中,從所述批量105中選擇原始樣本的候選子集。然后計(jì)算所述候選子集中每個(gè)原始樣本的熵值。從而通過(guò)平均屬于候選子集的原始樣本的熵值來(lái)計(jì)算候選子集的熵均。類(lèi)似地計(jì)算原始樣本的所述批量105的熵均。通過(guò)迭代,在最小化所述候選子集的熵均和所述批量105的熵均之間的差的方向上迭代地改進(jìn)或完善所述候選子集。最后,在一定數(shù)量的迭代之后由所述候選子集給出所述第一子集。迭代的數(shù)量可以是預(yù)定的數(shù)量。替代地,當(dāng)熵均的增量減小小于某個(gè)預(yù)定閾值時(shí)可停止迭代。
在選擇過(guò)程的另一個(gè)實(shí)施方式中,從所述批量105中選擇原始樣本的多個(gè)候選子集。所述候選子集可以相互不重疊或重疊。對(duì)于每個(gè)單獨(dú)的候選子集,計(jì)算單獨(dú)的候選子集中的每個(gè)原始樣本的熵值。通過(guò)平均屬于單獨(dú)的候選子集的原始樣本的熵值來(lái)計(jì)算單獨(dú)的候選子集的熵均。類(lèi)似地計(jì)算所述批量105的熵均。最后,在所有候選子集當(dāng)中,將具有最接近批量105的熵均的熵均的特定候選子集選擇為所述第一子集。
所述方法的額外實(shí)施例詳述如下。
期望的是通過(guò)步驟140中的標(biāo)注過(guò)程生成的機(jī)器標(biāo)注的樣本的標(biāo)注準(zhǔn)確性被驗(yàn)證以使得在標(biāo)注中不準(zhǔn)確的那些機(jī)器標(biāo)注的樣本能夠被識(shí)別從而被丟棄。除了具有用于標(biāo)注輸入的樣本以產(chǎn)生標(biāo)注的輸出樣本的標(biāo)注過(guò)程之外,優(yōu)選地還使用用于驗(yàn)證標(biāo)注的輸出樣本的標(biāo)注準(zhǔn)確性的檢查過(guò)程。特別地,在步驟115中生成的人工標(biāo)注的樣本也被用作訓(xùn)練數(shù)據(jù)以配置檢查過(guò)程(步驟130)。所述檢查過(guò)程可使用選自ner分類(lèi)器、svm分類(lèi)器和神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)算法。替代地,所述檢查過(guò)程可以使用基于正則表達(dá)式的算法。在再一個(gè)選項(xiàng)中,標(biāo)注過(guò)程和檢查過(guò)程使用相同的基于閾值的機(jī)器學(xué)習(xí)算法但是利用不同的閾值。
通過(guò)結(jié)合標(biāo)注過(guò)程和檢查過(guò)程二者,形成了標(biāo)注和檢查過(guò)程160并且對(duì)在所述批量105’中剩余的任何原始樣本執(zhí)行標(biāo)注和檢查過(guò)程160。標(biāo)注和檢查過(guò)程160包括下述步驟。通過(guò)標(biāo)注過(guò)程對(duì)所述批量105’中剩余的單獨(dú)的原始樣本標(biāo)注以產(chǎn)生單獨(dú)的機(jī)器標(biāo)注的樣本(步驟140)。通過(guò)檢查過(guò)程驗(yàn)證單獨(dú)的機(jī)器標(biāo)注的樣本的標(biāo)注準(zhǔn)確性(步驟150)。可選地,在步驟150中生成單獨(dú)的原始樣本的驗(yàn)證結(jié)果151。驗(yàn)證結(jié)果151的一個(gè)用途是在稍后將會(huì)詳述的更新過(guò)程中。驗(yàn)證結(jié)果151包括單獨(dú)的原始樣本、單獨(dú)的機(jī)器標(biāo)注的樣本和單獨(dú)的機(jī)器標(biāo)注的樣本是否準(zhǔn)確的指示。如果在步驟150中單獨(dú)的機(jī)器標(biāo)注的樣本被驗(yàn)證為在標(biāo)注中是準(zhǔn)確的,則從所述批量105’中去除單獨(dú)的原始樣本,否則,丟棄單獨(dú)的機(jī)器標(biāo)注的樣本(步驟155)。要注意,丟棄單獨(dú)的機(jī)器標(biāo)注的樣本暗示需要重新標(biāo)注所述單獨(dú)的原始樣本。對(duì)批量105’中的所有原始樣本執(zhí)行標(biāo)注和檢查過(guò)程160。之后,出于方便通過(guò)參考標(biāo)號(hào)105”指示需要重新標(biāo)注的批量的剩余的原始樣本。
如果批量105”非空,則執(zhí)行更新過(guò)程。本文中提供有更新過(guò)程的兩個(gè)選項(xiàng)。
在更新過(guò)程的第一個(gè)選項(xiàng)171中,通過(guò)再次執(zhí)行步驟110來(lái)從所述批量105”中選擇原始樣本的第二子集。優(yōu)選地,用于選擇所述第一子集的選擇過(guò)程也用于選擇所述第二子集。通過(guò)再次執(zhí)行步驟115,原始樣本的所述第二子集用于人工標(biāo)注以產(chǎn)生額外的人工標(biāo)注的樣本。遵循上述提及的識(shí)別基礎(chǔ)實(shí)例的方法,可以發(fā)現(xiàn)在第二子集中的原始樣本是上述的“特殊實(shí)例”。額外的人工標(biāo)注的樣本被用作額外的訓(xùn)練數(shù)據(jù)以分別在步驟120和130中更新標(biāo)注過(guò)程和檢查過(guò)程。在獲得額外人工標(biāo)注的樣本之后,從所述批量105”中去除屬于選擇的第二子集的原始樣本。如果在完成更新過(guò)程之后所述批量105’(在對(duì)所述批量105”執(zhí)行步驟110之后)非空,則對(duì)于批量105’重復(fù)標(biāo)注和檢查過(guò)程160。如果在完成更新過(guò)程之后所述批量105’為空,則其意味著在執(zhí)行步驟110的過(guò)程中原先在所述批量105”中的所有原始樣本都已經(jīng)被選擇用于人工標(biāo)注。如果原先在所述批量105”中的原始樣本的數(shù)量已經(jīng)非常低(例如,小于預(yù)定的小整數(shù),例如2),則會(huì)發(fā)生這種情況。
在更新過(guò)程的第二個(gè)選項(xiàng)172中,首先獲得具有一個(gè)或多個(gè)驗(yàn)證結(jié)果的收集152,其中每個(gè)驗(yàn)證結(jié)果為單獨(dú)的驗(yàn)證結(jié)果151。收集152中一個(gè)或多個(gè)驗(yàn)證結(jié)果的全部或部分被選擇并且被直接用作額外的訓(xùn)練數(shù)據(jù)以更新標(biāo)注過(guò)程和檢查過(guò)程。在所述更新過(guò)程中不涉及人工標(biāo)注。這樣,更新過(guò)程的第二個(gè)選項(xiàng)172相對(duì)于第一選項(xiàng)171具有這樣的優(yōu)點(diǎn):在機(jī)器標(biāo)注的整個(gè)過(guò)程中不需要人員待命進(jìn)行人工標(biāo)注。
評(píng)效批量原始樣本105的標(biāo)注質(zhì)量是可能的。通過(guò)用標(biāo)注和檢查過(guò)程160處理屬于選擇的第一子集的原始樣本并且然后用人工標(biāo)注的樣本檢查一個(gè)或多個(gè)驗(yàn)證結(jié)果的收集152來(lái)獲得所述批量105的標(biāo)注質(zhì)量。出于這樣的優(yōu)點(diǎn):即在標(biāo)注所述批量105’中的原始樣本之前確定是否可能需要對(duì)標(biāo)注和檢查過(guò)程160進(jìn)行進(jìn)一步改進(jìn),評(píng)效優(yōu)選在通過(guò)人工標(biāo)注的樣本初始配置標(biāo)注過(guò)程和檢查過(guò)程之后馬上執(zhí)行。如果發(fā)現(xiàn)需要進(jìn)一步改進(jìn),可以擴(kuò)展原始樣本的第一子集,并且重復(fù)執(zhí)行人工標(biāo)注115并且在步驟120、130中配置標(biāo)注過(guò)程和檢查過(guò)程。
通過(guò)考慮標(biāo)注100個(gè)原始樣本(作為批量原始樣本105)的情況,提供了用于示意所公開(kāi)的方法的執(zhí)行的一個(gè)示例。出于示意的目的,假設(shè)所述100個(gè)原始樣本沒(méi)有被預(yù)標(biāo)注,使用更新過(guò)程的第一個(gè)選項(xiàng)171,并且兩輪處理足以標(biāo)注所有100個(gè)原始樣本。對(duì)于更新過(guò)程的第二個(gè)選項(xiàng)172的方法的執(zhí)行是類(lèi)似的并且不再重復(fù)。圖2a和2b分別描述了用于第一和第二輪的處理的流程。
參考圖2a,其描繪了第一輪處理。將100個(gè)原始樣本200的批量分割成被選擇用于人工標(biāo)注210的第一多個(gè)的10個(gè)原始樣本和用于機(jī)器標(biāo)注220的第二多個(gè)的90個(gè)原始樣本(對(duì)應(yīng)于步驟110)。第一多個(gè)原始樣本210被人工標(biāo)注(對(duì)應(yīng)于步驟115)以產(chǎn)生第三多個(gè)的10個(gè)人工標(biāo)注的樣本211。第三多個(gè)人工標(biāo)注的樣本211被用于訓(xùn)練標(biāo)注過(guò)程(對(duì)應(yīng)于步驟120)和檢查過(guò)程(對(duì)應(yīng)于步驟130)。在訓(xùn)練標(biāo)注過(guò)程和檢查過(guò)程之后,通過(guò)標(biāo)注過(guò)程(對(duì)應(yīng)于步驟140)機(jī)器標(biāo)注第二多個(gè)原始樣本220以產(chǎn)生第四多個(gè)的90個(gè)機(jī)器標(biāo)注的樣本221。通過(guò)檢查過(guò)程處理第四多個(gè)機(jī)器標(biāo)注的樣本221以驗(yàn)證其中的每個(gè)機(jī)器標(biāo)注的樣本(對(duì)應(yīng)于步驟150)。作為驗(yàn)證的結(jié)果,將第四多個(gè)機(jī)器標(biāo)注的樣本221分割成被確定為被正確地標(biāo)注的第五多個(gè)的50個(gè)機(jī)器標(biāo)注的樣本231以及被確定為被錯(cuò)誤地標(biāo)注的第六多個(gè)的40個(gè)機(jī)器標(biāo)注的樣本232。第一輪處理結(jié)束,并且100個(gè)原始樣本當(dāng)中的60個(gè)被正確地標(biāo)注。剩余的40個(gè)原始樣本(共同對(duì)應(yīng)于第六多個(gè)錯(cuò)誤的機(jī)器標(biāo)注的樣本)形成待在第二輪處理中被處理的第七多個(gè)的40個(gè)原始樣本240。第六多個(gè)錯(cuò)誤的機(jī)器標(biāo)注的樣本232被丟棄。
參考圖2b,其描繪了第二輪處理。將第七多個(gè)原始樣本240分割成用于人工標(biāo)注250的第八多個(gè)的4個(gè)原始樣本和用于機(jī)器標(biāo)注260的第九多個(gè)的36個(gè)原始樣本(對(duì)應(yīng)于步驟110的第二次執(zhí)行)。人工標(biāo)注第八多個(gè)原始樣本250(對(duì)應(yīng)于步驟115的第二次執(zhí)行)以形成第十多個(gè)的4個(gè)額外的人工標(biāo)注的樣本251,所述第十多個(gè)的4個(gè)額外的人工標(biāo)注的樣本251被用作額外的訓(xùn)練數(shù)據(jù)以更新標(biāo)注過(guò)程和檢查過(guò)程(對(duì)應(yīng)于步驟120和130)。在更新標(biāo)注過(guò)程和檢查過(guò)程之后,通過(guò)標(biāo)注過(guò)程(對(duì)應(yīng)于步驟140)標(biāo)注第九多個(gè)原始樣本260以給出第十一多個(gè)的36個(gè)機(jī)器標(biāo)注的樣本261。通過(guò)檢查過(guò)程(對(duì)應(yīng)于步驟150),第十一多個(gè)機(jī)器標(biāo)注的樣本261中的所有36個(gè)樣本被確定為具有準(zhǔn)確的標(biāo)注。因此,獲得了被確定為正確地被標(biāo)注的第十二多個(gè)的36個(gè)機(jī)器標(biāo)注的樣本271。在第二輪處理結(jié)束時(shí),已經(jīng)標(biāo)注了初始在批量200中的所有100個(gè)原始樣本。100個(gè)標(biāo)注的樣本的集合由第三多個(gè)的10個(gè)人工標(biāo)注的樣本211、被確定為正確地被標(biāo)注的第五多個(gè)的50個(gè)機(jī)器標(biāo)注的樣本231、第十多個(gè)的4個(gè)額外的人工標(biāo)注的樣本251以及被確定為正確地被標(biāo)注的第十二多個(gè)的36個(gè)機(jī)器標(biāo)注的樣本271組成。
本發(fā)明的第二方面是為了提供一種用于基于根據(jù)第一方面在上面描述的方法來(lái)標(biāo)注原始樣本的組的計(jì)算機(jī)實(shí)施的方法。
再次參考圖1。原始樣本的組102需要被標(biāo)注。組102中的原始樣本在步驟180中首先被聚類(lèi)以便將組102分割成原始樣本的一個(gè)或多個(gè)聚類(lèi)103。根據(jù)本發(fā)明的第一方面在上文公開(kāi)的方法的任一實(shí)施方式來(lái)標(biāo)注一個(gè)或多個(gè)聚類(lèi)103中的每一個(gè),其中原始樣本的每個(gè)聚類(lèi)被當(dāng)作原始樣本的批量105。
在步驟180中,可使用k均值聚類(lèi)以聚類(lèi)組102中的原始樣本。
在實(shí)際的實(shí)現(xiàn)方式中,可以給組102中的每個(gè)原始樣本提供預(yù)標(biāo)注數(shù)據(jù)。通過(guò)包括單獨(dú)的原始樣本和其預(yù)標(biāo)注數(shù)據(jù)來(lái)形成用于組102中單獨(dú)的原始樣本的數(shù)據(jù)結(jié)構(gòu)。從而獲得了用于組102中所有原始樣本的多個(gè)數(shù)據(jù)結(jié)構(gòu)。在步驟180中,可以執(zhí)行對(duì)所述多個(gè)數(shù)據(jù)結(jié)構(gòu)的k均值聚類(lèi)以聚類(lèi)組102中的原始樣本。
在標(biāo)注原始樣本的單獨(dú)的聚類(lèi)中,在步驟110中選擇的第一子集中的原始樣本的數(shù)量通常為在前述單獨(dú)的聚類(lèi)中的原始樣本的數(shù)量的預(yù)定比例。在一個(gè)選項(xiàng)中,所述預(yù)定比例對(duì)于所有一個(gè)或多個(gè)聚類(lèi)103是唯一的。
本發(fā)明可以以其他具體形式實(shí)施,而不脫離其精神或?qū)嵸|(zhì)特性。因此,本實(shí)施方式應(yīng)該在在所有方面被視為是示例性的,而非限制性的。本發(fā)明的范圍由隨附權(quán)利要求限定,而不是由前述說(shuō)明書(shū)限定,并且因此落入權(quán)利要求的等價(jià)物的意義和范圍內(nèi)的所有變化應(yīng)該包含在本發(fā)明的范圍內(nèi)。