述技術(shù)方案相對(duì)于 現(xiàn)有完全標(biāo)注方法來(lái)說(shuō)降低80%的工作量,卻取得與完全標(biāo)注方法近似的準(zhǔn)確度。
【附圖說(shuō)明】
[0043] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖是本發(fā)明 的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可W根據(jù) 該些附圖獲得其他的附圖。
[0044] 圖1是本發(fā)明實(shí)施例提供的數(shù)據(jù)標(biāo)注方法的流程圖;
[0045] 圖2是本發(fā)明實(shí)施例提供的已部分標(biāo)注的句子的一種示意圖;
[0046] 圖3是本發(fā)明實(shí)施例提供的已部分標(biāo)注的句子的另一種示意圖;
[0047] 圖4是圖1所示數(shù)據(jù)標(biāo)注方法中選取最有歧義的詞的一種流程圖;
[0048] 圖5是圖1所示數(shù)據(jù)標(biāo)注方法中選取最有歧義的詞的另一種流程圖;
[0049] 圖6是圖1所示數(shù)據(jù)標(biāo)注方法中選取最有歧義的詞的再一種流程圖;
[0050] 圖7是本發(fā)明實(shí)施例提供的數(shù)據(jù)標(biāo)注裝置的結(jié)構(gòu)示意圖;
[0051] 圖8是圖7所示數(shù)據(jù)標(biāo)注裝置中分析單元的第一種結(jié)構(gòu)示意;
[0052] 圖9是圖7所示數(shù)據(jù)標(biāo)注裝置中分析單元的第二種結(jié)構(gòu)示意;
[0053] 圖10是圖7所示數(shù)據(jù)標(biāo)注裝置中分析單元的第=種結(jié)構(gòu)示意。
【具體實(shí)施方式】
[0054] 為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例 中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是 本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員 在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0055] 請(qǐng)參閱圖1,其示出了本發(fā)明實(shí)施例提供的數(shù)據(jù)標(biāo)注方法的一種流程圖,可W包括 W下步驟:
[0056] 101 ;通過(guò)已有的標(biāo)注數(shù)據(jù)訓(xùn)練第一句法分析器,其中已有的標(biāo)注數(shù)據(jù)為預(yù)先在句 子中標(biāo)注的核屯、詞和所述核屯、詞的依存關(guān)系。在本發(fā)明實(shí)施例中,預(yù)先選取的核屯、詞可W 是通過(guò)其他句法分析器得到,當(dāng)然其也可W是人工選取的核屯、詞。
[0057] 并且第一句法分析器可W采用基于CRF(ConditionalRandomField,條件隨機(jī) 域)的句法分析器,一方面,基于CRF的句法分析器可W利用邊緣概率選取后續(xù)所需的核屯、 詞,另一方面,基于CRF的句法分析器能夠從部分標(biāo)注中獲取到有效信息,如核屯、詞,其中 部分標(biāo)注是對(duì)某個(gè)句子的部分詞的依存關(guān)系進(jìn)行標(biāo)注,如圖2所示的句子S。,對(duì)該句子中的 saw和Sar址該兩個(gè)詞的依存關(guān)系采用箭頭指示的依存弧來(lái)表示,每個(gè)依存弧上面的數(shù)據(jù) 表示的是邊緣概率,每個(gè)詞下方給出的gap表示其最可能的兩個(gè)核屯、詞對(duì)應(yīng)的邊緣概率差 值。
[0058] 上述基于CRF的句法分析器將待分析句子從序列形式轉(zhuǎn)化為依存句法樹(shù),一棵 依存句法樹(shù)由多個(gè)依存弧構(gòu)成,每個(gè)依存弧表示了兩詞之間的句法關(guān)系,其可W形式化表 示為d= {化,m, 1) :0《h《n, 0<m《n, 1GL},其中一條有向弧也m, 1)表示從核屯、詞 化ead)Wh到依存詞(dependent)Wm的依存弧,標(biāo)簽1表示依存弧的句法關(guān)系類型,L是標(biāo)注 規(guī)范中定義的依存句法關(guān)系類型集合,W。是人為標(biāo)記的句子的根,即句子的開(kāi)始結(jié)點(diǎn)。
[0059]基于CRF的句法分析器屬于對(duì)數(shù)線性(log-linear)模型,其將一棵依存句法樹(shù)的 概率定義為:
[0060]
[0061] 其中Score(X,d; 0 )是依存句法樹(shù)d的分值,是權(quán)重向量0和特征向量f(x,d) 的點(diǎn)積,如Score(x,d;0) = 0 -f(x,d),0可W通過(guò)隨機(jī)梯度下降的方法來(lái)調(diào)整。y(x) 是所有對(duì)變量x(訓(xùn)練第一句法分析器時(shí)使用的標(biāo)注數(shù)據(jù)所在句子)而言合適的依存句法 樹(shù),d'是依存弧?;谝?guī)范化,為了設(shè)計(jì)有效的動(dòng)態(tài)解碼程序,Score(x,d;0)的分值通常 分解成許多子樹(shù)的和,如下公式所示:
[0062]
庚中P是由預(yù)設(shè)數(shù)量的依存弧構(gòu)建的子樹(shù)。
[0063] 在訓(xùn)練上述基于CRF的句法分析器時(shí)可W采用基于完全標(biāo)注數(shù)據(jù)的方法和 基于部分標(biāo)注數(shù)據(jù)的方法,其中基于完全標(biāo)注數(shù)據(jù)的方法如下;假設(shè)訓(xùn)練數(shù)據(jù)集合為
其中每個(gè)句子X(jué)i的句法結(jié)構(gòu)為一顆完整的依存句法樹(shù)d1。那么訓(xùn)練數(shù)據(jù) 集合D的似然函數(shù)為:
是依存句法樹(shù)di的概率。
[0064] 訓(xùn)練目標(biāo)為最大化如上似然函數(shù),對(duì)其求偏導(dǎo)可W得到:
[0065]
[0066] 其中,第一項(xiàng)為根據(jù)人工標(biāo)注的依存句法樹(shù)獲得的特征的統(tǒng)計(jì)數(shù),第二項(xiàng)為模型 期望,可W采用經(jīng)典的Inside-Outside動(dòng)態(tài)規(guī)劃算法,在多項(xiàng)式時(shí)間內(nèi)計(jì)算出模型期值。
[0067] 上述基于部分標(biāo)注數(shù)據(jù)的方法可W借助模糊標(biāo)注的方法,即允許一個(gè)句子有多個(gè) 依存句法樹(shù)作為其參考對(duì)象。首先,將一個(gè)部分依存句法樹(shù)轉(zhuǎn)化成句法森林,然后利用森林 監(jiān)督該句法分析器,如圖3所示,其中圖3中"saw"和"with"是通過(guò)標(biāo)注得到核屯、詞,剩下 的不標(biāo)注的詞可W人為進(jìn)行標(biāo)注,在進(jìn)行標(biāo)注時(shí)不能改變?cè)摼渥右延械囊来骊P(guān)系。
[0068] 設(shè)定一個(gè)句子的概率為X,標(biāo)注后的句法森林為F,F(xiàn)定義為句法森林F包含的所 有依存句法樹(shù)D的概率之和
[0069] 當(dāng)句法森林F的訓(xùn)練數(shù)據(jù)集合為〇 =《和式化li,其中每個(gè)句子X(jué)i的句法結(jié)構(gòu)為一 顆完整的依存句法樹(shù)di。那么訓(xùn)練數(shù)據(jù)集合D的似然函數(shù)為
P化|Xi; 0 )是句法森林Fi的概率。
[0070] 訓(xùn)練目標(biāo)為最大化如上似然函數(shù),對(duì)其求偏導(dǎo)可W得到:
[0071]
[007引其中,第一項(xiàng)相巧.[/(疋,圳表示句法森林F空間中特征的期望值,其使用Inside-Outside算法求解。第二項(xiàng)
[0073] 注意的是,上述基于完全標(biāo)注數(shù)據(jù)的方法可W理解成是句法森林F只包含一個(gè)依 存句法樹(shù)的部分標(biāo)注訓(xùn)練時(shí)的特例,并且本發(fā)明實(shí)施例優(yōu)選基于部分標(biāo)注數(shù)據(jù)的方法。
[0074] 102;基于第一句法分析器自動(dòng)分析當(dāng)前待分析句子中未標(biāo)注的詞,從未標(biāo)注的詞 中選取出最有歧義的詞。其中最有歧義的詞的依存關(guān)系的標(biāo)注難度大于同一所述待分析句 子中其他詞的依存關(guān)系的標(biāo)注難度,如圖3所示句子為待分析句子時(shí),saw的標(biāo)注難度大于 with的標(biāo)注難度,因此saw是該句子中的最有歧義的詞。
[0075] 103;對(duì)所選取出的最有歧義的詞的依存關(guān)系進(jìn)行標(biāo)注,得到部分標(biāo)注的待分析句 子。
[0076] 在本發(fā)明實(shí)施例中,可W通過(guò)語(yǔ)義分析來(lái)得到詞與詞之間的依存關(guān)系,然后再使 用預(yù)先設(shè)置形狀的依存弧進(jìn)行標(biāo)注,該樣對(duì)于每個(gè)待分析句子來(lái)說(shuō)其標(biāo)注的依存弧的形式 同一,使得依存句法樹(shù)的標(biāo)注一致性得到提高。當(dāng)然依存關(guān)系也可W由用戶人為分析得出, 但是該種方式會(huì)降低標(biāo)注的一致性。
[0077] 選取出的最有歧義的詞可W添加至已有的標(biāo)注數(shù)據(jù)中來(lái)訓(xùn)練第二句法分析器,第 二句法分析器替換第一句法分析器,用于分析下一個(gè)待分析句子中未標(biāo)注的數(shù)據(jù),該樣會(huì) 使第一句法分析器不斷更新W提高利用第一句法分析器得到的最有歧義的詞的準(zhǔn)確度。
[0078] 在該里需要說(shuō)明的一點(diǎn)是;通過(guò)已有的標(biāo)注數(shù)據(jù)訓(xùn)練第一句法分析器可W首先將 已有的標(biāo)注數(shù)據(jù)按照每句為單位轉(zhuǎn)換成句法森林,再利用上述基于部分標(biāo)注方法來(lái)訓(xùn)練基 于CRF的句法分析器作為第一句法分析器。
[0079] 從上述技術(shù)方案可W看出,通過(guò)第一句法分析器可W對(duì)每條待分析句子進(jìn)行分 析,選取每條待分析句子中的最有歧義的詞,并對(duì)所選取出的最有歧義的詞的依存關(guān)系進(jìn) 行標(biāo)注得到部分標(biāo)注的待分析句子。即本發(fā)明實(shí)施例提供的上述技術(shù)方案是一種對(duì)待分析 句子進(jìn)行部分標(biāo)注的方法,其相對(duì)于現(xiàn)有完全標(biāo)注方法來(lái)說(shuō)降低工作量。并且發(fā)明人通過(guò) 實(shí)驗(yàn)證明,對(duì)同等數(shù)量的待分析句子進(jìn)行標(biāo)注,本發(fā)明實(shí)施例提供的上述技術(shù)方案相對(duì)于 現(xiàn)有完全標(biāo)注方法來(lái)說(shuō)降低80%的工作量,卻取得與完全標(biāo)注方法近似的準(zhǔn)確度。
[0080] 上述技術(shù)方案中已經(jīng)指出每次選取出的最有歧義的詞會(huì)添加至已有的標(biāo)注數(shù)據(jù) 來(lái)訓(xùn)練第二句法分析器,第二句法分析器替換第一句法分