一種數(shù)據(jù)標注方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于句法分析技術(shù)領(lǐng)域,更具體的說,尤其設(shè)及一種數(shù)據(jù)標注方法及裝置。
【背景技術(shù)】
[0002] 隨著網(wǎng)絡(luò)產(chǎn)品例如微博和微信等產(chǎn)品的增長,網(wǎng)絡(luò)數(shù)據(jù)也在日益增長,該就為句 法分析技術(shù)帶來了巨大的挑戰(zhàn)。其中句法分析主要的應用在于中文信息處理中,如機器翻 譯等,其是語塊分析思想的一個直接實現(xiàn),用于對句子中的詞語語法功能進行分析來得到 句子的句法樹。
[0003] 但是目前的句法分析采用完全標注方式,其需要標注者仔細檢查整棵依存句法 樹,操作非常復雜,導致標注過程枯燥而困難。更關(guān)鍵的是整棵依存句法樹的標注者之間的 一致性非常低,當同一句子由兩位標注者給出了不同的句法樹,第=個參與的標注者則需 要對比兩者的不同并決定最后的標注結(jié)果,因此完全標注方法若想保證標注結(jié)果準確度較 高則需要耗費大量工作??偠灾?,上述對句子進行完全標注會增加標注工作量。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本發(fā)明的目的在于提供一種數(shù)據(jù)標注方法及裝置,用于在保證標注結(jié) 果準確度的情況下,降低標注工作量。
[0005] 本發(fā)明提供一種數(shù)據(jù)標注方法,所述方法包括:
[0006] 通過已有的標注數(shù)據(jù)訓練第一句法分析器,其中已有的標注數(shù)據(jù)包括預先在句子 中標注的核屯、詞和所述核屯、詞的依存關(guān)系;
[0007] 基于所述第一句法分析器自動分析當前待分析句子中未標注的詞,從所述未標注 的詞中選取出最有歧義的詞,其中所述最有歧義的詞的依存關(guān)系的標注難度大于同一所述 待分析句子中其他詞的依存關(guān)系的標注難度;
[0008] 對所選取出的最有歧義的詞的依存關(guān)系進行標注,得到部分標注的待分析句子, 其中選取出的最有歧義的詞添加至所述已有的標注數(shù)據(jù)中來訓練第二句法分析器,所述第 二句法分析器替換所述第一句法分析器,用于分析下一個待分析句子中未標注的詞。
[0009] 優(yōu)選地,所述基于第一句法分析器自動分析當前待分析句子中未標注的詞,從所 述未標注的詞中選取出最有歧義的詞,包括:
[0010] 獲取第一預設(shè)數(shù)量的所述待分析句子,并獲取每條所述待分析句子中每個未標注 的詞的依存關(guān)系;
[0011] 通過所述第一句法分析器計算每條所述待分析句子中所有依存關(guān)系的邊緣概 率.
[0012] 基于所述邊緣概率,計算每個未標注的詞的邊緣概率差值;
[0013] 依據(jù)所述邊緣概率差值,從所述未標注的詞中選取第二預設(shè)數(shù)量的最有歧義的 詞;
[0014] 其中所述第一預設(shè)數(shù)量的所述待分析句子從待分析集合中獲取,且每次基于第一 句法分析器自動分析當前待分析句子中未標注的詞時所獲取的所述待分析句子不同。
[0015] 優(yōu)選地,所述基于第一句法分析器自動分析當前待分析句子中未標注的詞,從所 述未標注的詞中選取出最有歧義的詞,包括:
[0016] 基于預選取出的最有歧義的詞的第一數(shù)量,為每次基于所述第一句法分析器進行 自動分析的每條所述待分析句子設(shè)定選取比例,其中所述選取比例用于指示每條所述待分 析句子所選取的最有歧義的詞的第二數(shù)量,且每次基于所述第一句法分析器自動分析每條 所述待分析句子得到的最有歧義的詞的總數(shù)為第一數(shù)量;
[0017] 基于每條所述待分析句子的選取比例,通過所述第一句法分析器選取每條所述待 分析句子中最有歧義的詞,W得到第一數(shù)量的最有歧義的詞,其中在對同一條待分析句子 進行選取時,每次基于邊緣概率差值選取出一個最有歧義的詞,并且同一條待分析句子相 鄰兩次選取出的最有歧義的詞的關(guān)系是;第i次選取出的最有歧義的詞是從與第i-1次選 取出的最有歧義的詞的依存關(guān)系中獲取,2《i《N,N為同一條待分析句子的選取次數(shù)。
[0018] 優(yōu)選地,所述基于第一句法分析器自動分析當前待分析句子中未標注的詞,從所 述未標注的詞中選取出最有歧義的核屯、詞,包括:
[0019] 確定待分析集合中每條待分析句子中所有未標注的詞的依存關(guān)系;
[0020] 通過所述第一句法分析器分別計算每條所述待分析句子中所有依存關(guān)系的邊緣 概率;
[0021] 基于每條待分析句子中各依存關(guān)系的邊緣概率,從每條待分析句子中選取出邊緣 概率差值最小的詞;
[0022] 按照每個所選取出的詞的邊緣概率差值從小到大的排序,從排序的第一位開始向 后選取預設(shè)個數(shù)的詞作為最有歧義的詞。
[0023] 本發(fā)明還提供一種數(shù)據(jù)標注裝置,所述裝置包括:
[0024] 訓練單元,用于通過已有的標注數(shù)據(jù)訓練第一句法分析器,其中已有的標注數(shù)據(jù) 包括預先在句子中標注的核屯、詞和所述核屯、詞的依存關(guān)系;
[00巧]分析單元,用于基于所述第一句法分析器自動分析當前待分析句子中未標注的 詞,從所述未標注的詞中選取出最有歧義的詞,其中所述最有歧義的詞的依存關(guān)系的標注 難度大于同一所述待分析句子中其他詞的依存關(guān)系的標注難度;
[0026] 標注單元,用于對所選取出的最有歧義的詞的依存關(guān)系進行標注,得到部分標注 的待分析句子,其中選取出的最有歧義的詞添加至所述已有的標注數(shù)據(jù)中來訓練第二句法 分析器,所述第二句法分析器替換所述第一句法分析器,用于分析下一個待分析句子中未 標注的詞。
[0027] 優(yōu)選地,所述分析單元包括:
[0028] 第一確定子單元,用于獲取第一預設(shè)數(shù)量的所述待分析句子,并獲取每條所述待 分析句子中每個未標注的詞的依存關(guān)系;
[0029] 第一計算子單元,用于通過所述第一句法分析器計算每條所述待分析句子中所有 依存關(guān)系的邊緣概率;
[0030] 第一選取子單元,用于基于所述邊緣概率,計算每個未標注的詞的邊緣概率差 值;
[0031] 第二選取子單元,用于依據(jù)所述邊緣概率差值,從所述未標注的詞中選取第二預 設(shè)數(shù)量的最有歧義的詞;
[0032] 其中所述第一預設(shè)數(shù)量的所述待分析句子從待分析集合中獲取,且每次基于第一 句法分析器自動分析當前待分析句子中未標注的詞時所獲取的所述待分析句子不同。
[0033] 優(yōu)選地,所述分析單元包括:
[0034] 設(shè)定子單元,用于基于預選取出的最有歧義的詞的第一數(shù)量,為每次基于所述第 一句法分析器進行自動分析的每條所述待分析句子設(shè)定選取比例,其中所述選取比例用于 指示每條所述待分析句子所選取的最有歧義的詞的第二數(shù)量,且每次基于所述第一句法分 析器自動分析每條所述待分析句子得到的最有歧義的詞的總數(shù)為第一數(shù)量;
[00巧]第=選取子單元,用于基于每條所述待分析句子的選取比例,通過所述第一句法 分析器選取每條所述待分析句子中最有歧義的詞,W得到第一數(shù)量的最有歧義的詞,其中 在對同一條待分析句子進行選取時,每次基于邊緣概率差值選取出一個最有歧義的詞,并 且同一條待分析句子相鄰兩次選取出的最有歧義的詞的關(guān)系是:第i次選取出的最有歧義 的詞是從與第i-1次選取出的最有歧義的詞的依存關(guān)系中獲取,2《i《N,N為同一條待 分析句子的選取次數(shù)。
[0036] 優(yōu)選地,所述分析單元包括:
[0037] 第二確定子單元,用于確定待分析集合中每條待分析句子中所有未標注的詞的依 存關(guān)系;
[0038] 第二計算子單元,用于通過所述第一句法分析器分別計算每條所述待分析句子中 所有依存關(guān)系的邊緣概率;
[0039] 第四選取子單元,用于基于每條待分析句子中各依存關(guān)系的邊緣概率,從每條待 分析句子中選取出邊緣概率差值最小的詞;
[0040] 第五選取子單元,用于按照每個所選取出的詞的邊緣概率差值從小打到的排序, 從排序的第一位開始向后選取預設(shè)個數(shù)的詞作為最有歧義的詞。
[0041] 與現(xiàn)有技術(shù)相比,本發(fā)明提供的上述技術(shù)方案具有如下優(yōu)點:
[0042] 本發(fā)明提供的上述技術(shù)方案通過第一句法分析器可W對每條待分析句子進行分 析,選取每條待分析句子中的最有歧義的詞,并對所選取出的最有歧義的詞的依存關(guān)系進 行標注得到部分標注的待分析句子。即本發(fā)明實施例提供的上述技術(shù)方案是一種對待分析 句子進行部分標注的方法,其相對于現(xiàn)有完全標注方法來說降低工作量。并且發(fā)明人通過 實驗證明,對同等數(shù)量的待分析句子進行標注,本發(fā)明實施例提供的上