一種基于異常處理的海量文本自動(dòng)標(biāo)注方法
【專利摘要】本發(fā)明公開了一種基于異常處理的海量文本自動(dòng)標(biāo)注方法,包括如下步驟:S1,從知識(shí)庫中提取命名實(shí)體以及存在關(guān)系的命名實(shí)體對(duì),分別進(jìn)行存儲(chǔ);S2,根據(jù)存儲(chǔ)的命名實(shí)體,通過使用字符串匹配找出海量文本中每個(gè)句子的命名實(shí)體,根據(jù)存儲(chǔ)的命名實(shí)體對(duì)找出文本中所有命名實(shí)體對(duì)共現(xiàn)的句子,進(jìn)行粗標(biāo)注;S3,對(duì)進(jìn)行過粗標(biāo)注的句子中的命名實(shí)體進(jìn)行判斷,當(dāng)存在詞對(duì)異常時(shí),將其刪除;當(dāng)存在命名實(shí)體異常時(shí),通過過濾算法將有命名實(shí)體異常的命名實(shí)體全部去除掉,得到最終的文本標(biāo)注結(jié)果。本發(fā)明能夠有效解決在標(biāo)注過程中錯(cuò)誤標(biāo)注的問題,提高了文本標(biāo)注的準(zhǔn)確率。
【專利說明】一種基于異常處理的海量文本自動(dòng)標(biāo)注方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種文本標(biāo)注方法,尤其涉及一種基于異常處理的海量文本自動(dòng)標(biāo)注 方法,屬于自然語言處理【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]隨著科學(xué)技術(shù)的飛速發(fā)展,各類信息層出不窮,甚至遠(yuǎn)遠(yuǎn)超出了人類閱讀的能 力。如何有效地使用海量數(shù)據(jù),從中找出需要的信息越來越受到人們的重視。信息抽取 (Information Extraction)是幫助人們使用海量數(shù)據(jù)的一種技術(shù)。它的主要目的是從無結(jié) 構(gòu)的自然語言文本中抽取特定的事件、事實(shí)等信息,再轉(zhuǎn)化為結(jié)構(gòu)化或半結(jié)構(gòu)化的信息,然 后儲(chǔ)存在數(shù)據(jù)庫中,供查詢以及進(jìn)一步分析利用,為數(shù)據(jù)挖掘、問答系統(tǒng)、文本挖掘等應(yīng)用 系統(tǒng)提供重要基礎(chǔ)。而實(shí)體關(guān)系抽取是信息抽取中的重要部分,其任務(wù)是從文本中抽取出 兩個(gè)或者多個(gè)實(shí)體之間預(yù)先定義好的語義關(guān)系。
[0003]遠(yuǎn)程監(jiān)督式實(shí)體關(guān)系抽取是實(shí)體關(guān)系抽取領(lǐng)域的研究熱點(diǎn)之一。遠(yuǎn)程監(jiān)督式實(shí)體 關(guān)系抽取首先要使用知識(shí)庫從海量文本中抽取出訓(xùn)練數(shù)據(jù),傳統(tǒng)的做法就是使用命名實(shí)體 解析器從海量文本中識(shí)別命名實(shí)體,如果一個(gè)句子包含兩個(gè)命名實(shí)體并且這兩個(gè)命名實(shí)體 具有Freebase中的某個(gè)關(guān)系,認(rèn)為這個(gè)句子是在描述這兩個(gè)命名實(shí)體之間的關(guān)系,把這個(gè) 句子標(biāo)注出來,后續(xù)再抽取特征、訓(xùn)練分類器。其中,文本標(biāo)注的準(zhǔn)確度直接關(guān)系到實(shí)體關(guān) 系抽取后形成的訓(xùn)練分類器的準(zhǔn)確性,進(jìn)而影響后續(xù)利用該實(shí)體關(guān)系進(jìn)行的數(shù)據(jù)挖掘、問 答系統(tǒng)、文本挖掘等應(yīng)用的準(zhǔn)確性。
[0004] 然而,遠(yuǎn)程監(jiān)督式實(shí)體關(guān)系抽取方法存在著很多的局限,命名實(shí)體解析器根據(jù)訓(xùn) 練時(shí)的情況,可以找出的命名實(shí)體類型是有限的,比如斯坦福的命名實(shí)體解析器只能識(shí)別 出人物、組織和地點(diǎn)這三種命名實(shí)體類型,不足Freebase中命名實(shí)體類型數(shù)量的百分之 一,召回率也不能很好地滿足用戶的需求。其次命名實(shí)體解析器并不能正確標(biāo)注出所有的 人物、組織和地點(diǎn)實(shí)體,會(huì)存在錯(cuò)誤和遺漏的情況,不能有效地滿足文本標(biāo)注的需求。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明所要解決的技術(shù)問題在于提供一種基于異常處理的海量文本自動(dòng)標(biāo)注方 法。
[0006] 為實(shí)現(xiàn)上述的發(fā)明目的,本發(fā)明采用下述的技術(shù)方案:
[0007] 一種基于異常處理的海量文本自動(dòng)標(biāo)注方法,包括如下步驟:
[0008] S1,從知識(shí)庫中提取命名實(shí)體以及存在關(guān)系的命名實(shí)體對(duì),分別進(jìn)行存儲(chǔ);
[0009] S2,根據(jù)存儲(chǔ)的命名實(shí)體,通過使用字符串匹配找出海量文本中每個(gè)句子的命名 實(shí)體,根據(jù)存儲(chǔ)的命名實(shí)體對(duì)找出文本中所有命名實(shí)體對(duì)共現(xiàn)的句子,進(jìn)行粗標(biāo)注;
[0010] S3,對(duì)進(jìn)行過粗標(biāo)注的句子中的命名實(shí)體進(jìn)行判斷,當(dāng)存在詞對(duì)異常時(shí),將其刪 除;當(dāng)存在命名實(shí)體異常時(shí),通過過濾算法將有命名實(shí)體異常的命名實(shí)體全部去除掉,得到 最終的文本標(biāo)注結(jié)果。
[0011] 其中較優(yōu)地,在S2中使用字符串匹配找出文本中每個(gè)句子的命名實(shí)體時(shí),首先判 斷抽取的命名實(shí)體在句子中有沒有重疊,如果有重疊,則選用長度最長的命名實(shí)體,如果沒 有重疊,則將句子中的所有命名實(shí)體全部提取。
[0012] 其中較優(yōu)地,對(duì)進(jìn)行過粗標(biāo)注的句子進(jìn)行判斷時(shí),如果句子中兩個(gè)命名實(shí)體存在 單一關(guān)系,則該命名實(shí)體標(biāo)注無異常;如果句子中兩個(gè)命名實(shí)體存在多種關(guān)系,則該命名實(shí) 體存在詞對(duì)異常。
[0013] 其中較優(yōu)地,通過過濾算法將有異常的命名實(shí)體全部去除掉,得到最終的文本標(biāo) 注結(jié)果的過程包括如下步驟:
[0014] S31,對(duì)進(jìn)行過粗標(biāo)注的句子中的命名實(shí)體進(jìn)行類別數(shù)量判斷,根據(jù)類別數(shù)量將有 命名實(shí)體異常的命名實(shí)體進(jìn)行過濾;
[0015] S32,當(dāng)命名實(shí)體的類別數(shù)量和其他同名實(shí)體差異性相當(dāng)時(shí),通過命名實(shí)體出現(xiàn)的 頻次對(duì)有命名實(shí)體異常的命名實(shí)體進(jìn)行進(jìn)一步的過濾;
[0016] S33,對(duì)于前兩步中判定沒有命名實(shí)體異常的命名實(shí)體,使用基于命名實(shí)體詞性的 方法再過濾掉詞性異常的命名實(shí)體,得到最終的文本標(biāo)注結(jié)果。
[0017] 其中較優(yōu)地,對(duì)進(jìn)行過粗標(biāo)注的句子中的命名實(shí)體進(jìn)行類別數(shù)量判斷包括如下步 驟:
[0018] S311,對(duì)于命名實(shí)體e,在知識(shí)庫中找出所有與e同名的命名實(shí)體,當(dāng)命名實(shí)體e的 類別數(shù)量多于其他同名實(shí)體時(shí),則該命名實(shí)體e沒有異常;
[0019] S312,當(dāng)命名實(shí)體e的類別數(shù)量小于其他同名實(shí)體時(shí),則命名實(shí)體e存在異常,此 時(shí)把命名實(shí)體e過濾掉。
[0020] 其中較優(yōu)地,依據(jù)文本中命名實(shí)體出現(xiàn)的頻次對(duì)異常的命名實(shí)體進(jìn)行過濾包括如 下步驟:
[0021] S321,對(duì)于命名實(shí)體e,統(tǒng)計(jì)文本中出現(xiàn)e的句子數(shù)量sentencee;
[0022] S322,當(dāng)命名實(shí)體e出現(xiàn)在關(guān)系的實(shí)例中時(shí),統(tǒng)計(jì)所有包含命名實(shí)體e的關(guān)系實(shí)例 出現(xiàn)的句子數(shù)量sentence^ ;
[0023] S323,通過公式
【權(quán)利要求】
1. 一種基于異常處理的海量文本自動(dòng)標(biāo)注方法,其特征在于包括如下步驟: S1,從知識(shí)庫中提取命名實(shí)體以及存在關(guān)系的命名實(shí)體對(duì),分別進(jìn)行存儲(chǔ); 52, 根據(jù)存儲(chǔ)的命名實(shí)體,通過使用字符串匹配找出海量文本中每個(gè)句子的命名實(shí)體, 根據(jù)存儲(chǔ)的命名實(shí)體對(duì)找出文本中所有命名實(shí)體對(duì)共現(xiàn)的句子,進(jìn)行粗標(biāo)注; 53, 對(duì)進(jìn)行過粗標(biāo)注的句子中的命名實(shí)體進(jìn)行判斷,當(dāng)存在詞對(duì)異常時(shí),將其刪除;當(dāng) 存在命名實(shí)體異常時(shí),通過過濾算法將有命名實(shí)體異常的命名實(shí)體全部去除掉,得到最終 的文本標(biāo)注結(jié)果。
2. 如權(quán)利要求1所述的基于異常處理的海量文本自動(dòng)標(biāo)注方法,其特征在于: 在步驟S2中使用字符串匹配找出文本中每個(gè)句子的命名實(shí)體時(shí),首先判斷抽取的命 名實(shí)體在句子中有沒有重疊,如果有重疊,則選用長度最長的命名實(shí)體,如果沒有重疊,則 將句子中的所有命名實(shí)體全部提取。
3. 如權(quán)利要求1所述的基于異常處理的海量文本自動(dòng)標(biāo)注方法,其特征在于: 對(duì)進(jìn)行過粗標(biāo)注的句子進(jìn)行判斷時(shí),如果句子中兩個(gè)命名實(shí)體存在單一關(guān)系,則該命 名實(shí)體標(biāo)注無異常;如果句子中兩個(gè)命名實(shí)體存在多種關(guān)系,則該命名實(shí)體存在詞對(duì)異常。
4. 如權(quán)利要求1所述的基于異常處理的海量文本自動(dòng)標(biāo)注方法,其特征在于通過過濾 算法將有異常的命名實(shí)體全部去除掉,得到最終的文本標(biāo)注結(jié)果的過程包括如下步驟: S31,對(duì)進(jìn)行過粗標(biāo)注的句子中的命名實(shí)體進(jìn)行類別數(shù)量判斷,根據(jù)類別數(shù)量將有命名 實(shí)體異常的命名實(shí)體進(jìn)行過濾; 532, 當(dāng)命名實(shí)體的類別數(shù)量和其他同名實(shí)體差異性相當(dāng)時(shí),通過命名實(shí)體出現(xiàn)的頻次 對(duì)有命名實(shí)體異常的命名實(shí)體進(jìn)行進(jìn)一步的過濾; 533, 對(duì)于前兩步中判定沒有命名實(shí)體異常的命名實(shí)體,使用基于命名實(shí)體詞性的方法 再過濾掉詞性異常的命名實(shí)體,得到最終的文本標(biāo)注結(jié)果。
5. 如權(quán)利要求4所述的基于異常處理的海量文本自動(dòng)標(biāo)注方法,其特征在于對(duì)進(jìn)行過 粗標(biāo)注的句子中的命名實(shí)體進(jìn)行類別數(shù)量判斷包括如下步驟: S311,對(duì)于命名實(shí)體e,在知識(shí)庫中找出所有與e同名的命名實(shí)體,當(dāng)命名實(shí)體e的類別 數(shù)量多于其他同名實(shí)體時(shí),則該命名實(shí)體e沒有異常; S312,當(dāng)命名實(shí)體e的類別數(shù)量小于其他同名實(shí)體時(shí),則命名實(shí)體e存在異常,此時(shí)把 命名實(shí)體e過濾掉。
6. 如權(quán)利要求4所述的基于異常處理的海量文本自動(dòng)標(biāo)注方法,其特征在于依據(jù)文本 中命名實(shí)體出現(xiàn)的頻次對(duì)異常的命名實(shí)體進(jìn)行過濾包括如下步驟: S321,對(duì)于命名實(shí)體e,統(tǒng)計(jì)文本中出現(xiàn)e的句子數(shù)量sentence^ ; 5322, 當(dāng)命名實(shí)體e出現(xiàn)在關(guān)系的實(shí)例中時(shí),統(tǒng)計(jì)所有包含命名實(shí)體e的關(guān)系實(shí)例出現(xiàn) 的句子數(shù)量sentence。; 5323, 通過公式
計(jì)算偏差系數(shù)α ; 5324, 當(dāng)偏差系數(shù)α小于特定值時(shí),把命名實(shí)體e過濾掉。
7. 如權(quán)利要求3所述的基于異常處理的海量文本自動(dòng)標(biāo)注方法,其特征在于使用基于 命名實(shí)體詞性的方法再過濾掉詞性異常的命名實(shí)體的過程包括如下步驟: S331,對(duì)于命名實(shí)體e,判斷其在文本中的常見詞性POS,; 5332, 當(dāng)命名實(shí)體e是關(guān)系r的實(shí)例中的第一個(gè)實(shí)體時(shí),找出關(guān)系r所有實(shí)例中第一個(gè) 實(shí)體最常見的詞性P0S,,否則找出關(guān)系r所有實(shí)例中第二個(gè)實(shí)體最常見的詞性P0S,; 5333, 如果P0Se與P0S,不相等,則判定命名實(shí)體e有異常。
8.如權(quán)利要求7所述的基于異常處理的海量文本自動(dòng)標(biāo)注方法,其特征在于: 判斷命名實(shí)體e在文本中的常見詞性,首先找出文本中所有包含e的關(guān)系實(shí)例共現(xiàn)的 句子,然后根據(jù)命名實(shí)體的詞性就是其包含多個(gè)詞語的最后一個(gè)詞語的詞性,得到命名實(shí) 體e的所有詞性,最后統(tǒng)計(jì)命名實(shí)體出現(xiàn)次數(shù)最多的詞性,即為命名實(shí)體最常見的詞性。
【文檔編號(hào)】G06F17/30GK104298714SQ201410472856
【公開日】2015年1月21日 申請(qǐng)日期:2014年9月16日 優(yōu)先權(quán)日:2014年9月16日
【發(fā)明者】劉瑞, 左源, 王德慶 申請(qǐng)人:北京航空航天大學(xué)