本發(fā)明屬于命名實體識別和細(xì)粒度實體分類技術(shù)領(lǐng)域,具體涉及一種面向純文本的企業(yè)實體分類方法。
背景技術(shù):
近年來,隨著“互聯(lián)網(wǎng)金融”的熱潮,越來越多的企業(yè)決策者迫切需要利用更先進的信息處理方式來對海量的互聯(lián)網(wǎng)數(shù)據(jù)進行抽取和分析,以便做出更好的決策。在這些海量數(shù)據(jù)之中,法院文書類、新聞輿情類等純文本數(shù)據(jù)成為企業(yè)獲取高價值信息的首要來源。
命名實體識別技術(shù)是企業(yè)進行實體語義分析,實體關(guān)系抽取等工作的基礎(chǔ)。目前主流的命名實體識別技術(shù)只是將實體分為人名、地名、機構(gòu)名等,這使得實體的類型缺乏語義。同時,進行實體分類時過多依賴于人工特征和外部數(shù)據(jù),使其通用性和健壯性得不到保證。
技術(shù)實現(xiàn)要素:
本發(fā)明針對目前主流的命名實體識別技術(shù)只是將實體分為人名、地名、機構(gòu)名等,使得實體的類型缺乏語義。此外,進行實體分類時過多依賴于人工特征和外部數(shù)據(jù),使其通用性和健壯性得不到保證。為解決上述問題,本發(fā)明提出一種面向純文本的企業(yè)實體分類方法,采用企業(yè)實體更細(xì)粒度的劃分方式,并且使用文本本身的語義構(gòu)建特征,最后進行企業(yè)實體的分類。其中,純文本,即包含企業(yè)活動信息的文本,譬如新聞文本、法院文書等。
如圖1所示,本發(fā)明所公開的面向純文本的企業(yè)實體分類方法,包括如下步驟:
s1、對采集到的純文本數(shù)據(jù)中的企業(yè)實體進行類別標(biāo)注,將標(biāo)注完成的數(shù)據(jù)作為企業(yè)實體識別模塊的訓(xùn)練集;對采集到的純文本數(shù)據(jù)中的企業(yè)實體按照行業(yè)性質(zhì)進行類別標(biāo)注,將標(biāo)注完成的數(shù)據(jù)作為企業(yè)實體分類模塊的訓(xùn)練樣本集;
s2、通過條件隨機場模型進行企業(yè)實體識別模型訓(xùn)練,并得到企業(yè)實體識別模型;
s3、對原始訓(xùn)練集的文本數(shù)據(jù)進行語義向量化構(gòu)建;
s4、將經(jīng)語義向量化后的有類別標(biāo)注的訓(xùn)練集數(shù)據(jù)作為訓(xùn)練參數(shù)訓(xùn)練出企業(yè)實體分類模型;
s5、利用企業(yè)實體分類模型對待預(yù)測文本中的企業(yè)實體進行分類。
進一步的,s1中,將采集到的純文本數(shù)據(jù)進行分句、分詞和詞性標(biāo)注,采用人工標(biāo)注的方法對純文本數(shù)據(jù)中的企業(yè)實體和行業(yè)類別進行標(biāo)注。
進一步的,使用開源的分詞和詞性標(biāo)注軟件hanlp對純文本數(shù)據(jù)進行分句、分詞和詞性標(biāo)注。
進一步的,對純文本數(shù)據(jù)中的企業(yè)實體標(biāo)注方式為“bio”標(biāo)記形式,其中,企業(yè)實體的起始詞標(biāo)記為“b”,企業(yè)實體非起始詞的其他部分詞語標(biāo)記為“i”,與企業(yè)實體無關(guān)的詞語標(biāo)記為“o”。
進一步的,采用人工標(biāo)注的方法中,對純文本數(shù)據(jù)中的企業(yè)實體依據(jù)上下文內(nèi)容按照行業(yè)性質(zhì)對其進行類別標(biāo)注。
進一步的,s2中,通過引入邊界特征的條件隨機場模型進行企業(yè)實體識別模型訓(xùn)練。
進一步的,引入邊界特征的條件隨機場模型包括:通過hanlp將企業(yè)名稱分詞后整理得到左、右邊界詞典;使用開源的libsvm訓(xùn)練得到左、右邊界的預(yù)測模型;依次從訓(xùn)練集中取出詞語并通過左、右邊界的預(yù)測模型來判斷該詞語是否是左、右邊界詞;將包括詞語本身、詞性標(biāo)注、左右邊界標(biāo)記、實體標(biāo)注的訓(xùn)練集數(shù)據(jù)輸入開源的條件隨機場工具進行企業(yè)實體識別模型的訓(xùn)練并得到企業(yè)實體的識別模型。
進一步的,s3中,使用詞向量計算工具得到訓(xùn)練樣本集中所有詞的詞向量,計算訓(xùn)練樣本集中所有詞的逆文本頻率(idf)值,利用詞向量和tf-idf值計算包含有企業(yè)實體語句中的企業(yè)實體的向量和上下文向量,將企業(yè)實體的向量和上下文向量進行拼接,以得到包含上下文語義的企業(yè)實體語義向量。
進一步的,使用開源的word2vec工具計算訓(xùn)練集中所有詞的詞向量。
進一步的,s4中,對已經(jīng)有類別標(biāo)注的訓(xùn)練集數(shù)據(jù)使用softmax模型訓(xùn)練出企業(yè)實體的分類模型。
本發(fā)明所具有的有益效果如下所述:
1)使用詞典規(guī)則和svm分類器來預(yù)先確定實體的左右邊界,之后將判定的左右邊界的結(jié)果作為新特征引入到條件隨機場模型中,本發(fā)明改進的方法在召回率和f1值上有很大提升。
2)使用詞嵌入加權(quán)的方式,對實體及其上下文進行語義向量化表示,從而使得實體之間的語義可以通過語義向量距離來度量。用得到的語義向量作為實體的特征,減少對人工特征和外部數(shù)據(jù)的依賴。
3)在現(xiàn)有的條件隨機場模型中引入實體邊界特征,而實體邊界特征的引入加強了條件隨機場模型對實體邊界的控制能力,如識別的召回率有了非常明顯的提高,也使其通用性和健壯性得到保證。
附圖說明
圖1為本發(fā)明所公開的面向純文本的企業(yè)實體分類方法流程框圖。
圖2為實施例中的訓(xùn)練集構(gòu)建流程圖。
圖3為實施例中的基于改進條件隨機場的企業(yè)實體識別模型訓(xùn)練流程圖。
圖4為實施例中的基于詞向量和tf-idf值加權(quán)的實體語義向量構(gòu)建流程圖。
圖5為企業(yè)實體分類模型訓(xùn)練流程圖。
圖6為企業(yè)實體分類流程圖。
具體實施方式
為了更了解本發(fā)明的技術(shù)內(nèi)容,特舉一具體的面向法院文書的企業(yè)實體分類方法實施例并配合所附圖式說明如下。
如圖2所示,本發(fā)明在實施之前先構(gòu)建訓(xùn)練樣本集。實施例中構(gòu)建訓(xùn)練樣本集的過程如下:
步驟1-0、建立訓(xùn)練集的起始狀態(tài)。
步驟1-1、使用網(wǎng)絡(luò)爬蟲工具從互聯(lián)網(wǎng)中采集法院文書,作為原始語料庫。
步驟1-2、對采集得到的文書數(shù)據(jù),使用開源的分詞和詞性標(biāo)注軟件hanlp對文書文本進行分句、分詞和詞性標(biāo)注。當(dāng)然,一般的開源分詞軟件都可以使用,譬如中科院分詞等等,實施例中選用的hanlp軟件相較于目前的開源分詞軟件來說分詞的效果相對更好,并且可以人工定制詞典,也更方便。
步驟1-3、由于文本中的企業(yè)實體詞(即是企業(yè)的名稱,主要包括全稱和簡稱兩種形式)經(jīng)分詞后會切分為多個詞,所以需要通過人工標(biāo)注的方法,將文書文本中的企業(yè)實體標(biāo)注出來,標(biāo)注的方式為“bio”標(biāo)記形式,即企業(yè)實體的起始詞標(biāo)記為“b”,企業(yè)實體非起始詞的其他部分詞語標(biāo)記為“i”,與企業(yè)實體無關(guān)的詞語標(biāo)記為“o”,如“被告(o)江蘇(b)歐亞(i)薄膜(i)有限公司(i)”。標(biāo)注完成的數(shù)據(jù)作為企業(yè)實體識別模型的訓(xùn)練集。
同時,對采集到的文書文本中的企業(yè)實體依據(jù)上下文內(nèi)容按照行業(yè)性質(zhì)對其進行類別標(biāo)注。標(biāo)注完成的數(shù)據(jù)作為企業(yè)實體分類模型的訓(xùn)練集,標(biāo)注完成的數(shù)據(jù)即包括一句包含企業(yè)名稱的語句和該企業(yè)所屬行業(yè)的類標(biāo),而整個訓(xùn)練集就是若干條這樣的句子+類標(biāo)的集合。其中,類別標(biāo)注的標(biāo)準(zhǔn)可以選用具有準(zhǔn)確性和權(quán)威性的國民經(jīng)濟行業(yè)分類(gb/t4754-2011)中的劃分方式。
步驟1-4、建立訓(xùn)練集的結(jié)束。
如圖3所示,在構(gòu)建完訓(xùn)練集之后,使用改進的條件隨機場方法,即,通過引入邊界特征的條件隨機場模型進行企業(yè)實體識別模型訓(xùn)練。
步驟2-0、企業(yè)實體識別模型訓(xùn)練的開始。
步驟2-1、輸入經(jīng)過分句、分詞、詞性標(biāo)注和實體標(biāo)注后的訓(xùn)練集數(shù)據(jù)(即步驟1-3中的標(biāo)注完成數(shù)據(jù))。
步驟2-2、從互聯(lián)網(wǎng)中爬取一些企業(yè)名錄,將這些企業(yè)名稱通過hanlp分詞后整理得到左、右邊界詞典。左邊界詞指的是企業(yè)名稱分詞后的第一個詞,右邊界詞指的是企業(yè)名稱分詞后的最后一個詞。將所有的左、右邊界詞整理成為左、右邊界詞詞典。
步驟2-3、使用開源的libsvm訓(xùn)練得到左、右邊界的預(yù)測模型。左邊界預(yù)測模型訓(xùn)練過程中選擇的特征為:當(dāng)前詞以及后兩個詞的詞語本身和詞性;右邊界預(yù)測模型訓(xùn)練過程中選擇的特征為:當(dāng)前詞以及前兩個詞的詞語本身和詞性。其中,使用的開源的libsvm具有較好的健壯性和更好的分類邊界
步驟2-4、依次從訓(xùn)練集中取出詞語并通過左、右邊界的預(yù)測模型來判斷該詞語是否是左、右邊界詞。
當(dāng)前詞語是否是左邊界詞的判斷方法為:如果該詞語出現(xiàn)在左邊界詞典中,且該詞語右邊兩個詞窗口內(nèi)有詞語在svm方法下判定為左邊界詞則為正確的左邊界詞,否則舍去。當(dāng)然,每個詞在詞典方法和svm方法下都有一個判斷結(jié)果,但是這兩個方法都存在缺點,實施例中這一步是綜合兩個方法的結(jié)果,選擇出一個更合理的結(jié)果。
當(dāng)前詞語是否是右邊界詞的判斷方法為:如果該詞語出現(xiàn)在右邊界詞典中,且該詞語左邊兩個詞窗口內(nèi)有詞語在svm方法下判定為右邊界詞則為正確的右邊界詞,否則舍去。
步驟2-5、判斷是否遍歷完所有的詞語,如果遍歷完成則到步驟2-7,否則到2-6。
步驟2-6、計數(shù)器i加1,取出文本中的下一個詞語。以上步驟實際就是判斷某個詞是否為左右邊界詞。
步驟2-7、將訓(xùn)練集的數(shù)據(jù)輸入開源的條件隨機場工具crf++進行企業(yè)實體識別模型的訓(xùn)練,輸出企業(yè)實體的識別模型。訓(xùn)練數(shù)據(jù)選擇的特征為詞語本身、詞性標(biāo)注、左右邊界標(biāo)記、實體標(biāo)注。
步驟2-8、企業(yè)實體識別模型訓(xùn)練的結(jié)束。
可見,本發(fā)明在現(xiàn)有的條件隨機場模型中引入實體邊界特征,在使用條件隨機場模型之前判斷一下這個詞是否是左右邊界詞,將這個結(jié)果作為特征,之后使用條件隨機場模型,而實體邊界特征的引入加強了條件隨機場模型對實體邊界的控制能力,具體體現(xiàn)為識別的召回率有了明顯提高。
如圖4所示,對原始訓(xùn)練集的文本數(shù)據(jù)進行語義向量化構(gòu)建的流程圖。
步驟3-0、訓(xùn)練集文本語義向量構(gòu)建的開始。
步驟3-1、輸入已經(jīng)完成分句、分詞、詞性標(biāo)注和類別標(biāo)注的訓(xùn)練集文本集合。
步驟3-2、使用開源的word2vec工具計算訓(xùn)練集中所有詞的詞向量。值得注意的是,word2vec是google開源的計算詞向量的工具,目前此類的工具很多,word2vec比較知名,可替代的工具也有很多比如java的word2vec4j等等。
步驟3-3、計算訓(xùn)練集中所有詞的逆文本頻率(idf)值,其計算的公式如下:
其中,對數(shù)函數(shù)內(nèi)的分?jǐn)?shù),分子表示整個文檔中文檔的總數(shù),分母表示包含某個詞語的文檔數(shù)再加1,取兩者的比值。
步驟3-4、從訓(xùn)練集中的第一句文本開始依次取出文檔中的每一句文本。
步驟3-5、利用企業(yè)實體識別模型判斷取出的這一句文本中是否有企業(yè)實體的存在,如果有則到步驟3-6,否則到步驟3-10。
步驟3-6、在步驟3-5中判斷出文本中包含企業(yè)實體之后,對實體部分的語義向量進行計算,假設(shè)一個實體的向量表示為vm,構(gòu)成它的詞組其向量表示分別為:w1,w2,...,wn,則vm的計算公式如下:
步驟3-7、在步驟3-6計算實體的語義向量之后,對實體的上下文部分計算語義向量,其計算方式如下:
其中,v(context)是上下文的的向量表征形式,tf·idf(wi)表示詞語wi的tf-idf值,v(wi)為詞語wi的詞向量,k為詞窗口大小(即取上下文中靠近中心實體的前k個詞)。詞語的tf值為文本中出現(xiàn)該詞語的頻次,詞語的tf-idf值即為詞語的tf值與idf值的乘積。
步驟3-8、對步驟3-6和步驟3-7中得到的實體和上下文的語義向量進行拼接,具體操作為對k維的實體向量和k維的上下文向量,以實體向量在前,上下文向量在后的方式拼接得到一個2k維的向量。
步驟3-9、判斷是否遍歷完訓(xùn)練集文本中所有的語句,如果遍歷完成則到步驟3-11,否則到步驟3-10。
步驟3-10、計數(shù)器i加1,取出訓(xùn)練集文本中的下一條語句。
步驟3-11、將得到的融合上下文語義的實體向量輸出,作為企業(yè)實體分類模型的訓(xùn)練數(shù)據(jù)。值得注意的是,步驟1-3標(biāo)注后的數(shù)據(jù)是一個純文本+類標(biāo)的數(shù)據(jù),在這里之前的步驟是將文本轉(zhuǎn)變?yōu)橄蛄?,因而這里的數(shù)據(jù)是向量+類標(biāo)的數(shù)據(jù)。
步驟3-12、訓(xùn)練集文本語義構(gòu)建的結(jié)束。
如圖5所示,在對原始語料(即是步驟1-3之后得到的數(shù)據(jù)集)進行語義向量化構(gòu)建之后,使用softmax多分類算法進行企業(yè)實體分類模型的訓(xùn)練。softmax多分類算法是一種常用的方法,相比其它方法而言,它的計算速度快,占用空間小,并且可以得到測試樣本在每個類別上的概率
步驟4-0、企業(yè)實體分類模型訓(xùn)練的開始。
步驟4-1、將經(jīng)過語義向量化之后的有類別標(biāo)注的訓(xùn)練集數(shù)據(jù)輸入到softmax分類模型中,作為訓(xùn)練參數(shù)。
步驟4-2、采用softmax算法進行多分類模型訓(xùn)練,輸出經(jīng)過訓(xùn)練后的softmax多分類模型,用以后續(xù)的分類預(yù)測。
步驟4-3、企業(yè)實體分類模型訓(xùn)練的結(jié)束。
如圖6所示,在得到企業(yè)實體分類模型之后,利用該分類模型進行分類的流程圖。
步驟5-0、企業(yè)實體分類的開始。
步驟5-1、向企業(yè)實體分類模型輸入待預(yù)測實體類別的文本。
步驟5-2、利用企業(yè)實體識別模型判斷輸入文本中是否有企業(yè)實體,如果有則轉(zhuǎn)到步驟5-3,否則轉(zhuǎn)到步驟5-5。
步驟5-3、對包含有企業(yè)實體文本利用步驟3-1至步驟3-12進行實體語義向量構(gòu)建,之后將得到的向量輸入訓(xùn)練好的企業(yè)實體分類模型中,得到文本中實體的分類結(jié)果。
步驟5-4、輸出5-3步驟的分類結(jié)果。
步驟5-5、企業(yè)實體分類的結(jié)束。
綜上所述,本發(fā)明提出的利用詞向量技術(shù)和文檔詞語的tf-idf值得到包含上下文語義的企業(yè)實體向量表示形式之后再進行分類的方法,能夠解決目前對企業(yè)實體分類方法中類型較少且缺乏語義的問題,使企業(yè)實體的類型具有更細(xì)的粒度和更強的語義特征。
本發(fā)明所屬技術(shù)領(lǐng)域中具有通常知識者,在不脫離本發(fā)明的精神和范圍內(nèi),當(dāng)可作各種的更動與潤飾。因此,本發(fā)明的保護范圍當(dāng)視權(quán)利要求書所界定者為準(zhǔn)。