本發(fā)明涉及計算機領(lǐng)域,尤其涉及一種實體詞識別方法及裝置。
背景技術(shù):
隨著科學技術(shù)和互聯(lián)網(wǎng)的快速發(fā)展,計算機和網(wǎng)絡(luò)技術(shù)己經(jīng)深入到人們工作、生活的方方面面。利用計算機來獲取需要的信息也逐漸被人們采用,例如信息檢索查詢、計算機輔助翻譯、自動問答等等。在計算機服務(wù)器的數(shù)據(jù)庫中存儲有一些實體詞,例如產(chǎn)品名稱、型號、公司名稱、品牌名稱等等。如果用戶通過客戶端輸入的語句中包含該數(shù)據(jù)庫中的實體詞,則可以直接從服務(wù)器的數(shù)據(jù)庫中查找對應(yīng)的結(jié)果,例如對應(yīng)的翻譯結(jié)果、問答結(jié)果、檢索結(jié)果,然后反饋給客戶端。此種方式,對于已有實體詞對應(yīng)的結(jié)果,服務(wù)器可以快速反饋給客戶端,從而可以提高系統(tǒng)的響應(yīng)速度。另外,此種方式可以保證反饋數(shù)據(jù)的準確性,保證數(shù)據(jù)傳輸?shù)挠行?,避免用戶通過客戶端不斷的發(fā)送檢索、翻譯等請求,從而減少服務(wù)器傳輸給客戶端的數(shù)據(jù)量。
常見的服務(wù)器數(shù)據(jù)庫中的實體詞多通過人工搜集的方式獲取,隨著技術(shù)的不斷發(fā)展,特別是在某些特殊領(lǐng)域,會不斷產(chǎn)生新的實體詞,采用人工搜集的方式往往無法及時對數(shù)據(jù)庫中的實體詞進行更新,在用戶通過客戶端向服務(wù)器發(fā)送檢索、翻譯等請求時,服務(wù)器便無法實現(xiàn)快速準確的響應(yīng),從而降低了響應(yīng)速度。當用戶無法得到準確或其期望的結(jié)果時,其往往會不斷的發(fā)送新的請求,這就增加了服務(wù)器負擔,同時增加了服務(wù)器的數(shù)據(jù)傳輸量。另外,通過人工搜集的方式來挖掘新的實體詞需要耗費大量的工作量,增加人力成本。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例的目的是提供一種實體詞識別方法及裝置,能有效解決現(xiàn)有技術(shù)實體詞識別效率低和成本高的問題。
為實現(xiàn)上述目的,本發(fā)明實施例提供了一種實體詞識別方法,包括步驟:
收集結(jié)構(gòu)化數(shù)據(jù),對所述結(jié)構(gòu)化數(shù)據(jù)進行初步過濾和精簡后生成若干個領(lǐng)域的語料;
將每一領(lǐng)域的語料進行訓練后生成對應(yīng)領(lǐng)域的第一實體詞庫;
通過大量文章對每一領(lǐng)域的第一實體詞庫進行驗證生成第二實體詞庫,根據(jù)所述第二實體詞庫對實體詞進行識別。
與現(xiàn)有技術(shù)相比,本發(fā)明公開的實體詞識別方法通過收集結(jié)構(gòu)化數(shù)據(jù),對所述結(jié)構(gòu)化數(shù)據(jù)進行初步過濾和精簡后生成若干個領(lǐng)域的語料;將每一領(lǐng)域的語料進行訓練后生成對應(yīng)領(lǐng)域的第一實體詞庫;通過大量文章對每一領(lǐng)域的第一實體詞庫進行驗證生成第二實體詞庫,根據(jù)所述第二實體詞庫對實體詞進行識別,有效解決了現(xiàn)有技術(shù)實體詞識別效率低和成本高的問題,能自動識別實體詞并更新詞庫。
作為上述方案的改進,所述實體詞的類別包括人名、地名、公司和品牌。
作為上述方案的改進,對實體詞識別包括對所述實體詞進行類別、權(quán)重和所屬領(lǐng)域的識別。
作為上述方案的改進,根據(jù)所述第二實體詞庫對實體詞識別具體為:
根據(jù)所述第二實體詞庫,通過線性映射技術(shù)對所述實體詞進行識別。
作為上述方案的改進,對所述結(jié)構(gòu)化數(shù)據(jù)進行初步過濾和精簡后生成若干個領(lǐng)域的語料具體為:
通過大數(shù)據(jù)etl技術(shù)對所述結(jié)構(gòu)化數(shù)據(jù)進行初步過濾和精簡后生成若干個領(lǐng)域的語料庫。
作為上述方案的改進,通過大量文章對每一領(lǐng)域的第一實體詞庫進行驗證生成第二實體詞庫具體為:
根據(jù)每一領(lǐng)域的第一實體詞庫,通過條件隨機場對大量文章進行實體詞之間的共現(xiàn)率訓練,從而生成第二實體詞庫。
作為上述方案的改進,根據(jù)所述第二實體詞庫對實體詞識別后還包括步驟:
將進行識別后的實體詞通過詞性語義引擎進行二次校驗。
本發(fā)明實施例還提供了一種實體詞識別裝置,包括:
收集模塊,用于收集結(jié)構(gòu)化數(shù)據(jù),對所述結(jié)構(gòu)化數(shù)據(jù)進行初步過濾和精簡后生成若干個領(lǐng)域的語料;
第一實體詞庫生成模塊,用于對每一領(lǐng)域的語料進行訓練后生成對應(yīng)領(lǐng)域的第一實體詞庫;
識別模塊,用于通過大量文章對每一領(lǐng)域的第一實體詞庫進行驗證生成第二實體詞庫,根據(jù)所述第二實體詞庫對實體詞進行識別。
與現(xiàn)有技術(shù)相比,本發(fā)明公開的實體詞識別裝置通過收集模塊收集結(jié)構(gòu)化數(shù)據(jù),對所述結(jié)構(gòu)化數(shù)據(jù)進行初步過濾和精簡后生成若干個領(lǐng)域的語料,再通過第一實體詞庫生成模塊將每一領(lǐng)域的語料進行訓練后生成對應(yīng)領(lǐng)域的第一實體詞庫,然后通過第二實體詞庫生成模塊根據(jù)大量文章對每一領(lǐng)域的第一實體詞庫進行驗證生成第二實體詞庫,根據(jù)所述第二實體詞庫對實體詞進行識別,有效解決了現(xiàn)有技術(shù)實體詞識別效率低和成本高的問題,能自動識別實體詞并更新詞庫。
作為上述方案的改進,所述實體詞的類別包括人名、地名、公司和品牌。
作為上述方案的改進,對實體詞識別包括對所述實體詞進行類別、權(quán)重和所屬領(lǐng)域的識別。
附圖說明
圖1是本發(fā)明實施例1提供的一種實體詞識別方法的流程示意圖。
圖2是本發(fā)明實施例2提供的一種實體詞識別方法的流程示意圖。
圖3是本發(fā)明實施例3提供的一種實體詞識別裝置的結(jié)構(gòu)示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
參見圖1,是本發(fā)明實施例1提供的一種實體詞識別方法的流程示意圖,包括步驟:
s1、收集結(jié)構(gòu)化數(shù)據(jù),對所述結(jié)構(gòu)化數(shù)據(jù)進行初步過濾和精簡后生成若干個領(lǐng)域的語料;
s2、將每一領(lǐng)域的語料進行訓練后生成對應(yīng)領(lǐng)域的第一實體詞庫;
s3、通過大量文章對每一領(lǐng)域的第一實體詞庫進行驗證生成第二實體詞庫,根據(jù)所述第二實體詞庫對實體詞進行識別。
其中,在步驟s3中對實體詞識別包括對所述實體詞進行類別、權(quán)重和所屬領(lǐng)域的識別。
具體實施時,收集結(jié)構(gòu)化數(shù)據(jù),對所述結(jié)構(gòu)化數(shù)據(jù)進行初步過濾和精簡后生成若干個領(lǐng)域的語料;將每一領(lǐng)域的語料進行訓練后生成對應(yīng)領(lǐng)域的第一實體詞庫;通過大量文章對每一領(lǐng)域的第一實體詞庫進行驗證生成第二實體詞庫,根據(jù)所述第二實體詞庫對實體詞進行識別,有效解決了現(xiàn)有技術(shù)實體詞識別效率低和成本高的問題,無需人工搜集的方式挖掘新詞,減少人力成本,能自動識別實體詞并更新詞庫。
可以理解的,所述實體詞的類別包括人名、地名、公司和品牌。
優(yōu)選地,步驟s3中根據(jù)所述第二實體詞庫對實體詞識別具體為:
根據(jù)所述第二實體詞庫,通過線性映射技術(shù)對所述實體詞進行識別。
因為詞條的每類屬性都有一個對應(yīng)的自更新詞典,待識別詞條通過與詞庫中詞的相關(guān)性(關(guān)聯(lián)規(guī)則及相似性判別)通過匹配分析即可判斷屬性類別。因此,通過線性映射技術(shù)進行識別,減少了對詞庫的依賴性,對新出現(xiàn)的詞有更好的識別效果。
優(yōu)選地,步驟s1中對所述結(jié)構(gòu)化數(shù)據(jù)進行初步過濾和精簡后生成若干個領(lǐng)域的語料具體為:
通過大數(shù)據(jù)etl技術(shù)對所述結(jié)構(gòu)化數(shù)據(jù)進行初步過濾和精簡后生成若干個領(lǐng)域的語料庫。
etl,是英文extract-transform-load的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。etl是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。
優(yōu)選地,步驟s3中通過大量文章對每一領(lǐng)域的第一實體詞庫進行驗證生成第二實體詞庫具體為:
根據(jù)每一領(lǐng)域的第一實體詞庫,通過條件隨機場對大量文章進行實體詞之間的共現(xiàn)率訓練,從而生成第二實體詞庫。
參見圖2,是本發(fā)明實施例2提供的一種實體詞識別方法的流程示意圖,在實施例1的基礎(chǔ)上,還包括步驟:
s4、將進行識別后的實體詞通過詞性語義引擎進行二次校驗。
該步驟中的二次校驗即通過識別詞性和分析語義來校驗。
參見圖3,是本發(fā)明實施例3提供的一種實體詞識別裝置的結(jié)構(gòu)示意圖,包括:
收集模塊101,用于收集結(jié)構(gòu)化數(shù)據(jù),對所述結(jié)構(gòu)化數(shù)據(jù)進行初步過濾和精簡后生成若干個領(lǐng)域的語料;
第一實體詞庫生成模塊102,用于對每一領(lǐng)域的語料進行訓練后生成對應(yīng)領(lǐng)域的第一實體詞庫;
識別模塊103,用于通過大量文章對每一領(lǐng)域的第一實體詞庫進行驗證生成第二實體詞庫,根據(jù)所述第二實體詞庫對實體詞進行識別。
具體實施時,先通過收集模塊收集結(jié)構(gòu)化數(shù)據(jù),對所述結(jié)構(gòu)化數(shù)據(jù)進行初步過濾和精簡后生成若干個領(lǐng)域的語料,再通過第一實體詞庫生成模塊將每一領(lǐng)域的語料進行訓練后生成對應(yīng)領(lǐng)域的第一實體詞庫,然后通過第二實體詞庫生成模塊根據(jù)大量文章對每一領(lǐng)域的第一實體詞庫進行驗證生成第二實體詞庫,根據(jù)所述第二實體詞庫對實體詞進行識別,有效解決了現(xiàn)有技術(shù)實體詞識別效率低和成本高的問題,能自動識別實體詞并更新詞庫。
在一優(yōu)選實施例中,所述實體詞的類別包括人名、地名、公司和品牌。
在一優(yōu)選實施例中,所述識別模塊對實體詞識別包括對所述實體詞進行類別、權(quán)重和所屬領(lǐng)域的識別。
綜上,本發(fā)明實施例提供了一種實體詞識別方法及裝置,通過收集結(jié)構(gòu)化數(shù)據(jù),對所述結(jié)構(gòu)化數(shù)據(jù)進行初步過濾和精簡后生成若干個領(lǐng)域的語料;將每一領(lǐng)域的語料進行訓練后生成對應(yīng)領(lǐng)域的第一實體詞庫;通過大量文章對每一領(lǐng)域的第一實體詞庫進行驗證生成第二實體詞庫,根據(jù)所述第二實體詞庫對實體詞進行識別,有效解決了現(xiàn)有技術(shù)實體詞識別效率低和成本高的問題,能自動識別實體詞并更新詞庫。
以上所述是本發(fā)明的優(yōu)選實施方式,應(yīng)當指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也視為本發(fā)明的保護范圍。