技術(shù)總結(jié)
本發(fā)明公開了一種基于學(xué)習(xí)的實(shí)體識(shí)別方法,其實(shí)現(xiàn)過程為,從數(shù)據(jù)記錄中抽取出部分?jǐn)?shù)據(jù)作為訓(xùn)練數(shù)據(jù)集并人工標(biāo)出分類,對(duì)其進(jìn)行預(yù)處理,根據(jù)相似度值和匹配情況產(chǎn)生分類器;把數(shù)據(jù)記錄中除訓(xùn)練數(shù)據(jù)集外的其它數(shù)據(jù)作為測(cè)試數(shù)據(jù)集存儲(chǔ)到分布式文件系統(tǒng)中,作為實(shí)體識(shí)別的輸入,采用訓(xùn)練好的分類模型對(duì)測(cè)試數(shù)據(jù)集進(jìn)行分類處理;最后根據(jù)系統(tǒng)匹配結(jié)果,得出最終的實(shí)體識(shí)別結(jié)果。該基于學(xué)習(xí)的實(shí)體識(shí)別方法與現(xiàn)有技術(shù)相比,采用和機(jī)器學(xué)習(xí)結(jié)合的方式,通過應(yīng)用分類器來提高執(zhí)行速度,并能達(dá)到很好的識(shí)別效果,可以很好地滿足識(shí)別海量數(shù)據(jù)中的實(shí)體的需求,實(shí)用性強(qiáng)。
技術(shù)研發(fā)人員:耿玉水;姜雪松;李鵬
受保護(hù)的技術(shù)使用者:齊魯工業(yè)大學(xué)
文檔號(hào)碼:201610657082
技術(shù)研發(fā)日:2016.08.11
技術(shù)公布日:2017.01.04