本發(fā)明涉及人工智能知識圖譜問答領(lǐng)域,特別涉及一種基于知識圖譜的智慧城市信息問答方法。
背景技術(shù):
0、技術(shù)背景
1、伴隨著人工智能領(lǐng)域技術(shù)的迅速發(fā)展,知識圖譜在近幾年成為一個重要的研究方向。知識圖譜本質(zhì)上是一個龐大的知識網(wǎng)絡(luò),以圖的形式將知識連接起來。谷歌在2012年正式提出knowledge?graph,其通過信息抽取、知識加工等自然語言處理工具將非結(jié)構(gòu)化的數(shù)據(jù)構(gòu)建為知識圖譜,使海量的數(shù)據(jù)以結(jié)構(gòu)化、關(guān)聯(lián)化的形式展示出來,以更接近人類的認知形式進行建構(gòu)和管理,從而更好地發(fā)掘以往隱藏在數(shù)據(jù)中的關(guān)系,充分利用知識之間的價值。
2、問答系統(tǒng)屬于一種高級的信息檢索方式,不同于搜索引擎輸入問題后反饋給用戶網(wǎng)頁鏈接,它能用簡潔、直觀的自然語言形式回答用戶的問題?;谥R圖譜的問答系統(tǒng)能夠準(zhǔn)確理解用戶輸入問題的意圖,通過查詢知識圖譜中的實體、關(guān)系和屬性后將答案回復(fù)給用戶,從而大大提高的信息檢索的效率和準(zhǔn)確性。目前,知識圖譜的問答系統(tǒng)已經(jīng)在醫(yī)療、金融、常識知識問答領(lǐng)域得到了廣泛應(yīng)用。
3、為了彌補用戶通過查詢百科了解中國城市信息的局限性,滿足用戶想要更直觀獲取中國城市知識的需求,利用自然語言處理工具將城市信息構(gòu)建知識圖譜并實現(xiàn)知識圖譜問答能充分發(fā)揮知識圖譜的優(yōu)勢,免去了用戶手動檢索的過程,直接將對應(yīng)的問答結(jié)果回傳,從而更好地滿足用戶獲取信息的需求。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是針對現(xiàn)有技術(shù)的不足,從而提供一種基于知識圖譜的智慧城市信息問答方法。這種方法充分發(fā)揮了知識圖譜問答系統(tǒng)準(zhǔn)確率高的優(yōu)勢,提升用戶的問答體驗。
2、實現(xiàn)本發(fā)明目的的技術(shù)方案是:
3、一種基于知識圖譜的智慧城市信息問答方法,其包括如下步驟:
4、1)中國城市信息數(shù)據(jù)的采集:由于目前沒有現(xiàn)有的結(jié)構(gòu)化的中國城市信息數(shù)據(jù)集,因此需要利用爬蟲技術(shù)從權(quán)威網(wǎng)站獲取中國城市信息,本發(fā)明采用selenium技術(shù)獲取中國城市信息百科知識,經(jīng)過數(shù)據(jù)清洗將數(shù)據(jù)中的缺失項進行處理,將處理好的數(shù)據(jù)進行格式轉(zhuǎn)化,生成csv文件用于建構(gòu)知識圖譜。
5、2)構(gòu)建中國城市信息知識圖譜:根據(jù)獲取的數(shù)據(jù)構(gòu)建中國城市信息知識圖譜的schema,其中包括三種實體類別和三種實體間的關(guān)系,其中城市實體有十三種屬性值。根據(jù)schema利用py2neo包編寫python腳本構(gòu)建知識圖譜并導(dǎo)入neo4j圖數(shù)據(jù)庫中,實現(xiàn)中國城市信息圖譜的可視化;
6、3)意圖識別模型構(gòu)建:本發(fā)明采用深度學(xué)習(xí)模型作為識別用戶意圖的功能模塊,包括lr+gbdt多模型融合和bert+textcnn兩種方法。其中l(wèi)r+gbdt混合模型用于識別用戶的閑聊意圖,將問題文本進行向量化處理提取用戶問句特征,將從用戶問句提取的特征送入邏輯回歸模型lr和梯度提升決策樹模型gbdt,采用加權(quán)平均的方式將兩個模型進行融合,實現(xiàn)對用戶閑聊意圖的識別。bert+textcnn用于判斷用戶提問問題的類別,bert模型對用戶問句進行特征提取,將問句轉(zhuǎn)化為高緯度的語意向量表示,textcnn模型將bert提取的語義向量作為輸入,利用一維卷積操作在語意向量的基礎(chǔ)上提取特征,捕獲文本中的關(guān)鍵信息,最后將特征送入訓(xùn)練好的分類器后獲得分類預(yù)測的結(jié)果。
7、4)城市實體識別模型構(gòu)建:本發(fā)明采用深度學(xué)習(xí)模型實現(xiàn)城市實體識別模型,具體采用bilstm+crf的方法實現(xiàn)城市實體識別功能,對輸入文本進行特征提取,采用詞嵌入將文本轉(zhuǎn)化為向量表示,用雙向長短期記憶網(wǎng)絡(luò)bilstm充分獲取問題文本向量的上下文信息,再送入條件隨機場crf添加標(biāo)簽之間的約束條件,最后輸出預(yù)測結(jié)果。
8、5)用戶問題處理:將意圖識別模型與實體識別模型采用flask發(fā)布api端口方便調(diào)用。對于用戶輸入的問題,首先問題經(jīng)過lr+gbdt進行閑聊意圖判斷,若問題為閑聊則直接返回用戶閑聊語料庫語句。若不是閑聊則調(diào)用bert+textcnn意識識別模塊識別用戶提問具體意圖,并給出問題的置信度,唯有置信度超過閾值才會執(zhí)行后續(xù)操作,否則進行反問操作以確定用戶意圖。同時將用戶問句送入bilstm+crf模塊識別用戶問句的城市實體,送入城市實體槽位列表,用于后續(xù)操作。
9、6)答案生成:本發(fā)明根據(jù)實體識別和意圖識別的結(jié)果,采用槽位填充的方式實現(xiàn)知識圖譜的查詢和問答答案的生成。根據(jù)意圖識別的結(jié)果確定要填充的槽位,將實體結(jié)果送入實體填充槽位,將實體槽位值送入查詢語句模版生成cypher查詢語句送入neo4j進行查詢操作,查詢結(jié)果送入答案生成模版生成自然語言形式的答案返回給用戶。
10、相比較于傳統(tǒng)的搜索引擎,該發(fā)明免去了用戶手動檢索的過程,直接將對應(yīng)的問答結(jié)果反饋給用戶,從而更好地滿足用戶獲取信息的需求。
1.一種基于知識圖譜的智慧城市信息問答方法,其特征在于,包括如下步驟: