專利名稱:自動(dòng)問(wèn)答方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種計(jì)算機(jī)應(yīng)用系統(tǒng)及方法,具體說(shuō),利用語(yǔ)言匹配技術(shù)的自動(dòng)問(wèn)答方法及語(yǔ)言的自動(dòng)問(wèn)答系統(tǒng)。
背景技術(shù):
現(xiàn)有的語(yǔ)言自動(dòng)問(wèn)答系統(tǒng)中,大多是采用簡(jiǎn)單的模式匹配技術(shù)實(shí)現(xiàn)的,其方法是從句子的第一個(gè)詞開(kāi)始,對(duì)用戶輸入的句子和知識(shí)庫(kù)中的句子進(jìn)行匹配,如果兩個(gè)詞相同就繼續(xù)下一個(gè)詞的匹配,中間可能利用任意詞通配符來(lái)忽略掉用戶輸入的句子中存在的一些不太關(guān)鍵的詞,重復(fù)這一過(guò)程直到整個(gè)用戶輸入的句子匹配完畢,如果匹配成功就將知識(shí)庫(kù)中的句子所對(duì)應(yīng)的應(yīng)答返回給用戶。但是相對(duì)于外文而言,中文具有用詞靈活、句法復(fù)雜多變的特點(diǎn),并不適合簡(jiǎn)單的模式匹配技術(shù)?,F(xiàn)有的中文自動(dòng)問(wèn)答系統(tǒng)是參考了國(guó)外一些英文的自動(dòng)問(wèn)答系統(tǒng),采用簡(jiǎn)單的模式匹配技術(shù)實(shí)現(xiàn)的,這導(dǎo)致中文自動(dòng)問(wèn)答系統(tǒng)普遍存在中文知識(shí)庫(kù)的覆蓋面窄、系統(tǒng)的準(zhǔn)確率和招回率都很低的問(wèn)題,對(duì)用戶體驗(yàn)造成了傷害。
自動(dòng)問(wèn)答系統(tǒng)又稱QA(automatic Question Answering)系統(tǒng),它采用自然語(yǔ)言處理技術(shù),一方面完成對(duì)用戶問(wèn)題的分析處理,另一方面完成正確答案的生成。自動(dòng)問(wèn)答系統(tǒng)以自然語(yǔ)言理解技術(shù)為核心,涉及到計(jì)算語(yǔ)言學(xué)、信息科學(xué)和人工智能等多門(mén)學(xué)科,是計(jì)算機(jī)應(yīng)用研究的熱點(diǎn)之一。
自然語(yǔ)言理解是人工智能領(lǐng)域中的一個(gè)重要研究方向,它使計(jì)算機(jī)能夠理解和運(yùn)用人類的自然語(yǔ)言,可以實(shí)現(xiàn)人與計(jì)算機(jī)之間基于自然語(yǔ)言的有效通信。
知識(shí)庫(kù)是自動(dòng)問(wèn)答系統(tǒng)的關(guān)鍵組成部分,通常以問(wèn)答語(yǔ)句對(duì)的形式存儲(chǔ)了大量的信息。當(dāng)用戶輸入的自然語(yǔ)言句子與知識(shí)庫(kù)中的某一個(gè)句子匹配成功的時(shí)候,其對(duì)應(yīng)的應(yīng)答就會(huì)被返回給用戶。
中文分詞和詞性標(biāo)注詞是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分。在中文中,詞與詞之間不存在分隔符,詞本身也缺乏明顯的形態(tài)標(biāo)記,因此,中文信息處理的特有問(wèn)題就是如何將中文的字串分割為合理的詞語(yǔ)序列,即中文分詞。中文分詞是句法分析等深層處理的基礎(chǔ),也是機(jī)器翻譯、信息檢索和信息抽取等應(yīng)用的重要環(huán)節(jié)。而詞性標(biāo)注就是根據(jù)句子上下文中的信息給句中的每個(gè)詞一個(gè)正確的詞性標(biāo)記。
自動(dòng)問(wèn)答系統(tǒng)的準(zhǔn)確率為自動(dòng)問(wèn)答系統(tǒng)做出正確應(yīng)答的次數(shù)除以總共的應(yīng)答次數(shù)。例如用戶向機(jī)器人輸入了100個(gè)句子,機(jī)器人做出了100次應(yīng)答,其中有20次是正確的,那么這個(gè)機(jī)器人系統(tǒng)的準(zhǔn)確率就是20%。
自動(dòng)問(wèn)答系統(tǒng)的召回率為自動(dòng)問(wèn)答系統(tǒng)做出正確應(yīng)答的次數(shù)除以知識(shí)庫(kù)中存在正確應(yīng)答的次數(shù)。例如用戶向機(jī)器人輸入了100個(gè)句子,機(jī)器人做出了100次應(yīng)答,其中有20次是正確的,但是用戶輸入的100個(gè)句子中,知識(shí)庫(kù)中只有其中25個(gè)句子的正確應(yīng)答存在,那么這個(gè)機(jī)器人系統(tǒng)的招回率就是80%。
下面舉例說(shuō)明采用簡(jiǎn)單的模式匹配技術(shù)實(shí)現(xiàn)的中文自動(dòng)問(wèn)答系統(tǒng)的缺點(diǎn)。
假設(shè)自動(dòng)問(wèn)答系統(tǒng)的知識(shí)庫(kù)中存在以下兩組問(wèn)答語(yǔ)句對(duì),每組都包括一個(gè)用戶輸入的自然語(yǔ)言句子(以下簡(jiǎn)稱用戶句子)和系統(tǒng)應(yīng)答。
第一組
用戶句子你出生在深圳嗎?系統(tǒng)應(yīng)答是啊,你怎么知道的?第二組用戶句子你出生在北京嗎?系統(tǒng)應(yīng)答不對(duì),我出生在深圳。
當(dāng)用戶輸入“你出生在深圳嗎?”或是“你出生在北京嗎?”的時(shí)候,應(yīng)答都是正確的。但是當(dāng)用戶輸入“你出生在上海嗎?”,自動(dòng)問(wèn)答系統(tǒng)就無(wú)法找到匹配的用戶句子,從而返回了錯(cuò)誤的應(yīng)答(可能是系統(tǒng)缺省的應(yīng)答)。但是實(shí)際上,第二組中的系統(tǒng)應(yīng)答才是用戶輸入的正確應(yīng)答。
因?yàn)榭梢蕴鎿Q“上?!钡脑~非常多,所以上述問(wèn)題也無(wú)法通過(guò)增加更多的問(wèn)答語(yǔ)句對(duì)來(lái)解決。另外,將“北京”替換為任意詞通配符也不可行,因?yàn)橛脩艨赡軙?huì)輸入“你出生在76年嗎?”,同樣會(huì)匹配成功,導(dǎo)致應(yīng)答出錯(cuò)。
綜上所述,簡(jiǎn)單的模式匹配技術(shù)并不適合中文自動(dòng)問(wèn)答系統(tǒng),導(dǎo)致中文知識(shí)庫(kù)的覆蓋面窄,系統(tǒng)的準(zhǔn)確率和招回率都很低,會(huì)對(duì)用戶體驗(yàn)造成傷害。
發(fā)明內(nèi)容
本發(fā)明所解決的技術(shù)問(wèn)題是提供一種自動(dòng)問(wèn)答系統(tǒng),能夠提高中文知識(shí)庫(kù)的內(nèi)容覆蓋面,同時(shí)顯著的提高模式匹配的準(zhǔn)確率和招回率。
本發(fā)明的技術(shù)方案如下一種自動(dòng)問(wèn)答方法,包括(1)將輸入的文字信息進(jìn)行切分;(2)根據(jù)切分的結(jié)果進(jìn)行查找;
(3)用相匹配的查找結(jié)果刷新結(jié)果集合;(4)判斷輸入的文字信息匹配是否完成;(5)當(dāng)輸入的文字信息匹配完成,依據(jù)結(jié)果集合選擇應(yīng)答。
優(yōu)選的,推理知識(shí)庫(kù)中存儲(chǔ)有所述庫(kù)存文字信息。
優(yōu)選的,所述步驟(2)中,庫(kù)存文字信息經(jīng)過(guò)分詞和詞性標(biāo)注處理。
優(yōu)選的,所述步驟(1)具體為,中文分詞和詞性標(biāo)注模塊對(duì)輸入的文字信息進(jìn)行切分處理,輸出文字信息的分詞和詞性標(biāo)注信息。
優(yōu)選的,步驟(2)具體為,根據(jù)輸入文字信息的分詞和詞性標(biāo)注信息,在結(jié)果集合內(nèi)查找具有相同分詞的庫(kù)存文字信息;步驟(4)具體為,當(dāng)輸入文字信息匹配沒(méi)有完成,提取輸入文字信息的下一個(gè)分詞作為查找依據(jù),并將結(jié)果集合作為查找目標(biāo),執(zhí)行步驟(2)。
優(yōu)選的,步驟(2)具體為根據(jù)輸入文字信息的分詞和詞性標(biāo)注信息,在結(jié)果集合內(nèi)查找具有指定詞性通配符的庫(kù)存文字信息;步驟(4)具體為,當(dāng)輸入文字信息匹配沒(méi)有完成,提取輸入文字信息的下一個(gè)分詞作為查找依據(jù),并將結(jié)果集合作為查找目標(biāo),執(zhí)行步驟(2)。
優(yōu)選的,步驟(2)具體為根據(jù)輸入文字信息的分詞和詞性標(biāo)注信息,在結(jié)果集合內(nèi)查找指定任意詞通配符的庫(kù)存文字信息;步驟(4)具體為,當(dāng)輸入文字信息匹配沒(méi)有完成,提取輸入文字信息的下一個(gè)分詞作為查找依據(jù),并將結(jié)果集合作為查找目標(biāo),執(zhí)行步驟(2)。
優(yōu)選的,步驟(2)具體為根據(jù)輸入文字信息的分詞和詞性標(biāo)注信息,查找具有相同分詞的庫(kù)存文字信息,并按照設(shè)定的分值積分;同時(shí),根據(jù)輸入文字信息的分詞和詞性標(biāo)注信息,在結(jié)果集合內(nèi)中查找指定詞性通配符的庫(kù)存文字信息,并按照設(shè)定的分值積分;步驟(4)具體為,當(dāng)輸入文字信息匹配沒(méi)有完成,提取文字信息的下一個(gè)分詞作為查找依據(jù),并將結(jié)果集合作為查找目標(biāo),執(zhí)行步驟(2)。
優(yōu)選的,步驟(2)還包括根據(jù)輸入文字信息的分詞和詞性標(biāo)注信息,在結(jié)果集合內(nèi)查找指定任意詞通配符的庫(kù)存文字信息,并按照設(shè)定的分值積分;步驟(4)具體為,當(dāng)輸入文字信息匹配沒(méi)有完成,提取文字信息的下一個(gè)分詞作為查找依據(jù),并將結(jié)果集合作為查找目標(biāo),執(zhí)行步驟(2)。
優(yōu)選的,步驟(2)進(jìn)一步包括當(dāng)沒(méi)有查找到相匹配的庫(kù)存文字信息時(shí),在推理知識(shí)庫(kù)中的缺省應(yīng)答中隨機(jī)選擇一個(gè)作為應(yīng)答,發(fā)送并結(jié)束。
本發(fā)明的另一個(gè)技術(shù)方案如下一種自動(dòng)問(wèn)答系統(tǒng),包括網(wǎng)絡(luò)接口模塊,接收輸入的文字信息,將應(yīng)答發(fā)送;分詞和詞性標(biāo)注模塊,對(duì)輸入的文字信息進(jìn)行分詞和詞性標(biāo)注,將切分出來(lái)的分詞及其詞性標(biāo)注信息發(fā)送;推理模塊,根據(jù)分詞及其詞性標(biāo)注信息查找對(duì)應(yīng)的應(yīng)答,將應(yīng)答發(fā)送到所述的網(wǎng)絡(luò)接口模塊。
優(yōu)選的,所述分詞和詞性標(biāo)注模塊調(diào)用計(jì)算語(yǔ)言知識(shí)庫(kù)中的分詞和詞性標(biāo)注方法。
優(yōu)選的,所述計(jì)算語(yǔ)言知識(shí)庫(kù)中還存儲(chǔ)有詞語(yǔ)使用頻率的統(tǒng)計(jì)數(shù)據(jù)和詞庫(kù)。
優(yōu)選的,所述推理模塊調(diào)用推理知識(shí)庫(kù)中與文字信息相對(duì)應(yīng)的應(yīng)答。
優(yōu)選的,所述推理知識(shí)庫(kù)存儲(chǔ)有庫(kù)存文字信息,所述庫(kù)存文字信息經(jīng)過(guò)分詞或者詞性標(biāo)注處理。
優(yōu)選的,所述庫(kù)存文字信息包含分詞、任意詞通配符或者詞性通配符。
本發(fā)明能夠應(yīng)用于不同的語(yǔ)言,特別是針對(duì)中文用詞靈活、句法復(fù)雜多變的特點(diǎn),在自動(dòng)問(wèn)答系統(tǒng)中利用中文詞性通配符可以提高中文知識(shí)庫(kù)的內(nèi)容覆蓋面,減少建庫(kù)的工作量,同時(shí)顯著的提高基于模式匹配的中文自動(dòng)問(wèn)答系統(tǒng)的準(zhǔn)確率和招回率,從而提升用戶的體驗(yàn)。
圖1是自動(dòng)問(wèn)答方法的操作流程圖;圖2是自動(dòng)問(wèn)答系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施例方式
下面參照?qǐng)D1,對(duì)中文的自動(dòng)問(wèn)答方法作詳細(xì)描述。
本技術(shù)方案只給出了一個(gè)具體的實(shí)施例,實(shí)際應(yīng)用時(shí)可以選擇不同的模式匹配方法來(lái)使用詞性通配符。
步驟S001接收端收到用戶輸入的文字信息。本優(yōu)選實(shí)施例中,自動(dòng)問(wèn)答系統(tǒng)100通過(guò)網(wǎng)絡(luò)接口模塊101接收用戶輸入的文字信息。
步驟S002對(duì)接收到的文字信息進(jìn)行切分處理,輸出一系列的詞和詞性標(biāo)注信息。本優(yōu)選實(shí)施例中,中文分詞和詞性標(biāo)注模塊102調(diào)用計(jì)算語(yǔ)言知識(shí)庫(kù)中的分詞和詞性標(biāo)注方法,對(duì)接收到的文字信息進(jìn)行切分處理,輸出文字信息的分詞和詞性標(biāo)注信息。
步驟S003從這些分詞和詞性信息中,取出當(dāng)前分詞及詞性標(biāo)注信息作為查找依據(jù)。本優(yōu)選實(shí)施例中,取出第一個(gè)分詞和詞性標(biāo)注信息作為查找依據(jù)。
步驟S004依據(jù)當(dāng)前分詞和詞性標(biāo)注信息進(jìn)行查找。
本優(yōu)選實(shí)施例中,推理模塊104從第一個(gè)詞開(kāi)始,依據(jù)第一個(gè)分詞和詞性標(biāo)注信息,在推理知識(shí)庫(kù)105內(nèi)進(jìn)行查找,并將找到的結(jié)果作為結(jié)果結(jié)合。推理知識(shí)庫(kù)105內(nèi)存儲(chǔ)有應(yīng)答和經(jīng)過(guò)分詞處理的庫(kù)存文字信息,該庫(kù)存文字信息包含分詞、任意詞通配符或者詞性通配符,并且每個(gè)分詞可以對(duì)應(yīng)多個(gè)應(yīng)答。
查找的目標(biāo)是找到以下三類特征的庫(kù)存文字信息,以及與該庫(kù)存文字信息相對(duì)應(yīng)的應(yīng)答第一、推理知識(shí)庫(kù)105內(nèi)的庫(kù)存文字信息在當(dāng)前位置的分詞與用戶輸入的文字信息的第一個(gè)分詞相同。給選中的庫(kù)存文字信息記分,每選中一次,將此類庫(kù)存文字信息的分值增加1(初始值為0)。
第二、庫(kù)存文字信息在當(dāng)前位置出現(xiàn)了詞性通配符,而且該詞性通配符所指定的詞性與用戶輸入的文字信息的當(dāng)前分詞的詞性相同。給選中的庫(kù)存文字信息記分,每選中一次,將此類用戶句子的分值增加0.5。
第三、庫(kù)存文字信息在當(dāng)前位置出現(xiàn)了任意詞通配符。給選中的庫(kù)存文字信息記分,每選中一次,將此類用戶句子的分值增加0.2。
上述三類匹配模式可以任意選取其一,也可以選取幾個(gè)進(jìn)行組合,作為匹配模式。本優(yōu)選實(shí)施例中,上述三類匹配模式同時(shí)選用,并將依照三類匹配模式選取的庫(kù)存文字信息都放入結(jié)果集合。
本發(fā)明中,在推理知識(shí)庫(kù)105內(nèi)對(duì)用戶輸入的文字信息(例如句子)增加了詞性通配符,表示所有具有指定詞性的詞。自動(dòng)問(wèn)答系統(tǒng)在收到用戶輸入的句子后首先進(jìn)行分詞和詞性標(biāo)注,然后再轉(zhuǎn)交給推理模塊104。當(dāng)推理模塊104對(duì)用戶輸入的句子和推理知識(shí)庫(kù)105內(nèi)的用戶句子進(jìn)行模式匹配的時(shí)候,詞性通配符可以和具有指定詞性的任意詞匹配成功,但是,如果用戶輸入的句子中的詞和知識(shí)庫(kù)中其他用戶句子的詞完全匹配,則詞性通配符的優(yōu)先級(jí)低于完全匹配的優(yōu)先級(jí)。通過(guò)本方法可以顯著提高基于模式匹配的中文自動(dòng)問(wèn)答系統(tǒng)的準(zhǔn)確率和招回率步驟S005如果找到與用戶輸入的文字信息相匹配的庫(kù)存文字信息和應(yīng)答,則將這些庫(kù)存文字信息和應(yīng)答作為當(dāng)前的結(jié)果集合。由于后續(xù)找到的庫(kù)存文字信會(huì)不斷刷新上一個(gè)結(jié)果集合,所以結(jié)果集合能夠及時(shí)得到更新。本優(yōu)選實(shí)施例中,隨著匹配的進(jìn)行和積分的累加,該結(jié)果集合的庫(kù)存文字信息的數(shù)量是在不斷縮小,因此應(yīng)答的正確率在不斷地提高。
推理知識(shí)庫(kù)105內(nèi)還存儲(chǔ)有缺省應(yīng)答,如果上述查找都失敗,則推理模塊104認(rèn)為推理知識(shí)庫(kù)105內(nèi)沒(méi)有與用戶輸入的文字信息相符的應(yīng)答,系統(tǒng)會(huì)從推理知識(shí)庫(kù)105內(nèi)調(diào)用缺省應(yīng)答,隨機(jī)選擇一個(gè)(步驟S009),返回給用戶(步驟S010)。
步驟S006判斷用戶輸入的文字信息是否已經(jīng)匹配完畢。本優(yōu)選實(shí)施例中,該步驟由推理模塊執(zhí)行,以便于及時(shí)判斷匹配是否完成。
步驟S007如果用戶輸入的文字信息沒(méi)有匹配完畢,則提取下一個(gè)分詞和詞性標(biāo)注信息作為查找依據(jù),執(zhí)行步驟S004,繼續(xù)上述查找過(guò)程,直到全部匹配成功,或者中途匹配失敗。本優(yōu)選實(shí)施例中,推理模塊104認(rèn)為沒(méi)有匹配完畢,則進(jìn)行n+1操作,將下一個(gè)分詞作為查找的依據(jù)。
步驟S008如果用戶輸入的文字信息已經(jīng)匹配完成,則從結(jié)果集合中相匹配的應(yīng)答中隨機(jī)選取一個(gè),返回給用戶(步驟S010)。
本優(yōu)選實(shí)施例中,推理模塊104判斷已經(jīng)匹配完成,從結(jié)果集合中選擇積分值最高的應(yīng)答發(fā)送到網(wǎng)絡(luò)接口模塊101,通過(guò)網(wǎng)絡(luò)接口模塊101發(fā)送給用戶。
步驟S009如果沒(méi)有在推理知識(shí)庫(kù)105中找到匹配的庫(kù)存文字信息,則推理模塊104將從推理知識(shí)庫(kù)105中的缺省應(yīng)答中隨機(jī)選取一個(gè),作為應(yīng)答。
步驟S010將接收到的應(yīng)答發(fā)送給用戶。
本優(yōu)選實(shí)施例中,網(wǎng)絡(luò)接口模塊101接收推理模塊104發(fā)送的應(yīng)答,并將該應(yīng)答發(fā)送給用戶。
本發(fā)明中,利用中文的詞性通配符提高了推理知識(shí)庫(kù)105的內(nèi)容覆蓋面,減少了建庫(kù)的工作量,同時(shí)能夠顯著的提高基于模式匹配的自動(dòng)問(wèn)答方法的準(zhǔn)確率和招回率,從而提升用戶的體驗(yàn),是一項(xiàng)非常有意義的創(chuàng)新。
參考背景技術(shù)中的例子,在支持中文詞性通配符的本發(fā)明的推理知識(shí)庫(kù)105中,構(gòu)造了以下兩組問(wèn)答語(yǔ)句對(duì)第一組用戶輸入的文字信息你出生在深圳嗎?系統(tǒng)響應(yīng)的應(yīng)答是啊,你怎么知道的?第二組用戶輸入的文字信息你出生在POSnsPOS嗎?
系統(tǒng)響應(yīng)的應(yīng)答不對(duì),我出生在深圳。
其中POSnsPOS是本實(shí)施例中采用詞性通配符表示的方式,其中POS是詞性信息的起止標(biāo)記,而ns是表示方位的名詞詞性。
當(dāng)用戶輸入“你出生在深圳嗎?”的時(shí)候,與第一組的用戶句子匹配成功,系統(tǒng)向用戶響應(yīng)“是啊,你怎么知道的?”;當(dāng)用戶輸入“你出生在北京嗎?”或“你出生在上海嗎?”的時(shí)候,都與第二組中用戶句子匹配成功,系統(tǒng)向用戶響應(yīng)“不對(duì),我出生在深圳。”實(shí)際上,只要用戶輸入的是類似北京和上海的、任何具備ns詞性的詞,都可以與第二組問(wèn)答語(yǔ)句對(duì)匹配成功;但是類似“76年”這種詞不具備ns詞性,所以不會(huì)被誤匹配為第二組問(wèn)答語(yǔ)句對(duì)。
本發(fā)明中,還可以選擇不同的模式匹配方法來(lái)使用詞性通配符,用于提高基于模式匹配的準(zhǔn)確率和招回率,例如,不對(duì)用戶輸入的句子進(jìn)行逐詞的匹配,而是打亂詞的順序直接匹配。
下面參照?qǐng)D2對(duì)本發(fā)明的優(yōu)選實(shí)施例作詳細(xì)描述。
不同的語(yǔ)言有不同的語(yǔ)法,使得詞之間有不同的匹配模式。本優(yōu)選實(shí)施例中,系統(tǒng)選用中文作為識(shí)別目標(biāo)。
選用中文的自動(dòng)問(wèn)答系統(tǒng)100包括網(wǎng)絡(luò)接口模塊101、中文分詞和詞性標(biāo)注模塊102、推理模塊104,以及計(jì)算語(yǔ)言知識(shí)庫(kù)103和推理知識(shí)庫(kù)105。
網(wǎng)絡(luò)接口模塊101負(fù)責(zé)接收用戶輸入的句子,并發(fā)送給中文分詞和詞性標(biāo)注模塊102。
中文分詞和詞性標(biāo)注模塊102調(diào)用計(jì)算語(yǔ)言知識(shí)庫(kù)103中的分詞和詞性標(biāo)注方法,對(duì)用戶輸入的文字信息進(jìn)行中文分詞和詞性標(biāo)注,然后將所有切分出來(lái)的詞及其詞性標(biāo)注信息提交給推理模塊104。
推理模塊104根據(jù)分詞和詞性標(biāo)注模塊104輸出的詞及其詞性標(biāo)注信息在推理知識(shí)庫(kù)105內(nèi)查找對(duì)應(yīng)的應(yīng)答,當(dāng)存儲(chǔ)在推理知識(shí)庫(kù)105內(nèi)的庫(kù)存文字信息包含詞性通配符的時(shí)候,該詞性通配符可以和用戶輸入的句子中具有指定詞性的任意詞匹配成功,從而繼續(xù)后面的匹配。
本優(yōu)選實(shí)施例中,計(jì)算語(yǔ)言知識(shí)庫(kù)103內(nèi)存儲(chǔ)的是中文分詞和詞性標(biāo)注所必需的信息,還包括詞典以及詞頻等各種統(tǒng)計(jì)數(shù)據(jù),該計(jì)算語(yǔ)言知識(shí)庫(kù)103可以根據(jù)實(shí)際需要進(jìn)行升級(jí),及時(shí)將新的分詞和詞性標(biāo)注方法補(bǔ)入。
推理知識(shí)庫(kù)105內(nèi)存儲(chǔ)的是庫(kù)存文字信息,該庫(kù)存文字信息為用戶可能輸入的文字信息。推理知識(shí)庫(kù)105內(nèi)還存儲(chǔ)有對(duì)應(yīng)這些庫(kù)存文字信息的應(yīng)答,其中每個(gè)庫(kù)存文字信息都經(jīng)過(guò)分詞處理,可以對(duì)應(yīng)一個(gè)或多個(gè)應(yīng)答。推理知識(shí)庫(kù)105由推理模塊104在系統(tǒng)啟動(dòng)的時(shí)候讀入內(nèi)存,并在收到中文分詞和詞性標(biāo)注的命令和信息后與之進(jìn)行匹配。存儲(chǔ)在推理知識(shí)庫(kù)105中的庫(kù)存文字信息除了可以包括具體的詞和任意詞通配符之外,還可以包括詞性通配符,用來(lái)表示所有具有指定詞性的詞,另外,推理知識(shí)庫(kù)105中還存儲(chǔ)有缺省應(yīng)答。
權(quán)利要求
1.一種自動(dòng)問(wèn)答方法,包括(1)將輸入的文字信息進(jìn)行切分;(2)根據(jù)切分的結(jié)果進(jìn)行查找;(3)用相匹配的查找結(jié)果刷新結(jié)果集合;(4)判斷輸入的文字信息匹配是否完成;(5)當(dāng)輸入的文字信息匹配完成,依據(jù)結(jié)果集合選擇應(yīng)答。
2.根據(jù)權(quán)利要求1所述的自動(dòng)問(wèn)答方法,其特征在于,推理知識(shí)庫(kù)中存儲(chǔ)有所述庫(kù)存文字信息。
3.根據(jù)權(quán)利要求2所述的自動(dòng)問(wèn)答方法,其特征在于,所述步驟(2)中,庫(kù)存文字信息經(jīng)過(guò)分詞和詞性標(biāo)注處理。
4.根據(jù)權(quán)利要求1所述的自動(dòng)問(wèn)答方法,其特征在于,所述步驟(1)具體為,中文分詞和詞性標(biāo)注模塊對(duì)輸入的文字信息進(jìn)行切分處理,輸出文字信息的分詞和詞性標(biāo)注信息。
5.根據(jù)權(quán)利要求1所述的自動(dòng)問(wèn)答方法,其特征在于,步驟(2)具體為,根據(jù)輸入文字信息的分詞和詞性標(biāo)注信息,在結(jié)果集合內(nèi)查找具有相同分詞的庫(kù)存文字信息;步驟(4)具體為,當(dāng)輸入文字信息匹配沒(méi)有完成,提取輸入文字信息的下一個(gè)分詞作為查找依據(jù),并將結(jié)果集合作為查找目標(biāo),執(zhí)行步驟(2)。
6.根據(jù)權(quán)利要求1所述的自動(dòng)問(wèn)答方法,其特征在于,步驟(2)具體為根據(jù)輸入文字信息的分詞和詞性標(biāo)注信息,在結(jié)果集合內(nèi)查找具有指定詞性通配符的庫(kù)存文字信息;步驟(4)具體為,當(dāng)輸入文字信息匹配沒(méi)有完成,提取輸入文字信息的下一個(gè)分詞作為查找依據(jù),并將結(jié)果集合作為查找目標(biāo),執(zhí)行步驟(2)。
7.根據(jù)權(quán)利要求1所述的自動(dòng)問(wèn)答方法,其特征在于,步驟(2)具體為根據(jù)輸入文字信息的分詞和詞性標(biāo)注信息,在結(jié)果集合內(nèi)查找指定任意詞通配符的庫(kù)存文字信息;步驟(4)具體為,當(dāng)輸入文字信息匹配沒(méi)有完成,提取輸入文字信息的下一個(gè)分詞作為查找依據(jù),并將結(jié)果集合作為查找目標(biāo),執(zhí)行步驟(2)。
8.根據(jù)權(quán)利要求1所述的自動(dòng)問(wèn)答方法,其特征在于,步驟(2)具體為根據(jù)輸入文字信息的分詞和詞性標(biāo)注信息,查找具有相同分詞的庫(kù)存文字信息,并按照設(shè)定的分值積分;同時(shí),根據(jù)輸入文字信息的分詞和詞性標(biāo)注信息,在結(jié)果集合內(nèi)中查找指定詞性通配符的庫(kù)存文字信息,并按照設(shè)定的分值積分;步驟(4)具體為,當(dāng)輸入文字信息匹配沒(méi)有完成,提取文字信息的下一個(gè)分詞作為查找依據(jù),并將結(jié)果集合作為查找目標(biāo),執(zhí)行步驟(2)。
9.根據(jù)權(quán)利要求8所述的自動(dòng)問(wèn)答方法,其特征在于,步驟(2)還包括根據(jù)輸入文字信息的分詞和詞性標(biāo)注信息,在結(jié)果集合內(nèi)查找指定任意詞通配符的庫(kù)存文字信息,并按照設(shè)定的分值積分;步驟(4)具體為,當(dāng)輸入文字信息匹配沒(méi)有完成,提取文字信息的下一個(gè)分詞作為查找依據(jù),并將結(jié)果集合作為查找目標(biāo),執(zhí)行步驟(2)。
10.根據(jù)權(quán)利要求9所述的自動(dòng)問(wèn)答方法,其特征在于,步驟(2)進(jìn)一步包括當(dāng)沒(méi)有查找到相匹配的庫(kù)存文字信息時(shí),在推理知識(shí)庫(kù)中的缺省應(yīng)答中隨機(jī)選擇一個(gè)作為應(yīng)答,發(fā)送并結(jié)束。
11.一種自動(dòng)問(wèn)答系統(tǒng),其特征在于,包括網(wǎng)絡(luò)接口模塊,接收輸入的文字信息,將應(yīng)答發(fā)送;分詞和詞性標(biāo)注模塊,對(duì)輸入的文字信息進(jìn)行分詞和詞性標(biāo)注,將切分出來(lái)的分詞及其詞性標(biāo)注信息發(fā)送;推理模塊,根據(jù)分詞及其詞性標(biāo)注信息查找對(duì)應(yīng)的應(yīng)答,將應(yīng)答發(fā)送到所述的網(wǎng)絡(luò)接口模塊。
12.根據(jù)權(quán)利要求11所述的自動(dòng)問(wèn)答系統(tǒng),其特征在于,所述分詞和詞性標(biāo)注模塊調(diào)用計(jì)算語(yǔ)言知識(shí)庫(kù)中的分詞和詞性標(biāo)注方法。
13.根據(jù)權(quán)利要求12所述的自動(dòng)問(wèn)答系統(tǒng),其特征在于,所述計(jì)算語(yǔ)言知識(shí)庫(kù)中還存儲(chǔ)有詞語(yǔ)使用頻率的統(tǒng)計(jì)數(shù)據(jù)和詞庫(kù)。
14.根據(jù)權(quán)利要求11所述的自動(dòng)問(wèn)答系統(tǒng),其特征在于,所述推理模塊調(diào)用推理知識(shí)庫(kù)中與文字信息相對(duì)應(yīng)的應(yīng)答。
15.根據(jù)權(quán)利要求14所述的自動(dòng)問(wèn)答系統(tǒng),其特征在于,所述推理知識(shí)庫(kù)存儲(chǔ)有庫(kù)存文字信息,所述庫(kù)存文字信息經(jīng)過(guò)分詞或者詞性標(biāo)注處理。
16.根據(jù)權(quán)利要求15所述的自動(dòng)問(wèn)答系統(tǒng),其特征在于,所述庫(kù)存文字信息包含分詞、任意詞通配符或者詞性通配符。
全文摘要
本發(fā)明公開(kāi)了一種自動(dòng)問(wèn)答方法,包括將輸入的文字信息進(jìn)行切分;根據(jù)切分的結(jié)果進(jìn)行查找;用相匹配的查找結(jié)果刷新結(jié)果集合;判斷輸入的文字信息匹配是否完成;當(dāng)輸入的文字信息匹配完成,依據(jù)結(jié)果集合選擇應(yīng)答。本發(fā)明還公開(kāi)了一種自動(dòng)問(wèn)答系統(tǒng)。本發(fā)明能夠應(yīng)用于不同的語(yǔ)言,特別是針對(duì)中文用詞靈活、句法復(fù)雜多變的特點(diǎn),在自動(dòng)問(wèn)答系統(tǒng)中利用中文詞性通配符可以提高中文知識(shí)庫(kù)的內(nèi)容覆蓋面,減少建庫(kù)的工作量,同時(shí)顯著的提高基于模式匹配的中文自動(dòng)問(wèn)答系統(tǒng)的準(zhǔn)確率和招回率。
文檔編號(hào)G06F17/30GK101030267SQ200610059919
公開(kāi)日2007年9月5日 申請(qǐng)日期2006年2月28日 優(yōu)先權(quán)日2006年2月28日
發(fā)明者楊海松, 鄧大付, 余祥鑫 申請(qǐng)人:騰訊科技(深圳)有限公司