欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法及裝置制造方法

文檔序號(hào):6620455閱讀:231來(lái)源:國(guó)知局
一種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法及裝置制造方法
【專利摘要】本發(fā)明提供了一種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法及裝置,通過(guò)采用去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法對(duì)數(shù)據(jù)集進(jìn)行相似度計(jì)算,確定一部分滿足閾值的句子為相似句子,再采用基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法,對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行相似度計(jì)算,從而再次確定一部分滿足閾值的句子為相似句子,最后采用面向用戶意圖的句子相似度算法,對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行句子相似度計(jì)算,確定一部分滿足閾值的句子為相似句子。至此,得到數(shù)據(jù)集中的所有相似句子。本發(fā)明計(jì)算簡(jiǎn)潔,效果良好,可以有效解決關(guān)鍵詞差異大、長(zhǎng)度長(zhǎng)、句子結(jié)構(gòu)復(fù)雜等問(wèn)題。
【專利說(shuō)明】—種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法及裝置

【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于漢語(yǔ)句子相似度計(jì)算【技術(shù)領(lǐng)域】,尤其涉及一種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法及裝置。

【背景技術(shù)】
[0002]相似度計(jì)算是自然語(yǔ)言處理領(lǐng)域的基礎(chǔ)工作,應(yīng)用背景廣泛。根據(jù)處理對(duì)象的不同,可以分為詞相似度計(jì)算、句子相似度計(jì)算以及篇章相似度計(jì)算。其中句子相似度計(jì)算在信息檢索、機(jī)器翻譯、問(wèn)答系統(tǒng)以及自動(dòng)文摘等應(yīng)用領(lǐng)域中的效能直接影響著應(yīng)用系統(tǒng)的整體性能。因此,目前仍有眾多學(xué)者熱衷于不斷改進(jìn)句子相似度的計(jì)算方法。
[0003]目前的句子相似度計(jì)算方法主要有基于編輯距離的句子相似度計(jì)算方法,基于本體詞典或知網(wǎng)語(yǔ)義的句子相似度計(jì)算方法,基于語(yǔ)義依存的句子相似度計(jì)算方法等等。
[0004]編輯距離,也稱Levenshtein distance,是常用的句子相似度計(jì)算方法之一。通過(guò)計(jì)算一個(gè)句子轉(zhuǎn)換成另一個(gè)句子的最小編輯操作數(shù),來(lái)判定兩個(gè)句子是否相似。其中編輯操作包括“刪除”、“插入”和“替換”。若兩個(gè)句子的編輯距離越小,則兩個(gè)句子越相似。文獻(xiàn)1(車萬(wàn)翔,劉挺,秦兵等.基于改進(jìn)編輯距離的中文相似句子檢索[J].高級(jí)技術(shù)通訊,2004.7,14(7): 15-19)基于編輯距離思想,以及漢語(yǔ)中單個(gè)字往往不具備意義的特點(diǎn),提出改進(jìn)的編輯距離計(jì)算句子相似度算法,以詞為單位計(jì)算編輯距離,同時(shí)融入Hownet和《同義詞詞林》兩個(gè)語(yǔ)義資源。文獻(xiàn)2(呂學(xué)強(qiáng),任飛亮,黃志丹等.句子相似模型和最相似句子查找算法[J].東北大學(xué)學(xué)報(bào)(自然科學(xué)版),2003.6,24(6):531-534)從詞形、詞序兩方面計(jì)算句子相似度,文獻(xiàn)3 (楊思春等.一種改進(jìn)的句子相似度計(jì)算模型[J].電子科技大學(xué)學(xué)報(bào),2006.12,35(6):956-959)在文獻(xiàn)2的基礎(chǔ)上對(duì)關(guān)鍵詞的抽取方法進(jìn)行改進(jìn),考慮同義詞的情況,準(zhǔn)確率有所提高。
[0005]文獻(xiàn)I提出的改進(jìn)編輯距離計(jì)算句子相似度算法,雖然考慮了中文語(yǔ)言的特點(diǎn),并融入語(yǔ)義信息,但是,由于目前中文分詞的效果并不理想,不同的語(yǔ)境下一個(gè)詞有時(shí)可以識(shí)別出來(lái),有時(shí)卻不能,分詞的不準(zhǔn)確勢(shì)必會(huì)帶來(lái)編輯距離結(jié)果的誤差。這勢(shì)必會(huì)影響計(jì)算相似度的準(zhǔn)確率。文獻(xiàn)2和文獻(xiàn)3提出的句子相似度計(jì)算方法,雖然準(zhǔn)確率有所提高,但是對(duì)于長(zhǎng)度較長(zhǎng)、結(jié)構(gòu)較為復(fù)雜的句子效果仍不理想。


【發(fā)明內(nèi)容】

[0006]本發(fā)明的目的在于提供一種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法及裝置,旨在克服中文分詞效果不理想的問(wèn)題,同時(shí)解決對(duì)于關(guān)鍵詞差異大、長(zhǎng)度長(zhǎng)、句子結(jié)構(gòu)復(fù)雜的句子計(jì)算相似度效果不理想的問(wèn)題,通過(guò)分層計(jì)算的思想,提高相似度計(jì)算的準(zhǔn)確性,提升本方案的實(shí)用價(jià)值。
[0007]本發(fā)明是這樣實(shí)現(xiàn)的,一種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法,包括以下步驟:
[0008]S1、采用去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法對(duì)數(shù)據(jù)集進(jìn)行相似度計(jì)算,確定一部分滿足閾值的句子為相似句子;
[0009]S2、采用基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法,對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行相似度計(jì)算,從而再次確定一部分滿足閾值的句子為相似句子;
[0010]S3、采用面向用戶意圖的句子相似度算法,對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行句子相似度計(jì)算,確定一部分滿足閾值的句子為相似句子,至此得到數(shù)據(jù)集中的所有相似句子。
[0011]優(yōu)選地,在步驟SI中,所述去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法具體包括:計(jì)算兩個(gè)句子的相似度時(shí),忽略其句末的標(biāo)點(diǎn)符號(hào),將去除句末標(biāo)點(diǎn)的句子按照基于字符的編輯距離句子相似度算法計(jì)算其句子的編輯距離,再根據(jù)設(shè)定的閾值判定相似句子。
[0012]優(yōu)選地,在步驟S2中,所述基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法具體包括:采用關(guān)鍵詞特征,將句子轉(zhuǎn)換成關(guān)鍵詞列表形式,再兼顧同義詞特征、否定詞特征,總結(jié)分析經(jīng)過(guò)對(duì)比消解后的剩余關(guān)鍵詞詞數(shù)與已標(biāo)注的相似句子對(duì)之間呈現(xiàn)的規(guī)律,最后判定符合規(guī)律的句子是否句子相似。
[0013]優(yōu)選地,在步驟S2中,所述剩余關(guān)鍵詞是指一個(gè)句子經(jīng)過(guò)分詞、去除停用詞、修改錯(cuò)別字、大寫字母轉(zhuǎn)換成小寫字母、中文數(shù)字轉(zhuǎn)換成阿拉伯?dāng)?shù)字、關(guān)鍵詞對(duì)比消減、同義詞對(duì)比消減和否定詞對(duì)比消減后余留的關(guān)鍵詞集合。
[0014]優(yōu)選地,在步驟S2中,所述剩余關(guān)鍵詞詞數(shù)與已標(biāo)注的相似句子對(duì)之間的關(guān)系具體包括以下規(guī)則:
[0015]規(guī)則1:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后,若用戶提問(wèn)句子與問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)之和小于等于1,且剩余關(guān)鍵詞中不包含否定詞時(shí),則用戶提問(wèn)句子與問(wèn)題集中的某一個(gè)句子是相似的;
[0016]規(guī)則2:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后,若用戶提問(wèn)句子的剩余關(guān)鍵詞詞數(shù)等于0,問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)等于2,且剩余關(guān)鍵詞中不包含否定詞,則用戶提問(wèn)句子與問(wèn)題集中某一句子是相似的;
[0017]規(guī)則3:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后,若用戶提問(wèn)句子的剩余關(guān)鍵詞詞數(shù)等于2,問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)等于0,且剩余關(guān)鍵詞中不包含否定詞,則用戶提問(wèn)句子與問(wèn)題集中某一句子是相似的;
[0018]規(guī)則4:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后,若用戶提問(wèn)句子和問(wèn)題集中某一句子的剩余關(guān)鍵詞中含有的否定詞為奇數(shù)時(shí),則用戶提問(wèn)句子與問(wèn)題集中某一句子是不相似的。
[0019]優(yōu)選地,在步驟S3中,所述面向用戶意圖的句子相似度算法具體包括:
[0020]根據(jù)標(biāo)點(diǎn)符號(hào)切分用戶提問(wèn),利用用戶提問(wèn)中的標(biāo)點(diǎn)符號(hào),將用戶提問(wèn)轉(zhuǎn)換成用戶提問(wèn)子句集;
[0021]對(duì)用戶提問(wèn)子句集中每一個(gè)元素計(jì)算其與問(wèn)題集中某問(wèn)題的剩余列表,計(jì)算子句集中每一個(gè)元素與計(jì)算機(jī)存儲(chǔ)的問(wèn)題集中問(wèn)題的句子相似度;
[0022]使用子句集中元素與問(wèn)題集中某個(gè)問(wèn)題的最大相似度代替用戶提問(wèn)與這個(gè)問(wèn)題的句子相似度。
[0023]優(yōu)選地,在步驟S3中,所述用戶提問(wèn)子句集的構(gòu)建方法具體包括:初始子句集為空,首先根據(jù)標(biāo)點(diǎn)符號(hào)將用戶提問(wèn)拆分成若干個(gè)子句,將這些子句并入子句集中;再將任意長(zhǎng)度的連續(xù)的若干子句構(gòu)成一個(gè)子句,并入子句集中;最后將用戶提問(wèn)的整句并入子句集中,至此構(gòu)建成一個(gè)完整的用戶提問(wèn)子句集。
[0024]優(yōu)選地,在步驟S3中,所述子句和問(wèn)題集中問(wèn)題的相似性的判斷具體為:
[0025]規(guī)則5:將用戶提問(wèn)子句集中某一子句與問(wèn)題集中某一問(wèn)題進(jìn)行剩余關(guān)鍵詞列表計(jì)算,若子句的剩余關(guān)鍵詞詞數(shù)等于0,問(wèn)題的剩余關(guān)鍵詞詞數(shù)小于等于1,則用戶提問(wèn)與問(wèn)題集中該問(wèn)題是相似的。
[0026]本發(fā)明進(jìn)一步提供了一種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算裝置,包括:
[0027]—級(jí)相似度確定模塊,用于采用去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法對(duì)數(shù)據(jù)集進(jìn)行相似度計(jì)算,確定一部分滿足閾值的句子為相似句子;
[0028]二級(jí)相似度確定模塊,用于采用基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法,對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行相似度計(jì)算,從而再次確定一部分滿足閾值的句子為相似句子;
[0029]三級(jí)相似度確定模塊,用于采用面向用戶意圖的句子相似度算法,對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行句子相似度計(jì)算,確定一部分滿足閾值的句子為相似句子,至此得到數(shù)據(jù)集中的所有相似句子;其中,
[0030]所述一級(jí)相似度確定模塊、二級(jí)相似度確定模塊以及三級(jí)相似度確定模塊依次連接。
[0031]優(yōu)選地,所述一級(jí)相似度確定模塊包括一級(jí)算法模塊,用于計(jì)算兩個(gè)句子的相似度時(shí),忽略其句末的標(biāo)點(diǎn)符號(hào),將去除句末標(biāo)點(diǎn)的句子按照基于字符的編輯距離句子相似度算法計(jì)算其句子的編輯距離,再根據(jù)設(shè)定的閾值判定相似句子。
[0032]優(yōu)選地,所述二級(jí)相似度確定模塊包括二級(jí)算法模塊,用于采用關(guān)鍵詞特征,將句子轉(zhuǎn)換成關(guān)鍵詞列表形式,再兼顧同義詞特征、否定詞特征,總結(jié)分析經(jīng)過(guò)對(duì)比消解后的剩余關(guān)鍵詞詞數(shù)與已標(biāo)注的相似句子對(duì)之間呈現(xiàn)的規(guī)律,最后判定符合規(guī)律的句子是否句子相似。
[0033]優(yōu)選地,所述二級(jí)相似度確定模塊還包括剩余關(guān)鍵詞集合模塊,用于將一個(gè)句子經(jīng)過(guò)分詞、去除停用詞、修改錯(cuò)別字、大寫字母轉(zhuǎn)換成小寫字母、中文數(shù)字轉(zhuǎn)換成阿拉伯?dāng)?shù)字、關(guān)鍵詞對(duì)比消減、同義詞對(duì)比消減和否定詞對(duì)比消減后余留的關(guān)鍵詞集合;其中,
[0034]所述剩余關(guān)鍵詞集合模塊與二級(jí)算法模塊連接。
[0035]優(yōu)選地,所述二級(jí)相似度確定模塊還包括用于對(duì)剩余關(guān)鍵詞詞數(shù)與已標(biāo)注的相似句子對(duì)之間的關(guān)系設(shè)定具體規(guī)則的關(guān)系規(guī)則設(shè)定模塊,所述關(guān)系規(guī)則設(shè)定模塊設(shè)定規(guī)則具體包括:
[0036]規(guī)則1:用于經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后,若用戶提問(wèn)句子與問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)之和小于等于1,且剩余關(guān)鍵詞中不包含否定詞時(shí),則用戶提問(wèn)句子與問(wèn)題集中的某一個(gè)句子是相似的;
[0037]規(guī)則2:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后,若用戶提問(wèn)句子的剩余關(guān)鍵詞詞數(shù)等于0,問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)等于2,且剩余關(guān)鍵詞中不包含否定詞,則用戶提問(wèn)句子與問(wèn)題集中某一句子是相似的;
[0038]規(guī)則3模塊:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后,若用戶提問(wèn)句子的剩余關(guān)鍵詞詞數(shù)等于2,問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)等于0,且剩余關(guān)鍵詞中不包含否定詞,則用戶提問(wèn)句子與問(wèn)題集中某一句子是相似的;
[0039]規(guī)則4模塊:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后,若用戶提問(wèn)句子和問(wèn)題集中某一句子的剩余關(guān)鍵詞中含有的否定詞為奇數(shù)時(shí),則用戶提問(wèn)句子與問(wèn)題集中某一句子是不相似的;其中,
[0040]所述關(guān)系規(guī)則設(shè)定模塊分別與剩余關(guān)鍵詞集合模塊和二級(jí)算法模塊連接。
[0041 ] 優(yōu)選地,所述三級(jí)相似度確定模塊包括三級(jí)算法模塊,所述三級(jí)算法模塊包括:
[0042]提問(wèn)子句集轉(zhuǎn)換模塊,用于根據(jù)標(biāo)點(diǎn)符號(hào)切分用戶提問(wèn),利用用戶提問(wèn)中的標(biāo)點(diǎn)符號(hào),將用戶提問(wèn)轉(zhuǎn)換成用戶提問(wèn)子句集;
[0043]子句集處理模塊,用于對(duì)用戶提問(wèn)子句集中每一個(gè)元素計(jì)算其與問(wèn)題集中某問(wèn)題的剩余列表,計(jì)算子句集中每一個(gè)元素與計(jì)算機(jī)存儲(chǔ)的問(wèn)題集中問(wèn)題的句子相似度;
[0044]替換模塊,用于使用子句集中元素與問(wèn)題集中某個(gè)問(wèn)題的最大相似度代替用戶提問(wèn)與這個(gè)問(wèn)題的句子相似度;其中,
[0045]所述一級(jí)算法模塊、二級(jí)算法模塊以及三級(jí)算法模塊中的提問(wèn)子句集轉(zhuǎn)換模塊、子句集處理模塊、替換模塊依次連接。
[0046]優(yōu)選地,所述提問(wèn)子句集轉(zhuǎn)換模塊包括:
[0047]拆分集中模塊,用于在初始子句集為空時(shí),根據(jù)標(biāo)點(diǎn)符號(hào)將用戶提問(wèn)拆分成若干個(gè)子句,將這些子句并入子句集中;
[0048]子句并入模塊,用于將任意長(zhǎng)度的連續(xù)的若干子句構(gòu)成一個(gè)子句,并入子句集中;
[0049]提問(wèn)整句并入模塊,用于將用戶提問(wèn)的整句并入子句集中,至此構(gòu)建成一個(gè)完整的用戶提問(wèn)子句集;其中,
[0050]所述拆分集中模塊、子句并入模塊、提問(wèn)整句并入模塊以及子句集處理模塊依次連接。
[0051]優(yōu)選地,所述三級(jí)算法模塊還包括相似性判斷模塊,用于將用戶提問(wèn)子句集中某一子句與問(wèn)題集中某一問(wèn)題進(jìn)行剩余關(guān)鍵詞列表計(jì)算,若子句的剩余關(guān)鍵詞詞數(shù)等于0,問(wèn)題的剩余關(guān)鍵詞詞數(shù)小于等于1,則用戶提問(wèn)與問(wèn)題集中該問(wèn)題是相似的;其中,所述相似性判斷模塊與子句集處理模塊連接。
[0052]本發(fā)明克服現(xiàn)有技術(shù)的不足,提供一種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法及裝置,采用Microsoft visual stud12010開(kāi)發(fā)環(huán)境實(shí)現(xiàn),語(yǔ)言采用C#。本系統(tǒng)共分為3個(gè)模塊,分別實(shí)現(xiàn)本方案設(shè)計(jì)的三個(gè)算法。具體的句子相似度分層計(jì)算流程如圖1所示。由圖1可得,本方案包括三個(gè)模塊,分別采用三種算法:去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法、基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法、面向用戶意圖的句子相似度算法。通過(guò)三種不同的算法,處理三種不同類型的數(shù)據(jù),即構(gòu)成句子的字符基本一致、構(gòu)成句子的關(guān)鍵詞基本一致、構(gòu)成句子的關(guān)鍵詞相差較大三類數(shù)據(jù),計(jì)算句子相似度,逐步提升本方案的實(shí)用價(jià)值。具體做法為:首先采用去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法對(duì)數(shù)據(jù)集進(jìn)行相似度計(jì)算,確定一部分滿足閾值的句子為相似句子。其次采用基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法,對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行相似度計(jì)算,從而再次確定一部分滿足閾值的句子為相似句子。最后采用面向用戶意圖的句子相似度算法,對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行句子相似度計(jì)算,確定一部分滿足閾值的句子為相似句子。至此,得到數(shù)據(jù)集中的所有相似句子。也就是說(shuō),3個(gè)模塊之間是串行的,各個(gè)模塊處理的數(shù)據(jù)都是仍不確定是否是相似的句子,已經(jīng)確定為相似的或者不相似的句子是不參與后續(xù)計(jì)算的。
[0053]在本發(fā)明中,最主要的關(guān)鍵技術(shù)點(diǎn)在于:
[0054](I)本發(fā)明采用分層計(jì)算的思想,將數(shù)據(jù)分成三大類,即構(gòu)成句子的字符基本一致、構(gòu)成句子的關(guān)鍵詞基本一致、構(gòu)成句子的關(guān)鍵詞相差較大三類數(shù)據(jù),針對(duì)不同類型的數(shù)據(jù)設(shè)計(jì)不同的算法,并且逐次使用不同算法計(jì)算句子相似性。
[0055](2)本發(fā)明去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法主要針對(duì)字符基本一致的句子,將句子去除句末標(biāo)點(diǎn),再按照編輯距離算法計(jì)算兩個(gè)句子的編輯距離,設(shè)定編輯距離小于等于2的句子為相似的。其中去除句末標(biāo)點(diǎn)的操作和閾值的設(shè)定,都使得該算法更符合人們的日常語(yǔ)言習(xí)慣,可以有效改善句子相似度計(jì)算的準(zhǔn)確率。
[0056](3)本發(fā)明基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法主要針對(duì)關(guān)鍵詞基本一致的句子,具體計(jì)算方法為:首先計(jì)算兩個(gè)句子的剩余關(guān)鍵詞列表,最后根據(jù)統(tǒng)計(jì)分析得出的四條規(guī)則計(jì)算其句子相似性。其中,剩余關(guān)鍵詞是指一個(gè)句子經(jīng)過(guò)分詞、去除停用詞、修改錯(cuò)別字、大寫字母轉(zhuǎn)換成小寫字母、中文數(shù)字轉(zhuǎn)換成阿拉伯?dāng)?shù)字、關(guān)鍵詞對(duì)比消減、同義詞對(duì)比消減和否定詞對(duì)比消減后余留的關(guān)鍵詞集合。
[0057](4)本發(fā)明面向用戶意圖的句子相似度算法主要針對(duì)關(guān)鍵詞相差較大的句子,采用子句集中元素與問(wèn)題集中某個(gè)問(wèn)題的最大相似度代替用戶提問(wèn)與這個(gè)問(wèn)題的句子相似度。具體做法是:首先,根據(jù)標(biāo)點(diǎn)符號(hào)切分用戶提問(wèn),構(gòu)建用戶提問(wèn)子句集;其次對(duì)用戶提問(wèn)子句集中每一個(gè)元素計(jì)算其與問(wèn)題集中某問(wèn)題的剩余列表;最后根據(jù)制定的規(guī)則計(jì)算用戶提問(wèn)和問(wèn)題集中該問(wèn)題的相似性。算法利用了自然標(biāo)注,也就是用戶提問(wèn)中的標(biāo)點(diǎn)符號(hào),考慮了查詢意圖,解決傳統(tǒng)辦法計(jì)算一個(gè)長(zhǎng)句與一個(gè)短句之間的相似度值不能反映語(yǔ)義層面相似度的問(wèn)題。

【專利附圖】

【附圖說(shuō)明】
[0058]圖1是本發(fā)明中漢語(yǔ)句子相似度分層計(jì)算流程圖;
[0059]圖2是本發(fā)明實(shí)施例中面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法的步驟流程圖;
[0060]圖3是本發(fā)明中去除句末標(biāo)點(diǎn)的編輯距離句子相似度計(jì)算方法流程圖;
[0061]圖4是本發(fā)明中基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法流程圖;
[0062]圖5是本發(fā)明中計(jì)算剩余關(guān)鍵詞列表流程圖;
[0063]圖6是本發(fā)明中面向用戶意圖的句子相似度算法流程圖;
[0064]圖7是本發(fā)明實(shí)施例中面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算裝置的結(jié)構(gòu)示意圖。

【具體實(shí)施方式】
[0065]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0066]一種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法,如圖1和圖2所示,包括以下步驟:
[0067]S1、采用去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法對(duì)數(shù)據(jù)集進(jìn)行相似度計(jì)算,確定一部分滿足閾值的句子為相似句子
[0068]在步驟SI中,去除句末標(biāo)點(diǎn)的編輯距離句子相似度計(jì)算方法流程如圖3所示,其中,去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法是指在計(jì)算兩個(gè)句子的相似度時(shí),忽略其句末的標(biāo)點(diǎn)符號(hào),因?yàn)榫淠?biāo)點(diǎn)通常用于表達(dá)語(yǔ)氣,對(duì)于判別句子相似度是不具有意義的。具體方案為:將去除句末標(biāo)點(diǎn)的句子按照基于字符的編輯距離句子相似度算法計(jì)算其句子的編輯距離,再根據(jù)設(shè)定的閾值判定哪些句子為相似的。本方案中閾值設(shè)置為2,這是考慮到人們?cè)诿枋鰡?wèn)題時(shí)往往偏向使用一些無(wú)關(guān)真正需求的介詞,或者對(duì)于同一事物存在不同表述,所以將編輯距離小于等于2的句子對(duì)視為相似的,即允許有兩次或兩次以下的編輯操作次數(shù)。
[0069]S2、采用基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法,對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行相似度計(jì)算,從而再次確定一部分滿足閾值的句子為相似句子
[0070]在步驟S2中,基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法流程如圖4所示,其中,基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法是指采用關(guān)鍵詞特征,將句子轉(zhuǎn)換成關(guān)鍵詞列表形式,再兼顧同義詞特征、否定詞特征,總結(jié)分析經(jīng)過(guò)對(duì)比消解后的剩余關(guān)鍵詞詞數(shù)與已標(biāo)注的相似句子對(duì)之間呈現(xiàn)的規(guī)律,最后判定符合規(guī)律的句子是否句子相似。其中,剩余關(guān)鍵詞是指一個(gè)句子經(jīng)過(guò)分詞、去除停用詞、修改錯(cuò)別字、大寫字母轉(zhuǎn)換成小寫字母、中文數(shù)字轉(zhuǎn)換成阿拉伯?dāng)?shù)字、關(guān)鍵詞對(duì)比消減、同義詞對(duì)比消減和否定詞對(duì)比消減后余留的關(guān)鍵詞集合。
[0071]本算法通過(guò)分析剩余關(guān)鍵詞總詞數(shù)與相似句子之間的關(guān)系,共制定了四條規(guī)則,分別為:
[0072]規(guī)則1:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后,若用戶提問(wèn)句子與問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)之和小于等于1,且剩余關(guān)鍵詞中不包含否定詞時(shí),則用戶提問(wèn)句子與問(wèn)題集中的某一個(gè)句子是相似的。
[0073]規(guī)則2:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后,若用戶提問(wèn)句子的剩余關(guān)鍵詞詞數(shù)等于0,問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)等于2,且剩余關(guān)鍵詞中不包含否定詞,則用戶提問(wèn)句子與問(wèn)題集中某一句子是相似的。
[0074]規(guī)則3:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后,若用戶提問(wèn)句子的剩余關(guān)鍵詞詞數(shù)等于2,問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)等于0,且剩余關(guān)鍵詞中不包含否定詞,則用戶提問(wèn)句子與問(wèn)題集中某一句子是相似的。
[0075]規(guī)則4:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后,若用戶提問(wèn)句子和問(wèn)題集中某一句子的剩余關(guān)鍵詞中含有的否定詞為奇數(shù)時(shí),則用戶提問(wèn)句子與問(wèn)題集中某一句子是不相似的。
[0076]本算法的具體做法為:首先計(jì)算兩個(gè)句子的剩余關(guān)鍵詞列表,再根據(jù)上述四條規(guī)則計(jì)算其句子相似性。
[0077]在本發(fā)明實(shí)施例中,計(jì)算剩余關(guān)鍵詞列表流程如圖5所示。
[0078]S3、采用面向用戶意圖的句子相似度算法,對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行句子相似度計(jì)算,確定一部分滿足閾值的句子為相似句子,至此得到數(shù)據(jù)集中的所有相似句子
[0079]在步驟S3中,面向用戶意圖的句子相似度算法流程如圖6所示,其中,面向用戶意圖的句子相似度算法是指利用用戶提問(wèn)中的標(biāo)點(diǎn)符號(hào),將用戶提問(wèn)轉(zhuǎn)換成用戶提問(wèn)子句集,計(jì)算子句集中每一個(gè)元素與計(jì)算機(jī)存儲(chǔ)的問(wèn)題集中問(wèn)題的句子相似度。使用子句集中元素與問(wèn)題集中某個(gè)問(wèn)題的最大相似度代替用戶提問(wèn)與這個(gè)問(wèn)題的句子相似度。
[0080]其中用戶提問(wèn)子句集的構(gòu)建方法是:初始子句集為空,首先根據(jù)標(biāo)點(diǎn)符號(hào)將用戶提問(wèn)拆分成若干個(gè)子句,將這些子句并入子句集中;再將任意長(zhǎng)度的連續(xù)的若干子句構(gòu)成一個(gè)子句,并入子句集中;最后將用戶提問(wèn)的整句并入子句集中,至此構(gòu)建成一個(gè)完整的用戶提問(wèn)子句集。
[0081]由于子句所包含的關(guān)鍵詞個(gè)數(shù)相對(duì)完整問(wèn)題句的關(guān)鍵詞個(gè)數(shù)較少,所以提出規(guī)則5來(lái)判斷子句和問(wèn)題集中問(wèn)題的相似性。
[0082]規(guī)則5:將用戶提問(wèn)子句集中某一子句與問(wèn)題集中某一問(wèn)題進(jìn)行剩余關(guān)鍵詞列表計(jì)算,若子句的剩余關(guān)鍵詞詞數(shù)等于0,問(wèn)題的剩余關(guān)鍵詞詞數(shù)小于等于1,則用戶提問(wèn)與問(wèn)題集中該問(wèn)題是相似的。
[0083]本算法的具體做法是:首先,根據(jù)標(biāo)點(diǎn)符號(hào)切分用戶提問(wèn),構(gòu)建用戶提問(wèn)子句集;其次對(duì)用戶提問(wèn)子句集中每一個(gè)元素計(jì)算其與問(wèn)題集中某問(wèn)題的剩余列表;最后根據(jù)規(guī)則5計(jì)算用戶提問(wèn)和問(wèn)題集中該問(wèn)題的相似性。
[0084]本發(fā)明利用分層計(jì)算的思想,充分考慮了語(yǔ)句比較計(jì)算過(guò)程中待比較語(yǔ)句之間的各種特征組成,從而使相似度的計(jì)算更加簡(jiǎn)潔,并且取得好的效果。此外,本發(fā)明基于編輯距離算法,通過(guò)突出其考慮字符串與字符串之間的順序的特點(diǎn),采用去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法,以字為處理單元快速識(shí)別基本一致的句子,克服中文分詞效果不理想的問(wèn)題。最后,本發(fā)明提出的基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法和面向用戶意圖的句子相似度算法,兼顧了同義詞和否定詞等語(yǔ)義特征,同時(shí)考慮了查詢請(qǐng)求和查詢意圖之間的關(guān)系,可以有效解決關(guān)鍵詞差異大、長(zhǎng)度長(zhǎng)、句子結(jié)構(gòu)復(fù)雜等問(wèn)題。
[0085]本發(fā)明進(jìn)一步提供了一種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算裝置,如圖6所示,包括:
[0086]一級(jí)相似度確定模塊1,用于采用去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法對(duì)數(shù)據(jù)集進(jìn)行相似度計(jì)算,確定一部分滿足閾值的句子為相似句子;
[0087]二級(jí)相似度確定模塊2,用于采用基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法,對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行相似度計(jì)算,從而再次確定一部分滿足閾值的句子為相似句子;
[0088]三級(jí)相似度確定模塊3,用于采用面向用戶意圖的句子相似度算法,對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行句子相似度計(jì)算,確定一部分滿足閾值的句子為相似句子,至此得到數(shù)據(jù)集中的所有相似句子;其中,
[0089]所述一級(jí)相似度確定模塊1、二級(jí)相似度確定模塊2以及三級(jí)相似度確定模塊3依次連接。
[0090]在本發(fā)明實(shí)施例中,更具體的,所述一級(jí)相似度確定模塊I包括一級(jí)算法模塊,用于計(jì)算兩個(gè)句子的相似度時(shí),忽略其句末的標(biāo)點(diǎn)符號(hào),將去除句末標(biāo)點(diǎn)的句子按照基于字符的編輯距離句子相似度算法計(jì)算其句子的編輯距離,再根據(jù)設(shè)定的閾值判定相似句子;
[0091]所述二級(jí)相似度確定模塊2包括二級(jí)算法模塊,用于采用關(guān)鍵詞特征,將句子轉(zhuǎn)換成關(guān)鍵詞列表形式,再兼顧同義詞特征、否定詞特征,總結(jié)分析經(jīng)過(guò)對(duì)比消解后的剩余關(guān)鍵詞詞數(shù)與已標(biāo)注的相似句子對(duì)之間呈現(xiàn)的規(guī)律,最后判定符合規(guī)律的句子是否句子相似;
[0092]所述三級(jí)相似度確定模塊3包括三級(jí)算法模塊,所述三級(jí)算法模塊包括:
[0093]提問(wèn)子句集轉(zhuǎn)換模塊,用于根據(jù)標(biāo)點(diǎn)符號(hào)切分用戶提問(wèn),利用用戶提問(wèn)中的標(biāo)點(diǎn)符號(hào),將用戶提問(wèn)轉(zhuǎn)換成用戶提問(wèn)子句集;
[0094]子句集處理模塊,用于對(duì)用戶提問(wèn)子句集中每一個(gè)元素計(jì)算其與問(wèn)題集中某問(wèn)題的剩余列表,計(jì)算子句集中每一個(gè)元素與計(jì)算機(jī)存儲(chǔ)的問(wèn)題集中問(wèn)題的句子相似度;
[0095]替換模塊,用于使用子句集中元素與問(wèn)題集中某個(gè)問(wèn)題的最大相似度代替用戶提問(wèn)與這個(gè)問(wèn)題的句子相似度;其中,
[0096]所述一級(jí)算法模塊、二級(jí)算法模塊以及三級(jí)算法模塊中的提問(wèn)子句集轉(zhuǎn)換模塊、子句集處理模塊、替換模塊依次連接。
[0097]在本發(fā)明實(shí)施例中,更具體的,所述二級(jí)相似度確定模塊2還包括剩余關(guān)鍵詞集合模塊,用于將一個(gè)句子經(jīng)過(guò)分詞、去除停用詞、修改錯(cuò)別字、大寫字母轉(zhuǎn)換成小寫字母、中文數(shù)字轉(zhuǎn)換成阿拉伯?dāng)?shù)字、關(guān)鍵詞對(duì)比消減、同義詞對(duì)比消減和否定詞對(duì)比消減后余留的關(guān)鍵詞集合;其中,所述剩余關(guān)鍵詞集合模塊與二級(jí)算法模塊連接。
[0098]在本發(fā)明實(shí)施例中,更具體的,所述二級(jí)相似度確定模塊2還包括用于對(duì)剩余關(guān)鍵詞詞數(shù)與已標(biāo)注的相似句子對(duì)之間的關(guān)系設(shè)定具體規(guī)則的關(guān)系規(guī)則設(shè)定模塊,所述關(guān)系規(guī)則設(shè)定模塊23設(shè)定規(guī)則具體包括:
[0099]規(guī)則1:用于經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后,若用戶提問(wèn)句子與問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)之和小于等于1,且剩余關(guān)鍵詞中不包含否定詞時(shí),則用戶提問(wèn)句子與問(wèn)題集中的某一個(gè)句子是相似的;
[0100]規(guī)則2:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后,若用戶提問(wèn)句子的剩余關(guān)鍵詞詞數(shù)等于0,問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)等于2,且剩余關(guān)鍵詞中不包含否定詞,則用戶提問(wèn)句子與問(wèn)題集中某一句子是相似的;
[0101]規(guī)則3模塊:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后,若用戶提問(wèn)句子的剩余關(guān)鍵詞詞數(shù)等于2,問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)等于0,且剩余關(guān)鍵詞中不包含否定詞,則用戶提問(wèn)句子與問(wèn)題集中某一句子是相似的;
[0102]規(guī)則4模塊:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后,若用戶提問(wèn)句子和問(wèn)題集中某一句子的剩余關(guān)鍵詞中含有的否定詞為奇數(shù)時(shí),則用戶提問(wèn)句子與問(wèn)題集中某一句子是不相似的;其中,
[0103]所述關(guān)系規(guī)則設(shè)定模塊分別與剩余關(guān)鍵詞集合模塊和二級(jí)算法模塊連接。
[0104]在本發(fā)明實(shí)施例中,更具體的,所述提問(wèn)子句集轉(zhuǎn)換模塊包括:
[0105]拆分集中模塊,用于在初始子句集為空時(shí),根據(jù)標(biāo)點(diǎn)符號(hào)將用戶提問(wèn)拆分成若干個(gè)子句,將這些子句并入子句集中;
[0106]子句并入模塊,用于將任意長(zhǎng)度的連續(xù)的若干子句構(gòu)成一個(gè)子句,并入子句集中;
[0107]提問(wèn)整句并入模塊,用于將用戶提問(wèn)的整句并入子句集中,至此構(gòu)建成一個(gè)完整的用戶提問(wèn)子句集;其中,
[0108]所述拆分集中模塊、子句并入模塊、提問(wèn)整句并入模塊以及子句集處理模塊依次連接。
[0109]在本發(fā)明實(shí)施例中,更具體的,所述三級(jí)算法模塊還包括相似性判斷模塊,用于將用戶提問(wèn)子句集中某一子句與問(wèn)題集中某一問(wèn)題進(jìn)行剩余關(guān)鍵詞列表計(jì)算,若子句的剩余關(guān)鍵詞詞數(shù)等于0,問(wèn)題的剩余關(guān)鍵詞詞數(shù)小于等于1,則用戶提問(wèn)與問(wèn)題集中該問(wèn)題是相似的;其中,所述相似性判斷模塊與子句集處理模塊連接。
[0110]本發(fā)明實(shí)施例中的面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算裝置與上述面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法相對(duì)應(yīng),具有相同的原理和有益效果,以上述方法解釋本實(shí)施例裝置,在此不再贅述。
[0111]相比于現(xiàn)有技術(shù)的缺點(diǎn)和不足,本發(fā)明具有以下有益效果:
[0112](I)本發(fā)明利用分層計(jì)算的思想,充分考慮了語(yǔ)句比較計(jì)算過(guò)程中待比較語(yǔ)句之間的各種特征組成,從而使相似度的計(jì)算更加簡(jiǎn)潔,并且取得好的效果。
[0113](2)本發(fā)明基于編輯距離算法,通過(guò)突出其考慮字符串與字符串之間的順序的特點(diǎn),采用去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法,以字為處理單元快速識(shí)別基本一致的句子,克服中文分詞效果不理想的問(wèn)題。
[0114](3)本發(fā)明提出的基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法和面向用戶意圖的句子相似度算法,兼顧了同義詞和否定詞等語(yǔ)義特征,同時(shí)考慮了查詢請(qǐng)求和查詢意圖之間的關(guān)系,可以有效解決關(guān)鍵詞差異大、長(zhǎng)度長(zhǎng)、句子結(jié)構(gòu)復(fù)雜等問(wèn)題。
[0115]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法,其特征在于包括以下步驟: 51、采用去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法對(duì)數(shù)據(jù)集進(jìn)行相似度計(jì)算,確定一部分滿足閾值的句子為相似句子; 52、采用基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法,對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行相似度計(jì)算,從而再次確定一部分滿足閾值的句子為相似句子; 53、采用面向用戶意圖的句子相似度算法,對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行句子相似度計(jì)算,確定一部分滿足閾值的句子為相似句子,至此得到數(shù)據(jù)集中的所有相似句子。
2.如權(quán)利要求1所述的面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法,其特征在于,在步驟SI中,所述去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法具體包括:計(jì)算兩個(gè)句子的相似度時(shí),忽略其句末的標(biāo)點(diǎn)符號(hào),將去除句末標(biāo)點(diǎn)的句子按照基于字符的編輯距離句子相似度算法計(jì)算其句子的編輯距離,再根據(jù)設(shè)定的閾值判定相似句子; 在步驟S2中,所述基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法具體包括:采用關(guān)鍵詞特征,將句子轉(zhuǎn)換成關(guān)鍵詞列表形式,再兼顧同義詞特征、否定詞特征,總結(jié)分析經(jīng)過(guò)對(duì)比消解后的剩余關(guān)鍵詞詞數(shù)與已標(biāo)注的相似句子對(duì)之間呈現(xiàn)的規(guī)律,最后判定符合規(guī)律的句子是否句子相似; 在步驟S3中,所述面向用戶意圖的句子相似度算法具體包括: 根據(jù)標(biāo)點(diǎn)符號(hào)切分用戶提問(wèn),利用用戶提問(wèn)中的標(biāo)點(diǎn)符號(hào),將用戶提問(wèn)轉(zhuǎn)換成用戶提問(wèn)子句集; 對(duì)用戶提問(wèn)子句集中每一個(gè)元素計(jì)算其與問(wèn)題集中某問(wèn)題的剩余列表,計(jì)算子句集中每一個(gè)元素與計(jì)算機(jī)存儲(chǔ)的問(wèn)題集中問(wèn)題的句子相似度; 使用子句集中元素與問(wèn)題集中某個(gè)問(wèn)題的最大相似度代替用戶提問(wèn)與這個(gè)問(wèn)題的句子相似度。
3.如權(quán)利要求2所述的面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法,其特征在于,在步驟S2中,所述剩余關(guān)鍵詞是指一個(gè)句子經(jīng)過(guò)分詞、去除停用詞、修改錯(cuò)別字、大寫字母轉(zhuǎn)換成小寫字母、中文數(shù)字轉(zhuǎn)換成阿拉伯?dāng)?shù)字、關(guān)鍵詞對(duì)比消減、同義詞對(duì)比消減和否定詞對(duì)比消減后余留的關(guān)鍵詞集合。
4.如權(quán)利要求3所述的面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法,其特征在于,在步驟S2中,所述剩余關(guān)鍵詞詞數(shù)與已標(biāo)注的相似句子對(duì)之間的關(guān)系具體包括以下規(guī)則: 規(guī)則1:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后,若用戶提問(wèn)句子與問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)之和小于等于1,且剩余關(guān)鍵詞中不包含否定詞時(shí),則用戶提問(wèn)句子與問(wèn)題集中的某一個(gè)句子是相似的; 規(guī)則2:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后,若用戶提問(wèn)句子的剩余關(guān)鍵詞詞數(shù)等于O,問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)等于2,且剩余關(guān)鍵詞中不包含否定詞,則用戶提問(wèn)句子與問(wèn)題集中某一句子是相似的; 規(guī)則3:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后,若用戶提問(wèn)句子的剩余關(guān)鍵詞詞數(shù)等于2,問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)等于O,且剩余關(guān)鍵詞中不包含否定詞,則用戶提問(wèn)句子與問(wèn)題集中某一句子是相似的; 規(guī)則4:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后,若用戶提問(wèn)句子和問(wèn)題集中某一句子的剩余關(guān)鍵詞中含有的否定詞為奇數(shù)時(shí),則用戶提問(wèn)句子與問(wèn)題集中某一句子是不相似的。
5.如權(quán)利要求2所述的面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法,其特征在于,在步驟S3中,所述用戶提問(wèn)子句集的構(gòu)建方法具體包括:初始子句集為空,首先根據(jù)標(biāo)點(diǎn)符號(hào)將用戶提問(wèn)拆分成若干個(gè)子句,將這些子句并入子句集中;再將任意長(zhǎng)度的連續(xù)的若干子句構(gòu)成一個(gè)子句,并入子句集中;最后將用戶提問(wèn)的整句并入子句集中,至此構(gòu)建成一個(gè)完整的用戶提問(wèn)子句集; 在步驟S3中,所述子句和問(wèn)題集中問(wèn)題的相似性的判斷具體為: 規(guī)則5:將用戶提問(wèn)子句集中某一子句與問(wèn)題集中某一問(wèn)題進(jìn)行剩余關(guān)鍵詞列表計(jì)算,若子句的剩余關(guān)鍵詞詞數(shù)等于O,問(wèn)題的剩余關(guān)鍵詞詞數(shù)小于等于1,則用戶提問(wèn)與問(wèn)題集中該問(wèn)題是相似的。
6.一種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算裝置,其特征在于,包括: 一級(jí)相似度確定模塊,用于采用去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法對(duì)數(shù)據(jù)集進(jìn)行相似度計(jì)算,確定一部分滿足閾值的句子為相似句子;二級(jí)相似度確定模塊,用于采用基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法,對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行相似度計(jì)算,從而再次確定一部分滿足閾值的句子為相似句子;三級(jí)相似度確定模塊,用于采用面向用戶意圖的句子相似度算法,對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行句子相似度計(jì)算,確定一部分滿足閾值的句子為相似句子,至此得到數(shù)據(jù)集中的所有相似句子;其中, 所述一級(jí)相似度確定模塊、二級(jí)相似度確定模塊以及三級(jí)相似度確定模塊依次連接。
7.如權(quán)利要求6所述的面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算裝置,其特征在于,所述一級(jí)相似度確定模塊包括一級(jí)算法模塊,用于計(jì)算兩個(gè)句子的相似度時(shí),忽略其句末的標(biāo)點(diǎn)符號(hào),將去除句末標(biāo)點(diǎn)的句子按照基于字符的編輯距離句子相似度算法計(jì)算其句子的編輯距離,再根據(jù)設(shè)定的閾值判定相似句子; 所述二級(jí)相似度確定模塊包括二級(jí)算法模塊,用于采用關(guān)鍵詞特征,將句子轉(zhuǎn)換成關(guān)鍵詞列表形式,再兼顧同義詞特征、否定詞特征,總結(jié)分析經(jīng)過(guò)對(duì)比消解后的剩余關(guān)鍵詞詞數(shù)與已標(biāo)注的相似句子對(duì)之間呈現(xiàn)的規(guī)律,最后判定符合規(guī)律的句子是否句子相似; 所述三級(jí)相似度確定模塊包括三級(jí)算法模塊,所述三級(jí)算法模塊包括: 提問(wèn)子句集轉(zhuǎn)換模塊,用于根據(jù)標(biāo)點(diǎn)符號(hào)切分用戶提問(wèn),利用用戶提問(wèn)中的標(biāo)點(diǎn)符號(hào),將用戶提問(wèn)轉(zhuǎn)換成用戶提問(wèn)子句集; 子句集處理模塊,用于對(duì)用戶提問(wèn)子句集中每一個(gè)元素計(jì)算其與問(wèn)題集中某問(wèn)題的剩余列表,計(jì)算子句集中每一個(gè)元素與計(jì)算機(jī)存儲(chǔ)的問(wèn)題集中問(wèn)題的句子相似度; 替換模塊,用于使用子句集中元素與問(wèn)題集中某個(gè)問(wèn)題的最大相似度代替用戶提問(wèn)與這個(gè)問(wèn)題的句子相似度;其中, 所述一級(jí)算法模塊、二級(jí)算法模塊以及三級(jí)算法模塊中的提問(wèn)子句集轉(zhuǎn)換模塊、子句集處理模塊、替換模塊依次連接。
8.如權(quán)利要求7所述的面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算裝置,其特征在于,所述二級(jí)相似度確定模塊還包括剩余關(guān)鍵詞集合模塊,用于將一個(gè)句子經(jīng)過(guò)分詞、去除停用詞、修改錯(cuò)別字、大寫字母轉(zhuǎn)換成小寫字母、中文數(shù)字轉(zhuǎn)換成阿拉伯?dāng)?shù)字、關(guān)鍵詞對(duì)比消減、同義詞對(duì)比消減和否定詞對(duì)比消減后余留的關(guān)鍵詞集合;其中, 所述剩余關(guān)鍵詞集合模塊與二級(jí)算法模塊連接。
9.如權(quán)利要求8所述的面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算裝置,其特征在于,所述二級(jí)相似度確定模塊還包括用于對(duì)剩余關(guān)鍵詞詞數(shù)與已標(biāo)注的相似句子對(duì)之間的關(guān)系設(shè)定具體規(guī)則的關(guān)系規(guī)則設(shè)定模塊,所述關(guān)系規(guī)則設(shè)定模塊設(shè)定規(guī)則具體包括: 規(guī)則1:用于經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后,若用戶提問(wèn)句子與問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)之和小于等于1,且剩余關(guān)鍵詞中不包含否定詞時(shí),則用戶提問(wèn)句子與問(wèn)題集中的某一個(gè)句子是相似的; 規(guī)則2:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后,若用戶提問(wèn)句子的剩余關(guān)鍵詞詞數(shù)等于O,問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)等于2,且剩余關(guān)鍵詞中不包含否定詞,則用戶提問(wèn)句子與問(wèn)題集中某一句子是相似的; 規(guī)則3模塊:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后,若用戶提問(wèn)句子的剩余關(guān)鍵詞詞數(shù)等于2,問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)等于O,且剩余關(guān)鍵詞中不包含否定詞,則用戶提問(wèn)句子與問(wèn)題集中某一句子是相似的; 規(guī)則4模塊:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后,若用戶提問(wèn)句子和問(wèn)題集中某一句子的剩余關(guān)鍵詞中含有的否定詞為奇數(shù)時(shí),則用戶提問(wèn)句子與問(wèn)題集中某一句子是不相似的;其中, 所述關(guān)系規(guī)則設(shè)定模塊分別與剩余關(guān)鍵詞集合模塊和二級(jí)算法模塊連接。
10.如權(quán)利要求9所述的面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算裝置,其特征在于,所述提問(wèn)子句集轉(zhuǎn)換模塊包括: 拆分集中模塊,用于在初始子句集為空時(shí),根據(jù)標(biāo)點(diǎn)符號(hào)將用戶提問(wèn)拆分成若干個(gè)子句,將這些子句并入子句集中; 子句并入模塊,用于將任意長(zhǎng)度的連續(xù)的若干子句構(gòu)成一個(gè)子句,并入子句集中; 提問(wèn)整句并入模塊,用于將用戶提問(wèn)的整句并入子句集中,至此構(gòu)建成一個(gè)完整的用戶提問(wèn)子句集;其中, 所述拆分集中模塊、子句并入模塊、提問(wèn)整句并入模塊以及子句集處理模塊依次連接; 所述三級(jí)算法模塊還包括相似性判斷模塊,用于將用戶提問(wèn)子句集中某一子句與問(wèn)題集中某一問(wèn)題進(jìn)行剩余關(guān)鍵詞列表計(jì)算,若子句的剩余關(guān)鍵詞詞數(shù)等于0,問(wèn)題的剩余關(guān)鍵詞詞數(shù)小于等于1,則用戶提問(wèn)與問(wèn)題集中該問(wèn)題是相似的;其中,所述相似性判斷模塊與子句集處理模塊連接。
【文檔編號(hào)】G06F17/27GK104133812SQ201410341855
【公開(kāi)日】2014年11月5日 申請(qǐng)日期:2014年7月17日 優(yōu)先權(quán)日:2014年7月17日
【發(fā)明者】張仰森, 李景玉 申請(qǐng)人:北京信息科技大學(xué), 張仰森
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
景东| 砚山县| 尚志市| 麻阳| 离岛区| 呼伦贝尔市| 琼海市| 驻马店市| 筠连县| 香河县| 辽源市| 丁青县| 凤翔县| 金平| 婺源县| 漳平市| 古交市| 徐水县| 河池市| 如东县| 海原县| 云安县| 福海县| 桦川县| 邹平县| 中山市| 久治县| 太仆寺旗| 温州市| 安陆市| 临湘市| 麻城市| 普陀区| 运城市| 徐水县| 怀化市| 托克逊县| 涿鹿县| 穆棱市| 老河口市| 磐安县|