一種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法及裝置制造方法

文檔序號(hào)：6620455閱讀：231來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法及裝置制造方法
【專利摘要】本發(fā)明提供了一種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法及裝置，通過(guò)采用去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法對(duì)數(shù)據(jù)集進(jìn)行相似度計(jì)算，確定一部分滿足閾值的句子為相似句子，再采用基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法，對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行相似度計(jì)算，從而再次確定一部分滿足閾值的句子為相似句子，最后采用面向用戶意圖的句子相似度算法，對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行句子相似度計(jì)算，確定一部分滿足閾值的句子為相似句子。至此，得到數(shù)據(jù)集中的所有相似句子。本發(fā)明計(jì)算簡(jiǎn)潔，效果良好，可以有效解決關(guān)鍵詞差異大、長(zhǎng)度長(zhǎng)、句子結(jié)構(gòu)復(fù)雜等問(wèn)題。
【專利說(shuō)明】—種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法及裝置

【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于漢語(yǔ)句子相似度計(jì)算【技術(shù)領(lǐng)域】，尤其涉及一種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法及裝置。

【背景技術(shù)】
[0002]相似度計(jì)算是自然語(yǔ)言處理領(lǐng)域的基礎(chǔ)工作，應(yīng)用背景廣泛。根據(jù)處理對(duì)象的不同，可以分為詞相似度計(jì)算、句子相似度計(jì)算以及篇章相似度計(jì)算。其中句子相似度計(jì)算在信息檢索、機(jī)器翻譯、問(wèn)答系統(tǒng)以及自動(dòng)文摘等應(yīng)用領(lǐng)域中的效能直接影響著應(yīng)用系統(tǒng)的整體性能。因此，目前仍有眾多學(xué)者熱衷于不斷改進(jìn)句子相似度的計(jì)算方法。
[0003]目前的句子相似度計(jì)算方法主要有基于編輯距離的句子相似度計(jì)算方法，基于本體詞典或知網(wǎng)語(yǔ)義的句子相似度計(jì)算方法，基于語(yǔ)義依存的句子相似度計(jì)算方法等等。
[0004]編輯距離，也稱Levenshtein distance,是常用的句子相似度計(jì)算方法之一。通過(guò)計(jì)算一個(gè)句子轉(zhuǎn)換成另一個(gè)句子的最小編輯操作數(shù)，來(lái)判定兩個(gè)句子是否相似。其中編輯操作包括“刪除”、“插入”和“替換”。若兩個(gè)句子的編輯距離越小，則兩個(gè)句子越相似。文獻(xiàn)1(車萬(wàn)翔，劉挺，秦兵等.基于改進(jìn)編輯距離的中文相似句子檢索[J].高級(jí)技術(shù)通訊，2004.7，14(7): 15-19)基于編輯距離思想，以及漢語(yǔ)中單個(gè)字往往不具備意義的特點(diǎn)，提出改進(jìn)的編輯距離計(jì)算句子相似度算法，以詞為單位計(jì)算編輯距離，同時(shí)融入Hownet和《同義詞詞林》兩個(gè)語(yǔ)義資源。文獻(xiàn)2(呂學(xué)強(qiáng)，任飛亮，黃志丹等.句子相似模型和最相似句子查找算法[J].東北大學(xué)學(xué)報(bào)(自然科學(xué)版)，2003.6，24(6):531-534)從詞形、詞序兩方面計(jì)算句子相似度，文獻(xiàn)3 (楊思春等.一種改進(jìn)的句子相似度計(jì)算模型[J].電子科技大學(xué)學(xué)報(bào)，2006.12，35(6):956-959)在文獻(xiàn)2的基礎(chǔ)上對(duì)關(guān)鍵詞的抽取方法進(jìn)行改進(jìn)，考慮同義詞的情況，準(zhǔn)確率有所提高。
[0005]文獻(xiàn)I提出的改進(jìn)編輯距離計(jì)算句子相似度算法，雖然考慮了中文語(yǔ)言的特點(diǎn)，并融入語(yǔ)義信息，但是，由于目前中文分詞的效果并不理想，不同的語(yǔ)境下一個(gè)詞有時(shí)可以識(shí)別出來(lái)，有時(shí)卻不能，分詞的不準(zhǔn)確勢(shì)必會(huì)帶來(lái)編輯距離結(jié)果的誤差。這勢(shì)必會(huì)影響計(jì)算相似度的準(zhǔn)確率。文獻(xiàn)2和文獻(xiàn)3提出的句子相似度計(jì)算方法，雖然準(zhǔn)確率有所提高，但是對(duì)于長(zhǎng)度較長(zhǎng)、結(jié)構(gòu)較為復(fù)雜的句子效果仍不理想。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的目的在于提供一種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法及裝置，旨在克服中文分詞效果不理想的問(wèn)題，同時(shí)解決對(duì)于關(guān)鍵詞差異大、長(zhǎng)度長(zhǎng)、句子結(jié)構(gòu)復(fù)雜的句子計(jì)算相似度效果不理想的問(wèn)題，通過(guò)分層計(jì)算的思想，提高相似度計(jì)算的準(zhǔn)確性，提升本方案的實(shí)用價(jià)值。
[0007]本發(fā)明是這樣實(shí)現(xiàn)的，一種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法，包括以下步驟:
[0008]S1、采用去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法對(duì)數(shù)據(jù)集進(jìn)行相似度計(jì)算，確定一部分滿足閾值的句子為相似句子；
[0009]S2、采用基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法，對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行相似度計(jì)算，從而再次確定一部分滿足閾值的句子為相似句子；
[0010]S3、采用面向用戶意圖的句子相似度算法，對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行句子相似度計(jì)算，確定一部分滿足閾值的句子為相似句子，至此得到數(shù)據(jù)集中的所有相似句子。
[0011]優(yōu)選地，在步驟SI中，所述去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法具體包括:計(jì)算兩個(gè)句子的相似度時(shí)，忽略其句末的標(biāo)點(diǎn)符號(hào)，將去除句末標(biāo)點(diǎn)的句子按照基于字符的編輯距離句子相似度算法計(jì)算其句子的編輯距離，再根據(jù)設(shè)定的閾值判定相似句子。
[0012]優(yōu)選地，在步驟S2中，所述基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法具體包括:采用關(guān)鍵詞特征，將句子轉(zhuǎn)換成關(guān)鍵詞列表形式，再兼顧同義詞特征、否定詞特征，總結(jié)分析經(jīng)過(guò)對(duì)比消解后的剩余關(guān)鍵詞詞數(shù)與已標(biāo)注的相似句子對(duì)之間呈現(xiàn)的規(guī)律，最后判定符合規(guī)律的句子是否句子相似。
[0013]優(yōu)選地，在步驟S2中，所述剩余關(guān)鍵詞是指一個(gè)句子經(jīng)過(guò)分詞、去除停用詞、修改錯(cuò)別字、大寫字母轉(zhuǎn)換成小寫字母、中文數(shù)字轉(zhuǎn)換成阿拉伯?dāng)?shù)字、關(guān)鍵詞對(duì)比消減、同義詞對(duì)比消減和否定詞對(duì)比消減后余留的關(guān)鍵詞集合。
[0014]優(yōu)選地，在步驟S2中，所述剩余關(guān)鍵詞詞數(shù)與已標(biāo)注的相似句子對(duì)之間的關(guān)系具體包括以下規(guī)則:
[0015]規(guī)則1:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后，若用戶提問(wèn)句子與問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)之和小于等于1，且剩余關(guān)鍵詞中不包含否定詞時(shí)，則用戶提問(wèn)句子與問(wèn)題集中的某一個(gè)句子是相似的；
[0016]規(guī)則2:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后，若用戶提問(wèn)句子的剩余關(guān)鍵詞詞數(shù)等于0，問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)等于2，且剩余關(guān)鍵詞中不包含否定詞，則用戶提問(wèn)句子與問(wèn)題集中某一句子是相似的；
[0017]規(guī)則3:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后，若用戶提問(wèn)句子的剩余關(guān)鍵詞詞數(shù)等于2，問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)等于0，且剩余關(guān)鍵詞中不包含否定詞，則用戶提問(wèn)句子與問(wèn)題集中某一句子是相似的；
[0018]規(guī)則4:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后，若用戶提問(wèn)句子和問(wèn)題集中某一句子的剩余關(guān)鍵詞中含有的否定詞為奇數(shù)時(shí)，則用戶提問(wèn)句子與問(wèn)題集中某一句子是不相似的。
[0019]優(yōu)選地，在步驟S3中，所述面向用戶意圖的句子相似度算法具體包括:
[0020]根據(jù)標(biāo)點(diǎn)符號(hào)切分用戶提問(wèn)，利用用戶提問(wèn)中的標(biāo)點(diǎn)符號(hào)，將用戶提問(wèn)轉(zhuǎn)換成用戶提問(wèn)子句集；
[0021]對(duì)用戶提問(wèn)子句集中每一個(gè)元素計(jì)算其與問(wèn)題集中某問(wèn)題的剩余列表，計(jì)算子句集中每一個(gè)元素與計(jì)算機(jī)存儲(chǔ)的問(wèn)題集中問(wèn)題的句子相似度；
[0022]使用子句集中元素與問(wèn)題集中某個(gè)問(wèn)題的最大相似度代替用戶提問(wèn)與這個(gè)問(wèn)題的句子相似度。
[0023]優(yōu)選地，在步驟S3中，所述用戶提問(wèn)子句集的構(gòu)建方法具體包括:初始子句集為空，首先根據(jù)標(biāo)點(diǎn)符號(hào)將用戶提問(wèn)拆分成若干個(gè)子句，將這些子句并入子句集中；再將任意長(zhǎng)度的連續(xù)的若干子句構(gòu)成一個(gè)子句，并入子句集中；最后將用戶提問(wèn)的整句并入子句集中，至此構(gòu)建成一個(gè)完整的用戶提問(wèn)子句集。
[0024]優(yōu)選地，在步驟S3中，所述子句和問(wèn)題集中問(wèn)題的相似性的判斷具體為:
[0025]規(guī)則5:將用戶提問(wèn)子句集中某一子句與問(wèn)題集中某一問(wèn)題進(jìn)行剩余關(guān)鍵詞列表計(jì)算，若子句的剩余關(guān)鍵詞詞數(shù)等于0，問(wèn)題的剩余關(guān)鍵詞詞數(shù)小于等于1，則用戶提問(wèn)與問(wèn)題集中該問(wèn)題是相似的。
[0026]本發(fā)明進(jìn)一步提供了一種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算裝置，包括:
[0027]—級(jí)相似度確定模塊，用于采用去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法對(duì)數(shù)據(jù)集進(jìn)行相似度計(jì)算，確定一部分滿足閾值的句子為相似句子；
[0028]二級(jí)相似度確定模塊，用于采用基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法，對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行相似度計(jì)算，從而再次確定一部分滿足閾值的句子為相似句子;
[0029]三級(jí)相似度確定模塊，用于采用面向用戶意圖的句子相似度算法，對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行句子相似度計(jì)算，確定一部分滿足閾值的句子為相似句子，至此得到數(shù)據(jù)集中的所有相似句子；其中，
[0030]所述一級(jí)相似度確定模塊、二級(jí)相似度確定模塊以及三級(jí)相似度確定模塊依次連接。
[0031]優(yōu)選地，所述一級(jí)相似度確定模塊包括一級(jí)算法模塊，用于計(jì)算兩個(gè)句子的相似度時(shí)，忽略其句末的標(biāo)點(diǎn)符號(hào)，將去除句末標(biāo)點(diǎn)的句子按照基于字符的編輯距離句子相似度算法計(jì)算其句子的編輯距離，再根據(jù)設(shè)定的閾值判定相似句子。
[0032]優(yōu)選地，所述二級(jí)相似度確定模塊包括二級(jí)算法模塊，用于采用關(guān)鍵詞特征，將句子轉(zhuǎn)換成關(guān)鍵詞列表形式，再兼顧同義詞特征、否定詞特征，總結(jié)分析經(jīng)過(guò)對(duì)比消解后的剩余關(guān)鍵詞詞數(shù)與已標(biāo)注的相似句子對(duì)之間呈現(xiàn)的規(guī)律，最后判定符合規(guī)律的句子是否句子相似。
[0033]優(yōu)選地，所述二級(jí)相似度確定模塊還包括剩余關(guān)鍵詞集合模塊，用于將一個(gè)句子經(jīng)過(guò)分詞、去除停用詞、修改錯(cuò)別字、大寫字母轉(zhuǎn)換成小寫字母、中文數(shù)字轉(zhuǎn)換成阿拉伯?dāng)?shù)字、關(guān)鍵詞對(duì)比消減、同義詞對(duì)比消減和否定詞對(duì)比消減后余留的關(guān)鍵詞集合；其中，
[0034]所述剩余關(guān)鍵詞集合模塊與二級(jí)算法模塊連接。
[0035]優(yōu)選地，所述二級(jí)相似度確定模塊還包括用于對(duì)剩余關(guān)鍵詞詞數(shù)與已標(biāo)注的相似句子對(duì)之間的關(guān)系設(shè)定具體規(guī)則的關(guān)系規(guī)則設(shè)定模塊，所述關(guān)系規(guī)則設(shè)定模塊設(shè)定規(guī)則具體包括:
[0036]規(guī)則1:用于經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后，若用戶提問(wèn)句子與問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)之和小于等于1，且剩余關(guān)鍵詞中不包含否定詞時(shí)，則用戶提問(wèn)句子與問(wèn)題集中的某一個(gè)句子是相似的；
[0037]規(guī)則2:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后，若用戶提問(wèn)句子的剩余關(guān)鍵詞詞數(shù)等于0，問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)等于2，且剩余關(guān)鍵詞中不包含否定詞，則用戶提問(wèn)句子與問(wèn)題集中某一句子是相似的；
[0038]規(guī)則3模塊:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后，若用戶提問(wèn)句子的剩余關(guān)鍵詞詞數(shù)等于2，問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)等于0，且剩余關(guān)鍵詞中不包含否定詞，則用戶提問(wèn)句子與問(wèn)題集中某一句子是相似的；
[0039]規(guī)則4模塊:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后，若用戶提問(wèn)句子和問(wèn)題集中某一句子的剩余關(guān)鍵詞中含有的否定詞為奇數(shù)時(shí)，則用戶提問(wèn)句子與問(wèn)題集中某一句子是不相似的；其中，
[0040]所述關(guān)系規(guī)則設(shè)定模塊分別與剩余關(guān)鍵詞集合模塊和二級(jí)算法模塊連接。
[0041 ] 優(yōu)選地，所述三級(jí)相似度確定模塊包括三級(jí)算法模塊，所述三級(jí)算法模塊包括:
[0042]提問(wèn)子句集轉(zhuǎn)換模塊，用于根據(jù)標(biāo)點(diǎn)符號(hào)切分用戶提問(wèn)，利用用戶提問(wèn)中的標(biāo)點(diǎn)符號(hào)，將用戶提問(wèn)轉(zhuǎn)換成用戶提問(wèn)子句集；
[0043]子句集處理模塊，用于對(duì)用戶提問(wèn)子句集中每一個(gè)元素計(jì)算其與問(wèn)題集中某問(wèn)題的剩余列表，計(jì)算子句集中每一個(gè)元素與計(jì)算機(jī)存儲(chǔ)的問(wèn)題集中問(wèn)題的句子相似度；
[0044]替換模塊，用于使用子句集中元素與問(wèn)題集中某個(gè)問(wèn)題的最大相似度代替用戶提問(wèn)與這個(gè)問(wèn)題的句子相似度；其中，
[0045]所述一級(jí)算法模塊、二級(jí)算法模塊以及三級(jí)算法模塊中的提問(wèn)子句集轉(zhuǎn)換模塊、子句集處理模塊、替換模塊依次連接。
[0046]優(yōu)選地，所述提問(wèn)子句集轉(zhuǎn)換模塊包括:
[0047]拆分集中模塊，用于在初始子句集為空時(shí)，根據(jù)標(biāo)點(diǎn)符號(hào)將用戶提問(wèn)拆分成若干個(gè)子句，將這些子句并入子句集中；
[0048]子句并入模塊，用于將任意長(zhǎng)度的連續(xù)的若干子句構(gòu)成一個(gè)子句，并入子句集中；
[0049]提問(wèn)整句并入模塊，用于將用戶提問(wèn)的整句并入子句集中，至此構(gòu)建成一個(gè)完整的用戶提問(wèn)子句集；其中，
[0050]所述拆分集中模塊、子句并入模塊、提問(wèn)整句并入模塊以及子句集處理模塊依次連接。
[0051]優(yōu)選地，所述三級(jí)算法模塊還包括相似性判斷模塊，用于將用戶提問(wèn)子句集中某一子句與問(wèn)題集中某一問(wèn)題進(jìn)行剩余關(guān)鍵詞列表計(jì)算，若子句的剩余關(guān)鍵詞詞數(shù)等于0，問(wèn)題的剩余關(guān)鍵詞詞數(shù)小于等于1，則用戶提問(wèn)與問(wèn)題集中該問(wèn)題是相似的；其中，所述相似性判斷模塊與子句集處理模塊連接。
[0052]本發(fā)明克服現(xiàn)有技術(shù)的不足，提供一種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法及裝置，采用Microsoft visual stud12010開(kāi)發(fā)環(huán)境實(shí)現(xiàn),語(yǔ)言采用C#。本系統(tǒng)共分為3個(gè)模塊，分別實(shí)現(xiàn)本方案設(shè)計(jì)的三個(gè)算法。具體的句子相似度分層計(jì)算流程如圖1所示。由圖1可得，本方案包括三個(gè)模塊，分別采用三種算法:去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法、基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法、面向用戶意圖的句子相似度算法。通過(guò)三種不同的算法，處理三種不同類型的數(shù)據(jù)，即構(gòu)成句子的字符基本一致、構(gòu)成句子的關(guān)鍵詞基本一致、構(gòu)成句子的關(guān)鍵詞相差較大三類數(shù)據(jù)，計(jì)算句子相似度，逐步提升本方案的實(shí)用價(jià)值。具體做法為:首先采用去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法對(duì)數(shù)據(jù)集進(jìn)行相似度計(jì)算，確定一部分滿足閾值的句子為相似句子。其次采用基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法，對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行相似度計(jì)算，從而再次確定一部分滿足閾值的句子為相似句子。最后采用面向用戶意圖的句子相似度算法，對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行句子相似度計(jì)算，確定一部分滿足閾值的句子為相似句子。至此，得到數(shù)據(jù)集中的所有相似句子。也就是說(shuō)，3個(gè)模塊之間是串行的，各個(gè)模塊處理的數(shù)據(jù)都是仍不確定是否是相似的句子，已經(jīng)確定為相似的或者不相似的句子是不參與后續(xù)計(jì)算的。
[0053]在本發(fā)明中，最主要的關(guān)鍵技術(shù)點(diǎn)在于:
[0054](I)本發(fā)明采用分層計(jì)算的思想，將數(shù)據(jù)分成三大類，即構(gòu)成句子的字符基本一致、構(gòu)成句子的關(guān)鍵詞基本一致、構(gòu)成句子的關(guān)鍵詞相差較大三類數(shù)據(jù)，針對(duì)不同類型的數(shù)據(jù)設(shè)計(jì)不同的算法，并且逐次使用不同算法計(jì)算句子相似性。
[0055](2)本發(fā)明去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法主要針對(duì)字符基本一致的句子，將句子去除句末標(biāo)點(diǎn)，再按照編輯距離算法計(jì)算兩個(gè)句子的編輯距離，設(shè)定編輯距離小于等于2的句子為相似的。其中去除句末標(biāo)點(diǎn)的操作和閾值的設(shè)定，都使得該算法更符合人們的日常語(yǔ)言習(xí)慣，可以有效改善句子相似度計(jì)算的準(zhǔn)確率。
[0056](3)本發(fā)明基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法主要針對(duì)關(guān)鍵詞基本一致的句子，具體計(jì)算方法為:首先計(jì)算兩個(gè)句子的剩余關(guān)鍵詞列表，最后根據(jù)統(tǒng)計(jì)分析得出的四條規(guī)則計(jì)算其句子相似性。其中，剩余關(guān)鍵詞是指一個(gè)句子經(jīng)過(guò)分詞、去除停用詞、修改錯(cuò)別字、大寫字母轉(zhuǎn)換成小寫字母、中文數(shù)字轉(zhuǎn)換成阿拉伯?dāng)?shù)字、關(guān)鍵詞對(duì)比消減、同義詞對(duì)比消減和否定詞對(duì)比消減后余留的關(guān)鍵詞集合。
[0057](4)本發(fā)明面向用戶意圖的句子相似度算法主要針對(duì)關(guān)鍵詞相差較大的句子，采用子句集中元素與問(wèn)題集中某個(gè)問(wèn)題的最大相似度代替用戶提問(wèn)與這個(gè)問(wèn)題的句子相似度。具體做法是:首先，根據(jù)標(biāo)點(diǎn)符號(hào)切分用戶提問(wèn)，構(gòu)建用戶提問(wèn)子句集；其次對(duì)用戶提問(wèn)子句集中每一個(gè)元素計(jì)算其與問(wèn)題集中某問(wèn)題的剩余列表；最后根據(jù)制定的規(guī)則計(jì)算用戶提問(wèn)和問(wèn)題集中該問(wèn)題的相似性。算法利用了自然標(biāo)注，也就是用戶提問(wèn)中的標(biāo)點(diǎn)符號(hào)，考慮了查詢意圖，解決傳統(tǒng)辦法計(jì)算一個(gè)長(zhǎng)句與一個(gè)短句之間的相似度值不能反映語(yǔ)義層面相似度的問(wèn)題。

【專利附圖】

【附圖說(shuō)明】
[0058]圖1是本發(fā)明中漢語(yǔ)句子相似度分層計(jì)算流程圖；
[0059]圖2是本發(fā)明實(shí)施例中面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法的步驟流程圖；
[0060]圖3是本發(fā)明中去除句末標(biāo)點(diǎn)的編輯距離句子相似度計(jì)算方法流程圖；
[0061]圖4是本發(fā)明中基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法流程圖；
[0062]圖5是本發(fā)明中計(jì)算剩余關(guān)鍵詞列表流程圖；
[0063]圖6是本發(fā)明中面向用戶意圖的句子相似度算法流程圖；
[0064]圖7是本發(fā)明實(shí)施例中面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算裝置的結(jié)構(gòu)示意圖。

【具體實(shí)施方式】
[0065]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白，以下結(jié)合附圖及實(shí)施例，對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解，此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。
[0066]一種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法，如圖1和圖2所示，包括以下步驟:
[0067]S1、采用去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法對(duì)數(shù)據(jù)集進(jìn)行相似度計(jì)算，確定一部分滿足閾值的句子為相似句子
[0068]在步驟SI中，去除句末標(biāo)點(diǎn)的編輯距離句子相似度計(jì)算方法流程如圖3所示，其中，去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法是指在計(jì)算兩個(gè)句子的相似度時(shí)，忽略其句末的標(biāo)點(diǎn)符號(hào)，因?yàn)榫淠?biāo)點(diǎn)通常用于表達(dá)語(yǔ)氣，對(duì)于判別句子相似度是不具有意義的。具體方案為:將去除句末標(biāo)點(diǎn)的句子按照基于字符的編輯距離句子相似度算法計(jì)算其句子的編輯距離，再根據(jù)設(shè)定的閾值判定哪些句子為相似的。本方案中閾值設(shè)置為2，這是考慮到人們?cè)诿枋鰡?wèn)題時(shí)往往偏向使用一些無(wú)關(guān)真正需求的介詞，或者對(duì)于同一事物存在不同表述，所以將編輯距離小于等于2的句子對(duì)視為相似的，即允許有兩次或兩次以下的編輯操作次數(shù)。
[0069]S2、采用基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法，對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行相似度計(jì)算，從而再次確定一部分滿足閾值的句子為相似句子
[0070]在步驟S2中，基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法流程如圖4所示，其中，基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法是指采用關(guān)鍵詞特征，將句子轉(zhuǎn)換成關(guān)鍵詞列表形式，再兼顧同義詞特征、否定詞特征，總結(jié)分析經(jīng)過(guò)對(duì)比消解后的剩余關(guān)鍵詞詞數(shù)與已標(biāo)注的相似句子對(duì)之間呈現(xiàn)的規(guī)律，最后判定符合規(guī)律的句子是否句子相似。其中，剩余關(guān)鍵詞是指一個(gè)句子經(jīng)過(guò)分詞、去除停用詞、修改錯(cuò)別字、大寫字母轉(zhuǎn)換成小寫字母、中文數(shù)字轉(zhuǎn)換成阿拉伯?dāng)?shù)字、關(guān)鍵詞對(duì)比消減、同義詞對(duì)比消減和否定詞對(duì)比消減后余留的關(guān)鍵詞集合。
[0071]本算法通過(guò)分析剩余關(guān)鍵詞總詞數(shù)與相似句子之間的關(guān)系，共制定了四條規(guī)則，分別為:
[0072]規(guī)則1:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后，若用戶提問(wèn)句子與問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)之和小于等于1，且剩余關(guān)鍵詞中不包含否定詞時(shí)，則用戶提問(wèn)句子與問(wèn)題集中的某一個(gè)句子是相似的。
[0073]規(guī)則2:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后，若用戶提問(wèn)句子的剩余關(guān)鍵詞詞數(shù)等于0，問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)等于2，且剩余關(guān)鍵詞中不包含否定詞，則用戶提問(wèn)句子與問(wèn)題集中某一句子是相似的。
[0074]規(guī)則3:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后，若用戶提問(wèn)句子的剩余關(guān)鍵詞詞數(shù)等于2，問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)等于0，且剩余關(guān)鍵詞中不包含否定詞，則用戶提問(wèn)句子與問(wèn)題集中某一句子是相似的。
[0075]規(guī)則4:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后，若用戶提問(wèn)句子和問(wèn)題集中某一句子的剩余關(guān)鍵詞中含有的否定詞為奇數(shù)時(shí)，則用戶提問(wèn)句子與問(wèn)題集中某一句子是不相似的。
[0076]本算法的具體做法為:首先計(jì)算兩個(gè)句子的剩余關(guān)鍵詞列表，再根據(jù)上述四條規(guī)則計(jì)算其句子相似性。
[0077]在本發(fā)明實(shí)施例中，計(jì)算剩余關(guān)鍵詞列表流程如圖5所示。
[0078]S3、采用面向用戶意圖的句子相似度算法，對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行句子相似度計(jì)算，確定一部分滿足閾值的句子為相似句子，至此得到數(shù)據(jù)集中的所有相似句子
[0079]在步驟S3中，面向用戶意圖的句子相似度算法流程如圖6所示，其中，面向用戶意圖的句子相似度算法是指利用用戶提問(wèn)中的標(biāo)點(diǎn)符號(hào)，將用戶提問(wèn)轉(zhuǎn)換成用戶提問(wèn)子句集，計(jì)算子句集中每一個(gè)元素與計(jì)算機(jī)存儲(chǔ)的問(wèn)題集中問(wèn)題的句子相似度。使用子句集中元素與問(wèn)題集中某個(gè)問(wèn)題的最大相似度代替用戶提問(wèn)與這個(gè)問(wèn)題的句子相似度。
[0080]其中用戶提問(wèn)子句集的構(gòu)建方法是:初始子句集為空，首先根據(jù)標(biāo)點(diǎn)符號(hào)將用戶提問(wèn)拆分成若干個(gè)子句，將這些子句并入子句集中；再將任意長(zhǎng)度的連續(xù)的若干子句構(gòu)成一個(gè)子句，并入子句集中；最后將用戶提問(wèn)的整句并入子句集中，至此構(gòu)建成一個(gè)完整的用戶提問(wèn)子句集。
[0081]由于子句所包含的關(guān)鍵詞個(gè)數(shù)相對(duì)完整問(wèn)題句的關(guān)鍵詞個(gè)數(shù)較少，所以提出規(guī)則5來(lái)判斷子句和問(wèn)題集中問(wèn)題的相似性。
[0082]規(guī)則5:將用戶提問(wèn)子句集中某一子句與問(wèn)題集中某一問(wèn)題進(jìn)行剩余關(guān)鍵詞列表計(jì)算，若子句的剩余關(guān)鍵詞詞數(shù)等于0，問(wèn)題的剩余關(guān)鍵詞詞數(shù)小于等于1，則用戶提問(wèn)與問(wèn)題集中該問(wèn)題是相似的。
[0083]本算法的具體做法是:首先，根據(jù)標(biāo)點(diǎn)符號(hào)切分用戶提問(wèn)，構(gòu)建用戶提問(wèn)子句集；其次對(duì)用戶提問(wèn)子句集中每一個(gè)元素計(jì)算其與問(wèn)題集中某問(wèn)題的剩余列表；最后根據(jù)規(guī)則5計(jì)算用戶提問(wèn)和問(wèn)題集中該問(wèn)題的相似性。
[0084]本發(fā)明利用分層計(jì)算的思想，充分考慮了語(yǔ)句比較計(jì)算過(guò)程中待比較語(yǔ)句之間的各種特征組成，從而使相似度的計(jì)算更加簡(jiǎn)潔，并且取得好的效果。此外，本發(fā)明基于編輯距離算法，通過(guò)突出其考慮字符串與字符串之間的順序的特點(diǎn)，采用去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法，以字為處理單元快速識(shí)別基本一致的句子，克服中文分詞效果不理想的問(wèn)題。最后，本發(fā)明提出的基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法和面向用戶意圖的句子相似度算法，兼顧了同義詞和否定詞等語(yǔ)義特征，同時(shí)考慮了查詢請(qǐng)求和查詢意圖之間的關(guān)系，可以有效解決關(guān)鍵詞差異大、長(zhǎng)度長(zhǎng)、句子結(jié)構(gòu)復(fù)雜等問(wèn)題。
[0085]本發(fā)明進(jìn)一步提供了一種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算裝置，如圖6所示,包括:
[0086]一級(jí)相似度確定模塊1，用于采用去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法對(duì)數(shù)據(jù)集進(jìn)行相似度計(jì)算，確定一部分滿足閾值的句子為相似句子；
[0087]二級(jí)相似度確定模塊2，用于采用基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法，對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行相似度計(jì)算，從而再次確定一部分滿足閾值的句子為相似句子;
[0088]三級(jí)相似度確定模塊3，用于采用面向用戶意圖的句子相似度算法，對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行句子相似度計(jì)算，確定一部分滿足閾值的句子為相似句子，至此得到數(shù)據(jù)集中的所有相似句子；其中，
[0089]所述一級(jí)相似度確定模塊1、二級(jí)相似度確定模塊2以及三級(jí)相似度確定模塊3依次連接。
[0090]在本發(fā)明實(shí)施例中，更具體的，所述一級(jí)相似度確定模塊I包括一級(jí)算法模塊，用于計(jì)算兩個(gè)句子的相似度時(shí)，忽略其句末的標(biāo)點(diǎn)符號(hào)，將去除句末標(biāo)點(diǎn)的句子按照基于字符的編輯距離句子相似度算法計(jì)算其句子的編輯距離，再根據(jù)設(shè)定的閾值判定相似句子；
[0091]所述二級(jí)相似度確定模塊2包括二級(jí)算法模塊，用于采用關(guān)鍵詞特征，將句子轉(zhuǎn)換成關(guān)鍵詞列表形式，再兼顧同義詞特征、否定詞特征，總結(jié)分析經(jīng)過(guò)對(duì)比消解后的剩余關(guān)鍵詞詞數(shù)與已標(biāo)注的相似句子對(duì)之間呈現(xiàn)的規(guī)律，最后判定符合規(guī)律的句子是否句子相似；
[0092]所述三級(jí)相似度確定模塊3包括三級(jí)算法模塊，所述三級(jí)算法模塊包括:
[0093]提問(wèn)子句集轉(zhuǎn)換模塊，用于根據(jù)標(biāo)點(diǎn)符號(hào)切分用戶提問(wèn)，利用用戶提問(wèn)中的標(biāo)點(diǎn)符號(hào)，將用戶提問(wèn)轉(zhuǎn)換成用戶提問(wèn)子句集；
[0094]子句集處理模塊，用于對(duì)用戶提問(wèn)子句集中每一個(gè)元素計(jì)算其與問(wèn)題集中某問(wèn)題的剩余列表，計(jì)算子句集中每一個(gè)元素與計(jì)算機(jī)存儲(chǔ)的問(wèn)題集中問(wèn)題的句子相似度；
[0095]替換模塊，用于使用子句集中元素與問(wèn)題集中某個(gè)問(wèn)題的最大相似度代替用戶提問(wèn)與這個(gè)問(wèn)題的句子相似度；其中，
[0096]所述一級(jí)算法模塊、二級(jí)算法模塊以及三級(jí)算法模塊中的提問(wèn)子句集轉(zhuǎn)換模塊、子句集處理模塊、替換模塊依次連接。
[0097]在本發(fā)明實(shí)施例中，更具體的，所述二級(jí)相似度確定模塊2還包括剩余關(guān)鍵詞集合模塊，用于將一個(gè)句子經(jīng)過(guò)分詞、去除停用詞、修改錯(cuò)別字、大寫字母轉(zhuǎn)換成小寫字母、中文數(shù)字轉(zhuǎn)換成阿拉伯?dāng)?shù)字、關(guān)鍵詞對(duì)比消減、同義詞對(duì)比消減和否定詞對(duì)比消減后余留的關(guān)鍵詞集合；其中，所述剩余關(guān)鍵詞集合模塊與二級(jí)算法模塊連接。
[0098]在本發(fā)明實(shí)施例中，更具體的，所述二級(jí)相似度確定模塊2還包括用于對(duì)剩余關(guān)鍵詞詞數(shù)與已標(biāo)注的相似句子對(duì)之間的關(guān)系設(shè)定具體規(guī)則的關(guān)系規(guī)則設(shè)定模塊，所述關(guān)系規(guī)則設(shè)定模塊23設(shè)定規(guī)則具體包括:
[0099]規(guī)則1:用于經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后，若用戶提問(wèn)句子與問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)之和小于等于1，且剩余關(guān)鍵詞中不包含否定詞時(shí)，則用戶提問(wèn)句子與問(wèn)題集中的某一個(gè)句子是相似的；
[0100]規(guī)則2:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后，若用戶提問(wèn)句子的剩余關(guān)鍵詞詞數(shù)等于0，問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)等于2，且剩余關(guān)鍵詞中不包含否定詞，則用戶提問(wèn)句子與問(wèn)題集中某一句子是相似的；
[0101]規(guī)則3模塊:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后，若用戶提問(wèn)句子的剩余關(guān)鍵詞詞數(shù)等于2，問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)等于0，且剩余關(guān)鍵詞中不包含否定詞，則用戶提問(wèn)句子與問(wèn)題集中某一句子是相似的；
[0102]規(guī)則4模塊:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后，若用戶提問(wèn)句子和問(wèn)題集中某一句子的剩余關(guān)鍵詞中含有的否定詞為奇數(shù)時(shí)，則用戶提問(wèn)句子與問(wèn)題集中某一句子是不相似的；其中，
[0103]所述關(guān)系規(guī)則設(shè)定模塊分別與剩余關(guān)鍵詞集合模塊和二級(jí)算法模塊連接。
[0104]在本發(fā)明實(shí)施例中，更具體的，所述提問(wèn)子句集轉(zhuǎn)換模塊包括:
[0105]拆分集中模塊，用于在初始子句集為空時(shí)，根據(jù)標(biāo)點(diǎn)符號(hào)將用戶提問(wèn)拆分成若干個(gè)子句，將這些子句并入子句集中；
[0106]子句并入模塊，用于將任意長(zhǎng)度的連續(xù)的若干子句構(gòu)成一個(gè)子句，并入子句集中；
[0107]提問(wèn)整句并入模塊，用于將用戶提問(wèn)的整句并入子句集中，至此構(gòu)建成一個(gè)完整的用戶提問(wèn)子句集；其中，
[0108]所述拆分集中模塊、子句并入模塊、提問(wèn)整句并入模塊以及子句集處理模塊依次連接。
[0109]在本發(fā)明實(shí)施例中，更具體的，所述三級(jí)算法模塊還包括相似性判斷模塊，用于將用戶提問(wèn)子句集中某一子句與問(wèn)題集中某一問(wèn)題進(jìn)行剩余關(guān)鍵詞列表計(jì)算，若子句的剩余關(guān)鍵詞詞數(shù)等于0，問(wèn)題的剩余關(guān)鍵詞詞數(shù)小于等于1，則用戶提問(wèn)與問(wèn)題集中該問(wèn)題是相似的；其中，所述相似性判斷模塊與子句集處理模塊連接。
[0110]本發(fā)明實(shí)施例中的面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算裝置與上述面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法相對(duì)應(yīng)，具有相同的原理和有益效果，以上述方法解釋本實(shí)施例裝置，在此不再贅述。
[0111]相比于現(xiàn)有技術(shù)的缺點(diǎn)和不足，本發(fā)明具有以下有益效果:
[0112](I)本發(fā)明利用分層計(jì)算的思想，充分考慮了語(yǔ)句比較計(jì)算過(guò)程中待比較語(yǔ)句之間的各種特征組成，從而使相似度的計(jì)算更加簡(jiǎn)潔，并且取得好的效果。
[0113](2)本發(fā)明基于編輯距離算法，通過(guò)突出其考慮字符串與字符串之間的順序的特點(diǎn)，采用去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法，以字為處理單元快速識(shí)別基本一致的句子，克服中文分詞效果不理想的問(wèn)題。
[0114](3)本發(fā)明提出的基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法和面向用戶意圖的句子相似度算法，兼顧了同義詞和否定詞等語(yǔ)義特征，同時(shí)考慮了查詢請(qǐng)求和查詢意圖之間的關(guān)系，可以有效解決關(guān)鍵詞差異大、長(zhǎng)度長(zhǎng)、句子結(jié)構(gòu)復(fù)雜等問(wèn)題。
[0115]以上所述僅為本發(fā)明的較佳實(shí)施例而已，并不用以限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法，其特征在于包括以下步驟: 51、采用去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法對(duì)數(shù)據(jù)集進(jìn)行相似度計(jì)算，確定一部分滿足閾值的句子為相似句子； 52、采用基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法，對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行相似度計(jì)算，從而再次確定一部分滿足閾值的句子為相似句子； 53、采用面向用戶意圖的句子相似度算法，對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行句子相似度計(jì)算，確定一部分滿足閾值的句子為相似句子，至此得到數(shù)據(jù)集中的所有相似句子。
2.如權(quán)利要求1所述的面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法，其特征在于，在步驟SI中，所述去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法具體包括:計(jì)算兩個(gè)句子的相似度時(shí)，忽略其句末的標(biāo)點(diǎn)符號(hào)，將去除句末標(biāo)點(diǎn)的句子按照基于字符的編輯距離句子相似度算法計(jì)算其句子的編輯距離，再根據(jù)設(shè)定的閾值判定相似句子；在步驟S2中，所述基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法具體包括:采用關(guān)鍵詞特征，將句子轉(zhuǎn)換成關(guān)鍵詞列表形式，再兼顧同義詞特征、否定詞特征，總結(jié)分析經(jīng)過(guò)對(duì)比消解后的剩余關(guān)鍵詞詞數(shù)與已標(biāo)注的相似句子對(duì)之間呈現(xiàn)的規(guī)律，最后判定符合規(guī)律的句子是否句子相似；在步驟S3中，所述面向用戶意圖的句子相似度算法具體包括: 根據(jù)標(biāo)點(diǎn)符號(hào)切分用戶提問(wèn)，利用用戶提問(wèn)中的標(biāo)點(diǎn)符號(hào)，將用戶提問(wèn)轉(zhuǎn)換成用戶提問(wèn)子句集；對(duì)用戶提問(wèn)子句集中每一個(gè)元素計(jì)算其與問(wèn)題集中某問(wèn)題的剩余列表，計(jì)算子句集中每一個(gè)元素與計(jì)算機(jī)存儲(chǔ)的問(wèn)題集中問(wèn)題的句子相似度；使用子句集中元素與問(wèn)題集中某個(gè)問(wèn)題的最大相似度代替用戶提問(wèn)與這個(gè)問(wèn)題的句子相似度。
3.如權(quán)利要求2所述的面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法，其特征在于，在步驟S2中，所述剩余關(guān)鍵詞是指一個(gè)句子經(jīng)過(guò)分詞、去除停用詞、修改錯(cuò)別字、大寫字母轉(zhuǎn)換成小寫字母、中文數(shù)字轉(zhuǎn)換成阿拉伯?dāng)?shù)字、關(guān)鍵詞對(duì)比消減、同義詞對(duì)比消減和否定詞對(duì)比消減后余留的關(guān)鍵詞集合。
4.如權(quán)利要求3所述的面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法，其特征在于，在步驟S2中，所述剩余關(guān)鍵詞詞數(shù)與已標(biāo)注的相似句子對(duì)之間的關(guān)系具體包括以下規(guī)則: 規(guī)則1:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后，若用戶提問(wèn)句子與問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)之和小于等于1，且剩余關(guān)鍵詞中不包含否定詞時(shí)，則用戶提問(wèn)句子與問(wèn)題集中的某一個(gè)句子是相似的；規(guī)則2:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后，若用戶提問(wèn)句子的剩余關(guān)鍵詞詞數(shù)等于O，問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)等于2，且剩余關(guān)鍵詞中不包含否定詞，則用戶提問(wèn)句子與問(wèn)題集中某一句子是相似的；規(guī)則3:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后，若用戶提問(wèn)句子的剩余關(guān)鍵詞詞數(shù)等于2，問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)等于O，且剩余關(guān)鍵詞中不包含否定詞，則用戶提問(wèn)句子與問(wèn)題集中某一句子是相似的；規(guī)則4:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后，若用戶提問(wèn)句子和問(wèn)題集中某一句子的剩余關(guān)鍵詞中含有的否定詞為奇數(shù)時(shí)，則用戶提問(wèn)句子與問(wèn)題集中某一句子是不相似的。
5.如權(quán)利要求2所述的面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法，其特征在于，在步驟S3中，所述用戶提問(wèn)子句集的構(gòu)建方法具體包括:初始子句集為空，首先根據(jù)標(biāo)點(diǎn)符號(hào)將用戶提問(wèn)拆分成若干個(gè)子句，將這些子句并入子句集中；再將任意長(zhǎng)度的連續(xù)的若干子句構(gòu)成一個(gè)子句，并入子句集中；最后將用戶提問(wèn)的整句并入子句集中，至此構(gòu)建成一個(gè)完整的用戶提問(wèn)子句集；在步驟S3中，所述子句和問(wèn)題集中問(wèn)題的相似性的判斷具體為: 規(guī)則5:將用戶提問(wèn)子句集中某一子句與問(wèn)題集中某一問(wèn)題進(jìn)行剩余關(guān)鍵詞列表計(jì)算，若子句的剩余關(guān)鍵詞詞數(shù)等于O，問(wèn)題的剩余關(guān)鍵詞詞數(shù)小于等于1，則用戶提問(wèn)與問(wèn)題集中該問(wèn)題是相似的。
6.一種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算裝置，其特征在于，包括: 一級(jí)相似度確定模塊，用于采用去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法對(duì)數(shù)據(jù)集進(jìn)行相似度計(jì)算，確定一部分滿足閾值的句子為相似句子；二級(jí)相似度確定模塊，用于采用基于關(guān)鍵詞特征和語(yǔ)義特征的句子相似度算法，對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行相似度計(jì)算，從而再次確定一部分滿足閾值的句子為相似句子；三級(jí)相似度確定模塊，用于采用面向用戶意圖的句子相似度算法，對(duì)數(shù)據(jù)集中的非相似句子進(jìn)行句子相似度計(jì)算，確定一部分滿足閾值的句子為相似句子，至此得到數(shù)據(jù)集中的所有相似句子；其中，所述一級(jí)相似度確定模塊、二級(jí)相似度確定模塊以及三級(jí)相似度確定模塊依次連接。
7.如權(quán)利要求6所述的面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算裝置，其特征在于，所述一級(jí)相似度確定模塊包括一級(jí)算法模塊，用于計(jì)算兩個(gè)句子的相似度時(shí)，忽略其句末的標(biāo)點(diǎn)符號(hào)，將去除句末標(biāo)點(diǎn)的句子按照基于字符的編輯距離句子相似度算法計(jì)算其句子的編輯距離，再根據(jù)設(shè)定的閾值判定相似句子；所述二級(jí)相似度確定模塊包括二級(jí)算法模塊，用于采用關(guān)鍵詞特征，將句子轉(zhuǎn)換成關(guān)鍵詞列表形式，再兼顧同義詞特征、否定詞特征，總結(jié)分析經(jīng)過(guò)對(duì)比消解后的剩余關(guān)鍵詞詞數(shù)與已標(biāo)注的相似句子對(duì)之間呈現(xiàn)的規(guī)律，最后判定符合規(guī)律的句子是否句子相似；所述三級(jí)相似度確定模塊包括三級(jí)算法模塊，所述三級(jí)算法模塊包括: 提問(wèn)子句集轉(zhuǎn)換模塊，用于根據(jù)標(biāo)點(diǎn)符號(hào)切分用戶提問(wèn)，利用用戶提問(wèn)中的標(biāo)點(diǎn)符號(hào)，將用戶提問(wèn)轉(zhuǎn)換成用戶提問(wèn)子句集；子句集處理模塊，用于對(duì)用戶提問(wèn)子句集中每一個(gè)元素計(jì)算其與問(wèn)題集中某問(wèn)題的剩余列表，計(jì)算子句集中每一個(gè)元素與計(jì)算機(jī)存儲(chǔ)的問(wèn)題集中問(wèn)題的句子相似度；替換模塊，用于使用子句集中元素與問(wèn)題集中某個(gè)問(wèn)題的最大相似度代替用戶提問(wèn)與這個(gè)問(wèn)題的句子相似度；其中，所述一級(jí)算法模塊、二級(jí)算法模塊以及三級(jí)算法模塊中的提問(wèn)子句集轉(zhuǎn)換模塊、子句集處理模塊、替換模塊依次連接。
8.如權(quán)利要求7所述的面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算裝置，其特征在于，所述二級(jí)相似度確定模塊還包括剩余關(guān)鍵詞集合模塊，用于將一個(gè)句子經(jīng)過(guò)分詞、去除停用詞、修改錯(cuò)別字、大寫字母轉(zhuǎn)換成小寫字母、中文數(shù)字轉(zhuǎn)換成阿拉伯?dāng)?shù)字、關(guān)鍵詞對(duì)比消減、同義詞對(duì)比消減和否定詞對(duì)比消減后余留的關(guān)鍵詞集合；其中，所述剩余關(guān)鍵詞集合模塊與二級(jí)算法模塊連接。
9.如權(quán)利要求8所述的面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算裝置，其特征在于，所述二級(jí)相似度確定模塊還包括用于對(duì)剩余關(guān)鍵詞詞數(shù)與已標(biāo)注的相似句子對(duì)之間的關(guān)系設(shè)定具體規(guī)則的關(guān)系規(guī)則設(shè)定模塊，所述關(guān)系規(guī)則設(shè)定模塊設(shè)定規(guī)則具體包括: 規(guī)則1:用于經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后，若用戶提問(wèn)句子與問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)之和小于等于1，且剩余關(guān)鍵詞中不包含否定詞時(shí)，則用戶提問(wèn)句子與問(wèn)題集中的某一個(gè)句子是相似的；規(guī)則2:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后，若用戶提問(wèn)句子的剩余關(guān)鍵詞詞數(shù)等于O，問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)等于2，且剩余關(guān)鍵詞中不包含否定詞，則用戶提問(wèn)句子與問(wèn)題集中某一句子是相似的；規(guī)則3模塊:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后，若用戶提問(wèn)句子的剩余關(guān)鍵詞詞數(shù)等于2，問(wèn)題集中某一句子的剩余關(guān)鍵詞詞數(shù)等于O，且剩余關(guān)鍵詞中不包含否定詞，則用戶提問(wèn)句子與問(wèn)題集中某一句子是相似的；規(guī)則4模塊:經(jīng)過(guò)剩余關(guān)鍵詞列表計(jì)算后，若用戶提問(wèn)句子和問(wèn)題集中某一句子的剩余關(guān)鍵詞中含有的否定詞為奇數(shù)時(shí)，則用戶提問(wèn)句子與問(wèn)題集中某一句子是不相似的；其中，所述關(guān)系規(guī)則設(shè)定模塊分別與剩余關(guān)鍵詞集合模塊和二級(jí)算法模塊連接。
10.如權(quán)利要求9所述的面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算裝置，其特征在于，所述提問(wèn)子句集轉(zhuǎn)換模塊包括: 拆分集中模塊，用于在初始子句集為空時(shí)，根據(jù)標(biāo)點(diǎn)符號(hào)將用戶提問(wèn)拆分成若干個(gè)子句，將這些子句并入子句集中；子句并入模塊，用于將任意長(zhǎng)度的連續(xù)的若干子句構(gòu)成一個(gè)子句，并入子句集中；提問(wèn)整句并入模塊，用于將用戶提問(wèn)的整句并入子句集中，至此構(gòu)建成一個(gè)完整的用戶提問(wèn)子句集；其中，所述拆分集中模塊、子句并入模塊、提問(wèn)整句并入模塊以及子句集處理模塊依次連接；所述三級(jí)算法模塊還包括相似性判斷模塊，用于將用戶提問(wèn)子句集中某一子句與問(wèn)題集中某一問(wèn)題進(jìn)行剩余關(guān)鍵詞列表計(jì)算，若子句的剩余關(guān)鍵詞詞數(shù)等于0，問(wèn)題的剩余關(guān)鍵詞詞數(shù)小于等于1，則用戶提問(wèn)與問(wèn)題集中該問(wèn)題是相似的；其中，所述相似性判斷模塊與子句集處理模塊連接。
【文檔編號(hào)】G06F17/27GK104133812SQ201410341855
【公開(kāi)日】2014年11月5日申請(qǐng)日期:2014年7月17日優(yōu)先權(quán)日:2014年7月17日
【發(fā)明者】張仰森, 李景玉申請(qǐng)人:北京信息科技大學(xué), 張仰森

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張仰森;李景玉
技術(shù)所有人：北京信息科技大學(xué);張仰森
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

用戶意圖識(shí)別相關(guān)技術(shù)

用戶意圖相關(guān)技術(shù)

用戶意圖分析相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種面向用戶查詢意圖的漢語(yǔ)句子相似度分層計(jì)算方法及裝置制造方法