中文文本相似度的確定方法和裝置與流程

文檔序號(hào)：12597368閱讀：399來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本申請(qǐng)涉及文本處理領(lǐng)域，具體而言，涉及一種中文文本相似度的確定方法和裝置。

背景技術(shù)：

在對(duì)文本進(jìn)行分析的過(guò)程中，經(jīng)常需要對(duì)文本進(jìn)行糾錯(cuò)，即，將文本中所出現(xiàn)的錯(cuò)誤用詞進(jìn)行糾正，比如，根據(jù)用戶輸入的“危險(xiǎn)拉面”，區(qū)分出用戶可能的目標(biāo)詞為相似文本“味千拉面”。而對(duì)于相似文本的確定方法，目前主要是計(jì)算字符串之間相似詞語(yǔ)的個(gè)數(shù)，相似個(gè)數(shù)越多，表示文本的相似度越高。

然而，發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)的方案對(duì)于因拼寫錯(cuò)誤造成的相似文本很難有效識(shí)別，如，其識(shí)別結(jié)果中“千葉拉面”與“味千拉面”的相似度比“危險(xiǎn)拉面”與“味千拉面”的相似度更高。

針對(duì)上述的問(wèn)題，目前尚未提出有效的解決方案。

技術(shù)實(shí)現(xiàn)要素：

本申請(qǐng)實(shí)施例提供了一種中文文本相似度的確定方法和裝置，以至少解決現(xiàn)有技術(shù)難以有效識(shí)別因拼寫錯(cuò)誤造成的相似文本的技術(shù)問(wèn)題。

根據(jù)本申請(qǐng)實(shí)施例的一個(gè)方面，提供了一種中文文本相似度的確定方法，包括：將第一中文文本中的漢字轉(zhuǎn)化為拼音，得到第一拼音文本，將第二中文文本中的漢字轉(zhuǎn)化為拼音，得到第二拼音文本；按照漢語(yǔ)拼音的規(guī)則統(tǒng)計(jì)所述第一拼音文本中每種拼音單元的個(gè)數(shù)和所述第二拼音文本中每種拼音單元的個(gè)數(shù)；由所述第一拼音文本中每種拼音單元的個(gè)數(shù)生成第一特征向量，由所述第二拼音文本中每種拼音單元的個(gè)數(shù)生成第二特征向量；計(jì)算所述第一特征向量與所述第二特征向量的距離；根據(jù)所述距離確定所述第一中文文本與所述第二中文文本的相似度，其中，所述距離越小，所述第一中文文本與所述第二中文文本的相似度越高。

進(jìn)一步地，按照漢語(yǔ)拼音的規(guī)則統(tǒng)計(jì)所述第一拼音文本中每種拼音單元的個(gè)數(shù)和所述第二拼音文本中每種拼音單元的個(gè)數(shù)包括：將漢字中的一個(gè)聲母作為一個(gè)拼音單元，一個(gè)韻母作為一個(gè)拼音單元，統(tǒng)計(jì)所述第一拼音文本中每種聲母和每種韻母的個(gè)數(shù)以及所述第二拼音文本中每種聲母和每種韻母的個(gè)數(shù)。

進(jìn)一步地，按照漢語(yǔ)拼音的規(guī)則統(tǒng)計(jì)所述第一拼音文本中每種拼音單元的個(gè)數(shù)和所述第二拼音文本中每種拼音單元的個(gè)數(shù)包括：將漢字中的一個(gè)整體認(rèn)讀音節(jié)作為一個(gè)拼音單元，非整體認(rèn)讀音節(jié)的漢語(yǔ)拼音的一個(gè)聲母作為一個(gè)拼音單元，非整體認(rèn)讀音節(jié)的漢語(yǔ)拼音的一個(gè)韻母作為一個(gè)拼音單元，統(tǒng)計(jì)所述第一拼音文本中每種聲母、每種韻母以及每種整體認(rèn)讀音節(jié)的個(gè)數(shù)以及所述第二拼音文本中每種聲母、每種韻母以及每種整體認(rèn)讀音節(jié)的個(gè)數(shù)。

進(jìn)一步地，由所述第一拼音文本中每種拼音單元的個(gè)數(shù)生成第一特征向量，由所述第二拼音文本中每種拼音單元的個(gè)數(shù)生成第二特征向量包括：將所述第一拼音文本中每種拼音單元的個(gè)數(shù)分別插入到預(yù)設(shè)向量的相應(yīng)維度的位置，得到所述第一特征向量，將所述第二拼音文本中每種拼音單元的個(gè)數(shù)分別插入到預(yù)設(shè)向量的相應(yīng)維度的位置，得到所述第二特征向量，其中，所述預(yù)設(shè)向量為具有與按照預(yù)設(shè)順序排列的拼音單元的種類一一對(duì)應(yīng)的多個(gè)維度的向量。

進(jìn)一步地，計(jì)算所述第一特征向量與所述第二特征向量的距離包括：計(jì)算所述第一特征向量與所述第二特征向量中每個(gè)對(duì)應(yīng)維度的差；將所述每個(gè)對(duì)應(yīng)維度的差取絕對(duì)值，并將所述絕對(duì)值相加，得到所述距離。

根據(jù)本申請(qǐng)實(shí)施例的另一方面，還提供了一種中文文本相似度的確定裝置，包括：轉(zhuǎn)化單元，用于將第一中文文本中的漢字轉(zhuǎn)化為拼音，得到第一拼音文本，將第二中文文本中的漢字轉(zhuǎn)化為拼音，得到第二拼音文本；統(tǒng)計(jì)單元，用于按照漢語(yǔ)拼音的規(guī)則統(tǒng)計(jì)所述第一拼音文本中每種拼音單元的個(gè)數(shù)和所述第二拼音文本中每種拼音單元的個(gè)數(shù)；生成單元，用于由所述第一拼音文本中每種拼音單元的個(gè)數(shù)生成第一特征向量，由所述第二拼音文本中每種拼音單元的個(gè)數(shù)生成第二特征向量；計(jì)算單元，用于計(jì)算所述第一特征向量與所述第二特征向量的距離；確定單元，用于根據(jù)所述距離確定所述第一中文文本與所述第二中文文本的相似度，其中，所述距離越小，所述第一中文文本與所述第二中文文本的相似度越高。

進(jìn)一步地，所述統(tǒng)計(jì)單元具體用于將漢字中的一個(gè)聲母作為一個(gè)拼音單元，一個(gè)韻母作為一個(gè)拼音單元，統(tǒng)計(jì)所述第一拼音文本中每種聲母和每種韻母的個(gè)數(shù)以及所述第二拼音文本中每種聲母和每種韻母的個(gè)數(shù)。

進(jìn)一步地，所述統(tǒng)計(jì)單元具體用于將漢字中的一個(gè)整體認(rèn)讀音節(jié)作為一個(gè)拼音單元，非整體認(rèn)讀音節(jié)的漢語(yǔ)拼音的一個(gè)聲母作為一個(gè)拼音單元，非整體認(rèn)讀音節(jié)的漢語(yǔ)拼音的一個(gè)韻母作為一個(gè)拼音單元，統(tǒng)計(jì)所述第一拼音文本中每種聲母、每種韻母以及每種整體認(rèn)讀音節(jié)的個(gè)數(shù)以及所述第二拼音文本中每種聲母、每種韻母以及每種整體認(rèn)讀音節(jié)的個(gè)數(shù)。

進(jìn)一步地，所述生成單元具體用于將所述第一拼音文本中每種拼音單元的個(gè)數(shù)分別插入到預(yù)設(shè)向量的相應(yīng)維度的位置，得到所述第一特征向量，將所述第二拼音文本中每種拼音單元的個(gè)數(shù)分別插入到預(yù)設(shè)向量的相應(yīng)維度的位置，得到所述第二特征向量，其中，所述預(yù)設(shè)向量為具有與按照預(yù)設(shè)順序排列的拼音單元的種類一一對(duì)應(yīng)的多個(gè)維度的向量。

進(jìn)一步地，所述計(jì)算單元包括：第一計(jì)算模塊，用于計(jì)算所述第一特征向量與所述第二特征向量中每個(gè)對(duì)應(yīng)維度的差；第二計(jì)算模塊，用于將所述每個(gè)對(duì)應(yīng)維度的差取絕對(duì)值，并將所述絕對(duì)值相加，得到所述距離。

根據(jù)本發(fā)明實(shí)施例，將第一中文文本中的漢字轉(zhuǎn)化為拼音，得到第一拼音文本，將第二中文文本中的漢字轉(zhuǎn)化為拼音，得到第二拼音文本，按照漢語(yǔ)拼音的規(guī)則統(tǒng)計(jì)第一拼音文本中每種拼音單元的個(gè)數(shù)和第二拼音文本中每種拼音單元的個(gè)數(shù)，由第一拼音文本中每種拼音單元的個(gè)數(shù)生成第一特征向量，由第二拼音文本中每種拼音單元的個(gè)數(shù)生成第二特征向量，計(jì)算第一特征向量與第二特征向量的距離，根據(jù)距離確定第一中文文本與第二中文文本的相似度，其中，距離越小，第一中文文本與第二中文文本的相似度越高，解決了現(xiàn)有技術(shù)難以有效識(shí)別因拼寫錯(cuò)誤造成的相似文本的技術(shù)問(wèn)題，實(shí)現(xiàn)了對(duì)因拼寫錯(cuò)誤造成的相似文本的識(shí)別。

附圖說(shuō)明

此處所說(shuō)明的附圖用來(lái)提供對(duì)本申請(qǐng)的進(jìn)一步理解，構(gòu)成本申請(qǐng)的一部分，本申請(qǐng)的示意性實(shí)施例及其說(shuō)明用于解釋本申請(qǐng)，并不構(gòu)成對(duì)本申請(qǐng)的不當(dāng)限定。在附圖中：

圖1是根據(jù)本申請(qǐng)實(shí)施例的中文文本相似度的確定方法的流程圖；

圖2是根據(jù)本申請(qǐng)實(shí)施例的中文文本相似度的確定裝置的示意圖。

具體實(shí)施方式

為了使本技術(shù)領(lǐng)域的人員更好地理解本申請(qǐng)方案，下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖，對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本申請(qǐng)一部分的實(shí)施例，而不是全部的實(shí)施例。基于本申請(qǐng)中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都應(yīng)當(dāng)屬于本申請(qǐng)保護(hù)的范圍。

需要說(shuō)明的是，本申請(qǐng)的說(shuō)明書和權(quán)利要求書及上述附圖中的術(shù)語(yǔ)“第一”、“第二”等是用于區(qū)別類似的對(duì)象，而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換，以便這里描述的本申請(qǐng)的實(shí)施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外，術(shù)語(yǔ)“包括”和“具有”以及他們的任何變形，意圖在于覆蓋不排他的包含，例如，包含了一系列步驟或單元的過(guò)程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元，而是可包括沒(méi)有清楚地列出的或?qū)τ谶@些過(guò)程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。

根據(jù)本申請(qǐng)實(shí)施例，提供了一種中文文本相似度的確定方法的方法實(shí)施例，需要說(shuō)明的是，在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行，并且，雖然在流程圖中示出了邏輯順序，但是在某些情況下，可以以不同于此處的順序執(zhí)行所示出或描述的步驟。

圖1是根據(jù)本申請(qǐng)實(shí)施例的中文文本相似度的確定方法的流程圖，如圖1所示，該方法包括如下步驟：

步驟S102，將第一中文文本中的漢字轉(zhuǎn)化為拼音，得到第一拼音文本，將第二中文文本中的漢字轉(zhuǎn)化為拼音，得到第二拼音文本。

其中，第一中文文本和第二中文文本均可以為文章、語(yǔ)句、短語(yǔ)等。第一中文文本和第二中文文本為待確定相似度的兩個(gè)文本。本實(shí)施例中，將第一中文文本和第二中文文本分別轉(zhuǎn)化成拼音文本。即將中文文本中每個(gè)字轉(zhuǎn)化成其對(duì)應(yīng)的拼音，形成拼音文本。例如，將“興高采烈”轉(zhuǎn)化為“xing gao cai lie”。

步驟S104，按照漢語(yǔ)拼音的規(guī)則統(tǒng)計(jì)第一拼音文本中每種拼音單元的個(gè)數(shù)和第二拼音文本中每種拼音單元的個(gè)數(shù)。

漢語(yǔ)拼音的拼寫規(guī)則為聲母加上韻母，即每個(gè)漢字對(duì)應(yīng)的拼音為一個(gè)或者多個(gè)拼音單元所組成，其中，可以將聲母和韻母作為拼音單元。由于漢語(yǔ)拼音中還包括整體認(rèn)讀音節(jié)，因此，該整體認(rèn)讀音節(jié)也可以作為拼音單元。

例如，上述“xing gao cai lie”，其中，拆分成的拼音單元可以是“x”、“ing”、“g”、“ao”、“c”、“ai”、“l(fā)”、“ie”，各拼音單元的個(gè)數(shù)均為1。拼音文本“gao gao xing xing”，統(tǒng)計(jì)后“g”、“ao”、“x”、“ing”的個(gè)數(shù)均為2。

步驟S106，由第一拼音文本中每種拼音單元的個(gè)數(shù)生成第一特征向量，由第二拼音文本中每種拼音單元的個(gè)數(shù)生成第二特征向量。

在統(tǒng)計(jì)出兩個(gè)拼音文本中每種拼音單元的個(gè)數(shù)之后，由該個(gè)數(shù)生成相應(yīng)的特征向量，該特征向量可以是包括多個(gè)維度的向量，其中，第一特征向量與第二特征向量的維度數(shù)量相同。

可選地，特征向量的生成方式可以是對(duì)目前漢語(yǔ)拼音中所有的拼音單元的種類按照預(yù)設(shè)順序排序，每個(gè)種類的拼音單元對(duì)應(yīng)特征向量的一個(gè)維度，拼音文本中每種拼音單元的個(gè)數(shù)作為拼音單元在特征向量中相應(yīng)維度的值；還可以是統(tǒng)計(jì)兩個(gè)拼音文本中所出現(xiàn)的所有的拼音單元的種類，生成與種類數(shù)相應(yīng)數(shù)量的維度的特征向量，其中，每個(gè)拼音文本中統(tǒng)計(jì)的每種拼音單元的個(gè)數(shù)作為相應(yīng)的拼音文本對(duì)應(yīng)的特征向量中相應(yīng)維度的值。例如，“gao gao xing xing”與“gao gao xin xin”兩個(gè)拼音文本，其中，拼音單元的種類有“g”、“ao”、“x”、“ing”、“in”，因此生成的特征向量具有5個(gè)維度，其中，按照上述排序(“g”、“ao”、“x”、“ing”、“in”)生成的第一拼音文本的特征向量(即第一特征向量)為[2,2,2,2,0],第二拼音文本的特征向量(即第二特征向量)為[2,2,2,0,2]。

步驟S108，計(jì)算第一特征向量與第二特征向量的距離。

步驟S110，根據(jù)距離確定第一中文文本與第二中文文本的相似度，其中，距離越小，第一中文文本與第二中文文本的相似度越高。

在生成第一特征向量與第二特征向量之后，計(jì)算這兩個(gè)向量之間的距離，該距離可以是歐式距離等。再根據(jù)計(jì)算出的距離確定兩個(gè)中文文本之間的相似度，距離越大，二者相似度越小，距離越小，二者之間的相似度越大。例如，確定出的“千葉拉面”與“味千拉面”的相似度比“危險(xiǎn)拉面”與“味千拉面”的相似度更低，能夠確定出拼寫錯(cuò)誤的文本的相似文本。

優(yōu)選地，按照漢語(yǔ)拼音的規(guī)則統(tǒng)計(jì)第一拼音文本中每種拼音單元的個(gè)數(shù)和第二拼音文本中每種拼音單元的個(gè)數(shù)包括：將漢字中的一個(gè)聲母作為一個(gè)拼音單元，一個(gè)韻母作為一個(gè)拼音單元，統(tǒng)計(jì)第一拼音文本中每種聲母和每種韻母的個(gè)數(shù)以及第二拼音文本中每種聲母和每種韻母的個(gè)數(shù)。

由于現(xiàn)有的漢語(yǔ)拼音采用拉丁字母，分為聲母和韻母，因此，每個(gè)漢字中都可以拆分成聲母和韻母(有些字則只有韻母，如“愛(ài)”等)，本實(shí)施例中，將每個(gè)聲母作為一個(gè)拼音單元，每個(gè)韻母作為一個(gè)拼音單元，將拼音文本中每個(gè)漢字拆分成聲母和韻母，并統(tǒng)計(jì)每種聲母及每種韻母的個(gè)數(shù)。

可選地，按照漢語(yǔ)拼音的規(guī)則統(tǒng)計(jì)第一拼音文本中每種拼音單元的個(gè)數(shù)和第二拼音文本中每種拼音單元的個(gè)數(shù)包括：將漢字中的一個(gè)整體認(rèn)讀音節(jié)作為一個(gè)拼音單元，非整體認(rèn)讀音節(jié)的漢語(yǔ)拼音的一個(gè)聲母作為一個(gè)拼音單元，非整體認(rèn)讀音節(jié)的漢語(yǔ)拼音的一個(gè)韻母作為一個(gè)拼音單元，統(tǒng)計(jì)第一拼音文本中每種聲母、每種韻母以及每種整體認(rèn)讀音節(jié)的個(gè)數(shù)以及第二拼音文本中每種聲母、每種韻母以及每種整體認(rèn)讀音節(jié)的個(gè)數(shù)。

由于漢語(yǔ)拼音中包含有添加一個(gè)韻母后讀音仍和聲母一樣(或者添加一個(gè)聲母后讀音仍和韻母一樣)的音節(jié)，即整體認(rèn)讀音節(jié)。本實(shí)施例中，將整體認(rèn)讀音節(jié)作為一個(gè)拼音單元，非整體認(rèn)讀音節(jié)的漢語(yǔ)拼音，則將聲母和韻母分別作為拼音單元，統(tǒng)計(jì)出每種拼音單元的個(gè)數(shù)。例如，漢語(yǔ)拼音中包括23個(gè)聲母、24個(gè)韻母和16個(gè)整體認(rèn)讀音節(jié)，因此，拼音單元共有63種。

優(yōu)選地，由第一拼音文本中每種拼音單元的個(gè)數(shù)生成第一特征向量，由第二拼音文本中每種拼音單元的個(gè)數(shù)生成第二特征向量包括：將第一拼音文本中每種拼音單元的個(gè)數(shù)分別插入到預(yù)設(shè)向量的相應(yīng)維度的位置，得到第一特征向量，將第二拼音文本中每種拼音單元的個(gè)數(shù)分別插入到預(yù)設(shè)向量的相應(yīng)維度的位置，得到第二特征向量，其中，預(yù)設(shè)向量為具有與按照預(yù)設(shè)順序排列的拼音單元的種類一一對(duì)應(yīng)的多個(gè)維度的向量。

本發(fā)明實(shí)施例中，預(yù)設(shè)向量每一個(gè)維度表示一種拼音單元，其中生成特征向量中，每個(gè)維度的值表示相應(yīng)的拼音單元在每種拼音文本中出現(xiàn)的次數(shù)即統(tǒng)計(jì)出的個(gè)數(shù)。其中，所有的拼音單元按照預(yù)設(shè)順序進(jìn)行排序，對(duì)應(yīng)到預(yù)設(shè)向量中每一個(gè)維度，該預(yù)設(shè)順序?yàn)槿我膺x定的順序。

例如，上述按照聲母、韻母、整體認(rèn)讀音節(jié)來(lái)統(tǒng)計(jì)拼音單元的實(shí)施例中，統(tǒng)計(jì)兩個(gè)拼音文本中所有的聲母、韻母、整體認(rèn)讀音節(jié)的個(gè)數(shù)，分別插入到63維的預(yù)設(shè)向量中，生成兩個(gè)拼音文本的特征向量，其中，63維是根據(jù)為拼音中所有聲母、韻母、整體認(rèn)讀音節(jié)個(gè)數(shù)之和得到。如“高高興興”的拼音為“gao gao xing xing”統(tǒng)計(jì)“g”“ao”“x”“ing”分別的個(gè)數(shù)分別為2，則在“高高興興”的63維文本讀音特征向量中，對(duì)應(yīng)的聲母和韻母位置為2，其他位置為0，特征向量為[…,2,…,2,…,2,…,2,…](省略部分為0)。

本申請(qǐng)實(shí)施例中，利用預(yù)先確定預(yù)設(shè)向量，在生成特征向量時(shí)，只需將統(tǒng)計(jì)得到的拼音單元的個(gè)數(shù)插入到預(yù)設(shè)向量中即可，生成方式簡(jiǎn)單。

優(yōu)選地，計(jì)算第一特征向量與第二特征向量的距離包括：計(jì)算第一特征向量與第二特征向量中每個(gè)對(duì)應(yīng)維度的差；將每個(gè)對(duì)應(yīng)維度的差取絕對(duì)值，并將絕對(duì)值相加，得到距離。

兩個(gè)特征向量的距離可以用1范數(shù)等進(jìn)行計(jì)算，1范數(shù)計(jì)算方式為：將兩個(gè)向量對(duì)應(yīng)位置(即對(duì)應(yīng)維度的值)的差取絕對(duì)值，并進(jìn)行相加，得到數(shù)表示兩個(gè)拼音文本即為距離，該數(shù)越小，表示相似度越高。如“危險(xiǎn)拉面”和“味千拉面”的相似度比“千葉拉面”和“味千拉面”的相似度更高。

本申請(qǐng)實(shí)施例中，將兩個(gè)中文文本的相似度判斷過(guò)程轉(zhuǎn)化為兩個(gè)向量之間的距離判斷，提高了相似文本的識(shí)別的準(zhǔn)確性和速度。

本申請(qǐng)實(shí)施例還提供了一種中文文本相似度的確定裝置，該裝置可以用于執(zhí)行本申請(qǐng)實(shí)施例的中文文本相似度的確定方法，如圖2所示，該裝置包括：轉(zhuǎn)化單元10、統(tǒng)計(jì)單元20、生成單元30、計(jì)算單元40和確定單元50。

轉(zhuǎn)化單元10用于將第一中文文本中的漢字轉(zhuǎn)化為拼音，得到第一拼音文本，將第二中文文本中的漢字轉(zhuǎn)化為拼音，得到第二拼音文本。

統(tǒng)計(jì)單元20用于按照漢語(yǔ)拼音的規(guī)則統(tǒng)計(jì)第一拼音文本中每種拼音單元的個(gè)數(shù)和第二拼音文本中每種拼音單元的個(gè)數(shù)。

生成單元30用于由第一拼音文本中每種拼音單元的個(gè)數(shù)生成第一特征向量，由第二拼音文本中每種拼音單元的個(gè)數(shù)生成第二特征向量。

計(jì)算單元40用于計(jì)算第一特征向量與第二特征向量的距離。

確定單元50用于根據(jù)距離確定第一中文文本與第二中文文本的相似度，其中，距離越小，第一中文文本與第二中文文本的相似度越高。

優(yōu)選地，統(tǒng)計(jì)單元具體用于將漢字中的一個(gè)聲母作為一個(gè)拼音單元，一個(gè)韻母作為一個(gè)拼音單元，統(tǒng)計(jì)第一拼音文本中每種聲母和每種韻母的個(gè)數(shù)以及第二拼音文本中每種聲母和每種韻母的個(gè)數(shù)。

優(yōu)選地，統(tǒng)計(jì)單元具體用于將漢字中的一個(gè)整體認(rèn)讀音節(jié)作為一個(gè)拼音單元，非整體認(rèn)讀音節(jié)的漢語(yǔ)拼音的一個(gè)聲母作為一個(gè)拼音單元，非整體認(rèn)讀音節(jié)的漢語(yǔ)拼音的一個(gè)韻母作為一個(gè)拼音單元，統(tǒng)計(jì)第一拼音文本中每種聲母、每種韻母以及每種整體認(rèn)讀音節(jié)的個(gè)數(shù)以及第二拼音文本中每種聲母、每種韻母以及每種整體認(rèn)讀音節(jié)的個(gè)數(shù)。

優(yōu)選地，生成單元具體用于將第一拼音文本中每種拼音單元的個(gè)數(shù)分別插入到預(yù)設(shè)向量的相應(yīng)維度的位置，得到第一特征向量，將第二拼音文本中每種拼音單元的個(gè)數(shù)分別插入到預(yù)設(shè)向量的相應(yīng)維度的位置，得到第二特征向量，其中，預(yù)設(shè)向量為具有與按照預(yù)設(shè)順序排列的拼音單元的種類一一對(duì)應(yīng)的多個(gè)維度的向量。

優(yōu)選地，計(jì)算單元包括：第一計(jì)算模塊，用于計(jì)算第一特征向量與第二特征向量中每個(gè)對(duì)應(yīng)維度的差；第二計(jì)算模塊，用于將每個(gè)對(duì)應(yīng)維度的差取絕對(duì)值，并將絕對(duì)值相加，得到距離。

所述中文文本相似度的確定裝置包括處理器和存儲(chǔ)器，上述轉(zhuǎn)化單元10、統(tǒng)計(jì)單元20、生成單元30、計(jì)算單元40和確定單元50等均作為程序單元存儲(chǔ)在存儲(chǔ)器中，由處理器執(zhí)行存儲(chǔ)在存儲(chǔ)器中的上述程序單元。上述都可以存儲(chǔ)在存儲(chǔ)器中。

處理器中包含內(nèi)核，由內(nèi)核去存儲(chǔ)器中調(diào)取相應(yīng)的程序單元。內(nèi)核可以設(shè)置一個(gè)或以上，通過(guò)調(diào)整內(nèi)核參數(shù)確定文本內(nèi)容的相似度。

存儲(chǔ)器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器，隨機(jī)存取存儲(chǔ)器(RAM)和/或非易失性內(nèi)存等形式，如只讀存儲(chǔ)器(ROM)或閃存(flash RAM)，存儲(chǔ)器包括至少一個(gè)存儲(chǔ)芯片。

本申請(qǐng)還提供了一種計(jì)算機(jī)程序產(chǎn)品的實(shí)施例，當(dāng)在數(shù)據(jù)處理設(shè)備上執(zhí)行時(shí)，適于執(zhí)行初始化有如下方法步驟的程序代碼：將第一中文文本中的漢字轉(zhuǎn)化為拼音，得到第一拼音文本，將第二中文文本中的漢字轉(zhuǎn)化為拼音，得到第二拼音文本，按照漢語(yǔ)拼音的規(guī)則統(tǒng)計(jì)第一拼音文本中每種拼音單元的個(gè)數(shù)和第二拼音文本中每種拼音單元的個(gè)數(shù)，由第一拼音文本中每種拼音單元的個(gè)數(shù)生成第一特征向量，由第二拼音文本中每種拼音單元的個(gè)數(shù)生成第二特征向量，計(jì)算第一特征向量與第二特征向量的距離，根據(jù)距離確定第一中文文本與第二中文文本的相似度，其中，距離越小，第一中文文本與第二中文文本的相似度越高。

上述本申請(qǐng)實(shí)施例序號(hào)僅僅為了描述，不代表實(shí)施例的優(yōu)劣。

在本申請(qǐng)的上述實(shí)施例中，對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重，某個(gè)實(shí)施例中沒(méi)有詳述的部分，可以參見(jiàn)其他實(shí)施例的相關(guān)描述。

在本申請(qǐng)所提供的幾個(gè)實(shí)施例中，應(yīng)該理解到，所揭露的技術(shù)內(nèi)容，可通過(guò)其它的方式實(shí)現(xiàn)。其中，以上所描述的裝置實(shí)施例僅僅是示意性的，例如所述單元的劃分，可以為一種邏輯功能劃分，實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式，例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng)，或一些特征可以忽略，或不執(zhí)行。另一點(diǎn)，所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過(guò)一些接口，單元或模塊的間接耦合或通信連接，可以是電性或其它的形式。

所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個(gè)地方，或者也可以分布到多個(gè)單元上?？梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。

另外，在本申請(qǐng)各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中，也可以是各個(gè)單元單獨(dú)物理存在，也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn)，也可以采用軟件功能單元的形式實(shí)現(xiàn)。

所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí)，可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?；谶@樣的理解，本申請(qǐng)的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái)，該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中，包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可為個(gè)人計(jì)算機(jī)、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請(qǐng)各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括：U盤、只讀存儲(chǔ)器(ROM，Read-Only Memory)、隨機(jī)存取存儲(chǔ)器(RAM，Random Access Memory)、移動(dòng)硬盤、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。

以上所述僅是本申請(qǐng)的優(yōu)選實(shí)施方式，應(yīng)當(dāng)指出，對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)，在不脫離本申請(qǐng)?jiān)淼那疤嵯?，還可以做出若干改進(jìn)和潤(rùn)飾，這些改進(jìn)和潤(rùn)飾也應(yīng)視為本申請(qǐng)的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉粉香
技術(shù)所有人：北京國(guó)雙科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

中文文本相似度計(jì)算相關(guān)技術(shù)

中文文本相似度相關(guān)技術(shù)

文本相似度相關(guān)技術(shù)

文本相似度計(jì)算相關(guān)技術(shù)

文本相似度算法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

中文文本相似度的確定方法和裝置與流程