一種文本相關(guān)性的確定方法及裝置與流程

文檔序號(hào)：12157967閱讀：166來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及互聯(lián)網(wǎng)應(yīng)用技術(shù)領(lǐng)域，特別涉及一種文本相關(guān)性的確定方法及裝置。

背景技術(shù)：

隨著Web技術(shù)的不斷發(fā)展，大數(shù)據(jù)時(shí)代已經(jīng)到來，基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)已經(jīng)被應(yīng)用在醫(yī)療、教育、交通、娛樂等眾多領(lǐng)域。文本是最常見的數(shù)據(jù)類型，由若干個(gè)詞組成，通常來自網(wǎng)絡(luò)中的電子郵件、短信、微博、論壇的帖子等。目標(biāo)文本與目標(biāo)領(lǐng)域的相關(guān)性判定，是常見的文本數(shù)據(jù)處理方式。

以關(guān)鍵詞進(jìn)行文本抓取為例，如搜索與名稱為《左耳》的影片相關(guān)的影評(píng)，可能會(huì)獲得：“周末去影院看了《左耳》，非常好看”的相關(guān)文本、“我左耳朵不舒服，需要找耳科醫(yī)生看看”的不相關(guān)文本。因此，要從結(jié)果中剔除相關(guān)性很低的噪聲文本，現(xiàn)有技術(shù)通常采用將待處理的目標(biāo)文本向量化以后與目標(biāo)領(lǐng)域的相關(guān)文本的向量進(jìn)行比較，得到目標(biāo)文本與目標(biāo)領(lǐng)域的相關(guān)度，由于相關(guān)文本的數(shù)量比較大，逐次比較花費(fèi)的時(shí)間較長(zhǎng)。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明實(shí)施例的目的在于提供一種文本相關(guān)性的確定方法及裝置，以提高目標(biāo)文本和目標(biāo)領(lǐng)域的相關(guān)性判定的速度。

為達(dá)到上述目的，本發(fā)明實(shí)施例公開了一種文本相關(guān)性的確定方法，預(yù)先將獲得的針對(duì)目標(biāo)領(lǐng)域的文本樣本中每一文本對(duì)應(yīng)的文本向量進(jìn)行聚類，并計(jì)算每一類的質(zhì)心向量；所述方法包括：

獲得待處理目標(biāo)文本對(duì)應(yīng)的文本向量；

根據(jù)所述待處理目標(biāo)文本對(duì)應(yīng)的文本向量以及所述每一類的質(zhì)心向量，計(jì)算所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度；

根據(jù)所述相關(guān)度，確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域的相關(guān)性。

優(yōu)選的，獲得針對(duì)目標(biāo)領(lǐng)域的文本樣本中每一文本對(duì)應(yīng)的文本向量，包括：

針對(duì)所述文本樣本中每一文本，采用詞嵌入技術(shù)，獲得該文本對(duì)應(yīng)的文本向量；

獲得待處理目標(biāo)文本對(duì)應(yīng)的文本向量，包括：

針對(duì)所述待處理目標(biāo)文本，采用詞嵌入技術(shù)，獲得該文本對(duì)應(yīng)的文本向量。

優(yōu)選的，所述將獲得的針對(duì)目標(biāo)領(lǐng)域的文本樣本中每一文本對(duì)應(yīng)的文本向量進(jìn)行聚類，包括：

根據(jù)預(yù)設(shè)聚類算法，將所述文本樣本中每一文本對(duì)應(yīng)的文本向量聚類。

優(yōu)選的，所述根據(jù)所述待處理目標(biāo)文本對(duì)應(yīng)的文本向量以及所述每一類的質(zhì)心向量，計(jì)算所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度，包括：

根據(jù)所述待處理目標(biāo)文本對(duì)應(yīng)的文本向量以及所述每一類的質(zhì)心向量，采用余弦相似度算法，計(jì)算所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度。

優(yōu)選的，所述根據(jù)所述相關(guān)度，確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域的相關(guān)性，包括：

獲得所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度中的最大值；

當(dāng)所述最大值不小于第一預(yù)設(shè)閾值時(shí)，確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域相關(guān)；

當(dāng)所述最大值不大于第二預(yù)設(shè)閾值時(shí)，確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域不相關(guān)；

當(dāng)所述最大值介于所述第二預(yù)設(shè)閾值與所述第一預(yù)設(shè)閾值之間時(shí)，利用自編碼神經(jīng)網(wǎng)絡(luò)對(duì)所述待處理目標(biāo)文本對(duì)應(yīng)的文本向量進(jìn)行訓(xùn)練；計(jì)算訓(xùn)練前的文本向量和訓(xùn)練后的文本向量的均方差；判斷所述均方差是否大于第三預(yù)設(shè)閾值；如果是，確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域相關(guān)；如果否，確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域不相關(guān)，其中，所述第二預(yù)設(shè)閾值小于所述第一預(yù)設(shè)閾值。

優(yōu)選的，在確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域相關(guān)的情況下，所述方法還包括：

將所述待處理目標(biāo)文本標(biāo)記為所述目標(biāo)領(lǐng)域的相關(guān)文本。

為達(dá)到上述目的，本發(fā)明實(shí)施例還公開了一種文本相關(guān)性的確定裝置，所述裝置包括：

聚類模塊，用于預(yù)先將獲得的針對(duì)目標(biāo)領(lǐng)域的文本樣本中每一文本對(duì)應(yīng)的文本向量進(jìn)行聚類，并計(jì)算每一類的質(zhì)心向量；

獲得模塊，用于獲得待處理目標(biāo)文本對(duì)應(yīng)的文本向量；

計(jì)算模塊，用于根據(jù)所述待處理目標(biāo)文本對(duì)應(yīng)的文本向量以及所述每一類的質(zhì)心向量，計(jì)算所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度；

確定模塊，用于根據(jù)所述相關(guān)度，確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域的相關(guān)性。

優(yōu)選的，獲得針對(duì)目標(biāo)領(lǐng)域的文本樣本中每一文本對(duì)應(yīng)的文本向量，包括：

針對(duì)所述文本樣本中每一文本，采用詞嵌入技術(shù)，獲得該文本對(duì)應(yīng)的文本向量；

獲得待處理目標(biāo)文本對(duì)應(yīng)的文本向量，包括：

針對(duì)所述待處理目標(biāo)文本，采用詞嵌入技術(shù)，獲得該文本對(duì)應(yīng)的文本向量。

優(yōu)選的，所述將獲得的針對(duì)目標(biāo)領(lǐng)域的文本樣本中每一文本對(duì)應(yīng)的文本向量進(jìn)行聚類，包括：

根據(jù)預(yù)設(shè)聚類算法，將所述文本樣本中每一文本對(duì)應(yīng)的文本向量聚類。

優(yōu)選的，所述計(jì)算模塊，具體用于：

優(yōu)選的，所述確定模塊，具體用于：

獲得所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度中的最大值；

當(dāng)所述最大值不小于第一預(yù)設(shè)閾值時(shí)，確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域相關(guān)；

當(dāng)所述最大值不大于第二預(yù)設(shè)閾值時(shí)，確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域不相關(guān)；

優(yōu)選的，所述裝置還包括：標(biāo)記模塊，

所述標(biāo)記模塊，用于在確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域相關(guān)的情況下，將所述待處理目標(biāo)文本標(biāo)記為所述目標(biāo)領(lǐng)域的相關(guān)文本。

由上述的技術(shù)方案可見，本發(fā)明實(shí)施例提供的一種文本相關(guān)性的確定方法及裝置，預(yù)先將獲得的針對(duì)目標(biāo)領(lǐng)域的文本樣本中每一文本對(duì)應(yīng)的文本向量進(jìn)行聚類，并計(jì)算每一類的質(zhì)心向量；所述方法包括：獲得待處理目標(biāo)文本對(duì)應(yīng)的文本向量；根據(jù)所述待處理目標(biāo)文本對(duì)應(yīng)的文本向量以及所述每一類的質(zhì)心向量，計(jì)算所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度；根據(jù)所述相關(guān)度，確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域的相關(guān)性。

應(yīng)用本發(fā)明實(shí)施例提供的技術(shù)方案，將目標(biāo)領(lǐng)域的文本樣本對(duì)應(yīng)的向量采用聚類算法聚成若干類并計(jì)算對(duì)應(yīng)的質(zhì)心向量，計(jì)算待處理目標(biāo)文本對(duì)應(yīng)的向量與每一類質(zhì)心向量相關(guān)度，然后根據(jù)相關(guān)度確定待處理目標(biāo)文本與目標(biāo)領(lǐng)域是否相關(guān)，避免了將待處理目標(biāo)文本對(duì)應(yīng)的向量與目標(biāo)領(lǐng)域的每一個(gè)文本樣本對(duì)應(yīng)的向量進(jìn)行相關(guān)度的計(jì)算，顯著減少了計(jì)算量。因此，提高了目標(biāo)文本和目標(biāo)領(lǐng)域的相關(guān)性判定的速度。

當(dāng)然，實(shí)施本發(fā)明的任一產(chǎn)品或方法必不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。

附圖說明

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明實(shí)施例提供的一種文本相關(guān)性的確定方法的流程示意圖；

圖2為本發(fā)明實(shí)施例提供的一種文本相關(guān)性的確定裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。

為解決現(xiàn)有技術(shù)問題，本發(fā)明實(shí)施例提供了一種文本相關(guān)性的確定方法及裝置，以下分別進(jìn)行詳細(xì)說明。

需要說明的是，根據(jù)目標(biāo)領(lǐng)域，可以獲得大量的與目標(biāo)領(lǐng)域相關(guān)的文本，即目標(biāo)領(lǐng)域的文本樣本。預(yù)先將獲得的針對(duì)目標(biāo)領(lǐng)域的文本樣本中每一文本對(duì)應(yīng)的文本向量進(jìn)行聚類，并計(jì)算每一類的質(zhì)心向量。本領(lǐng)域技術(shù)人員可以理解的是，為了減少計(jì)算量，將大量的目標(biāo)領(lǐng)域的文本樣本向量化后進(jìn)行聚類，并計(jì)算每一類的質(zhì)心向量。

具體的，獲得針對(duì)目標(biāo)領(lǐng)域的文本樣本中每一文本對(duì)應(yīng)的文本向量，可以根據(jù)針對(duì)所述文本樣本中每一文本，采用詞嵌入技術(shù)，獲得該文本對(duì)應(yīng)的文本向量。實(shí)際應(yīng)用中，可以采用詞嵌入技術(shù)，詞嵌入技術(shù)考慮到了詞的語義信息，如同義詞、上下文語意等，而且相比現(xiàn)有技術(shù)采用的TF-IDF進(jìn)行文本向量化還具有文本向量較短的優(yōu)勢(shì)。

具體的，將獲得的針對(duì)目標(biāo)領(lǐng)域的文本樣本中每一文本對(duì)應(yīng)的文本向量進(jìn)行聚類，可以根據(jù)預(yù)設(shè)聚類算法，將所述文本樣本中每一文本對(duì)應(yīng)的文本向量聚類。預(yù)設(shè)的聚類算法可以是劃分法、層次法，向量聚類為現(xiàn)有技術(shù)，本發(fā)明實(shí)施例在此不做贅述。假設(shè)，目標(biāo)領(lǐng)域的文本樣本為100個(gè)，根據(jù)聚類算法得到聚類數(shù)量為5類，得到對(duì)應(yīng)的質(zhì)心向量也為5個(gè)。實(shí)際應(yīng)用中，具體某一類中文本樣本的個(gè)數(shù)是由聚類算法本身決定的，一般情況下，每一類中的文本樣本數(shù)都是不一樣的。本發(fā)明實(shí)施例給出的目標(biāo)領(lǐng)域的文本數(shù)量和聚類算法僅僅是示例性的，不構(gòu)成對(duì)本發(fā)明實(shí)施例的限定。

圖1為本發(fā)明實(shí)施例提供的一種文本相關(guān)性的確定方法的流程示意圖，包括如下步驟：

S101，獲得待處理目標(biāo)文本對(duì)應(yīng)的文本向量。

具體的，獲得待處理目標(biāo)文本對(duì)應(yīng)的文本向量，可以根據(jù)針對(duì)所述待處理目標(biāo)文本，采用詞嵌入技術(shù)，獲得該文本對(duì)應(yīng)的文本向量。

S102，根據(jù)所述待處理目標(biāo)文本對(duì)應(yīng)的文本向量以及所述每一類的質(zhì)心向量，計(jì)算所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度。

具體的，根據(jù)所述待處理目標(biāo)文本對(duì)應(yīng)的文本向量以及所述每一類的質(zhì)心向量，計(jì)算所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度，可以根據(jù)所述待處理目標(biāo)文本對(duì)應(yīng)的文本向量以及所述每一類的質(zhì)心向量，采用余弦相似度算法，計(jì)算所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度。

S103，根據(jù)所述相關(guān)度，確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域的相關(guān)性。

具體的，根據(jù)所述相關(guān)度，確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域的相關(guān)性，可以包括：獲得所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度中的最大值；當(dāng)所述最大值不小于第一預(yù)設(shè)閾值時(shí)，確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域相關(guān)；當(dāng)所述最大值不大于第二預(yù)設(shè)閾值時(shí)，確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域不相關(guān)；當(dāng)所述最大值介于所述第二預(yù)設(shè)閾值與所述第一預(yù)設(shè)閾值之間時(shí)，利用自編碼神經(jīng)網(wǎng)絡(luò)對(duì)所述待處理目標(biāo)文本對(duì)應(yīng)的文本向量進(jìn)行訓(xùn)練；計(jì)算訓(xùn)練前的文本向量和訓(xùn)練后的文本向量的均方差；判斷所述均方差是否大于第三預(yù)設(shè)閾值；如果是，確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域相關(guān)；如果否，確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域不相關(guān)，其中，所述第二預(yù)設(shè)閾值小于所述第一預(yù)設(shè)閾值。

具體的，在確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域相關(guān)的情況下，還可以將所述待處理目標(biāo)文本標(biāo)記為所述目標(biāo)領(lǐng)域的相關(guān)文本。

實(shí)際應(yīng)用中，將待判定是否為目標(biāo)領(lǐng)域相關(guān)的文本稱之為待處理目標(biāo)文本，首先將其向量化。采用的詞嵌入技術(shù)將目標(biāo)文本向量化的過程是：將待處理目標(biāo)文本分成n個(gè)詞，每個(gè)詞由一個(gè)m維的向量來表示，那么，目標(biāo)文本將會(huì)由這n個(gè)m維的向量拼接組成，即每個(gè)詞對(duì)應(yīng)的m維相加后的向量來表示。文本分詞和文本向量化為現(xiàn)有技術(shù)，本發(fā)明實(shí)施例在此不做贅述。

示例性的，判斷待處理目標(biāo)文本“我左耳朵不舒服，需要找耳科醫(yī)生看看”是否為電影《左耳》的影評(píng)，待處理目標(biāo)文本采用詞嵌入進(jìn)行向量化，獲得對(duì)應(yīng)的向量為b。假設(shè)，b由三個(gè)詞組成，每個(gè)詞用6維的向量表示，則b可以表示為：b＝b₁₀b₁₁b₂₀b₂₁b₃₀b₃₁，實(shí)際應(yīng)用中，詞向量的維數(shù)通常要達(dá)到100-500維，本發(fā)明實(shí)施例僅僅是示例性的，不構(gòu)成對(duì)本發(fā)明的限定；目標(biāo)領(lǐng)域的文本對(duì)應(yīng)的5個(gè)質(zhì)心向量為：a₁、a₂、a₃、a₄、a₅。

本領(lǐng)域技術(shù)人員可以理解的是，經(jīng)過聚類的質(zhì)心向量中的每個(gè)向量值是所有被聚類的向量對(duì)應(yīng)位置值的平均值。示例性的，對(duì)于質(zhì)心向量a₁，由5個(gè)文本向量聚類而成，a₁＝a₁₀a₁₁a₁₂a₁₃a₁₄a₁₅，以a₁₀為例，是進(jìn)行聚類的5個(gè)文本向量對(duì)應(yīng)在a₁₀位置的向量值的平均。計(jì)算向量值為現(xiàn)有技術(shù)，本發(fā)明實(shí)施例在此不做贅述。

通過計(jì)算目標(biāo)文本對(duì)應(yīng)的向量與每一類質(zhì)心向量的相關(guān)度，即可反應(yīng)目標(biāo)文本與該類質(zhì)心向量對(duì)應(yīng)的文本的相關(guān)度，通常采用的計(jì)算方式為余弦相似度算法。示例性的，待處理目標(biāo)文本的文本向量b與質(zhì)心向量a₁的相關(guān)度為：s＝sim(b，a₁)，其中，余弦相似度算法sim表示兩個(gè)向量的空間夾角的余弦數(shù)值。

本領(lǐng)域技術(shù)人員可以理解的是，根據(jù)待處理目標(biāo)文本的文本向量與每一類質(zhì)心向量的相關(guān)度，能夠確定目標(biāo)文本是否與目標(biāo)領(lǐng)域相關(guān)。通常，在所有相關(guān)度中取最大值，將其確定為待處理目標(biāo)文本與目標(biāo)領(lǐng)域的相關(guān)度。假設(shè)，第一預(yù)設(shè)閾值為0.55、第二預(yù)設(shè)閾值為0.45、第三預(yù)設(shè)閾值為0.04；根據(jù)余弦相似度算法，獲得待處理目標(biāo)文本的文本向量與每一質(zhì)心的相關(guān)度，分別為0.1、0.2、0.3、0.6、0.3、0.4，則待處理目標(biāo)文本與目標(biāo)領(lǐng)域的相關(guān)度為0.6，因?yàn)?.6>0.55，則確定待處理目標(biāo)文本與目標(biāo)領(lǐng)域?yàn)橄嚓P(guān)。

若相關(guān)度分別為0.3、0.2、0.1、0.4、0.3、0.4，則待處理目標(biāo)文本與目標(biāo)領(lǐng)域的相關(guān)度為0.4，因?yàn)?.4小于第二預(yù)設(shè)閾值0.45，則確定待處理目標(biāo)文本與目標(biāo)領(lǐng)域?yàn)椴幌嚓P(guān)。

若相關(guān)度分別為0.5、0.2、0.45、0.5、0.3、0.4，則待處理目標(biāo)文本與目標(biāo)領(lǐng)域的相關(guān)度為0.5，因?yàn)?.45<0.5<0.55，將待處理目標(biāo)文本的文本向量b輸入自編碼神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，輸出訓(xùn)練后向量為b’。示例性的，b、b’對(duì)應(yīng)的向量值分別為：b＝(0.2，0.3，0.1，0.4，0.5，0.1)、b’＝(0.1，0.1，0.1，0.1，0.1，0.1)，獲得b、b’的均方差為[(0.2-0.1)²+(0.3-0.1)²+(0.1-0.1)²+(0.4-0.1)²+(0.5-0.1)²+(0.1-0.1)²]/6＝0.05。因?yàn)?.05大于第三預(yù)設(shè)閾值0.04，確定待處理目標(biāo)文本為目標(biāo)領(lǐng)域的相關(guān)文本。

將確定的相關(guān)文本進(jìn)行標(biāo)記后，可以將其作為目標(biāo)領(lǐng)域的文本樣本，以此不斷的對(duì)目標(biāo)領(lǐng)域的文本樣本進(jìn)行更新，能夠提高待處理目標(biāo)文本與目標(biāo)領(lǐng)域相關(guān)性判定的準(zhǔn)確性。

實(shí)際應(yīng)用中，若待處理目標(biāo)文本確定為目標(biāo)領(lǐng)域的不相關(guān)文本，則將其作為自編碼神經(jīng)網(wǎng)絡(luò)的訓(xùn)練文本向量。本領(lǐng)域技術(shù)人員可以理解的是，自編碼神經(jīng)網(wǎng)絡(luò)中用來訓(xùn)練輸入的文本向量的是一些目標(biāo)領(lǐng)域的不相關(guān)文本對(duì)應(yīng)向量的集合，將這些不相關(guān)文本對(duì)應(yīng)的向量作為特征，訓(xùn)練一個(gè)自編碼神經(jīng)網(wǎng)絡(luò)。對(duì)于這些不相關(guān)文本的對(duì)應(yīng)向量，自編碼神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)出編碼權(quán)重和解碼權(quán)重，此時(shí)輸出向量和輸入是一致的。如果輸入的是不相關(guān)文本對(duì)應(yīng)的向量，那么通過兩組權(quán)重還原后的輸出向量和輸入向量接近相等，即兩個(gè)向量的均方差接近0。而均方差越大，說明其還原程度越差，則該文本屬于目標(biāo)領(lǐng)域的相關(guān)文本的可能性較大。自編碼神經(jīng)網(wǎng)絡(luò)為現(xiàn)有技術(shù)，本發(fā)明實(shí)施例在此不做贅述。

可見，應(yīng)用本發(fā)明圖1所示的實(shí)施例，將目標(biāo)領(lǐng)域的文本樣本對(duì)應(yīng)的向量采用聚類算法聚成若干類并計(jì)算對(duì)應(yīng)的質(zhì)心向量，計(jì)算待處理目標(biāo)文本對(duì)應(yīng)的向量與每一類質(zhì)心向量相關(guān)度，然后根據(jù)相關(guān)度確定待處理目標(biāo)文本與目標(biāo)領(lǐng)域是否相關(guān)，避免了將待處理目標(biāo)文本對(duì)應(yīng)的向量與目標(biāo)領(lǐng)域的每一個(gè)文本樣本對(duì)應(yīng)的向量進(jìn)行相關(guān)度的計(jì)算，顯著減少了計(jì)算量。因此，提高了目標(biāo)文本和目標(biāo)領(lǐng)域的相關(guān)性判定的速度。

圖2為本發(fā)明實(shí)施例提供的一種文本相關(guān)性的確定裝置的結(jié)構(gòu)示意圖，可以包括：聚類模塊201、獲得模塊202、計(jì)算模塊203、確定模塊204。

聚類模塊201，用于預(yù)先將獲得的針對(duì)目標(biāo)領(lǐng)域的文本樣本中每一文本對(duì)應(yīng)的文本向量進(jìn)行聚類，并計(jì)算每一類的質(zhì)心向量。

具體的，實(shí)際應(yīng)用中，獲得針對(duì)目標(biāo)領(lǐng)域的文本樣本中每一文本對(duì)應(yīng)的文本向量，可以針對(duì)所述文本樣本中每一文本，采用詞嵌入技術(shù)，獲得該文本對(duì)應(yīng)的文本向量。

具體的，實(shí)際應(yīng)用中，所述將獲得的針對(duì)目標(biāo)領(lǐng)域的文本樣本中每一文本對(duì)應(yīng)的文本向量進(jìn)行聚類，可以根據(jù)預(yù)設(shè)聚類算法，將所述文本樣本中每一文本對(duì)應(yīng)的文本向量聚類。

獲得模塊202，用于獲得待處理目標(biāo)文本對(duì)應(yīng)的文本向量。

具體的，實(shí)際應(yīng)用中，獲得待處理目標(biāo)文本對(duì)應(yīng)的文本向量，可以針對(duì)所述待處理目標(biāo)文本，采用詞嵌入技術(shù)，獲得該文本對(duì)應(yīng)的文本向量。

計(jì)算模塊203，用于根據(jù)所述待處理目標(biāo)文本對(duì)應(yīng)的文本向量以及所述每一類的質(zhì)心向量，計(jì)算所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度。

具體的，實(shí)際應(yīng)用中，所述計(jì)算模塊203，可以用于：

確定模塊204，用于根據(jù)所述相關(guān)度，確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域的相關(guān)性。

具體的，實(shí)際應(yīng)用中，所述確定模塊204，可以用于：

獲得所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度中的最大值；

當(dāng)所述最大值不小于第一預(yù)設(shè)閾值時(shí)，確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域相關(guān)；

當(dāng)所述最大值不大于第二預(yù)設(shè)閾值時(shí)，確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域不相關(guān)；

具體的，實(shí)際應(yīng)用中，所述裝置還可以包括：標(biāo)記模塊(圖中未示出)，

標(biāo)記模塊，用于在確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域相關(guān)的情況下，將所述待處理目標(biāo)文本標(biāo)記為所述目標(biāo)領(lǐng)域的相關(guān)文本。

可見，應(yīng)用本發(fā)明圖2所示的實(shí)施例，將目標(biāo)領(lǐng)域的文本樣本對(duì)應(yīng)的向量采用聚類算法聚成若干類并計(jì)算對(duì)應(yīng)的質(zhì)心向量，計(jì)算待處理目標(biāo)文本對(duì)應(yīng)的向量與每一類質(zhì)心向量相關(guān)度，然后根據(jù)相關(guān)度確定待處理目標(biāo)文本與目標(biāo)領(lǐng)域是否相關(guān)，避免了將待處理目標(biāo)文本對(duì)應(yīng)的向量與目標(biāo)領(lǐng)域的每一個(gè)文本樣本對(duì)應(yīng)的向量進(jìn)行相關(guān)度的計(jì)算，顯著減少了計(jì)算量。因此，提高了目標(biāo)文本和目標(biāo)領(lǐng)域的相關(guān)性判定的速度。

需要說明的是，在本文中，諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來，而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且，術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下，由語句“包括一個(gè)……”限定的要素，并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。

本說明書中的各個(gè)實(shí)施例均采用相關(guān)的方式描述，各個(gè)實(shí)施例之間相同相似的部分互相參見即可，每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其，對(duì)于裝置實(shí)施例而言，由于其基本相似于方法實(shí)施例，所以描述的比較簡(jiǎn)單，相關(guān)之處參見方法實(shí)施例的部分說明即可。

本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述方法實(shí)施方式中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成，所述的程序可以存儲(chǔ)于計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中，這里所稱得的存儲(chǔ)介質(zhì)，如：ROM/RAM、磁碟、光盤等。

以上所述僅為本發(fā)明的較佳實(shí)施例而已，并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等，均包含在本發(fā)明的保護(hù)范圍內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：沈一;鮑昕平;蔡龍軍;
技術(shù)所有人：北京奇藝世紀(jì)科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

相關(guān)性分析有哪些方法相關(guān)技術(shù)

數(shù)據(jù)相關(guān)性分析方法相關(guān)技術(shù)

相關(guān)性分析方法相關(guān)技術(shù)

非線性相關(guān)性分析方法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種文本相關(guān)性的確定方法及裝置與流程