本發(fā)明涉及互聯(lián)網(wǎng)應(yīng)用技術(shù)領(lǐng)域,特別涉及一種文本相關(guān)性的確定方法及裝置。
背景技術(shù):
隨著Web技術(shù)的不斷發(fā)展,大數(shù)據(jù)時(shí)代已經(jīng)到來,基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)已經(jīng)被應(yīng)用在醫(yī)療、教育、交通、娛樂等眾多領(lǐng)域。文本是最常見的數(shù)據(jù)類型,由若干個(gè)詞組成,通常來自網(wǎng)絡(luò)中的電子郵件、短信、微博、論壇的帖子等。目標(biāo)文本與目標(biāo)領(lǐng)域的相關(guān)性判定,是常見的文本數(shù)據(jù)處理方式。
以關(guān)鍵詞進(jìn)行文本抓取為例,如搜索與名稱為《左耳》的影片相關(guān)的影評(píng),可能會(huì)獲得:“周末去影院看了《左耳》,非常好看”的相關(guān)文本、“我左耳朵不舒服,需要找耳科醫(yī)生看看”的不相關(guān)文本。因此,要從結(jié)果中剔除相關(guān)性很低的噪聲文本,現(xiàn)有技術(shù)通常采用將待處理的目標(biāo)文本向量化以后與目標(biāo)領(lǐng)域的相關(guān)文本的向量進(jìn)行比較,得到目標(biāo)文本與目標(biāo)領(lǐng)域的相關(guān)度,由于相關(guān)文本的數(shù)量比較大,逐次比較花費(fèi)的時(shí)間較長(zhǎng)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例的目的在于提供一種文本相關(guān)性的確定方法及裝置,以提高目標(biāo)文本和目標(biāo)領(lǐng)域的相關(guān)性判定的速度。
為達(dá)到上述目的,本發(fā)明實(shí)施例公開了一種文本相關(guān)性的確定方法,預(yù)先將獲得的針對(duì)目標(biāo)領(lǐng)域的文本樣本中每一文本對(duì)應(yīng)的文本向量進(jìn)行聚類,并計(jì)算每一類的質(zhì)心向量;所述方法包括:
獲得待處理目標(biāo)文本對(duì)應(yīng)的文本向量;
根據(jù)所述待處理目標(biāo)文本對(duì)應(yīng)的文本向量以及所述每一類的質(zhì)心向量,計(jì)算所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度;
根據(jù)所述相關(guān)度,確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域的相關(guān)性。
優(yōu)選的,獲得針對(duì)目標(biāo)領(lǐng)域的文本樣本中每一文本對(duì)應(yīng)的文本向量,包括:
針對(duì)所述文本樣本中每一文本,采用詞嵌入技術(shù),獲得該文本對(duì)應(yīng)的文本向量;
獲得待處理目標(biāo)文本對(duì)應(yīng)的文本向量,包括:
針對(duì)所述待處理目標(biāo)文本,采用詞嵌入技術(shù),獲得該文本對(duì)應(yīng)的文本向量。
優(yōu)選的,所述將獲得的針對(duì)目標(biāo)領(lǐng)域的文本樣本中每一文本對(duì)應(yīng)的文本向量進(jìn)行聚類,包括:
根據(jù)預(yù)設(shè)聚類算法,將所述文本樣本中每一文本對(duì)應(yīng)的文本向量聚類。
優(yōu)選的,所述根據(jù)所述待處理目標(biāo)文本對(duì)應(yīng)的文本向量以及所述每一類的質(zhì)心向量,計(jì)算所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度,包括:
根據(jù)所述待處理目標(biāo)文本對(duì)應(yīng)的文本向量以及所述每一類的質(zhì)心向量,采用余弦相似度算法,計(jì)算所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度。
優(yōu)選的,所述根據(jù)所述相關(guān)度,確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域的相關(guān)性,包括:
獲得所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度中的最大值;
當(dāng)所述最大值不小于第一預(yù)設(shè)閾值時(shí),確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域相關(guān);
當(dāng)所述最大值不大于第二預(yù)設(shè)閾值時(shí),確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域不相關(guān);
當(dāng)所述最大值介于所述第二預(yù)設(shè)閾值與所述第一預(yù)設(shè)閾值之間時(shí),利用自編碼神經(jīng)網(wǎng)絡(luò)對(duì)所述待處理目標(biāo)文本對(duì)應(yīng)的文本向量進(jìn)行訓(xùn)練;計(jì)算訓(xùn)練前的文本向量和訓(xùn)練后的文本向量的均方差;判斷所述均方差是否大于第三預(yù)設(shè)閾值;如果是,確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域相關(guān);如果否,確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域不相關(guān),其中,所述第二預(yù)設(shè)閾值小于所述第一預(yù)設(shè)閾值。
優(yōu)選的,在確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域相關(guān)的情況下,所述方法還包括:
將所述待處理目標(biāo)文本標(biāo)記為所述目標(biāo)領(lǐng)域的相關(guān)文本。
為達(dá)到上述目的,本發(fā)明實(shí)施例還公開了一種文本相關(guān)性的確定裝置,所述裝置包括:
聚類模塊,用于預(yù)先將獲得的針對(duì)目標(biāo)領(lǐng)域的文本樣本中每一文本對(duì)應(yīng)的文本向量進(jìn)行聚類,并計(jì)算每一類的質(zhì)心向量;
獲得模塊,用于獲得待處理目標(biāo)文本對(duì)應(yīng)的文本向量;
計(jì)算模塊,用于根據(jù)所述待處理目標(biāo)文本對(duì)應(yīng)的文本向量以及所述每一類的質(zhì)心向量,計(jì)算所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度;
確定模塊,用于根據(jù)所述相關(guān)度,確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域的相關(guān)性。
優(yōu)選的,獲得針對(duì)目標(biāo)領(lǐng)域的文本樣本中每一文本對(duì)應(yīng)的文本向量,包括:
針對(duì)所述文本樣本中每一文本,采用詞嵌入技術(shù),獲得該文本對(duì)應(yīng)的文本向量;
獲得待處理目標(biāo)文本對(duì)應(yīng)的文本向量,包括:
針對(duì)所述待處理目標(biāo)文本,采用詞嵌入技術(shù),獲得該文本對(duì)應(yīng)的文本向量。
優(yōu)選的,所述將獲得的針對(duì)目標(biāo)領(lǐng)域的文本樣本中每一文本對(duì)應(yīng)的文本向量進(jìn)行聚類,包括:
根據(jù)預(yù)設(shè)聚類算法,將所述文本樣本中每一文本對(duì)應(yīng)的文本向量聚類。
優(yōu)選的,所述計(jì)算模塊,具體用于:
根據(jù)所述待處理目標(biāo)文本對(duì)應(yīng)的文本向量以及所述每一類的質(zhì)心向量,采用余弦相似度算法,計(jì)算所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度。
優(yōu)選的,所述確定模塊,具體用于:
獲得所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度中的最大值;
當(dāng)所述最大值不小于第一預(yù)設(shè)閾值時(shí),確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域相關(guān);
當(dāng)所述最大值不大于第二預(yù)設(shè)閾值時(shí),確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域不相關(guān);
當(dāng)所述最大值介于所述第二預(yù)設(shè)閾值與所述第一預(yù)設(shè)閾值之間時(shí),利用自編碼神經(jīng)網(wǎng)絡(luò)對(duì)所述待處理目標(biāo)文本對(duì)應(yīng)的文本向量進(jìn)行訓(xùn)練;計(jì)算訓(xùn)練前的文本向量和訓(xùn)練后的文本向量的均方差;判斷所述均方差是否大于第三預(yù)設(shè)閾值;如果是,確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域相關(guān);如果否,確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域不相關(guān),其中,所述第二預(yù)設(shè)閾值小于所述第一預(yù)設(shè)閾值。
優(yōu)選的,所述裝置還包括:標(biāo)記模塊,
所述標(biāo)記模塊,用于在確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域相關(guān)的情況下,將所述待處理目標(biāo)文本標(biāo)記為所述目標(biāo)領(lǐng)域的相關(guān)文本。
由上述的技術(shù)方案可見,本發(fā)明實(shí)施例提供的一種文本相關(guān)性的確定方法及裝置,預(yù)先將獲得的針對(duì)目標(biāo)領(lǐng)域的文本樣本中每一文本對(duì)應(yīng)的文本向量進(jìn)行聚類,并計(jì)算每一類的質(zhì)心向量;所述方法包括:獲得待處理目標(biāo)文本對(duì)應(yīng)的文本向量;根據(jù)所述待處理目標(biāo)文本對(duì)應(yīng)的文本向量以及所述每一類的質(zhì)心向量,計(jì)算所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度;根據(jù)所述相關(guān)度,確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域的相關(guān)性。
應(yīng)用本發(fā)明實(shí)施例提供的技術(shù)方案,將目標(biāo)領(lǐng)域的文本樣本對(duì)應(yīng)的向量采用聚類算法聚成若干類并計(jì)算對(duì)應(yīng)的質(zhì)心向量,計(jì)算待處理目標(biāo)文本對(duì)應(yīng)的向量與每一類質(zhì)心向量相關(guān)度,然后根據(jù)相關(guān)度確定待處理目標(biāo)文本與目標(biāo)領(lǐng)域是否相關(guān),避免了將待處理目標(biāo)文本對(duì)應(yīng)的向量與目標(biāo)領(lǐng)域的每一個(gè)文本樣本對(duì)應(yīng)的向量進(jìn)行相關(guān)度的計(jì)算,顯著減少了計(jì)算量。因此,提高了目標(biāo)文本和目標(biāo)領(lǐng)域的相關(guān)性判定的速度。
當(dāng)然,實(shí)施本發(fā)明的任一產(chǎn)品或方法必不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例提供的一種文本相關(guān)性的確定方法的流程示意圖;
圖2為本發(fā)明實(shí)施例提供的一種文本相關(guān)性的確定裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
為解決現(xiàn)有技術(shù)問題,本發(fā)明實(shí)施例提供了一種文本相關(guān)性的確定方法及裝置,以下分別進(jìn)行詳細(xì)說明。
需要說明的是,根據(jù)目標(biāo)領(lǐng)域,可以獲得大量的與目標(biāo)領(lǐng)域相關(guān)的文本,即目標(biāo)領(lǐng)域的文本樣本。預(yù)先將獲得的針對(duì)目標(biāo)領(lǐng)域的文本樣本中每一文本對(duì)應(yīng)的文本向量進(jìn)行聚類,并計(jì)算每一類的質(zhì)心向量。本領(lǐng)域技術(shù)人員可以理解的是,為了減少計(jì)算量,將大量的目標(biāo)領(lǐng)域的文本樣本向量化后進(jìn)行聚類,并計(jì)算每一類的質(zhì)心向量。
具體的,獲得針對(duì)目標(biāo)領(lǐng)域的文本樣本中每一文本對(duì)應(yīng)的文本向量,可以根據(jù)針對(duì)所述文本樣本中每一文本,采用詞嵌入技術(shù),獲得該文本對(duì)應(yīng)的文本向量。實(shí)際應(yīng)用中,可以采用詞嵌入技術(shù),詞嵌入技術(shù)考慮到了詞的語義信息,如同義詞、上下文語意等,而且相比現(xiàn)有技術(shù)采用的TF-IDF進(jìn)行文本向量化還具有文本向量較短的優(yōu)勢(shì)。
具體的,將獲得的針對(duì)目標(biāo)領(lǐng)域的文本樣本中每一文本對(duì)應(yīng)的文本向量進(jìn)行聚類,可以根據(jù)預(yù)設(shè)聚類算法,將所述文本樣本中每一文本對(duì)應(yīng)的文本向量聚類。預(yù)設(shè)的聚類算法可以是劃分法、層次法,向量聚類為現(xiàn)有技術(shù),本發(fā)明實(shí)施例在此不做贅述。假設(shè),目標(biāo)領(lǐng)域的文本樣本為100個(gè),根據(jù)聚類算法得到聚類數(shù)量為5類,得到對(duì)應(yīng)的質(zhì)心向量也為5個(gè)。實(shí)際應(yīng)用中,具體某一類中文本樣本的個(gè)數(shù)是由聚類算法本身決定的,一般情況下,每一類中的文本樣本數(shù)都是不一樣的。本發(fā)明實(shí)施例給出的目標(biāo)領(lǐng)域的文本數(shù)量和聚類算法僅僅是示例性的,不構(gòu)成對(duì)本發(fā)明實(shí)施例的限定。
圖1為本發(fā)明實(shí)施例提供的一種文本相關(guān)性的確定方法的流程示意圖,包括如下步驟:
S101,獲得待處理目標(biāo)文本對(duì)應(yīng)的文本向量。
具體的,獲得待處理目標(biāo)文本對(duì)應(yīng)的文本向量,可以根據(jù)針對(duì)所述待處理目標(biāo)文本,采用詞嵌入技術(shù),獲得該文本對(duì)應(yīng)的文本向量。
S102,根據(jù)所述待處理目標(biāo)文本對(duì)應(yīng)的文本向量以及所述每一類的質(zhì)心向量,計(jì)算所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度。
具體的,根據(jù)所述待處理目標(biāo)文本對(duì)應(yīng)的文本向量以及所述每一類的質(zhì)心向量,計(jì)算所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度,可以根據(jù)所述待處理目標(biāo)文本對(duì)應(yīng)的文本向量以及所述每一類的質(zhì)心向量,采用余弦相似度算法,計(jì)算所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度。
S103,根據(jù)所述相關(guān)度,確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域的相關(guān)性。
具體的,根據(jù)所述相關(guān)度,確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域的相關(guān)性,可以包括:獲得所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度中的最大值;當(dāng)所述最大值不小于第一預(yù)設(shè)閾值時(shí),確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域相關(guān);當(dāng)所述最大值不大于第二預(yù)設(shè)閾值時(shí),確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域不相關(guān);當(dāng)所述最大值介于所述第二預(yù)設(shè)閾值與所述第一預(yù)設(shè)閾值之間時(shí),利用自編碼神經(jīng)網(wǎng)絡(luò)對(duì)所述待處理目標(biāo)文本對(duì)應(yīng)的文本向量進(jìn)行訓(xùn)練;計(jì)算訓(xùn)練前的文本向量和訓(xùn)練后的文本向量的均方差;判斷所述均方差是否大于第三預(yù)設(shè)閾值;如果是,確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域相關(guān);如果否,確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域不相關(guān),其中,所述第二預(yù)設(shè)閾值小于所述第一預(yù)設(shè)閾值。
具體的,在確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域相關(guān)的情況下,還可以將所述待處理目標(biāo)文本標(biāo)記為所述目標(biāo)領(lǐng)域的相關(guān)文本。
實(shí)際應(yīng)用中,將待判定是否為目標(biāo)領(lǐng)域相關(guān)的文本稱之為待處理目標(biāo)文本,首先將其向量化。采用的詞嵌入技術(shù)將目標(biāo)文本向量化的過程是:將待處理目標(biāo)文本分成n個(gè)詞,每個(gè)詞由一個(gè)m維的向量來表示,那么,目標(biāo)文本將會(huì)由這n個(gè)m維的向量拼接組成,即每個(gè)詞對(duì)應(yīng)的m維相加后的向量來表示。文本分詞和文本向量化為現(xiàn)有技術(shù),本發(fā)明實(shí)施例在此不做贅述。
示例性的,判斷待處理目標(biāo)文本“我左耳朵不舒服,需要找耳科醫(yī)生看看”是否為電影《左耳》的影評(píng),待處理目標(biāo)文本采用詞嵌入進(jìn)行向量化,獲得對(duì)應(yīng)的向量為b。假設(shè),b由三個(gè)詞組成,每個(gè)詞用6維的向量表示,則b可以表示為:b=b10b11b20b21b30b31,實(shí)際應(yīng)用中,詞向量的維數(shù)通常要達(dá)到100-500維,本發(fā)明實(shí)施例僅僅是示例性的,不構(gòu)成對(duì)本發(fā)明的限定;目標(biāo)領(lǐng)域的文本對(duì)應(yīng)的5個(gè)質(zhì)心向量為:a1、a2、a3、a4、a5。
本領(lǐng)域技術(shù)人員可以理解的是,經(jīng)過聚類的質(zhì)心向量中的每個(gè)向量值是所有被聚類的向量對(duì)應(yīng)位置值的平均值。示例性的,對(duì)于質(zhì)心向量a1,由5個(gè)文本向量聚類而成,a1=a10a11a12a13a14a15,以a10為例,是進(jìn)行聚類的5個(gè)文本向量對(duì)應(yīng)在a10位置的向量值的平均。計(jì)算向量值為現(xiàn)有技術(shù),本發(fā)明實(shí)施例在此不做贅述。
通過計(jì)算目標(biāo)文本對(duì)應(yīng)的向量與每一類質(zhì)心向量的相關(guān)度,即可反應(yīng)目標(biāo)文本與該類質(zhì)心向量對(duì)應(yīng)的文本的相關(guān)度,通常采用的計(jì)算方式為余弦相似度算法。示例性的,待處理目標(biāo)文本的文本向量b與質(zhì)心向量a1的相關(guān)度為:s=sim(b,a1),其中,余弦相似度算法sim表示兩個(gè)向量的空間夾角的余弦數(shù)值。
本領(lǐng)域技術(shù)人員可以理解的是,根據(jù)待處理目標(biāo)文本的文本向量與每一類質(zhì)心向量的相關(guān)度,能夠確定目標(biāo)文本是否與目標(biāo)領(lǐng)域相關(guān)。通常,在所有相關(guān)度中取最大值,將其確定為待處理目標(biāo)文本與目標(biāo)領(lǐng)域的相關(guān)度。假設(shè),第一預(yù)設(shè)閾值為0.55、第二預(yù)設(shè)閾值為0.45、第三預(yù)設(shè)閾值為0.04;根據(jù)余弦相似度算法,獲得待處理目標(biāo)文本的文本向量與每一質(zhì)心的相關(guān)度,分別為0.1、0.2、0.3、0.6、0.3、0.4,則待處理目標(biāo)文本與目標(biāo)領(lǐng)域的相關(guān)度為0.6,因?yàn)?.6>0.55,則確定待處理目標(biāo)文本與目標(biāo)領(lǐng)域?yàn)橄嚓P(guān)。
若相關(guān)度分別為0.3、0.2、0.1、0.4、0.3、0.4,則待處理目標(biāo)文本與目標(biāo)領(lǐng)域的相關(guān)度為0.4,因?yàn)?.4小于第二預(yù)設(shè)閾值0.45,則確定待處理目標(biāo)文本與目標(biāo)領(lǐng)域?yàn)椴幌嚓P(guān)。
若相關(guān)度分別為0.5、0.2、0.45、0.5、0.3、0.4,則待處理目標(biāo)文本與目標(biāo)領(lǐng)域的相關(guān)度為0.5,因?yàn)?.45<0.5<0.55,將待處理目標(biāo)文本的文本向量b輸入自編碼神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,輸出訓(xùn)練后向量為b’。示例性的,b、b’對(duì)應(yīng)的向量值分別為:b=(0.2,0.3,0.1,0.4,0.5,0.1)、b’=(0.1,0.1,0.1,0.1,0.1,0.1),獲得b、b’的均方差為[(0.2-0.1)2+(0.3-0.1)2+(0.1-0.1)2+(0.4-0.1)2+(0.5-0.1)2+(0.1-0.1)2]/6=0.05。因?yàn)?.05大于第三預(yù)設(shè)閾值0.04,確定待處理目標(biāo)文本為目標(biāo)領(lǐng)域的相關(guān)文本。
將確定的相關(guān)文本進(jìn)行標(biāo)記后,可以將其作為目標(biāo)領(lǐng)域的文本樣本,以此不斷的對(duì)目標(biāo)領(lǐng)域的文本樣本進(jìn)行更新,能夠提高待處理目標(biāo)文本與目標(biāo)領(lǐng)域相關(guān)性判定的準(zhǔn)確性。
實(shí)際應(yīng)用中,若待處理目標(biāo)文本確定為目標(biāo)領(lǐng)域的不相關(guān)文本,則將其作為自編碼神經(jīng)網(wǎng)絡(luò)的訓(xùn)練文本向量。本領(lǐng)域技術(shù)人員可以理解的是,自編碼神經(jīng)網(wǎng)絡(luò)中用來訓(xùn)練輸入的文本向量的是一些目標(biāo)領(lǐng)域的不相關(guān)文本對(duì)應(yīng)向量的集合,將這些不相關(guān)文本對(duì)應(yīng)的向量作為特征,訓(xùn)練一個(gè)自編碼神經(jīng)網(wǎng)絡(luò)。對(duì)于這些不相關(guān)文本的對(duì)應(yīng)向量,自編碼神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)出編碼權(quán)重和解碼權(quán)重,此時(shí)輸出向量和輸入是一致的。如果輸入的是不相關(guān)文本對(duì)應(yīng)的向量,那么通過兩組權(quán)重還原后的輸出向量和輸入向量接近相等,即兩個(gè)向量的均方差接近0。而均方差越大,說明其還原程度越差,則該文本屬于目標(biāo)領(lǐng)域的相關(guān)文本的可能性較大。自編碼神經(jīng)網(wǎng)絡(luò)為現(xiàn)有技術(shù),本發(fā)明實(shí)施例在此不做贅述。
可見,應(yīng)用本發(fā)明圖1所示的實(shí)施例,將目標(biāo)領(lǐng)域的文本樣本對(duì)應(yīng)的向量采用聚類算法聚成若干類并計(jì)算對(duì)應(yīng)的質(zhì)心向量,計(jì)算待處理目標(biāo)文本對(duì)應(yīng)的向量與每一類質(zhì)心向量相關(guān)度,然后根據(jù)相關(guān)度確定待處理目標(biāo)文本與目標(biāo)領(lǐng)域是否相關(guān),避免了將待處理目標(biāo)文本對(duì)應(yīng)的向量與目標(biāo)領(lǐng)域的每一個(gè)文本樣本對(duì)應(yīng)的向量進(jìn)行相關(guān)度的計(jì)算,顯著減少了計(jì)算量。因此,提高了目標(biāo)文本和目標(biāo)領(lǐng)域的相關(guān)性判定的速度。
圖2為本發(fā)明實(shí)施例提供的一種文本相關(guān)性的確定裝置的結(jié)構(gòu)示意圖,可以包括:聚類模塊201、獲得模塊202、計(jì)算模塊203、確定模塊204。
聚類模塊201,用于預(yù)先將獲得的針對(duì)目標(biāo)領(lǐng)域的文本樣本中每一文本對(duì)應(yīng)的文本向量進(jìn)行聚類,并計(jì)算每一類的質(zhì)心向量。
具體的,實(shí)際應(yīng)用中,獲得針對(duì)目標(biāo)領(lǐng)域的文本樣本中每一文本對(duì)應(yīng)的文本向量,可以針對(duì)所述文本樣本中每一文本,采用詞嵌入技術(shù),獲得該文本對(duì)應(yīng)的文本向量。
具體的,實(shí)際應(yīng)用中,所述將獲得的針對(duì)目標(biāo)領(lǐng)域的文本樣本中每一文本對(duì)應(yīng)的文本向量進(jìn)行聚類,可以根據(jù)預(yù)設(shè)聚類算法,將所述文本樣本中每一文本對(duì)應(yīng)的文本向量聚類。
獲得模塊202,用于獲得待處理目標(biāo)文本對(duì)應(yīng)的文本向量。
具體的,實(shí)際應(yīng)用中,獲得待處理目標(biāo)文本對(duì)應(yīng)的文本向量,可以針對(duì)所述待處理目標(biāo)文本,采用詞嵌入技術(shù),獲得該文本對(duì)應(yīng)的文本向量。
計(jì)算模塊203,用于根據(jù)所述待處理目標(biāo)文本對(duì)應(yīng)的文本向量以及所述每一類的質(zhì)心向量,計(jì)算所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度。
具體的,實(shí)際應(yīng)用中,所述計(jì)算模塊203,可以用于:
根據(jù)所述待處理目標(biāo)文本對(duì)應(yīng)的文本向量以及所述每一類的質(zhì)心向量,采用余弦相似度算法,計(jì)算所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度。
確定模塊204,用于根據(jù)所述相關(guān)度,確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域的相關(guān)性。
具體的,實(shí)際應(yīng)用中,所述確定模塊204,可以用于:
獲得所述待處理目標(biāo)文本與每一類質(zhì)心的相關(guān)度中的最大值;
當(dāng)所述最大值不小于第一預(yù)設(shè)閾值時(shí),確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域相關(guān);
當(dāng)所述最大值不大于第二預(yù)設(shè)閾值時(shí),確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域不相關(guān);
當(dāng)所述最大值介于所述第二預(yù)設(shè)閾值與所述第一預(yù)設(shè)閾值之間時(shí),利用自編碼神經(jīng)網(wǎng)絡(luò)對(duì)所述待處理目標(biāo)文本對(duì)應(yīng)的文本向量進(jìn)行訓(xùn)練;計(jì)算訓(xùn)練前的文本向量和訓(xùn)練后的文本向量的均方差;判斷所述均方差是否大于第三預(yù)設(shè)閾值;如果是,確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域相關(guān);如果否,確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域不相關(guān),其中,所述第二預(yù)設(shè)閾值小于所述第一預(yù)設(shè)閾值。
具體的,實(shí)際應(yīng)用中,所述裝置還可以包括:標(biāo)記模塊(圖中未示出),
標(biāo)記模塊,用于在確定所述待處理目標(biāo)文本與所述目標(biāo)領(lǐng)域相關(guān)的情況下,將所述待處理目標(biāo)文本標(biāo)記為所述目標(biāo)領(lǐng)域的相關(guān)文本。
將確定的相關(guān)文本進(jìn)行標(biāo)記后,可以將其作為目標(biāo)領(lǐng)域的文本樣本,以此不斷的對(duì)目標(biāo)領(lǐng)域的文本樣本進(jìn)行更新,能夠提高待處理目標(biāo)文本與目標(biāo)領(lǐng)域相關(guān)性判定的準(zhǔn)確性。
可見,應(yīng)用本發(fā)明圖2所示的實(shí)施例,將目標(biāo)領(lǐng)域的文本樣本對(duì)應(yīng)的向量采用聚類算法聚成若干類并計(jì)算對(duì)應(yīng)的質(zhì)心向量,計(jì)算待處理目標(biāo)文本對(duì)應(yīng)的向量與每一類質(zhì)心向量相關(guān)度,然后根據(jù)相關(guān)度確定待處理目標(biāo)文本與目標(biāo)領(lǐng)域是否相關(guān),避免了將待處理目標(biāo)文本對(duì)應(yīng)的向量與目標(biāo)領(lǐng)域的每一個(gè)文本樣本對(duì)應(yīng)的向量進(jìn)行相關(guān)度的計(jì)算,顯著減少了計(jì)算量。因此,提高了目標(biāo)文本和目標(biāo)領(lǐng)域的相關(guān)性判定的速度。
需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
本說明書中的各個(gè)實(shí)施例均采用相關(guān)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于裝置實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述的比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部分說明即可。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述方法實(shí)施方式中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,所述的程序可以存儲(chǔ)于計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,這里所稱得的存儲(chǔ)介質(zhì),如:ROM/RAM、磁碟、光盤等。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。