1.一種文本相關(guān)性的確定方法,其特征在于,預(yù)先將獲得的針對目標領(lǐng)域的文本樣本中每一文本對應(yīng)的文本向量進行聚類,并計算每一類的質(zhì)心向量;所述方法包括:
獲得待處理目標文本對應(yīng)的文本向量;
根據(jù)所述待處理目標文本對應(yīng)的文本向量以及所述每一類的質(zhì)心向量,計算所述待處理目標文本與每一類質(zhì)心的相關(guān)度;
根據(jù)所述相關(guān)度,確定所述待處理目標文本與所述目標領(lǐng)域的相關(guān)性。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,獲得針對目標領(lǐng)域的文本樣本中每一文本對應(yīng)的文本向量,包括:
針對所述文本樣本中每一文本,采用詞嵌入技術(shù),獲得該文本對應(yīng)的文本向量;
獲得待處理目標文本對應(yīng)的文本向量,包括:
針對所述待處理目標文本,采用詞嵌入技術(shù),獲得該文本對應(yīng)的文本向量。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將獲得的針對目標領(lǐng)域的文本樣本中每一文本對應(yīng)的文本向量進行聚類,包括:
根據(jù)預(yù)設(shè)聚類算法,將所述文本樣本中每一文本對應(yīng)的文本向量聚類。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述待處理目標文本對應(yīng)的文本向量以及所述每一類的質(zhì)心向量,計算所述待處理目標文本與每一類質(zhì)心的相關(guān)度,包括:
根據(jù)所述待處理目標文本對應(yīng)的文本向量以及所述每一類的質(zhì)心向量,采用余弦相似度算法,計算所述待處理目標文本與每一類質(zhì)心的相關(guān)度。
5.根據(jù)權(quán)利要求1至4任一項所述的方法,其特征在于,所述根據(jù)所述相關(guān)度,確定所述待處理目標文本與所述目標領(lǐng)域的相關(guān)性,包括:
獲得所述待處理目標文本與每一類質(zhì)心的相關(guān)度中的最大值;
當所述最大值不小于第一預(yù)設(shè)閾值時,確定所述待處理目標文本與所述目標領(lǐng)域相關(guān);
當所述最大值不大于第二預(yù)設(shè)閾值時,確定所述待處理目標文本與所述目標領(lǐng)域不相關(guān);
當所述最大值介于所述第二預(yù)設(shè)閾值與所述第一預(yù)設(shè)閾值之間時,利用自編碼神經(jīng)網(wǎng)絡(luò)對所述待處理目標文本對應(yīng)的文本向量進行訓練;計算訓練前的文本向量和訓練后的文本向量的均方差;判斷所述均方差是否大于第三預(yù)設(shè)閾值;如果是,確定所述待處理目標文本與所述目標領(lǐng)域相關(guān);如果否,確定所述待處理目標文本與所述目標領(lǐng)域不相關(guān),其中,所述第二預(yù)設(shè)閾值小于所述第一預(yù)設(shè)閾值。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,在確定所述待處理目標文本與所述目標領(lǐng)域相關(guān)的情況下,所述方法還包括:
將所述待處理目標文本標記為所述目標領(lǐng)域的相關(guān)文本。
7.一種文本相關(guān)性的確定裝置,其特征在于,所述裝置包括:
聚類模塊,用于預(yù)先將獲得的針對目標領(lǐng)域的文本樣本中每一文本對應(yīng)的文本向量進行聚類,并計算每一類的質(zhì)心向量;
獲得模塊,用于獲得待處理目標文本對應(yīng)的文本向量;
計算模塊,用于根據(jù)所述待處理目標文本對應(yīng)的文本向量以及所述每一類的質(zhì)心向量,計算所述待處理目標文本與每一類質(zhì)心的相關(guān)度;
確定模塊,用于根據(jù)所述相關(guān)度,確定所述待處理目標文本與所述目標領(lǐng)域的相關(guān)性。
8.根據(jù)權(quán)利要7所述的裝置,其特征在于,獲得針對目標領(lǐng)域的文本樣本中每一文本對應(yīng)的文本向量,包括:
針對所述文本樣本中每一文本,采用詞嵌入技術(shù),獲得該文本對應(yīng)的文本向量;
獲得待處理目標文本對應(yīng)的文本向量,包括:
針對所述待處理目標文本,采用詞嵌入技術(shù),獲得該文本對應(yīng)的文本向量。
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述將獲得的針對目標領(lǐng)域的文本樣本中每一文本對應(yīng)的文本向量進行聚類,包括:
根據(jù)預(yù)設(shè)聚類算法,將所述文本樣本中每一文本對應(yīng)的文本向量聚類。
10.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述計算模塊,具體用于:
根據(jù)所述待處理目標文本對應(yīng)的文本向量以及所述每一類的質(zhì)心向量,采用余弦相似度算法,計算所述待處理目標文本與每一類質(zhì)心的相關(guān)度。
11.根據(jù)權(quán)利要求7至10任一項所述的裝置,其特征在于,所述確定模塊,具體用于:
獲得所述待處理目標文本與每一類質(zhì)心的相關(guān)度中的最大值;
當所述最大值不小于第一預(yù)設(shè)閾值時,確定所述待處理目標文本與所述目標領(lǐng)域相關(guān);
當所述最大值不大于第二預(yù)設(shè)閾值時,確定所述待處理目標文本與所述目標領(lǐng)域不相關(guān);
當所述最大值介于所述第二預(yù)設(shè)閾值與所述第一預(yù)設(shè)閾值之間時,利用自編碼神經(jīng)網(wǎng)絡(luò)對所述待處理目標文本對應(yīng)的文本向量進行訓練;計算訓練前的文本向量和訓練后的文本向量的均方差;判斷所述均方差是否大于第三預(yù)設(shè)閾值;如果是,確定所述待處理目標文本與所述目標領(lǐng)域相關(guān);如果否,確定所述待處理目標文本與所述目標領(lǐng)域不相關(guān),其中,所述第二預(yù)設(shè)閾值小于所述第一預(yù)設(shè)閾值。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述裝置還包括:標記模塊,
所述標記模塊,用于在確定所述待處理目標文本與所述目標領(lǐng)域相關(guān)的情況下,將所述待處理目標文本標記為所述目標領(lǐng)域的相關(guān)文本。