欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種文本相關(guān)性的確定方法及裝置與流程

文檔序號:12157967閱讀:來源:國知局

技術(shù)特征:

1.一種文本相關(guān)性的確定方法,其特征在于,預(yù)先將獲得的針對目標領(lǐng)域的文本樣本中每一文本對應(yīng)的文本向量進行聚類,并計算每一類的質(zhì)心向量;所述方法包括:

獲得待處理目標文本對應(yīng)的文本向量;

根據(jù)所述待處理目標文本對應(yīng)的文本向量以及所述每一類的質(zhì)心向量,計算所述待處理目標文本與每一類質(zhì)心的相關(guān)度;

根據(jù)所述相關(guān)度,確定所述待處理目標文本與所述目標領(lǐng)域的相關(guān)性。

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,獲得針對目標領(lǐng)域的文本樣本中每一文本對應(yīng)的文本向量,包括:

針對所述文本樣本中每一文本,采用詞嵌入技術(shù),獲得該文本對應(yīng)的文本向量;

獲得待處理目標文本對應(yīng)的文本向量,包括:

針對所述待處理目標文本,采用詞嵌入技術(shù),獲得該文本對應(yīng)的文本向量。

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將獲得的針對目標領(lǐng)域的文本樣本中每一文本對應(yīng)的文本向量進行聚類,包括:

根據(jù)預(yù)設(shè)聚類算法,將所述文本樣本中每一文本對應(yīng)的文本向量聚類。

4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述待處理目標文本對應(yīng)的文本向量以及所述每一類的質(zhì)心向量,計算所述待處理目標文本與每一類質(zhì)心的相關(guān)度,包括:

根據(jù)所述待處理目標文本對應(yīng)的文本向量以及所述每一類的質(zhì)心向量,采用余弦相似度算法,計算所述待處理目標文本與每一類質(zhì)心的相關(guān)度。

5.根據(jù)權(quán)利要求1至4任一項所述的方法,其特征在于,所述根據(jù)所述相關(guān)度,確定所述待處理目標文本與所述目標領(lǐng)域的相關(guān)性,包括:

獲得所述待處理目標文本與每一類質(zhì)心的相關(guān)度中的最大值;

當所述最大值不小于第一預(yù)設(shè)閾值時,確定所述待處理目標文本與所述目標領(lǐng)域相關(guān);

當所述最大值不大于第二預(yù)設(shè)閾值時,確定所述待處理目標文本與所述目標領(lǐng)域不相關(guān);

當所述最大值介于所述第二預(yù)設(shè)閾值與所述第一預(yù)設(shè)閾值之間時,利用自編碼神經(jīng)網(wǎng)絡(luò)對所述待處理目標文本對應(yīng)的文本向量進行訓練;計算訓練前的文本向量和訓練后的文本向量的均方差;判斷所述均方差是否大于第三預(yù)設(shè)閾值;如果是,確定所述待處理目標文本與所述目標領(lǐng)域相關(guān);如果否,確定所述待處理目標文本與所述目標領(lǐng)域不相關(guān),其中,所述第二預(yù)設(shè)閾值小于所述第一預(yù)設(shè)閾值。

6.根據(jù)權(quán)利要求5所述的方法,其特征在于,在確定所述待處理目標文本與所述目標領(lǐng)域相關(guān)的情況下,所述方法還包括:

將所述待處理目標文本標記為所述目標領(lǐng)域的相關(guān)文本。

7.一種文本相關(guān)性的確定裝置,其特征在于,所述裝置包括:

聚類模塊,用于預(yù)先將獲得的針對目標領(lǐng)域的文本樣本中每一文本對應(yīng)的文本向量進行聚類,并計算每一類的質(zhì)心向量;

獲得模塊,用于獲得待處理目標文本對應(yīng)的文本向量;

計算模塊,用于根據(jù)所述待處理目標文本對應(yīng)的文本向量以及所述每一類的質(zhì)心向量,計算所述待處理目標文本與每一類質(zhì)心的相關(guān)度;

確定模塊,用于根據(jù)所述相關(guān)度,確定所述待處理目標文本與所述目標領(lǐng)域的相關(guān)性。

8.根據(jù)權(quán)利要7所述的裝置,其特征在于,獲得針對目標領(lǐng)域的文本樣本中每一文本對應(yīng)的文本向量,包括:

針對所述文本樣本中每一文本,采用詞嵌入技術(shù),獲得該文本對應(yīng)的文本向量;

獲得待處理目標文本對應(yīng)的文本向量,包括:

針對所述待處理目標文本,采用詞嵌入技術(shù),獲得該文本對應(yīng)的文本向量。

9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述將獲得的針對目標領(lǐng)域的文本樣本中每一文本對應(yīng)的文本向量進行聚類,包括:

根據(jù)預(yù)設(shè)聚類算法,將所述文本樣本中每一文本對應(yīng)的文本向量聚類。

10.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述計算模塊,具體用于:

根據(jù)所述待處理目標文本對應(yīng)的文本向量以及所述每一類的質(zhì)心向量,采用余弦相似度算法,計算所述待處理目標文本與每一類質(zhì)心的相關(guān)度。

11.根據(jù)權(quán)利要求7至10任一項所述的裝置,其特征在于,所述確定模塊,具體用于:

獲得所述待處理目標文本與每一類質(zhì)心的相關(guān)度中的最大值;

當所述最大值不小于第一預(yù)設(shè)閾值時,確定所述待處理目標文本與所述目標領(lǐng)域相關(guān);

當所述最大值不大于第二預(yù)設(shè)閾值時,確定所述待處理目標文本與所述目標領(lǐng)域不相關(guān);

當所述最大值介于所述第二預(yù)設(shè)閾值與所述第一預(yù)設(shè)閾值之間時,利用自編碼神經(jīng)網(wǎng)絡(luò)對所述待處理目標文本對應(yīng)的文本向量進行訓練;計算訓練前的文本向量和訓練后的文本向量的均方差;判斷所述均方差是否大于第三預(yù)設(shè)閾值;如果是,確定所述待處理目標文本與所述目標領(lǐng)域相關(guān);如果否,確定所述待處理目標文本與所述目標領(lǐng)域不相關(guān),其中,所述第二預(yù)設(shè)閾值小于所述第一預(yù)設(shè)閾值。

12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述裝置還包括:標記模塊,

所述標記模塊,用于在確定所述待處理目標文本與所述目標領(lǐng)域相關(guān)的情況下,將所述待處理目標文本標記為所述目標領(lǐng)域的相關(guān)文本。

當前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
永胜县| 交城县| 铅山县| 广州市| 东平县| 光山县| 凌海市| 横山县| 宜州市| 宝鸡市| 道孚县| 临澧县| 岐山县| 长寿区| 桐乡市| 开远市| 琼海市| 和顺县| 定兴县| 泰来县| 包头市| 嘉黎县| 庆城县| 玉门市| 阿合奇县| 平远县| 衡阳县| 紫阳县| 德清县| 和静县| 茌平县| 边坝县| 上蔡县| 都江堰市| 永定县| 仙游县| 徐汇区| 清流县| 宁陵县| 舒兰市| 洪江市|