欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文本檢測方法及裝置與流程

文檔序號:12121143閱讀:來源:國知局

技術(shù)特征:

1.一種文本檢測方法,其特征在于,包括:

生成待檢測文本的摘要信息;

確定摘要信息集合中是否保存所述摘要信息;

若所述摘要信息集合中保存所述摘要信息,則根據(jù)所述摘要信息對應(yīng)的歷史文本集合檢測所述待檢測文本是否是重復(fù)文本;

若所述摘要信息集合中未保存所述摘要信息,則根據(jù)文本相似度計算模型檢測所述待檢測文本是否是重復(fù)文本。

2.如權(quán)利要求1所述的方法,其特征在于,生成待檢測文本的摘要信息,具體包括:

獲取待檢測文本;

將所述待檢測文本以詞語為單位進(jìn)行分割,得到所述待檢測文本包括的原始詞語;

根據(jù)設(shè)定規(guī)則篩選所述待檢測文本包括的原始詞語,得到所述待檢測文本包括的候選詞語;

統(tǒng)計所述候選詞語在所述待檢測文本的出現(xiàn)頻率;

選取出現(xiàn)頻率大于預(yù)設(shè)頻率的候選詞語作為所述待檢測文本包括的選定詞語;

根據(jù)所述選定詞語生成所述待檢測文本的摘要信息。

3.如權(quán)利要求2所述的方法,其特征在于,根據(jù)所述選定詞語生成所述待檢測文本的摘要信息,具體包括:

組合所述選定詞語得到所述待檢測文本的摘要信息;或者,

將所述待檢測文本以語句為單位進(jìn)行分割,得到所述待檢測文本包括的原始語句;從所述原始語句中選取包括所述選定詞語的語句作為所述待檢測文本包括的選定語句;將所述選定語句按照在所述待檢測文本中出現(xiàn)的先后順序進(jìn)行排序,得到所述待檢測文本的摘要信息。

4.如權(quán)利要求1所述的方法,其特征在于,確定摘要信息集合中是否保存所述摘要信息,具體包括:

將所述摘要信息進(jìn)行至少兩次哈希處理,得到一組哈希值;

從所述摘要信息集合中查找所述一組哈希值;

若查找到所述一組哈希值,則確定所述摘要信息集合中保存所述摘要信息;

若未查找到所述一組哈希值,則確定所述摘要信息集合中未保存所述摘要信息。

5.如權(quán)利要求4所述的方法,其特征在于,在確定所述摘要信息集合中未保存所述摘要信息之后,還包括:

將所述一組哈希值與所述摘要信息對應(yīng)保存在所述摘要信息集合中;

在文本數(shù)據(jù)庫中建立所述摘要信息對應(yīng)的歷史文本集合;

將所述待檢測文本保存在所述摘要信息對應(yīng)的歷史文本集合中。

6.如權(quán)利要求1-5任一所述的方法,其特征在于,根據(jù)所述摘要信息對應(yīng)的歷史文本集合檢測所述待檢測文本是否是重復(fù)文本,具體包括:

從文本數(shù)據(jù)庫中獲取所述摘要信息對應(yīng)的歷史文本集合;

確定所述歷史文本集合中是否保存與所述待檢測文本相同的歷史文本;

若確定所述歷史文本集合中保存與所述待檢測文本相同的歷史文本,則確定所述待檢測文本是重復(fù)文本;

若確定所述歷史文本集合中未保存與所述待檢測文本相同的歷史文本,則逐一計算所述待檢測文本與所述歷史文本集合中每個歷史文本的相似度,確定計算出的每個相似度是否大于第一設(shè)定閾值,若計算出的至少一個相似度大于所述第一設(shè)定閾值,則確定所述待檢測文本是重復(fù)文本,若計算出的所有相似度均小于或等于所述第一設(shè)定閾值,則確定所述待檢測文本不是重復(fù)文本。

7.如權(quán)利要求6所述的方法,其特征在于,確定所述歷史文本集合中未保存與所述待檢測文本相同的歷史文本之后,還包括:

將所述待檢測文本保存在所述摘要信息對應(yīng)的歷史文本集合中。

8.如權(quán)利要求1-5任一所述的方法,其特征在于,根據(jù)文本相似度計算模型檢測所述待檢測文本是否是重復(fù)文本,具體包括:

獲取文本相似度計算模型;

根據(jù)所述文本相似度計算模型計算所述待檢測文本的相似度;

確定所述待檢測文本的相似度是否大于第二設(shè)定閾值;

若所述待檢測文本的相似度大于所述第二設(shè)定閾值,則確定所述待檢測文本是重復(fù)文本;若所述待檢測文本的相似度小于或等于所述第二設(shè)定閾值,則確定所述待檢測文本不是重復(fù)文本。

9.一種文本檢測裝置,其特征在于,包括:

生成單元,用于生成待檢測文本的摘要信息;

確定單元,用于確定摘要信息集合中是否保存所述摘要信息;

檢測單元,用于若所述確定單元確定所述摘要信息集合中保存所述摘要信息,則根據(jù)所述摘要信息對應(yīng)的歷史文本集合檢測所述待檢測文本是否是重復(fù)文本;若所述確定單元確定所述摘要信息集合中未保存所述摘要信息,則根據(jù)文本相似度計算模型檢測所述待檢測文本是否是重復(fù)文本。

10.如權(quán)利要求9所述的裝置,其特征在于,所述生成單元,用于生成待檢測文本的摘要信息,具體用于:

獲取待檢測文本;

將所述待檢測文本以詞語為單位進(jìn)行分割,得到所述待檢測文本包括的原始詞語;

根據(jù)設(shè)定規(guī)則篩選所述待檢測文本包括的原始詞語,得到所述待檢測文本包括的候選詞語;

統(tǒng)計所述候選詞語在所述待檢測文本的出現(xiàn)頻率;

選取出現(xiàn)頻率大于預(yù)設(shè)頻率的候選詞語作為所述待檢測文本包括的選定詞語;

根據(jù)所述選定詞語生成所述待檢測文本的摘要信息。

11.如權(quán)利要求10所述的裝置,其特征在于,所述生成單元,用于根據(jù)所述選定詞語生成所述待檢測文本的摘要信息,具體用于:

組合所述選定詞語得到所述待檢測文本的摘要信息;或者,

將所述待檢測文本以語句為單位進(jìn)行分割,得到所述待檢測文本包括的原始語句;從所述原始語句中選取包括所述選定詞語的語句作為所述待檢測文本包括的選定語句;將所述選定語句按照在所述待檢測文本中出現(xiàn)的先后順序進(jìn)行排序,得到所述待檢測文本的摘要信息。

12.如權(quán)利要求9所述的裝置,其特征在于,所述確定單元,用于確定摘要信息集合中是否保存所述摘要信息,具體用于:

將所述摘要信息進(jìn)行至少兩次哈希處理,得到一組哈希值;

從所述摘要信息集合中查找所述一組哈希值;

若查找到所述一組哈希值,則確定所述摘要信息集合中保存所述摘要信息;

若未查找到所述一組哈希值,則確定所述摘要信息集合中未保存所述摘要信息。

13.如權(quán)利要求12所述的裝置,其特征在于,所述確定單元,還用于:

在確定所述摘要信息集合中未保存所述摘要信息之后,將所述一組哈希值與所述摘要信息對應(yīng)保存在所述摘要信息集合中;

在文本數(shù)據(jù)庫中建立所述摘要信息對應(yīng)的歷史文本集合;

將所述待檢測文本保存在所述摘要信息對應(yīng)的歷史文本集合中。

14.如權(quán)利要求9-13任一所述的裝置,其特征在于,所述檢測單元,用于根據(jù)所述摘要信息對應(yīng)的歷史文本集合檢測所述待檢測文本是否是重復(fù)文本,具體用于:

從文本數(shù)據(jù)庫中獲取所述摘要信息對應(yīng)的歷史文本集合;

確定所述歷史文本集合中是否保存與所述待檢測文本相同的歷史文本;

若確定所述歷史文本集合中保存與所述待檢測文本相同的歷史文本,則確定所述待檢測文本是重復(fù)文本;

若確定所述歷史文本集合中未保存與所述待檢測文本相同的歷史文本,則逐一計算所述待檢測文本與所述歷史文本集合中每個歷史文本的相似度,確定計算出的每個相似度是否大于第一設(shè)定閾值,若計算出的至少一個相似度大于所述第一設(shè)定閾值,則確定所述待檢測文本是重復(fù)文本,若計算出的所有相似度均小于或等于所述第一設(shè)定閾值,則確定所述待檢測文本不是重復(fù)文本。

15.如權(quán)利要求14所述的裝置,其特征在于,所述檢測單元,還用于:

在確定所述歷史文本集合中未保存與所述待檢測文本相同的歷史文本之后,將所述待檢測文本保存在所述摘要信息對應(yīng)的歷史文本集合中。

16.如權(quán)利要求9-13任一所述的裝置,其特征在于,所述檢測單元,用于根據(jù)文本相似度計算模型檢測所述待檢測文本是否是重復(fù)文本,具體用于:

獲取文本相似度計算模型;

根據(jù)所述文本相似度計算模型計算所述待檢測文本的相似度;

確定所述待檢測文本的相似度是否大于第二設(shè)定閾值;

若所述待檢測文本的相似度大于所述第二設(shè)定閾值,則確定所述待檢測文本是重復(fù)文本;若所述待檢測文本的相似度小于或等于所述第二設(shè)定閾值,則確定所述待檢測文本不是重復(fù)文本。

當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
北宁市| 晴隆县| 宁陵县| 手游| 什邡市| 永嘉县| 南澳县| 余江县| 印江| 中方县| 柏乡县| 遂昌县| 安义县| 阳信县| 长兴县| 麻阳| 专栏| 温州市| 绩溪县| 噶尔县| 墨脱县| 保德县| 新野县| 冷水江市| 上蔡县| 梁山县| 乌拉特中旗| 松滋市| 拉萨市| 雷山县| 克东县| 海原县| 东光县| 阳曲县| 灌南县| 龙里县| 汶川县| 湘潭县| 乐平市| 林周县| 河间市|