文本檢測方法及裝置與流程

文檔序號：12121143閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>文本檢測方法及裝置與流程

技術(shù)特征：

1.一種文本檢測方法，其特征在于，包括：

生成待檢測文本的摘要信息；

確定摘要信息集合中是否保存所述摘要信息；

若所述摘要信息集合中保存所述摘要信息，則根據(jù)所述摘要信息對應(yīng)的歷史文本集合檢測所述待檢測文本是否是重復(fù)文本；

若所述摘要信息集合中未保存所述摘要信息，則根據(jù)文本相似度計算模型檢測所述待檢測文本是否是重復(fù)文本。

2.如權(quán)利要求1所述的方法，其特征在于，生成待檢測文本的摘要信息，具體包括：

獲取待檢測文本；

將所述待檢測文本以詞語為單位進(jìn)行分割，得到所述待檢測文本包括的原始詞語；

根據(jù)設(shè)定規(guī)則篩選所述待檢測文本包括的原始詞語，得到所述待檢測文本包括的候選詞語；

統(tǒng)計所述候選詞語在所述待檢測文本的出現(xiàn)頻率；

選取出現(xiàn)頻率大于預(yù)設(shè)頻率的候選詞語作為所述待檢測文本包括的選定詞語；

根據(jù)所述選定詞語生成所述待檢測文本的摘要信息。

3.如權(quán)利要求2所述的方法，其特征在于，根據(jù)所述選定詞語生成所述待檢測文本的摘要信息，具體包括：

組合所述選定詞語得到所述待檢測文本的摘要信息；或者，

將所述待檢測文本以語句為單位進(jìn)行分割，得到所述待檢測文本包括的原始語句；從所述原始語句中選取包括所述選定詞語的語句作為所述待檢測文本包括的選定語句；將所述選定語句按照在所述待檢測文本中出現(xiàn)的先后順序進(jìn)行排序，得到所述待檢測文本的摘要信息。

4.如權(quán)利要求1所述的方法，其特征在于，確定摘要信息集合中是否保存所述摘要信息，具體包括：

將所述摘要信息進(jìn)行至少兩次哈希處理，得到一組哈希值；

從所述摘要信息集合中查找所述一組哈希值；

若查找到所述一組哈希值，則確定所述摘要信息集合中保存所述摘要信息；

若未查找到所述一組哈希值，則確定所述摘要信息集合中未保存所述摘要信息。

5.如權(quán)利要求4所述的方法，其特征在于，在確定所述摘要信息集合中未保存所述摘要信息之后，還包括：

將所述一組哈希值與所述摘要信息對應(yīng)保存在所述摘要信息集合中；

在文本數(shù)據(jù)庫中建立所述摘要信息對應(yīng)的歷史文本集合；

將所述待檢測文本保存在所述摘要信息對應(yīng)的歷史文本集合中。

6.如權(quán)利要求1-5任一所述的方法，其特征在于，根據(jù)所述摘要信息對應(yīng)的歷史文本集合檢測所述待檢測文本是否是重復(fù)文本，具體包括：

從文本數(shù)據(jù)庫中獲取所述摘要信息對應(yīng)的歷史文本集合；

確定所述歷史文本集合中是否保存與所述待檢測文本相同的歷史文本；

若確定所述歷史文本集合中保存與所述待檢測文本相同的歷史文本，則確定所述待檢測文本是重復(fù)文本；

若確定所述歷史文本集合中未保存與所述待檢測文本相同的歷史文本，則逐一計算所述待檢測文本與所述歷史文本集合中每個歷史文本的相似度，確定計算出的每個相似度是否大于第一設(shè)定閾值，若計算出的至少一個相似度大于所述第一設(shè)定閾值，則確定所述待檢測文本是重復(fù)文本，若計算出的所有相似度均小于或等于所述第一設(shè)定閾值，則確定所述待檢測文本不是重復(fù)文本。

7.如權(quán)利要求6所述的方法，其特征在于，確定所述歷史文本集合中未保存與所述待檢測文本相同的歷史文本之后，還包括：

將所述待檢測文本保存在所述摘要信息對應(yīng)的歷史文本集合中。

8.如權(quán)利要求1-5任一所述的方法，其特征在于，根據(jù)文本相似度計算模型檢測所述待檢測文本是否是重復(fù)文本，具體包括：

獲取文本相似度計算模型；

根據(jù)所述文本相似度計算模型計算所述待檢測文本的相似度；

確定所述待檢測文本的相似度是否大于第二設(shè)定閾值；

若所述待檢測文本的相似度大于所述第二設(shè)定閾值，則確定所述待檢測文本是重復(fù)文本；若所述待檢測文本的相似度小于或等于所述第二設(shè)定閾值，則確定所述待檢測文本不是重復(fù)文本。

9.一種文本檢測裝置，其特征在于，包括：

生成單元，用于生成待檢測文本的摘要信息；

確定單元，用于確定摘要信息集合中是否保存所述摘要信息；

檢測單元，用于若所述確定單元確定所述摘要信息集合中保存所述摘要信息，則根據(jù)所述摘要信息對應(yīng)的歷史文本集合檢測所述待檢測文本是否是重復(fù)文本；若所述確定單元確定所述摘要信息集合中未保存所述摘要信息，則根據(jù)文本相似度計算模型檢測所述待檢測文本是否是重復(fù)文本。

10.如權(quán)利要求9所述的裝置，其特征在于，所述生成單元，用于生成待檢測文本的摘要信息，具體用于：