欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

相似文本判定方法和裝置與流程

文檔序號:12786316閱讀:來源:國知局

技術(shù)特征:

1.一種相似文本判定方法,其特征在于,包括:

分別按照斷句符對第一文本和第二文本進行分塊,得到第一內(nèi)容塊集合和第二內(nèi)容塊集合,其中,所述第一內(nèi)容塊集合為所述第一文本分塊后得到的內(nèi)容塊集合,所述第二內(nèi)容塊集合為所述第二文本分塊后得到的內(nèi)容塊集合;

分別從所述第一內(nèi)容塊集合中各個內(nèi)容塊和所述第二內(nèi)容塊集合中各個內(nèi)容塊中獲取第一預(yù)設(shè)數(shù)量的字符,得到第三內(nèi)容塊集合和第四內(nèi)容塊集合,其中,所述第三內(nèi)容塊集合為從所述第一內(nèi)容塊集合的各個內(nèi)容塊中獲取的第一預(yù)設(shè)數(shù)量的字符組成的內(nèi)容塊集合,所述第四內(nèi)容塊集合為從所述第二內(nèi)容塊集合的各個內(nèi)容塊中獲取的第一預(yù)設(shè)數(shù)量的字符組成的內(nèi)容塊集合;以及

判斷所述第三內(nèi)容塊集合和所述第四內(nèi)容塊集合中相同內(nèi)容塊的數(shù)量是否大于預(yù)設(shè)值,其中,在判斷出所述第三內(nèi)容塊集合和所述第四內(nèi)容塊集合中相同內(nèi)容塊的數(shù)量大于所述預(yù)設(shè)值時,則判定所述第一文本和所述第二文本為相似文本,在判斷出所述第三內(nèi)容塊集合和所述第四內(nèi)容塊集合中相同的內(nèi)容塊的數(shù)量不大于所述預(yù)設(shè)值時,則判定所述第一文本和所述第二文本為不相似文本。

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,判斷所述第三內(nèi)容塊集合和所述第四內(nèi)容塊集合中相同內(nèi)容塊的數(shù)量是否大于預(yù)設(shè)值包括:

分別從所述第三內(nèi)容塊集合和所述第四內(nèi)容塊集合中獲取第二預(yù)設(shè)數(shù)量的內(nèi)容塊,得到第五內(nèi)容塊集合和第六內(nèi)容塊集合,其中,所述第五內(nèi)容塊集合為從所述第三內(nèi)容塊集合中獲取的第二預(yù)設(shè)數(shù)量的內(nèi)容塊組成的內(nèi)容塊集合,所述第六內(nèi)容塊集合為從所述第四內(nèi)容塊集合中獲取的第二預(yù)設(shè)數(shù)量的內(nèi)容塊組成的內(nèi)容塊集合;

統(tǒng)計所述第五內(nèi)容塊集合和所述第六內(nèi)容塊集合中相同內(nèi)容塊的數(shù)量;以及

判斷所述第五內(nèi)容塊集合和所述第六內(nèi)容塊集合中相同內(nèi)容塊的數(shù)量是否大于所述預(yù)設(shè)值,其中,在判斷出所述第五內(nèi)容塊集合和所述第六內(nèi)容塊集合中相同內(nèi)容塊的數(shù)量大于所述預(yù)設(shè)值時,則判定所述第一文本和所述第二文本為相似文本,在判斷出所述第五內(nèi)容塊集合和所述第六內(nèi)容塊集合中相同的內(nèi)容塊的數(shù)量不大于所述預(yù)設(shè)值時,則判定所述第一文本和所述第二文本為不相似文本。

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,統(tǒng)計所述第五內(nèi)容塊集合和所述第六內(nèi)容塊集合中相同內(nèi)容塊的數(shù)量包括:

分別計算所述第五內(nèi)容塊集合中各個內(nèi)容塊和所述第六內(nèi)容塊集合中各個內(nèi)容塊的哈希值,得到第一哈希值集合和第二哈希值集合,其中,所述第一哈希值 集合為所述第五內(nèi)容塊集合中各個內(nèi)容塊的哈希值組成的集合,所述第二哈希值集合為所述第六內(nèi)容塊集合中各個內(nèi)容塊的哈希值組成的集合;以及

根據(jù)所述第一哈希值集合和所述第二哈希值集合統(tǒng)計所述第五內(nèi)容塊集合和所述第六內(nèi)容塊集合中相同的內(nèi)容塊的數(shù)量。

4.根據(jù)權(quán)利要求1所述的方法,其特征在于,分別從所述第一內(nèi)容塊集合中各個內(nèi)容塊和所述第二內(nèi)容塊集合中各個內(nèi)容塊中獲取第一預(yù)設(shè)數(shù)量的字符,得到第三內(nèi)容塊集合和第四內(nèi)容塊集合包括:

分別統(tǒng)計所述第一內(nèi)容塊集合中各個內(nèi)容塊和所述第二內(nèi)容塊集合中各個內(nèi)容塊的字符數(shù);

分別判斷所述第一內(nèi)容塊集合和所述第二內(nèi)容塊集合中是否存在字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊;

如果判斷出所述第一內(nèi)容塊集合中存在字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊,則獲取所述字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊的全部字符和所述字符數(shù)不小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊的第一預(yù)設(shè)數(shù)量的字符,得到所述第三內(nèi)容塊集合,如果判斷出所述第一內(nèi)容塊集合中不存在字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊,則獲取所述第一內(nèi)容塊集合中各個內(nèi)容塊的第一預(yù)設(shè)數(shù)量的字符,得到所述第三內(nèi)容塊集合;以及

如果判斷出所述第二內(nèi)容塊集合中存在字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊,則獲取所述字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊的全部字符和所述字符數(shù)不小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊的第一預(yù)設(shè)數(shù)量的字符,得到所述第四內(nèi)容塊集合,如果判斷出所述第二內(nèi)容塊集合中不存在字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊,則獲取所述第二內(nèi)容塊集合中各個內(nèi)容塊的第一預(yù)設(shè)數(shù)量的字符,得到所述第四內(nèi)容塊集合。

5.根據(jù)權(quán)利要求4所述的方法,其特征在于,在分別從所述第一內(nèi)容塊集合中各個內(nèi)容塊和所述第二內(nèi)容塊集合中各個內(nèi)容塊中獲取第一預(yù)設(shè)數(shù)量的字符,得到第三內(nèi)容塊集合和第四內(nèi)容塊集合之后,所述方法還包括:

分別判斷所述第三內(nèi)容塊集合中各個內(nèi)容塊和所述第四內(nèi)容塊集合中各個內(nèi)容塊的字符數(shù)是否處于預(yù)設(shè)范圍內(nèi);以及

如果判斷出所述第三內(nèi)容塊集合中存在內(nèi)容塊的字符數(shù)未處于所述預(yù)設(shè)范圍內(nèi),則從所述第三內(nèi)容塊集合中剔除所述字符數(shù)未處于所述預(yù)設(shè)范圍內(nèi)的內(nèi)容塊,如果判斷出所述第四內(nèi)容塊集合中存在內(nèi)容塊的字符數(shù)未處于所述預(yù)設(shè)范圍內(nèi), 則從所述第四內(nèi)容塊集合中剔除所述字符數(shù)未處于所述預(yù)設(shè)范圍內(nèi)的內(nèi)容塊。

6.根據(jù)權(quán)利要求1所述的方法,其特征在于,在分別按照斷句符對第一文本和第二文本進行分塊,得到第一內(nèi)容塊集合和第二內(nèi)容塊集合之前,所述方法還包括:分別對所述第一文本和所述第二文本進行預(yù)處理,其中,基于預(yù)處理后第一文本和第二文本進行分塊。

7.一種相似文本判定裝置,其特征在于,包括:

分塊單元,用于分別按照斷句符對第一文本和第二文本進行分塊,得到第一內(nèi)容塊集合和第二內(nèi)容塊集合,其中,所述第一內(nèi)容塊集合為所述第一文本分塊后得到的內(nèi)容塊集合,所述第二內(nèi)容塊集合為所述第二文本分塊后得到的內(nèi)容塊集合;

獲取單元,用于分別從所述第一內(nèi)容塊集合中各個內(nèi)容塊和所述第二內(nèi)容塊集合中各個內(nèi)容塊中獲取第一預(yù)設(shè)數(shù)量的字符,得到第三內(nèi)容塊集合和第四內(nèi)容塊集合,其中,所述第三內(nèi)容塊集合為從所述第一內(nèi)容塊集合的各個內(nèi)容塊中獲取的第一預(yù)設(shè)數(shù)量的字符組成的內(nèi)容塊集合,所述第四內(nèi)容塊集合為從所述第二內(nèi)容塊集合的各個內(nèi)容塊中獲取的第一預(yù)設(shè)數(shù)量的字符組成的內(nèi)容塊集合;以及

判斷單元,用于判斷所述第三內(nèi)容塊集合和所述第四內(nèi)容塊集合中相同內(nèi)容塊的數(shù)量是否大于預(yù)設(shè)值,其中,在判斷出所述第三內(nèi)容塊集合和所述第四內(nèi)容塊集合中相同內(nèi)容塊的數(shù)量大于所述預(yù)設(shè)值時,則判定所述第一文本和所述第二文本為相似文本,在判斷出所述第三內(nèi)容塊集合和所述第四內(nèi)容塊集合中相同的內(nèi)容塊的數(shù)量不大于所述預(yù)設(shè)值時,則判定所述第一文本和所述第二文本為不相似文本。

8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述判斷單元包括:

第一獲取模塊,用于分別從所述第三內(nèi)容塊集合和所述第四內(nèi)容塊集合中獲取第二預(yù)設(shè)數(shù)量的內(nèi)容塊,得到第五內(nèi)容塊集合和第六內(nèi)容塊集合,其中,所述第五內(nèi)容塊集合為從所述第三內(nèi)容塊集合中獲取的第二預(yù)設(shè)數(shù)量的內(nèi)容塊組成的內(nèi)容塊集合,所述第六內(nèi)容塊集合為從所述第四內(nèi)容塊集合中獲取的第二預(yù)設(shè)數(shù)量的內(nèi)容塊組成的內(nèi)容塊集合;

第一統(tǒng)計模塊,用于統(tǒng)計所述第五內(nèi)容塊集合和所述第六內(nèi)容塊集合中相同內(nèi)容塊的數(shù)量;以及

第一判斷模塊,用于判斷所述第五內(nèi)容塊集合和所述第六內(nèi)容塊集合中相同內(nèi)容塊的數(shù)量是否大于所述預(yù)設(shè)值,其中,在判斷出所述第五內(nèi)容塊集合和所述 第六內(nèi)容塊集合中相同內(nèi)容塊的數(shù)量大于所述預(yù)設(shè)值時,則判定所述第一文本和所述第二文本為相似文本,在判斷出所述第五內(nèi)容塊集合和所述第六內(nèi)容塊集合中相同的內(nèi)容塊的數(shù)量不大于所述預(yù)設(shè)值時,則判定所述第一文本和所述第二文本為不相似文本。

9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述第一統(tǒng)計模塊包括:

計算子模塊,用于分別計算所述第五內(nèi)容塊集合中各個內(nèi)容塊和所述第六內(nèi)容塊集合中各個內(nèi)容塊的哈希值,得到第一哈希值集合和第二哈希值集合,其中,所述第一哈希值集合為所述第五內(nèi)容塊集合中各個內(nèi)容塊的哈希值組成的集合,所述第二哈希值集合為所述第六內(nèi)容塊集合中各個內(nèi)容塊的哈希值組成的集合;以及

統(tǒng)計子模塊,用于根據(jù)所述第一哈希值集合和所述第二哈希值集合統(tǒng)計所述第五內(nèi)容塊集合和所述第六內(nèi)容塊集合中相同的內(nèi)容塊的數(shù)量。

10.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述獲取單元包括:

第二統(tǒng)計模塊,用于分別統(tǒng)計所述第一內(nèi)容塊集合中各個內(nèi)容塊和所述第二內(nèi)容塊集合中各個內(nèi)容塊的字符數(shù);

第二判斷模塊,用于分別判斷所述第一內(nèi)容塊集合和所述第二內(nèi)容塊集合中是否存在字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊;

第二獲取模塊,用于在判斷出所述第一內(nèi)容塊集合中存在字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊時,獲取所述字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊的全部字符和所述字符數(shù)不小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊的第一預(yù)設(shè)數(shù)量的字符,得到所述第三內(nèi)容塊集合,在判斷出所述第一內(nèi)容塊集合中不存在字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊時,獲取所述第一內(nèi)容塊集合中各個內(nèi)容塊的第一預(yù)設(shè)數(shù)量的字符,得到所述第三內(nèi)容塊集合;以及

第三獲取模塊,用于在判斷出所述第二內(nèi)容塊集合中存在字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊時,獲取所述字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊的全部字符和所述字符數(shù)不小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊的第一預(yù)設(shè)數(shù)量的字符,得到所述第四內(nèi)容塊集合,在判斷出所述第二內(nèi)容塊集合中不存在字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊時,獲取所述第二內(nèi)容塊集合中各個內(nèi)容塊的第一預(yù)設(shè)數(shù)量的字符,得到所述第四內(nèi)容塊集合。

當前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
波密县| 乌兰察布市| 巩义市| 六安市| 边坝县| 雅安市| 巴中市| 札达县| 海伦市| 平阴县| 仪陇县| 北碚区| 湄潭县| 兖州市| 彩票| 壤塘县| 安陆市| 精河县| 揭西县| 山阴县| 志丹县| 广州市| 阳原县| 特克斯县| 衡阳县| 镇巴县| 安多县| 昂仁县| 共和县| 宁南县| 普兰县| 界首市| 麻阳| 凌云县| 雷州市| 宜春市| 延寿县| 安化县| 绥宁县| 佛坪县| 武胜县|