1.一種相似文本判定方法,其特征在于,包括:
分別按照斷句符對第一文本和第二文本進行分塊,得到第一內(nèi)容塊集合和第二內(nèi)容塊集合,其中,所述第一內(nèi)容塊集合為所述第一文本分塊后得到的內(nèi)容塊集合,所述第二內(nèi)容塊集合為所述第二文本分塊后得到的內(nèi)容塊集合;
分別從所述第一內(nèi)容塊集合中各個內(nèi)容塊和所述第二內(nèi)容塊集合中各個內(nèi)容塊中獲取第一預(yù)設(shè)數(shù)量的字符,得到第三內(nèi)容塊集合和第四內(nèi)容塊集合,其中,所述第三內(nèi)容塊集合為從所述第一內(nèi)容塊集合的各個內(nèi)容塊中獲取的第一預(yù)設(shè)數(shù)量的字符組成的內(nèi)容塊集合,所述第四內(nèi)容塊集合為從所述第二內(nèi)容塊集合的各個內(nèi)容塊中獲取的第一預(yù)設(shè)數(shù)量的字符組成的內(nèi)容塊集合;以及
判斷所述第三內(nèi)容塊集合和所述第四內(nèi)容塊集合中相同內(nèi)容塊的數(shù)量是否大于預(yù)設(shè)值,其中,在判斷出所述第三內(nèi)容塊集合和所述第四內(nèi)容塊集合中相同內(nèi)容塊的數(shù)量大于所述預(yù)設(shè)值時,則判定所述第一文本和所述第二文本為相似文本,在判斷出所述第三內(nèi)容塊集合和所述第四內(nèi)容塊集合中相同的內(nèi)容塊的數(shù)量不大于所述預(yù)設(shè)值時,則判定所述第一文本和所述第二文本為不相似文本。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,判斷所述第三內(nèi)容塊集合和所述第四內(nèi)容塊集合中相同內(nèi)容塊的數(shù)量是否大于預(yù)設(shè)值包括:
分別從所述第三內(nèi)容塊集合和所述第四內(nèi)容塊集合中獲取第二預(yù)設(shè)數(shù)量的內(nèi)容塊,得到第五內(nèi)容塊集合和第六內(nèi)容塊集合,其中,所述第五內(nèi)容塊集合為從所述第三內(nèi)容塊集合中獲取的第二預(yù)設(shè)數(shù)量的內(nèi)容塊組成的內(nèi)容塊集合,所述第六內(nèi)容塊集合為從所述第四內(nèi)容塊集合中獲取的第二預(yù)設(shè)數(shù)量的內(nèi)容塊組成的內(nèi)容塊集合;
統(tǒng)計所述第五內(nèi)容塊集合和所述第六內(nèi)容塊集合中相同內(nèi)容塊的數(shù)量;以及
判斷所述第五內(nèi)容塊集合和所述第六內(nèi)容塊集合中相同內(nèi)容塊的數(shù)量是否大于所述預(yù)設(shè)值,其中,在判斷出所述第五內(nèi)容塊集合和所述第六內(nèi)容塊集合中相同內(nèi)容塊的數(shù)量大于所述預(yù)設(shè)值時,則判定所述第一文本和所述第二文本為相似文本,在判斷出所述第五內(nèi)容塊集合和所述第六內(nèi)容塊集合中相同的內(nèi)容塊的數(shù)量不大于所述預(yù)設(shè)值時,則判定所述第一文本和所述第二文本為不相似文本。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,統(tǒng)計所述第五內(nèi)容塊集合和所述第六內(nèi)容塊集合中相同內(nèi)容塊的數(shù)量包括:
分別計算所述第五內(nèi)容塊集合中各個內(nèi)容塊和所述第六內(nèi)容塊集合中各個內(nèi)容塊的哈希值,得到第一哈希值集合和第二哈希值集合,其中,所述第一哈希值 集合為所述第五內(nèi)容塊集合中各個內(nèi)容塊的哈希值組成的集合,所述第二哈希值集合為所述第六內(nèi)容塊集合中各個內(nèi)容塊的哈希值組成的集合;以及
根據(jù)所述第一哈希值集合和所述第二哈希值集合統(tǒng)計所述第五內(nèi)容塊集合和所述第六內(nèi)容塊集合中相同的內(nèi)容塊的數(shù)量。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,分別從所述第一內(nèi)容塊集合中各個內(nèi)容塊和所述第二內(nèi)容塊集合中各個內(nèi)容塊中獲取第一預(yù)設(shè)數(shù)量的字符,得到第三內(nèi)容塊集合和第四內(nèi)容塊集合包括:
分別統(tǒng)計所述第一內(nèi)容塊集合中各個內(nèi)容塊和所述第二內(nèi)容塊集合中各個內(nèi)容塊的字符數(shù);
分別判斷所述第一內(nèi)容塊集合和所述第二內(nèi)容塊集合中是否存在字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊;
如果判斷出所述第一內(nèi)容塊集合中存在字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊,則獲取所述字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊的全部字符和所述字符數(shù)不小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊的第一預(yù)設(shè)數(shù)量的字符,得到所述第三內(nèi)容塊集合,如果判斷出所述第一內(nèi)容塊集合中不存在字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊,則獲取所述第一內(nèi)容塊集合中各個內(nèi)容塊的第一預(yù)設(shè)數(shù)量的字符,得到所述第三內(nèi)容塊集合;以及
如果判斷出所述第二內(nèi)容塊集合中存在字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊,則獲取所述字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊的全部字符和所述字符數(shù)不小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊的第一預(yù)設(shè)數(shù)量的字符,得到所述第四內(nèi)容塊集合,如果判斷出所述第二內(nèi)容塊集合中不存在字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊,則獲取所述第二內(nèi)容塊集合中各個內(nèi)容塊的第一預(yù)設(shè)數(shù)量的字符,得到所述第四內(nèi)容塊集合。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,在分別從所述第一內(nèi)容塊集合中各個內(nèi)容塊和所述第二內(nèi)容塊集合中各個內(nèi)容塊中獲取第一預(yù)設(shè)數(shù)量的字符,得到第三內(nèi)容塊集合和第四內(nèi)容塊集合之后,所述方法還包括:
分別判斷所述第三內(nèi)容塊集合中各個內(nèi)容塊和所述第四內(nèi)容塊集合中各個內(nèi)容塊的字符數(shù)是否處于預(yù)設(shè)范圍內(nèi);以及
如果判斷出所述第三內(nèi)容塊集合中存在內(nèi)容塊的字符數(shù)未處于所述預(yù)設(shè)范圍內(nèi),則從所述第三內(nèi)容塊集合中剔除所述字符數(shù)未處于所述預(yù)設(shè)范圍內(nèi)的內(nèi)容塊,如果判斷出所述第四內(nèi)容塊集合中存在內(nèi)容塊的字符數(shù)未處于所述預(yù)設(shè)范圍內(nèi), 則從所述第四內(nèi)容塊集合中剔除所述字符數(shù)未處于所述預(yù)設(shè)范圍內(nèi)的內(nèi)容塊。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,在分別按照斷句符對第一文本和第二文本進行分塊,得到第一內(nèi)容塊集合和第二內(nèi)容塊集合之前,所述方法還包括:分別對所述第一文本和所述第二文本進行預(yù)處理,其中,基于預(yù)處理后第一文本和第二文本進行分塊。
7.一種相似文本判定裝置,其特征在于,包括:
分塊單元,用于分別按照斷句符對第一文本和第二文本進行分塊,得到第一內(nèi)容塊集合和第二內(nèi)容塊集合,其中,所述第一內(nèi)容塊集合為所述第一文本分塊后得到的內(nèi)容塊集合,所述第二內(nèi)容塊集合為所述第二文本分塊后得到的內(nèi)容塊集合;
獲取單元,用于分別從所述第一內(nèi)容塊集合中各個內(nèi)容塊和所述第二內(nèi)容塊集合中各個內(nèi)容塊中獲取第一預(yù)設(shè)數(shù)量的字符,得到第三內(nèi)容塊集合和第四內(nèi)容塊集合,其中,所述第三內(nèi)容塊集合為從所述第一內(nèi)容塊集合的各個內(nèi)容塊中獲取的第一預(yù)設(shè)數(shù)量的字符組成的內(nèi)容塊集合,所述第四內(nèi)容塊集合為從所述第二內(nèi)容塊集合的各個內(nèi)容塊中獲取的第一預(yù)設(shè)數(shù)量的字符組成的內(nèi)容塊集合;以及
判斷單元,用于判斷所述第三內(nèi)容塊集合和所述第四內(nèi)容塊集合中相同內(nèi)容塊的數(shù)量是否大于預(yù)設(shè)值,其中,在判斷出所述第三內(nèi)容塊集合和所述第四內(nèi)容塊集合中相同內(nèi)容塊的數(shù)量大于所述預(yù)設(shè)值時,則判定所述第一文本和所述第二文本為相似文本,在判斷出所述第三內(nèi)容塊集合和所述第四內(nèi)容塊集合中相同的內(nèi)容塊的數(shù)量不大于所述預(yù)設(shè)值時,則判定所述第一文本和所述第二文本為不相似文本。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述判斷單元包括:
第一獲取模塊,用于分別從所述第三內(nèi)容塊集合和所述第四內(nèi)容塊集合中獲取第二預(yù)設(shè)數(shù)量的內(nèi)容塊,得到第五內(nèi)容塊集合和第六內(nèi)容塊集合,其中,所述第五內(nèi)容塊集合為從所述第三內(nèi)容塊集合中獲取的第二預(yù)設(shè)數(shù)量的內(nèi)容塊組成的內(nèi)容塊集合,所述第六內(nèi)容塊集合為從所述第四內(nèi)容塊集合中獲取的第二預(yù)設(shè)數(shù)量的內(nèi)容塊組成的內(nèi)容塊集合;
第一統(tǒng)計模塊,用于統(tǒng)計所述第五內(nèi)容塊集合和所述第六內(nèi)容塊集合中相同內(nèi)容塊的數(shù)量;以及
第一判斷模塊,用于判斷所述第五內(nèi)容塊集合和所述第六內(nèi)容塊集合中相同內(nèi)容塊的數(shù)量是否大于所述預(yù)設(shè)值,其中,在判斷出所述第五內(nèi)容塊集合和所述 第六內(nèi)容塊集合中相同內(nèi)容塊的數(shù)量大于所述預(yù)設(shè)值時,則判定所述第一文本和所述第二文本為相似文本,在判斷出所述第五內(nèi)容塊集合和所述第六內(nèi)容塊集合中相同的內(nèi)容塊的數(shù)量不大于所述預(yù)設(shè)值時,則判定所述第一文本和所述第二文本為不相似文本。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述第一統(tǒng)計模塊包括:
計算子模塊,用于分別計算所述第五內(nèi)容塊集合中各個內(nèi)容塊和所述第六內(nèi)容塊集合中各個內(nèi)容塊的哈希值,得到第一哈希值集合和第二哈希值集合,其中,所述第一哈希值集合為所述第五內(nèi)容塊集合中各個內(nèi)容塊的哈希值組成的集合,所述第二哈希值集合為所述第六內(nèi)容塊集合中各個內(nèi)容塊的哈希值組成的集合;以及
統(tǒng)計子模塊,用于根據(jù)所述第一哈希值集合和所述第二哈希值集合統(tǒng)計所述第五內(nèi)容塊集合和所述第六內(nèi)容塊集合中相同的內(nèi)容塊的數(shù)量。
10.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述獲取單元包括:
第二統(tǒng)計模塊,用于分別統(tǒng)計所述第一內(nèi)容塊集合中各個內(nèi)容塊和所述第二內(nèi)容塊集合中各個內(nèi)容塊的字符數(shù);
第二判斷模塊,用于分別判斷所述第一內(nèi)容塊集合和所述第二內(nèi)容塊集合中是否存在字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊;
第二獲取模塊,用于在判斷出所述第一內(nèi)容塊集合中存在字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊時,獲取所述字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊的全部字符和所述字符數(shù)不小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊的第一預(yù)設(shè)數(shù)量的字符,得到所述第三內(nèi)容塊集合,在判斷出所述第一內(nèi)容塊集合中不存在字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊時,獲取所述第一內(nèi)容塊集合中各個內(nèi)容塊的第一預(yù)設(shè)數(shù)量的字符,得到所述第三內(nèi)容塊集合;以及
第三獲取模塊,用于在判斷出所述第二內(nèi)容塊集合中存在字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊時,獲取所述字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊的全部字符和所述字符數(shù)不小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊的第一預(yù)設(shè)數(shù)量的字符,得到所述第四內(nèi)容塊集合,在判斷出所述第二內(nèi)容塊集合中不存在字符數(shù)小于所述第一預(yù)設(shè)數(shù)量的內(nèi)容塊時,獲取所述第二內(nèi)容塊集合中各個內(nèi)容塊的第一預(yù)設(shè)數(shù)量的字符,得到所述第四內(nèi)容塊集合。