一種文本去重方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)涉及文本處理技術(shù)領(lǐng)域,特別涉及一種文本去重方法和裝置。
【背景技術(shù)】
[0002] 目前的文本去重方法主要有以下幾種:文本哈希、余弦相似文本計(jì)算、simhash,下 面分別進(jìn)行介紹。
[0003] 1)文本哈希方法:計(jì)算文本內(nèi)容的哈希值(例如)Murmur哈希值,比較兩個(gè)文本的 哈希值是否相同確定是否是相同文本,哈希值一致即認(rèn)為文本相同。
[0004] 文本哈希方法能夠快速的判斷兩個(gè)文本是否相似,但是判斷條件過(guò)于嚴(yán)苛,文本 內(nèi)容必須完全相同,否則就可能會(huì)計(jì)算出不同的哈希值而導(dǎo)致。例如:"任其發(fā)展。"和"任 其發(fā)展!"本是相同文本,然而卻因?yàn)樽詈蟮臉?biāo)點(diǎn)符號(hào)不相同,就被誤判為不同。
[0005] 2)余弦相似文本計(jì)算方法:計(jì)算兩個(gè)文本對(duì)應(yīng)向量的夾角余弦值,根據(jù)余弦值確 定夾角,夾角越小越相似。計(jì)算向量間的夾角余弦值的公式如下:
[0006]
【主權(quán)項(xiàng)】
1. 一種文本去重方法,其特征在于,該方法包括: 針對(duì)每一案例文本,提取該案例文本中的特征詞,按照預(yù)設(shè)規(guī)則對(duì)提取的特征詞串進(jìn) 行切片并計(jì)算每個(gè)切片的簽名值,建立該案例文本對(duì)應(yīng)的各切片的簽名值與該案例文本的 關(guān)聯(lián)關(guān)系; 提取待處理文本中的特征詞,按照預(yù)設(shè)規(guī)則對(duì)提取的特征詞串進(jìn)行切片并計(jì)算每個(gè)切 片的簽名值,查找每個(gè)所述關(guān)聯(lián)關(guān)系,確定待處理文本對(duì)應(yīng)的各切片的簽名值關(guān)聯(lián)的案例 文本,并對(duì)關(guān)聯(lián)該案例文本的簽名值個(gè)數(shù)進(jìn)行累加; 確定簽名值個(gè)數(shù)累加結(jié)果最大的案例文本,根據(jù)該簽名值個(gè)數(shù)和待處理文本對(duì)應(yīng)的切 片總個(gè)數(shù)確定待處理文本與該案例文本的相似度,如果相似度大于第一預(yù)設(shè)值,則確定待 處理文本和該案例文本相似,對(duì)待處理文本進(jìn)行去重處理。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于, 按照預(yù)設(shè)規(guī)則對(duì)提取的特征詞串進(jìn)行切片的方法為: 對(duì)于特征詞串中的每個(gè)特征詞,判斷是否具有從該特征詞開始的連續(xù)N個(gè)特征詞,女口 果是,則將從該特征詞開始的連續(xù)N個(gè)特征詞劃為一個(gè)切片;其中,N為第二預(yù)設(shè)值。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于, 所述計(jì)算每個(gè)切片的簽名值的方法為: 對(duì)該切片進(jìn)行哈希hash運(yùn)算,將hash運(yùn)算結(jié)果作為該切片的簽名值。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于, 查找每個(gè)所述關(guān)聯(lián)關(guān)系,確定待處理文本對(duì)應(yīng)的各切片的簽名值關(guān)聯(lián)的案例文本的方 法為: 針對(duì)待處理文本對(duì)應(yīng)的每個(gè)切片,查找簽名值與該切片的簽名值相同的關(guān)聯(lián)關(guān)系,將 該關(guān)聯(lián)關(guān)系中的案例文本確定該切片的簽名值關(guān)聯(lián)的案例文本。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于, 根據(jù)該簽名值個(gè)數(shù)和待處理文本對(duì)應(yīng)的切片總個(gè)數(shù)確定待處理文本與該案例文本的 相似度的方法為: 計(jì)算該簽名值個(gè)數(shù)與所述切片總個(gè)數(shù)的商,將計(jì)算結(jié)果作為待處理文本與該案例文本 的相似度。
6. -種文本去重裝置,其特征在于,該裝置包括;文本處理單元、關(guān)系建立單元、關(guān)系 查找單元、去重單元; 所述文本處理單元,用于針對(duì)每一案例文本,提取該案例文本中的特征詞,按照預(yù)設(shè)規(guī) 則對(duì)提取的特征詞串進(jìn)行切片并計(jì)算每個(gè)切片的簽名值;用于提取待處理文本中的特征 詞,按照預(yù)設(shè)規(guī)則對(duì)提取的特征詞串進(jìn)行切片并計(jì)算每個(gè)切片的簽名值; 所述關(guān)系建立單元,用于建立每一案例文本對(duì)應(yīng)的各切片的簽名值與該案例文本的關(guān) 聯(lián)關(guān)系; 所述關(guān)系查找單元,用于查找關(guān)系建立單元建立的每個(gè)所述關(guān)聯(lián)關(guān)系,確定待處理文 本對(duì)應(yīng)的各切片的簽名值關(guān)聯(lián)的案例文本,并對(duì)關(guān)聯(lián)該案例文本的簽名值個(gè)數(shù)進(jìn)行累加; 所述去重單元,用于確定簽名值個(gè)數(shù)累加結(jié)果最大的案例文本,根據(jù)該簽名值個(gè)數(shù)和 待處理文本對(duì)應(yīng)的切片總個(gè)數(shù)確定待處理文本與該案例文本的相似度,如果相似度大于第 一預(yù)設(shè)值,則確定待處理文本和該案例文本相似,對(duì)待處理文本進(jìn)行去重處理。
7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于, 所述文本處理單元在按照預(yù)設(shè)規(guī)則對(duì)提取的特征詞串進(jìn)行切片時(shí),用于: 對(duì)于特征詞串中的每個(gè)特征詞,判斷是否具有從該特征詞開始的連續(xù)N個(gè)特征詞,女口 果是,則將從該特征詞開始的連續(xù)N個(gè)特征詞劃為一個(gè)切片;其中,N為第二預(yù)設(shè)值。
8. 根據(jù)權(quán)利要求6所述的裝置,其特征在于, 所述文本處理單元在計(jì)算每個(gè)切片的簽名值時(shí),用于: 對(duì)該切片進(jìn)行哈希hash運(yùn)算,將hash運(yùn)算結(jié)果作為該切片的簽名值。
9. 根據(jù)權(quán)利要求6所述的裝置,其特征在于, 所述關(guān)系查找單元在查找每個(gè)所述關(guān)聯(lián)關(guān)系,確定待處理文本對(duì)應(yīng)的各切片的簽名值 關(guān)聯(lián)的案例文本時(shí),用于: 針對(duì)待處理文本對(duì)應(yīng)的每個(gè)切片,查找簽名值與該切片的簽名值相同的關(guān)聯(lián)關(guān)系,將 該關(guān)聯(lián)關(guān)系中的案例文本確定該切片的簽名值關(guān)聯(lián)的案例文本。
10. 根據(jù)權(quán)利要求6所述的裝置,其特征在于, 所述去重單元在根據(jù)該簽名值個(gè)數(shù)和待處理文本對(duì)應(yīng)的切片總個(gè)數(shù)確定待處理文本 與該案例文本的相似度時(shí),用于: 計(jì)算該簽名值個(gè)數(shù)與所述切片總個(gè)數(shù)的商,將計(jì)算結(jié)果作為待處理文本與該案例文本 的相似度。
【專利摘要】本發(fā)明提供了一種文本去重方法和裝置,技術(shù)方案為:對(duì)案例文本的特征詞串進(jìn)行切片并計(jì)算各切片的簽名值,以此建立簽名值和案例文本的關(guān)聯(lián)關(guān)系,形成案例庫(kù)。當(dāng)有待處理文本需要進(jìn)行去重處理時(shí),對(duì)待處理文本的特征詞串進(jìn)行切片并計(jì)算各切片的簽名值,根據(jù)各切片的簽名值確定該切片對(duì)應(yīng)的案例文本,從而通過(guò)統(tǒng)計(jì)對(duì)應(yīng)同一案例文本的簽名值個(gè)數(shù),并利用最大簽名值個(gè)數(shù)計(jì)算待處理文本與相應(yīng)案例文本的相似度,進(jìn)而進(jìn)行相似判斷。本發(fā)明需要的計(jì)算量較小,而且可以保證較小的誤判率。
【IPC分類】G06F17-21, G06F17-30
【公開號(hào)】CN104636319
【申請(qǐng)?zhí)枴緾N201310556688
【發(fā)明人】賈鑄斌, 袁昌文
【申請(qǐng)人】騰訊科技(北京)有限公司
【公開日】2015年5月20日
【申請(qǐng)日】2013年11月11日