一種文本去重方法和裝置的制造方法

文檔序號(hào)：8319131閱讀：289來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種文本去重方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)涉及文本處理技術(shù)領(lǐng)域，特別涉及一種文本去重方法和裝置。
【背景技術(shù)】
[0002] 目前的文本去重方法主要有以下幾種：文本哈希、余弦相似文本計(jì)算、simhash，下面分別進(jìn)行介紹。
[0003] 1)文本哈希方法：計(jì)算文本內(nèi)容的哈希值(例如）Murmur哈希值，比較兩個(gè)文本的哈希值是否相同確定是否是相同文本，哈希值一致即認(rèn)為文本相同。
[0004] 文本哈希方法能夠快速的判斷兩個(gè)文本是否相似，但是判斷條件過(guò)于嚴(yán)苛，文本內(nèi)容必須完全相同，否則就可能會(huì)計(jì)算出不同的哈希值而導(dǎo)致。例如："任其發(fā)展。"和"任其發(fā)展！"本是相同文本，然而卻因?yàn)樽詈蟮臉?biāo)點(diǎn)符號(hào)不相同，就被誤判為不同。
[0005] 2)余弦相似文本計(jì)算方法：計(jì)算兩個(gè)文本對(duì)應(yīng)向量的夾角余弦值，根據(jù)余弦值確定夾角，夾角越小越相似。計(jì)算向量間的夾角余弦值的公式如下：
[0006]
【主權(quán)項(xiàng)】
1. 一種文本去重方法，其特征在于，該方法包括：針對(duì)每一案例文本，提取該案例文本中的特征詞，按照預(yù)設(shè)規(guī)則對(duì)提取的特征詞串進(jìn) 行切片并計(jì)算每個(gè)切片的簽名值，建立該案例文本對(duì)應(yīng)的各切片的簽名值與該案例文本的關(guān)聯(lián)關(guān)系；提取待處理文本中的特征詞，按照預(yù)設(shè)規(guī)則對(duì)提取的特征詞串進(jìn)行切片并計(jì)算每個(gè)切片的簽名值，查找每個(gè)所述關(guān)聯(lián)關(guān)系，確定待處理文本對(duì)應(yīng)的各切片的簽名值關(guān)聯(lián)的案例文本，并對(duì)關(guān)聯(lián)該案例文本的簽名值個(gè)數(shù)進(jìn)行累加；確定簽名值個(gè)數(shù)累加結(jié)果最大的案例文本，根據(jù)該簽名值個(gè)數(shù)和待處理文本對(duì)應(yīng)的切片總個(gè)數(shù)確定待處理文本與該案例文本的相似度，如果相似度大于第一預(yù)設(shè)值，則確定待處理文本和該案例文本相似，對(duì)待處理文本進(jìn)行去重處理。
2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，按照預(yù)設(shè)規(guī)則對(duì)提取的特征詞串進(jìn)行切片的方法為：對(duì)于特征詞串中的每個(gè)特征詞，判斷是否具有從該特征詞開始的連續(xù)N個(gè)特征詞，女口果是，則將從該特征詞開始的連續(xù)N個(gè)特征詞劃為一個(gè)切片；其中，N為第二預(yù)設(shè)值。
3. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述計(jì)算每個(gè)切片的簽名值的方法為：對(duì)該切片進(jìn)行哈希hash運(yùn)算，將hash運(yùn)算結(jié)果作為該切片的簽名值。
4. 根據(jù)權(quán)利要求1所述的方法，其特征在于，查找每個(gè)所述關(guān)聯(lián)關(guān)系，確定待處理文本對(duì)應(yīng)的各切片的簽名值關(guān)聯(lián)的案例文本的方法為：針對(duì)待處理文本對(duì)應(yīng)的每個(gè)切片，查找簽名值與該切片的簽名值相同的關(guān)聯(lián)關(guān)系，將該關(guān)聯(lián)關(guān)系中的案例文本確定該切片的簽名值關(guān)聯(lián)的案例文本。
5. 根據(jù)權(quán)利要求1所述的方法，其特征在于，根據(jù)該簽名值個(gè)數(shù)和待處理文本對(duì)應(yīng)的切片總個(gè)數(shù)確定待處理文本與該案例文本的相似度的方法為：計(jì)算該簽名值個(gè)數(shù)與所述切片總個(gè)數(shù)的商，將計(jì)算結(jié)果作為待處理文本與該案例文本的相似度。
6. -種文本去重裝置，其特征在于，該裝置包括；文本處理單元、關(guān)系建立單元、關(guān)系查找單元、去重單元；所述文本處理單元，用于針對(duì)每一案例文本，提取該案例文本中的特征詞，按照預(yù)設(shè)規(guī) 則對(duì)提取的特征詞串進(jìn)行切片并計(jì)算每個(gè)切片的簽名值；用于提取待處理文本中的特征詞，按照預(yù)設(shè)規(guī)則對(duì)提取的特征詞串進(jìn)行切片并計(jì)算每個(gè)切片的簽名值；所述關(guān)系建立單元，用于建立每一案例文本對(duì)應(yīng)的各切片的簽名值與該案例文本的關(guān) 聯(lián)關(guān)系；所述關(guān)系查找單元，用于查找關(guān)系建立單元建立的每個(gè)所述關(guān)聯(lián)關(guān)系，確定待處理文本對(duì)應(yīng)的各切片的簽名值關(guān)聯(lián)的案例文本，并對(duì)關(guān)聯(lián)該案例文本的簽名值個(gè)數(shù)進(jìn)行累加；所述去重單元，用于確定簽名值個(gè)數(shù)累加結(jié)果最大的案例文本，根據(jù)該簽名值個(gè)數(shù)和待處理文本對(duì)應(yīng)的切片總個(gè)數(shù)確定待處理文本與該案例文本的相似度，如果相似度大于第一預(yù)設(shè)值，則確定待處理文本和該案例文本相似，對(duì)待處理文本進(jìn)行去重處理。
7. 根據(jù)權(quán)利要求6所述的裝置，其特征在于，所述文本處理單元在按照預(yù)設(shè)規(guī)則對(duì)提取的特征詞串進(jìn)行切片時(shí)，用于：對(duì)于特征詞串中的每個(gè)特征詞，判斷是否具有從該特征詞開始的連續(xù)N個(gè)特征詞，女口果是，則將從該特征詞開始的連續(xù)N個(gè)特征詞劃為一個(gè)切片；其中，N為第二預(yù)設(shè)值。
8. 根據(jù)權(quán)利要求6所述的裝置，其特征在于，所述文本處理單元在計(jì)算每個(gè)切片的簽名值時(shí)，用于：對(duì)該切片進(jìn)行哈希hash運(yùn)算，將hash運(yùn)算結(jié)果作為該切片的簽名值。
9. 根據(jù)權(quán)利要求6所述的裝置，其特征在于，所述關(guān)系查找單元在查找每個(gè)所述關(guān)聯(lián)關(guān)系，確定待處理文本對(duì)應(yīng)的各切片的簽名值關(guān)聯(lián)的案例文本時(shí)，用于：針對(duì)待處理文本對(duì)應(yīng)的每個(gè)切片，查找簽名值與該切片的簽名值相同的關(guān)聯(lián)關(guān)系，將該關(guān)聯(lián)關(guān)系中的案例文本確定該切片的簽名值關(guān)聯(lián)的案例文本。
10. 根據(jù)權(quán)利要求6所述的裝置，其特征在于，所述去重單元在根據(jù)該簽名值個(gè)數(shù)和待處理文本對(duì)應(yīng)的切片總個(gè)數(shù)確定待處理文本與該案例文本的相似度時(shí)，用于：計(jì)算該簽名值個(gè)數(shù)與所述切片總個(gè)數(shù)的商，將計(jì)算結(jié)果作為待處理文本與該案例文本的相似度。
【專利摘要】本發(fā)明提供了一種文本去重方法和裝置，技術(shù)方案為：對(duì)案例文本的特征詞串進(jìn)行切片并計(jì)算各切片的簽名值，以此建立簽名值和案例文本的關(guān)聯(lián)關(guān)系，形成案例庫(kù)。當(dāng)有待處理文本需要進(jìn)行去重處理時(shí)，對(duì)待處理文本的特征詞串進(jìn)行切片并計(jì)算各切片的簽名值，根據(jù)各切片的簽名值確定該切片對(duì)應(yīng)的案例文本，從而通過(guò)統(tǒng)計(jì)對(duì)應(yīng)同一案例文本的簽名值個(gè)數(shù)，并利用最大簽名值個(gè)數(shù)計(jì)算待處理文本與相應(yīng)案例文本的相似度，進(jìn)而進(jìn)行相似判斷。本發(fā)明需要的計(jì)算量較小，而且可以保證較小的誤判率。
【IPC分類】G06F17-21, G06F17-30
【公開號(hào)】CN104636319
【申請(qǐng)?zhí)枴緾N201310556688
【發(fā)明人】賈鑄斌, 袁昌文
【申請(qǐng)人】騰訊科技（北京）有限公司
【公開日】2015年5月20日
【申請(qǐng)日】2013年11月11日

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：賈鑄斌;袁昌文;
技術(shù)所有人：騰訊科技（北京）有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種文本去重方法和裝置的制造方法