欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

相似郵件處理系統(tǒng)和方法

文檔序號:7599112閱讀:221來源:國知局
專利名稱:相似郵件處理系統(tǒng)和方法
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別涉及一種相似郵件處理系統(tǒng)和方法。
背景技術(shù)
隨著網(wǎng)絡(luò)的發(fā)展,郵件漸漸發(fā)展成為人們?nèi)粘Mㄐ诺闹匾ぞ?,但是,隨之產(chǎn)生的垃圾郵件也日益增多,造成了使用者的不便,在現(xiàn)有技術(shù)中,采用了基于文本相似技術(shù)的反垃圾郵件體系,從統(tǒng)計(jì)到攔截?fù)碛幸惶壮墒斓募軜?gòu),這套系統(tǒng)主要基于了單機(jī)運(yùn)算的模式,能夠在較短時間內(nèi)統(tǒng)計(jì)一定數(shù)量規(guī)模的郵件,從中統(tǒng)計(jì)獲得郵件之間的相似關(guān)系和相似指數(shù)。由于這套系統(tǒng)能夠識別出經(jīng)過一定幅度變形和添加了干擾元素的垃圾郵件,因此實(shí)際應(yīng)用中,無論在攔截垃圾郵件的規(guī)模,數(shù)量和準(zhǔn)確度上都具有十分優(yōu)異的指標(biāo)。在對現(xiàn)有技術(shù)進(jìn)行分析后,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少具有如下缺點(diǎn)現(xiàn)有技術(shù)中的相似郵件處理系統(tǒng)是基于單機(jī)運(yùn)算模式,在能夠處理的輸入數(shù)據(jù)和輸出數(shù)據(jù)規(guī)模上具有較大限制,對單次百萬級別以上的輸入數(shù)據(jù)規(guī)模存在運(yùn)算速度慢,系統(tǒng)負(fù)載高的問題,無法實(shí)現(xiàn)實(shí)時,在準(zhǔn)實(shí)時統(tǒng)計(jì)上由于完成時間較長也無法做到。

發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供了一種相似郵件處理系統(tǒng)和方法。所述技術(shù)方案如下一種相似郵件處理系統(tǒng)包括控制節(jié)點(diǎn),用于接收預(yù)設(shè)格式的樣本,并判斷所述預(yù)設(shè)格式的樣本是否為相似計(jì)算最終結(jié)果,如果否,則根據(jù)預(yù)設(shè)標(biāo)準(zhǔn)對所述預(yù)設(shè)格式的樣本進(jìn)行合并或拆分處理,得到多個子任務(wù)數(shù)據(jù)包,將所述多個子任務(wù)數(shù)據(jù)包分配給多個相似運(yùn)算節(jié)點(diǎn);多個所述相似運(yùn)算節(jié)點(diǎn),用于對接收到的子任務(wù)數(shù)據(jù)包內(nèi)的樣本進(jìn)行相似關(guān)系計(jì)算,獲得相似計(jì)算中間結(jié)果,所述相似計(jì)算中間結(jié)果為預(yù)設(shè)格式,將所述相似計(jì)算中間結(jié)果反饋給所述控制節(jié)點(diǎn),所述相似計(jì)算中間結(jié)果至少包括唯一相似樣本、相似關(guān)系和所述唯一相似樣本的相似計(jì)數(shù)。所述系統(tǒng)還包括數(shù)據(jù)輸入節(jié)點(diǎn),用于收集原始樣本并將所述原始樣本并將所述原始樣本轉(zhuǎn)換為預(yù)設(shè)格式,并將轉(zhuǎn)換后的原始樣本包作為預(yù)設(shè)格式的樣本發(fā)送給所述控制節(jié)點(diǎn)。所述數(shù)據(jù)輸入節(jié)點(diǎn)包括數(shù)據(jù)收集模塊,用于收集相似郵件處理系統(tǒng)服務(wù)器或服務(wù)器集群上的郵件,將所述郵件作為原始樣本;轉(zhuǎn)換模塊,用于將所述原始樣本轉(zhuǎn)換為與相似計(jì)算匹配的預(yù)設(shè)格式;發(fā)送模塊,用于為轉(zhuǎn)換后的原始樣本包分配任務(wù)標(biāo)識,并將轉(zhuǎn)換后的原始樣本包作為預(yù)設(shè)格式的樣本整體或分批次發(fā)送給所述控制節(jié)點(diǎn)。所述發(fā)送模塊包括優(yōu)化傳輸單元,用于根據(jù)網(wǎng)絡(luò)情況,將所述轉(zhuǎn)換后的原始樣本包分拆成多個數(shù)據(jù)包;發(fā)送單元,用于將所述優(yōu)化傳輸單元輸出的所述多個數(shù)據(jù)包作為預(yù)設(shè)格式的樣本分批次發(fā)送給所述控制節(jié)點(diǎn)。所述控制節(jié)點(diǎn)包括接收模塊,用于接收預(yù)設(shè)格式的樣本;判斷模塊,用于判斷所述預(yù)設(shè)格式的樣本是否滿足預(yù)設(shè)條件,如果是,則所述預(yù)設(shè)格式的樣本是相似計(jì)算最終結(jié)果,如果否,則所述預(yù)設(shè)格式的樣本不是相似計(jì)算最終結(jié)果,并觸發(fā)合并拆分模塊;所述合并拆分模塊,用于根據(jù)所述相似運(yùn)算節(jié)點(diǎn)的心跳信息,對所述預(yù)設(shè)格式的樣本進(jìn)行合并或拆分處理,得到多個子任務(wù)數(shù)據(jù)包;所述心跳新消息用于監(jiān)控和描述所述 相似運(yùn)算節(jié)點(diǎn)的空閑計(jì)算能力;分配模塊,用于將所述合并拆分模塊得到的所述多個子任務(wù)數(shù)據(jù)包分別分配各個相似運(yùn)算節(jié)點(diǎn)。所述控制節(jié)點(diǎn)還包括心跳信息監(jiān)控模塊,用于每隔預(yù)設(shè)時長或當(dāng)接收到預(yù)設(shè)格式的樣本時,獲取所述相似運(yùn)算節(jié)點(diǎn)的心跳信息。所述控制節(jié)點(diǎn)還用于保存并記錄所述預(yù)設(shè)格式的樣本,記錄所述多個子任務(wù)數(shù)據(jù)包及所述子任務(wù)數(shù)據(jù)包分配的相似運(yùn)算節(jié)點(diǎn)的映射關(guān)系,并記錄所述相似運(yùn)算節(jié)點(diǎn)的心跳信息。所述心跳信息監(jiān)控模塊還用于當(dāng)所述相似運(yùn)算節(jié)點(diǎn)在預(yù)設(shè)時長內(nèi)未返回心跳信息且連續(xù)未返回所述心跳信息超過預(yù)設(shè)次數(shù),則標(biāo)記所述相似運(yùn)算節(jié)點(diǎn)崩潰,并標(biāo)記所述相似運(yùn)算節(jié)點(diǎn)上運(yùn)行的子任務(wù)數(shù)據(jù)包失敗,并觸發(fā)所述分配模塊根據(jù)所述相似運(yùn)算節(jié)點(diǎn)的心跳信息將標(biāo)記失敗的子任務(wù)數(shù)據(jù)包分配給未崩潰且空閑的相似運(yùn)算節(jié)點(diǎn)。一種相似郵件處理方法,包括接收原始樣本和預(yù)設(shè)格式的樣本,并將接收到的原始樣本轉(zhuǎn)換為預(yù)設(shè)格式;判斷所述轉(zhuǎn)換后的原始樣本包和所述預(yù)設(shè)格式的樣本包是否為相似計(jì)算最終結(jié)果;如果否,則根據(jù)預(yù)設(shè)標(biāo)準(zhǔn)對所述轉(zhuǎn)換后的原始樣本包和所述預(yù)設(shè)格式的樣本進(jìn)行合并或拆分處理,得到多個子任務(wù)數(shù)據(jù)包;對每個所述子任務(wù)數(shù)據(jù)包內(nèi)的樣本進(jìn)行相似關(guān)系計(jì)算,獲得相似計(jì)算中間結(jié)果,所述相似計(jì)算中間結(jié)果為預(yù)設(shè)格式的樣本,反饋所述預(yù)設(shè)格式的樣本,所述相似計(jì)算中間結(jié)果至少包括唯一相似樣本、相似關(guān)系和所述唯一相似樣本的相似計(jì)數(shù)。接收原始樣本和預(yù)設(shè)格式的樣本,具體包括收集相似郵件處理系統(tǒng)服務(wù)器或服務(wù)器集群上的郵件,將所述郵件作為原始樣本,為所述原始樣本分配任務(wù)標(biāo)識;根據(jù)所述預(yù)設(shè)格式的樣本的任務(wù)標(biāo)識判斷所述預(yù)設(shè)格式的樣本所屬任務(wù)是否完成,如果否,則將所述預(yù)設(shè)格式的樣本與所述所屬任務(wù)的其他樣本匯總。判斷轉(zhuǎn)換后的原始樣本包和所述預(yù)設(shè)格式的樣本是否為相似計(jì)算最終結(jié)果,具體包括
判斷所述原始樣本是否是否滿足預(yù)設(shè)條件,如果是,則所述轉(zhuǎn)換后的原始樣本包是相似計(jì)算最終結(jié)果,如果否,則所述轉(zhuǎn)換后的的原始樣本不是相似計(jì)算最終結(jié)果;判斷所述預(yù)設(shè)格式的樣本是否是否滿足預(yù)設(shè)條件,如果是,則所述所述預(yù)設(shè)格式的樣本是相似計(jì)算最終結(jié)果,如果否,則所述預(yù)設(shè)格式的樣本不是相似計(jì)算最終結(jié)果。根據(jù)預(yù)設(shè)標(biāo)準(zhǔn)對所述轉(zhuǎn)換后的原始樣本包和所述預(yù)設(shè)格式的樣本進(jìn)行合并或拆分處理,得到多個子任務(wù)數(shù)據(jù)包,具體包括統(tǒng)計(jì)所述轉(zhuǎn)換后的原始樣本包和所述預(yù)設(shè)格式的樣本的數(shù)據(jù)關(guān)鍵指標(biāo),并根據(jù)配置文件登記信息和所述數(shù)據(jù)關(guān)鍵指標(biāo)對所述轉(zhuǎn)換后的原始樣本包和所述預(yù)設(shè)格式的樣本進(jìn)行排序,并根據(jù)排序順序?qū)⑺鏊鲛D(zhuǎn)換后的原始樣本包或所述預(yù)設(shè)格式的樣本進(jìn)行合并或拆分處理,得到多個子任務(wù)數(shù)據(jù)包。當(dāng)所述預(yù)設(shè)格式的樣本為至少經(jīng)過一次相似計(jì)算的樣本且本地服務(wù)器上存在至少兩個所述預(yù)設(shè)格式的樣本所屬任務(wù)返回的預(yù)設(shè)格式的樣本時,對所述至少兩個所述預(yù)設(shè)格式的樣本所屬任務(wù)返回的預(yù)設(shè)格式的樣本進(jìn)行合并處理。當(dāng)所述轉(zhuǎn)換后的原始樣本包中的記錄條目數(shù)或打成數(shù)據(jù)包后的總尺寸字節(jié)數(shù)超過預(yù)設(shè)閾值,對所述轉(zhuǎn)換后的原始樣本包進(jìn)行拆分處理;所述預(yù)設(shè)格式的樣本中的記錄條目數(shù)或打成數(shù)據(jù)包后的總尺寸字節(jié)數(shù)超過預(yù)設(shè)閾值,對所述預(yù)設(shè)格式的樣本進(jìn)行拆分處理。本發(fā)明實(shí)施例提供的技術(shù)方案的有益效果是通過由控制節(jié)點(diǎn)對輸入的樣本進(jìn)行合并或拆分的處理,并將得到的多個子任務(wù)數(shù)據(jù)包分配給多個相似運(yùn)算節(jié)點(diǎn)的分布式系統(tǒng)來實(shí)現(xiàn)對千萬以上級別郵件的相似處理和計(jì)算,從而提高了運(yùn)算速度和運(yùn)算能力,降低了系統(tǒng)負(fù)載,可以支持實(shí)時和準(zhǔn)實(shí)時統(tǒng)計(jì)與攔截的反垃圾郵件需求。


為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖Ia是本發(fā)明實(shí)施例提供的一種相似郵件處理系統(tǒng)的示意圖;圖Ib是本發(fā)明實(shí)施例提供的一種相似郵件處理系統(tǒng)的示意圖;圖2是本發(fā)明實(shí)施例提供的一種相似郵件處理方法的流程圖;圖3是本發(fā)明實(shí)施例提供的一種相似郵件處理方法的流程圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。在介紹本發(fā)明提供的相似郵件處理系統(tǒng)之前,首先對本發(fā)明的基礎(chǔ)知識進(jìn)行簡要的介紹 本發(fā)明基于如下的簡單常識垃圾郵件一定在數(shù)量和規(guī)模上具有顯著的規(guī)模,一定在形式上存在雷同現(xiàn)象,不難發(fā)現(xiàn),只要我們處理和運(yùn)算的速度足夠快,就可以在第一時間識別出垃圾郵件(具有較大的數(shù)量規(guī)模),從而實(shí)施攔截??梢姡皆绨l(fā)現(xiàn)大規(guī)模的相似的垃圾郵件,就能越早進(jìn)行干預(yù),從而越早的將垃圾郵件擋在郵箱系統(tǒng)外(根據(jù)統(tǒng)計(jì),郵箱系統(tǒng)超過60%的郵件為垃圾郵件)。這對用戶在使用上帶來的好處不言而喻,同時也可大幅降低運(yùn)營成本(帶寬、存儲)的壓力。實(shí)施例I為了提高了運(yùn)算速度和運(yùn)算能力,降低了系統(tǒng)負(fù)載,本發(fā)明實(shí)施例提供了一種相似郵件處理系統(tǒng),參見圖la,該系統(tǒng)包括控制節(jié)點(diǎn)101和多個相似運(yùn)算節(jié)點(diǎn)102。其中,控制節(jié)點(diǎn)101,用于接收預(yù)設(shè)格式的樣本,并判斷所述預(yù)設(shè)格式的樣本是否為相似計(jì)算最終結(jié)果,如果否,則根據(jù)預(yù)設(shè)標(biāo)準(zhǔn)對所述預(yù)設(shè)格式的樣本進(jìn)行合并或拆分處理,得到多個子任務(wù)數(shù)據(jù)包,將所述多個子任務(wù)數(shù)據(jù)包分配給多個相似運(yùn)算節(jié)點(diǎn);多個所述相似運(yùn)算節(jié)點(diǎn)102,用于對接收到的子任務(wù)數(shù)據(jù)包內(nèi)的樣本進(jìn)行相似關(guān) 系計(jì)算,獲得相似計(jì)算中間結(jié)果,所述相似計(jì)算中間結(jié)果為預(yù)設(shè)格式的樣本,將所述預(yù)設(shè)格式的樣本反饋給所述控制節(jié)點(diǎn),所述相似計(jì)算中間結(jié)果至少包括唯一相似樣本、相似關(guān)系和所述唯一相似樣本的相似計(jì)數(shù)。參見圖lb,所述系統(tǒng)還包括數(shù)據(jù)輸入節(jié)點(diǎn)103,用于收集原始樣本并將所述原始樣本并將所述原始樣本轉(zhuǎn)換為預(yù)設(shè)格式,并將轉(zhuǎn)換后的原始樣本包作為預(yù)設(shè)格式的樣本發(fā)送給所述控制節(jié)點(diǎn)。所述數(shù)據(jù)輸入節(jié)點(diǎn)103包括數(shù)據(jù)收集模塊1031,用于收集相似郵件處理系統(tǒng)服務(wù)器或服務(wù)器集群上的郵件,將所述郵件作為原始樣本;轉(zhuǎn)換模塊1032,用于將所述原始樣本轉(zhuǎn)換為與相似計(jì)算匹配的預(yù)設(shè)格式;發(fā)送模塊1033,用于為轉(zhuǎn)換后的原始樣本包分配任務(wù)標(biāo)識,并將轉(zhuǎn)換后的原始樣本包作為預(yù)設(shè)格式的樣本整體或分批次發(fā)送給所述控制節(jié)點(diǎn)。所述發(fā)送模塊1033包括優(yōu)化傳輸單元1033a,用于根據(jù)網(wǎng)絡(luò)情況,將所述轉(zhuǎn)換后的原始樣本包分拆成多個數(shù)據(jù)包;發(fā)送單元1033b,用于將所述優(yōu)化傳輸單元輸出的所述多個數(shù)據(jù)包作為預(yù)設(shè)格式的樣本分批次發(fā)送給所述控制節(jié)點(diǎn)。所述控制節(jié)點(diǎn)101包括接收模塊1011,用于接收預(yù)設(shè)格式的樣本;判斷模塊1012,用于判斷所述預(yù)設(shè)格式的樣本是否滿足預(yù)設(shè)條件,如果是,則所述預(yù)設(shè)格式的樣本是相似計(jì)算最終結(jié)果,如果否,則所述預(yù)設(shè)格式的樣本不是相似計(jì)算最終結(jié)果,并觸發(fā)合并拆分模塊;所述合并拆分模塊1013,用于根據(jù)所述相似運(yùn)算節(jié)點(diǎn)的心跳信息,對所述預(yù)設(shè)格式的樣本進(jìn)行合并或拆分處理,得到多個子任務(wù)數(shù)據(jù)包;所述心跳新消息用于描述所述相似運(yùn)算節(jié)點(diǎn)的空閑計(jì)算能力;分配模塊1014,用于將所述合并拆分模塊得到的所述多個子任務(wù)數(shù)據(jù)包分別分配各個相似運(yùn)算節(jié)點(diǎn)102。
所述控制節(jié)點(diǎn)101還包括心跳信息監(jiān)控模塊,用于每隔預(yù)設(shè)時長或當(dāng)接收到預(yù)設(shè)格式的樣本時,獲取所述相似運(yùn)算節(jié)點(diǎn)的心跳信息。所述控制節(jié)點(diǎn)101還用于保存并記錄所述預(yù)設(shè)格式的樣本,記錄所述多個子任務(wù)數(shù)據(jù)包及所述子任務(wù)數(shù)據(jù)包分配的相似運(yùn)算節(jié)點(diǎn)的映射關(guān)系,并記錄所述相似運(yùn)算節(jié)點(diǎn)的心跳f目息。所述心跳信息監(jiān)控模塊還用于當(dāng)所述相似運(yùn)算節(jié)點(diǎn)在預(yù)設(shè)時長內(nèi)未返回心跳信息且連續(xù)未返回所述心跳信息超過預(yù)設(shè)次數(shù),則標(biāo)記所述相似運(yùn)算節(jié)點(diǎn)崩潰,并標(biāo)記所述相似運(yùn)算節(jié)點(diǎn)上運(yùn)行的子任務(wù)數(shù)據(jù)包失敗,并觸發(fā)所述分配模塊根據(jù)所述相似運(yùn)算節(jié)點(diǎn)的心跳信息將標(biāo)記失敗的子任務(wù)數(shù)據(jù)包分配給未崩潰且空閑的相似運(yùn)算節(jié)點(diǎn)。通過由控制節(jié)點(diǎn)對輸入的樣本進(jìn)行合并或拆分的處理,并將得到的多個子任務(wù)數(shù) 據(jù)包分配給多個相似運(yùn)算節(jié)點(diǎn)的分布式系統(tǒng)來實(shí)現(xiàn)對千萬以上級別郵件的相似處理和計(jì)算,從而提高了運(yùn)算速度和運(yùn)算能力,降低了系統(tǒng)負(fù)載,可以支持實(shí)時和準(zhǔn)實(shí)時統(tǒng)計(jì)與攔截的反垃圾郵件需求。實(shí)施例2為了提高了運(yùn)算速度和運(yùn)算能力,降低了系統(tǒng)負(fù)載,本發(fā)明實(shí)施例提供了一種相似郵件處理方法,該方法的執(zhí)行主體為上述實(shí)施例I提供的相似郵件處理系統(tǒng),參見圖2,該方法包括201 :接收原始樣本和預(yù)設(shè)格式的樣本,并將接收到的原始樣本轉(zhuǎn)換為預(yù)設(shè)格式;202:判斷該轉(zhuǎn)換后的原始樣本包和該預(yù)設(shè)格式的樣本是否為相似計(jì)算最終結(jié)果;203 :如果否,則根據(jù)預(yù)設(shè)標(biāo)準(zhǔn)對該轉(zhuǎn)換后的原始樣本包和該預(yù)設(shè)格式的樣本進(jìn)行合并或拆分處理,得到多個子任務(wù)數(shù)據(jù)包;204:對每個該子任務(wù)數(shù)據(jù)包內(nèi)的樣本進(jìn)行相似關(guān)系計(jì)算,獲得相似計(jì)算中間結(jié)果,該相似計(jì)算中間結(jié)果為預(yù)設(shè)格式的樣本,反饋該預(yù)設(shè)格式的樣本,該相似計(jì)算中間結(jié)果包括唯一相似樣本、相似關(guān)系和該唯一相似樣本的相似計(jì)數(shù)。其中,接收原始樣本和預(yù)設(shè)格式的樣本,具體包括收集相似郵件處理系統(tǒng)服務(wù)器或服務(wù)器集群上的郵件,將該郵件作為原始樣本,為該原始樣本分配任務(wù)標(biāo)識;根據(jù)該預(yù)設(shè)格式的樣本的任務(wù)標(biāo)識判斷該預(yù)設(shè)格式的樣本所屬任務(wù)是否完成,如果否,則將該預(yù)設(shè)格式的樣本與該所屬任務(wù)的其他樣本匯總。其中,判斷轉(zhuǎn)換后的原始樣本包和該預(yù)設(shè)格式的樣本是否為相似計(jì)算最終結(jié)果,具體包括判斷該轉(zhuǎn)換后的原始樣本包是否滿足預(yù)設(shè)條件,如果是,則該轉(zhuǎn)換后的原始樣本包是相似計(jì)算最終結(jié)果,如果否,則該轉(zhuǎn)換后的的原始樣本不是相似計(jì)算最終結(jié)果;判斷該預(yù)設(shè)格式的樣本是否滿足預(yù)設(shè)條件,如果是,則該該預(yù)設(shè)格式的樣本是相似計(jì)算最終結(jié)果,如果否,則該預(yù)設(shè)格式的樣本不是相似計(jì)算最終結(jié)果。其中,根據(jù)預(yù)設(shè)標(biāo)準(zhǔn)對該轉(zhuǎn)換后的原始樣本包和該預(yù)設(shè)格式的樣本進(jìn)行合并或拆分處理,得到多個子任務(wù)數(shù)據(jù)包,具體包括
統(tǒng)計(jì)該轉(zhuǎn)換后的原始樣本包和該預(yù)設(shè)格式的樣本的數(shù)據(jù)關(guān)鍵指標(biāo),并根據(jù)配置文件登記信息和該數(shù)據(jù)關(guān)鍵指標(biāo)對該轉(zhuǎn)換后的原始樣本包和該預(yù)設(shè)格式的樣本進(jìn)行排序,并根據(jù)排序順序?qū)⒃撛撧D(zhuǎn)換后的原始樣本包或該預(yù)設(shè)格式的樣本進(jìn)行合并或拆分處理,得到多個子任務(wù)數(shù)據(jù)包。其中,當(dāng)該預(yù)設(shè)格式的樣本為至少經(jīng)過一次相似計(jì)算的樣本且本地服務(wù)器上存在至少兩個該預(yù)設(shè)格式的樣本所屬任務(wù)返回的預(yù)設(shè)格式的樣本時,對該至少兩個該預(yù)設(shè)格式的樣本所屬任務(wù)返回的預(yù)設(shè)格式的樣本進(jìn)行合并處理。當(dāng)該轉(zhuǎn)換后的原始樣本包中的記錄條目數(shù)超過預(yù)設(shè)閾值,對該轉(zhuǎn)換后的原始樣本包當(dāng)進(jìn)行拆分處理;當(dāng)所述轉(zhuǎn)換后的原始樣本包中的記錄條目數(shù)或打成數(shù)據(jù)包后的總尺寸字節(jié)數(shù)超過預(yù)設(shè)閾值,對所述轉(zhuǎn)換后的原始樣本包進(jìn)行拆分處理;所述預(yù)設(shè)格式的樣本中的記錄條目數(shù)或打成數(shù)據(jù)包后的總尺寸字節(jié)數(shù)超過預(yù)設(shè)閾值,對所述預(yù)設(shè)格式的樣本進(jìn)行拆分處理。本實(shí)施例提供的方法,與系統(tǒng)實(shí)施例屬于同一構(gòu)思,其具體實(shí)現(xiàn)過程詳見方法實(shí)施例,這里不再贅述。通過由控制節(jié)點(diǎn)對輸入的樣本進(jìn)行合并或拆分的處理,并將得到的多個子任務(wù)數(shù)據(jù)包分配給多個相似運(yùn)算節(jié)點(diǎn)的分布式系統(tǒng)來實(shí)現(xiàn)對千萬以上級別郵件的相似處理和計(jì)算,從而提高了運(yùn)算速度和運(yùn)算能力,降低了系統(tǒng)負(fù)載,可以支持實(shí)時和準(zhǔn)實(shí)時統(tǒng)計(jì)與攔截的反垃圾郵件需求。實(shí)施例3為了提高了運(yùn)算速度和運(yùn)算能力,降低了系統(tǒng)負(fù)載,本發(fā)明實(shí)施例提供了一種相似郵件處理方法,該方法的執(zhí)行主體為上述實(shí)施例I提供的相似郵件處理系統(tǒng),其中,設(shè)該相似郵件處理系統(tǒng)中包含控制節(jié)點(diǎn)、4個相似計(jì)算節(jié)點(diǎn),需要說明的是,控制節(jié)點(diǎn)既可以接收原始樣本進(jìn)行轉(zhuǎn)換,也可以接收來自數(shù)據(jù)輸入節(jié)點(diǎn)的樣本,并由數(shù)據(jù)輸入節(jié)點(diǎn)進(jìn)行轉(zhuǎn)換,在本發(fā)明實(shí)施例中,以數(shù)據(jù)輸入節(jié)點(diǎn)進(jìn)行轉(zhuǎn)換為例進(jìn)行說明,參見圖3,該方法的一個實(shí)施例具體包括301 :數(shù)據(jù)輸入節(jié)點(diǎn)中的數(shù)據(jù)收集模塊收集相似郵件處理系統(tǒng)服務(wù)器或服務(wù)器集群上的郵件,將該郵件作為原始樣本;其中,該數(shù)據(jù)輸入節(jié)點(diǎn)用于收集原始樣本并將該原始樣本并將該原始樣本轉(zhuǎn)換為預(yù)設(shè)格式,并將轉(zhuǎn)換后的原始樣本包作為預(yù)設(shè)格式的樣本發(fā)送給該控制節(jié)點(diǎn)。本領(lǐng)域技術(shù)人員可以獲知,該數(shù)據(jù)輸入節(jié)點(diǎn)可以為能夠與控制節(jié)點(diǎn)通信的一臺服務(wù)器,還可以為多臺服務(wù)器組成的服務(wù)器集群。302:數(shù)據(jù)輸入節(jié)點(diǎn)中的轉(zhuǎn)換模塊將該原始樣本轉(zhuǎn)換為與相似計(jì)算匹配的預(yù)設(shè)格式;需要說明的是,在后續(xù)進(jìn)行相似計(jì)算時,為方便處理速度與記錄處理結(jié)果,需要對原始樣本進(jìn)行轉(zhuǎn)換,該轉(zhuǎn)換是根據(jù)后續(xù)的相似計(jì)算節(jié)點(diǎn)上配置的相似計(jì)算算法進(jìn)行的,需轉(zhuǎn)換為該相似計(jì)算算法對應(yīng)的數(shù)據(jù)格式。其中,該相似計(jì)算算法可以為多種,本發(fā)明對此不做限定。 303 :數(shù)據(jù)輸入節(jié)點(diǎn)中的發(fā)送模塊為轉(zhuǎn)換后的原始樣本包分配任務(wù)標(biāo)識,并將轉(zhuǎn)換后的原始樣本包作為預(yù)設(shè)格式的樣本整體或分批次發(fā)送給該控制節(jié)點(diǎn);其中,分配任務(wù)標(biāo)識是為了使系統(tǒng)正在運(yùn)行的任務(wù)透明化,技術(shù)人員可以通過任務(wù)標(biāo)識獲知當(dāng)前系統(tǒng)正在運(yùn)行的是哪些任務(wù),并可以當(dāng)需要終止某項(xiàng)任務(wù)時,控制節(jié)點(diǎn)可以根據(jù)任務(wù)標(biāo)識向正在運(yùn)行該任務(wù)的子任務(wù)的相似運(yùn)算節(jié)點(diǎn)發(fā)送終止指令。具體地,當(dāng)原始樣本的規(guī)模超過一定值,例如IG時,發(fā)送模塊中的優(yōu)化傳輸單元根據(jù)網(wǎng)絡(luò)情況,將該轉(zhuǎn)換后的原始樣本包分拆成多個數(shù)據(jù)包;并由發(fā)送單元將該優(yōu)化傳輸單元輸出的該多個數(shù)據(jù)包作為預(yù)設(shè)格式的樣本分批次發(fā)送給該控制節(jié)點(diǎn),占用較少的內(nèi)存和帶寬資源。需要說明的是,數(shù)據(jù)輸入節(jié)點(diǎn)可以為控制節(jié)點(diǎn)的一部分,其轉(zhuǎn)換格式的功能也可以由控制節(jié)點(diǎn)進(jìn)行,當(dāng)控制節(jié)點(diǎn)包含該功能時,數(shù)據(jù)輸入節(jié)點(diǎn)負(fù)責(zé)收集郵件,并將郵件打包作為原始樣本發(fā)送給控制節(jié)點(diǎn),控制節(jié)點(diǎn)接收到原始樣本后,掃描原始樣本,將原始樣本轉(zhuǎn)換為預(yù)設(shè)格式的樣本,進(jìn)行步驟305的判斷后,當(dāng)該預(yù)設(shè)格式的樣本不是相似計(jì)算最終結(jié) 果時,統(tǒng)計(jì)預(yù)設(shè)格式的關(guān)鍵數(shù)據(jù)指標(biāo)(包括數(shù)據(jù)包尺寸或記錄條目等指標(biāo)),根據(jù)樣本的配置信息(包括每個包包括的記錄條數(shù)或每個包的尺寸),根據(jù)關(guān)鍵數(shù)據(jù)指標(biāo)進(jìn)行排序,將排序后的排列拆分或合并成多個子任務(wù)數(shù)據(jù)包。上述的步驟是對原始樣本的處理。304:控制節(jié)點(diǎn)的接收模塊接收預(yù)設(shè)格式的樣本,該預(yù)設(shè)格式的樣本包括轉(zhuǎn)換后的原始樣本包和由相似計(jì)算節(jié)點(diǎn)反饋的相似計(jì)算中間結(jié)果;其中,控制節(jié)點(diǎn)用于接收預(yù)設(shè)格式的樣本,并判斷該預(yù)設(shè)格式的樣本是否為相似計(jì)算最終結(jié)果,如果否,則根據(jù)預(yù)設(shè)標(biāo)準(zhǔn)對該預(yù)設(shè)格式的樣本進(jìn)行合并或拆分處理,得到多個子任務(wù)數(shù)據(jù)包,將該多個子任務(wù)數(shù)據(jù)包分配給多個相似運(yùn)算節(jié)點(diǎn);需要說明的是,在接收樣本時,分2種情況I、所有樣本一次性輸入,任務(wù)的生命周期在本次輸入數(shù)據(jù)的相似運(yùn)算完成后達(dá)到結(jié)束點(diǎn),相似關(guān)系只覆蓋本次輸入的樣本;2、樣本分開多次傳輸,任務(wù)生命周期較長或無終止時間,需要輸出的相似關(guān)系數(shù)據(jù)要覆蓋所有輸入數(shù)據(jù),并且能夠即輸出已經(jīng)傳輸完畢的樣本部分之間的相似結(jié)果,無需等待所有樣本全部傳輸完再啟動相似計(jì)算過程;需要說明的是,該控制節(jié)點(diǎn)是整套系統(tǒng)中的控制部分,該控制節(jié)點(diǎn)還用于處理來自數(shù)據(jù)輸入節(jié)點(diǎn)的請求,在本實(shí)例中,該請求用于請求對預(yù)設(shè)格式的樣本進(jìn)行相似計(jì)算處理,為了保障安全性,控制節(jié)點(diǎn)可以對該請求的合法性進(jìn)行驗(yàn)證,當(dāng)請求驗(yàn)證合法時,再對接收到的預(yù)設(shè)格式的樣本進(jìn)行處理。該控制節(jié)點(diǎn)一般為一臺服務(wù)器,在熱備情況下,可由兩臺或更多。進(jìn)一步地,該控制節(jié)點(diǎn)還用于保存并記錄該預(yù)設(shè)格式的樣本,記錄該多個子任務(wù)數(shù)據(jù)包及該子任務(wù)數(shù)據(jù)包分配的相似運(yùn)算節(jié)點(diǎn)的映射關(guān)系,并記錄該相似運(yùn)算節(jié)點(diǎn)的心跳信息。305 :控制節(jié)點(diǎn)的判斷模塊判斷該預(yù)設(shè)格式的樣本是否滿足預(yù)設(shè)條件;如果是,則該預(yù)設(shè)格式的樣本是相似計(jì)算最終結(jié)果,輸出該相似計(jì)算最終結(jié)果;如果否,則該預(yù)設(shè)格式的樣本不是相似計(jì)算最終結(jié)果,并執(zhí)行步驟306 ;其中,預(yù)設(shè)條件是指樣本的相似計(jì)數(shù)達(dá)到預(yù)設(shè)閾值且此樣本包已經(jīng)過濾并剔除掉獨(dú)立樣本,獨(dú)立樣本是指未與其他任何樣本有相似關(guān)系的;或經(jīng)過相似計(jì)算后并未發(fā)現(xiàn)新的相似關(guān)系,例如,輸入1000個樣本,經(jīng)過計(jì)算后沒有可合并的樣本,仍然為1000個樣本。其中該預(yù)設(shè)條件為技術(shù)人員根據(jù)系統(tǒng)的承載能力或其他要素設(shè)定的,本發(fā)明實(shí)施例不做具體限定。在一個實(shí)施例中,當(dāng)預(yù)設(shè)格式的樣本為轉(zhuǎn)換后的原始樣本包時,該轉(zhuǎn)換后的原始樣本包內(nèi)的記錄條目之間的差異很大,無需進(jìn)行相似計(jì)算,此時,該轉(zhuǎn)換后的原始樣本包即可以作為相似計(jì)算最終結(jié)果。306:控制節(jié)點(diǎn)的合并拆分模塊根據(jù)該相似運(yùn)算節(jié)點(diǎn)的心跳信息,對該預(yù)設(shè)格式的樣本進(jìn)行合并或拆分處理,得到多個子任務(wù)數(shù)據(jù)包;其中,該心跳消息用于監(jiān)控和描述該相似運(yùn)算節(jié)點(diǎn)的空閑計(jì)算能力,包括其CPU或內(nèi)存的配置情況和計(jì)算能力與當(dāng)前正在運(yùn)行的任務(wù)列表。心跳信息監(jiān)控模塊用于每隔預(yù)設(shè)時長或當(dāng)接收到預(yù)設(shè)格式的樣本時,獲取該相似運(yùn)算節(jié)點(diǎn)的心跳信息。具體地,心跳信息監(jiān)控模塊每隔預(yù)設(shè)時長(例如I分鐘)向相似運(yùn)算節(jié)點(diǎn)發(fā)送心跳信息請求或當(dāng)控制節(jié)點(diǎn)接 收到預(yù)設(shè)格式的樣本時出發(fā)信條信息監(jiān)控模塊向相似運(yùn)算節(jié)點(diǎn)發(fā)送心跳信息請求,相似計(jì)算節(jié)點(diǎn)接收到心跳信息請求時,向控制節(jié)點(diǎn)反饋當(dāng)前正在運(yùn)行的子任務(wù)列表等信息。心跳信息監(jiān)控模塊保存反饋的心跳信息,定期監(jiān)控所有相似計(jì)算節(jié)點(diǎn)的狀況,并監(jiān)控正在運(yùn)行的子任務(wù)的完成情況,包括正在運(yùn)行、結(jié)束或異常失敗等,用于在分派子任務(wù)數(shù)據(jù)包和相似計(jì)算節(jié)點(diǎn)崩潰時的查詢處理。需要說明的是,控制節(jié)點(diǎn)和所有的相似計(jì)算模塊之間維持TCP長鏈接。進(jìn)一步地,本發(fā)明實(shí)施例中,當(dāng)樣本必須滿足如下幾個方面中的任一條時,需對樣本進(jìn)行拆分處理I、樣本已經(jīng)按照數(shù)據(jù)關(guān)鍵指標(biāo)排序;2、記錄條目數(shù)超過預(yù)設(shè)閾值,如10萬;3、打成數(shù)據(jù)包后的數(shù)據(jù)包尺寸超過預(yù)設(shè)閾值,如IG ;進(jìn)一步地,本發(fā)明實(shí)施例中,當(dāng)樣本必須滿足如下幾個方面中的任一條時,需對樣本進(jìn)行合并處理I、樣本在排序后,相似的記錄條目只出現(xiàn)在此數(shù)據(jù)關(guān)鍵指標(biāo)的某個連續(xù)范圍內(nèi),或以較高概率出現(xiàn);2、根據(jù)數(shù)據(jù)關(guān)鍵指標(biāo)在完成相似計(jì)算,經(jīng)過唯一化樣本步驟(即只保留一個樣本,但記錄合并掉的所有樣本與此唯一樣本之間的相似指數(shù)),保持不變;3、一個任務(wù)標(biāo)識在其生命周期內(nèi),存在多次和較慢的原始數(shù)據(jù)提交過程時,必定發(fā)生一部分已經(jīng)先行計(jì)算相似的情況,或在數(shù)據(jù)量較大,一次需分發(fā)多個子任務(wù)數(shù)據(jù)包并接收對應(yīng)的相似運(yùn)算結(jié)果時,當(dāng)所述預(yù)設(shè)格式的樣本為至少經(jīng)過一次相似計(jì)算的樣本且本地服務(wù)器上存在至少兩個所述預(yù)設(shè)格式的樣本所屬任務(wù)返回的預(yù)設(shè)格式的樣本時,對所述至少兩個所述預(yù)設(shè)格式的樣本所屬任務(wù)返回的預(yù)設(shè)格式的樣本進(jìn)行合并處理。需要說明的是,合并運(yùn)算處理到后期,會出現(xiàn)全部的唯一相似樣本數(shù)量仍然龐大的情況,此時若仍然按照上面方法處理,會陷入一個分拆合并的死循環(huán)過程,當(dāng)唯一相似樣本數(shù)量超過預(yù)設(shè)閾值,為避免陷入死循環(huán),根據(jù)不同的情況進(jìn)行處理,具體如下I、丟棄相似計(jì)數(shù)較小的樣本,例如,丟棄全部相似計(jì)數(shù)小于5的樣本;2、若經(jīng)過一輪相似計(jì)算后,若某個子任務(wù)數(shù)據(jù)包中的樣本之間均不存在相似關(guān)系,則標(biāo)記此部分子任務(wù)數(shù)據(jù)已經(jīng)達(dá)到了最終計(jì)算狀態(tài),不在參與后續(xù)的合并和分拆過程,直至這個任務(wù)標(biāo)識有新的輸入數(shù)據(jù)傳入并排序在這個子任務(wù)數(shù)據(jù)包的數(shù)據(jù)范圍內(nèi);3、經(jīng)過的計(jì)算次數(shù)越多,則丟棄的閾值應(yīng)該逐步增大;4、當(dāng)全部子任務(wù)均達(dá)到最終狀態(tài)或經(jīng)歷的運(yùn)算次數(shù)達(dá)到一個閾值,則不再進(jìn)行下一輪運(yùn)算,標(biāo)記此部分原始輸入數(shù)據(jù)已經(jīng)全部計(jì)算完成,本次相似計(jì)算任務(wù)完成。307:控制節(jié)點(diǎn)的分配模塊將該合并拆分模塊得到的該多個子任務(wù)數(shù)據(jù)包分別分配各個相似運(yùn)算節(jié)點(diǎn);本領(lǐng)域技術(shù)人員可以獲知,在步驟305的分配時已經(jīng)考慮到了各個相似計(jì)算節(jié)點(diǎn)的計(jì)算能力,所以各個相似計(jì)算節(jié)點(diǎn)接收到的數(shù)據(jù)包大小和包含條目可以不一致。需要說明的是,如果當(dāng)前相似運(yùn)算節(jié)點(diǎn)無法處理所有的子任務(wù)數(shù)據(jù)包,可以先分 配一部分,等待相似運(yùn)算節(jié)點(diǎn)的心跳信息顯示該相似運(yùn)算節(jié)點(diǎn)空閑,再將后續(xù)的子任務(wù)數(shù)據(jù)包分配出去,一個相似計(jì)算節(jié)點(diǎn)上可以分配有一個或多個子任務(wù)數(shù)據(jù)包。308:相似計(jì)算節(jié)點(diǎn)接收一個或多個子任務(wù)數(shù)據(jù)包,并對接收到的子任務(wù)數(shù)據(jù)包內(nèi)的樣本進(jìn)行相似關(guān)系計(jì)算,獲得相似計(jì)算中間結(jié)果,該相似計(jì)算中間結(jié)果為預(yù)設(shè)格式的樣本,將該預(yù)設(shè)格式的樣本反饋給該控制節(jié)點(diǎn),執(zhí)行步驟304,直到該樣本所屬任務(wù)完成。進(jìn)一步的,當(dāng)控制節(jié)點(diǎn)接收到預(yù)設(shè)格式的樣本時,根據(jù)其任務(wù)標(biāo)識判斷該樣本所屬任務(wù)中的子任務(wù)數(shù)據(jù)包是否都已經(jīng)反饋,如果是,則該次任務(wù)結(jié)束,如果否,將該反饋的預(yù)設(shè)格式的樣本和后續(xù)輸入的樣本再進(jìn)行合并或拆分,并再次分配給相似計(jì)算節(jié)點(diǎn)進(jìn)行相似計(jì)算。該相似計(jì)算中間結(jié)果至少包括唯一相似樣本、相似關(guān)系和該唯一相似樣本的相似計(jì)數(shù),還可以包括其他信息。相似關(guān)系是指樣本之間的相似指數(shù),例如,樣本A與B之間不相似,則其相似關(guān)系為Sim (A, B) = O。在本實(shí)施例中,相似計(jì)算節(jié)點(diǎn)只負(fù)責(zé)每個數(shù)據(jù)包內(nèi)部條目的相似計(jì)算,并將每個數(shù)據(jù)包的相似計(jì)算中間結(jié)果反饋給控制節(jié)點(diǎn),而不對數(shù)據(jù)包之間進(jìn)行處理。且運(yùn)算節(jié)點(diǎn)單元負(fù)責(zé)進(jìn)行具體的相似計(jì)算任務(wù),除了數(shù)據(jù)的輸入和輸出外,不對原始數(shù)據(jù)進(jìn)行任何改變。其中,相似計(jì)算節(jié)點(diǎn)可以為不同CPU計(jì)算能力的服務(wù)器,并可以使用一個或幾個相似計(jì)算的核心算法;優(yōu)選地,為了避免系統(tǒng)信息過于繁雜,相似計(jì)算節(jié)點(diǎn)不會主動上報自己的心跳信息,只在收到心跳信息請求后才返回必要的信息給控制節(jié)點(diǎn)。優(yōu)選地,每個任務(wù)具有最長運(yùn)行時間限制,即如果運(yùn)算時間超過指定秒數(shù),則該任務(wù)作廢,此時只有部分相似樣本完成了相似運(yùn)算,根據(jù)子任務(wù)的配置信息來決定是否需要返回未完成的結(jié)果給控制節(jié)點(diǎn)。在子任務(wù)運(yùn)行期間,當(dāng)接收到控制節(jié)點(diǎn)發(fā)出了終止指令,則該運(yùn)算立即停止并立即丟棄;當(dāng)子任務(wù)運(yùn)算完畢,由相似計(jì)算節(jié)點(diǎn)發(fā)請求給控制節(jié)點(diǎn),返回結(jié)果數(shù)據(jù),具備超時重試機(jī)制;即當(dāng)相似計(jì)算節(jié)點(diǎn)發(fā)送的請求在預(yù)設(shè)時長內(nèi)未接收到控制節(jié)點(diǎn)的反饋時,則重新發(fā)送,當(dāng)重新發(fā)送次數(shù)超過預(yù)設(shè)次數(shù),則認(rèn)為控制節(jié)點(diǎn)崩潰。若發(fā)生相似計(jì)算節(jié)點(diǎn)崩潰,相似計(jì)算節(jié)點(diǎn)內(nèi)的數(shù)據(jù)和未完成的子任務(wù)不做恢復(fù)處理,在相似計(jì)算節(jié)點(diǎn)恢復(fù)響應(yīng)后,等待新的運(yùn)算請求;下面給出一個簡化后的實(shí)例來示意如何獲得海量輸入原始樣本之間的完整相似關(guān)系
原始樣本中含有ABCDEFGHI9個樣本,根據(jù)數(shù)據(jù)關(guān)鍵指標(biāo)排序后,拆分成3個包,分別為
權(quán)利要求
1.一種相似郵件處理系統(tǒng),其特征在于,包括 控制節(jié)點(diǎn),用于接收預(yù)設(shè)格式的樣本,并判斷所述預(yù)設(shè)格式的樣本是否為相似計(jì)算最終結(jié)果,如果否,則根據(jù)預(yù)設(shè)標(biāo)準(zhǔn)對所述預(yù)設(shè)格式的樣本進(jìn)行合并或拆分處理,得到多個子任務(wù)數(shù)據(jù)包,將所述多個子任務(wù)數(shù)據(jù)包分配給多個相似運(yùn)算節(jié)點(diǎn); 多個所述相似運(yùn)算節(jié)點(diǎn),用于對接收到的子任務(wù)數(shù)據(jù)包內(nèi)的樣本進(jìn)行相似關(guān)系計(jì)算,獲得相似計(jì)算中間結(jié)果,所述相似計(jì)算中間結(jié)果為預(yù)設(shè)格式,將所述相似計(jì)算中間結(jié)果反饋給所述控制節(jié)點(diǎn),所述相似計(jì)算中間結(jié)果至少包括唯一相似樣本、相似關(guān)系和所述唯一相似樣本的相似計(jì)數(shù)。
2.根據(jù)權(quán)利要求I所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括 數(shù)據(jù)輸入節(jié)點(diǎn),用于收集原始樣本并將所述原始樣本并將所述原始樣本轉(zhuǎn)換為預(yù)設(shè)格式,并將轉(zhuǎn)換后的原始樣本包作為預(yù)設(shè)格式的樣本發(fā)送給所述控制節(jié)點(diǎn)。
3.根據(jù)權(quán)利要求2所述的系統(tǒng),其特征在于,所述數(shù)據(jù)輸入節(jié)點(diǎn)包括 數(shù)據(jù)收集模塊,用于收集相似郵件處理系統(tǒng)服務(wù)器或服務(wù)器集群上的郵件,將所述郵件作為原始樣本; 轉(zhuǎn)換模塊,用于將所述原始樣本轉(zhuǎn)換為與相似計(jì)算匹配的預(yù)設(shè)格式; 發(fā)送模塊,用于為轉(zhuǎn)換后的原始樣本包分配任務(wù)標(biāo)識,并將轉(zhuǎn)換后的原始樣本包作為預(yù)設(shè)格式的樣本整體或分批次發(fā)送給所述控制節(jié)點(diǎn)。
4.根據(jù)權(quán)利要求3所述的系統(tǒng),其特征在于,所述發(fā)送模塊包括 優(yōu)化傳輸單元,用于根據(jù)網(wǎng)絡(luò)情況,將所述轉(zhuǎn)換后的原始樣本包分拆成多個數(shù)據(jù)包; 發(fā)送單元,用于將所述優(yōu)化傳輸單元輸出的所述多個數(shù)據(jù)包作為預(yù)設(shè)格式的樣本分批次發(fā)送給所述控制節(jié)點(diǎn)。
5.根據(jù)權(quán)利要求I所述的系統(tǒng),其特征在于,所述控制節(jié)點(diǎn)包括 接收模塊,用于接收預(yù)設(shè)格式的樣本; 判斷模塊,用于判斷所述預(yù)設(shè)格式的樣本是否滿足預(yù)設(shè)條件,如果是,則所述預(yù)設(shè)格式的樣本是相似計(jì)算最終結(jié)果,如果否,則所述預(yù)設(shè)格式的樣本不是相似計(jì)算最終結(jié)果,并觸發(fā)合并拆分模塊; 所述合并拆分模塊,用于根據(jù)所述相似運(yùn)算節(jié)點(diǎn)的心跳信息,對所述預(yù)設(shè)格式的樣本進(jìn)行合并或拆分處理,得到多個子任務(wù)數(shù)據(jù)包;所述心跳新消息用于監(jiān)控和描述所述相似運(yùn)算節(jié)點(diǎn)的空閑計(jì)算能力; 分配模塊,用于將所述合并拆分模塊得到的所述多個子任務(wù)數(shù)據(jù)包分別分配各個相似運(yùn)算節(jié)點(diǎn)。
6.根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于,所述控制節(jié)點(diǎn)還包括 心跳信息監(jiān)控模塊,用于每隔預(yù)設(shè)時長或當(dāng)接收到預(yù)設(shè)格式的樣本時,獲取所述相似運(yùn)算節(jié)點(diǎn)的心跳信息。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述控制節(jié)點(diǎn)還用于保存并記錄所述預(yù)設(shè)格式的樣本,記錄所述多個子任務(wù)數(shù)據(jù)包及所述子任務(wù)數(shù)據(jù)包分配的相似運(yùn)算節(jié)點(diǎn)的映射關(guān)系,并記錄所述相似運(yùn)算節(jié)點(diǎn)的心跳信息。
8.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述心跳信息監(jiān)控模塊還用于當(dāng)所述相似運(yùn)算節(jié)點(diǎn)在預(yù)設(shè)時長內(nèi)未返回心跳信息且連續(xù)未返回所述心跳信息超過預(yù)設(shè)次數(shù),則標(biāo)記所述相似運(yùn)算節(jié)點(diǎn)崩潰,并標(biāo)記所述相似運(yùn)算節(jié)點(diǎn)上運(yùn)行的子任務(wù)數(shù)據(jù)包失敗,并觸發(fā)所述分配模塊根據(jù)所述相似運(yùn)算節(jié)點(diǎn)的心跳信息將標(biāo)記失敗的子任務(wù)數(shù)據(jù)包分配給未崩潰且空閑的相似運(yùn)算節(jié)點(diǎn)。
9.一種相似郵件處理方法,其特征在于,包括 接收原始樣本和預(yù)設(shè)格式的樣本,并將接收到的原始樣本轉(zhuǎn)換為預(yù)設(shè)格式; 判斷所述轉(zhuǎn)換后的原始樣本包和所述預(yù)設(shè)格式的樣本包是否為相似計(jì)算最終結(jié)果; 如果否,則根據(jù)預(yù)設(shè)標(biāo)準(zhǔn)對所述轉(zhuǎn)換后的原始樣本包和所述預(yù)設(shè)格式的樣本進(jìn)行合并或拆分處理,得到多個子任務(wù)數(shù)據(jù)包; 對每個所述子任務(wù)數(shù)據(jù)包內(nèi)的樣本進(jìn)行相似關(guān)系計(jì)算,獲得相似計(jì)算中間結(jié)果,所述相似計(jì)算中間結(jié)果為預(yù)設(shè)格式的樣本,反饋所述預(yù)設(shè)格式的樣本,所述相似計(jì)算中間結(jié)果至少包括唯一相似樣本、相似關(guān)系和所述唯一相似樣本的相似計(jì)數(shù)。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,接收原始樣本和預(yù)設(shè)格式的樣本,具體包括 收集相似郵件處理系統(tǒng)服務(wù)器或服務(wù)器集群上的郵件,將所述郵件作為原始樣本,為所述原始樣本分配任務(wù)標(biāo)識; 根據(jù)所述預(yù)設(shè)格式的樣本的任務(wù)標(biāo)識判斷所述預(yù)設(shè)格式的樣本所屬任務(wù)是否完成,如果否,則將所述預(yù)設(shè)格式的樣本與所述所屬任務(wù)的其他樣本匯總。
11.根據(jù)權(quán)利要求9所述的方法,其特征在于,判斷轉(zhuǎn)換后的原始樣本包和所述預(yù)設(shè)格式的樣本是否為相似計(jì)算最終結(jié)果,具體包括 判斷所述原始樣本是否是否滿足預(yù)設(shè)條件,如果是,則所述轉(zhuǎn)換后的原始樣本包是相似計(jì)算最終結(jié)果,如果否,則所述轉(zhuǎn)換后的的原始樣本不是相似計(jì)算最終結(jié)果; 判斷所述預(yù)設(shè)格式的樣本是否是否滿足預(yù)設(shè)條件,如果是,則所述所述預(yù)設(shè)格式的樣本是相似計(jì)算最終結(jié)果,如果否,則所述預(yù)設(shè)格式的樣本不是相似計(jì)算最終結(jié)果。
12.根據(jù)權(quán)利要求9所述的方法,其特征在于,根據(jù)預(yù)設(shè)標(biāo)準(zhǔn)對所述轉(zhuǎn)換后的原始樣本包和所述預(yù)設(shè)格式的樣本進(jìn)行合并或拆分處理,得到多個子任務(wù)數(shù)據(jù)包,具體包括 統(tǒng)計(jì)所述轉(zhuǎn)換后的原始樣本包和所述預(yù)設(shè)格式的樣本的數(shù)據(jù)關(guān)鍵指標(biāo),并根據(jù)配置文件登記信息和所述數(shù)據(jù)關(guān)鍵指標(biāo)對所述轉(zhuǎn)換后的原始樣本包和所述預(yù)設(shè)格式的樣本進(jìn)行排序,并根據(jù)排序順序?qū)⑺鏊鲛D(zhuǎn)換后的原始樣本包或所述預(yù)設(shè)格式的樣本進(jìn)行合并或拆分處理,得到多個子任務(wù)數(shù)據(jù)包。
13.根據(jù)權(quán)利要求9所述的方法,其特征在于,當(dāng)所述預(yù)設(shè)格式的樣本為至少經(jīng)過一次相似計(jì)算的樣本且本地服務(wù)器上存在至少兩個所述預(yù)設(shè)格式的樣本所屬任務(wù)返回的預(yù)設(shè)格式的樣本時,對所述至少兩個所述預(yù)設(shè)格式的樣本所屬任務(wù)返回的預(yù)設(shè)格式的樣本進(jìn)行合并處理。
14.根據(jù)權(quán)利要求9所述的方法,其特征在于,當(dāng)所述轉(zhuǎn)換后的原始樣本包中的記錄條目數(shù)或打成數(shù)據(jù)包后的總尺寸字節(jié)數(shù)超過預(yù)設(shè)閾值,對所述轉(zhuǎn)換后的原始樣本包進(jìn)行拆分處理; 所述預(yù)設(shè)格式的樣本中的記錄條目數(shù)或打成數(shù)據(jù)包后的總尺寸字節(jié)數(shù)超過預(yù)設(shè)閾值,對所述預(yù)設(shè)格式的樣本進(jìn)行拆分處理。
全文摘要
本發(fā)明公開了一種相似郵件處理系統(tǒng)和方法,屬于網(wǎng)絡(luò)技術(shù)領(lǐng)域。本系統(tǒng)包括控制節(jié)點(diǎn),用于接收預(yù)設(shè)格式的樣本,并判斷所述預(yù)設(shè)格式的樣本是否為相似計(jì)算最終結(jié)果,如果否,則根據(jù)預(yù)設(shè)標(biāo)準(zhǔn)對所述預(yù)設(shè)格式的樣本進(jìn)行合并或拆分處理,得到多個子任務(wù)數(shù)據(jù)包,將所述多個子任務(wù)數(shù)據(jù)包分配給多個相似運(yùn)算節(jié)點(diǎn);多個所述相似運(yùn)算節(jié)點(diǎn),用于對接收到的子任務(wù)數(shù)據(jù)包內(nèi)的樣本進(jìn)行相似關(guān)系計(jì)算,獲得相似計(jì)算中間結(jié)果,所述相似計(jì)算中間結(jié)果為預(yù)設(shè)格式的樣本,將所述預(yù)設(shè)格式的樣本反饋給所述控制節(jié)點(diǎn),所述相似計(jì)算中間結(jié)果包括唯一相似樣本、相似關(guān)系和所述唯一相似樣本的相似計(jì)數(shù)。
文檔編號H04L12/58GK102655480SQ20111005122
公開日2012年9月5日 申請日期2011年3月3日 優(yōu)先權(quán)日2011年3月3日
發(fā)明者林華尚, 王暉 申請人:騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
成都市| 博白县| 堆龙德庆县| 洛浦县| 舟曲县| 平陆县| 固镇县| 建昌县| 灵石县| 旌德县| 韩城市| 江华| 无极县| 东乌珠穆沁旗| 甘泉县| 大名县| 北京市| 南川市| 金阳县| 龙泉市| 体育| 巨鹿县| 衡南县| 达日县| 宣汉县| 乌鲁木齐县| 东明县| 丹棱县| 甘德县| 龙游县| 淄博市| 五大连池市| 华安县| 行唐县| 明光市| 义乌市| 大洼县| 陇南市| 堆龙德庆县| 霍邱县| 历史|