欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于樣本數(shù)據(jù)的數(shù)據(jù)探測和擴(kuò)充方法及裝置與流程

文檔序號:12666765閱讀:226來源:國知局
基于樣本數(shù)據(jù)的數(shù)據(jù)探測和擴(kuò)充方法及裝置與流程
本發(fā)明涉及互聯(lián)網(wǎng)
技術(shù)領(lǐng)域
,具體地涉及一種基于樣本數(shù)據(jù)的數(shù)據(jù)探測和擴(kuò)充方法及裝置。
背景技術(shù)
:隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,中國互聯(lián)網(wǎng)網(wǎng)站和上網(wǎng)人數(shù)均飛速攀升,隨著網(wǎng)民的飛速增長,以及互聯(lián)網(wǎng)資源越來越豐富,互聯(lián)網(wǎng)上產(chǎn)生的訪問日志數(shù)據(jù)也快速膨脹形成海量數(shù)據(jù),使得如何從海量數(shù)據(jù)中探測發(fā)現(xiàn)并擴(kuò)充所需的數(shù)據(jù)信息成為當(dāng)前信息處理方工作的重中之重。目前,從海量數(shù)據(jù)中發(fā)現(xiàn)和擴(kuò)充所需數(shù)據(jù)的方法主要集中在以下兩種:其一,是人工檢查數(shù)據(jù)方式,依靠人工對互聯(lián)網(wǎng)上各網(wǎng)站或者應(yīng)用程序(Application,簡稱APP,例如,裝載在手機(jī)中的應(yīng)用軟件)的用戶訪問統(tǒng)一資源定位符(UniformResourceLocator,簡稱URL)進(jìn)行分析和總結(jié),得到一系列的匹配規(guī)則,然后基于這些匹配規(guī)則再到互聯(lián)網(wǎng)的海量數(shù)據(jù)資源中再進(jìn)行匹配,從而提取擴(kuò)充獲得所需的數(shù)據(jù)。其二,則是應(yīng)用程序編程接口(ApplicationProgrammingInterface,簡稱API)查詢方式,這種方法是通過API提供方的文檔說明,根據(jù)需要調(diào)用對方的接口從而獲取所需的數(shù)據(jù)。這兩種方法雖然能在一定程度上滿足用戶希望從海量數(shù)據(jù)中發(fā)現(xiàn)和擴(kuò)充特定類型的數(shù)據(jù),但是,這兩種方法各自存在著無法回避的缺陷。對于人工檢查數(shù)據(jù)方式而言,在實際操作中需要大量的人力去手動進(jìn)行相關(guān)的分析和統(tǒng)計,探測和擴(kuò)充效率低;API查詢方式則依賴于API提供方提供的文檔說明,具有不確定性。另一方面,包括上述兩種方式在內(nèi)的現(xiàn)有數(shù)據(jù)發(fā)現(xiàn)和擴(kuò)充方法,最終獲得的都是某些特定網(wǎng)站上的數(shù)據(jù)。但是由于互聯(lián)網(wǎng)中網(wǎng)站規(guī)模的飛速擴(kuò)張,并且許多網(wǎng)站和APP對URL的構(gòu)建方式?jīng)]有制定統(tǒng)一的標(biāo)準(zhǔn)和規(guī)律,因此通過現(xiàn)有方法獲取的數(shù)據(jù)只是海量數(shù)據(jù)中的一小部分,不利于用戶對海量數(shù)據(jù)進(jìn)行全局、系統(tǒng)的分析和處理,影響了用戶所探測和擴(kuò)充獲得的數(shù)據(jù)的準(zhǔn)確度。技術(shù)實現(xiàn)要素:本發(fā)明解決的技術(shù)問題是現(xiàn)有技術(shù)無法以更為準(zhǔn)確、高效的方式對海量數(shù)據(jù)進(jìn)行全局、系統(tǒng)的分析和處理。為解決上述技術(shù)問題,本發(fā)明實施例提供一種基于樣本數(shù)據(jù)的數(shù)據(jù)探測和擴(kuò)充方法,包括如下步驟:基于數(shù)據(jù)庫中的至少一條數(shù)據(jù)確定所述樣本數(shù)據(jù),所述數(shù)據(jù)庫存儲有從海量數(shù)據(jù)中探測獲得的多條數(shù)據(jù);基于所述樣本數(shù)據(jù)在所述海量數(shù)據(jù)中查找,以獲得所述海量數(shù)據(jù)中與所述樣本數(shù)據(jù)相匹配的匹配數(shù)據(jù);對所述匹配數(shù)據(jù)進(jìn)行處理以獲得匹配規(guī)則,并更新指紋庫,所述指紋庫存儲有歷史上獲得的匹配規(guī)則;基于更新后的指紋庫在所述海量數(shù)據(jù)中進(jìn)行匹配提取,以獲得所述海量數(shù)據(jù)中與所述更新后的指紋庫中的匹配規(guī)則相匹配的數(shù)據(jù),并將匹配獲得的數(shù)據(jù)擴(kuò)充至所述數(shù)據(jù)庫??蛇x的,所述基于數(shù)據(jù)庫中的至少一條數(shù)據(jù)確定所述樣本數(shù)據(jù),包括如下步驟:從所述數(shù)據(jù)庫中選擇預(yù)設(shè)數(shù)量的數(shù)據(jù),并將所述預(yù)設(shè)數(shù)量的數(shù)據(jù)的特征信息作為所述樣本數(shù)據(jù)??蛇x的,所述特征信息包括:所述預(yù)設(shè)數(shù)量的數(shù)據(jù)的特征標(biāo)識碼;或者根據(jù)所述預(yù)設(shè)數(shù)量的數(shù)據(jù)確定的正則表達(dá)式。可選的,基于所述樣本數(shù)據(jù)在所述海量數(shù)據(jù)中查找,以獲得所述海量數(shù)據(jù)中與所述樣本數(shù)據(jù)相匹配的匹配數(shù)據(jù),包括如下步驟:在所述海量數(shù)據(jù)中查找與所述樣本數(shù)據(jù)具有相同特征信息的數(shù)據(jù),并將所述具有相同特征信息的數(shù)據(jù)作為所述匹配數(shù)據(jù)。可選的,在基于所述樣本數(shù)據(jù)在海量數(shù)據(jù)中查找時,若存在預(yù)設(shè)限制條件,則在所述海量數(shù)據(jù)中由所述預(yù)設(shè)限制條件定義的部分?jǐn)?shù)據(jù)中查找,以獲得所述匹配數(shù)據(jù)??蛇x的,對所述匹配數(shù)據(jù)進(jìn)行處理以獲得匹配規(guī)則,并更新指紋庫,包括如下步驟:對所述匹配數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,以獲得按預(yù)設(shè)格式排布的標(biāo)準(zhǔn)數(shù)據(jù);基于所述標(biāo)準(zhǔn)數(shù)據(jù)生成所述匹配規(guī)則并去重;基于去重后的匹配規(guī)則更新所述指紋庫??蛇x的,基于所述標(biāo)準(zhǔn)數(shù)據(jù)生成所述匹配規(guī)則并去重,包括如下步驟:根據(jù)所述預(yù)設(shè)格式將所述標(biāo)準(zhǔn)數(shù)據(jù)轉(zhuǎn)換為所述匹配規(guī)則;去除轉(zhuǎn)換得到的匹配規(guī)則中的重復(fù)項,獲得所述去重后的匹配規(guī)則。可選的,基于去重后的指紋更新所述指紋庫,包括如下步驟:將所述去重后的匹配規(guī)則與所述指紋庫中的匹配規(guī)則相比較,以二次去除重復(fù)項;將二次去除重復(fù)項后的匹配規(guī)則更新至所述指紋庫??蛇x的,所述數(shù)據(jù)為互聯(lián)網(wǎng)訪問記錄。本發(fā)明實施例還提供一種基于樣本數(shù)據(jù)的數(shù)據(jù)探測和擴(kuò)充裝置,包括:確定模塊,用于基于數(shù)據(jù)庫中的至少一條數(shù)據(jù)確定所述樣本數(shù)據(jù),所述數(shù)據(jù)庫存儲有從海量數(shù)據(jù)中探測獲得的多條數(shù)據(jù);查找模塊,用于基于所述樣本數(shù)據(jù)在所述海量數(shù)據(jù)中查找,以獲得所述海量數(shù)據(jù)中與所述樣本數(shù)據(jù)相匹配的匹配數(shù)據(jù);更新模塊,用于對所述匹配數(shù)據(jù)進(jìn)行處理以獲得匹配規(guī)則,并更新指紋庫,所述指紋庫存儲有歷史上獲得的匹配規(guī)則;提取模塊,用于基于更新后的指紋庫在所述海量數(shù)據(jù)中進(jìn)行匹配提取,以獲得所述海量數(shù)據(jù)中與所述更新后的指紋庫中的匹配規(guī)則相匹配的數(shù)據(jù),并將匹配獲得的數(shù)據(jù)擴(kuò)充至所述數(shù)據(jù)庫??蛇x的,所述確定模塊包括:選擇子模塊,用于從所述數(shù)據(jù)庫中選擇預(yù)設(shè)數(shù)量的數(shù)據(jù),并將所述預(yù)設(shè)數(shù)量的數(shù)據(jù)的特征信息作為所述樣本數(shù)據(jù)??蛇x的,所述特征信息包括:所述預(yù)設(shè)數(shù)量的數(shù)據(jù)的特征標(biāo)識碼;或者根據(jù)所述預(yù)設(shè)數(shù)量的數(shù)據(jù)確定的正則表達(dá)式??蛇x的,所述查找模塊包括:第一查找子模塊,用于在所述海量數(shù)據(jù)中查找與所述樣本數(shù)據(jù)具有相同特征信息的數(shù)據(jù),并將所述具有相同特征信息的數(shù)據(jù)作為所述匹配數(shù)據(jù)??蛇x的,所述查找模塊還包括第二查找子模塊,所述第二查找子模塊用于在基于所述樣本數(shù)據(jù)在海量數(shù)據(jù)中查找時,若存在預(yù)設(shè)限制條件,則在所述海量數(shù)據(jù)中由所述預(yù)設(shè)限制條件定義的部分?jǐn)?shù)據(jù)中查找,以獲得所述匹配數(shù)據(jù)。可選的,所述更新模塊包括:處理子模塊,用于對所述匹配數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,以獲得按預(yù)設(shè)格式排布的標(biāo)準(zhǔn)數(shù)據(jù);生成子模塊,用于基于所述標(biāo)準(zhǔn)數(shù)據(jù)生成所述匹配規(guī)則并去重;更新子模塊,用于基于去重后的匹配規(guī)則更新所述指紋庫。可選的,所述生成子模塊包括:轉(zhuǎn)換單元,用于根據(jù)所述預(yù)設(shè)格式將所述標(biāo)準(zhǔn)數(shù)據(jù)轉(zhuǎn)換為所述匹配規(guī)則;去重單元,用于去除轉(zhuǎn)換得到的匹配規(guī)則中的重復(fù)項,獲得所述去重后的匹配規(guī)則??蛇x的,所述更新子模塊包括:比較單元,用于將所述去重后的匹配規(guī)則與所述指紋庫中的匹配規(guī)則相比較,以二次去除重復(fù)項;更新單元,用于將二次去除重復(fù)項后的匹配規(guī)則更新至所述指紋庫??蛇x的,所述數(shù)據(jù)為互聯(lián)網(wǎng)訪問記錄。與現(xiàn)有技術(shù)相比,本發(fā)明實施例的技術(shù)方案具有以下有益效果:先根據(jù)數(shù)據(jù)庫中的至少一條數(shù)據(jù)確定樣本數(shù)據(jù),并基于所述樣本數(shù)據(jù)到海量數(shù)據(jù)中查找,以從所述海量數(shù)據(jù)中探測獲得與所述樣本數(shù)據(jù)相匹配的匹配數(shù)據(jù),然后再對所述匹配數(shù)據(jù)進(jìn)行處理以獲得匹配規(guī)則,從而更新指紋庫,最終基于更新后的指紋庫再到所述海量數(shù)據(jù)中進(jìn)行匹配提取,從而獲得所述海量數(shù)據(jù)中與所述更新后的指紋庫中的匹配規(guī)則相匹配的數(shù)據(jù),并將匹配獲得的數(shù)據(jù)擴(kuò)充至所述數(shù)據(jù)庫,實現(xiàn)基于樣本數(shù)據(jù)的數(shù)據(jù)探測和擴(kuò)充。較之現(xiàn)有的主要基于人工或者API查詢的數(shù)據(jù)發(fā)現(xiàn)和擴(kuò)充方案相比,本發(fā)明實施例的技術(shù)方案基于樣本數(shù)據(jù)生成匹配規(guī)則,再根據(jù)匹配規(guī)則到原始數(shù)據(jù)源(即海量數(shù)據(jù))中做匹配提取,以擴(kuò)充數(shù)據(jù)庫,然后再從擴(kuò)充后的數(shù)據(jù)庫中確定樣本數(shù)據(jù)并重復(fù)前述步驟,最終形成閉環(huán)循環(huán)流程。通過本發(fā)明提供的技術(shù)方案,能夠更加準(zhǔn)確、高效的對海量數(shù)據(jù)進(jìn)行全局、系統(tǒng)的分析和處理。進(jìn)一步,從所述數(shù)據(jù)庫中選擇預(yù)設(shè)數(shù)量的數(shù)據(jù),并將所述預(yù)設(shè)數(shù)量的數(shù)據(jù)的特征信息作為所述樣本數(shù)據(jù),以所述樣本數(shù)據(jù)為模板在海量數(shù)據(jù)中探測,以獲得與所述樣本數(shù)據(jù)相匹配的數(shù)據(jù)來擴(kuò)充數(shù)據(jù)庫,確保所述數(shù)據(jù)庫中存儲的數(shù)據(jù)均為具有相同特征信息的數(shù)據(jù),滿足用戶從海量數(shù)據(jù)中發(fā)現(xiàn)和收集特定類型數(shù)據(jù)的使用需求。附圖說明圖1是本發(fā)明的第一實施例的一種基于樣本數(shù)據(jù)的數(shù)據(jù)探測和擴(kuò)充方法的流程圖;圖2是本發(fā)明的第二實施例的一種基于樣本數(shù)據(jù)的數(shù)據(jù)探測和擴(kuò)充方法的流程圖;圖3是本發(fā)明的第三實施例的一種基于樣本數(shù)據(jù)的數(shù)據(jù)探測和擴(kuò)充方法的流程圖;圖4是采用本發(fā)明實施例的基于樣本數(shù)據(jù)的數(shù)據(jù)探測和擴(kuò)充方法構(gòu)建的字符匹配樹示意圖;圖5是本發(fā)明的第四實施例的一種基于樣本數(shù)據(jù)的數(shù)據(jù)探測和擴(kuò)充裝置的結(jié)構(gòu)示意圖。具體實施方式如
背景技術(shù)
所言,現(xiàn)有的從海量數(shù)據(jù)中發(fā)現(xiàn)和擴(kuò)充用戶所需數(shù)據(jù)的方法仍局限于人工檢索或者API查詢兩種方式。但是,前者需要耗費大量的人力去手動對數(shù)據(jù)進(jìn)行分析統(tǒng)計;后者則無法適應(yīng)數(shù)據(jù)的全局性分析和處理。為了解決這一技術(shù)問題,本發(fā)明所述技術(shù)方案先根據(jù)數(shù)據(jù)庫中的至少一條數(shù)據(jù)確定樣本數(shù)據(jù),并基于所述樣本數(shù)據(jù)到海量數(shù)據(jù)中查找,以從所述海量數(shù)據(jù)中探測獲得與所述樣本數(shù)據(jù)相匹配的匹配數(shù)據(jù),然后再對所述匹配數(shù)據(jù)進(jìn)行處理以獲得匹配規(guī)則,從而更新指紋庫,最終基于更新后的指紋庫再到所述海量數(shù)據(jù)中進(jìn)行匹配提取,從而獲得所述海量數(shù)據(jù)中與所述更新后的指紋庫中的匹配規(guī)則相匹配的數(shù)據(jù),并將匹配獲得的數(shù)據(jù)擴(kuò)充至所述數(shù)據(jù)庫,實現(xiàn)基于樣本數(shù)據(jù)的數(shù)據(jù)探測和擴(kuò)充。本領(lǐng)域技術(shù)人員理解,隨著互聯(lián)網(wǎng)用戶的膨脹式增長,互聯(lián)網(wǎng)網(wǎng)站的大量增加以及互聯(lián)網(wǎng)帶寬的飛速提升,越來越多的用戶在越來越多的網(wǎng)站上產(chǎn)生了越來越多的互聯(lián)網(wǎng)用戶行為(即互聯(lián)網(wǎng)訪問記錄)。而這些行為被各類數(shù)據(jù)采集者以日志的形式記錄下來并作為數(shù)據(jù)(即海量數(shù)據(jù))進(jìn)行存儲。本發(fā)明實施例的技術(shù)方案基于樣本數(shù)據(jù)生成匹配規(guī)則,再根據(jù)匹配規(guī)則到原始數(shù)據(jù)源(即海量數(shù)據(jù))中做匹配提取,以擴(kuò)充數(shù)據(jù)庫,然后再從擴(kuò)充后的數(shù)據(jù)庫中確定樣本數(shù)據(jù)并重復(fù)前述步驟,最終形成閉環(huán)循環(huán)流程。通過本發(fā)明提供的技術(shù)方案,能夠更加準(zhǔn)確、高效的對海量數(shù)據(jù)進(jìn)行全局、系統(tǒng)的分析和處理。為使本發(fā)明的上述目的、特征和有益效果能夠更為明顯易懂,下面結(jié)合附圖對本發(fā)明的具體實施例做詳細(xì)的說明。圖1是本發(fā)明的第一實施例的一種基于樣本數(shù)據(jù)的數(shù)據(jù)探測和擴(kuò)充方法的流程圖。其中,所述數(shù)據(jù)可以為互聯(lián)網(wǎng)訪問記錄。具體地,在本實施例中,首先執(zhí)行步驟S101,基于數(shù)據(jù)庫中的至少一條數(shù)據(jù)確定所述樣本數(shù)據(jù),所述數(shù)據(jù)庫存儲有從海量數(shù)據(jù)中探測獲得的多條數(shù)據(jù)。更為具體地,所述海量數(shù)據(jù)可以是歷史從互聯(lián)網(wǎng)上獲得的數(shù)據(jù),例如,歷史上所有用戶的互聯(lián)網(wǎng)訪問記錄,或者在選定期間內(nèi)選定用戶的互聯(lián)網(wǎng)訪問記錄。在一個優(yōu)選例中,所述樣本數(shù)據(jù)的數(shù)量可以根據(jù)執(zhí)行本發(fā)明實施例的硬件或軟件的數(shù)據(jù)處理能力進(jìn)行個性化設(shè)定,例如,一般所述樣本數(shù)據(jù)的數(shù)量可以介于1萬至10萬之間。優(yōu)選地,所述數(shù)據(jù)可以以統(tǒng)一資源定位符(UniformResourceLocator,簡稱URL)形式表示,或者,所述數(shù)據(jù)還可以以上一條的URL(ReferURL)、用戶代理(useragent)或者cookie等形式表示,本領(lǐng)域技術(shù)人員還可根據(jù)實際需要變化出更多實施例,在此不予贅述。然后進(jìn)入步驟S102執(zhí)行,基于所述樣本數(shù)據(jù)在所述海量數(shù)據(jù)中查找,以獲得所述海量數(shù)據(jù)中與所述樣本數(shù)據(jù)相匹配的匹配數(shù)據(jù)。具體地,所述匹配可以指所述匹配數(shù)據(jù)與所述樣本數(shù)據(jù)具有相同的規(guī)律。優(yōu)選地,本步驟可以是同時或先后在至少一個設(shè)備集群上進(jìn)行的,其中,所述設(shè)備集群可以由一個或多個計算機(jī)耦接而成。在一個優(yōu)選例中,可以將所述海量數(shù)據(jù)分散到多個集群組成的計算機(jī)上進(jìn)行處理,然后匯總各集群中的計算機(jī)所匹配到的匹配數(shù)據(jù),例如,可以通過基于分布式系統(tǒng)基礎(chǔ)架構(gòu)(HadoopDistributedFileSystem)的映射規(guī)約(Mapreduce)任務(wù)來實現(xiàn)對所述海量數(shù)據(jù)的分散處理及匯總。接下來執(zhí)行步驟S103,對所述匹配數(shù)據(jù)進(jìn)行處理以獲得匹配規(guī)則,并更新指紋庫,所述指紋庫存儲有歷史上獲得的匹配規(guī)則。具體地,所述匹配規(guī)則用于描述所述樣本數(shù)據(jù)與所述匹配數(shù)據(jù)所共同具有的規(guī)律。更為具體地,所述指紋庫用于存儲歷史執(zhí)行本發(fā)明實施例的技術(shù)方案后,從所述匹配數(shù)據(jù)中提取到的所述匹配規(guī)則。本領(lǐng)域技術(shù)人員理解,通過不斷的豐富所述指紋庫,能夠更好的推動后續(xù)的迭代操作,使得本發(fā)明實施例的技術(shù)方案能夠基于更新的指紋庫在海量數(shù)據(jù)中匹配獲得更多的數(shù)據(jù)。最后執(zhí)行步驟S104,基于更新后的指紋庫在所述海量數(shù)據(jù)中進(jìn)行匹配提取,以獲得所述海量數(shù)據(jù)中與所述更新后的指紋庫中的匹配規(guī)則相匹配的數(shù)據(jù),并將匹配獲得的數(shù)據(jù)擴(kuò)充至所述數(shù)據(jù)庫。在一個優(yōu)選例中,基于所述更新后的指紋庫對所述海量數(shù)據(jù)逐條進(jìn)行處理,并對逐條匹配結(jié)果進(jìn)行整理記錄,以將匹配獲得的數(shù)據(jù)更新至所述數(shù)據(jù)庫,從而實現(xiàn)對所述數(shù)據(jù)庫的體量的有效擴(kuò)充。在本實施例的一個變化例中,在執(zhí)行完所述步驟S104后,還可以基于擴(kuò)充后的數(shù)據(jù)庫再次開始執(zhí)行所述步驟S101,以基于所述擴(kuò)充后的數(shù)據(jù)庫生成更多的樣本數(shù)據(jù),進(jìn)而在所述海量數(shù)據(jù)中探測獲得更多的匹配數(shù)據(jù),最終更進(jìn)一步地擴(kuò)充所述數(shù)據(jù)庫。由上,采用第一實施例的方案,基于樣本數(shù)據(jù)生成匹配規(guī)則,再根據(jù)匹配規(guī)則到原始數(shù)據(jù)源(即海量數(shù)據(jù))中做匹配提取,以擴(kuò)充數(shù)據(jù)庫,然后再從擴(kuò)充后的數(shù)據(jù)庫中確定樣本數(shù)據(jù)并重復(fù)前述步驟。通過本發(fā)明實施例的技術(shù)方案,能夠形成一個閉環(huán)形式的迭代處理機(jī)制,有利于用戶更加準(zhǔn)確、高效的對海量數(shù)據(jù)進(jìn)行全局、系統(tǒng)的分析和處理。圖2是本發(fā)明的第二實施例的一種基于樣本數(shù)據(jù)的數(shù)據(jù)探測和擴(kuò)充方法的流程圖。具體地,在本實施例中,首先執(zhí)行步驟S201,從所述數(shù)據(jù)庫中選擇預(yù)設(shè)數(shù)量的數(shù)據(jù),并將所述預(yù)設(shè)數(shù)量的數(shù)據(jù)的特征信息作為所述樣本數(shù)據(jù)。更為具體地,所述預(yù)設(shè)數(shù)量由用戶根據(jù)執(zhí)行本發(fā)明實施例的硬件或軟件的數(shù)據(jù)處理能力確定。優(yōu)選地,所述特征信息可以是所述預(yù)設(shè)數(shù)量的數(shù)據(jù)的特征標(biāo)識碼。例如,當(dāng)所述數(shù)據(jù)為商品的URL信息時,所述特征標(biāo)識碼可以是所述商品的身份識別碼(identification,簡稱ID),所述身份識別碼可以從所述商品對應(yīng)的URL信息中提取。然后進(jìn)入步驟S202執(zhí)行,在所述海量數(shù)據(jù)中查找與所述樣本數(shù)據(jù)具有相同特征信息的數(shù)據(jù),并將所述具有相同特征信息的數(shù)據(jù)作為所述匹配數(shù)據(jù)。優(yōu)選地,對于同樣以URL表示的所述海量數(shù)據(jù),可以將每一所述海量數(shù)據(jù)的URL按結(jié)構(gòu)拆分為三個匹配位置(主機(jī)host,路徑path以及查詢query),并以擇一或擇二或全部匹配的方式,將選中的匹配位置與所述樣本數(shù)據(jù)相比較,以從所述海量數(shù)據(jù)中查找與所述樣本數(shù)據(jù)具有相同特征信息的數(shù)據(jù)。優(yōu)選地,對于以特征標(biāo)識碼為特征信息的樣本數(shù)據(jù),可以按不同的匹配規(guī)則到所述海量數(shù)據(jù)中查找與所述樣本數(shù)據(jù)具有相同特征信息的數(shù)據(jù)。在一個優(yōu)選例中,可以對所述海量數(shù)據(jù)的URL中的主機(jī)位置進(jìn)行匹配,并且可以采用左側(cè)包含匹配的方式查找所述海量數(shù)據(jù)中哪些數(shù)據(jù)的URL的主機(jī)位置與所述樣本數(shù)據(jù)具有相同的特征標(biāo)識碼。優(yōu)選地,所述左側(cè)包含匹配可以是指,待匹配位置(即前述優(yōu)選例中的主機(jī)位置)的字符串左側(cè)完整匹配所述樣本數(shù)據(jù)的特征標(biāo)識碼。例如,海量數(shù)據(jù)中某一數(shù)據(jù)的URL的主機(jī)位置包括字符串item_44123_abcde,則可以認(rèn)為該字符串完整匹配以特征標(biāo)識碼item_44123表示的樣本數(shù)據(jù),從而確定該海量數(shù)據(jù)與所述樣本數(shù)據(jù)具有相同特征信息。接下來執(zhí)行步驟S203,對所述匹配數(shù)據(jù)進(jìn)行處理以獲得匹配規(guī)則,并更新指紋庫,所述指紋庫存儲有歷史上獲得的匹配規(guī)則。具體地,本領(lǐng)域技術(shù)人員可以參考上述圖1所示實施例中所述步驟S103,在此不予贅述。優(yōu)選地,所述匹配規(guī)則用于過濾和提取多個所述匹配數(shù)據(jù)所具有的共性特征。最后執(zhí)行步驟S204,基于更新后的指紋庫在所述海量數(shù)據(jù)中進(jìn)行匹配提取,以獲得所述海量數(shù)據(jù)中與所述更新后的指紋庫中的匹配規(guī)則相匹配的數(shù)據(jù),并將匹配獲得的數(shù)據(jù)擴(kuò)充至所述數(shù)據(jù)庫。具體地,本領(lǐng)域技術(shù)人員可以參考上述圖1所示實施例中所述步驟S104,在此不予贅述。在一個優(yōu)選例中,按所述匹配位置對所述海量數(shù)據(jù)包括的所有數(shù)據(jù)逐條進(jìn)行匹配,例如,可以按先主機(jī)、再路徑、最后查詢的匹配順序進(jìn)行匹配。具體地,首先判斷所述數(shù)據(jù)的URL的主機(jī)部分能夠與所述指紋庫包括的匹配規(guī)則的主機(jī)部分匹配,若兩者主機(jī)部分不匹配,則跳過該數(shù)據(jù)轉(zhuǎn)而匹配所述海量數(shù)據(jù)包括的其他數(shù)據(jù),若兩者主機(jī)部分匹配,則繼續(xù)將該數(shù)據(jù)的路徑部分與該匹配規(guī)則的路徑部分匹配,當(dāng)兩者的路徑部分也匹配時,則將所述數(shù)據(jù)的查詢部分與該匹配規(guī)則的查詢部分匹配,以最終確定所述數(shù)據(jù)是否與所述更新后的指紋庫中的匹配規(guī)則相匹配。進(jìn)一步地,若確定所述數(shù)據(jù)滿足所述匹配規(guī)則的匹配條件,則從所述數(shù)據(jù)中提取與所述匹配規(guī)則相匹配的部分并更新至所述數(shù)據(jù)庫。進(jìn)一步地,基于所述更新后的指紋庫對所述海量數(shù)據(jù)進(jìn)行逐條匹配,以確定所述海量數(shù)據(jù)中與所述更新后的指紋庫中的匹配規(guī)則相匹配的數(shù)據(jù),并將匹配部分的數(shù)據(jù)內(nèi)容提取整理至所述數(shù)據(jù)庫,從而極大地擴(kuò)充所述數(shù)據(jù)庫的體量。進(jìn)一步地,對于在實施本發(fā)明實施例的過程中,對于探測和擴(kuò)充時可能獲得的臟數(shù)據(jù),還可以結(jié)合人工和/或計算機(jī)自動識別的方式加以篩查,以確保最終更新至所述數(shù)據(jù)庫中的數(shù)據(jù)有效性以及準(zhǔn)確性。在所述步驟S201的一個變化例中,所述特征信息還可以是根據(jù)所述預(yù)設(shè)數(shù)量的數(shù)據(jù)確定的正則表達(dá)式。本領(lǐng)域技術(shù)人員理解,所述正則表達(dá)式可以用于匹配從所述數(shù)據(jù)庫中隨機(jī)選擇出來的所有數(shù)據(jù)的特征信息,或者,所述正則表達(dá)式還可以用于匹配用戶希望從所述海量數(shù)據(jù)中探測和擴(kuò)充獲得的所有數(shù)據(jù)的特征信息。例如,若希望以設(shè)備特征標(biāo)識碼為樣本數(shù)據(jù)去海量數(shù)據(jù)中進(jìn)行探測和擴(kuò)充,從所述數(shù)據(jù)庫中隨機(jī)選擇獲得的樣本數(shù)據(jù)包括電信設(shè)備的設(shè)備特征標(biāo)識碼以及移動設(shè)備的設(shè)備特征標(biāo)識碼,由于電信設(shè)備的設(shè)備特征標(biāo)識碼基于國際移動設(shè)備身份碼(InternationalMobileEquipmentIdentity,簡稱IMEI)表示,而移動設(shè)備的設(shè)備特征標(biāo)識碼基于移動設(shè)備識別碼(MobileEquipmentIdentifier,簡稱MEID)表示,而這兩種設(shè)備特征標(biāo)識碼的共同點在于,兩者均為以1開頭的11為數(shù)字,因而可以參照該共同點確定所述正則表達(dá)式。又例如從所述數(shù)據(jù)庫中隨機(jī)選擇出的所有數(shù)據(jù)均為媒體訪問控制(MediaAccessControl,簡稱MAC)地址,則所述正則表達(dá)式可以表示成“/^([a-zA-Z0-9]{8}\-[a-zA-Z0-9]{4}\-[a-zA-Z0-9]{4}\-[a-zA-Z0-9]{4}\-[a-zA-Z0-9]{12})$/”。再例如,用戶希望從所述海量數(shù)據(jù)中探測和擴(kuò)充獲得特定地理區(qū)域內(nèi)的數(shù)據(jù),則也可以采用所述正則表達(dá)式,通過對經(jīng)緯度的限定來表示所述特定地理區(qū)域。進(jìn)一步地,可以按不同的匹配規(guī)則到所述海量數(shù)據(jù)中查找與所述樣本數(shù)據(jù)具有相同特征信息的數(shù)據(jù)包括,直接將所述數(shù)據(jù)的待匹配部分(即選中的匹配位置)與所述樣本數(shù)據(jù)的正則表達(dá)式進(jìn)行正則匹配,若所述帶匹配部分滿足所述正則表達(dá)式的匹配條件,則可以確定所述數(shù)據(jù)與所述樣本數(shù)據(jù)具有相同的特征信息。例如,所述樣本數(shù)據(jù)的正則表達(dá)式可以為shop-(\d+)-,則對于一條數(shù)據(jù),若所述數(shù)據(jù)的待匹配部分的URL為shop-33415-23-test,由于所述待匹配部分的URL符合所述正則表達(dá)式的邏輯,所以可以確定所述數(shù)據(jù)與所述樣本數(shù)據(jù)具有相同的特征信息。在所述步驟S202的一個變化例中,所述匹配規(guī)則還包括右側(cè)包含匹配,若所述海量數(shù)據(jù)中某一數(shù)據(jù)的待匹配位置的字符串與所述樣本數(shù)據(jù)的特征標(biāo)識碼完整匹配,則確定所述數(shù)據(jù)與所述樣本數(shù)據(jù)具有相同的特征信息。例如,所述海量數(shù)據(jù)中某一數(shù)據(jù)的URL的路徑位置包括字符串car_shanghai_ser33456,所述樣本數(shù)據(jù)的特征標(biāo)識碼為ser3356,則可以確定所述海量數(shù)據(jù)與所述樣本數(shù)據(jù)具有相同的特征信息。在所述步驟S202的另一個變化例中,所述匹配規(guī)則還包括完全相等匹配,若所述海量數(shù)據(jù)中某一數(shù)據(jù)的待匹配位置的字符串與所述樣本數(shù)據(jù)的特征標(biāo)識碼完全相等,則確定所述數(shù)據(jù)與所述樣本數(shù)據(jù)具有相同的特征信息。例如,可以認(rèn)為字符串shop=33415&category=23&item=test與特征標(biāo)識碼33415完全相等。在所述步驟S202的又一個變化例中,所述匹配規(guī)則還包括包含匹配,若所述海量數(shù)據(jù)中某一數(shù)據(jù)的待匹配位置的字符串包含所述樣本數(shù)據(jù)的特征標(biāo)識碼,則確定所述數(shù)據(jù)與所述樣本數(shù)據(jù)具有相同的特征信息。例如,可以認(rèn)為字符串shop-33415-23-test包含特征標(biāo)識碼33415。在所述步驟S204的一個變化例中,當(dāng)所述特征信息為根據(jù)所述預(yù)設(shè)數(shù)量的數(shù)據(jù)確定的正則表達(dá)式時,并且所述海量數(shù)據(jù)中當(dāng)前被掃描的數(shù)據(jù)與所述樣本信息具有相同的特征信息時,可以直接對所述當(dāng)前被掃描的數(shù)據(jù)進(jìn)行正則表達(dá)式的提取,并將所述正則表達(dá)式更新至所述指紋庫。在本實施例的一個變化例中,所述步驟S202在基于所述樣本數(shù)據(jù)在海量數(shù)據(jù)中查找時,若存在預(yù)設(shè)限制條件,則在所述海量數(shù)據(jù)中由所述預(yù)設(shè)限制條件定義的部分?jǐn)?shù)據(jù)中查找,以獲得所述匹配數(shù)據(jù)。優(yōu)選地,對于以URL表示的數(shù)據(jù)和樣本數(shù)據(jù),所述預(yù)設(shè)限制條件可以為URL中的頂層域名tld。例如,用戶可以選擇對所述步驟S201中選擇確定的部分或全部樣本數(shù)據(jù)定義所述頂層域名tld,則本發(fā)明實施例的技術(shù)方案在執(zhí)行所述步驟S202至所述步驟S204時,對于被所述頂層域名tld定義過的樣本數(shù)據(jù),優(yōu)選地僅探測和擴(kuò)充該頂層域名tld所在網(wǎng)站上的數(shù)據(jù)至所述數(shù)據(jù)庫。進(jìn)一步地,所述預(yù)設(shè)限制條件可以根據(jù)用戶需求,或者執(zhí)行本發(fā)明實施例的技術(shù)方案的設(shè)備的數(shù)據(jù)處理能力來設(shè)定。進(jìn)一步地,所述樣本數(shù)據(jù)的頂層域名tld可以相同也可以不相同,例如,可以將從所述數(shù)據(jù)庫中選擇確定的所有樣本數(shù)據(jù)中,一半樣本數(shù)據(jù)的頂層域名tld與另外一半數(shù)據(jù)的頂層域名tld設(shè)定為不同的網(wǎng)站,以基于本發(fā)明實施例的技術(shù)方案同時在兩個網(wǎng)站中進(jìn)行數(shù)據(jù)的探測和檢索。在一個典型的應(yīng)用場景中,當(dāng)計算機(jī)執(zhí)行本發(fā)明實施例的技術(shù)方案時,首先將所述樣本數(shù)據(jù)加載到所述計算機(jī)的本地內(nèi)存中,當(dāng)所述樣本數(shù)據(jù)中的部分或全部數(shù)據(jù)存在預(yù)設(shè)的所述頂層域名tld時,可以在所述內(nèi)存中構(gòu)建一個映射表,所述映射表用于將所述樣本數(shù)據(jù)中具有相同頂層域名tld的一個或多個樣本數(shù)據(jù)的特征信息或正則表達(dá)式歸類存儲。優(yōu)選地,對于所述特征信息為所述特征標(biāo)識碼的應(yīng)用場景,可以為具有相同頂層域名tld的一個或多個樣本數(shù)據(jù)構(gòu)建字符匹配樹,以便提高后續(xù)探測和擴(kuò)充數(shù)據(jù)時的匹配效率。優(yōu)選地,對于所述特征信息為所述正則表達(dá)式的應(yīng)用場景,還可以將具有相同頂層域名tld的一個或多個樣本數(shù)據(jù)各自的正則表達(dá)式存儲為一個列表,以便執(zhí)行后續(xù)的探測和擴(kuò)充步驟。作為一個變化例,還可以針對具有相同頂層域名tld的多個樣本數(shù)據(jù)確定所述正則表達(dá)式。進(jìn)一步地,當(dāng)所述樣本數(shù)據(jù)與所述海量數(shù)據(jù)均基于URL表示時,所述步驟S202優(yōu)選地先對所述樣本數(shù)據(jù)的URL進(jìn)行處理,以獲得與所述樣本數(shù)據(jù)對應(yīng)的頂層域名tld,然后在逐條掃描所述海量數(shù)據(jù)時,判斷當(dāng)前被掃描的數(shù)據(jù)的URL是否包含所述頂層域名tld,若判斷結(jié)果表明所述當(dāng)前被掃描的數(shù)據(jù)的URL不包含所述頂層域名tld,則直接跳過該數(shù)據(jù);否則,若判斷結(jié)果表明所述當(dāng)前被掃描的數(shù)據(jù)的URL包含所述頂層域名tld,則再繼續(xù)執(zhí)行所步驟S202,基于選中的匹配位置將所述數(shù)據(jù)的URL與所述樣本數(shù)據(jù)的特征信息相比較,以從所述海量數(shù)據(jù)中查找與所述樣本數(shù)據(jù)具有相同特征信息的數(shù)據(jù)。由上,采用第二實施例的方案,可以根據(jù)樣本數(shù)據(jù)探測海量數(shù)據(jù)中與樣本數(shù)據(jù)具有相同特征信息的數(shù)據(jù),從而使得最終擴(kuò)充到所述數(shù)據(jù)庫中的數(shù)據(jù)都具有相同的特征信息,滿足用戶在海量數(shù)據(jù)中發(fā)現(xiàn)和擴(kuò)充特定類型數(shù)據(jù)的實際使用需求。本領(lǐng)域技術(shù)人員理解,本實施例所述步驟S201以及所述步驟S202以及相應(yīng)的變化例可以理解為上述圖1所示實施例中所述步驟S101以及所述步驟S102的一個具體實施方式,通過所述預(yù)設(shè)限制條件來減少在所述海量數(shù)據(jù)中匹配時的匹配工作量,同時允許用戶能夠針對特定網(wǎng)站進(jìn)行數(shù)據(jù)探測和擴(kuò)充。進(jìn)一步地,用戶能夠根據(jù)實際需求選擇是否需要設(shè)定所述預(yù)設(shè)限制條件,其中,當(dāng)所述用戶不設(shè)定所述預(yù)設(shè)限制條件時,本發(fā)明實施例將所述互聯(lián)網(wǎng)上所有的訪問記錄作為所述海量數(shù)據(jù)進(jìn)行數(shù)據(jù)探測和擴(kuò)充(即全網(wǎng)搜索);當(dāng)所述用戶設(shè)定了所述預(yù)設(shè)限制條件時,本發(fā)明實施例將所述預(yù)設(shè)限制條件所限定的一個或多個網(wǎng)站上的訪問記錄作為所述海量數(shù)據(jù),以獲得用戶所需的數(shù)據(jù)(即特定網(wǎng)站搜索)。作為一個變化例,當(dāng)用戶選擇進(jìn)行全網(wǎng)搜索時,本發(fā)明實施例可以先在多個網(wǎng)站上執(zhí)行一次本發(fā)明實施例的技術(shù)方案,以從各網(wǎng)站獲得所述匹配規(guī)則,在將所述多個網(wǎng)站各自的匹配規(guī)則整合為通用匹配符后,再將所述通用匹配符作為所述樣本數(shù)據(jù)的特征信息進(jìn)行全網(wǎng)搜索。圖3是本發(fā)明的第三實施例的一種基于樣本數(shù)據(jù)的數(shù)據(jù)探測和擴(kuò)充方法的流程圖。具體地,在本實施例中,首先執(zhí)行步驟S301,從所述數(shù)據(jù)庫中選擇預(yù)設(shè)數(shù)量的數(shù)據(jù),并將所述預(yù)設(shè)數(shù)量的數(shù)據(jù)的特征信息作為所述樣本數(shù)據(jù)。更為具體地,本領(lǐng)域技術(shù)人員可以參考上述圖2所示實施例中所述步驟S201,在此不予贅述。然后進(jìn)入步驟S302執(zhí)行,在所述海量數(shù)據(jù)中查找與所述樣本數(shù)據(jù)具有相同特征信息的數(shù)據(jù),并將所述具有相同特征信息的數(shù)據(jù)作為所述匹配數(shù)據(jù)。具體地,本領(lǐng)域技術(shù)人員可以參考上述圖2所示實施例中所述步驟S202,在此不予贅述。接下來執(zhí)行步驟S303,對所述匹配數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,以獲得按預(yù)設(shè)格式排布的標(biāo)準(zhǔn)數(shù)據(jù)。具體地,所述結(jié)構(gòu)化處理的結(jié)果可以以表格形式表示,其中,所述表格按類別記錄有所述匹配數(shù)據(jù)的全部或部分內(nèi)容。更為具體地,所述標(biāo)準(zhǔn)數(shù)據(jù)可以是將所述表格中的內(nèi)容按所述預(yù)設(shè)格式排布后得到的結(jié)果。在一個優(yōu)選例中,所述匹配數(shù)據(jù)也以URL形式表示,所述表格中記錄的類別包括頂層域名tld,端口(port)、匹配參數(shù)(querykey)、匹配位置、匹配內(nèi)容以及匹配方式,本步驟可以通過將所述匹配數(shù)據(jù)的URL按所述表格中記錄的類別進(jìn)行拆分,然后按照所述預(yù)設(shè)格式對拆分的結(jié)果重新進(jìn)行排序整合,所述重新排序整合的結(jié)果就是所述標(biāo)準(zhǔn)數(shù)據(jù)。然后進(jìn)入步驟S304執(zhí)行,基于所述標(biāo)準(zhǔn)數(shù)據(jù)生成所述匹配規(guī)則并去重。在一個優(yōu)選例中,首先可以根據(jù)所述預(yù)設(shè)格式將所述標(biāo)準(zhǔn)數(shù)據(jù)轉(zhuǎn)換為所述匹配規(guī)則,然后去除轉(zhuǎn)換得到的匹配規(guī)則中的重復(fù)項,獲得所述去重后的匹配規(guī)則。本領(lǐng)域技術(shù)人員理解,經(jīng)過所述步驟S303的處理,所述標(biāo)準(zhǔn)數(shù)據(jù)可能包括的僅是進(jìn)行后續(xù)匹配工作所需的關(guān)鍵信息,無法直接應(yīng)用到后續(xù)步驟,所以需要經(jīng)過本步驟的處理,將所述標(biāo)準(zhǔn)數(shù)據(jù)按所述預(yù)設(shè)格式轉(zhuǎn)換為所述匹配規(guī)則,以便后續(xù)步驟的使用;另一方面,由于相同網(wǎng)站的網(wǎng)址URL的設(shè)計一般都具有相似性,所以本步驟在轉(zhuǎn)換獲得所有的匹配規(guī)則后,可以對所述所有的匹配規(guī)則進(jìn)行一次去重處理,以剔除本步驟轉(zhuǎn)換獲得的匹配規(guī)則中的重復(fù)項。接下來執(zhí)行步驟S305,基于去重后的匹配規(guī)則更新所述指紋庫。具體地,所述更新包括將所述去重后的匹配規(guī)則存儲至所述指紋庫。更為具體地,所述更新還包括,剔除所述去重后的匹配規(guī)則中與所述指紋庫中已有的匹配規(guī)則重復(fù)的匹配規(guī)則。在一個優(yōu)選例中,將所述去重后的匹配規(guī)則與所述指紋庫中的匹配規(guī)則相比較,以二次去除重復(fù)項,然后將二次去除重復(fù)項后的匹配規(guī)則更新至所述指紋庫。最后執(zhí)行步驟S306,基于更新后的指紋庫在所述海量數(shù)據(jù)中進(jìn)行匹配提取,以獲得所述海量數(shù)據(jù)中與所述更新后的指紋庫中的匹配規(guī)則相匹配的數(shù)據(jù),并將匹配獲得的數(shù)據(jù)擴(kuò)充至所述數(shù)據(jù)庫。具體地,本領(lǐng)域技術(shù)人員可以參考上述圖1所示實施例中所述步驟S104,在此不予贅述。進(jìn)一步地,所述匹配規(guī)則可以理解為一種過濾和提取數(shù)據(jù)的組合。在一個優(yōu)選地應(yīng)用場景中,所述匹配規(guī)則中的所述頂層域名tld和所述匹配參數(shù)可以用于過濾數(shù)據(jù)。例如,在執(zhí)行所述步驟S305時,可以首先基于所述頂層域名tld和所述匹配參數(shù)初步判斷所述海量數(shù)據(jù)中當(dāng)前被掃描的數(shù)據(jù)是否值得進(jìn)一步的匹配工作,若所述當(dāng)前被掃描的數(shù)據(jù)的頂層域名tld與所述匹配規(guī)則中記錄的所述頂層域名tld不相符,則可以直接剔除所述當(dāng)前被掃描的數(shù)據(jù),從而節(jié)省本發(fā)明實施例的匹配量,提高匹配效率。在另一個優(yōu)選地應(yīng)用場景中,所述匹配規(guī)則中的所述匹配方式、匹配位置以及匹配內(nèi)容或者正則表達(dá)式可以用于提取數(shù)據(jù),以最終確定所述當(dāng)前被掃描的數(shù)據(jù)是否與所述樣本數(shù)據(jù)具有相同的特征信息。進(jìn)一步地,所述指紋庫以及所述數(shù)據(jù)庫可以存儲于執(zhí)行本發(fā)明實施例的計算機(jī)內(nèi),也可以存儲于與所述計算機(jī)耦接的其他存儲設(shè)備中,或者,還可以存儲于云端。由上,采用第三實施例的方案,本實施例所述步驟S303、所述步驟S304以及所述步驟S305,可以理解為上述圖1所示實施例中所述步驟S103,或者上述圖2所示實施例中所述步驟S203的一個具體實施方式,通過結(jié)構(gòu)化處理,能夠使得通過不同方式匹配獲得的多個匹配數(shù)據(jù)具有高度統(tǒng)一的格式,有利于后續(xù)處理,另一方面,經(jīng)過所述步驟S304中的去重以及所述步驟S305中的二次去重,確保所述指紋庫中的匹配規(guī)則不會出現(xiàn)重復(fù)項,以免無意義的浪費存儲資源。在一個典型的應(yīng)用場景中,所述數(shù)據(jù)為某一網(wǎng)站上出售的商品,并且所述數(shù)據(jù)以URL形式表示,所述數(shù)據(jù)庫中存儲有所述網(wǎng)站上出售的部分商品,用戶希望獲得該網(wǎng)站出售的其他商品的信息,則用戶可以采用本發(fā)明實施例的技術(shù)方案,從所述數(shù)據(jù)庫中已有的多個商品中隨機(jī)選取預(yù)設(shè)數(shù)量的商品,并將選出的商品在所述網(wǎng)站上的編號作為所述選出的商品的特征標(biāo)識碼,例如,所述網(wǎng)站的域名為host.com(即以所述頂層域名tld設(shè)定的所述預(yù)設(shè)限制條件),用戶在所述數(shù)據(jù)庫中選擇了2個商品作為所述樣本數(shù)據(jù),其中,商品A在所述網(wǎng)站上的編號為item1234,商品B在所述網(wǎng)站上的編號則為item1368,則所述樣本數(shù)據(jù)即為item1234和item1368。當(dāng)執(zhí)行本發(fā)明實施例的技術(shù)方案基于所述樣本數(shù)據(jù)在所述海量數(shù)據(jù)中查找時,首先,可以在執(zhí)行本發(fā)明實施例的計算機(jī)本地內(nèi)存中加載所述樣本數(shù)據(jù),并構(gòu)建字典。其中,所述字典鍵(key)為所述樣本數(shù)據(jù)的頂層域名tld(在本應(yīng)用場景中即為host.com),所述字典的值(value)為該頂層域名tld下的字符匹配樹。優(yōu)選地,通過將所有樣本數(shù)據(jù)的字符串拆分成單個字符后構(gòu)建所述字符匹配樹。優(yōu)選地,在本應(yīng)用場景中,基于所述樣本數(shù)據(jù)item1234和item1368可以構(gòu)建獲得圖4所示的字符匹配樹。然后,基于所述字符匹配樹逐條掃描所述海量數(shù)據(jù)進(jìn)行查找。具體地,先判斷所述海量數(shù)據(jù)中當(dāng)前被掃描數(shù)據(jù)的URL中的頂層域名tld是否與host.com相等,如果不等則跳過所述當(dāng)前被掃描數(shù)據(jù);如果相等則針對所述當(dāng)前被掃描數(shù)據(jù)進(jìn)行后續(xù)的匹配工作。在本應(yīng)用場景中,對于頂層域名tld與host.com相等的所述當(dāng)前被掃描數(shù)據(jù),需要對所述當(dāng)前被掃描數(shù)據(jù)的URL的查詢query部分進(jìn)行相等匹配(即所述匹配位置為查詢query,所述匹配規(guī)則為相等匹配)。以http://a.host.com/path/test.html?qk1=i234&qk2=item_1246&item_id=item_1234這一URL代表的所述當(dāng)前被掃描數(shù)據(jù)為例,可以先拆分所述URL,得到所述當(dāng)前被掃描數(shù)據(jù)的URL中的查詢query部分,再將所述查詢query部分通過分隔符“&”和“=”進(jìn)一步拆分,可以得到以鍵值對形式表示的字典{"qk1":"i123","qk2":"item_1246","item_id":"item_1234"},接著遍歷所述字典,將所述字典中的值分別在圖4示出的字符匹配樹上按照字符逐個進(jìn)行查找。例如,對所述值i123進(jìn)行匹配時,先匹配i,匹配成功;再往下匹配所述值i123的第二個字符1,圖4所示的字符匹配樹中i字符的子節(jié)點列表只有t字符,并不包含1,所以所述值i123的匹配不成功。又例如,在對值item_1246進(jìn)行匹配時,第一個字符i匹配成功;第二個字符t,也包含在圖4所示字符匹配樹中i字符的子節(jié)點列表中;第三個字符e也在圖4所示字符匹配樹的t字符的子節(jié)點列表中;同理字符e、字符m和字符1均與圖4所示字符匹配樹相匹配;接下來匹配字符2,在圖4所示字符匹配樹中的字符1有兩個子節(jié)點[2,3],包含待匹配的所述字符2,所以可以繼續(xù)往下匹配字符4;在匹配所述字符4時,由于在匹配上一個字符2時,確定了所述值item_1246可能與圖4所示字符匹配樹中,字符1下面的子節(jié)點[2,3]中字符2的分支相匹配,所以繼續(xù)基于所述字符2的分支匹配所述字符4,但由于圖4所示字符匹配樹中字符2的分支中字符2的節(jié)點下面的子節(jié)點是字符3,不包含待匹配的字符4,因此所述值item_1246的匹配也不成功。再例如,在對值item_1234進(jìn)行匹配時,經(jīng)過前述與圖4所示字符匹配樹的匹配步驟,可以確定所述值item_1234與圖4所示字符匹配樹能夠完全匹配,因此,確定所述待掃描數(shù)據(jù)的URL中包含所述樣本數(shù)據(jù),并且所述匹配參數(shù)為商品ID。表1基于URL表示的匹配數(shù)據(jù)列表http://a.host.com/path/test.html?qk1=i234&qk2=item_1246&item_id=item_1234http://b.host.com/test?item_id=item_1368&a=chttp://c.host.com:1234/test?id=item_1234http://item_1368.host.com/detai_info.htmlhttp://a.host.com:3345/category-1234-item_1234-t12http://a.host.com:3567/item/item_1234/detail.html繼續(xù)掃描所述海量數(shù)據(jù),還可能獲得以下基于URL表示的匹配數(shù)據(jù)。所述匹配數(shù)據(jù)可以包括上述表1示出的URL。表2對表1結(jié)構(gòu)化處理后的標(biāo)準(zhǔn)數(shù)據(jù)列表如表2所示,當(dāng)完成基于所述樣本數(shù)據(jù)在所述海量數(shù)據(jù)中的逐條掃描后,可以對本次查找獲得的所述匹配數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,以得到基于所述預(yù)設(shè)格式表示的所述標(biāo)準(zhǔn)數(shù)據(jù)。優(yōu)選地,所述標(biāo)準(zhǔn)數(shù)據(jù)按照頂層域名tld,端口(port)、匹配參數(shù)(querykey)、匹配位置、匹配內(nèi)容以及匹配方式的順序排列,其中,對于缺省的內(nèi)容則以空表示。例如,對于端口,一般所述端口為默認(rèn)值(即80)時,其在所述URL中可以省略不出現(xiàn),則在所述標(biāo)準(zhǔn)數(shù)據(jù)中也以空格表示。又例如,對于本發(fā)明實施例以路徑為匹配位置從所述海量數(shù)據(jù)中查找獲得的匹配數(shù)據(jù),當(dāng)這些匹配數(shù)據(jù)結(jié)構(gòu)化處理為標(biāo)準(zhǔn)數(shù)據(jù)后,這些標(biāo)準(zhǔn)數(shù)據(jù)的匹配參數(shù)為空。表3基于表2的標(biāo)準(zhǔn)數(shù)據(jù)轉(zhuǎn)換獲得的匹配規(guī)則列表對于所述表2列出的所述標(biāo)準(zhǔn)數(shù)據(jù),按照所述預(yù)設(shè)格式將所述標(biāo)準(zhǔn)數(shù)據(jù)轉(zhuǎn)換為所述匹配規(guī)則,如表3所示。其中,(item_\d+)為正則表達(dá)式,其用于表示以item_開頭,并且后面跟隨有數(shù)字的字符串。進(jìn)一步地,根據(jù)所述匹配規(guī)則和所述匹配參數(shù),可以在表3列出的所述匹配規(guī)則中去重第二行;而后再與所述指紋庫中已有的匹配規(guī)則進(jìn)行比較,去除表3中可能與所述指紋庫中已有匹配規(guī)則重復(fù)的匹配規(guī)則,最終將經(jīng)過兩次去重的匹配規(guī)則更新至所述指紋庫。進(jìn)一步地,將更新后的所述指紋庫再次應(yīng)用到所述海量數(shù)據(jù),并基于主機(jī)、路徑、查詢的順序重新掃描,則新增的所述匹配規(guī)則可以匹配到更多商品的URL,通過將匹配獲得的所述商品的URL(或者所述商品URL中符合所述匹配規(guī)則的部分)更新至所述數(shù)據(jù)庫,可以最終實現(xiàn)對所述數(shù)據(jù)庫的擴(kuò)充。例如,新增的匹配規(guī)則http://*.host.com/*?item_id=*可能匹配到一URL為http://test1.host.com/a?item_id=test1&b=c的商品,或者URL為http://test1.host.com/path/subpath/subpath/a.html?q1=v1&q2=v2&item_id=11111的商品,上述兩個新匹配到的商品URL中,與所述匹配規(guī)則相符的部分為test1和11111。本領(lǐng)域技術(shù)人員理解,通過本發(fā)明實施例的技術(shù)方案,基于所述數(shù)據(jù)庫中的樣本數(shù)據(jù)item_1234,最終擴(kuò)充了test1和11111這兩個數(shù)據(jù)。而在實際應(yīng)用過程中,應(yīng)用本發(fā)明實施例的技術(shù)方案可以發(fā)現(xiàn)大量的長尾的URL中潛在的數(shù)據(jù),從而極大的擴(kuò)充數(shù)據(jù)庫,實現(xiàn)對海量數(shù)據(jù)的深度挖掘。圖5是本發(fā)明的第四實施例的一種基于樣本數(shù)據(jù)的數(shù)據(jù)探測和擴(kuò)充裝置的結(jié)構(gòu)示意圖。本領(lǐng)域技術(shù)人員理解,本實施例所述數(shù)據(jù)探測和擴(kuò)充裝置4用于實施上述圖1至圖4所示實施例中的方法技術(shù)方案。具體地,在本實施例中,所述數(shù)據(jù)探測和擴(kuò)充裝置4包括確定模塊41,用于基于數(shù)據(jù)庫中的至少一條數(shù)據(jù)確定所述樣本數(shù)據(jù),所述數(shù)據(jù)庫存儲有從海量數(shù)據(jù)中探測獲得的多條數(shù)據(jù);查找模塊42,用于基于所述樣本數(shù)據(jù)在所述海量數(shù)據(jù)中查找,以獲得所述海量數(shù)據(jù)中與所述樣本數(shù)據(jù)相匹配的匹配數(shù)據(jù);更新模塊43,用于對所述匹配數(shù)據(jù)進(jìn)行處理以獲得匹配規(guī)則,并更新指紋庫,所述指紋庫存儲有歷史上獲得的匹配規(guī)則;以及提取模塊44,用于基于更新后的指紋庫在所述海量數(shù)據(jù)中進(jìn)行匹配提取,以獲得所述海量數(shù)據(jù)中與所述更新后的指紋庫中的匹配規(guī)則相匹配的數(shù)據(jù),并將匹配獲得的數(shù)據(jù)擴(kuò)充至所述數(shù)據(jù)庫。進(jìn)一步地,所述確定模塊41包括選擇子模塊411,用于從所述數(shù)據(jù)庫中選擇預(yù)設(shè)數(shù)量的數(shù)據(jù),并將所述預(yù)設(shè)數(shù)量的數(shù)據(jù)的特征信息作為所述樣本數(shù)據(jù)。優(yōu)選地,所述特征信息包括所述預(yù)設(shè)數(shù)量的數(shù)據(jù)的特征標(biāo)識碼;或者根據(jù)所述預(yù)設(shè)數(shù)量的數(shù)據(jù)確定的正則表達(dá)式。進(jìn)一步地,所述查找模塊42包括第一查找子模塊421,用于在所述海量數(shù)據(jù)中查找與所述樣本數(shù)據(jù)具有相同特征信息的數(shù)據(jù),并將所述具有相同特征信息的數(shù)據(jù)作為所述匹配數(shù)據(jù)。進(jìn)一步地,所述查找模塊42還包括第二查找子模塊422,所述第二查找子模塊422用于在基于所述樣本數(shù)據(jù)在海量數(shù)據(jù)中查找時,若存在預(yù)設(shè)限制條件,則在所述海量數(shù)據(jù)中由所述預(yù)設(shè)限制條件定義的部分?jǐn)?shù)據(jù)中查找,以獲得所述匹配數(shù)據(jù)。進(jìn)一步地,所述更新模塊43包括處理子模塊431,用于對所述匹配數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,以獲得按預(yù)設(shè)格式排布的標(biāo)準(zhǔn)數(shù)據(jù);生成子模塊432,用于基于所述標(biāo)準(zhǔn)數(shù)據(jù)生成所述匹配規(guī)則并去重;以及更新子模塊433,用于基于去重后的匹配規(guī)則更新所述指紋庫。進(jìn)一步地,所述生成子模塊432包括轉(zhuǎn)換單元4321,用于根據(jù)所述預(yù)設(shè)格式將所述標(biāo)準(zhǔn)數(shù)據(jù)轉(zhuǎn)換為所述匹配規(guī)則;以及去重單元4322,用于去除轉(zhuǎn)換得到的匹配規(guī)則中的重復(fù)項,獲得所述去重后的匹配規(guī)則。進(jìn)一步地,所述更新子模塊433包括比較單元4331,用于將所述去重后的匹配規(guī)則與所述指紋庫中的匹配規(guī)則相比較,以二次去除重復(fù)項;以及更新單元4332,用于將二次去除重復(fù)項后的匹配規(guī)則更新至所述指紋庫。優(yōu)選地,所述數(shù)據(jù)為互聯(lián)網(wǎng)訪問記錄。關(guān)于所述數(shù)據(jù)探測和擴(kuò)充裝置4的工作原理、工作方式的更多內(nèi)容,可以參照圖1至圖4中的相關(guān)描述,這里不再贅述。本領(lǐng)域普通技術(shù)人員可以理解上述實施例的各種方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲于以計算機(jī)可讀存儲介質(zhì)中,存儲介質(zhì)可以包括:ROM、RAM、磁盤或光盤等。雖然本發(fā)明披露如上,但本發(fā)明并非限定于此。任何本領(lǐng)域技術(shù)人員,在不脫離本發(fā)明的精神和范圍內(nèi),均可作各種更動與修改,因此本發(fā)明的保護(hù)范圍應(yīng)當(dāng)以權(quán)利要求所限定的范圍為準(zhǔn)。當(dāng)前第1頁1 2 3 
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
安乡县| 当雄县| 江北区| 灵丘县| 白银市| 招远市| 许昌县| 拜泉县| 北川| 锡林浩特市| 牡丹江市| 太仆寺旗| 枣强县| 望江县| 清苑县| 绥棱县| 邳州市| 获嘉县| 繁昌县| 铜梁县| 泰和县| 定州市| 河南省| 册亨县| 盐津县| 大宁县| 化州市| 石屏县| 南宁市| 迁西县| 丰镇市| 抚顺县| 安乡县| 巢湖市| 肥东县| 昌宁县| 高要市| 金华市| 新疆| 温泉县| 托里县|