欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種數(shù)據(jù)特征的處理方法及裝置與流程

文檔序號(hào):11590399閱讀:200來源:國(guó)知局

本發(fā)明涉及大數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)特征的處理方法及裝置。



背景技術(shù):

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,在線數(shù)據(jù)的數(shù)據(jù)量呈指數(shù)級(jí)速度增加,為了應(yīng)對(duì)海量數(shù)據(jù)的處理,發(fā)展出了很多大數(shù)據(jù)處理方案,以實(shí)現(xiàn)海量的數(shù)據(jù)中提取所需的信息。

對(duì)于不同領(lǐng)域以及不同種類的數(shù)據(jù),由于在數(shù)據(jù)維度、格式等方面有很大差異,數(shù)據(jù)來源也錯(cuò)綜復(fù)雜,導(dǎo)致需要占用很多計(jì)算資源在海量的數(shù)據(jù)中進(jìn)行篩選并提取所需的信息。在現(xiàn)有的方案中,主要通過文本處理或者數(shù)據(jù)表的方式,通過一定編程語言提取其中有效的數(shù)據(jù)特征,從而實(shí)現(xiàn)數(shù)據(jù)提取。

但是,數(shù)據(jù)表所依據(jù)的數(shù)據(jù)特征較為單一,難以準(zhǔn)確描述用戶真正所需數(shù)據(jù)的概況,從而影響后續(xù)數(shù)據(jù)分析、建模的效果。尤其是在廣告系統(tǒng)等刷新頻率很高的業(yè)務(wù)數(shù)據(jù)處理系統(tǒng)中,對(duì)于大規(guī)模且多維度的廣告數(shù)據(jù),需要頻繁更新建模,成本很高但是數(shù)據(jù)提取的準(zhǔn)確性依然較低。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的實(shí)施例提供一種數(shù)據(jù)特征的處理方法及裝置,能夠降低數(shù)據(jù)提取的成本并提高了數(shù)據(jù)提取的準(zhǔn)確性。

為達(dá)到上述目的,本發(fā)明的實(shí)施例采用如下技術(shù)方案:

第一方面,本發(fā)明的實(shí)施例提供一種數(shù)據(jù)特征的處理方法,包括:

從業(yè)務(wù)日志獲取明文樣本,所述明文樣本至少包括特殊字段和特征字段,所述特殊字段包括用于表示執(zhí)行命令和操作命令的字段;

根據(jù)預(yù)先配置的特征類,從所述特征字段獲取特征明文,并記錄樣本簽名,其中,內(nèi)容相同的特殊字段對(duì)應(yīng)同一個(gè)樣本簽名;

提取對(duì)應(yīng)所述樣本簽名的一個(gè)特殊字段,并將所獲取的特征明文,拼接至所述一個(gè)特殊字段,得到拼接后的字段;

將所述拼接后的字段作為特征樣本輸出。

結(jié)合第一方面,在第一方面的第一種可能的實(shí)現(xiàn)方式中,所述從業(yè)務(wù)日志獲取明文樣本,包括:

讀取所述業(yè)務(wù)日志中的明文字段;

在所述明文字段中剔除第一類型字段;和/或,轉(zhuǎn)換所述明文字段中的第二類型字段的字符為指定形式;

通過mapreduce框架,將經(jīng)過剔除和/或轉(zhuǎn)換處理后的字段以map方式存入內(nèi)存。

結(jié)合第一方面,在第一方面的第二種可能的實(shí)現(xiàn)方式中,所述根據(jù)預(yù)先配置的特征類從所述特征字段獲取特征明文,包括:

依次讀取所述特征類中的字段,所述特征類中的字段與所述明文樣本中的至少一條字段的內(nèi)容相同;

根據(jù)所述特征類中的字段的內(nèi)容,從所述明文樣本中依次讀取具有相同內(nèi)容的字段作為所述特征字段;

將從所述明文樣本中依次讀取的所述特征字段記錄在特征集合中。

結(jié)合第一方面的第二種可能的實(shí)現(xiàn)方式,在第三種可能的實(shí)現(xiàn)方式中,所述將所述拼接后的字段作為特征樣本輸出,包括:

通過mapreduce框架,將所述特征樣本和所述特征集合導(dǎo)入reduce階段;

所述將從所述明文樣本中依次讀取的所述特征字段記錄在特征集合中,包括:將從所述明文樣本中讀取的相同的特征字段輸出到相同計(jì)算節(jié)點(diǎn)。

結(jié)合第一方面,在第一方面的第四種可能的實(shí)現(xiàn)方式中,還包括:

讀取基本特征類,并通過反射機(jī)制更新所述基本特征類;

將最近一次更新的基本特征類作為所述預(yù)先配置的特征類。

第二方面,本發(fā)明的實(shí)施例提供一種數(shù)據(jù)特征的處理裝置,包括:

提取單元,用于從業(yè)務(wù)日志獲取明文樣本,所述明文樣本至少包括特殊字段和特征字段,所述特殊字段包括用于表示執(zhí)行命令和操作命令的字段;

識(shí)別單元,用于根據(jù)預(yù)先配置的特征類,從所述特征字段獲取特征明文,并記錄樣本簽名,其中,內(nèi)容相同的特殊字段對(duì)應(yīng)同一個(gè)樣本簽名;

拼接單元,用于提取對(duì)應(yīng)所述樣本簽名的一個(gè)特殊字段,并將所獲取的特征明文,拼接至所述一個(gè)特殊字段,得到拼接后的字段;

輸出單元,用于將所述拼接后的字段作為特征樣本輸出。

結(jié)合第二方面,在第二方面的第一種可能的實(shí)現(xiàn)方式中,還包括預(yù)處理單元,用于讀取所述業(yè)務(wù)日志中的明文字段;并在所述明文字段中剔除第一類型字段;和/或,轉(zhuǎn)換所述明文字段中的第二類型字段的字符為指定形式;再通過mapreduce框架,將經(jīng)過剔除和/或轉(zhuǎn)換處理后的字段以map方式存入內(nèi)存。

結(jié)合第二方面,在第二方面的第二種可能的實(shí)現(xiàn)方式中,所述識(shí)別單元,具體用于依次讀取所述特征類中的字段,所述特征類中的字段與所述明文樣本中的至少一條字段的內(nèi)容相同;并根據(jù)所述特征類中的字段的內(nèi)容,從所述明文樣本中依次讀取具有相同內(nèi)容的字段作為所述特征字段;再將從所述明文樣本中依次讀取的所述特征字段記錄在特征集合中。

結(jié)合第二方面的第二種可能的實(shí)現(xiàn)方式,在第三種可能的實(shí)現(xiàn)方式中,所述輸出單元,具體用于通過mapreduce框架,將所述特征樣本和所述特征集合導(dǎo)入reduce階段;并將從所述明文樣本中讀取的相同的特征字段輸出到相同計(jì)算節(jié)點(diǎn)。

結(jié)合第二方面,在第二方面的第四種可能的實(shí)現(xiàn)方式中,還包括特征類管理單元,用于讀取基本特征類,并通過反射機(jī)制更新所述基本特征類;并將最近一次更新的基本特征類作為所述預(yù)先配置的特征類。

本發(fā)明實(shí)施例提供的數(shù)據(jù)特征的處理方法及裝置,根據(jù)預(yù)先配置的特征類,從明文樣本的特征字段獲取特征明文并記錄樣本簽名,并提取對(duì)應(yīng)所述樣本簽名的一個(gè)特殊字段,將特征明文與特殊字段拼接,再將所述拼接后的字段作為特征樣本輸出,作為數(shù)據(jù)提取所用的特征樣本。相對(duì)于現(xiàn)有技術(shù),本實(shí)施例從海量數(shù)據(jù)中提取所需的特征,解決了現(xiàn)有技術(shù)中難以提取大規(guī)模且多維度的數(shù)據(jù),緩減了需要頻繁更新建模的問題,從而降低數(shù)據(jù)提取的成本并提高了數(shù)據(jù)提取的準(zhǔn)確性。

附圖說明

為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其它的附圖。

圖1為本發(fā)明實(shí)施例提供的系統(tǒng)架構(gòu)示意圖;

圖2為本發(fā)明實(shí)施例提供的數(shù)據(jù)特征的處理方法的流程圖;

圖3a、圖3b和圖3c分別為本發(fā)明實(shí)施例提供的數(shù)據(jù)特征的處理裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

為使本領(lǐng)域技術(shù)人員更好地理解本發(fā)明的技術(shù)方案,下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。下文中將詳細(xì)描述本發(fā)明的實(shí)施方式,所述實(shí)施方式的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施方式是示例性的,僅用于解釋本發(fā)明,而不能解釋為對(duì)本發(fā)明的限制。本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非特意聲明,這里使用的單數(shù)形式“一”、“一個(gè)”、“所述”和“該”也可包括復(fù)數(shù)形式。應(yīng)該進(jìn)一步理解的是,本發(fā)明的說明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加一個(gè)或多個(gè)其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應(yīng)該理解,當(dāng)我們稱元件被“連接”或“耦接”到另一元件時(shí),它可以直接連接或耦接到其他元件,或者也可以存在中間元件。此外,這里使用的“連接”或“耦接”可以包括無線連接或耦接。這里使用的措辭“和/或”包括一個(gè)或更多個(gè)相關(guān)聯(lián)的列出項(xiàng)的任一單元和全部組合。本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非另外定義,這里使用的所有術(shù)語(包括技術(shù)術(shù)語和科學(xué)術(shù)語)具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是,諸如通用字典中定義的那些術(shù)語應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義,并且除非像這里一樣定義,不會(huì)用理想化或過于正式的含義來解釋。

本實(shí)施例可以采用基于mapreduce的分布式處理框架(亦可稱為mapreduce框架),其中本實(shí)施例所用的mapreduce框架的具體架構(gòu)可以如圖1所示。在執(zhí)行過程中,將待處理的數(shù)據(jù)以map方式存在內(nèi)存中。若采用的具體是基于hadoop的mapreduce框架,對(duì)于特征的提取,在map階段對(duì)數(shù)據(jù)的特征字段和特殊字段進(jìn)行提取并輸出,并在reduce階段,累計(jì)相同的特征字段;對(duì)于樣本,在map階段進(jìn)行樣本抽取,在reduce階段輸出記錄了樣本簽名的特征樣本。

本發(fā)明實(shí)施例提供一種數(shù)據(jù)特征的處理方法,如圖2所示,包括:

s1,從業(yè)務(wù)日志獲取明文樣本。

其中,明文樣本至少包括特殊字段和特征字段,特殊字段包括用于表示執(zhí)行命令和操作命令的字段。業(yè)務(wù)日志可以是業(yè)務(wù)系統(tǒng)運(yùn)行時(shí)所記錄的日志數(shù)據(jù),例如:廣告投放系統(tǒng)運(yùn)行時(shí)所記錄的日志數(shù)據(jù)。明文樣本可以是業(yè)務(wù)日志中的非加密字符,所獲取的明文樣本具體可以為符合tab分隔的文本形式,并且包括用于表示“存在展現(xiàn)”和“點(diǎn)擊”的特殊字段,比如:“show”和“clk”。

過程s1-s4,具體可以由mapreduce框架中map階段的服務(wù)器執(zhí)行。

s2,根據(jù)預(yù)先配置的特征類,從所述特征字段獲取特征明文,并記錄樣本簽名。

在本實(shí)施例中,map階段的服務(wù)器讀取預(yù)先配置的特征類,特征類中包括按照先后順序配置的字段到特征類里,特征類中的字段與明文樣本中的至少一條字段的內(nèi)容相同。map階段的服務(wù)器根據(jù)預(yù)先配置的特征類,以key-value方式讀取輸入的明文樣本,并以map方式存在內(nèi)存中。其中,本實(shí)施例中所述的內(nèi)存具體可以是用戶的本地設(shè)備的內(nèi)存,也可以是map階段的服務(wù)器的內(nèi)存。

map階段的服務(wù)器可以先剝離明文樣本中用于表示“存在展現(xiàn)”和“點(diǎn)擊”的特殊字段;再根據(jù)預(yù)先配置的特征類中記載的字段內(nèi)容,從明文樣本中依次抽取特征字段。樣本簽名對(duì)應(yīng)明文樣本,而在明文樣本中用于表示“存在展現(xiàn)”和“點(diǎn)擊”的特殊字段往往會(huì)重復(fù)多次,因此同一個(gè)明文樣本中的內(nèi)容相同的特殊字段對(duì)應(yīng)同一個(gè)樣本簽名。其中,樣本簽名可以是明文樣本以map方式存在內(nèi)存中時(shí)由服務(wù)器分配的,也可以是在明文樣本中預(yù)先配置的。

s3,提取對(duì)應(yīng)所述樣本簽名的一個(gè)特殊字段,并將所獲取的特征明文,拼接至所述一個(gè)特殊字段,得到拼接后的字段。

例如:對(duì)于明文樣本:“showclka…,showclkb…,showclkc…,showclkd”,

其中,特殊字段為“showclk”,特征字段為“abcd”,因此可以得到特征:ashowclk、bshowclk、cshowclk、dshowclk,經(jīng)過拼接得到拼接后的字段:“showclkfeaafeabfeacfead”。

s4,將所述拼接后的字段作為特征樣本輸出。

其中,map階段的服務(wù)器可以將特征樣本輸出到reduce階段的服務(wù)器。

在本實(shí)施例中,對(duì)于特征的提取,需要在map階段根據(jù)預(yù)先配置的特征類,從特征字段獲取特征明文,預(yù)先配置的特征類可以通過java中的反射機(jī)制獲取,以便于用戶在提取特征時(shí),對(duì)于通用需求,無需采用現(xiàn)有技術(shù)基于數(shù)據(jù)表開發(fā)特征提取程序;對(duì)于特殊需求,只需采用本實(shí)施例的特征提取框架(即運(yùn)行本實(shí)施執(zhí)行流程的mapreduce框架),根據(jù)預(yù)先配置的特征類,從海量數(shù)據(jù)中提取所需的特征。

本實(shí)施例中采用的反射機(jī)制包括:在編譯時(shí)并不確定是哪個(gè)類需要被加載,而是在程序運(yùn)行的時(shí)候才加載具體的類,從而得到類的結(jié)構(gòu)屬性。使用在編譯期并不知道的類。比如:當(dāng)一個(gè)類被加載以后,java虛擬機(jī)自動(dòng)產(chǎn)生一個(gè)class對(duì)象,并通過這個(gè)class對(duì)象獲取加載到虛擬機(jī)當(dāng)中這個(gè)class對(duì)象對(duì)應(yīng)的方法、成員以及構(gòu)造方法的聲明和定義等信息。具體舉例來說,通過java中的反射機(jī)制獲取預(yù)先配置的特征類的過程可以包括:

利用java反射機(jī)制,定義特征類工廠類(feature),比如下述代碼所示:

并在抽取特征時(shí)在個(gè)人業(yè)務(wù)配置下配置特征類類名稱,其中支持配置多個(gè)slot多個(gè)特征。且不需要提前加載。

之后調(diào)用時(shí)解析用戶配置文件根據(jù)slot號(hào)得到特征類名并反射出特征解析類,供特征抽取程序使用以抽取特征。其中,可以按具體的業(yè)務(wù)需求增加任何類型的特征抽取業(yè)務(wù)類,在配置文件配置出特征類名,并特征抽取時(shí)針對(duì)不同的slot使用自己書寫的特征類。進(jìn)一步的,預(yù)處理類處理也單獨(dú)定義了一個(gè)預(yù)處理工廠類,以利用java的反射機(jī)制。

本發(fā)明實(shí)施例提供的數(shù)據(jù)特征的處理方法,根據(jù)預(yù)先配置的特征類,從明文樣本的特征字段獲取特征明文并記錄樣本簽名,并提取對(duì)應(yīng)所述樣本簽名的一個(gè)特殊字段,將特征明文與特殊字段拼接,再將所述拼接后的字段作為特征樣本輸出,作為數(shù)據(jù)提取所用的特征樣本。相對(duì)于現(xiàn)有技術(shù),本實(shí)施例從海量數(shù)據(jù)中提取所需的特征,解決了現(xiàn)有技術(shù)中難以提取大規(guī)模且多維度的數(shù)據(jù),緩減了需要頻繁更新建模的問題,從而降低數(shù)據(jù)提取的成本并提高了數(shù)據(jù)提取的準(zhǔn)確性。

在本實(shí)施例中,map階段的服務(wù)器還可以對(duì)以map方式存在內(nèi)存中的明文樣本或是在明文樣本存入內(nèi)存之前,對(duì)明文樣本中的字段進(jìn)行預(yù)處理,例如:基于url-encode、base64等編碼方式的字符,可以進(jìn)行半角全角轉(zhuǎn)換、英文大小寫轉(zhuǎn)換等預(yù)處理,還可以包括用戶自定義的預(yù)處理過程。因此所述從業(yè)務(wù)日志獲取明文樣本,包括:

讀取所述業(yè)務(wù)日志中的明文字段。在所述明文字段中剔除第一類型字段。和/或,轉(zhuǎn)換所述明文字段中的第二類型字段的字符為指定形式。通過mapreduce框架,將經(jīng)過剔除和/或轉(zhuǎn)換處理后的字段以map方式存入內(nèi)存。

其中,第一類型字段指的是存在數(shù)據(jù)錯(cuò)誤、無法讀取的字段,或是用于表示特定內(nèi)容的字符(比如:特定內(nèi)容的字符可以包括用于表示修改日期的字符、分割符等);第二類型字段指的是可以進(jìn)行轉(zhuǎn)換,比如:進(jìn)行半角全角轉(zhuǎn)換或英文大小寫轉(zhuǎn)換的字符,轉(zhuǎn)換后的字符形式為用戶預(yù)先設(shè)置的指定形式,或者是map階段的服務(wù)器中預(yù)存的形式。

在本實(shí)施例中,所述根據(jù)預(yù)先配置的特征類從所述特征字段獲取特征明文,包括:

依次讀取所述特征類中的字段。并根據(jù)所述特征類中的字段的內(nèi)容,從所述明文樣本中依次讀取具有相同內(nèi)容的字段作為所述特征字段。再將從所述明文樣本中依次讀取的所述特征字段記錄在特征集合中。

其中,所述特征類中的字段與所述明文樣本中的至少一條字段的內(nèi)容相同。具體的,map階段的服務(wù)器獲得新的明文樣本集合,這里對(duì)預(yù)先配置的準(zhǔn)備抽取的特征類做初始化,按照配置的需要抽取的特征,逐個(gè)調(diào)用特征類做特征抽取。例如:

明文樣本為:“showclkabcd”;

預(yù)先配置的特征類包括:

feaclass=featureclass1;dpd=a;slot=1,

feaclass=featureclass2;dpd=b;slot=2,

feaclass=featureclass3;dpd=c;slot=3,

feaclass=featureclass4;dpd=d;slot=4,

其中,服務(wù)器可以初始化featureclass1、featureclass2、featureclass3和featureclass4,再按照配置順序,依次抽取特征feaa、feab、直至fead。服務(wù)器抽取的特征集合{feaa,feab,feac,fead},以及明文樣本showclkabcd,服務(wù)器依據(jù)特殊字段和特征字段之間的關(guān)系完成拼接的過程,字段之間的關(guān)系可以包括:{feaashowclk…},最終拼接完成得到一條特征樣本:showclkfeaafeabfeacfead。

在本實(shí)施例中,所述將所述拼接后的字段作為特征樣本輸出,包括:

通過mapreduce框架,將所述特征樣本和所述特征集合導(dǎo)入reduce階段。所述將從所述明文樣本中依次讀取的所述特征字段記錄在特征集合中,包括:將從所述明文樣本中讀取的相同的特征字段輸出到相同計(jì)算節(jié)點(diǎn)。

例如:本實(shí)施例可以采用hadoop的mapreduce框架,由map階段的服務(wù)器執(zhí)行s1-s4,然后將執(zhí)行結(jié)果(執(zhí)行結(jié)果包括:特征樣本和特征集合)輸出到reduce階段的服務(wù)器。具體的,若是特征樣本,則直接輸出到reduce,不做處理;若是特征集合,則利用mapreduce框架的分桶原理,將相同的特征分到相同計(jì)算節(jié)點(diǎn)里。reduce階段的服務(wù)器,接收到特征樣本,則直接輸出特征樣本;接收到特征集合,則累加特征集合對(duì)應(yīng)的showclk值后再輸出。

在本實(shí)施例中,還包括:

讀取基本特征類,并通過反射機(jī)制更新所述基本特征類。

將最近一次更新的基本特征類作為所述預(yù)先配置的特征類。

本發(fā)明實(shí)施例還提供一種數(shù)據(jù)特征的處理裝置,若應(yīng)用在mapreduce框架中,則具體可以運(yùn)行在map階段的服務(wù)器中,如圖3a所示,該處理裝置包括:

提取單元,用于從業(yè)務(wù)日志獲取明文樣本,所述明文樣本至少包括特殊字段和特征字段,所述特殊字段包括用于表示執(zhí)行命令和操作命令的字段。

識(shí)別單元,用于根據(jù)預(yù)先配置的特征類,從所述特征字段獲取特征明文,并記錄樣本簽名,其中,內(nèi)容相同的特殊字段對(duì)應(yīng)同一個(gè)樣本簽名。

拼接單元,用于提取對(duì)應(yīng)所述樣本簽名的一個(gè)特殊字段,并將所獲取的特征明文,拼接至所述一個(gè)特殊字段,得到拼接后的字段。

輸出單元,用于將所述拼接后的字段作為特征樣本輸出。

在本實(shí)施例中,所述識(shí)別單元,具體用于依次讀取所述特征類中的字段,所述特征類中的字段與所述明文樣本中的至少一條字段的內(nèi)容相同。并根據(jù)所述特征類中的字段的內(nèi)容,從所述明文樣本中依次讀取具有相同內(nèi)容的字段作為所述特征字段。再將從所述明文樣本中依次讀取的所述特征字段記錄在特征集合中。

在本實(shí)施例中,所述輸出單元,具體用于通過mapreduce框架,將所述特征樣本和所述特征集合導(dǎo)入reduce階段。并將從所述明文樣本中讀取的相同的特征字段輸出到相同計(jì)算節(jié)點(diǎn)。

進(jìn)一步的,如圖3b所示,還包括:預(yù)處理單元,用于讀取所述業(yè)務(wù)日志中的明文字段。并在所述明文字段中剔除第一類型字段。和/或,轉(zhuǎn)換所述明文字段中的第二類型字段的字符為指定形式。再通過mapreduce框架,將經(jīng)過剔除和/或轉(zhuǎn)換處理后的字段以map方式存入內(nèi)存。

進(jìn)一步的,如圖3c所示,還包括特征類管理單元,用于讀取基本特征類,并通過反射機(jī)制更新所述基本特征類。并將最近一次更新的基本特征類作為所述預(yù)先配置的特征類。

本發(fā)明實(shí)施例提供的數(shù)據(jù)特征的處理裝置,根據(jù)預(yù)先配置的特征類,從明文樣本的特征字段獲取特征明文并記錄樣本簽名,并提取對(duì)應(yīng)所述樣本簽名的一個(gè)特殊字段,將特征明文與特殊字段拼接,再將所述拼接后的字段作為特征樣本輸出,作為數(shù)據(jù)提取所用的特征樣本。相對(duì)于現(xiàn)有技術(shù),本實(shí)施例從海量數(shù)據(jù)中提取所需的特征,解決了現(xiàn)有技術(shù)中難以提取大規(guī)模且多維度的數(shù)據(jù),緩減了需要頻繁更新建模的問題,從而降低數(shù)據(jù)提取的成本并提高了數(shù)據(jù)提取的準(zhǔn)確性。

本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于設(shè)備實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部分說明即可。本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成,所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(read-onlymemory,rom)或隨機(jī)存儲(chǔ)記憶體(randomaccessmemory,ram)等。以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
赣州市| 多伦县| 乐平市| 读书| 奉新县| 五常市| 黔南| 利辛县| 砚山县| 磴口县| 密云县| 海原县| 福建省| 唐海县| 西盟| 额济纳旗| 永泰县| 平南县| 双鸭山市| 蒲城县| 明水县| 宜都市| 昂仁县| 和龙市| 高要市| 海南省| 横山县| 大渡口区| 祁东县| 贵港市| 南昌市| 友谊县| 秭归县| 古浪县| 洪雅县| 桓台县| 灵宝市| 新蔡县| 谷城县| 临江市| 台江县|