欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種大數(shù)據(jù)的特征提取方法和裝置與流程

文檔序號(hào):12272452閱讀:887來(lái)源:國(guó)知局
一種大數(shù)據(jù)的特征提取方法和裝置與流程
本發(fā)明實(shí)施例涉及計(jì)算機(jī)
技術(shù)領(lǐng)域
,尤其涉及一種大數(shù)據(jù)的特征提取方法和裝置。
背景技術(shù)
:保險(xiǎn)行業(yè)正因科技進(jìn)步而發(fā)生巨大的改變,大數(shù)據(jù)的廣泛應(yīng)用改變了保險(xiǎn)公司實(shí)現(xiàn)服務(wù)的方式?,F(xiàn)有的保險(xiǎn)業(yè)網(wǎng)站和軟件通常收集了海量數(shù)據(jù),蘊(yùn)藏著大量有用信息,包括用戶的個(gè)人信息、消費(fèi)習(xí)慣等。只有充分利用保險(xiǎn)業(yè)大數(shù)據(jù),才能在風(fēng)險(xiǎn)定價(jià)、產(chǎn)品設(shè)計(jì)、營(yíng)銷策略、客戶服務(wù)、風(fēng)險(xiǎn)管控等諸多方面適應(yīng)大數(shù)據(jù)時(shí)代的要求。當(dāng)前在保險(xiǎn)業(yè)行業(yè)中,通常采用數(shù)據(jù)庫(kù)系統(tǒng)對(duì)保險(xiǎn)業(yè)數(shù)據(jù)進(jìn)行存儲(chǔ)和管理。數(shù)據(jù)庫(kù)系統(tǒng)中通常采用表格的方式存儲(chǔ)數(shù)據(jù),表格中會(huì)存在大量的關(guān)系數(shù)據(jù)和文本信息,存儲(chǔ)的數(shù)據(jù)的格式也可以是多種多樣的。比如,用戶的個(gè)人簡(jiǎn)介和產(chǎn)品的描述信息通常在數(shù)據(jù)庫(kù)中用文本字符串的形式進(jìn)行存儲(chǔ),而用戶的年齡和產(chǎn)品價(jià)格通常采用非負(fù)數(shù)字的形式進(jìn)行存儲(chǔ)。雖然當(dāng)前的數(shù)據(jù)處理技術(shù)能夠?qū)Ω袷交臄?shù)字和類別等數(shù)值進(jìn)行提取和匹配,但是對(duì)文本等非結(jié)構(gòu)化數(shù)據(jù)卻無(wú)法從中提取出有用的特征信息。常見的保險(xiǎn)業(yè)業(yè)務(wù)包括保險(xiǎn)業(yè)數(shù)據(jù)的產(chǎn)品精準(zhǔn)推薦、購(gòu)險(xiǎn)用戶分類和欺詐騙保檢測(cè)等。在保險(xiǎn)業(yè)營(yíng)銷服務(wù)中,要么是讓用戶通過(guò)搜索獲取保險(xiǎn)產(chǎn)品進(jìn)而購(gòu)買,要么采用流行度推薦、關(guān)聯(lián)規(guī)則推薦和協(xié)同過(guò)濾推薦等方法來(lái)給用戶主動(dòng)推薦保險(xiǎn)產(chǎn)品。其中,流行度推薦是指給用戶推薦當(dāng)前最流行的保險(xiǎn)產(chǎn)品,缺點(diǎn)是缺乏個(gè)性化考慮,準(zhǔn)確性低。關(guān)聯(lián)規(guī)則推薦是通過(guò)數(shù)據(jù)分析,學(xué)習(xí)用戶購(gòu)買興趣與自身特征和產(chǎn)品特征之間的規(guī)則,例如40歲以上的女性更易購(gòu)買健康類保險(xiǎn),推薦的準(zhǔn)確性也不高。協(xié)同過(guò)濾推薦是基于一個(gè)基本假設(shè),對(duì)相似的保險(xiǎn)產(chǎn)品有過(guò)興趣的用戶此后會(huì)購(gòu)買相似保險(xiǎn)產(chǎn)品,被相似用戶購(gòu)買的產(chǎn)品此后還會(huì)被相似的用戶購(gòu)買,這種推薦在單一用戶的行為很少時(shí),存在數(shù)據(jù)稀疏度高,無(wú)法進(jìn)行有效計(jì)算和推薦。在進(jìn)行購(gòu)險(xiǎn)用戶分類時(shí),由于用戶類別可以描述用戶的生活習(xí)慣、交友習(xí)慣、消費(fèi)習(xí)慣等,不同的類別需要提取不同的用戶特征。通常采用的方式是從用戶的消費(fèi)記錄中提取諸如用戶月收入、月花銷、年度的收入標(biāo)準(zhǔn)差、年度的花銷標(biāo)準(zhǔn)差等特征,通過(guò)標(biāo)記大量的用戶類別標(biāo)簽,訓(xùn)練監(jiān)督學(xué)習(xí)模型,對(duì)測(cè)試用戶進(jìn)行分類。這種方法既需要依靠經(jīng)驗(yàn)提取大量特征,更需要收集大量的標(biāo)記數(shù)據(jù),會(huì)造成代價(jià)高、準(zhǔn)確度差等問(wèn)題。欺詐騙保檢測(cè),即判斷某用戶的申保行為是否是欺詐行為,最核心任務(wù)是收集用戶在申報(bào)行為中的特征?,F(xiàn)有的欺詐騙保檢測(cè)系統(tǒng)主要是從包括用戶個(gè)人信息、所申保的保險(xiǎn)產(chǎn)品信息、申保流程信息等中提取大量的數(shù)值統(tǒng)計(jì)結(jié)果,同時(shí)對(duì)其中一部分用戶進(jìn)行標(biāo)注,利用人力判斷是否是欺詐用戶,繼而訓(xùn)練監(jiān)督學(xué)習(xí)模型,對(duì)申保行為進(jìn)行分類。然而,該系統(tǒng)需要依靠經(jīng)驗(yàn)提取特征并收集標(biāo)記數(shù)據(jù),造成無(wú)法有效實(shí)施。由此可見,現(xiàn)有保險(xiǎn)業(yè)大數(shù)據(jù)的智能處理系統(tǒng)至少具有如下缺點(diǎn):1)現(xiàn)有保險(xiǎn)業(yè)數(shù)據(jù)技術(shù)缺乏對(duì)非結(jié)構(gòu)化數(shù)據(jù)的分析,丟失了大量有效信息,影響保險(xiǎn)業(yè)業(yè)務(wù)的分析結(jié)果;2)現(xiàn)有的保險(xiǎn)業(yè)推薦系統(tǒng)、購(gòu)險(xiǎn)用戶分類系統(tǒng)和欺詐騙保檢測(cè)系統(tǒng)等過(guò)分依賴于人力的特征提取,準(zhǔn)確性低、計(jì)算效率差,對(duì)用戶請(qǐng)求響應(yīng)緩慢,影響用戶體驗(yàn);3)不同的保險(xiǎn)業(yè)服務(wù)通常采用不同的數(shù)據(jù)處理和特征提取方法,造成大量的冗余數(shù)據(jù)處理,并且不同服務(wù)的數(shù)據(jù)單元的特征不相兼容。技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例的目的在于提供一種大數(shù)據(jù)的特征提取方法和裝置,能夠從多種大數(shù)據(jù)源中有效地提取特征信息,無(wú)需人工參與,并且提取到的特征統(tǒng)一用高維向量表示,使得大數(shù)據(jù)的智能處理系統(tǒng)可以為用戶提供多種應(yīng)用服務(wù)。本發(fā)明實(shí)施例采用的技術(shù)方案如下:本發(fā)明實(shí)施例提供了一種用于大數(shù)據(jù)的特征提取裝置,該裝置包括數(shù)據(jù)結(jié)構(gòu)化模塊,用于對(duì)原始大數(shù)據(jù)進(jìn)行預(yù)處理,以及對(duì)所述預(yù)處理后的原始大數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化,得到包含節(jié)點(diǎn)和邊的關(guān)系網(wǎng)絡(luò);表征學(xué)習(xí)模塊:用于對(duì)所述關(guān)系網(wǎng)絡(luò)采用基于嵌入映射的表征學(xué)習(xí)算法,得到所述關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)的高維向量??蛇x地,所述關(guān)系網(wǎng)絡(luò)中包含高維關(guān)系網(wǎng)絡(luò),則所述表征學(xué)習(xí)模塊具體用于對(duì)所述高維關(guān)系網(wǎng)絡(luò)進(jìn)行嵌入映射,得到所述高維關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)的高維向量??蛇x地,所述關(guān)系網(wǎng)絡(luò)中包含語(yǔ)義網(wǎng)絡(luò),則所述表征學(xué)習(xí)模塊具體用于對(duì)所述語(yǔ)義網(wǎng)絡(luò)進(jìn)行嵌入映射,得到所述語(yǔ)義網(wǎng)絡(luò)的節(jié)點(diǎn)的高維向量??蛇x地,所述關(guān)系網(wǎng)絡(luò)中包含二維關(guān)系網(wǎng)絡(luò),則所述表征學(xué)習(xí)模塊具體用于對(duì)所述二維關(guān)系網(wǎng)絡(luò)進(jìn)行嵌入映射,得到所述二維關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)的高維向量??蛇x地,所述數(shù)據(jù)結(jié)構(gòu)化模塊具體用于對(duì)所述預(yù)處理后的原始大數(shù)據(jù)中的行為數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化,得到包含節(jié)點(diǎn)和邊的行為網(wǎng)絡(luò);對(duì)所述預(yù)處理后的原始大數(shù)據(jù)中的屬性數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化,得到包含節(jié)點(diǎn)和邊的屬性網(wǎng)絡(luò);以及,對(duì)所述預(yù)處理后的原始大數(shù)據(jù)中的文本數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化,得到包含節(jié)點(diǎn)和邊的語(yǔ)義網(wǎng)絡(luò);其中,所述行為網(wǎng)絡(luò)、所述屬性網(wǎng)絡(luò)和所述語(yǔ)義網(wǎng)絡(luò)共同組成了所述關(guān)系網(wǎng)絡(luò)。本發(fā)明實(shí)施例還提供了一種大數(shù)據(jù)的特征提取方法,該方法包括對(duì)原始大數(shù)據(jù)進(jìn)行預(yù)處理;對(duì)所述預(yù)處理后的原始大數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化,得到包含節(jié)點(diǎn)和邊的關(guān)系網(wǎng)絡(luò);對(duì)所述關(guān)系網(wǎng)絡(luò)采用基于嵌入映射的表征學(xué)習(xí)算法,得到所述關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)的高維向量??蛇x地,所述關(guān)系網(wǎng)絡(luò)中包含高維關(guān)系網(wǎng)絡(luò),則所述對(duì)所述關(guān)系網(wǎng)絡(luò)采用基于嵌入映射的表征學(xué)習(xí)算法,得到所述關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)的高維向量,包括:對(duì)所述高維關(guān)系網(wǎng)絡(luò)進(jìn)行嵌入映射,得到所述高維關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)的高維向量??蛇x地,所述關(guān)系網(wǎng)絡(luò)中包含語(yǔ)義網(wǎng)絡(luò),則所述對(duì)所述關(guān)系網(wǎng)絡(luò)采用基于嵌入映射的表征學(xué)習(xí)算法,得到所述關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)的高維向量,包括:對(duì)所述語(yǔ)義網(wǎng)絡(luò)進(jìn)行嵌入映射,得到所述語(yǔ)義網(wǎng)絡(luò)的節(jié)點(diǎn)的高維向量??蛇x地,所述對(duì)所述預(yù)處理后的原始大數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化,得到包含節(jié)點(diǎn)和邊的關(guān)系網(wǎng)絡(luò),包括:對(duì)所述預(yù)處理后的原始大數(shù)據(jù)中的行為數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化,得到包含節(jié)點(diǎn)和邊的行為網(wǎng)絡(luò);對(duì)所述預(yù)處理后的原始大數(shù)據(jù)中的屬性數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化,得到包含節(jié)點(diǎn)和邊的屬性網(wǎng)絡(luò);以及,對(duì)所述預(yù)處理后的原始大數(shù)據(jù)中的文本數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化,得到包含節(jié)點(diǎn)和邊的語(yǔ)義網(wǎng)絡(luò);其中,所述行為網(wǎng)絡(luò)、所述屬性網(wǎng)絡(luò)和所述語(yǔ)義網(wǎng)絡(luò)共同組成了所述關(guān)系網(wǎng)絡(luò)。本發(fā)明實(shí)施例的技術(shù)方案具有以下優(yōu)點(diǎn):所述數(shù)據(jù)結(jié)構(gòu)化模塊能夠?qū)υ即髷?shù)據(jù)進(jìn)行預(yù)處理以及網(wǎng)絡(luò)化,使得所述原始大數(shù)據(jù)轉(zhuǎn)化為網(wǎng)絡(luò)數(shù)據(jù)或者結(jié)構(gòu)數(shù)據(jù),從而所述表征學(xué)習(xí)模塊可以利用網(wǎng)絡(luò)數(shù)據(jù)的表征學(xué)習(xí)算法,來(lái)實(shí)現(xiàn)對(duì)數(shù)據(jù)的快速、統(tǒng)一的特征提取,并以高維向量的形式進(jìn)行表示。不同于現(xiàn)有技術(shù),本發(fā)明實(shí)施例中整個(gè)特征提取的過(guò)程無(wú)需人的參與,利用基于嵌入映射的表征學(xué)習(xí)算法自動(dòng)完成,計(jì)算效率高;特征提取的過(guò)程中還極大地保留了原始大數(shù)據(jù)中的結(jié)構(gòu)信息(即有效信息),從而提高了后續(xù)利用該特征信息進(jìn)行分類或預(yù)測(cè)等任務(wù)的準(zhǔn)確性;不僅如此,由于采用了基于嵌入映射的表征學(xué)習(xí)算法,使得從原始大數(shù)據(jù)中挖掘到的數(shù)據(jù)特征統(tǒng)可以統(tǒng)一由高維向量的形式進(jìn)行表示,從而使得大數(shù)據(jù)的智能處理系統(tǒng)不僅限于為某個(gè)特定的應(yīng)用服務(wù),可以為多種應(yīng)用服務(wù)提供統(tǒng)一有效地處理方法。附圖說(shuō)明為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例提供的一種大數(shù)據(jù)的特征提取方法的流程圖;圖2為一種行為網(wǎng)絡(luò)的結(jié)構(gòu)示意圖;圖3為本發(fā)明實(shí)施例提供的一種用于大數(shù)據(jù)的特征提取裝置的結(jié)構(gòu)組成示意圖。具體實(shí)施方式為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。為了更好的解釋本發(fā)明實(shí)施例,在對(duì)本發(fā)明實(shí)施例進(jìn)行描述之前,對(duì)相關(guān)概念進(jìn)行解釋。數(shù)據(jù)單元是指表示關(guān)系數(shù)據(jù)時(shí)不可分的基本單元,比如某個(gè)“客戶或者用戶”,某個(gè)“年齡段”,某一個(gè)“產(chǎn)品”,某一種“產(chǎn)品分類”等。這些基本單元在生活中是有實(shí)體的。與數(shù)據(jù)單元相對(duì)的是非數(shù)據(jù)單元,是指客戶關(guān)系、客戶對(duì)產(chǎn)品的行為、產(chǎn)品同屬某一系列等組成這些數(shù)據(jù)單元的結(jié)構(gòu)。行為數(shù)據(jù)是指用戶對(duì)產(chǎn)品發(fā)生行為所產(chǎn)生的數(shù)據(jù),例如用戶購(gòu)買、退訂或評(píng)價(jià)某保險(xiǎn)產(chǎn)品而產(chǎn)生的數(shù)據(jù)。行為數(shù)據(jù)描述了兩個(gè)或多個(gè)數(shù)據(jù)單元之間的關(guān)系,通常描述的是“用戶”與“產(chǎn)品”之間的關(guān)系。屬性數(shù)據(jù)是指用戶、產(chǎn)品等數(shù)據(jù)單元和其屬性之間的關(guān)系,例如用戶的年齡、產(chǎn)品的種類等。屬性數(shù)據(jù)描述了數(shù)據(jù)單元與其屬性的關(guān)系,通常描述的是“用戶”與其屬性,或“產(chǎn)品”與其屬性”之間的關(guān)系。文本數(shù)據(jù)是指含有詞匯或短語(yǔ)的文本,可以以詞匯或者短語(yǔ)作為數(shù)據(jù)單元。結(jié)構(gòu)化數(shù)據(jù)是指能夠用數(shù)據(jù)或統(tǒng)一的結(jié)構(gòu)加以表示的數(shù)據(jù),如數(shù)字或者符號(hào),存儲(chǔ)在數(shù)據(jù)庫(kù)里可以用二維表結(jié)構(gòu)來(lái)邏輯表達(dá)實(shí)現(xiàn)。非結(jié)構(gòu)化數(shù)據(jù),相對(duì)于結(jié)構(gòu)化數(shù)據(jù)而言,是指無(wú)法用數(shù)字或統(tǒng)一的結(jié)構(gòu)表示的數(shù)據(jù),不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn),例如文本、圖像、聲音、網(wǎng)頁(yè)、各類報(bào)表等。高維關(guān)系是指該關(guān)系牽涉到多個(gè)數(shù)據(jù)單元(或者指網(wǎng)絡(luò)中的多個(gè)節(jié)點(diǎn)),是多個(gè)數(shù)據(jù)單元的交互。二維關(guān)系是僅有兩個(gè)數(shù)據(jù)單元的交互。購(gòu)買行為在信息富足的情況下是高維關(guān)系的行為,通常可能包括用戶、產(chǎn)品、購(gòu)買地點(diǎn)和購(gòu)買方式等,但如果信息收集不完全,有可能只是二維關(guān)系的行為,比如僅含有用戶和產(chǎn)品。傳統(tǒng)數(shù)據(jù)處理系統(tǒng)僅能夠考慮到二維關(guān)系的行為,但無(wú)法處理高維關(guān)系的行為。而高維關(guān)系的行為產(chǎn)生的高維關(guān)系的數(shù)據(jù)在當(dāng)前的各個(gè)領(lǐng)域中是普遍存在的。此外,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,使得非結(jié)構(gòu)化數(shù)據(jù)的數(shù)量日趨增大。這時(shí),僅能夠?qū)Y(jié)構(gòu)化數(shù)據(jù)進(jìn)行管理和分析的數(shù)據(jù)處理系統(tǒng)的局限性暴露地越來(lái)越明顯。不僅如此,在很多行業(yè)中,不僅限于保險(xiǎn)業(yè)中,對(duì)大數(shù)據(jù)的特征提取仍需要利用專家,無(wú)法僅靠計(jì)算機(jī)來(lái)完成。對(duì)大數(shù)據(jù)進(jìn)行處理的系統(tǒng)還普遍存在準(zhǔn)確性低、計(jì)算效率差,對(duì)用戶請(qǐng)求響應(yīng)緩慢等一系列問(wèn)題。為了解決上述問(wèn)題,本發(fā)明實(shí)施例提供了一種大數(shù)據(jù)的特征提取方法,如圖1所示,所述方法包括:S101:對(duì)原始大數(shù)據(jù)進(jìn)行預(yù)處理。原始大數(shù)據(jù)可以是通過(guò)各個(gè)網(wǎng)站或者應(yīng)用程序(Application,APP)收集而來(lái)的,因而可能包括行為數(shù)據(jù)、屬性數(shù)據(jù)等結(jié)構(gòu)數(shù)據(jù),也可能包括文本數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù),并且數(shù)據(jù)的格式也可能是多種多樣的。因此,在對(duì)數(shù)據(jù)提取特征或者利用數(shù)據(jù)提供服務(wù)之前,可以先對(duì)原始大數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理的方法包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)分析和數(shù)據(jù)歸約等??蛇x地,在本發(fā)明實(shí)施例中,對(duì)原始大數(shù)據(jù)進(jìn)行預(yù)處理可以是,對(duì)所述原始大數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和清理,即對(duì)原始大數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,去除不合規(guī)或錯(cuò)誤的數(shù)據(jù)內(nèi)容,可以是將非法數(shù)據(jù)格式進(jìn)行過(guò)濾,例如去除理應(yīng)為浮點(diǎn)數(shù)、卻填充為字符串型的價(jià)格等數(shù)值,還可以是將時(shí)間或者單位進(jìn)行統(tǒng)一,也可以是對(duì)缺失的指進(jìn)行填寫、光滑噪聲數(shù)據(jù)等,從而可以將大數(shù)據(jù)的格式標(biāo)準(zhǔn)化,清除異常數(shù)據(jù),糾正錯(cuò)誤或者清除重復(fù)數(shù)據(jù)等。S102:對(duì)所述預(yù)處理后的原始大數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化,得到包含節(jié)點(diǎn)和邊的關(guān)系網(wǎng)絡(luò)。所述關(guān)系網(wǎng)絡(luò)中的節(jié)點(diǎn),是由所述預(yù)處理后的原始大數(shù)據(jù)中的數(shù)據(jù)單元轉(zhuǎn)化而來(lái),所述關(guān)系網(wǎng)絡(luò)中的邊,用于表示所述網(wǎng)絡(luò)中節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系。大數(shù)據(jù)通常是以表格的形式進(jìn)行存儲(chǔ),然而這種傳統(tǒng)的數(shù)據(jù)存儲(chǔ)方式,無(wú)法對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一地大規(guī)模的存儲(chǔ)和管理,且會(huì)丟失大量的文本數(shù)據(jù)中所含有的語(yǔ)義信息(該語(yǔ)義信息是有用信息,對(duì)于向用戶提供準(zhǔn)確的應(yīng)用服務(wù)至關(guān)重要),最重要的是,碎片化的表格存儲(chǔ)方式,無(wú)法方便快捷地被后續(xù)應(yīng)用服務(wù)進(jìn)行訪問(wèn)和利用,無(wú)法滿足實(shí)現(xiàn)頻度高、響應(yīng)速度快的應(yīng)用服務(wù)的需求。本發(fā)明實(shí)施例中,通過(guò)對(duì)原始大數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化,可以將表格中的大數(shù)據(jù)或海量數(shù)據(jù)轉(zhuǎn)化為關(guān)系網(wǎng)絡(luò),有效解決了上述問(wèn)題。首先,將預(yù)處理后的原始大數(shù)據(jù)網(wǎng)絡(luò)化之后,可以采用節(jié)點(diǎn)和邊的方式統(tǒng)一處理這些數(shù)據(jù),大大縮減了數(shù)據(jù)存儲(chǔ)和管理的成本。其次,針對(duì)預(yù)處理后的原始大數(shù)據(jù)中的詞匯和短語(yǔ)等文本數(shù)據(jù),將其進(jìn)行網(wǎng)絡(luò)化,構(gòu)建出語(yǔ)義網(wǎng)絡(luò),保留了文本中的語(yǔ)義信息,以便后續(xù)可以有效利用,提高應(yīng)用服務(wù)的準(zhǔn)確性。此外,將預(yù)處理后的原始大數(shù)據(jù)表示為包含節(jié)點(diǎn)和邊的關(guān)系網(wǎng)絡(luò)之后,就可以利用網(wǎng)絡(luò)數(shù)據(jù)的表征學(xué)習(xí)算法,來(lái)實(shí)現(xiàn)對(duì)數(shù)據(jù)的快速、統(tǒng)一的特征提取,從而做到快速響應(yīng)不同應(yīng)用服務(wù)請(qǐng)求??蛇x地,所述預(yù)處理后的原始大數(shù)據(jù)可以包括行為數(shù)據(jù)、屬性數(shù)據(jù)和文本數(shù)據(jù),則對(duì)所述預(yù)處理后的原始大數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化可以包括:對(duì)所述預(yù)處理后的原始大數(shù)據(jù)中的行為數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化,例如將購(gòu)買、評(píng)價(jià)等行為數(shù)據(jù)轉(zhuǎn)化為行為網(wǎng)絡(luò);或者,還可以包括對(duì)所述預(yù)處理后的原始大數(shù)據(jù)中的屬性數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化,例如將年齡、價(jià)格等屬性信息轉(zhuǎn)化為屬性網(wǎng)絡(luò);又或者還可以包括將對(duì)所述預(yù)處理后的原始大數(shù)據(jù)中的文本數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化,例如將產(chǎn)品介紹或者評(píng)價(jià)內(nèi)容等文本數(shù)據(jù)轉(zhuǎn)化為以詞和短語(yǔ)為節(jié)點(diǎn)的語(yǔ)義網(wǎng)絡(luò)。則所述行為網(wǎng)絡(luò)、所述屬性網(wǎng)絡(luò)和所述語(yǔ)義網(wǎng)絡(luò)共同組成了所述關(guān)系網(wǎng)絡(luò)。S103:對(duì)所述關(guān)系網(wǎng)絡(luò)采用基于嵌入映射的表征學(xué)習(xí)算法,得到所述關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)的高維向量。表征學(xué)習(xí)是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中核心的研究問(wèn)題之一。在本發(fā)明實(shí)施例中,通過(guò)對(duì)所述關(guān)系網(wǎng)絡(luò)采用基于嵌入映射的表征學(xué)習(xí)算法,將所述關(guān)系網(wǎng)絡(luò)中的節(jié)點(diǎn),例如用戶、產(chǎn)品和短語(yǔ)等,統(tǒng)一用維度較高的向量來(lái)進(jìn)行表示,并保留了原始大數(shù)據(jù)中的結(jié)構(gòu)信息。其中,每個(gè)向量可以表示所述關(guān)系網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn),該向量中的一個(gè)維度表示了該節(jié)點(diǎn)的一個(gè)特征。所述關(guān)系網(wǎng)絡(luò)中節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系(或者說(shuō)邊),轉(zhuǎn)化為節(jié)點(diǎn)的高維向量與節(jié)點(diǎn)的高維向量之間的相似度,如果節(jié)點(diǎn)1與節(jié)點(diǎn)2之間存在關(guān)系(即在所述關(guān)系網(wǎng)絡(luò)中通過(guò)邊連接),則節(jié)點(diǎn)1的高維向量與節(jié)點(diǎn)2的高維向量之間的相似度高,反之,則相似度低。通過(guò)上述表征學(xué)習(xí)的方式,避免了現(xiàn)有技術(shù)中依賴于專家經(jīng)驗(yàn)的人工特征提取方式,實(shí)現(xiàn)了以大數(shù)據(jù)為驅(qū)動(dòng)而得到的符合數(shù)據(jù)規(guī)律的特征,并特征以向量的形式表示之后,使得后續(xù)可以直接應(yīng)用于多種任務(wù),包括分類、聚類、預(yù)測(cè)等。進(jìn)一步地,采用基于嵌入映射的表征學(xué)習(xí)算法,能夠盡可能地保留所述關(guān)系網(wǎng)絡(luò)中的結(jié)構(gòu)信息,并且針對(duì)不同的網(wǎng)絡(luò)可以保留不同的結(jié)構(gòu)信息。例如,對(duì)于“用戶-產(chǎn)品”的行為網(wǎng)絡(luò),可以保留購(gòu)買行為信息,使得向量中相似特征表示的用戶具有相似的購(gòu)買習(xí)慣,相似特征表示的產(chǎn)品具有相似的購(gòu)買人群,比如可以選擇高維向量中的50維向量來(lái)保存“購(gòu)買行為關(guān)系”這種結(jié)構(gòu)信息,使得存在“購(gòu)買行為關(guān)系”這種結(jié)構(gòu)的兩個(gè)節(jié)點(diǎn)(用戶與產(chǎn)品)對(duì)應(yīng)的高維向量之間的向量相似度高,還可以選擇高維向量中的另外的50維向量來(lái)保存“相似購(gòu)買傾向”這種結(jié)果信息,使得存在“相似購(gòu)買傾向”這種結(jié)構(gòu)的兩個(gè)節(jié)點(diǎn)這種結(jié)構(gòu)的兩個(gè)節(jié)點(diǎn)(用戶與用戶)對(duì)應(yīng)的高維向量之間的向量相似度高。由此可知,這將會(huì)大大提升后期應(yīng)用服務(wù)對(duì)應(yīng)的分類和預(yù)測(cè)等任務(wù)的準(zhǔn)確性,解決了現(xiàn)有技術(shù)中無(wú)法有效提取數(shù)據(jù)中的結(jié)構(gòu)信息,丟失了大量有效信息的問(wèn)題。此外,常見的學(xué)習(xí)方法是利用矩陣或張量分解獲取節(jié)點(diǎn)的高維表示,然而這類方法往往面臨復(fù)雜度過(guò)高(立方級(jí)別)的問(wèn)題,無(wú)法廣泛應(yīng)用于海量數(shù)據(jù)的工業(yè)化場(chǎng)景中,并且計(jì)算效率也不高。而在本發(fā)明實(shí)施例中,采用嵌入映射的學(xué)校方法,該方法采用了負(fù)采樣技術(shù)(NegativeSampling),針對(duì)大量數(shù)據(jù)進(jìn)行合理比例地采樣學(xué)習(xí),從而保證了學(xué)習(xí)工程能夠用較少的時(shí)間達(dá)到較好的學(xué)習(xí)結(jié)果。并且通過(guò)將所述關(guān)系網(wǎng)絡(luò)用高維向量進(jìn)行表示之后,不僅可以可以縮短學(xué)習(xí)的時(shí)間,還可以大大的提高后期的計(jì)算效率,快速響應(yīng)用戶的請(qǐng)求。表征學(xué)習(xí)算法的實(shí)現(xiàn),除了利用基于嵌入映射,還有其他方式,比如奇異值分解、非負(fù)矩陣分解等,但這這些方法僅限于二維關(guān)系網(wǎng)絡(luò),并且計(jì)算速度也非常的緩慢。本發(fā)明實(shí)施例中,考慮到目前無(wú)論是保險(xiǎn)行業(yè)、金融行業(yè)、購(gòu)物和電商等等的應(yīng)用場(chǎng)景中,收集到的大數(shù)據(jù)越來(lái)越趨于多樣化,利用本發(fā)明實(shí)施例的技術(shù)處理后得到的關(guān)系網(wǎng)絡(luò),往往不僅限于二維關(guān)系網(wǎng)絡(luò),在絕大部分情況下是高維關(guān)系網(wǎng)絡(luò)。數(shù)據(jù)的規(guī)模往往也相當(dāng)?shù)拇?,因此選用基于嵌入映射的表征學(xué)習(xí)算法,不僅可以應(yīng)用于二維關(guān)系網(wǎng)絡(luò)和多維關(guān)系網(wǎng)絡(luò),而且可以實(shí)現(xiàn)計(jì)算速度的加速,大大縮短計(jì)算時(shí)間,快速響應(yīng)應(yīng)用需求。具體地,可以采用“嵌入映射”的表征學(xué)習(xí)算法,利用范疇論中的“態(tài)射”實(shí)現(xiàn)保結(jié)構(gòu)映射的降維“嵌入”來(lái)實(shí)現(xiàn)表征學(xué)習(xí)。即針對(duì)所述關(guān)系網(wǎng)絡(luò)中的數(shù)據(jù),通過(guò)保留所述關(guān)系網(wǎng)絡(luò)中的結(jié)構(gòu)信息的學(xué)習(xí)算法,獲得節(jié)點(diǎn)的高維向量表示。在本發(fā)明實(shí)施例中,通過(guò)預(yù)處理后的原始大數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化,得到包含節(jié)點(diǎn)和邊的關(guān)系網(wǎng)絡(luò),并對(duì)所述關(guān)系網(wǎng)絡(luò)采用基于嵌入映射的表征學(xué)習(xí)算法,得到所述關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)的高維向量,即實(shí)現(xiàn)了對(duì)原始大數(shù)據(jù)的特征提取,且整個(gè)過(guò)程不需要依靠專家的經(jīng)驗(yàn),無(wú)需人的參與,利用基于嵌入映射的表征學(xué)習(xí)算法自動(dòng)完成,計(jì)算效率高。不同于現(xiàn)有技術(shù),在本發(fā)明實(shí)施例中特征提取的過(guò)程中還極大地保留了有效信息,從而提高了后續(xù)的分類或預(yù)測(cè)等任務(wù)的準(zhǔn)確性。可選地,在獲取到原始大數(shù)據(jù)中的特征之后,可以利用這些特征,為用戶提供應(yīng)用服務(wù)。因此,在步驟S103之后,本發(fā)明實(shí)施例還可以包含如下步驟:S104:獲取用戶的應(yīng)用服務(wù)請(qǐng)求。用戶在瀏覽網(wǎng)頁(yè),使用某個(gè)APP,或者點(diǎn)擊某個(gè)操作界面的某個(gè)功能按鈕等情況下,都有可能觸發(fā)應(yīng)用服務(wù)請(qǐng)求,因此可以獲取該應(yīng)用服務(wù)請(qǐng)求,以確定后續(xù)應(yīng)該采用的相關(guān)算法。S105:確定所述應(yīng)用服務(wù)請(qǐng)求對(duì)應(yīng)的處理算法。S106:利用所述應(yīng)用服務(wù)請(qǐng)求對(duì)應(yīng)的處理算法和所述關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)的高維向量,確定所述應(yīng)用服務(wù)請(qǐng)求的結(jié)果??梢詫?yīng)用層的服務(wù)定義為排序、分類、聚類、預(yù)測(cè)、關(guān)聯(lián)分析和異常檢測(cè)等任務(wù),這些任務(wù)可以用特定的處理算法完成,根據(jù)表征學(xué)習(xí)后所得到的高維向量,利用上述任務(wù)對(duì)應(yīng)的處理算法(即應(yīng)用服務(wù)請(qǐng)求對(duì)應(yīng)的處理算法),就可以獲得準(zhǔn)確、高效的解決方案,并返回給用戶。具體地,可以預(yù)先指定或者獲取所述應(yīng)用服務(wù)請(qǐng)求與處理算法之間的對(duì)應(yīng)關(guān)系,例如當(dāng)應(yīng)用服務(wù)請(qǐng)求是產(chǎn)品推薦時(shí),可以知道推薦產(chǎn)品實(shí)際就是進(jìn)行預(yù)測(cè),預(yù)測(cè)得到的用戶最可能購(gòu)買的一系列產(chǎn)品,處理算法即計(jì)算用戶節(jié)點(diǎn)的高維向量與產(chǎn)品節(jié)點(diǎn)的高維向量的相似程度,那么如果預(yù)先指定或者獲取該應(yīng)用服務(wù)請(qǐng)求與該處理算法的對(duì)應(yīng)關(guān)系,那么在收到該應(yīng)用服務(wù)請(qǐng)求后,就可以確定所述應(yīng)用服務(wù)請(qǐng)求對(duì)應(yīng)的處理算法是計(jì)算用戶節(jié)點(diǎn)的高維向量與產(chǎn)品節(jié)點(diǎn)的高維向量的相似程度。最后,利用用戶節(jié)點(diǎn)的高維向量和產(chǎn)品節(jié)點(diǎn)的高維向量,進(jìn)行相似度計(jì)算,就可以得到與用戶相似度最高的一些列產(chǎn)品,即得到所述應(yīng)用服務(wù)請(qǐng)求的結(jié)果。由此可知,S101-S106,實(shí)際上提供了一種完整的利用原始大數(shù)據(jù)為用戶提供應(yīng)用服務(wù)的處理方法,,由于數(shù)據(jù)的特征統(tǒng)一由高維向量的形式進(jìn)行表示,使得可以根據(jù)應(yīng)用服務(wù)請(qǐng)求,來(lái)確定處理算法,從而利用以高維向量進(jìn)行表示的特征,來(lái)確定所述應(yīng)用服務(wù)請(qǐng)求的結(jié)果,使得本發(fā)明實(shí)施例所述的方法,不僅限于某個(gè)特定的應(yīng)用服務(wù),可以為多種應(yīng)用服務(wù)提供統(tǒng)一有效地處理方法。需要注意的是,本發(fā)明實(shí)施例所述的大數(shù)據(jù)的特征提取方法,不僅僅可以應(yīng)用于保險(xiǎn)業(yè)領(lǐng)域,還可以應(yīng)用于其他領(lǐng)域,例如應(yīng)用于金融領(lǐng)域、購(gòu)物消費(fèi)領(lǐng)域等,尤其適用于對(duì)包含結(jié)構(gòu)數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)進(jìn)行處理的情況,以及需要處理高維關(guān)系的數(shù)據(jù)的場(chǎng)合,較現(xiàn)有技術(shù)將具有明顯的優(yōu)勢(shì)。需要說(shuō)明的是,S106中,利用所述關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)的高維向量,確定所述應(yīng)用服務(wù)請(qǐng)求的結(jié)果時(shí),可以利用所述關(guān)系網(wǎng)絡(luò)的所有節(jié)點(diǎn)的高維向量去確定所述應(yīng)用服務(wù)請(qǐng)求的結(jié)果;還可以只利用所述關(guān)系網(wǎng)絡(luò)的部分的高維向量,去確定所述應(yīng)用服務(wù)請(qǐng)求的結(jié)果。具體地,可以只利用與所述應(yīng)用服務(wù)請(qǐng)求相關(guān)的節(jié)點(diǎn)去確定所述應(yīng)用服務(wù)請(qǐng)求的結(jié)果。例如,當(dāng)應(yīng)用服務(wù)請(qǐng)求是產(chǎn)品推薦時(shí),可以只利用產(chǎn)品節(jié)點(diǎn)的高維向量和用戶節(jié)點(diǎn)的高維向量進(jìn)行計(jì)算??蛇x地,在步驟S102中,具體該如何對(duì)行為數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化、對(duì)文本數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化或者對(duì)屬性數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化,可以參照以下方式。1、對(duì)所述預(yù)處理后的原始大數(shù)據(jù)中的行為數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化具體地,行為數(shù)據(jù)描述了兩個(gè)或多個(gè)數(shù)據(jù)單元之間的關(guān)系,對(duì)行為數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化是指將該關(guān)系表示成網(wǎng)絡(luò)的邊,數(shù)據(jù)單元表示為網(wǎng)絡(luò)的節(jié)點(diǎn)。該網(wǎng)絡(luò)可以是二維關(guān)系網(wǎng)絡(luò),還可以是高維關(guān)系網(wǎng)絡(luò),相應(yīng)地,對(duì)行為數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化時(shí)可以將關(guān)系表示成二維的邊或高維的邊。即將購(gòu)買、退訂或評(píng)價(jià)等行為表示為網(wǎng)絡(luò)的的邊。其中,二維的邊是指邊上含有兩個(gè)節(jié)點(diǎn),高維的邊是指邊上含有多個(gè)節(jié)點(diǎn)。舉例來(lái)說(shuō):簡(jiǎn)略的用戶的行為數(shù)據(jù)可以表示為“用戶-產(chǎn)品”的二維關(guān)系形式。此外,用戶行為可能還具有豐富的上下文信息,可以將上下文信息節(jié)點(diǎn)化后形成多元關(guān)系圖,如“用戶-產(chǎn)品-評(píng)價(jià)”的三維關(guān)系圖。以張先生對(duì)保險(xiǎn)產(chǎn)品A進(jìn)行購(gòu)買的行為為例,張先生購(gòu)買該給予該保險(xiǎn)產(chǎn)品A的評(píng)價(jià)為:價(jià)格雖然昂貴,但還是值得的。對(duì)上述數(shù)據(jù)進(jìn)行行為數(shù)據(jù)網(wǎng)絡(luò)化可以得到如圖2所示的行為網(wǎng)絡(luò)。在圖2中,將“張先生”和“保險(xiǎn)產(chǎn)品A”表示為該行為網(wǎng)絡(luò)的節(jié)點(diǎn),購(gòu)買行為構(gòu)成了上述兩個(gè)節(jié)點(diǎn)之間的邊。此外,評(píng)價(jià)的短語(yǔ)或詞語(yǔ)——“昂貴”以及“值得的”,表示為網(wǎng)絡(luò)的節(jié)點(diǎn),該部分其實(shí)屬于對(duì)文本數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化,將在后面的描述中進(jìn)行詳細(xì)解釋。由此形成了“用戶-產(chǎn)品-評(píng)價(jià)”的行為網(wǎng)絡(luò),也即三維關(guān)系網(wǎng)絡(luò)。2、對(duì)所述預(yù)處理后的原始大數(shù)據(jù)中的文本數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化對(duì)文本數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化就是將詞匯或短語(yǔ)組成的數(shù)據(jù)單元表示為網(wǎng)絡(luò)的節(jié)點(diǎn),從而將文本構(gòu)建成以詞匯或短語(yǔ)為節(jié)點(diǎn)的關(guān)系網(wǎng)絡(luò)。網(wǎng)絡(luò)中以詞匯或短語(yǔ)組成的節(jié)點(diǎn)之間的邊,描述了它們出現(xiàn)在句子或文檔中的頻度。例如,如果“昂貴”和“值得的”這兩個(gè)短語(yǔ)共同出在了3個(gè)句子之中,則“昂貴”和“值得的”可以作為關(guān)系網(wǎng)絡(luò)的兩個(gè)節(jié)點(diǎn),它們之間可以存在邊進(jìn)行連接,邊的權(quán)重可以設(shè)置為3;如果網(wǎng)絡(luò)中“昂貴”和“真便宜”從未在句子中共同出現(xiàn),則這兩個(gè)節(jié)點(diǎn)之間不存在邊進(jìn)行連接。另外,這些以詞匯或短語(yǔ)組成的節(jié)點(diǎn)和其他節(jié)點(diǎn)(如用戶、產(chǎn)品)等形成的邊,屬于行為數(shù)據(jù),描述了兩個(gè)或多個(gè)數(shù)據(jù)單元之間的關(guān)系。以上述張先生對(duì)保險(xiǎn)產(chǎn)品A進(jìn)行購(gòu)買和評(píng)價(jià)為例,可以將評(píng)價(jià)內(nèi)容等文本數(shù)據(jù)進(jìn)行結(jié)構(gòu)化,即進(jìn)行分詞、短語(yǔ)抽取、類別標(biāo)注、情感分析等等,從而將自然語(yǔ)言表述成可以處理的數(shù)據(jù)結(jié)構(gòu)。具體地,根據(jù)“價(jià)格雖然昂貴,但還是值得的”,可以獲知“昂貴”和“值得的”是核心詞匯,并且“昂貴”描述了產(chǎn)品在“價(jià)格”層面的特征,“值得的”反映了用戶積極的購(gòu)買心態(tài)和情感。因而在對(duì)該文本數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化時(shí),將“昂貴”和“值得的”表示為網(wǎng)絡(luò)的節(jié)點(diǎn),這兩個(gè)節(jié)點(diǎn)與其它節(jié)點(diǎn),如用戶以及產(chǎn)品形成的邊,屬于行為數(shù)據(jù)。由此可知,對(duì)文本數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化,不僅實(shí)現(xiàn)了對(duì)非結(jié)構(gòu)化數(shù)據(jù)的分析,而且可以將詞匯或短語(yǔ)等與行為數(shù)據(jù)進(jìn)行關(guān)聯(lián),保留了一定的有用信息。3、對(duì)所述預(yù)處理后的原始大數(shù)據(jù)中的屬性數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化屬性數(shù)據(jù)描述了數(shù)據(jù)單元與其屬性的關(guān)系,對(duì)屬性數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化是指將該關(guān)系表示成網(wǎng)絡(luò)的邊,將數(shù)據(jù)單元表示為網(wǎng)絡(luò)的節(jié)點(diǎn)。屬性數(shù)據(jù)既可以是類別信息,例如健康險(xiǎn)或者旅游險(xiǎn),還可以是年齡或者價(jià)格等數(shù)值信息。從而對(duì)屬性數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化,可以是將類別信息表示為網(wǎng)絡(luò)的節(jié)點(diǎn),將年齡、價(jià)格等屬性信息中的數(shù)值信息進(jìn)行分區(qū)間后,進(jìn)行節(jié)點(diǎn)化表示。例如,年齡為25歲的張先生,購(gòu)買了價(jià)格為2000的保險(xiǎn)產(chǎn)品。在這個(gè)例子中,可以將某個(gè)包含25歲的年齡區(qū)間表示為節(jié)點(diǎn),如可以將年齡在24-30歲之間的青年表示為節(jié)點(diǎn)“青壯年”;可以將某個(gè)包含價(jià)格為2000的數(shù)值的價(jià)格區(qū)間表示為節(jié)點(diǎn),如將價(jià)格在1000-5000之間表示為節(jié)點(diǎn)“入門級(jí)保險(xiǎn)產(chǎn)品”。通過(guò)上述處理后,最終轉(zhuǎn)化為“用戶-年齡層”和“產(chǎn)品-價(jià)格區(qū)間”的屬性網(wǎng)絡(luò)??蛇x地,對(duì)所述預(yù)處理后的原始大數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化之后,可以對(duì)所述關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)和邊進(jìn)行格式規(guī)整的大規(guī)模存儲(chǔ)和管理,以方便后續(xù)的特征提取和使用。因此,在S102之后,還可以包括:S102’:將所述關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)和邊保存在數(shù)據(jù)庫(kù)中。例如,所述數(shù)據(jù)庫(kù)中可以存儲(chǔ)兩種表格用以分別保存所述關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)和邊,保存節(jié)點(diǎn)信息的表格中每行是節(jié)點(diǎn)的ID、名稱和查詢頻次等。保存邊信息的表格中的每行是邊的ID、相關(guān)節(jié)點(diǎn)的ID和產(chǎn)生時(shí)間等。對(duì)所述預(yù)處理后的原始大數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化之后,實(shí)際上將所有的網(wǎng)絡(luò)化處理前的數(shù)據(jù)都轉(zhuǎn)變?yōu)榱私Y(jié)構(gòu)化數(shù)據(jù)。在實(shí)際應(yīng)用中,對(duì)于結(jié)構(gòu)化數(shù)據(jù)進(jìn)行管理(StructuredDataManagement),存在若干種數(shù)據(jù)管理技術(shù),比如分布式存儲(chǔ)、云數(shù)據(jù)庫(kù)、NOSQL數(shù)據(jù)庫(kù)(非關(guān)系型數(shù)據(jù)庫(kù))和移動(dòng)數(shù)據(jù)庫(kù)等。例如BaseX、MongoDB和No2DB是分別依托Java、C++和C#語(yǔ)言開發(fā)成為流行的三種NO-SQL數(shù)據(jù)庫(kù);MySQL和HBase是常用數(shù)據(jù)庫(kù)軟件;網(wǎng)絡(luò)關(guān)系存儲(chǔ)中AllegroGraph、DEX、Neo4j和FlockDB是依托于SPARQL、Java和Scala的圖形數(shù)據(jù)庫(kù)。可選地,在實(shí)現(xiàn)步驟S103時(shí),由于所述關(guān)系網(wǎng)絡(luò)既可能包擴(kuò)語(yǔ)義網(wǎng)絡(luò),也可能包括屬性網(wǎng)絡(luò)和行為網(wǎng)絡(luò)。它們既可能屬于同構(gòu)關(guān)系網(wǎng)絡(luò)、也可能屬于二維關(guān)系網(wǎng)絡(luò),還可能屬于高維關(guān)系網(wǎng)絡(luò)。因此,對(duì)所述關(guān)系網(wǎng)絡(luò)采用基于嵌入映射的表征學(xué)習(xí)算法,得到所述關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)的高維向量可以包括:對(duì)所述關(guān)系網(wǎng)絡(luò)中的高維關(guān)系網(wǎng)絡(luò)進(jìn)行嵌入映射,得到所述高維關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)的高維向量;或者,對(duì)所述關(guān)系網(wǎng)絡(luò)中的二維關(guān)系網(wǎng)絡(luò)進(jìn)行嵌入映射,得到所述二維關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)的高維向量;或者,對(duì)所述關(guān)系網(wǎng)絡(luò)中的語(yǔ)義網(wǎng)絡(luò)進(jìn)行嵌入映射,得到所述語(yǔ)義網(wǎng)絡(luò)的節(jié)點(diǎn)的高維向量;或者對(duì)所述關(guān)系網(wǎng)絡(luò)中的同構(gòu)網(wǎng)絡(luò)進(jìn)行行嵌入映射,得到所述同構(gòu)網(wǎng)絡(luò)的節(jié)點(diǎn)的高維向量。一、對(duì)所述語(yǔ)義網(wǎng)絡(luò)進(jìn)行嵌入映射(TextEmbedding)利用嵌入映射的方法,將語(yǔ)義網(wǎng)絡(luò)中的詞和短語(yǔ)形式的節(jié)點(diǎn)表示為高維向量,并且通過(guò)嵌入映射后,使得節(jié)點(diǎn)中表示相近的詞或者短語(yǔ)的節(jié)點(diǎn)的高維向量相似度很高,即使得相近的詞與短語(yǔ)具有相似的語(yǔ)義。具體地,可以基于Skip-gram模型的詞嵌入映射方法,通過(guò)學(xué)習(xí)詞的向量表示,來(lái)達(dá)到精準(zhǔn)預(yù)測(cè)臨近詞語(yǔ)的目的。最有效地學(xué)習(xí)目標(biāo)(即最大化的目標(biāo)函數(shù))為:隱藏在句子中某個(gè)詞語(yǔ)后,通過(guò)給定的句中臨近的其他詞語(yǔ),可以得到最適合的被隱藏的詞的向量。在自然語(yǔ)態(tài)下,能夠填進(jìn)隱藏的詞語(yǔ)所在空缺的詞語(yǔ)之間是具有相似語(yǔ)義的,則在進(jìn)行嵌入映射時(shí),使得它們的向量的相似度很高。簡(jiǎn)而言之,語(yǔ)義網(wǎng)絡(luò)的嵌入映射最大化條件概率的目標(biāo)函數(shù)是給定臨近節(jié)點(diǎn)(相連接的節(jié)點(diǎn))的向量,預(yù)測(cè)目標(biāo)節(jié)點(diǎn)的向量,使得與給定的一些節(jié)點(diǎn)相連接的節(jié)點(diǎn)之間具有相似的向量。還可以進(jìn)行進(jìn)一步拓展,融入詞、短語(yǔ)和短語(yǔ)類別等多種元素,實(shí)現(xiàn)語(yǔ)義層面的表征學(xué)習(xí)。選定訓(xùn)練的文本的上下文信息的規(guī)模c,也即窗口大小,將當(dāng)前詞wt作為輸入,將臨近的單位元作為輸出層的訓(xùn)練模型的最大化的目標(biāo)函數(shù)為:其中,wi指代文本中的第i個(gè)詞語(yǔ)。通過(guò)該最大化該目標(biāo)函數(shù),學(xué)習(xí)得到每一個(gè)詞語(yǔ)的向量表示w(i),使得給定向量w(t)和位置t時(shí),學(xué)習(xí)該目標(biāo)函數(shù)就可以得到位置(t+j)的向量會(huì)和實(shí)際文檔中該位置的詞的向量的相似度很高(概率被最大化),使得相近的詞與短語(yǔ)具有相似的語(yǔ)義,讓詞語(yǔ)的語(yǔ)義能夠被保留下來(lái)。例如,語(yǔ)義網(wǎng)絡(luò)中出現(xiàn)“今天”、“中午”、“吃了”這幾個(gè)臨近的詞語(yǔ),可能來(lái)自原始大數(shù)據(jù)中的文本信息“今天中午吃了米飯”和“今天中午吃了白飯”。采用本發(fā)明實(shí)施例的方法,此時(shí)“白飯”、“米飯”的向量就是w(t),“今天”、“中午”、“吃了”的向量就是w(t+j),也就是w(t-3),w(t-2),w(t-1),通過(guò)基于嵌入映射的表征學(xué)習(xí)算法,得到“白飯”和“米飯”對(duì)應(yīng)的向量的相似度很高,即“白飯”和“米飯”這兩個(gè)語(yǔ)或者短語(yǔ)具有相似語(yǔ)義。而在現(xiàn)有技術(shù)中,由于“白飯”和“米飯”是兩個(gè)不同詞語(yǔ),則認(rèn)為“白飯”和“米飯”是不同的,無(wú)法保留語(yǔ)義信息。二、對(duì)所述二維關(guān)系網(wǎng)絡(luò)進(jìn)行嵌入映射(BipartiteNetworkEmbedding)二維關(guān)系網(wǎng)絡(luò)是指網(wǎng)絡(luò)中每一條邊都對(duì)應(yīng)兩個(gè)節(jié)點(diǎn),并且網(wǎng)絡(luò)中的節(jié)點(diǎn)只有兩類,比如“用戶-產(chǎn)品”就是一種二維關(guān)系網(wǎng)絡(luò)。對(duì)所述二維關(guān)系網(wǎng)絡(luò)進(jìn)行嵌入映射是指利用嵌入映射的方法,將具有二維關(guān)系(如用戶-產(chǎn)品、用戶-年齡、產(chǎn)品-價(jià)格等)的行為網(wǎng)絡(luò)和屬性網(wǎng)絡(luò)中的節(jié)點(diǎn)(如用戶、產(chǎn)品、年齡層、價(jià)格層等節(jié)點(diǎn))表示為高維向量。于語(yǔ)義網(wǎng)絡(luò)的嵌入映射一樣,二維關(guān)系網(wǎng)絡(luò)的嵌入映射,最大化條件概率的目標(biāo)函數(shù)是給定臨近節(jié)點(diǎn)(相連接的節(jié)點(diǎn))的向量,預(yù)測(cè)目標(biāo)節(jié)點(diǎn)的向量,使得與給定的一些節(jié)點(diǎn)vj相連接的節(jié)點(diǎn)vi之間具有相似的向量。假設(shè)二維關(guān)系網(wǎng)絡(luò)中含有A類節(jié)點(diǎn)和B類節(jié)點(diǎn)。則通過(guò)該最大化該目標(biāo)函數(shù),可以在給定B類節(jié)點(diǎn)vj時(shí),得出的與vj相連接的節(jié)點(diǎn)的向量,會(huì)和A類節(jié)點(diǎn)vi的向量相似,即條件概率最大化??梢远x由B類節(jié)點(diǎn)中的vj能夠產(chǎn)生A類節(jié)點(diǎn)的vi表示的條件概率為:其中ui是vi的高維向量,uj是vj的高維向量。以“用戶-產(chǎn)品”組成的二維關(guān)系網(wǎng)絡(luò)為例,假設(shè)A類節(jié)點(diǎn)表示用戶,B類節(jié)點(diǎn)表示產(chǎn)品,那么通過(guò)上述方式,可以在給定某個(gè)產(chǎn)品的情況下,預(yù)測(cè)出有哪些用戶可能會(huì)買,或者說(shuō)可以計(jì)算得到用戶購(gòu)買該產(chǎn)品的概率是多少。舉例來(lái)說(shuō),對(duì)數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化之后,存在二維關(guān)系網(wǎng)絡(luò)為:用戶A-產(chǎn)品C,用戶A-產(chǎn)品D,用戶B-產(chǎn)品C。那么目標(biāo)函數(shù)為:給定“產(chǎn)品C”節(jié)點(diǎn)時(shí),通過(guò)改變(學(xué)習(xí))“用戶A”節(jié)點(diǎn)和“用戶B”節(jié)點(diǎn)對(duì)應(yīng)的向量,讓與“產(chǎn)品C”節(jié)點(diǎn)相連接的所有節(jié)點(diǎn)的向量既與“用戶A”節(jié)點(diǎn)的向量相似,又與“用戶B”節(jié)點(diǎn)的向量相似,于是“用戶A”節(jié)點(diǎn)的向量和“用戶B”節(jié)點(diǎn)的向量相似。通過(guò)上述方式,成功的保存了網(wǎng)絡(luò)中的結(jié)構(gòu)信息,大大提升了后續(xù)解決相應(yīng)問(wèn)題的準(zhǔn)確性。三、對(duì)所述高維關(guān)系網(wǎng)絡(luò)進(jìn)行嵌入映射(TensorNetworkEmbedding)高維關(guān)系網(wǎng)絡(luò)是指網(wǎng)絡(luò)中有邊是對(duì)應(yīng)三個(gè)節(jié)點(diǎn)的,例如圖2所示的“用戶-產(chǎn)品-評(píng)價(jià)”網(wǎng)絡(luò)屬于高維關(guān)系網(wǎng)絡(luò)。高維關(guān)系(High-orderRelation)也是數(shù)據(jù)中常見的,比如評(píng)價(jià)行為同時(shí)涉及用戶、產(chǎn)品和評(píng)價(jià)文本,因而需要用張量而非矩陣、三元關(guān)系而非簡(jiǎn)單的二部圖來(lái)表示這樣的行為數(shù)據(jù)。對(duì)所述高維關(guān)系網(wǎng)絡(luò)進(jìn)行嵌入映射是指利用嵌入映射的方法,將具有高維關(guān)系(如用戶-產(chǎn)品-評(píng)價(jià))的行為網(wǎng)絡(luò)和屬性網(wǎng)絡(luò)中的節(jié)點(diǎn)表示為高維向量。于語(yǔ)義網(wǎng)絡(luò)的嵌入映射一樣,高維關(guān)系網(wǎng)絡(luò)的嵌入映射,最大化條件概率的目標(biāo)函數(shù)是給定臨近節(jié)點(diǎn)(相連接的節(jié)點(diǎn))的向量,預(yù)測(cè)目標(biāo)節(jié)點(diǎn)的向量,使得與給定的一些節(jié)點(diǎn)相連接的節(jié)點(diǎn)之間具有相似的向量。要實(shí)現(xiàn)高維關(guān)系網(wǎng)絡(luò)的嵌入映射,需要更新目標(biāo)函數(shù),可以有兩種處理方法。一種是每采樣一次多元關(guān)系,更新相關(guān)聯(lián)節(jié)點(diǎn)的向量表示,那么最大化的目標(biāo)函數(shù)如下:其中,S是節(jié)點(diǎn)的集合,A(j)是指與j節(jié)點(diǎn)相關(guān)聯(lián)的高維關(guān)系集合,r(m\j)是指其中的一個(gè)高維關(guān)系,m是該高維關(guān)系的編號(hào),λm,/j是該高維關(guān)系的權(quán)重,P1是給定該高維關(guān)系時(shí)所關(guān)聯(lián)節(jié)點(diǎn)的概率,L1是對(duì)于每一個(gè)節(jié)點(diǎn)j,最大化其所關(guān)聯(lián)高維關(guān)系中節(jié)點(diǎn)兩兩之間向量的相似度。另一種是采樣多元關(guān)系時(shí),分裂成若干個(gè)二元關(guān)系,并更新關(guān)聯(lián)節(jié)點(diǎn)的向量表示,最大化目標(biāo)函數(shù)如下:其中,是高維關(guān)系拆分成多個(gè)二維關(guān)系后所有二維關(guān)系的集合,rm是第m個(gè)二維關(guān)系,λm是第m個(gè)二維關(guān)系的權(quán)重,P2是給定該高維關(guān)系時(shí)所關(guān)聯(lián)節(jié)點(diǎn)的概率,L2是對(duì)于每一個(gè)拆分后的二維關(guān)系,最大化該關(guān)系的兩個(gè)節(jié)點(diǎn)之間向量相似度。舉例來(lái)說(shuō),假設(shè)對(duì)數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化之后的高維關(guān)系網(wǎng)絡(luò)為:用戶A-產(chǎn)品C-購(gòu)買地點(diǎn)E,用戶A-產(chǎn)品C-購(gòu)買地點(diǎn)F,用戶B-產(chǎn)品C-購(gòu)買地點(diǎn)E。那么目標(biāo)函數(shù)就是給定“產(chǎn)品C”節(jié)點(diǎn)和“購(gòu)買地E”節(jié)點(diǎn)后,與它們相關(guān)聯(lián)(即通過(guò)邊相連)的節(jié)點(diǎn)的向量相似,從而讓“用戶A”節(jié)點(diǎn)的向量和“用戶B”節(jié)點(diǎn)的向量相似。當(dāng)然,我們可能會(huì)遍歷每一種給定信息,如給定“用戶A”節(jié)點(diǎn)和“產(chǎn)品C”節(jié)點(diǎn)后,讓“購(gòu)買地點(diǎn)E”節(jié)點(diǎn)和“購(gòu)買地點(diǎn)F”節(jié)點(diǎn)對(duì)應(yīng)的向量相似。如果采用最大目標(biāo)函數(shù)L1,即給定某個(gè)關(guān)系的其它節(jié)點(diǎn)(如產(chǎn)品C和購(gòu)買地E),讓被隱藏的一個(gè)節(jié)點(diǎn)被學(xué)習(xí)(如用戶節(jié)點(diǎn))。如果采用最大目標(biāo)函數(shù)L2,即把高維關(guān)系分裂成A-C、C-E、A-E、A-C、A-F、C-F等9個(gè)二維關(guān)系,然后調(diào)用二維關(guān)系的嵌入映射實(shí)現(xiàn)。由上述對(duì)語(yǔ)義網(wǎng)絡(luò)進(jìn)行嵌入映射、對(duì)二維網(wǎng)絡(luò)進(jìn)行嵌入映射以及對(duì)高維網(wǎng)絡(luò)進(jìn)行嵌入映射可知,通過(guò)對(duì)所述關(guān)系網(wǎng)絡(luò)采用基于嵌入映射的表征學(xué)習(xí)算法,可以將關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)統(tǒng)一用維度較高的向量來(lái)進(jìn)行表示,向量的每一個(gè)維度代表了該節(jié)點(diǎn)的特征,實(shí)現(xiàn)了原始大數(shù)據(jù)的特征提取。且由于高維向量中并保留了原始大數(shù)據(jù)中的結(jié)構(gòu)信息,如語(yǔ)義信息、購(gòu)買行為信息等,大大提升后期應(yīng)用服務(wù)對(duì)應(yīng)的分類和預(yù)測(cè)等任務(wù)的準(zhǔn)確性。而且本發(fā)明實(shí)施例中的基于嵌入映射的表征學(xué)習(xí)算法,還可以應(yīng)用于高維關(guān)系的數(shù)據(jù),適用于各種復(fù)雜的應(yīng)用環(huán)境,且計(jì)算速度很快,可以快速響應(yīng)應(yīng)用需求。可選地,在實(shí)現(xiàn)步驟S105-S106時(shí),可以將應(yīng)用服務(wù)請(qǐng)求轉(zhuǎn)化為排序、分類、聚類、預(yù)測(cè)、關(guān)聯(lián)分析和異常檢測(cè)等任務(wù),這些任務(wù)可以用特定的處理算法完成,可以預(yù)先指定或者獲取這些任務(wù)與處理算法之間的對(duì)應(yīng)關(guān)系(即所述應(yīng)用服務(wù)請(qǐng)求與處理算法之間的對(duì)應(yīng)關(guān)系),從而當(dāng)獲取到應(yīng)用服務(wù)請(qǐng)求時(shí),可以知道采用何種處理算法。為了更好的理解本發(fā)明實(shí)施例,了解到這些任務(wù)與何種處理算法對(duì)應(yīng),如何用處理算法完成的,本發(fā)明實(shí)施例將對(duì)相關(guān)內(nèi)容做詳細(xì)的介紹。1、排序(Ranking)任務(wù)排序任務(wù)往往基于某種特定的相似度實(shí)現(xiàn),通常涉及到所述關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)的相似度計(jì)算,包括皮爾森關(guān)聯(lián)度(PearsonCorrelation)和余弦相似度(CosineSimilarity)等。舉例來(lái)說(shuō),當(dāng)應(yīng)用服務(wù)請(qǐng)求需要解決的問(wèn)題是,給定某個(gè)產(chǎn)品,列出與之在被購(gòu)買方面最相似的產(chǎn)品時(shí),可以將該問(wèn)題轉(zhuǎn)化為排序任務(wù)。處理算法:我們可以通過(guò)執(zhí)行S101-S103得到的高維向量中,找到該產(chǎn)品節(jié)點(diǎn)的高維向量ui,則問(wèn)題轉(zhuǎn)化為求出與ui相似度最高的一系列產(chǎn)品節(jié)點(diǎn)。由于每一個(gè)產(chǎn)品節(jié)點(diǎn)都具有一個(gè)高維向量表示,通常為K維(K通常為200到500之間的數(shù)字),因而可以通過(guò)求向量的數(shù)量積來(lái)得到節(jié)點(diǎn)之間的相似度。最終該問(wèn)題轉(zhuǎn)化為求與向量ui在數(shù)量積上最大的一系列向量。通過(guò)上述算法就實(shí)現(xiàn)了排序任務(wù)或者說(shuō)得到了應(yīng)用服務(wù)請(qǐng)求的結(jié)果。2、分類(Classification)任務(wù)分類任務(wù)包括二分類和多分類,支撐向量機(jī)(SupportVectorMachine)和邏輯回歸(LogisticRegression)等監(jiān)督學(xué)習(xí)算法能夠有效解決分類任務(wù);例如,應(yīng)用服務(wù)請(qǐng)求需要解決的問(wèn)題可能為給定大量用戶,根據(jù)年齡層、收入?yún)^(qū)間等信息確定用戶類別。然而實(shí)際應(yīng)用中,數(shù)據(jù)中往往會(huì)存在信息缺失,如何將未知年齡、收入等信息的用戶分類到正確的年齡層和收入?yún)^(qū)間,是一個(gè)重要的問(wèn)題??梢詫⒃搯?wèn)題轉(zhuǎn)化為分類任務(wù)。處理算法:通過(guò)表征學(xué)習(xí)能夠得到用戶、年齡層、收入?yún)^(qū)間等節(jié)點(diǎn)的高維向量,那么僅需計(jì)算用戶節(jié)點(diǎn)的高維向量與年齡層節(jié)點(diǎn)的高維向量的相似度,以及計(jì)算用戶節(jié)點(diǎn)的高維向量與收入?yún)^(qū)間節(jié)點(diǎn)的高維向量的相似度,選取與用戶節(jié)點(diǎn)的高維向量相似度最高的年齡層節(jié)點(diǎn)和收入?yún)^(qū)間節(jié)點(diǎn)即可。就可以將該用戶分類到正確的年齡層和收入?yún)^(qū)間。3、聚類(Clustering)任務(wù)聚類任務(wù)往往用最近鄰、譜聚類等非監(jiān)督學(xué)習(xí)算法完成。例如,應(yīng)用服務(wù)請(qǐng)求需要解決的問(wèn)題可能為:給定大量用戶,在未知類別的情況下,把用戶根據(jù)購(gòu)買行為習(xí)慣聚成K類,以便可以對(duì)同一類用戶制定同樣的策略??梢詫⒃搯?wèn)題轉(zhuǎn)化為聚類任務(wù)。處理算法:可以根據(jù)用戶的高維特征表示,采用K-means或者KNN的算法快速實(shí)現(xiàn)聚類。通常聚類問(wèn)題的難點(diǎn)在于如何降低結(jié)構(gòu)化信息的維度,該維度高達(dá)用戶的數(shù)量,即節(jié)點(diǎn)的數(shù)量N,然而嵌入映射已經(jīng)成功的將維度降低到K。4、預(yù)測(cè)(Prediction)任務(wù)預(yù)測(cè)任務(wù)通常是利用矩陣分解(MatrixFactorization)或張量分解(TensorFactorization),實(shí)現(xiàn)對(duì)矩陣和高維張量的填充,從而預(yù)測(cè)數(shù)據(jù)中的缺失值(MissingValue)。舉例來(lái)說(shuō),應(yīng)用服務(wù)請(qǐng)求需要解決的問(wèn)題可能為:預(yù)測(cè)某用戶將來(lái)是否會(huì)購(gòu)買某產(chǎn)品。事實(shí)上,推薦問(wèn)題可以轉(zhuǎn)化為預(yù)測(cè)問(wèn)題,即給出預(yù)測(cè)得到的用戶最可能購(gòu)買的一系列產(chǎn)品。處理算法:我們可以通過(guò)本發(fā)明實(shí)施例所述的方法,得到給定用戶節(jié)點(diǎn)高維向量和產(chǎn)品節(jié)點(diǎn)的高維向量,通過(guò)計(jì)算給定用戶節(jié)點(diǎn)高維向量與產(chǎn)品節(jié)點(diǎn)的高維向量的相似度,可以將與用戶節(jié)點(diǎn)相似度最高的產(chǎn)品推薦給該給定用戶。5、關(guān)聯(lián)分析(CorrelationAnalysis)任務(wù)應(yīng)用服務(wù)請(qǐng)求需要解決的問(wèn)題可能為:判斷用戶的年齡層、收入?yún)^(qū)間與產(chǎn)品的價(jià)格區(qū)間是否有關(guān)聯(lián)關(guān)系。處理算法:通過(guò)本發(fā)明實(shí)施例所述的方法,可以得到年齡層節(jié)點(diǎn)、收入?yún)^(qū)間節(jié)點(diǎn)和價(jià)格區(qū)間節(jié)點(diǎn)的高維向量,因而通過(guò)快速的計(jì)算它們之間的相似度,就可以了解不同用戶屬性(用戶的年齡層和收入)與產(chǎn)品屬性(產(chǎn)品的價(jià)格區(qū)間)之間的關(guān)聯(lián)關(guān)系和關(guān)聯(lián)的強(qiáng)度。6、異常檢測(cè)(OutlierDetection)任務(wù)應(yīng)用服務(wù)請(qǐng)求需要解決的問(wèn)題可能為:判斷某用戶是否是其所在的用戶群中的異常用戶,如欺詐用戶等。處理算法:通過(guò)本發(fā)明實(shí)施例所述的方法,可以得到所有用戶節(jié)點(diǎn)的高維向量,通過(guò)計(jì)算當(dāng)前用戶節(jié)點(diǎn)的高維向量與其他用戶節(jié)點(diǎn)的高維向量之間的相似度,如果相似度很大,可以認(rèn)為當(dāng)前用戶是異常用戶??蛇x地,在執(zhí)行步驟S101-S103之后,即完成了對(duì)原始大數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,得到統(tǒng)一的高維向量表示的數(shù)據(jù)特征之后,如果原始大數(shù)據(jù)有更新,可以只對(duì)更新的數(shù)據(jù)執(zhí)行步驟S101-S103,不必再對(duì)所有數(shù)據(jù)再執(zhí)行一次S101-S103??蛇x地,可以是在數(shù)據(jù)有更新的情況下,就對(duì)新數(shù)據(jù)執(zhí)行步驟S101-S103以實(shí)現(xiàn)對(duì)新數(shù)據(jù)的數(shù)據(jù)挖掘,也可以是在新數(shù)據(jù)積累到一定數(shù)量時(shí)才執(zhí)行,或者可以定期對(duì)新數(shù)據(jù)執(zhí)行步驟S101-S103。對(duì)應(yīng)于圖1所述的方法實(shí)施例,本發(fā)明還提供了一種用于大數(shù)據(jù)的特征提取裝置,如圖3所示,包括數(shù)據(jù)結(jié)構(gòu)化模塊301和表征學(xué)習(xí)模塊302。所述數(shù)據(jù)結(jié)構(gòu)化模塊301,用于對(duì)原始大數(shù)據(jù)進(jìn)行預(yù)處理,以及對(duì)所述預(yù)處理后的原始大數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化,得到包含節(jié)點(diǎn)和邊的關(guān)系網(wǎng)絡(luò)。其中,所述關(guān)系網(wǎng)絡(luò)中的節(jié)點(diǎn),由所述預(yù)處理后的原始大數(shù)據(jù)中的數(shù)據(jù)單元轉(zhuǎn)化而來(lái),所述關(guān)系網(wǎng)絡(luò)中的邊,用于表示所述網(wǎng)絡(luò)中節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系。通過(guò)對(duì)原始大數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化,可以將表格中的大數(shù)據(jù)或海量數(shù)據(jù)轉(zhuǎn)化為關(guān)系網(wǎng)絡(luò),從而可以采用節(jié)點(diǎn)和邊的方式統(tǒng)一處理這些數(shù)據(jù),大大縮減了數(shù)據(jù)存儲(chǔ)和管理的成本。其次,針對(duì)預(yù)處理后的原始大數(shù)據(jù)中的詞匯和短語(yǔ)等文本數(shù)據(jù),將其進(jìn)行網(wǎng)絡(luò)化,構(gòu)建出語(yǔ)義網(wǎng)絡(luò),保留了文本中的語(yǔ)義信息,以便后續(xù)可以有效利用,提高應(yīng)用服務(wù)的準(zhǔn)確性。此外,將預(yù)處理后的原始大數(shù)據(jù)表示為包含節(jié)點(diǎn)和邊的關(guān)系網(wǎng)絡(luò)之后,就可以利用網(wǎng)絡(luò)數(shù)據(jù)的表征學(xué)習(xí)算法,來(lái)實(shí)現(xiàn)對(duì)數(shù)據(jù)的快速、統(tǒng)一的特征提取,從而做到快速響應(yīng)不同應(yīng)用服務(wù)請(qǐng)求。所述表征學(xué)習(xí)模塊302,用于對(duì)所述關(guān)系網(wǎng)絡(luò)采用基于嵌入映射的表征學(xué)習(xí)算法,得到所述關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)的高維向量。所述表征學(xué)習(xí)模塊302通過(guò)對(duì)所述關(guān)系網(wǎng)絡(luò)采用基于嵌入映射的表征學(xué)習(xí)算法,將所述關(guān)系網(wǎng)絡(luò)中的節(jié)點(diǎn),例如用戶、產(chǎn)品和短語(yǔ)等,統(tǒng)一用維度較高的向量來(lái)進(jìn)行表示,其中,每個(gè)向量可以表示所述關(guān)系網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn),該向量中的一個(gè)維度表示了該節(jié)點(diǎn)的一個(gè)特征。所述關(guān)系網(wǎng)絡(luò)中節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系(或者說(shuō)邊),轉(zhuǎn)化為節(jié)點(diǎn)的高維向量與節(jié)點(diǎn)的高維向量之間的相似度,從而保留了原始大數(shù)據(jù)中的結(jié)構(gòu)信息,大大提升后期應(yīng)用服務(wù)對(duì)應(yīng)的分類和預(yù)測(cè)等任務(wù)的準(zhǔn)確性。在本發(fā)明實(shí)施例中,所述數(shù)據(jù)結(jié)構(gòu)化模塊301用于對(duì)原始大數(shù)據(jù)進(jìn)行預(yù)處理以及網(wǎng)絡(luò)化,從而所述表征學(xué)習(xí)模塊302可以利用網(wǎng)絡(luò)數(shù)據(jù)的表征學(xué)習(xí)算法,來(lái)實(shí)現(xiàn)對(duì)數(shù)據(jù)的快速、統(tǒng)一的特征提取,所述應(yīng)用算法模塊303可以根據(jù)用戶的應(yīng)用服務(wù)請(qǐng)求,確定對(duì)應(yīng)的處理算法,并利用所述表征學(xué)習(xí)模塊302提取到的以向量形式表示的特征進(jìn)行計(jì)算,得到處理結(jié)果返回給用戶。不同于現(xiàn)有技術(shù),本發(fā)明實(shí)施例中整個(gè)特征提取的過(guò)程無(wú)需人的參與,利用基于嵌入映射的表征學(xué)習(xí)算法自動(dòng)完成,計(jì)算效率高;特征提取的過(guò)程中還極大地保留了原始大數(shù)據(jù)中的結(jié)構(gòu)信息(即有效信息),從而提高了進(jìn)行分類或預(yù)測(cè)等任務(wù)的準(zhǔn)確性;不僅如此,由于采用了基于嵌入映射的表征學(xué)習(xí)算法,使得從原始大數(shù)據(jù)中挖掘到的數(shù)據(jù)特征統(tǒng)可以統(tǒng)一由高維向量的形式進(jìn)行表示,從而使得大數(shù)據(jù)的智能處理系統(tǒng)可以提供多種應(yīng)用服務(wù)變?yōu)榭赡???蛇x地,本發(fā)明實(shí)施例所述的大數(shù)據(jù)的特征提取裝置中還可以包括應(yīng)用算法模塊,用于獲取用戶的應(yīng)用服務(wù)請(qǐng)求;確定所述應(yīng)用服務(wù)請(qǐng)求對(duì)應(yīng)的處理算法,以及利用所述應(yīng)用服務(wù)請(qǐng)求對(duì)應(yīng)的處理算法和所述表征學(xué)習(xí)模塊302得到的所述關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)的高維向量,確定所述應(yīng)用服務(wù)請(qǐng)求的結(jié)果。也即,在所述表征學(xué)習(xí)模塊302將大數(shù)據(jù)中的特征用高維向量的形式統(tǒng)一表示之后,應(yīng)用算法模塊303可以利用這些統(tǒng)一用高維向量表示的特征,去提供各種應(yīng)用服務(wù)的解決方案或者說(shuō)返回應(yīng)用服務(wù)需要解決的問(wèn)題結(jié)果。需要注意的是,本發(fā)明實(shí)施例所述的用于大數(shù)據(jù)的特征提取裝置,不僅僅可以應(yīng)用于保險(xiǎn)業(yè)領(lǐng)域,還可以應(yīng)用于其他領(lǐng)域,例如應(yīng)用于金融領(lǐng)域、購(gòu)物消費(fèi)領(lǐng)域等,尤其適用于對(duì)包含結(jié)構(gòu)數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)進(jìn)行處理的情況,以及需要處理高維關(guān)系的數(shù)據(jù)的場(chǎng)合,較現(xiàn)有技術(shù)將具有明顯的優(yōu)勢(shì)。可選地,由于所述關(guān)系網(wǎng)絡(luò)既可能包擴(kuò)語(yǔ)義網(wǎng)絡(luò),也可能包括屬性網(wǎng)絡(luò)和行為網(wǎng)絡(luò)。它們既可能屬于同構(gòu)關(guān)系網(wǎng)絡(luò)、也可能屬于二維關(guān)系網(wǎng)絡(luò),還可能屬于高維關(guān)系網(wǎng)絡(luò)。因此,所述表征學(xué)習(xí)模塊302可以具體用于對(duì)所述關(guān)系網(wǎng)絡(luò)中的高維關(guān)系網(wǎng)絡(luò)進(jìn)行嵌入映射,得到所述高維關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)的高維向量;或者,具體用于對(duì)所述關(guān)系網(wǎng)絡(luò)中的二維關(guān)系網(wǎng)絡(luò)進(jìn)行嵌入映射,得到所述二維關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)的高維向量;或者,具體用于對(duì)所述關(guān)系網(wǎng)絡(luò)中的語(yǔ)義網(wǎng)絡(luò)進(jìn)行嵌入映射,得到所述語(yǔ)義網(wǎng)絡(luò)的節(jié)點(diǎn)的高維向量;或者具體用于對(duì)所述關(guān)系網(wǎng)絡(luò)中的同構(gòu)網(wǎng)絡(luò)進(jìn)行行嵌入映射,得到所述同構(gòu)網(wǎng)絡(luò)的節(jié)點(diǎn)的高維向量。可選地,在本發(fā)明實(shí)施例中,所述原始大數(shù)據(jù)可以是通過(guò)各個(gè)網(wǎng)站或者APP收集而來(lái)的,可能包括行為數(shù)據(jù)、屬性數(shù)據(jù)等結(jié)構(gòu)數(shù)據(jù),也可能包括文本數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù),本發(fā)明實(shí)施例在此不做限定。所述數(shù)據(jù)結(jié)構(gòu)化模塊301對(duì)原始大數(shù)據(jù)進(jìn)行預(yù)處理可以是,對(duì)所述原始大數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和清理,即對(duì)原始大數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,去除不合規(guī)或錯(cuò)誤的數(shù)據(jù)內(nèi)容,可以是將非法數(shù)據(jù)格式進(jìn)行過(guò)濾,例如去除理應(yīng)為浮點(diǎn)數(shù)、卻填充為字符串型的價(jià)格等數(shù)值,還可以是將時(shí)間或者單位進(jìn)行統(tǒng)一,也可以是對(duì)缺失的指進(jìn)行填寫、光滑噪聲數(shù)據(jù)等,從而可以將大數(shù)據(jù)的格式標(biāo)準(zhǔn)化,清除異常數(shù)據(jù),糾正錯(cuò)誤或者清除重復(fù)數(shù)據(jù)等??蛇x地,所述預(yù)處理后的原始大數(shù)據(jù)可以包括行為數(shù)據(jù)、屬性數(shù)據(jù)和文本數(shù)據(jù),則所述數(shù)據(jù)處理模塊對(duì)所述預(yù)處理后的原始大數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化可以包括:對(duì)所述預(yù)處理后的原始大數(shù)據(jù)中的行為數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化,例如將購(gòu)買、評(píng)價(jià)等行為數(shù)據(jù)轉(zhuǎn)化為行為網(wǎng)絡(luò);或者,還可以包括對(duì)所述預(yù)處理后的原始大數(shù)據(jù)中的屬性數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化,例如將年齡、價(jià)格等屬性信息轉(zhuǎn)化為屬性網(wǎng)絡(luò);又或者還可以包括將對(duì)所述預(yù)處理后的原始大數(shù)據(jù)中的文本數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化,例如將產(chǎn)品介紹或者評(píng)價(jià)內(nèi)容等文本數(shù)據(jù)轉(zhuǎn)化為以詞和短語(yǔ)為節(jié)點(diǎn)的語(yǔ)義網(wǎng)絡(luò)。則所述行為網(wǎng)絡(luò)、所述屬性網(wǎng)絡(luò)和所述語(yǔ)義網(wǎng)絡(luò)共同組成了所述關(guān)系網(wǎng)絡(luò)。需要說(shuō)明的是,在本發(fā)明實(shí)施例中,各個(gè)模塊的具體實(shí)現(xiàn),可以參考方法實(shí)施例的描述,例如關(guān)于具體如何進(jìn)行基于嵌入映射的表征學(xué)習(xí)算法,可以參考方法實(shí)施例的描述,本發(fā)明實(shí)施例在此不做贅述。本發(fā)明實(shí)施例所述的系統(tǒng),可以以軟件或者程序的形式,在一臺(tái)或者多臺(tái)計(jì)算機(jī)或者服務(wù)器實(shí)現(xiàn),本發(fā)明實(shí)施例在此不做限定。為了更好的理解本發(fā)明實(shí)施例,以將本發(fā)明實(shí)施例所述的用于大數(shù)據(jù)的特征提取裝置應(yīng)用于保險(xiǎn)業(yè)為例進(jìn)行詳細(xì)說(shuō)明。用戶在個(gè)人計(jì)算機(jī)(personalcomputer,PC)或者移動(dòng)端進(jìn)行完善個(gè)人信息、查看保險(xiǎn)細(xì)則、購(gòu)險(xiǎn)、退險(xiǎn)或者建立社交關(guān)系等操作時(shí),可以通過(guò)服務(wù)器收集上述操作信息,形成原始大數(shù)據(jù),所述原始大數(shù)據(jù)可以以表格的形式存儲(chǔ)在數(shù)據(jù)庫(kù)中。本發(fā)明實(shí)施例所述的裝置可以獲取上述原始大數(shù)據(jù)。例如,通過(guò)收集操作信息,數(shù)據(jù)庫(kù)中可能保存了如表1所示的用戶個(gè)人信息表、如表2所示的產(chǎn)品信息表、如表3所示的購(gòu)險(xiǎn)行為表以及如表4所示的退險(xiǎn)行為表。表1用戶個(gè)人信息表表2產(chǎn)品信息表險(xiǎn)名類別價(jià)格售險(xiǎn)公司產(chǎn)品介紹……險(xiǎn)A車險(xiǎn)…………保費(fèi)低、理賠方便……險(xiǎn)B壽險(xiǎn)…………終身壽險(xiǎn)、投保年齡范圍廣……險(xiǎn)C健康險(xiǎn)…………重大疾病賠付金額高……………………………………表3購(gòu)險(xiǎn)行為表用戶ID險(xiǎn)名購(gòu)險(xiǎn)地點(diǎn)(GPS)購(gòu)買金額用戶評(píng)價(jià)用戶1險(xiǎn)AXX公司……購(gòu)買方便:)用戶2險(xiǎn)CXX企業(yè)……總在外面還是買個(gè)險(xiǎn)好用戶3險(xiǎn)B1.765…………用戶4險(xiǎn)AXX路……給愛車加個(gè)險(xiǎn)!用戶5險(xiǎn)BXX小區(qū)……………………………………表4退險(xiǎn)行為表用戶ID險(xiǎn)名退險(xiǎn)地點(diǎn)(GPS)退險(xiǎn)金額退險(xiǎn)理由用戶3險(xiǎn)BXX街(家中)……………………………………首先,所述系統(tǒng)中的數(shù)據(jù)結(jié)構(gòu)化模塊可以對(duì)上述數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和清洗。以對(duì)表3所示的構(gòu)險(xiǎn)行為表中的數(shù)據(jù)進(jìn)行數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和清洗為例。數(shù)據(jù)分析指通過(guò)數(shù)據(jù)統(tǒng)計(jì)和關(guān)聯(lián)獲取更多的信息,所述數(shù)據(jù)結(jié)構(gòu)化模塊可以將“工作地點(diǎn)”、“家中”、“營(yíng)銷點(diǎn)附近”等信息補(bǔ)充在地理位置信息上。數(shù)據(jù)清洗是指將非法的數(shù)值去除、乃至將非法的數(shù)據(jù)記錄去除,例如當(dāng)“購(gòu)險(xiǎn)地點(diǎn)”為實(shí)數(shù)時(shí),所述數(shù)據(jù)結(jié)構(gòu)化模塊可以隱藏該數(shù)值;當(dāng)表3中記錄的“用戶ID”或“險(xiǎn)名”的數(shù)值非法時(shí),所述數(shù)據(jù)結(jié)構(gòu)化模塊可以去除該購(gòu)險(xiǎn)記錄。表5為表3中數(shù)據(jù)經(jīng)過(guò)所述數(shù)據(jù)結(jié)構(gòu)化模塊進(jìn)行數(shù)據(jù)分析和清洗后的結(jié)果。表5經(jīng)過(guò)數(shù)據(jù)分析和清洗后的購(gòu)險(xiǎn)行為表用戶ID險(xiǎn)名購(gòu)險(xiǎn)地點(diǎn)(GPS)購(gòu)買金額用戶評(píng)價(jià)用戶1險(xiǎn)AXX公司【工作地點(diǎn)】……購(gòu)買方便:)用戶2險(xiǎn)CXX企業(yè)【工作地點(diǎn)】……總在外面還是買個(gè)險(xiǎn)好用戶3險(xiǎn)B【缺失】…………用戶4險(xiǎn)AXX路【某營(yíng)銷點(diǎn)附近】……給愛車加個(gè)險(xiǎn)!用戶5險(xiǎn)BXX小區(qū)【家中】……………………………………接下來(lái),可以對(duì)經(jīng)過(guò)數(shù)據(jù)分析和清洗后原始大數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化,得到包含節(jié)點(diǎn)和邊的關(guān)系網(wǎng)絡(luò)。通過(guò)上述表格可知,原始大數(shù)據(jù)中存在大量的文本信,因此所述數(shù)據(jù)結(jié)構(gòu)化模塊可以對(duì)文本數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)化,得到由短語(yǔ)或者詞語(yǔ)組成的節(jié)點(diǎn),以及節(jié)點(diǎn)之間的邊,即得到包含節(jié)點(diǎn)和邊的語(yǔ)義網(wǎng)絡(luò)。后續(xù)表征學(xué)習(xí)模塊可以對(duì)該語(yǔ)義網(wǎng)絡(luò)利用表征學(xué)習(xí)方法,學(xué)習(xí)其中的語(yǔ)義信息。例如,利用分詞工具可以將表1至表4中經(jīng)過(guò)數(shù)據(jù)分析和清洗后的文本數(shù)據(jù)提取出來(lái),得到“文檔-短語(yǔ)”形式的文本數(shù)據(jù)如表6所示,表6中每個(gè)短語(yǔ)可以表示為語(yǔ)義網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn)。短語(yǔ)組成的節(jié)點(diǎn)之間,如果共同出現(xiàn)在句子或文檔中,則它們之間可以存在邊進(jìn)行連接,邊的權(quán)重由它們共同出現(xiàn)在句子或文檔中的頻度決定。如“旅游”節(jié)點(diǎn)與“出差很多”節(jié)點(diǎn)之間有邊連接,“出差很多”節(jié)點(diǎn)與“過(guò)度勞累”節(jié)點(diǎn)之間有邊連接。表6此外,可以將表中的內(nèi)容進(jìn)行網(wǎng)絡(luò)化轉(zhuǎn)化為關(guān)系網(wǎng)絡(luò):如將表1的內(nèi)容轉(zhuǎn)化為“用戶ID-性別”、“用戶ID-年齡段”、“用戶ID-職業(yè)”和“用戶ID-自我介紹短語(yǔ)”等多個(gè)二維關(guān)系網(wǎng)絡(luò);將表2的內(nèi)容轉(zhuǎn)化為“險(xiǎn)名-類別”、“險(xiǎn)名-價(jià)格區(qū)間”、“險(xiǎn)名-售險(xiǎn)公司”和“險(xiǎn)名-產(chǎn)品介紹短語(yǔ)”等多個(gè)二維關(guān)系網(wǎng)絡(luò);將表3的內(nèi)容轉(zhuǎn)化為“用戶ID-險(xiǎn)名-購(gòu)險(xiǎn)地點(diǎn)-金額區(qū)間-評(píng)價(jià)短語(yǔ)”的高維關(guān)系網(wǎng)絡(luò),將表4的內(nèi)容轉(zhuǎn)化為“用戶ID-險(xiǎn)名-退險(xiǎn)地點(diǎn)-金額區(qū)間-退險(xiǎn)理由短語(yǔ)”的高維關(guān)系網(wǎng)絡(luò)。最后形成的關(guān)系網(wǎng)絡(luò)中,既包含了上述的語(yǔ)義網(wǎng)絡(luò),也包含了由表1-表4的內(nèi)容轉(zhuǎn)化而來(lái)的多個(gè)高維關(guān)系網(wǎng)絡(luò)和二維關(guān)系網(wǎng)絡(luò),這些高維關(guān)系網(wǎng)絡(luò)和二維關(guān)系網(wǎng)絡(luò)中即有屬性網(wǎng)絡(luò)又有行為網(wǎng)絡(luò);關(guān)系網(wǎng)絡(luò)中以用戶ID、用戶屬性、產(chǎn)品屬性、地點(diǎn)、短語(yǔ)等為節(jié)點(diǎn),以它們之間的交互/關(guān)系作為所述關(guān)系網(wǎng)絡(luò)的邊。需要注意的是,關(guān)系網(wǎng)絡(luò)中允許節(jié)點(diǎn)重疊,上述二維關(guān)系網(wǎng)絡(luò)和高維關(guān)系網(wǎng)絡(luò)可以用“用戶ID”、“險(xiǎn)名”、“短語(yǔ)”等融合成含有多種類別節(jié)點(diǎn)的關(guān)系網(wǎng)絡(luò),即多源異構(gòu)網(wǎng)絡(luò)。在所述數(shù)據(jù)結(jié)構(gòu)化模塊將原始大數(shù)據(jù)轉(zhuǎn)化為關(guān)系網(wǎng)絡(luò)之后,表征學(xué)習(xí)模塊可以對(duì)所述關(guān)系網(wǎng)絡(luò)中的數(shù)據(jù)進(jìn)行表征學(xué)習(xí)。假定高維向量的維度數(shù)量為K(K通常取值在200到500之間),表征學(xué)習(xí)的結(jié)果是將關(guān)系網(wǎng)絡(luò)中的節(jié)點(diǎn)(如短語(yǔ)節(jié)點(diǎn)、用戶節(jié)點(diǎn)、用戶屬性節(jié)點(diǎn)、產(chǎn)品節(jié)點(diǎn)等)表示為多個(gè)高維向量,高維向量中保留了該關(guān)系網(wǎng)絡(luò)中的關(guān)聯(lián)關(guān)系(即邊)。通過(guò)前面的分析可知,在本發(fā)明實(shí)施例中,所述關(guān)系網(wǎng)絡(luò)中包括了語(yǔ)義網(wǎng)絡(luò)、二維關(guān)系網(wǎng)絡(luò)和高維關(guān)系網(wǎng)絡(luò)。則所述表征學(xué)習(xí)模塊可以對(duì)所述語(yǔ)義網(wǎng)絡(luò)采用基于嵌入映射的表征學(xué)習(xí)算法,具體地可以是:將“旅游”、“出差很多”、”過(guò)度勞累”、“身體不好”、“重大疾病”等語(yǔ)義網(wǎng)絡(luò)中的節(jié)點(diǎn)表示為高維向量,如u=[u1,u2,…,uK],并且通過(guò)表征學(xué)習(xí)算法,可以挖掘出“旅游”節(jié)點(diǎn)的向量與“出差很多”節(jié)點(diǎn)的向量相似,“出差很多”節(jié)點(diǎn)的向量與“過(guò)度勞累”節(jié)點(diǎn)的向量的向量相似,“過(guò)度勞累”節(jié)點(diǎn)的向量、“身體不好”節(jié)點(diǎn)的向量與“重大疾病”節(jié)點(diǎn)的向量相似。從而保留了網(wǎng)絡(luò)中數(shù)據(jù)的結(jié)構(gòu)信息。所述表征學(xué)習(xí)模塊可以對(duì)二維關(guān)系網(wǎng)絡(luò)采用基于嵌入映射的表征學(xué)習(xí)算法,所述二維關(guān)系網(wǎng)絡(luò)的表征學(xué)習(xí)結(jié)果可以是:將“用戶ID”、“用戶屬性”、“產(chǎn)品ID(險(xiǎn)名)”、“產(chǎn)品屬性”等節(jié)點(diǎn)表示為高維向量,通過(guò)使得屬性相似的用戶節(jié)點(diǎn)的向量相似度高,屬性相似的產(chǎn)品節(jié)點(diǎn)的向量相似度高,保留了所述關(guān)系網(wǎng)絡(luò)中的結(jié)構(gòu)信息,最終使得出行較多的用戶節(jié)點(diǎn)之間、類別相同的產(chǎn)品節(jié)點(diǎn)之間有相似的向量。所述表征學(xué)習(xí)模塊可以對(duì)高維關(guān)系網(wǎng)絡(luò)采用基于嵌入映射的表征學(xué)習(xí)算法,所述高維關(guān)系網(wǎng)絡(luò)的表征學(xué)習(xí)結(jié)果可以是:將“用戶”、“險(xiǎn)名”、“地點(diǎn)”、“評(píng)價(jià)短語(yǔ)”等節(jié)點(diǎn)表示為高維向量,使得具有相似購(gòu)買、退險(xiǎn)習(xí)慣的用戶節(jié)點(diǎn)的向量相似度高,購(gòu)買、退訂用戶相似的產(chǎn)品節(jié)點(diǎn)的向量相似度高,保留了關(guān)系網(wǎng)絡(luò)中的結(jié)構(gòu)信息。在本發(fā)明實(shí)施例中,所述表征學(xué)習(xí)模塊可以基于嵌入映射(Embedding)、結(jié)合Skip-gram和NegativeSampling實(shí)現(xiàn),保證了算法的計(jì)算復(fù)雜度低,算法可擴(kuò)展性強(qiáng)。在本發(fā)明實(shí)施例中,將關(guān)系網(wǎng)絡(luò)的每一個(gè)節(jié)點(diǎn)統(tǒng)一用高維向量進(jìn)行表示,并保留了關(guān)系網(wǎng)絡(luò)中的結(jié)構(gòu)信息,在后續(xù)的應(yīng)用服務(wù)中針對(duì)不同的任務(wù)需求,應(yīng)用算法模塊可以調(diào)用其中部分節(jié)點(diǎn)的高維向量進(jìn)行計(jì)算,計(jì)算復(fù)雜度低。例如,假設(shè)用戶的應(yīng)用服務(wù)請(qǐng)求需要解決的問(wèn)題為保險(xiǎn)產(chǎn)品推薦,我們可以用應(yīng)用算法模塊實(shí)現(xiàn)保險(xiǎn)產(chǎn)品推薦。保險(xiǎn)產(chǎn)品推薦是給定用戶,尋找與該用戶在購(gòu)買行為上最相似、退訂行為上最不同的產(chǎn)品。則與該應(yīng)用服務(wù)請(qǐng)求對(duì)應(yīng)的處理算法為:利用余弦相似度(Cosinesimilarity)等向量相似度計(jì)算方法,選擇用戶節(jié)點(diǎn)的向量和產(chǎn)品節(jié)點(diǎn)的向量,計(jì)算用戶節(jié)點(diǎn)的向量和產(chǎn)品節(jié)點(diǎn)的向量的相似度。比如,在表征學(xué)習(xí)時(shí),我們可以在用戶節(jié)點(diǎn)的向量和產(chǎn)品節(jié)點(diǎn)的向量中通過(guò)第1至100維向量來(lái)保存“購(gòu)險(xiǎn)行為”信息,即如果用戶A購(gòu)買了產(chǎn)品A,則用戶A節(jié)點(diǎn)的向量的第1至100維與產(chǎn)品A節(jié)點(diǎn)的向量的第1至100維相似;我們還可以在用戶節(jié)點(diǎn)的向量和產(chǎn)品節(jié)點(diǎn)的向量中通過(guò)第101至200維向量來(lái)保存“退險(xiǎn)行為”信息,即如果用戶A退訂了產(chǎn)品B,則用戶A節(jié)點(diǎn)的向量的第101至200維與產(chǎn)品B節(jié)點(diǎn)的向量的第101至200維相似。因此,如果需要給用戶A推薦產(chǎn)品,則是尋找與用戶A節(jié)點(diǎn)的向量的第1至100維向量相似,第101至200維向量不相似的產(chǎn)品節(jié)點(diǎn)的向量。同理,所述應(yīng)用算法模塊還可以利用經(jīng)過(guò)表征學(xué)習(xí)得到的高維向量,實(shí)現(xiàn)用戶類別的分類和欺詐騙保用戶的檢測(cè)等,本發(fā)明實(shí)施例在此不再贅述。以上所描述的裝置實(shí)施例僅僅是示意性的,其中所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性的勞動(dòng)的情況下,即可以理解并實(shí)施。通過(guò)以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到各實(shí)施方式可借助軟件加必需的通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn),當(dāng)然也可以通過(guò)硬件。基于這樣的理解,上述技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,如ROM/RAM、磁碟、光盤等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。最后應(yīng)說(shuō)明的是:以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。當(dāng)前第1頁(yè)1 2 3 
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
阿拉善盟| 繁峙县| 基隆市| 凤冈县| 阳谷县| 扬中市| 石楼县| 舞钢市| 六枝特区| 平度市| 宜君县| 敦煌市| 布尔津县| 富平县| 本溪市| 衡水市| 兴城市| 牙克石市| 饶河县| 托克逊县| 东乡| 新龙县| 资兴市| 承德县| 罗平县| 曲沃县| 临安市| 元谋县| 兴业县| 什邡市| 密山市| 唐山市| 逊克县| 泽普县| 固安县| 邳州市| 宣城市| 昭觉县| 门头沟区| 博乐市| 洛南县|