本發(fā)明涉及模式識(shí)別與機(jī)器學(xué)習(xí)的技術(shù)領(lǐng)域,主要涉及到一種找化網(wǎng)背景下多不定核匹配算法。
背景技術(shù):
找化網(wǎng)是一個(gè)跨境化學(xué)品B2B一站式交易服務(wù)平臺(tái)。通過(guò)平臺(tái),客戶(hù)可以找到最原始的廠家。我們提供對(duì)比價(jià)格,檢測(cè)質(zhì)量,安排運(yùn)輸,保險(xiǎn),報(bào)關(guān),發(fā)貨等一站式供應(yīng)鏈服務(wù)。找化網(wǎng)的盈利模式是買(mǎi)家免費(fèi),賣(mài)家成交后收傭金,做到不成交不收費(fèi),平臺(tái)致力于建設(shè)全球化學(xué)品研發(fā),生產(chǎn),銷(xiāo)售一條龍的生態(tài)鏈,主要有三大功能:
1, 通過(guò)了解客戶(hù)需求,我們匯集全球在某個(gè)特定時(shí)間段的訂單,將訂單與供應(yīng)商之間進(jìn)行匹配和價(jià)格磋商。然后根據(jù)客戶(hù)要求,安排運(yùn)輸;
2, 通過(guò)優(yōu)惠特賣(mài),把家里有存貨的、又急著變現(xiàn)的企業(yè),通過(guò)客戶(hù)在系統(tǒng)里留下的大數(shù)據(jù),一對(duì)一最快速度聯(lián)系客戶(hù),以特殊時(shí)間特殊價(jià)格的方式快速消化庫(kù)存;
3, 通過(guò)精準(zhǔn)匹配,可以幫助客戶(hù)控制質(zhì)量和風(fēng)險(xiǎn),保證資金流和數(shù)據(jù)流的統(tǒng)一。采集客戶(hù)和供應(yīng)商生產(chǎn)銷(xiāo)售的大數(shù)據(jù)。將客戶(hù)和供應(yīng)商采購(gòu)系統(tǒng)相對(duì)接,提前一段時(shí)間得到客戶(hù)采購(gòu)計(jì)劃和安排,這樣可以更好地安排生產(chǎn),旺季和淡季相結(jié)合生產(chǎn),從而降低成本;
針對(duì)上述特點(diǎn),本發(fā)明公布了一種找化網(wǎng)背景下多不定核匹配算法,該方法主要包括以下步驟:1)獲取終端用戶(hù)的詳細(xì)需求;2)提取特征:提取終端用戶(hù)詳細(xì)需求的特征;3)通過(guò)多個(gè)不定核函數(shù)將這些特征轉(zhuǎn)化成核矩陣;4)匹配模型:采用多類(lèi)Hinge-loss損失函數(shù)構(gòu)建最終的多不定核匹配模型;5)通過(guò)匹配模型為終端用戶(hù)推薦符合要求的化工廠。
技術(shù)實(shí)現(xiàn)要素:
發(fā)明目的:為了解決找化網(wǎng)背景下的匹配問(wèn)題,本發(fā)明提出了一種找化網(wǎng)背景下多不定核匹配算法,該方法采用多類(lèi)Hinge-loss損失函數(shù)來(lái)更有效地利用數(shù)據(jù)信息和更好地處理匹配問(wèn)題,利用不定核技術(shù)構(gòu)造一個(gè)更有效的核組合,提升匹配算法的泛化能力以獲得更優(yōu)的匹配結(jié)果。
技術(shù)方案:在對(duì)該方法具體步驟進(jìn)行描述前,首先給出相關(guān)的定義及表示:
(a)特征:來(lái)自終端用戶(hù)詳細(xì)需求的特征;
(b)匹配目標(biāo):化工廠所屬類(lèi)別;
(c)不定核:由再生核Kre?n空間中數(shù)據(jù)內(nèi)積演化而來(lái)的不定核函數(shù);
本發(fā)明提供了一種找化網(wǎng)背景下多不定核匹配算法,該方法包括兩個(gè)階段:訓(xùn)練和應(yīng)用。具體步驟如下:
本發(fā)明公布了一種找化網(wǎng)背景下多不定核匹配算法,該方法主要包括以下步驟:1)獲取終端用戶(hù)的詳細(xì)需求;2)提取特征:提取終端用戶(hù)詳細(xì)需求的特征;3)通過(guò)多個(gè)不定核函數(shù)將這些特征轉(zhuǎn)化成核矩陣;4)匹配模型:采用多類(lèi)Hinge-loss損失函數(shù)構(gòu)建最終的多不定核匹配模型;5)通過(guò)匹配模型為終端用戶(hù)推薦符合要求的化工。
所述步驟2)采用信息增益(IG)的方法提取終端用戶(hù)詳細(xì)需求的特征。對(duì)于一個(gè)系統(tǒng),其信息熵為:。C表示類(lèi)別個(gè)數(shù),表示第i的類(lèi)別概率。信息增益提取特征詞步驟:
1)統(tǒng)計(jì)正負(fù)分類(lèi)數(shù),記為N1,N2;
2)統(tǒng)計(jì)每個(gè)詞在正分類(lèi)出現(xiàn)的頻率(A),負(fù)分類(lèi)出現(xiàn)的頻率(B),正分類(lèi)不出現(xiàn)的頻率(C),負(fù)分類(lèi)的不出現(xiàn)的頻率(D);
3)計(jì)算信息熵;
(1)
4)計(jì)算每個(gè)詞w的信息增益;
(2)
5)按照信息增益的大小排序,選取最終特征。
所述步驟3)采用多個(gè)不定核函數(shù)(Indefinite Kernel Function)將特征轉(zhuǎn)化為相對(duì)應(yīng)的核矩陣(Kernel Matrix),從而將低維的特征映射到高維空間。核函數(shù)k(·,·)是定義在輸入空間上的對(duì)稱(chēng)函數(shù)。對(duì)于任意數(shù)據(jù),我們會(huì)得到下列核矩陣:
所述步驟4)采用多類(lèi)Hinge-loss損失函數(shù)來(lái)設(shè)計(jì)匹配模型。具體步驟如下:
1)構(gòu)造匹配函數(shù)。在多核的基礎(chǔ)上,構(gòu)造如下的匹配函數(shù):
(3)
其中,j表示c個(gè)推薦中的第j個(gè),i表示m個(gè)終端用戶(hù)中的第i個(gè)。 是核組合系數(shù),u表示r個(gè)核函數(shù)的第u個(gè)。矩陣是匹配器系數(shù),定義如下:
2)上述的匹配模型可以表示成如下優(yōu)化問(wèn)題:
(4)
其中,為損失函數(shù),和是正則化參數(shù),
3)引入多類(lèi)Hinge-loss損失函數(shù),定義如下:
(5)
其中,,,定義如下:
(6)
4)為了在匹配時(shí)更多的利用不同類(lèi)別的類(lèi)間信息,本專(zhuān)利采用多類(lèi)Hinge-loss損失函數(shù)提高模型的匹配性能:
(7)
其中,是用來(lái)增加匹配模型容錯(cuò)能力的松弛變量,從而提高匹配模型的匹配準(zhǔn)確度。
所述步驟5)根據(jù)匹配模型的匹配結(jié)果為終端用戶(hù)推薦最終的化工廠賣(mài)家,具體來(lái)說(shuō),我們通過(guò)使用正定核和不定核的組合,對(duì)數(shù)據(jù)的各個(gè)特征分量分別進(jìn)行映射,使數(shù)據(jù)在高維特征空間中分布和表達(dá)更優(yōu),使得匹配正確率明顯提高。
本發(fā)明的優(yōu)點(diǎn)主要體現(xiàn)在下面兩點(diǎn):
1、我們采用多類(lèi)Hinge-loss損失函數(shù)來(lái)更有效地利用數(shù)據(jù)信息和更好地處理匹配問(wèn)題;
2、利用不定核技術(shù)構(gòu)造一個(gè)更有效的核組合,提升匹配算法的泛化能力以獲得更好的匹配結(jié)果。
附圖說(shuō)明
圖1是本發(fā)明在找化網(wǎng)背景下多不定核匹配算法流程圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明,本實(shí)例僅用于說(shuō)明本發(fā)明而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對(duì)本發(fā)明的各種等價(jià)形式的修改均落于本申請(qǐng)所附權(quán)利。本發(fā)明主要針對(duì)找化網(wǎng)背景下的匹配問(wèn)題,結(jié)合不定核技術(shù)、多類(lèi)Hinge-loss損失函數(shù)設(shè)計(jì)一個(gè)更好的匹配算法,一種找化網(wǎng)背景下多不定核匹配算法如圖1所示,包括兩個(gè)階段:訓(xùn)練和測(cè)試。具體步驟如下:
1)獲取終端用戶(hù)的詳細(xì)需求;
2)特征提?。禾崛〗K端用戶(hù)詳細(xì)需求的特征;
3)通過(guò)多個(gè)不定核函數(shù)將這些特征轉(zhuǎn)化成核矩陣;
4)匹配模型:采用多類(lèi)Hinge-loss損失函數(shù)構(gòu)建最終的多不定核匹配模型;
5)通過(guò)匹配模型為終端用戶(hù)推薦符合要求的化工廠。
所述步驟2)采用信息增益(IG)的方法提取終端用戶(hù)詳細(xì)需求的特征,對(duì)于一個(gè)系統(tǒng),其信息熵為:,C表示類(lèi)別個(gè)數(shù),表示第i的類(lèi)別概率,信息增益提取特征詞步驟:
1) 統(tǒng)計(jì)正負(fù)分類(lèi)數(shù),記為N1,N2;
2) 統(tǒng)計(jì)每個(gè)詞在正分類(lèi)出現(xiàn)的頻率(A),負(fù)分類(lèi)出現(xiàn)的頻率(B),正分類(lèi)不出現(xiàn)的頻率(C),負(fù)分類(lèi)的不出現(xiàn)的頻率(D);
3) 計(jì)算信息熵;
(1)
4) 計(jì)算每個(gè)詞w的信息增益;
(2)
5)按照信息增益的大小排序,選取最終特征。
所述步驟3)采用多個(gè)不定核函數(shù)(Indefinite Kernel Function)將特征轉(zhuǎn)化為相對(duì)應(yīng)的核矩陣(Kernel Matrix),從而將低維的特征映射到高維空間,核函數(shù)k(·,·)是定義在輸入空間上的對(duì)稱(chēng)函數(shù),對(duì)于任意數(shù)據(jù),我們會(huì)得到下列核矩陣:
所述步驟4)采用多類(lèi)Hinge-loss損失函數(shù)來(lái)設(shè)計(jì)匹配模型。具體步驟如下:
a)構(gòu)造匹配函數(shù)。在多核的基礎(chǔ)上,構(gòu)造如下的匹配函數(shù):
(3)
其中,j表示c個(gè)推薦中的第j個(gè),i表示m個(gè)終端用戶(hù)中的第i個(gè)。 是核組合系數(shù),u表示r個(gè)核函數(shù)的第u個(gè)。矩陣是匹配器系數(shù),定義如下:
b)上述的匹配模型可以表示成如下優(yōu)化問(wèn)題:
(4)
其中,為損失函數(shù),和是正則化參數(shù),
c)引入多類(lèi)Hinge-loss損失函數(shù),定義如下:
(5)
其中,,,定義如下:
(6)
d)為了在匹配時(shí)更多的利用不同類(lèi)別的類(lèi)間信息,本專(zhuān)利采用多類(lèi)Hinge-loss損失函數(shù)提高模型的匹配性能:
(7)
其中,是用來(lái)增加匹配模型容錯(cuò)能力的松弛變量,從而提高匹配模型的匹配準(zhǔn)確度。
所述步驟5)根據(jù)匹配模型的匹配結(jié)果為終端用戶(hù)推薦最終的化工廠賣(mài)家。