本發(fā)明的示例性實(shí)施例總體說來涉及人工智能領(lǐng)域,更具體地說,涉及一種結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)(例如,訓(xùn)練和預(yù)測)的方法及系統(tǒng)。
背景技術(shù):
近來,機(jī)器學(xué)習(xí)技術(shù)與傳統(tǒng)的規(guī)則(Rule)系統(tǒng)相比,在人工智能領(lǐng)域得到了更為普遍的應(yīng)用。這是因?yàn)?,隨著應(yīng)用場景的復(fù)雜化,需要?dú)w納和開發(fā)的規(guī)則數(shù)量變得越來越大,有些時(shí)候,數(shù)據(jù)的增長速度導(dǎo)致人們已經(jīng)無法掌握數(shù)據(jù)變化所帶來的規(guī)則改變。
相應(yīng)地,人們更傾向于使用機(jī)器學(xué)習(xí)技術(shù)來解決問題。然而,很多機(jī)器學(xué)習(xí)算法均為黑盒,產(chǎn)生的機(jī)器學(xué)習(xí)模型往往很難清楚地表達(dá)某個(gè)具體策略的原因;另一方面,即使在實(shí)踐中已經(jīng)發(fā)現(xiàn)某個(gè)因素在特定場景下具有關(guān)鍵作用,也很難將這樣的發(fā)現(xiàn)有效地直接施加到機(jī)器學(xué)習(xí)系統(tǒng)中。
具體說來,在公開號(hào)為US20160171386號(hào)的美國專利申請(qǐng)中,介紹了一種用于觀點(diǎn)挖掘的系統(tǒng)和方法,其中,基于規(guī)則的系統(tǒng)可作為情緒檢測模塊,基于機(jī)器學(xué)習(xí)的系統(tǒng)可與所述情緒檢測模塊進(jìn)行通信并處理由情緒檢測模塊提供的數(shù)據(jù)。
此外,在公開號(hào)為CN105721194A的中國專利申請(qǐng)中,公開了一種利用大數(shù)據(jù)實(shí)時(shí)處理、機(jī)器學(xué)習(xí)技術(shù)等技術(shù),實(shí)現(xiàn)全自動(dòng)的運(yùn)營商網(wǎng)絡(luò)故障定位功能的方案。將運(yùn)維人員的經(jīng)驗(yàn)固化到系統(tǒng)中,使系統(tǒng)具備基礎(chǔ)的判斷智能。
另外,在公開號(hào)為CN105320960A的中國專利申請(qǐng)中,公開了一種基于投票的跨語言主客觀情感分類方法,包括如下步驟:S1、根據(jù)源語言的情感詞典構(gòu)建目標(biāo)語言的情感詞典;S2、采用規(guī)則算法、機(jī)器翻譯與統(tǒng)計(jì)機(jī)器學(xué)習(xí)相結(jié)合的算法、極性特征值計(jì)算算法三種算法分別從待標(biāo)注文本中的句子中提取詞,根據(jù)構(gòu)建的目標(biāo)語言的情感詞典,判斷詞的情感極性,進(jìn)而進(jìn)行句子的主客觀性質(zhì)判斷;S3、獲得根據(jù)三種算法得到的句子的主客觀性質(zhì)的判斷結(jié)果,通過投票對(duì)句子的主客觀性質(zhì)進(jìn)行判定。
可以看出,在已有的解決方案中,規(guī)則系統(tǒng)和機(jī)器學(xué)習(xí)系統(tǒng)可順序連接,即,通過規(guī)則系統(tǒng)對(duì)機(jī)器學(xué)習(xí)系統(tǒng)的數(shù)據(jù)樣本進(jìn)行預(yù)處理,或?qū)C(jī)器學(xué)習(xí)系統(tǒng)的預(yù)測結(jié)果進(jìn)行修正;或者,規(guī)則系統(tǒng)和機(jī)器學(xué)習(xí)系統(tǒng)可分別進(jìn)行預(yù)測,并在兩者的判斷結(jié)果中擇一使用。上述方式中,規(guī)則系統(tǒng)與機(jī)器學(xué)習(xí)系統(tǒng)均獨(dú)立工作,使得規(guī)則難以有效地融入到機(jī)器學(xué)習(xí)中。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的示例性實(shí)施例旨在克服規(guī)則難以有效地融入機(jī)器學(xué)習(xí)的缺陷。
根據(jù)本發(fā)明的示例性實(shí)施例,提供一種結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的方法,包括:(A)獲取數(shù)據(jù)記錄,其中,所述數(shù)據(jù)記錄包括多個(gè)屬性信息;(B)將關(guān)于預(yù)測目標(biāo)的至少一條規(guī)則應(yīng)用于所述多個(gè)屬性信息,以產(chǎn)生數(shù)據(jù)記錄的規(guī)則相關(guān)特征;(C)至少基于所述規(guī)則相關(guān)特征來形成預(yù)測樣本;以及(D)利用機(jī)器學(xué)習(xí)預(yù)測模型,基于預(yù)測樣本來產(chǎn)生關(guān)于預(yù)測目標(biāo)的機(jī)器學(xué)習(xí)預(yù)測結(jié)果,其中,所述機(jī)器學(xué)習(xí)預(yù)測模型被訓(xùn)練為針對(duì)預(yù)測樣本來提供相應(yīng)的機(jī)器學(xué)習(xí)預(yù)測結(jié)果。
可選地,在所述方法中,規(guī)則相關(guān)特征包括規(guī)則預(yù)測特征和/或規(guī)則描述特征,其中,在步驟(B)中,基于所述數(shù)據(jù)記錄依據(jù)所述至少一條規(guī)則而獲得的規(guī)則預(yù)測結(jié)果來產(chǎn)生規(guī)則預(yù)測特征,并且/或者,基于所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立來產(chǎn)生規(guī)則描述特征。
可選地,在所述方法中,在步驟(B)中,通過將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值分別乘以與所述規(guī)則描述特征相應(yīng)的規(guī)則的權(quán)重來產(chǎn)生規(guī)則描述特征;或者,在步驟(B)中,將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值作為規(guī)則描述特征,并且,所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重分別作為機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值,其中,所述權(quán)重表示相應(yīng)規(guī)則的確定性。
可選地,在所述方法中,所述權(quán)重通過人為指定和/或通過規(guī)則學(xué)習(xí)引擎來設(shè)置,其中,所述規(guī)則學(xué)習(xí)引擎用于基于規(guī)則訓(xùn)練樣本來學(xué)習(xí)所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重。
可選地,在所述方法中,在步驟(B)中,通過將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值分別乘以與所述規(guī)則描述特征相應(yīng)的規(guī)則的結(jié)論值來產(chǎn)生規(guī)則描述特征;或者,在步驟(B)中,將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值作為規(guī)則描述特征,并且,所述至少一條規(guī)則之中的各條規(guī)則的結(jié)論值分別作為機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值,其中,所述結(jié)論值表示相應(yīng)規(guī)則的條件成立時(shí)所導(dǎo)致的結(jié)果。
可選地,在所述方法中,在所述結(jié)果與預(yù)測目標(biāo)正相關(guān)時(shí),所述結(jié)論值為正值,并且,在所述結(jié)果與預(yù)測目標(biāo)負(fù)相關(guān)時(shí),所述結(jié)論值為負(fù)值。
可選地,在所述方法中,在步驟(B)中,通過將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值分別乘以與所述規(guī)則描述特征相應(yīng)的規(guī)則的權(quán)重與結(jié)論值的乘積來產(chǎn)生規(guī)則描述特征;或者,在步驟(B)中,將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值作為規(guī)則描述特征,并且,所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重與結(jié)論值的乘積分別作為機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值,其中,所述權(quán)重表示相應(yīng)規(guī)則的確定性,所述結(jié)論值表示相應(yīng)規(guī)則的條件成立時(shí)所導(dǎo)致的結(jié)果。
可選地,在所述方法中,機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值被乘以根據(jù)機(jī)器學(xué)習(xí)預(yù)測模型的算法而設(shè)置的系數(shù)修正值。
可選地,所述方法還包括:(E)將機(jī)器學(xué)習(xí)預(yù)測結(jié)果與所述數(shù)據(jù)記錄依據(jù)所述至少一條規(guī)則而獲得的規(guī)則預(yù)測結(jié)果進(jìn)行融合,以得到與預(yù)測樣本相應(yīng)的融合預(yù)測結(jié)果。
可選地,所述方法還包括:(F)將數(shù)據(jù)記錄與機(jī)器學(xué)習(xí)預(yù)測結(jié)果或融合預(yù)測結(jié)果組合為規(guī)則訓(xùn)練樣本。
可選地,在所述方法中,所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重基于機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的更新值來設(shè)置。
可選地,在所述方法中,規(guī)則學(xué)習(xí)引擎基于馬爾可夫邏輯網(wǎng)絡(luò)。
可選地,在步驟(B)之前,所述方法還包括:(G)獲取所述關(guān)于預(yù)測目標(biāo)的至少一條規(guī)則。
根據(jù)本發(fā)明的另一示例性實(shí)施例,提供一種結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的方法,包括:(A)獲取歷史數(shù)據(jù)記錄,其中,所述歷史數(shù)據(jù)記錄包括多個(gè)屬性信息和作為預(yù)測目標(biāo)實(shí)際值的標(biāo)記;(B)將關(guān)于預(yù)測目標(biāo)的至少一條規(guī)則應(yīng)用于所述多個(gè)屬性信息,以產(chǎn)生歷史數(shù)據(jù)記錄的規(guī)則相關(guān)特征;(C)至少基于所述規(guī)則相關(guān)特征和標(biāo)記來形成訓(xùn)練樣本;以及(D)基于訓(xùn)練樣本來訓(xùn)練機(jī)器學(xué)習(xí)預(yù)測模型,其中,所述機(jī)器學(xué)習(xí)模型用于針對(duì)新的數(shù)據(jù)記錄來提供關(guān)于預(yù)測目標(biāo)的機(jī)器學(xué)習(xí)預(yù)測結(jié)果。
可選地,在所述方法中,規(guī)則相關(guān)特征包括規(guī)則預(yù)測特征和/或規(guī)則描述特征,其中,在步驟(B)中,基于所述歷史數(shù)據(jù)記錄依據(jù)所述至少一條規(guī)則而獲得的規(guī)則預(yù)測結(jié)果來產(chǎn)生規(guī)則預(yù)測特征,并且/或者,基于所述歷史數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立來產(chǎn)生規(guī)則描述特征。
可選地,在所述方法中,在步驟(B)中,通過將指示所述歷史數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值分別乘以與所述規(guī)則描述特征相應(yīng)的規(guī)則的權(quán)重來產(chǎn)生規(guī)則描述特征;或者,在步驟(B)中,將指示所述歷史數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值作為規(guī)則描述特征,并且,在步驟(D)中,將所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重分別作為機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值,其中,所述權(quán)重表示相應(yīng)規(guī)則的確定性。
可選地,在所述方法中,所述權(quán)重通過人為指定和/或通過規(guī)則學(xué)習(xí)引擎來設(shè)置,其中,所述規(guī)則學(xué)習(xí)引擎用于基于規(guī)則訓(xùn)練樣本來學(xué)習(xí)所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重。
可選地,在所述方法中,在步驟(B)中,通過將指示所述歷史數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值分別乘以與所述規(guī)則描述特征相應(yīng)的規(guī)則的結(jié)論值來產(chǎn)生規(guī)則描述特征;或者,在步驟(B)中,將指示所述歷史數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值作為規(guī)則描述特征,并且,在步驟(D)中,將所述至少一條規(guī)則之中的各條規(guī)則的結(jié)論值分別作為機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值,其中,所述結(jié)論值表示相應(yīng)規(guī)則的條件成立時(shí)所導(dǎo)致的結(jié)果。
可選地,在所述方法中,在所述結(jié)果與預(yù)測目標(biāo)正相關(guān)時(shí),所述結(jié)論值為正值,并且,在所述結(jié)果與預(yù)測目標(biāo)負(fù)相關(guān)時(shí),所述結(jié)論值為負(fù)值。
可選地,在所述方法中,在步驟(B)中,通過將指示所述歷史數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值分別乘以與所述規(guī)則描述特征相應(yīng)的規(guī)則的權(quán)重與結(jié)論值的乘積來產(chǎn)生規(guī)則描述特征;或者,在步驟(B)中,將指示所述歷史數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值作為規(guī)則描述特征,并且,在步驟(D)中,將所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重與結(jié)論值的乘積分別作為機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值,其中,所述權(quán)重表示相應(yīng)規(guī)則的確定性,所述結(jié)論值表示相應(yīng)規(guī)則的條件成立時(shí)所導(dǎo)致的結(jié)果。
可選地,在所述方法中,在步驟(D)中,將機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值乘以根據(jù)機(jī)器學(xué)習(xí)預(yù)測模型的算法而設(shè)置的系數(shù)修正值。
可選地,在所述方法中,所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重基于機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的更新值來設(shè)置。
可選地,在所述方法中,規(guī)則學(xué)習(xí)引擎基于馬爾可夫邏輯網(wǎng)絡(luò)。
可選地,在步驟(B)之前,所述方法還包括:(G)獲取所述關(guān)于預(yù)測目標(biāo)的至少一條規(guī)則。
根據(jù)本發(fā)明的另一示例性實(shí)施例,提供一種結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的系統(tǒng),包括:數(shù)據(jù)記錄獲取裝置,用于獲取數(shù)據(jù)記錄,其中,所述數(shù)據(jù)記錄包括多個(gè)屬性信息;規(guī)則相關(guān)特征產(chǎn)生裝置,用于將關(guān)于預(yù)測目標(biāo)的至少一條規(guī)則應(yīng)用于所述多個(gè)屬性信息,以產(chǎn)生數(shù)據(jù)記錄的規(guī)則相關(guān)特征;預(yù)測樣本產(chǎn)生裝置,用于至少基于所述規(guī)則相關(guān)特征來形成預(yù)測樣本;以及機(jī)器學(xué)習(xí)預(yù)測裝置,用于利用機(jī)器學(xué)習(xí)預(yù)測模型,基于預(yù)測樣本來產(chǎn)生關(guān)于預(yù)測目標(biāo)的機(jī)器學(xué)習(xí)預(yù)測結(jié)果,其中,所述機(jī)器學(xué)習(xí)預(yù)測模型被訓(xùn)練為針對(duì)預(yù)測樣本來提供相應(yīng)的機(jī)器學(xué)習(xí)預(yù)測結(jié)果。
可選地,在所述系統(tǒng)中,規(guī)則相關(guān)特征包括規(guī)則預(yù)測特征和/或規(guī)則描述特征,其中,規(guī)則相關(guān)特征產(chǎn)生裝置基于所述數(shù)據(jù)記錄依據(jù)所述至少一條規(guī)則而獲得的規(guī)則預(yù)測結(jié)果來產(chǎn)生規(guī)則預(yù)測特征,并且/或者,基于所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立來產(chǎn)生規(guī)則描述特征。
可選地,在所述系統(tǒng)中,規(guī)則相關(guān)特征產(chǎn)生裝置通過將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值分別乘以與所述規(guī)則描述特征相應(yīng)的規(guī)則的權(quán)重來產(chǎn)生規(guī)則描述特征;或者,規(guī)則相關(guān)特征產(chǎn)生裝置將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值作為規(guī)則描述特征,并且,所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重分別作為機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值,其中,所述權(quán)重表示相應(yīng)規(guī)則的確定性。
可選地,在所述系統(tǒng)中,所述權(quán)重通過人為指定和/或通過規(guī)則學(xué)習(xí)引擎來設(shè)置,其中,所述規(guī)則學(xué)習(xí)引擎用于基于規(guī)則訓(xùn)練樣本來學(xué)習(xí)所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重。
可選地,在所述系統(tǒng)中,規(guī)則相關(guān)特征產(chǎn)生裝置通過將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值分別乘以與所述規(guī)則描述特征相應(yīng)的規(guī)則的結(jié)論值來產(chǎn)生規(guī)則描述特征;或者,規(guī)則相關(guān)特征產(chǎn)生裝置將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值作為規(guī)則描述特征,并且,所述至少一條規(guī)則之中的各條規(guī)則的結(jié)論值分別作為機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值,其中,所述結(jié)論值表示相應(yīng)規(guī)則的條件成立時(shí)所導(dǎo)致的結(jié)果。
可選地,在所述系統(tǒng)中,在所述結(jié)果與預(yù)測目標(biāo)正相關(guān)時(shí),所述結(jié)論值為正值,并且,在所述結(jié)果與預(yù)測目標(biāo)負(fù)相關(guān)時(shí),所述結(jié)論值為負(fù)值。
可選地,在所述系統(tǒng)中,規(guī)則相關(guān)特征產(chǎn)生裝置通過將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值分別乘以與所述規(guī)則描述特征相應(yīng)的規(guī)則的權(quán)重與結(jié)論值的乘積來產(chǎn)生規(guī)則描述特征;或者,規(guī)則相關(guān)特征產(chǎn)生裝置將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值作為規(guī)則描述特征,并且,所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重與結(jié)論值的乘積分別作為機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值,其中,所述權(quán)重表示相應(yīng)規(guī)則的確定性,所述結(jié)論值表示相應(yīng)規(guī)則的條件成立時(shí)所導(dǎo)致的結(jié)果。
可選地,在所述系統(tǒng)中,機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值被乘以根據(jù)機(jī)器學(xué)習(xí)預(yù)測模型的算法而設(shè)置的系數(shù)修正值。
可選地,所述系統(tǒng)還包括:融合裝置,用于將機(jī)器學(xué)習(xí)預(yù)測結(jié)果與所述數(shù)據(jù)記錄依據(jù)所述至少一條規(guī)則而獲得的規(guī)則預(yù)測結(jié)果進(jìn)行融合,以得到與預(yù)測樣本相應(yīng)的融合預(yù)測結(jié)果。
可選地,在所述系統(tǒng)中,機(jī)器學(xué)習(xí)預(yù)測裝置還將數(shù)據(jù)記錄與機(jī)器學(xué)習(xí)預(yù)測結(jié)果組合為規(guī)則訓(xùn)練樣本;或者,融合裝置還將數(shù)據(jù)記錄與融合預(yù)測結(jié)果組合為規(guī)則訓(xùn)練樣本。
可選地,在所述系統(tǒng)中,所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重基于機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的更新值來設(shè)置。
可選地,在所述系統(tǒng)中,規(guī)則學(xué)習(xí)引擎基于馬爾可夫邏輯網(wǎng)絡(luò)。
可選地,所述系統(tǒng)還包括:規(guī)則獲取裝置,用于獲取所述關(guān)于預(yù)測目標(biāo)的至少一條規(guī)則。
根據(jù)本發(fā)明的另一示例性實(shí)施例,提供一種結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的系統(tǒng),包括:歷史數(shù)據(jù)記錄獲取裝置,用于獲取歷史數(shù)據(jù)記錄,其中,所述歷史數(shù)據(jù)記錄包括多個(gè)屬性信息和作為預(yù)測目標(biāo)實(shí)際值的標(biāo)記;規(guī)則相關(guān)特征產(chǎn)生裝置,用于將關(guān)于預(yù)測目標(biāo)的至少一條規(guī)則應(yīng)用于所述多個(gè)屬性信息,以產(chǎn)生歷史數(shù)據(jù)記錄的規(guī)則相關(guān)特征;訓(xùn)練樣本產(chǎn)生裝置,用于至少基于所述規(guī)則相關(guān)特征和標(biāo)記來形成訓(xùn)練樣本;以及機(jī)器學(xué)習(xí)模型訓(xùn)練裝置,用于基于訓(xùn)練樣本來訓(xùn)練機(jī)器學(xué)習(xí)預(yù)測模型,其中,所述機(jī)器學(xué)習(xí)模型用于針對(duì)新的數(shù)據(jù)記錄來提供關(guān)于預(yù)測目標(biāo)的機(jī)器學(xué)習(xí)預(yù)測結(jié)果。
可選地,在所述系統(tǒng)中,規(guī)則相關(guān)特征包括規(guī)則預(yù)測特征和/或規(guī)則描述特征,其中,規(guī)則相關(guān)特征產(chǎn)生裝置基于所述歷史數(shù)據(jù)記錄依據(jù)所述至少一條規(guī)則而獲得的規(guī)則預(yù)測結(jié)果來產(chǎn)生規(guī)則預(yù)測特征,并且/或者,基于所述歷史數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立來產(chǎn)生規(guī)則描述特征。
可選地,在所述系統(tǒng)中,規(guī)則相關(guān)特征產(chǎn)生裝置通過將指示所述歷史數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值分別乘以與所述規(guī)則描述特征相應(yīng)的規(guī)則的權(quán)重來產(chǎn)生規(guī)則描述特征;或者,規(guī)則相關(guān)特征產(chǎn)生裝置將指示所述歷史數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值作為規(guī)則描述特征,并且,機(jī)器學(xué)習(xí)模型訓(xùn)練裝置將所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重分別作為機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值,其中,所述權(quán)重表示相應(yīng)規(guī)則的確定性。
可選地,在所述系統(tǒng)中,所述權(quán)重通過人為指定和/或通過規(guī)則學(xué)習(xí)引擎來設(shè)置,其中,所述規(guī)則學(xué)習(xí)引擎用于基于規(guī)則訓(xùn)練樣本來學(xué)習(xí)所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重。
可選地,在所述系統(tǒng)中,規(guī)則相關(guān)特征產(chǎn)生裝置通過將指示所述歷史數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值分別乘以與所述規(guī)則描述特征相應(yīng)的規(guī)則的結(jié)論值來產(chǎn)生規(guī)則描述特征;或者,規(guī)則相關(guān)特征產(chǎn)生裝置將指示所述歷史數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值作為規(guī)則描述特征,并且,機(jī)器學(xué)習(xí)模型訓(xùn)練裝置將所述至少一條規(guī)則之中的各條規(guī)則的結(jié)論值分別作為機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值,其中,所述結(jié)論值表示相應(yīng)規(guī)則的條件成立時(shí)所導(dǎo)致的結(jié)果。
可選地,在所述系統(tǒng)中,在所述結(jié)果與預(yù)測目標(biāo)正相關(guān)時(shí),所述結(jié)論值為正值,并且,在所述結(jié)果與預(yù)測目標(biāo)負(fù)相關(guān)時(shí),所述結(jié)論值為負(fù)值。
可選地,在所述系統(tǒng)中,規(guī)則相關(guān)特征產(chǎn)生裝置通過將指示所述歷史數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值分別乘以與所述規(guī)則描述特征相應(yīng)的規(guī)則的權(quán)重與結(jié)論值的乘積來產(chǎn)生規(guī)則描述特征;或者,規(guī)則相關(guān)特征產(chǎn)生裝置將指示所述歷史數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值作為規(guī)則描述特征,并且,機(jī)器學(xué)習(xí)模型訓(xùn)練裝置將所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重與結(jié)論值的乘積分別作為機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值,其中,所述權(quán)重表示相應(yīng)規(guī)則的確定性,所述結(jié)論值表示相應(yīng)規(guī)則的條件成立時(shí)所導(dǎo)致的結(jié)果。
可選地,在所述系統(tǒng)中,機(jī)器學(xué)習(xí)模型訓(xùn)練裝置將機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值乘以根據(jù)機(jī)器學(xué)習(xí)預(yù)測模型的算法而設(shè)置的系數(shù)修正值。
可選地,在所述系統(tǒng)中,所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重基于機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的更新值來設(shè)置。
可選地,在所述系統(tǒng)中,規(guī)則學(xué)習(xí)引擎基于馬爾可夫邏輯網(wǎng)絡(luò)。
可選地,所述系統(tǒng)還包括:規(guī)則獲取裝置,用于獲取所述關(guān)于預(yù)測目標(biāo)的至少一條規(guī)則。
根據(jù)本發(fā)明的另一示例性實(shí)施例,提供一種結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的計(jì)算裝置,包括存儲(chǔ)部件和處理器,存儲(chǔ)部件中存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令集合,當(dāng)所述計(jì)算機(jī)可執(zhí)行指令集合被所述處理器執(zhí)行時(shí),執(zhí)行下述步驟:(A)獲取數(shù)據(jù)記錄,其中,所述數(shù)據(jù)記錄包括多個(gè)屬性信息;(B)將關(guān)于預(yù)測目標(biāo)的至少一條規(guī)則應(yīng)用于所述多個(gè)屬性信息,以產(chǎn)生數(shù)據(jù)記錄的規(guī)則相關(guān)特征;(C)至少基于所述規(guī)則相關(guān)特征來形成預(yù)測樣本;以及(D)利用機(jī)器學(xué)習(xí)預(yù)測模型,基于預(yù)測樣本來產(chǎn)生關(guān)于預(yù)測目標(biāo)的機(jī)器學(xué)習(xí)預(yù)測結(jié)果,其中,所述機(jī)器學(xué)習(xí)預(yù)測模型被訓(xùn)練為針對(duì)預(yù)測樣本來提供相應(yīng)的機(jī)器學(xué)習(xí)預(yù)測結(jié)果。
可選地,在所述計(jì)算裝置中,規(guī)則相關(guān)特征包括規(guī)則預(yù)測特征和/或規(guī)則描述特征,其中,在步驟(B)中,基于所述數(shù)據(jù)記錄依據(jù)所述至少一條規(guī)則而獲得的規(guī)則預(yù)測結(jié)果來產(chǎn)生規(guī)則預(yù)測特征,并且/或者,基于所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立來產(chǎn)生規(guī)則描述特征。
可選地,在所述計(jì)算裝置中,在步驟(B)中,通過將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值分別乘以與所述規(guī)則描述特征相應(yīng)的規(guī)則的權(quán)重來產(chǎn)生規(guī)則描述特征;或者,在步驟(B)中,將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值作為規(guī)則描述特征,并且,所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重分別作為機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值,其中,所述權(quán)重表示相應(yīng)規(guī)則的確定性。
可選地,在所述計(jì)算裝置中,所述權(quán)重通過人為指定和/或通過規(guī)則學(xué)習(xí)引擎來設(shè)置,其中,所述規(guī)則學(xué)習(xí)引擎用于基于規(guī)則訓(xùn)練樣本來學(xué)習(xí)所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重。
可選地,在所述計(jì)算裝置中,在步驟(B)中,通過將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值分別乘以與所述規(guī)則描述特征相應(yīng)的規(guī)則的結(jié)論值來產(chǎn)生規(guī)則描述特征;或者,在步驟(B)中,將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值作為規(guī)則描述特征,并且,所述至少一條規(guī)則之中的各條規(guī)則的結(jié)論值分別作為機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值,其中,所述結(jié)論值表示相應(yīng)規(guī)則的條件成立時(shí)所導(dǎo)致的結(jié)果。
可選地,在所述計(jì)算裝置中,在所述結(jié)果與預(yù)測目標(biāo)正相關(guān)時(shí),所述結(jié)論值為正值,并且,在所述結(jié)果與預(yù)測目標(biāo)負(fù)相關(guān)時(shí),所述結(jié)論值為負(fù)值。
可選地,在所述計(jì)算裝置中,在步驟(B)中,通過將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值分別乘以與所述規(guī)則描述特征相應(yīng)的規(guī)則的權(quán)重與結(jié)論值的乘積來產(chǎn)生規(guī)則描述特征;或者,在步驟(B)中,將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值作為規(guī)則描述特征,并且,所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重與結(jié)論值的乘積分別作為機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值,其中,所述權(quán)重表示相應(yīng)規(guī)則的確定性,所述結(jié)論值表示相應(yīng)規(guī)則的條件成立時(shí)所導(dǎo)致的結(jié)果。
可選地,在所述計(jì)算裝置中,機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值被乘以根據(jù)機(jī)器學(xué)習(xí)預(yù)測模型的算法而設(shè)置的系數(shù)修正值。
可選地,在所述計(jì)算裝置中,當(dāng)所述計(jì)算機(jī)可執(zhí)行指令集合被所述處理器執(zhí)行時(shí),還執(zhí)行下述步驟:(E)將機(jī)器學(xué)習(xí)預(yù)測結(jié)果與所述數(shù)據(jù)記錄依據(jù)所述至少一條規(guī)則而獲得的規(guī)則預(yù)測結(jié)果進(jìn)行融合,以得到與預(yù)測樣本相應(yīng)的融合預(yù)測結(jié)果。
可選地,在所述計(jì)算裝置中,當(dāng)所述計(jì)算機(jī)可執(zhí)行指令集合被所述處理器執(zhí)行時(shí),還執(zhí)行下述步驟:(F)將數(shù)據(jù)記錄與機(jī)器學(xué)習(xí)預(yù)測結(jié)果或融合預(yù)測結(jié)果組合為規(guī)則訓(xùn)練樣本。
可選地,在所述計(jì)算裝置中,所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重基于機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的更新值來設(shè)置。
可選地,在所述計(jì)算裝置中,規(guī)則學(xué)習(xí)引擎基于馬爾可夫邏輯網(wǎng)絡(luò)。
可選地,在所述計(jì)算裝置中,當(dāng)所述計(jì)算機(jī)可執(zhí)行指令集合被所述處理器執(zhí)行時(shí),在步驟(B)之前,還執(zhí)行下述步驟:(G)獲取所述關(guān)于預(yù)測目標(biāo)的至少一條規(guī)則。
根據(jù)本發(fā)明的另一示例性實(shí)施例,提供一種結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的計(jì)算裝置,包括存儲(chǔ)部件和處理器,存儲(chǔ)部件中存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令集合,當(dāng)所述計(jì)算機(jī)可執(zhí)行指令集合被所述處理器執(zhí)行時(shí),執(zhí)行下述步驟:(A)獲取歷史數(shù)據(jù)記錄,其中,所述歷史數(shù)據(jù)記錄包括多個(gè)屬性信息和作為預(yù)測目標(biāo)實(shí)際值的標(biāo)記;(B)將關(guān)于預(yù)測目標(biāo)的至少一條規(guī)則應(yīng)用于所述多個(gè)屬性信息,以產(chǎn)生歷史數(shù)據(jù)記錄的規(guī)則相關(guān)特征;(C)至少基于所述規(guī)則相關(guān)特征和標(biāo)記來形成訓(xùn)練樣本;以及(D)基于訓(xùn)練樣本來訓(xùn)練機(jī)器學(xué)習(xí)預(yù)測模型,其中,所述機(jī)器學(xué)習(xí)模型用于針對(duì)新的數(shù)據(jù)記錄來提供關(guān)于預(yù)測目標(biāo)的機(jī)器學(xué)習(xí)預(yù)測結(jié)果。
可選地,在所述計(jì)算裝置中,規(guī)則相關(guān)特征包括規(guī)則預(yù)測特征和/或規(guī)則描述特征,其中,在步驟(B)中,基于所述歷史數(shù)據(jù)記錄依據(jù)所述至少一條規(guī)則而獲得的規(guī)則預(yù)測結(jié)果來產(chǎn)生規(guī)則預(yù)測特征,并且/或者,基于所述歷史數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立來產(chǎn)生規(guī)則描述特征。
可選地,在所述計(jì)算裝置中,在步驟(B)中,通過將指示所述歷史數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值分別乘以與所述規(guī)則描述特征相應(yīng)的規(guī)則的權(quán)重來產(chǎn)生規(guī)則描述特征;或者,在步驟(B)中,將指示所述歷史數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值作為規(guī)則描述特征,并且,在步驟(D)中,將所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重分別作為機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值,其中,所述權(quán)重表示相應(yīng)規(guī)則的確定性。
可選地,在所述計(jì)算裝置中,所述權(quán)重通過人為指定和/或通過規(guī)則學(xué)習(xí)引擎來設(shè)置,其中,所述規(guī)則學(xué)習(xí)引擎用于基于規(guī)則訓(xùn)練樣本來學(xué)習(xí)所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重。
可選地,在所述計(jì)算裝置中,在步驟(B)中,通過將指示所述歷史數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值分別乘以與所述規(guī)則描述特征相應(yīng)的規(guī)則的結(jié)論值來產(chǎn)生規(guī)則描述特征;或者,在步驟(B)中,將指示所述歷史數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值作為規(guī)則描述特征,并且,在步驟(D)中,將所述至少一條規(guī)則之中的各條規(guī)則的結(jié)論值分別作為機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值,其中,所述結(jié)論值表示相應(yīng)規(guī)則的條件成立時(shí)所導(dǎo)致的結(jié)果。
可選地,在所述計(jì)算裝置中,在所述結(jié)果與預(yù)測目標(biāo)正相關(guān)時(shí),所述結(jié)論值為正值,并且,在所述結(jié)果與預(yù)測目標(biāo)負(fù)相關(guān)時(shí),所述結(jié)論值為負(fù)值。
可選地,在所述計(jì)算裝置中,在步驟(B)中,通過將指示所述歷史數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值分別乘以與所述規(guī)則描述特征相應(yīng)的規(guī)則的權(quán)重與結(jié)論值的乘積來產(chǎn)生規(guī)則描述特征;或者,在步驟(B)中,將指示所述歷史數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值作為規(guī)則描述特征,并且,在步驟(D)中,將所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重與結(jié)論值的乘積分別作為機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值,其中,所述權(quán)重表示相應(yīng)規(guī)則的確定性,所述結(jié)論值表示相應(yīng)規(guī)則的條件成立時(shí)所導(dǎo)致的結(jié)果。
可選地,在所述計(jì)算裝置中,在步驟(D)中,將機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值乘以根據(jù)機(jī)器學(xué)習(xí)預(yù)測模型的算法而設(shè)置的系數(shù)修正值。
可選地,在所述計(jì)算裝置中,所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重基于機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的更新值來設(shè)置。
可選地,在所述計(jì)算裝置中,規(guī)則學(xué)習(xí)引擎基于馬爾可夫邏輯網(wǎng)絡(luò)。
可選地,在所述計(jì)算裝置中,當(dāng)所述計(jì)算機(jī)可執(zhí)行指令集合被所述處理器執(zhí)行時(shí),還執(zhí)行下述步驟:(E)獲取所述關(guān)于預(yù)測目標(biāo)的至少一條規(guī)則。
在根據(jù)本發(fā)明示例性實(shí)施例的結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的方法及系統(tǒng)中,能夠?qū)⒁?guī)則形成為參與機(jī)器學(xué)習(xí)的規(guī)則相關(guān)特征,從而有效地將規(guī)則融入到機(jī)器學(xué)習(xí)的過程中,由此改進(jìn)機(jī)器學(xué)習(xí)的效果。
附圖說明
從下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例的詳細(xì)描述中,本發(fā)明的這些和/或其他方面和優(yōu)點(diǎn)將變得更加清楚并更容易理解,其中:
圖1示出根據(jù)本發(fā)明示例性實(shí)施例的結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的系統(tǒng)的框圖;
圖2示出根據(jù)本發(fā)明另一示例性實(shí)施例的結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的系統(tǒng)的框圖;
圖3示出根據(jù)本發(fā)明示例性實(shí)施例的結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的方法的流程圖;
圖4示出根據(jù)本發(fā)明示例性實(shí)施例的馬爾可夫邏輯網(wǎng)絡(luò)的示例;
圖5示出根據(jù)本發(fā)明另一示例性實(shí)施例的結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的方法的流程圖;
圖6示出本發(fā)明另一示例性實(shí)施例的結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的系統(tǒng)的框圖;以及
圖7示出根據(jù)本發(fā)明另一示例性實(shí)施例的結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的方法的流程圖。
具體實(shí)施方式
為了使本領(lǐng)域技術(shù)人員更好地理解本發(fā)明,下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明的示例性實(shí)施例作進(jìn)一步詳細(xì)說明。
在本發(fā)明的示例性實(shí)施例中,通過以下方式來進(jìn)行機(jī)器學(xué)習(xí):通過將關(guān)于預(yù)測目標(biāo)的規(guī)則應(yīng)用于預(yù)測或訓(xùn)練用的數(shù)據(jù)記錄的各個(gè)屬性信息,從而產(chǎn)生將參與機(jī)器學(xué)習(xí)的規(guī)則相關(guān)特征;利用至少涵蓋規(guī)則相關(guān)特征的機(jī)器學(xué)習(xí)樣本(例如,預(yù)測樣本或訓(xùn)練樣本)來執(zhí)行機(jī)器學(xué)習(xí)模型的預(yù)測或訓(xùn)練。
這里,機(jī)器學(xué)習(xí)是人工智能研究發(fā)展到一定階段的必然產(chǎn)物,其致力于通過計(jì)算的手段,利用經(jīng)驗(yàn)來改善系統(tǒng)自身的性能。在計(jì)算機(jī)系統(tǒng)中,“經(jīng)驗(yàn)”通常以“數(shù)據(jù)”形式存在,通過機(jī)器學(xué)習(xí)算法,可從數(shù)據(jù)中產(chǎn)生“模型”,也就是說,將經(jīng)驗(yàn)數(shù)據(jù)提供給機(jī)器學(xué)習(xí)算法,就能基于這些經(jīng)驗(yàn)數(shù)據(jù)產(chǎn)生模型,在面對(duì)新的情況時(shí),模型會(huì)提供相應(yīng)的判斷,即,預(yù)測結(jié)果。應(yīng)注意,本發(fā)明對(duì)具體的機(jī)器學(xué)習(xí)算法并不進(jìn)行特定限制。
這里,規(guī)則通常是指語義明確、能描述數(shù)據(jù)分布所隱含的客觀規(guī)律或領(lǐng)域概念、可寫成“若……,則……”形式的邏輯規(guī)則。形式化地看,一條規(guī)則形如:
其中,邏輯蘊(yùn)含符號(hào)“←”右邊部分稱為“邏輯體(body)”,表示該條規(guī)則的前提(即,規(guī)則的條件),左邊部分稱為“規(guī)則頭(head)”,表示該條規(guī)則的條件成立時(shí)所導(dǎo)致的結(jié)果(即,規(guī)則的結(jié)論值)。規(guī)則體是由邏輯文字(literal)fk組成的合取式(conjunction),其中,合取符號(hào)“∧”用來表示“并且”,每個(gè)文字fk都是對(duì)示例屬性進(jìn)行檢驗(yàn)的布爾表達(dá)式,例如“(色澤=烏黑)”或“﹁(根蒂=硬挺)”。L是規(guī)則體中邏輯文字的個(gè)數(shù),成為規(guī)則的長度,規(guī)則頭的“⊕”可以是邏輯文字,一般用來表示規(guī)則所判定的目標(biāo)類別或概念,例如“好瓜”,此外,規(guī)則頭也可以表示量化的判定結(jié)果,例如“瓜的具體甜度”,上述邏輯規(guī)則也被稱為“if-then規(guī)則”。
以關(guān)于西瓜好壞的規(guī)則為例:
規(guī)則1:好瓜←(根蒂=蜷縮)∧(臍部=凹陷);
規(guī)則2:﹁好瓜←(紋理=模糊)。
規(guī)則1的長度為2,它通過判斷兩個(gè)邏輯文字的賦值(valuation)來對(duì)示例進(jìn)行判別,符合該規(guī)則的樣本稱為被該規(guī)則“覆蓋(cover)”。需注意的是,被規(guī)則1覆蓋的樣本是好瓜,但沒被規(guī)則1覆蓋的未必不是好瓜;只有被規(guī)則2這樣以“﹁好瓜”為頭的規(guī)則覆蓋的才不是好瓜。
根據(jù)本發(fā)明的示例性實(shí)施例,規(guī)則的規(guī)則頭可與預(yù)測目標(biāo)直接或間接相關(guān)(例如,正相關(guān)或負(fù)相關(guān)),相應(yīng)地,規(guī)則體則是針對(duì)數(shù)據(jù)記錄的各個(gè)屬性信息的具體檢驗(yàn)。例如,在預(yù)測目標(biāo)涉及信用卡交易的欺詐審核時(shí),規(guī)則頭可指示對(duì)于信用卡交易是否涉嫌欺詐的判斷結(jié)果,規(guī)則體可包括對(duì)關(guān)于該信用卡交易情況的屬性信息或其他相關(guān)信息的具體檢驗(yàn)。在存在關(guān)于預(yù)測目標(biāo)的多條規(guī)則的情況下,可不必要求每條規(guī)則的規(guī)則頭均直接與預(yù)測目標(biāo)相關(guān),而可以是所述多條規(guī)則互相關(guān)聯(lián)從而整體上與預(yù)測目標(biāo)相關(guān)。
相應(yīng)地,在本發(fā)明的示例性實(shí)施例中,可將上述關(guān)于預(yù)測目標(biāo)的規(guī)則有效地融入機(jī)器學(xué)習(xí)模型的預(yù)測或訓(xùn)練樣本中,從而取得較好的機(jī)器學(xué)習(xí)效果。
以下將結(jié)合附圖來詳細(xì)描述根據(jù)本發(fā)明示例性實(shí)施例的結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的具體方案。
圖1示出根據(jù)本發(fā)明示例性實(shí)施例的結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的系統(tǒng)的框圖。具體說來,所述系統(tǒng)提出了一種基于融入了規(guī)則的預(yù)測樣本來利用機(jī)器學(xué)習(xí)模型進(jìn)行預(yù)測的處理體系結(jié)構(gòu),這里,所述規(guī)則和機(jī)器學(xué)習(xí)模型涉及相同或相似的預(yù)測目標(biāo),并且,規(guī)則的應(yīng)用結(jié)果被轉(zhuǎn)換為預(yù)測樣本特征。圖1所示的系統(tǒng)可全部通過計(jì)算機(jī)程序以軟件方式來實(shí)現(xiàn),也可由專門的硬件裝置來實(shí)現(xiàn),還可通過軟硬件結(jié)合的方式來實(shí)現(xiàn)。相應(yīng)地,組成圖1所示的系統(tǒng)的各個(gè)裝置可以是僅依靠計(jì)算機(jī)程序來實(shí)現(xiàn)相應(yīng)功能的虛擬模塊,也可以是依靠硬件結(jié)構(gòu)來實(shí)現(xiàn)所述功能的通用或?qū)S闷骷€可以是運(yùn)行有相應(yīng)計(jì)算機(jī)程序的處理器等。利用所述系統(tǒng),能夠?qū)㈥P(guān)于預(yù)測目標(biāo)的規(guī)則有效地融入機(jī)器學(xué)習(xí)模型的預(yù)測樣本中,從而取得較好的預(yù)測結(jié)果。
如圖1所示,數(shù)據(jù)記錄獲取裝置100用于獲取數(shù)據(jù)記錄,其中,所述數(shù)據(jù)記錄包括多個(gè)屬性信息。
在本發(fā)明的示例性實(shí)施例中,在使用機(jī)器學(xué)習(xí)技術(shù)針對(duì)數(shù)據(jù)記錄的屬性信息來得到某種預(yù)測結(jié)果的過程中,還將結(jié)合關(guān)于預(yù)測目標(biāo)的規(guī)則。
作為示例,這里的預(yù)測目標(biāo)可涉及業(yè)務(wù)判斷,例如,預(yù)測出是否涉嫌欺詐、信用評(píng)分、差異化定價(jià)、企業(yè)倒閉概率等。舉例說來,數(shù)據(jù)記錄可包括個(gè)人申請(qǐng)信用卡時(shí)填寫的個(gè)人信息,相應(yīng)地,預(yù)測目標(biāo)可指示此次申請(qǐng)是否涉及欺詐或指示應(yīng)批準(zhǔn)的信用卡可用額度等?;蛘撸瑪?shù)據(jù)記錄可包括將采用差異化定價(jià)的商品和/或潛在購買者的相關(guān)信息,相應(yīng)地,預(yù)測目標(biāo)可以是所述商品面向所述潛在購買者的個(gè)性化預(yù)估價(jià)格。或者,數(shù)據(jù)記錄可包括企業(yè)注冊和經(jīng)營的相關(guān)信息,相應(yīng)地,預(yù)測目標(biāo)可以是該企業(yè)在未來預(yù)定時(shí)間段內(nèi)倒閉的概率。
此外,預(yù)測目標(biāo)也可涉及行為判斷,例如,預(yù)測出點(diǎn)擊概率、營銷響應(yīng)率、推薦響應(yīng)率等。應(yīng)注意,這里的預(yù)測目標(biāo)可以是能夠預(yù)測出的任意內(nèi)容或事項(xiàng),也就是說,本發(fā)明的示例性實(shí)施例在數(shù)據(jù)記錄(及其屬性信息)和預(yù)測目標(biāo)方面并不施加任何特定的限制,任何能通過機(jī)器學(xué)習(xí)技術(shù)進(jìn)行預(yù)估的數(shù)據(jù)記錄和預(yù)測目標(biāo)均可應(yīng)用于本發(fā)明的示例性實(shí)施例。
上述數(shù)據(jù)記錄可以是在線產(chǎn)生的數(shù)據(jù)、預(yù)先生成并存儲(chǔ)的數(shù)據(jù)、也可以是通過輸入裝置或傳輸媒介而從外部接收的數(shù)據(jù)。這些數(shù)據(jù)可涉及個(gè)人、企業(yè)或組織的信息,例如,身份、學(xué)歷、職業(yè)、資產(chǎn)、聯(lián)系方式、負(fù)債、收入、盈利、納稅等信息?;蛘撸@些數(shù)據(jù)也可涉及業(yè)務(wù)相關(guān)項(xiàng)目的信息,例如,關(guān)于買賣合同的交易額、交易雙方、標(biāo)的物、交易地點(diǎn)等信息。應(yīng)注意,本發(fā)明的示例性實(shí)施例中提到的屬性信息內(nèi)容可涉及任何對(duì)象或事務(wù)在某方面的表現(xiàn)或性質(zhì),而不限于對(duì)個(gè)人、物體、組織、單位、機(jī)構(gòu)、項(xiàng)目、事件等進(jìn)行限定或描述。
數(shù)據(jù)記錄獲取裝置100可獲取不同來源的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),例如,文本數(shù)據(jù)或數(shù)值數(shù)據(jù)等。獲取的數(shù)據(jù)記錄可用于形成機(jī)器學(xué)習(xí)的樣例,參與機(jī)器學(xué)習(xí)的訓(xùn)練/預(yù)測過程。這些數(shù)據(jù)可來源于期望獲取預(yù)測結(jié)果的實(shí)體內(nèi)部,例如,來源于期望獲取預(yù)測結(jié)果的銀行、企業(yè)、學(xué)校;這些數(shù)據(jù)也可來源于上述實(shí)體以外,例如,來源于數(shù)據(jù)提供商、互聯(lián)網(wǎng)(例如,社交網(wǎng)站)、移動(dòng)運(yùn)營商、APP運(yùn)營商、快遞公司、信用機(jī)構(gòu)等。可選地,上述內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)可組合使用,以形成帶有更多信息的機(jī)器學(xué)習(xí)樣本。
上述數(shù)據(jù)可通過輸入裝置輸入到數(shù)據(jù)記錄獲取裝置100,或者由數(shù)據(jù)記錄獲取裝置100根據(jù)已有的數(shù)據(jù)來自動(dòng)生成,或者可由數(shù)據(jù)記錄獲取裝置100從網(wǎng)絡(luò)上(例如,網(wǎng)絡(luò)上的存儲(chǔ)介質(zhì)(例如,數(shù)據(jù)倉庫))獲得,此外,諸如服務(wù)器的中間數(shù)據(jù)交換裝置可有助于數(shù)據(jù)記錄獲取裝置100從外部數(shù)據(jù)源獲取相應(yīng)的數(shù)據(jù)。這里,獲取的數(shù)據(jù)可被數(shù)據(jù)記錄獲取裝置100中的文本分析模塊等數(shù)據(jù)轉(zhuǎn)換模塊轉(zhuǎn)換為容易處理的格式。應(yīng)注意,數(shù)據(jù)記錄獲取裝置100可被配置為由軟件、硬件和/或固件組成的各個(gè)模塊,這些模塊中的某些模塊或全部模塊可被集成為一體或共同協(xié)作以完成特定功能。
規(guī)則相關(guān)特征產(chǎn)生裝置200用于將關(guān)于預(yù)測目標(biāo)的至少一條規(guī)則應(yīng)用于數(shù)據(jù)記錄的所述多個(gè)屬性信息,以產(chǎn)生數(shù)據(jù)記錄的規(guī)則相關(guān)特征。
如上所述,根據(jù)本發(fā)明示例性實(shí)施例的所述規(guī)則是指與預(yù)測目標(biāo)相關(guān)的規(guī)則,即,這些規(guī)則的規(guī)則頭與預(yù)測目標(biāo)相同或相關(guān)(直接相關(guān)或間接相關(guān));相應(yīng)地,規(guī)則相關(guān)特征產(chǎn)生裝置200旨在針對(duì)數(shù)據(jù)記錄的屬性信息進(jìn)行規(guī)則檢驗(yàn),例如,判斷出數(shù)據(jù)記錄的屬性信息是否符合各條規(guī)則所限定的規(guī)則體內(nèi)容,并且,規(guī)則相關(guān)特征產(chǎn)生裝置200基于規(guī)則檢驗(yàn)的結(jié)果來產(chǎn)生后續(xù)輸入機(jī)器學(xué)習(xí)模型的至少一部分樣本特征。通過這種方式,能夠有效地將規(guī)則(例如,反映了專家經(jīng)驗(yàn)的業(yè)務(wù)規(guī)則)融合于后續(xù)的機(jī)器學(xué)習(xí)過程,從而取得較好的預(yù)測結(jié)果。
這里,作為示例,規(guī)則相關(guān)特征產(chǎn)生裝置200可采用適當(dāng)?shù)姆绞綄?shù)據(jù)記錄的規(guī)則檢驗(yàn)結(jié)果轉(zhuǎn)換為與該條數(shù)據(jù)記錄相應(yīng)的機(jī)器學(xué)習(xí)樣本的特征,這里的規(guī)則檢驗(yàn)結(jié)果可指示數(shù)據(jù)記錄分別針對(duì)各條規(guī)則的單獨(dú)判斷結(jié)果,也可指示數(shù)據(jù)記錄在多條規(guī)則下的綜合判斷結(jié)果,例如,規(guī)則檢驗(yàn)結(jié)果可以是數(shù)據(jù)記錄在所有規(guī)則下綜合判斷出的規(guī)則預(yù)估結(jié)果。相應(yīng)地,規(guī)則相關(guān)特征產(chǎn)生裝置200可基于上述規(guī)則檢驗(yàn)結(jié)果來產(chǎn)生機(jī)器學(xué)習(xí)樣本的至少一部分特征(即,規(guī)則相關(guān)特征),這些規(guī)則相關(guān)特征可作為機(jī)器學(xué)習(xí)樣本的全部特征,或者,這些規(guī)則相關(guān)特征還可與其他特征(例如,基于數(shù)據(jù)記錄的屬性信息所產(chǎn)生的屬性特征)共同構(gòu)成機(jī)器學(xué)習(xí)樣本的特征。
具體說來,規(guī)則相關(guān)產(chǎn)生裝置200可獲得數(shù)據(jù)記錄在所述規(guī)則下的檢驗(yàn)結(jié)果。這里,在規(guī)則涉及數(shù)據(jù)記錄的屬性信息自身的情況下,規(guī)則相關(guān)產(chǎn)生裝置200可直接將規(guī)則應(yīng)用于數(shù)據(jù)記錄的屬性信息;此外,如果規(guī)則涉及的是屬性信息(即,屬性字段)的變換結(jié)果(例如,離散化、字段組合、提取部分字段值、取整等變換結(jié)果),則規(guī)則相關(guān)產(chǎn)生裝置200需首先對(duì)數(shù)據(jù)記錄的屬性信息執(zhí)行與各條規(guī)則相應(yīng)的變換,并將規(guī)則應(yīng)用于變換后的屬性信息。
如上所述,規(guī)則檢驗(yàn)結(jié)果可以是每條規(guī)則的檢驗(yàn)結(jié)果,也可以是多條甚至全部規(guī)則的綜合檢驗(yàn)結(jié)果,其中,基于全部規(guī)則的綜合檢驗(yàn)結(jié)果可被看做數(shù)據(jù)記錄的規(guī)則預(yù)測結(jié)果。作為示例,規(guī)則相關(guān)產(chǎn)生裝置200可基于馬爾可夫邏輯網(wǎng)絡(luò)獲得數(shù)據(jù)記錄基于規(guī)則整體所得到的預(yù)測結(jié)果。
上述規(guī)則檢驗(yàn)結(jié)果可作為數(shù)據(jù)記錄的規(guī)則相關(guān)特征,作為示例,規(guī)則相關(guān)特征可包括規(guī)則預(yù)測特征和/或規(guī)則描述特征,也就是說,規(guī)則相關(guān)特征可僅為規(guī)則預(yù)測特征或規(guī)則描述特征,也可以是這兩種特征的組合。其中,規(guī)則相關(guān)產(chǎn)生裝置200可基于所述數(shù)據(jù)記錄依據(jù)所述至少一條規(guī)則而獲得的規(guī)則預(yù)測結(jié)果來產(chǎn)生規(guī)則預(yù)測特征;此外,規(guī)則相關(guān)產(chǎn)生裝置200可基于所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立來產(chǎn)生規(guī)則描述特征。
作為可選方式,規(guī)則相關(guān)特征產(chǎn)生裝置200在應(yīng)用所述規(guī)則來產(chǎn)生規(guī)則相關(guān)特征時(shí),可進(jìn)一步考慮到規(guī)則各自的置信度差異。實(shí)踐中,規(guī)則可能是基于先前經(jīng)驗(yàn)所總結(jié)出的關(guān)于預(yù)測目標(biāo)的一些規(guī)律,這些規(guī)律的適用性受到限制,例如,在針對(duì)銀行客戶進(jìn)行電話營銷的案例中,過往的營銷規(guī)則往往數(shù)量有限,無法覆蓋到所有客戶的具體情況,這也是應(yīng)用機(jī)器學(xué)習(xí)來提高營銷精準(zhǔn)性的重要緣由。
作為示例,根據(jù)本發(fā)明的示例性實(shí)施例,規(guī)則相關(guān)特征產(chǎn)生裝置200可應(yīng)用設(shè)置了相應(yīng)權(quán)重的各條規(guī)則,其中,所述權(quán)重表示相應(yīng)規(guī)則的確定性(例如,置信度)。也就是說,規(guī)則相關(guān)特征產(chǎn)生裝置200可將設(shè)置了權(quán)重的所述至少一條規(guī)則應(yīng)用于所述多個(gè)屬性信息,使得規(guī)則檢驗(yàn)結(jié)果能夠反映出對(duì)應(yīng)規(guī)則的置信度。例如,規(guī)則相關(guān)特征產(chǎn)生裝置200可通過將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值分別乘以與所述規(guī)則描述特征相應(yīng)的規(guī)則的權(quán)重來產(chǎn)生規(guī)則描述特征。通過這種方式,可對(duì)規(guī)則限制進(jìn)行一定程度上的放松,避免機(jī)器學(xué)習(xí)模型極度依賴規(guī)則的可靠性,克服硬性判斷失誤的弊端,從而得到整體看來更為準(zhǔn)確的規(guī)則應(yīng)用結(jié)果。
這里,所述權(quán)重可通過人為指定和/或通過規(guī)則學(xué)習(xí)引擎來設(shè)置,其中,所述規(guī)則學(xué)習(xí)引擎用于基于規(guī)則訓(xùn)練樣本來學(xué)習(xí)所述至少一條規(guī)則的權(quán)重。這里,規(guī)則訓(xùn)練樣本是指已經(jīng)具有預(yù)測目標(biāo)的實(shí)際值的歷史數(shù)據(jù)樣本,其可被規(guī)則學(xué)習(xí)引擎用來不斷地學(xué)習(xí)出各條規(guī)則的權(quán)重。此外,所述規(guī)則訓(xùn)練樣本作為歷史真實(shí)樣例,也可用作人為指定各條規(guī)則權(quán)重的依據(jù)。
作為示例,這里的規(guī)則學(xué)習(xí)引擎可基于馬爾可夫邏輯網(wǎng)絡(luò),這里的馬爾可夫邏輯網(wǎng)絡(luò)不僅限于馬爾可夫邏輯網(wǎng)絡(luò)的最初版本,也包括諸如概率軟邏輯(probabilistic soft logic)等變型或等同體。然而,應(yīng)注意:根據(jù)本發(fā)明示例性實(shí)施例的規(guī)則學(xué)習(xí)引擎并不受限于馬爾可夫邏輯網(wǎng)絡(luò)的形式,而是可采用任何能夠?qū)W習(xí)出規(guī)則權(quán)重的形式。
作為示例,可由規(guī)則相關(guān)特征產(chǎn)生裝置200在應(yīng)用規(guī)則之前來完成權(quán)重的設(shè)置,具體說來,規(guī)則相關(guān)特征產(chǎn)生裝置200可針對(duì)所述至少一條規(guī)則分別設(shè)置相應(yīng)的權(quán)重,并將設(shè)置了權(quán)重的所述至少一條規(guī)則應(yīng)用于所述多個(gè)屬性信息。這里,規(guī)則相關(guān)特征產(chǎn)生裝置200可通過各種適當(dāng)?shù)姆绞絹碓O(shè)置各條規(guī)則的權(quán)重,例如,可通過規(guī)則學(xué)習(xí)的方式來學(xué)習(xí)或更新各個(gè)規(guī)則的權(quán)重,也可根據(jù)業(yè)務(wù)人員的手動(dòng)輸入來指定各個(gè)規(guī)則的權(quán)重。
例如,規(guī)則相關(guān)特征產(chǎn)生裝置200可通過人為指定和/或通過規(guī)則學(xué)習(xí)引擎來針對(duì)所述至少一條規(guī)則分別設(shè)置相應(yīng)的權(quán)重。
作為示例,規(guī)則相關(guān)特征產(chǎn)生裝置200可結(jié)合規(guī)則訓(xùn)練樣本集,通過人為指定和/或通過規(guī)則學(xué)習(xí)引擎來針對(duì)所述至少一條規(guī)則分別設(shè)置相應(yīng)的權(quán)重。這里,規(guī)則訓(xùn)練樣本集是指已經(jīng)具有預(yù)測目標(biāo)的實(shí)際值的數(shù)據(jù)樣本(即,規(guī)則訓(xùn)練樣本)的集合,其中,規(guī)則訓(xùn)練樣本并不限于被用于通過機(jī)器學(xué)習(xí)來獲得各規(guī)則的權(quán)重,而是可以按照任何方式來使用所述規(guī)則訓(xùn)練樣本。例如,這些規(guī)則訓(xùn)練樣本可用于幫助業(yè)務(wù)人員了解各條規(guī)則的決策作用,從而設(shè)置相應(yīng)的權(quán)重;此外,這些規(guī)則訓(xùn)練樣本也可用于對(duì)規(guī)則進(jìn)行放松,例如,利用基于馬爾可夫邏輯網(wǎng)絡(luò)的規(guī)則學(xué)習(xí)引擎,結(jié)合規(guī)則訓(xùn)練樣本集來學(xué)習(xí)各條規(guī)則的權(quán)重。這種規(guī)則訓(xùn)練樣本集可預(yù)先由規(guī)則相關(guān)特征產(chǎn)生裝置200來獲取,作為示例,這些規(guī)則訓(xùn)練樣本與機(jī)器學(xué)習(xí)預(yù)測模型的訓(xùn)練樣本可來源于相同的數(shù)據(jù)記錄。此外,還可經(jīng)由預(yù)測樣本的機(jī)器學(xué)習(xí)結(jié)果來補(bǔ)充新的規(guī)則訓(xùn)練樣本,即,將數(shù)據(jù)記錄連同相應(yīng)預(yù)測樣本的預(yù)測結(jié)果組成新的規(guī)則訓(xùn)練樣本。
這里,作為示例,圖1所示的系統(tǒng)還可包括規(guī)則獲取裝置(未示出),用于獲取所述關(guān)于預(yù)測目標(biāo)的至少一條規(guī)則。這里,作為示例,規(guī)則獲取裝置可輸出用于輸入規(guī)則的圖形用戶界面,這里的圖形用戶界面可包括用于手動(dòng)輸入規(guī)則的規(guī)則編輯界面和/或用于顯示規(guī)則頭和/或規(guī)則體的組成項(xiàng)以供手動(dòng)配置的選擇輸入型界面。此外,可選地,選擇輸入型界面還可包括用于手動(dòng)設(shè)置各個(gè)規(guī)則權(quán)重的組件,以便業(yè)務(wù)人員可以人為指定各個(gè)規(guī)則的權(quán)重。
應(yīng)注意,上述設(shè)置權(quán)重的方式僅作為示例,而非用于限制本發(fā)明示例性實(shí)施例的范圍,并且,上述方式可單獨(dú)或組合使用。
以上示出了將規(guī)則的權(quán)重應(yīng)用于規(guī)則相關(guān)特征的取值的示例,而根據(jù)本發(fā)明的示例性實(shí)施例,上述規(guī)則權(quán)重的應(yīng)用方式并不受限于此。
例如,可將規(guī)則的權(quán)重應(yīng)用于機(jī)器學(xué)習(xí)預(yù)測模型的訓(xùn)練過程,通過這種方式,使得機(jī)器學(xué)習(xí)預(yù)測模型的訓(xùn)練階段可有效地借鑒規(guī)則的經(jīng)驗(yàn),從而更好地學(xué)習(xí)出機(jī)器學(xué)習(xí)預(yù)測模型。
具體說來,規(guī)則相關(guān)特征產(chǎn)生裝置200可將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值作為規(guī)則描述特征,相應(yīng)地,所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重分別作為機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值,這里,所述權(quán)重表示相應(yīng)規(guī)則的確定性。
此外,在上述示例中,所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重可基于機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的更新值來設(shè)置。這里,作為示例,在規(guī)則描述特征系數(shù)的初始值被設(shè)置為相應(yīng)規(guī)則的權(quán)重的情況下,在機(jī)器學(xué)習(xí)預(yù)測模型的訓(xùn)練過程中,上述系數(shù)的數(shù)值會(huì)不斷更新,進(jìn)而轉(zhuǎn)換為上述規(guī)則在機(jī)器學(xué)習(xí)下重新確定的置信度,而該置信度可反向作為規(guī)則的權(quán)重。
具體說來,規(guī)則相關(guān)特征產(chǎn)生裝置200可基于機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的更新值來設(shè)置所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重,其中,所述規(guī)則描述特征系數(shù)用于通過人為指定和/或通過規(guī)則學(xué)習(xí)引擎來針對(duì)所述至少一條規(guī)則分別設(shè)置相應(yīng)的權(quán)重。根據(jù)本發(fā)明的示例性實(shí)施例,規(guī)則應(yīng)用結(jié)果可轉(zhuǎn)換為機(jī)器學(xué)習(xí)預(yù)測模型的至少一部分樣本特征,即,規(guī)則描述特征,相應(yīng)地,機(jī)器學(xué)習(xí)預(yù)測模型中涉及規(guī)則描述特征的系數(shù)可用于反向影響規(guī)則權(quán)重的設(shè)置,例如,這些系數(shù)可作為馬爾可夫邏輯網(wǎng)絡(luò)中相應(yīng)輸入的規(guī)則權(quán)重,進(jìn)而可基于不斷輸入的系數(shù)來迭代出將應(yīng)用于屬性信息或模型的規(guī)則權(quán)重。這樣,機(jī)器學(xué)習(xí)與規(guī)則系統(tǒng)可在權(quán)重方面互相影響,從而迭代得到更為優(yōu)化的模型。
另外,應(yīng)注意,根據(jù)本發(fā)明的示例性實(shí)施例,所述規(guī)則的結(jié)果并非僅涉及分類(例如,二分類)判斷的結(jié)果值,還可以涉及量化的結(jié)論值。也就是說,作為示例,規(guī)則的結(jié)果既可以是取值為“0”或“1”的分類結(jié)果,也可以是取值為任意實(shí)數(shù)(正值或負(fù)值均可)的分類結(jié)果。特別地,在所述結(jié)果與預(yù)測目標(biāo)正相關(guān)時(shí),所述結(jié)論值為正值,并且,在所述結(jié)果與預(yù)測目標(biāo)負(fù)相關(guān)時(shí),所述結(jié)論值為負(fù)值。同樣地,規(guī)則結(jié)果的應(yīng)用方式并不受限于以上作為規(guī)則相關(guān)特征取值的方式,還可以將規(guī)則的結(jié)果應(yīng)用于機(jī)器學(xué)習(xí)預(yù)測模型的訓(xùn)練過程,通過這種方式,使得機(jī)器學(xué)習(xí)預(yù)測模型的訓(xùn)練階段可有效地借鑒規(guī)則的經(jīng)驗(yàn),從而更好地學(xué)習(xí)出機(jī)器學(xué)習(xí)預(yù)測模型。
具體說來,規(guī)則相關(guān)特征產(chǎn)生裝置200可將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值作為規(guī)則描述特征,相應(yīng)地,所述至少一條規(guī)則之中的各條規(guī)則的結(jié)論值分別作為機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值,其中,所述結(jié)論值表示相應(yīng)規(guī)則的條件成立時(shí)所導(dǎo)致的結(jié)果。
應(yīng)注意,上述應(yīng)用規(guī)則權(quán)重和規(guī)則結(jié)果的方式還可以進(jìn)行組合,使得在規(guī)則相關(guān)特征或機(jī)器學(xué)習(xí)模型的相應(yīng)系數(shù)中體現(xiàn)出規(guī)則權(quán)重和規(guī)則結(jié)果的共同影響。作為示例,規(guī)則相關(guān)特征產(chǎn)生裝置200可通過將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值分別乘以與所述規(guī)則描述特征相應(yīng)的規(guī)則的權(quán)重與結(jié)論值的乘積來產(chǎn)生規(guī)則描述特征。
或者,作為另一示例,規(guī)則相關(guān)特征產(chǎn)生裝置200可將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值作為規(guī)則描述特征,相應(yīng)地,所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重與結(jié)論值的乘積分別作為機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值。
應(yīng)注意,在將規(guī)則權(quán)重和/或規(guī)則結(jié)論值應(yīng)用于規(guī)則描述特征或相應(yīng)的模型特征系數(shù)初始值時(shí),可適當(dāng)?shù)卣{(diào)整它們的數(shù)值范圍,以便更好地適用于機(jī)器學(xué)習(xí)模型。
此外,作為可選方式,在通過將規(guī)則權(quán)重和/或規(guī)則結(jié)論值設(shè)置為相應(yīng)模型特征系數(shù)的初始值的基礎(chǔ)上,還可進(jìn)一步調(diào)整所述初始值,以更好地體現(xiàn)算法特點(diǎn)或?qū)<医?jīng)驗(yàn)。具體說來,機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值可進(jìn)一步被乘以根據(jù)機(jī)器學(xué)習(xí)預(yù)測模型的算法而設(shè)置的系數(shù)修正值。
預(yù)測樣本產(chǎn)生裝置300用于至少基于所述規(guī)則相關(guān)特征來形成預(yù)測樣本。這里,作為示例,預(yù)測樣本產(chǎn)生裝置300可產(chǎn)生預(yù)測樣本,使其僅涵蓋由規(guī)則相關(guān)產(chǎn)生裝置200產(chǎn)生的規(guī)則相關(guān)特征?;蛘?,預(yù)測樣本產(chǎn)生裝置300可通過將規(guī)則相關(guān)特征與其他特征進(jìn)行組合來產(chǎn)生預(yù)測樣本,這里,所述其他特征可以是基于數(shù)據(jù)記錄的屬性信息而產(chǎn)生的屬性特征。這里,屬性特征可以是屬性信息本身,也可以是通過對(duì)屬性信息(即,屬性字段)進(jìn)行處理(即,特征處理,例如,離散化、字段組合、提取部分字段值、取整等各種特征工程處理)所得到的結(jié)果。
機(jī)器學(xué)習(xí)預(yù)測裝置400用于利用機(jī)器學(xué)習(xí)預(yù)測模型,基于預(yù)測樣本來產(chǎn)生關(guān)于預(yù)測目標(biāo)的機(jī)器學(xué)習(xí)預(yù)測結(jié)果,其中,所述機(jī)器學(xué)習(xí)預(yù)測模型被訓(xùn)練為針對(duì)預(yù)測樣本來提供相應(yīng)的機(jī)器學(xué)習(xí)預(yù)測結(jié)果。
具體說來,在獲取了融入有數(shù)據(jù)記錄的規(guī)則檢驗(yàn)結(jié)果的預(yù)測樣本之后,機(jī)器學(xué)習(xí)預(yù)測裝置400可使用之前基于機(jī)器學(xué)習(xí)技術(shù)所訓(xùn)練出的機(jī)器學(xué)習(xí)模型(即,機(jī)器學(xué)習(xí)預(yù)測模型)來提供關(guān)于預(yù)測目標(biāo)的機(jī)器學(xué)習(xí)預(yù)測結(jié)果。這里,所述機(jī)器學(xué)習(xí)預(yù)測模型是基于機(jī)器學(xué)習(xí)算法訓(xùn)練得到的,具體說來,可使用大量的歷史數(shù)據(jù)作為訓(xùn)練樣本,基于特定的機(jī)器學(xué)習(xí)算法,訓(xùn)練出機(jī)器學(xué)習(xí)預(yù)測模型,其中,訓(xùn)練樣本的特征與預(yù)測樣本的特征相同,相應(yīng)的預(yù)測目標(biāo)實(shí)際值作為訓(xùn)練樣本的標(biāo)記(label)。
相應(yīng)地,當(dāng)新的預(yù)測樣本到來時(shí),機(jī)器學(xué)習(xí)預(yù)測裝置400可將預(yù)測樣本的特征輸入到機(jī)器學(xué)習(xí)預(yù)測模型,即可得到所述新的預(yù)測樣本關(guān)于預(yù)測目標(biāo)的預(yù)測結(jié)果。
可以看出,根據(jù)本發(fā)明的示例性實(shí)施例,機(jī)器學(xué)習(xí)預(yù)測裝置400可使用基于任意機(jī)器學(xué)習(xí)算法訓(xùn)練出的預(yù)測模型,這是因?yàn)?,?guī)則應(yīng)用結(jié)果被轉(zhuǎn)換為預(yù)測樣本中的特征,確保了原機(jī)器學(xué)習(xí)算法的獨(dú)立性,相應(yīng)地,圖1所示的系統(tǒng)可理解為是一個(gè)通用的機(jī)器學(xué)習(xí)系統(tǒng),不僅有效地引入了規(guī)則判斷,而且不必改變原機(jī)器學(xué)習(xí)算法。
此外,作為示例,機(jī)器學(xué)習(xí)預(yù)測裝置400還可將數(shù)據(jù)記錄與機(jī)器學(xué)習(xí)預(yù)測結(jié)果組合為規(guī)則訓(xùn)練樣本。如上所述,在本發(fā)明的示例性實(shí)施例中,可結(jié)合規(guī)則訓(xùn)練樣本集來針對(duì)各條規(guī)則分別設(shè)置相應(yīng)的權(quán)重,上述操作可由規(guī)則相關(guān)特征產(chǎn)生裝置200或其他裝置來完成。相應(yīng)地,通過將數(shù)據(jù)記錄連同相應(yīng)預(yù)測樣本的預(yù)測結(jié)果組成新的規(guī)則訓(xùn)練樣本,可基于機(jī)器學(xué)習(xí)的預(yù)測結(jié)果對(duì)規(guī)則權(quán)重進(jìn)行調(diào)整,以更好地克服規(guī)則本身的局限性。為此,機(jī)器學(xué)習(xí)預(yù)測裝置400可將機(jī)器學(xué)習(xí)預(yù)測結(jié)果作為新規(guī)則訓(xùn)練樣本的標(biāo)記,該標(biāo)記與數(shù)據(jù)記錄則可組合為完整的規(guī)則訓(xùn)練樣本,相應(yīng)地,機(jī)器學(xué)習(xí)預(yù)測裝置400可將組合出的規(guī)則訓(xùn)練樣本提供給規(guī)則相關(guān)特征產(chǎn)生裝置200。
此外,機(jī)器學(xué)習(xí)預(yù)測裝置400還可提取機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù),其中,所述規(guī)則描述特征系數(shù)用于通過人為指定和/或通過規(guī)則學(xué)習(xí)引擎來針對(duì)所述至少一條規(guī)則分別設(shè)置相應(yīng)的權(quán)重。通過這種方式,機(jī)器學(xué)習(xí)預(yù)測裝置400可提取出通過機(jī)器學(xué)習(xí)方式得到的相關(guān)規(guī)則的權(quán)重,即,規(guī)則描述特征系數(shù),并將提取的系數(shù)提供給用于設(shè)置規(guī)則權(quán)重的裝置(例如,規(guī)則相關(guān)特征產(chǎn)生裝置200或其他裝置),以更新之前設(shè)置的規(guī)則權(quán)重。可以看出,機(jī)器學(xué)習(xí)系統(tǒng)和規(guī)則體系在規(guī)則系數(shù)方面互相影響,有助于得到更優(yōu)的預(yù)估結(jié)果。
應(yīng)理解,圖1所示的上述裝置可被分別配置為執(zhí)行特定功能的軟件、硬件、固件或上述項(xiàng)的任意組合。例如,這些裝置可對(duì)應(yīng)于專用的集成電路,也可對(duì)應(yīng)于純粹的軟件代碼,還可對(duì)應(yīng)于軟件與硬件相結(jié)合的單元或模塊。此外,這些裝置所實(shí)現(xiàn)的一個(gè)或多個(gè)功能也可由物理實(shí)體設(shè)備(例如,處理器、客戶端或服務(wù)器等)中的組件來統(tǒng)一執(zhí)行。
此外,為了進(jìn)一步綜合規(guī)則和機(jī)器學(xué)習(xí)的預(yù)測結(jié)果,作為可選方式,可在基于融入了規(guī)則相關(guān)特征的預(yù)測樣本得到機(jī)器學(xué)習(xí)預(yù)測結(jié)果的基礎(chǔ)上,進(jìn)一步融合基于規(guī)則整體給出的規(guī)則預(yù)測結(jié)果,以得到最終的預(yù)測結(jié)果。
圖2示出根據(jù)本發(fā)明另一示例性實(shí)施例的結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的系統(tǒng)的框圖。這里,圖2所示的系統(tǒng)中的數(shù)據(jù)記錄獲取裝置100、規(guī)則相關(guān)特征產(chǎn)生裝置200、預(yù)測樣本產(chǎn)生裝置300和機(jī)器學(xué)習(xí)預(yù)測裝置400可與圖1所示的上述裝置執(zhí)行類似的操作,這里將不再贅述。此外,圖2所示的系統(tǒng)還包括規(guī)則預(yù)測裝置500和融合裝置600。
這里,規(guī)則預(yù)測裝置500用于獲得所述數(shù)據(jù)記錄依據(jù)所述至少一條規(guī)則的規(guī)則預(yù)測結(jié)果,相應(yīng)地,融合裝置600用于將機(jī)器學(xué)習(xí)預(yù)測結(jié)果與規(guī)則預(yù)測結(jié)果進(jìn)行融合,以得到與預(yù)測樣本相應(yīng)的融合預(yù)測結(jié)果。
具體說來,規(guī)則預(yù)測裝置500可獲得數(shù)據(jù)記錄在全體規(guī)則下的規(guī)則預(yù)測結(jié)果。作為示例,規(guī)則預(yù)測裝置500可包括規(guī)則學(xué)習(xí)引擎,該規(guī)則學(xué)習(xí)引擎可基于馬爾可夫邏輯網(wǎng)絡(luò)學(xué)習(xí)到各條規(guī)則的權(quán)重,相應(yīng)地,規(guī)則預(yù)測裝置500將設(shè)置了權(quán)重的規(guī)則應(yīng)用于數(shù)據(jù)記錄,從而得到該數(shù)據(jù)記錄的規(guī)則預(yù)測結(jié)果。
可以看出,作為示例,規(guī)則相關(guān)特征同樣可包括規(guī)則預(yù)測結(jié)果,在這種情況下,規(guī)則預(yù)測裝置500可設(shè)置在規(guī)則相關(guān)特征產(chǎn)生裝置200之內(nèi),或者說,規(guī)則相關(guān)產(chǎn)生裝置200可實(shí)現(xiàn)規(guī)則預(yù)測裝置500的功能,使得系統(tǒng)中不必單獨(dú)設(shè)置規(guī)則預(yù)測裝置500。相應(yīng)地,所獲得的規(guī)則預(yù)測結(jié)果不僅作為規(guī)則相關(guān)特征(具體說來,規(guī)則預(yù)測特征)融入預(yù)測樣本,還將與預(yù)測樣本的機(jī)器學(xué)習(xí)結(jié)果進(jìn)行融合。
此外,作為另一示例,規(guī)則相關(guān)特征可不包括規(guī)則預(yù)測結(jié)果,在這種情況下,需如圖2所示來設(shè)置單獨(dú)的規(guī)則預(yù)測裝置500。
融合裝置600可從機(jī)器學(xué)習(xí)預(yù)測裝置400接收機(jī)器學(xué)習(xí)預(yù)測結(jié)果,從規(guī)則預(yù)測裝置500或規(guī)則相關(guān)特征產(chǎn)生裝置200接收規(guī)則預(yù)測結(jié)果,并將上述兩個(gè)結(jié)果進(jìn)行融合,以得到與預(yù)測樣本相應(yīng)的融合預(yù)測結(jié)果。
此外,作為可選方式,上述融合預(yù)測結(jié)果也可以用于形成新的規(guī)則訓(xùn)練樣本,具體說來,融合裝置600可將數(shù)據(jù)記錄與融合預(yù)測結(jié)果組合為規(guī)則訓(xùn)練樣本。
以下參照?qǐng)D3來描述根據(jù)本發(fā)明示例性實(shí)施例的結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的方法的流程圖。這里,作為示例,圖3所示的方法可由圖1所示的系統(tǒng)來執(zhí)行,也可完全通過計(jì)算機(jī)程序以軟件方式實(shí)現(xiàn),還可通過特定配置的計(jì)算裝置來執(zhí)行圖3所示的方法。為了描述方便,以下假設(shè)圖3所示的方法由圖1所示的系統(tǒng)來執(zhí)行。
如圖所示,在步驟S100中,由數(shù)據(jù)記錄獲取裝置100獲取數(shù)據(jù)記錄,其中,所述數(shù)據(jù)記錄包括多個(gè)屬性信息。
這里,作為示例,每條獲取的數(shù)據(jù)記錄可對(duì)應(yīng)于將針對(duì)其執(zhí)行關(guān)于預(yù)測目標(biāo)的預(yù)估的待預(yù)測項(xiàng)(例如,事件或?qū)ο?,相應(yīng)地,所述數(shù)據(jù)記錄可包括各種反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)(即,屬性)的屬性信息字段??蓪?duì)這些屬性信息字段進(jìn)行相應(yīng)的篩選或其他處理。這里,數(shù)據(jù)記錄獲取裝置100可通過手動(dòng)、半自動(dòng)或全自動(dòng)的方式來采集數(shù)據(jù),或?qū)Σ杉脑紨?shù)據(jù)進(jìn)行處理,使得處理后的各種屬性信息可后續(xù)作為機(jī)器學(xué)習(xí)的樣本特征。作為示例,數(shù)據(jù)記錄獲取裝置100可批量地采集數(shù)據(jù)。
這里,數(shù)據(jù)記錄獲取裝置100可通過輸入裝置(例如,工作站)接收用戶手動(dòng)輸入的待預(yù)測數(shù)據(jù)記錄。此外,數(shù)據(jù)記錄獲取裝置100可通過全自動(dòng)的方式從數(shù)據(jù)源系統(tǒng)地取出待預(yù)測數(shù)據(jù)記錄,例如,通過以軟件、固件、硬件或其組合實(shí)現(xiàn)的定時(shí)器機(jī)制來系統(tǒng)地請(qǐng)求數(shù)據(jù)源并從響應(yīng)中得到所請(qǐng)求的數(shù)據(jù)。所述數(shù)據(jù)源可包括一個(gè)或多個(gè)數(shù)據(jù)庫或其他服務(wù)器。可經(jīng)由內(nèi)部網(wǎng)絡(luò)和/或外部網(wǎng)絡(luò)來實(shí)現(xiàn)全自動(dòng)獲取數(shù)據(jù)的方式,其中可包括通過互聯(lián)網(wǎng)來傳送加密的數(shù)據(jù)。在服務(wù)器、數(shù)據(jù)庫、網(wǎng)絡(luò)等被配置為彼此通信的情況下,可在沒有人工干預(yù)的情況下自動(dòng)進(jìn)行數(shù)據(jù)采集,但應(yīng)注意,在這種方式下仍舊可存在一定的用戶輸入操作。半自動(dòng)方式介于手動(dòng)方式與全自動(dòng)方式之間。半自動(dòng)方式與全自動(dòng)方式的區(qū)別在于由用戶激活的觸發(fā)機(jī)制代替了定時(shí)器機(jī)制。在這種情況下,在接收到特定的用戶輸入的情況下,才產(chǎn)生提取數(shù)據(jù)的請(qǐng)求。每次獲取數(shù)據(jù)時(shí),優(yōu)選地,可將捕獲的數(shù)據(jù)存儲(chǔ)在非易失性存儲(chǔ)器中。作為示例,可利用數(shù)據(jù)倉庫來存儲(chǔ)在獲取期間采集的原始數(shù)據(jù)以及處理后的數(shù)據(jù)。
上述獲取的數(shù)據(jù)記錄可來源于相同或不同的數(shù)據(jù)源,也就是說,每條數(shù)據(jù)記錄也可以是不同數(shù)據(jù)記錄的拼接結(jié)果。例如,除了獲取客戶向銀行申請(qǐng)開通信用卡時(shí)填寫的信息數(shù)據(jù)記錄(其包括收入、學(xué)歷、職務(wù)、資產(chǎn)情況等屬性信息字段)之外,作為示例,數(shù)據(jù)記錄獲取裝置100可獲取該客戶在該銀行的其他數(shù)據(jù)記錄,例如,貸款記錄、日常交易數(shù)據(jù)等,這些獲取的數(shù)據(jù)記錄可拼接為完整的數(shù)據(jù)記錄。此外,數(shù)據(jù)記錄獲取裝置100還可獲取來源于其他私有源或公共源的數(shù)據(jù),例如,來源于數(shù)據(jù)提供商的數(shù)據(jù)、來源于互聯(lián)網(wǎng)(例如,社交網(wǎng)站)的數(shù)據(jù)、來源于移動(dòng)運(yùn)營商的數(shù)據(jù)、來源于APP運(yùn)營商的數(shù)據(jù)、來源于快遞公司的數(shù)據(jù)、來源于信用機(jī)構(gòu)的數(shù)據(jù)等等。
可選地,數(shù)據(jù)記錄獲取裝置100可借助硬件集群(諸如Hadoop集群、Spark集群等)對(duì)采集到的數(shù)據(jù)進(jìn)行存儲(chǔ)和/或處理,例如,存儲(chǔ)、分類和其他離線操作。此外,數(shù)據(jù)記錄獲取裝置100也可對(duì)采集的數(shù)據(jù)進(jìn)行在線的流處理。
作為示例,數(shù)據(jù)記錄獲取裝置100中可包括文本分析模塊等數(shù)據(jù)轉(zhuǎn)換模塊,相應(yīng)地,在步驟S100中,數(shù)據(jù)記錄獲取裝置100可將文本等非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為更易于使用的結(jié)構(gòu)化數(shù)據(jù)以進(jìn)行進(jìn)一步的處理或引用?;谖谋镜臄?shù)據(jù)可包括電子郵件、文檔、網(wǎng)頁、圖形、電子數(shù)據(jù)表、呼叫中心日志、交易報(bào)告等。
根據(jù)本發(fā)明的示例性實(shí)施例,作為可選方式,數(shù)據(jù)記錄獲取裝置100可對(duì)獲取的數(shù)據(jù)記錄進(jìn)行特征工程處理,即,對(duì)數(shù)據(jù)記錄的屬性信息字段值進(jìn)行處理以獲取可用于進(jìn)行規(guī)則學(xué)習(xí)和/或機(jī)器學(xué)習(xí)的樣本特征的屬性信息。例如,數(shù)據(jù)記錄獲取裝置100可對(duì)接收到的數(shù)據(jù)記錄的原始屬性信息字段進(jìn)行諸如離散化、字段組合、提取部分字段值、取整等各種特征工程的處理,從而將原始的屬性信息字段值轉(zhuǎn)換為可作為規(guī)則學(xué)習(xí)特征和/或機(jī)器學(xué)習(xí)特征的屬性信息。
在現(xiàn)有技術(shù)中,規(guī)則參與機(jī)器學(xué)習(xí)主要體現(xiàn)在過濾掉不符合規(guī)則的數(shù)據(jù)、利用規(guī)則對(duì)原始數(shù)據(jù)進(jìn)行變換等,這使得規(guī)則不能夠參與機(jī)器學(xué)習(xí)模型的訓(xùn)練過程,而只是通過前期對(duì)數(shù)據(jù)的預(yù)處理或后期對(duì)預(yù)測結(jié)果的修正來影響最終預(yù)測結(jié)果。
另一方面,根據(jù)本發(fā)明的示例性實(shí)施例,能夠在保留機(jī)器學(xué)習(xí)模型獨(dú)立性的情況下,將規(guī)則有效地融入機(jī)器學(xué)習(xí)的過程中,這使得可使用適用于預(yù)測目標(biāo)的任意機(jī)器學(xué)習(xí)模型,而不必局限于某種特定的機(jī)器學(xué)習(xí)模型,實(shí)現(xiàn)了機(jī)器學(xué)習(xí)系統(tǒng)的通用性。
具體說來,在步驟S200中,由規(guī)則相關(guān)特征產(chǎn)生裝置200將關(guān)于預(yù)測目標(biāo)的至少一條規(guī)則應(yīng)用于數(shù)據(jù)記錄的所述多個(gè)屬性信息,以產(chǎn)生數(shù)據(jù)記錄的規(guī)則相關(guān)特征。
作為示例,在步驟S200之前,還可包括獲取所述關(guān)于預(yù)測目標(biāo)的至少一條規(guī)則的步驟。作為示例,可利用可視化的界面從外部接收規(guī)則,進(jìn)一步地,可在所述界面中展示可供用戶配置規(guī)則或規(guī)則權(quán)重的組件,以便用戶方便地設(shè)置或調(diào)整規(guī)則。
這里,所述至少一條規(guī)則整體上與預(yù)測目標(biāo)相關(guān),其中,每條規(guī)則可直接或間接地涉及預(yù)測目標(biāo)。
例如,假設(shè)以預(yù)測垃圾郵件為目標(biāo),則可至少存在如下兩條規(guī)則:
規(guī)則3:垃圾郵件←標(biāo)題包含“促銷”;
規(guī)則4:垃圾郵件←標(biāo)題包含“投稿”。
又例如,假設(shè)以預(yù)測癌癥為目標(biāo),則可至少存在如下兩條規(guī)則:
規(guī)則5:
規(guī)則6:
根據(jù)本發(fā)明的示例性實(shí)施例,可將這樣的規(guī)則應(yīng)用于獲取的數(shù)據(jù)記錄,從而得到相應(yīng)的規(guī)則相關(guān)特征。這里,假設(shè)獲取的數(shù)據(jù)記錄的集合為X,每條數(shù)據(jù)記錄可具有d個(gè)屬性信息,即,第i個(gè)數(shù)據(jù)記錄xi∈X,可表示為xi=(xi,1;xi,2;…;xi,d),其中,i和d為正整數(shù)。相應(yīng)地,規(guī)則相關(guān)特征可以是規(guī)則作用于這些屬性信息之中的至少一部分屬性信息而獲得的檢驗(yàn)結(jié)果,這里的檢驗(yàn)結(jié)果可對(duì)應(yīng)于單條或多條規(guī)則,作為示例,還可以是對(duì)應(yīng)于全體規(guī)則的規(guī)則預(yù)測結(jié)果。
作為示例,可通過判斷各條規(guī)則的條件是否成立來獲得規(guī)則相關(guān)特征,例如,可將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值作為規(guī)則相關(guān)特征。具體說來,在上述預(yù)測垃圾郵件的示例中,針對(duì)第i個(gè)數(shù)據(jù)記錄xi,可產(chǎn)生對(duì)應(yīng)的規(guī)則相關(guān)特征(Ri,3;Ri,4),其中,Ri,3可指示規(guī)則3的條件是否成立,Ri,4可指示規(guī)則4的條件是否成立。舉例說來,當(dāng)?shù)趇個(gè)數(shù)據(jù)記錄xi的標(biāo)題信息包含“促銷”,即,規(guī)則3的規(guī)則體成立時(shí),Ri,3可取值為1;當(dāng)所述標(biāo)題信息不包含“促銷”時(shí),Ri,3可取值為0。此外,當(dāng)?shù)趇個(gè)數(shù)據(jù)記錄xi的標(biāo)題信息包含“投稿”,即,規(guī)則4的規(guī)則體成立時(shí),Ri,4可取值為1;當(dāng)所述標(biāo)題信息不包含“投稿”時(shí),Ri,4可取值為0。
實(shí)踐中,規(guī)則往往具有不確定性,比如,標(biāo)題包含“促銷”或“投稿”的郵件并非一定是垃圾郵件。規(guī)則本身的不確定性容易導(dǎo)致最終的預(yù)測結(jié)果與客觀情況出入很大,并且,持續(xù)使用這樣的規(guī)則會(huì)導(dǎo)致預(yù)測結(jié)果不斷惡化。
為此,根據(jù)本發(fā)明的示例性實(shí)施例,在步驟S200中將規(guī)則應(yīng)用于數(shù)據(jù)記錄時(shí),可考慮規(guī)則的置信度,具體說來,可將設(shè)置了權(quán)重的所述至少一條規(guī)則應(yīng)用于所述多個(gè)屬性信息,使得不同規(guī)則對(duì)應(yīng)的置信度在后續(xù)的機(jī)器學(xué)習(xí)模型中能夠得以區(qū)分。這里的權(quán)重可通過人為指定和/或通過規(guī)則學(xué)習(xí)引擎而預(yù)先設(shè)置。
具體說來,在步驟S200中,可通過將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值分別乘以與所述規(guī)則描述特征相應(yīng)的規(guī)則的權(quán)重來產(chǎn)生規(guī)則描述特征。例如,在上述預(yù)測垃圾郵件的示例中,規(guī)則3可被設(shè)置了權(quán)重0.8,而規(guī)則4可被設(shè)置了權(quán)重0.3,相應(yīng)地,針對(duì)數(shù)據(jù)記錄,當(dāng)規(guī)則3的規(guī)則體成立時(shí),Ri,3可取值為0.8;當(dāng)規(guī)則3的規(guī)則體不成立時(shí),Ri,3可取值為0。此外,當(dāng)規(guī)則4的規(guī)則體成立時(shí),Ri,4可取值為0.3;當(dāng)規(guī)則4的規(guī)則體不成立時(shí),Ri,4可取值為0。
除了將指示規(guī)則的條件是否成立的邏輯值本身作為規(guī)則相關(guān)特征之外,還可將條件成立時(shí)導(dǎo)致的結(jié)果引入規(guī)則相關(guān)特征,特別地,這種規(guī)則相關(guān)特征可有效地體現(xiàn)規(guī)則條件成立時(shí)導(dǎo)致的量化結(jié)論值。具體說來,在步驟S200中,可通過將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值分別乘以與所述規(guī)則描述特征相應(yīng)的規(guī)則的結(jié)論值來產(chǎn)生規(guī)則描述特征。
例如,在預(yù)測垃圾郵件的另一示例中,可存在能夠判斷垃圾郵件概率的規(guī)則,例如:
規(guī)則33:70%為垃圾郵件←標(biāo)題包含“促銷”;
規(guī)則44:40%為垃圾郵件←標(biāo)題包含“投稿”。
相應(yīng)地,針對(duì)第i個(gè)數(shù)據(jù)記錄xi,可產(chǎn)生對(duì)應(yīng)的規(guī)則相關(guān)特征(Ri,33;Ri,44),其中,Ri,33可對(duì)應(yīng)于規(guī)則33的條件成立所導(dǎo)致的結(jié)果,Ri,44可對(duì)應(yīng)于規(guī)則44的條件成立所導(dǎo)致的結(jié)果。舉例說來,當(dāng)?shù)趇個(gè)數(shù)據(jù)記錄xi的標(biāo)題信息包含“促銷”,即,規(guī)則33的規(guī)則體成立時(shí),Ri,33可取值為0.7;當(dāng)所述標(biāo)題信息不包含“促銷”時(shí),Ri,33可取值為0。此外,當(dāng)?shù)趇個(gè)數(shù)據(jù)記錄xi的標(biāo)題信息包含“投稿”,即,規(guī)則44的規(guī)則體成立時(shí),Ri,44可取值為0.4;當(dāng)所述標(biāo)題信息不包含“投稿”時(shí),Ri,44可取值為0。
在如上應(yīng)用規(guī)則的結(jié)果值的情況下,還可進(jìn)一步結(jié)合各條規(guī)則的權(quán)重,具體說來,在步驟S200中,可通過將指示所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值分別乘以與所述規(guī)則描述特征相應(yīng)的規(guī)則的權(quán)重與結(jié)論值的乘積來產(chǎn)生規(guī)則描述特征。
例如,假設(shè)上述規(guī)則Ri,33被設(shè)置了權(quán)重0.6,而規(guī)則Ri,44被設(shè)置了權(quán)重0.5。相應(yīng)地,當(dāng)?shù)趇個(gè)數(shù)據(jù)記錄xi的標(biāo)題信息包含“促銷”,即,規(guī)則33的規(guī)則體成立時(shí),Ri,33可取值為0.7*0.6=0.42;當(dāng)所述標(biāo)題信息不包含“促銷”時(shí),Ri,33可取值為0。此外,當(dāng)?shù)趇個(gè)數(shù)據(jù)記錄xi的標(biāo)題信息包含“投稿”,即,規(guī)則44的規(guī)則體成立時(shí),Ri,44可取值為0.4*0.5=0.2;當(dāng)所述標(biāo)題信息不包含“投稿”時(shí),Ri,44可取值為0。
應(yīng)注意,在確定規(guī)則相關(guān)特征的具體特征值時(shí),可適當(dāng)?shù)卣{(diào)整權(quán)重或結(jié)論值的取值范圍,使得特征值能夠有效地適用于機(jī)器學(xué)習(xí)運(yùn)算。
實(shí)質(zhì)上,上述規(guī)則相關(guān)特征可表征為一種規(guī)則描述特征,該規(guī)則描述特征可基于所述數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立來產(chǎn)生,可指示規(guī)則的條件是否成立的結(jié)果,也可進(jìn)一步結(jié)合規(guī)則的權(quán)重和/或結(jié)論值。
可以看出,在上述示例中,針對(duì)數(shù)據(jù)記錄,每條規(guī)則具有相應(yīng)的規(guī)則描述特征,該規(guī)則描述特征的取值指示所述規(guī)則應(yīng)用于數(shù)據(jù)記錄的屬性信息時(shí)的檢驗(yàn)結(jié)果。然而,本發(fā)明的示例性實(shí)施例并非受限于此,規(guī)則描述特征可對(duì)應(yīng)于多條規(guī)則被應(yīng)用后的綜合結(jié)果。應(yīng)注意,規(guī)則相關(guān)特征的產(chǎn)生方式并不受限于上述示例,任何通過將規(guī)則應(yīng)用于數(shù)據(jù)記錄而產(chǎn)生相關(guān)特征的方式均可應(yīng)用于本發(fā)明的示例性實(shí)施例。
例如,規(guī)則相關(guān)特征還可表征為一種規(guī)則預(yù)測特征,該規(guī)則預(yù)測特征基于所述數(shù)據(jù)記錄依據(jù)所述至少一條規(guī)則而獲得的規(guī)則預(yù)測結(jié)果來產(chǎn)生。例如,在系統(tǒng)中(例如,在規(guī)則相關(guān)特征產(chǎn)生裝置200內(nèi))可實(shí)施有規(guī)則學(xué)習(xí)引擎,通過該規(guī)則學(xué)習(xí)引擎,可在步驟S200中獲得數(shù)據(jù)記錄基于規(guī)則整體而得到的預(yù)測結(jié)果,該預(yù)測結(jié)果可作為規(guī)則相關(guān)特征。
例如,在上述預(yù)測垃圾郵件的示例中,在步驟S200中,可利用規(guī)則學(xué)習(xí)引擎,基于包括規(guī)則3、規(guī)則4以及其他相關(guān)規(guī)則的整體規(guī)則(可選地,連同相應(yīng)的權(quán)重),預(yù)測出某封郵件為垃圾郵件的概率為0.4,并將該預(yù)測結(jié)果0.4作為所述郵件的規(guī)則相關(guān)特征PRUL。應(yīng)注意,規(guī)則預(yù)測特征可連同規(guī)則描述特征一起作為數(shù)據(jù)記錄的規(guī)則相關(guān)特征。
根據(jù)本發(fā)明的示例性實(shí)施例,規(guī)則學(xué)習(xí)引擎可用于基于輸入的規(guī)則和相應(yīng)的實(shí)例(即,作為規(guī)則訓(xùn)練樣本的真實(shí)歷史數(shù)據(jù)記錄),學(xué)習(xí)得到每個(gè)規(guī)則的權(quán)重,并能夠基于賦予了權(quán)重的規(guī)則來針對(duì)新的數(shù)據(jù)記錄給出預(yù)測結(jié)果(例如,預(yù)估概率)。這里,輸入的規(guī)則可包含權(quán)重,也可不包含權(quán)重。這里的規(guī)則權(quán)重可初始由人為指定,并且,隨后利用諸如馬爾可夫邏輯網(wǎng)絡(luò)等對(duì)人為指定的規(guī)則進(jìn)行不斷更新。此外,這里的規(guī)則權(quán)重還可來源于后續(xù)的機(jī)器學(xué)習(xí)模型,即,將訓(xùn)練過程期間或訓(xùn)練完成之后得到的機(jī)器學(xué)習(xí)模型中的規(guī)則相關(guān)特征(例如,規(guī)則描述特征)的系數(shù)反饋給規(guī)則學(xué)習(xí)引擎,從而使得規(guī)則學(xué)習(xí)部分和機(jī)器學(xué)習(xí)部分通過規(guī)則特征的權(quán)重而相互交互,迭代出性能更優(yōu)的模型。
作為示例,上述規(guī)則學(xué)習(xí)引擎可基于馬爾可夫邏輯網(wǎng)絡(luò)(或其變型,例如,概率軟邏輯)而獲得,也可以按照其他形式來構(gòu)造所述規(guī)則學(xué)習(xí)引擎。具體說來,馬爾可夫邏輯網(wǎng)絡(luò)是由一階邏輯公式的規(guī)則及其對(duì)應(yīng)的權(quán)重值組成的二元組集合。馬爾可夫邏輯網(wǎng)絡(luò)的基本思想是將一階邏輯公式的限制放松,即,一個(gè)事件違反的公式越多,其發(fā)生概率越小,但未必完全不會(huì)發(fā)生(即,發(fā)生概率未必為0)。通過基于規(guī)則訓(xùn)練樣本集將所述規(guī)則進(jìn)行實(shí)例化,可得到馬爾可夫邏輯網(wǎng)絡(luò),進(jìn)而能夠在馬爾可夫邏輯網(wǎng)絡(luò)上進(jìn)行學(xué)習(xí)和推理。
圖4示出根據(jù)本發(fā)明示例性實(shí)施例的馬爾可夫邏輯網(wǎng)絡(luò)的示例。在圖4所示的示例中,以預(yù)測癌癥為目標(biāo),相應(yīng)地,存在如下兩條規(guī)則:
規(guī)則5:
規(guī)則6:
在圖4中示出了A、B兩個(gè)人在上述規(guī)則下的實(shí)例化情況,本領(lǐng)域技術(shù)人員應(yīng)知曉,在一組涉及上述規(guī)則的實(shí)例組成的世界,可學(xué)習(xí)出各條規(guī)則對(duì)應(yīng)的權(quán)重以及基于規(guī)則整體所預(yù)測出的預(yù)估結(jié)果。
可以看出,根據(jù)本發(fā)明的示例性實(shí)施例,可將馬爾可夫邏輯網(wǎng)絡(luò)學(xué)習(xí)到的規(guī)則權(quán)重及其預(yù)測結(jié)果應(yīng)用于一般的機(jī)器學(xué)習(xí)問題(例如,分類問題等),從而與通用的機(jī)器學(xué)習(xí)方法相結(jié)合,不再整體依賴于馬爾可夫隨機(jī)場,也不僅限于解決統(tǒng)計(jì)關(guān)系學(xué)習(xí)及推理問題。
再次參照?qǐng)D3,在步驟S300中,由預(yù)測樣本產(chǎn)生裝置300至少基于所述規(guī)則相關(guān)特征來形成預(yù)測樣本。通過這種方式,可擴(kuò)展原始的數(shù)據(jù)記錄以容納與規(guī)則相關(guān)的樣本特征,從而使得規(guī)則能夠直接有效地參與到模型的預(yù)測過程。
這里,預(yù)測樣本至少涵蓋規(guī)則相關(guān)特征,此外,預(yù)測樣本還可包括其他的特征,例如,基于屬性信息而獲得的屬性特征。作為示例,預(yù)測樣本產(chǎn)生裝置300可通過將規(guī)則相關(guān)特征與其他屬性特征串聯(lián)來產(chǎn)生預(yù)測樣本。
例如,假設(shè)數(shù)據(jù)記錄xi=(xi,1;xi,2;…;xi,d),其經(jīng)過m(其中,m為正整數(shù))條規(guī)則的檢驗(yàn),可分別得到m個(gè)規(guī)則相關(guān)特征(ri,1;ri,2;…;ri,m),其中,每一個(gè)規(guī)則相關(guān)特征的取值取決于相應(yīng)規(guī)則應(yīng)用于數(shù)據(jù)記錄時(shí)的檢驗(yàn)結(jié)果,例如,當(dāng)相應(yīng)規(guī)則的規(guī)則體成立時(shí),規(guī)則相關(guān)特征可取值為1、規(guī)則的權(quán)重值、規(guī)則的結(jié)論值、規(guī)則的權(quán)重值與結(jié)論值的乘積等;否則,規(guī)則相關(guān)特征可取值為0。相應(yīng)地,預(yù)測樣本產(chǎn)生裝置300可產(chǎn)生基于數(shù)據(jù)記錄的預(yù)測樣本yi=(xi,1;xi,2;…;xi,d;ri,1;ri,2;…;ri,m)。
又例如,假設(shè)數(shù)據(jù)記錄xi=(xi,1;xi,2;…;xi,d),其經(jīng)過m條規(guī)則的綜合檢驗(yàn),可得到關(guān)于預(yù)測目標(biāo)的預(yù)測結(jié)果,該預(yù)測結(jié)果可作為規(guī)則相關(guān)特征PRULi。相應(yīng)地,預(yù)測樣本產(chǎn)生裝置300可產(chǎn)生基于數(shù)據(jù)記錄的預(yù)測樣本yi=(xi,1;xi,2;…;xi,d;PRULi)。
或者,上述規(guī)則描述特征和規(guī)則預(yù)測特征兩者可同時(shí)作為規(guī)則相關(guān)特征,相應(yīng)地,預(yù)測樣本產(chǎn)生裝置300可產(chǎn)生基于數(shù)據(jù)記錄xi的預(yù)測樣本yi=(xi,1;xi,2;…;xi,d;ri,1;ri,2;…;ri,m;PRULi)。
應(yīng)注意,預(yù)測樣本產(chǎn)生裝置300在產(chǎn)生預(yù)測樣本時(shí),并不限于將規(guī)則相關(guān)特征與其他特征進(jìn)行串聯(lián),還可以采用各種適當(dāng)?shù)奶卣魈幚矸绞?例如,特征組合等)。
接下來,在步驟S400中,由機(jī)器學(xué)習(xí)預(yù)測裝置400利用機(jī)器學(xué)習(xí)預(yù)測模型,基于預(yù)測樣本來產(chǎn)生關(guān)于預(yù)測目標(biāo)的機(jī)器學(xué)習(xí)預(yù)測結(jié)果,其中,所述機(jī)器學(xué)習(xí)預(yù)測模型被訓(xùn)練為針對(duì)預(yù)測樣本來提供相應(yīng)的機(jī)器學(xué)習(xí)預(yù)測結(jié)果。
具體說來,機(jī)器學(xué)習(xí)預(yù)測裝置400可將預(yù)測樣本輸入機(jī)器學(xué)習(xí)預(yù)測模型,以得到關(guān)于預(yù)測目標(biāo)的機(jī)器學(xué)習(xí)預(yù)測結(jié)果。這里所述的機(jī)器學(xué)習(xí)預(yù)測模型可以是適用于原始數(shù)據(jù)記錄的任意機(jī)器學(xué)習(xí)模型,例如,如果原始數(shù)據(jù)記錄適用于支持向量機(jī)(Support Vector Machine)、對(duì)數(shù)幾率回歸(Logistic Regression)等模型,則機(jī)器學(xué)習(xí)預(yù)測模型也可以采用相同的算法,而不會(huì)因?yàn)橐?guī)則相關(guān)特征的引入而有所限制。
作為示例,機(jī)器學(xué)習(xí)預(yù)測模型可以是預(yù)先訓(xùn)練出的預(yù)測模型。具體說來,對(duì)于歷史上得到過關(guān)于預(yù)測目標(biāo)的真實(shí)結(jié)果的數(shù)據(jù)記錄(例如,最終確定的垃圾郵件等),將這些真實(shí)結(jié)果作為有監(jiān)督學(xué)習(xí)下的標(biāo)記(label),并將對(duì)應(yīng)的預(yù)測樣本特征作為相應(yīng)的訓(xùn)練樣本特征,進(jìn)而可訓(xùn)練出用于基于結(jié)合了規(guī)則相關(guān)特征的預(yù)測樣本來進(jìn)行預(yù)測的機(jī)器學(xué)習(xí)預(yù)測模型。
這里,機(jī)器學(xué)習(xí)預(yù)測模型可以由機(jī)器學(xué)習(xí)預(yù)測裝置400預(yù)先訓(xùn)練得出。此外,機(jī)器學(xué)習(xí)預(yù)測模型也可以由設(shè)置在圖1所示的系統(tǒng)中的與模型訓(xùn)練相關(guān)的裝置(未示出)預(yù)先訓(xùn)練得出,或可以由圖1所示的系統(tǒng)以外的外部裝置預(yù)先訓(xùn)練得出,在這樣的情況下,機(jī)器學(xué)習(xí)預(yù)測裝置400可從模型訓(xùn)練相關(guān)裝置或外部裝置接收其所訓(xùn)練出的機(jī)器學(xué)習(xí)預(yù)測模型。
在步驟S400中獲得關(guān)于預(yù)測目標(biāo)的預(yù)測結(jié)果之后,機(jī)器學(xué)習(xí)預(yù)測裝置400可將機(jī)器學(xué)習(xí)預(yù)測結(jié)果存儲(chǔ)在相應(yīng)的存儲(chǔ)器中以在后續(xù)進(jìn)行進(jìn)一步的處理,或者,這些機(jī)器學(xué)習(xí)預(yù)測結(jié)果可被發(fā)送到外部的處理裝置。此外,也可通過輸出裝置將機(jī)器學(xué)習(xí)預(yù)測結(jié)果展示給用戶。
根據(jù)本發(fā)明的示例性實(shí)施例,可將機(jī)器學(xué)習(xí)的中間或最終成果反饋給規(guī)則部分。作為示例,所述方法可還包括以下步驟:將數(shù)據(jù)記錄與機(jī)器學(xué)習(xí)預(yù)測結(jié)果組合為規(guī)則訓(xùn)練樣本。作為另一示例,所述方法可還包括以下步驟:提取機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的更新值,用于設(shè)置所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重。
可以看出,在本發(fā)明的示例性實(shí)施例中,機(jī)器學(xué)習(xí)預(yù)測結(jié)果可被視作能夠更新規(guī)則權(quán)重的規(guī)則訓(xùn)練樣本(即,實(shí)例)的標(biāo)記,并且/或者,機(jī)器學(xué)習(xí)模型本身的規(guī)則相關(guān)特征系數(shù)也可被反饋到規(guī)則系統(tǒng),以直接作用于權(quán)重的更新。通過這種方式,機(jī)器學(xué)習(xí)系統(tǒng)和規(guī)則系統(tǒng)可互相影響,并反復(fù)迭代出效果更好的模型。
根據(jù)本發(fā)明的示例性實(shí)施例,除了在預(yù)測樣本的特征層面融合有規(guī)則之外,還可在預(yù)測結(jié)果的層面將機(jī)器學(xué)習(xí)和規(guī)則進(jìn)一步融合。也就是說,可將機(jī)器學(xué)習(xí)預(yù)測結(jié)果和規(guī)則預(yù)測結(jié)果進(jìn)行融合,以代替機(jī)器學(xué)習(xí)預(yù)測結(jié)果來作為最終的預(yù)測結(jié)果。
圖5示出根據(jù)本發(fā)明另一示例性實(shí)施例的結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的方法的流程圖。參照?qǐng)D5,步驟S100到步驟S400與圖3所示的步驟S100到步驟S400基本類似,在這里將不再贅述。
圖5所示的方法還包括步驟S600,在該步驟中,由融合裝置600將機(jī)器學(xué)習(xí)預(yù)測結(jié)果與規(guī)則預(yù)測結(jié)果進(jìn)行融合,以得到與預(yù)測樣本相應(yīng)的融合預(yù)測結(jié)果。這里,機(jī)器學(xué)習(xí)預(yù)測結(jié)果可來源于步驟S400,而規(guī)則預(yù)測結(jié)果可來源于步驟S200(在規(guī)則相關(guān)特征包括規(guī)則預(yù)測結(jié)果的情況下)或其他步驟。也就是說,在規(guī)則相關(guān)特征不包括規(guī)則預(yù)測結(jié)果的情況下,圖5所示的方法還包括以下步驟:依據(jù)所述至少一條規(guī)則來獲得所述數(shù)據(jù)記錄的規(guī)則預(yù)測結(jié)果。相應(yīng)地,可在步驟S600中將機(jī)器學(xué)習(xí)預(yù)測結(jié)果與規(guī)則預(yù)測結(jié)果融合為最終的預(yù)測結(jié)果。作為示例,假設(shè)針對(duì)數(shù)據(jù)記錄xi,規(guī)則預(yù)測結(jié)果為PRULi且機(jī)器學(xué)習(xí)預(yù)測結(jié)果為PMLi,則在步驟S600中,融合裝置600可通過諸如加權(quán)平均等方式將上述結(jié)果融合為P=w×PRULi+(1-w)×PMLi,其中,0≤w≤1。這里,可根據(jù)需要來設(shè)置w的具體取值。例如,假設(shè)針對(duì)某條數(shù)據(jù)記錄,規(guī)則預(yù)測結(jié)果為0.4,機(jī)器學(xué)習(xí)預(yù)測結(jié)果為0.7,如果融合方式為取平均值,則融合結(jié)果為0.55。
應(yīng)注意,上述機(jī)器學(xué)習(xí)預(yù)測結(jié)果不僅可指示特征層面融合了規(guī)則的情況下所得到的預(yù)測結(jié)果,還可包括不涉及規(guī)則的單純機(jī)器學(xué)習(xí)預(yù)測結(jié)果。
此外,根據(jù)本發(fā)明的示例性實(shí)施例,可將融合結(jié)果反饋給規(guī)則處理部分,以用于更新規(guī)則的權(quán)重。作為示例,圖5所示的方法可還包括以下步驟:將數(shù)據(jù)記錄與融合結(jié)果組合為規(guī)則訓(xùn)練樣本。
應(yīng)注意,根據(jù)本發(fā)明示例性實(shí)施例的上述結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的系統(tǒng)可完全依賴計(jì)算機(jī)程序的運(yùn)行來實(shí)現(xiàn)相應(yīng)的功能,即,各個(gè)裝置與計(jì)算機(jī)程序的功能架構(gòu)中與各步驟相應(yīng),使得整個(gè)系統(tǒng)通過專門的軟件包(例如,lib庫)而被調(diào)用,以實(shí)現(xiàn)相應(yīng)的預(yù)測功能。
圖6示出本發(fā)明另一示例性實(shí)施例的結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的系統(tǒng)的框圖。這里,本領(lǐng)域技術(shù)人員應(yīng)理解,圖6所示的系統(tǒng)旨在訓(xùn)練出根據(jù)本發(fā)明示例性實(shí)施例的機(jī)器學(xué)習(xí)預(yù)測模型,其所實(shí)現(xiàn)的處理可對(duì)應(yīng)于圖1所示的系統(tǒng)所執(zhí)行的處理。例如,構(gòu)成上述系統(tǒng)的裝置以及裝置所執(zhí)行的操作可具有對(duì)應(yīng)性,相應(yīng)地,對(duì)于圖6中各裝置的具體操作,以下將參照?qǐng)D1所示的系統(tǒng)來進(jìn)行描述,而不再重復(fù)相關(guān)的細(xì)節(jié)。
具體說來,圖6所示的系統(tǒng)包括:歷史數(shù)據(jù)記錄獲取裝置1000、規(guī)則相關(guān)特征產(chǎn)生裝置2000、訓(xùn)練樣本產(chǎn)生裝置3000和機(jī)器學(xué)習(xí)模型訓(xùn)練裝置4000。
歷史數(shù)據(jù)記錄獲取裝置1000用于獲取歷史數(shù)據(jù)記錄,其中,所述歷史數(shù)據(jù)記錄包括多個(gè)屬性信息和作為預(yù)測目標(biāo)實(shí)際值的標(biāo)記。這里,應(yīng)理解,歷史數(shù)據(jù)記錄獲取裝置1000可按照類似于數(shù)據(jù)記錄獲取裝置100的方式進(jìn)行操作,只是其所獲取的是已經(jīng)具有了預(yù)測目標(biāo)實(shí)際值的歷史數(shù)據(jù)。
規(guī)則相關(guān)特征產(chǎn)生裝置2000用于將關(guān)于預(yù)測目標(biāo)的至少一條規(guī)則應(yīng)用于所述多個(gè)屬性信息,以產(chǎn)生歷史數(shù)據(jù)記錄的規(guī)則相關(guān)特征。這里,應(yīng)理解,規(guī)則相關(guān)特征產(chǎn)生裝置2000旨在產(chǎn)生模型訓(xùn)練樣本中的規(guī)則相關(guān)特征,具體操作可對(duì)應(yīng)于圖1的規(guī)則相關(guān)特征產(chǎn)生裝置200產(chǎn)生模型預(yù)測樣本中的規(guī)則相關(guān)特征的方式。
訓(xùn)練樣本產(chǎn)生裝置3000用于至少基于所述規(guī)則相關(guān)特征和標(biāo)記來形成訓(xùn)練樣本。這里,在形式上,訓(xùn)練樣本與預(yù)測樣本相比,還包括歷史數(shù)據(jù)記錄中的標(biāo)記,相應(yīng)地,應(yīng)理解,訓(xùn)練樣本產(chǎn)生裝置3000可按照與預(yù)測樣本產(chǎn)生裝置300類似的方式進(jìn)行操作,只是還需在訓(xùn)練樣本中包含標(biāo)記信息。
機(jī)器學(xué)習(xí)模型訓(xùn)練裝置4000用于基于訓(xùn)練樣本來訓(xùn)練機(jī)器學(xué)習(xí)預(yù)測模型,其中,所述機(jī)器學(xué)習(xí)模型用于針對(duì)新的數(shù)據(jù)記錄來提供關(guān)于預(yù)測目標(biāo)的機(jī)器學(xué)習(xí)預(yù)測結(jié)果。
如上所述,歷史數(shù)據(jù)記錄獲取裝置1000、規(guī)則相關(guān)特征產(chǎn)生裝置2000、訓(xùn)練樣本產(chǎn)生裝置3000和機(jī)器學(xué)習(xí)模型訓(xùn)練裝置4000在具體操作上可與圖1所示的數(shù)據(jù)記錄獲取裝置100、規(guī)則相關(guān)特征產(chǎn)生裝置200、預(yù)測樣本產(chǎn)生裝置300和機(jī)器學(xué)習(xí)預(yù)測裝置400相類似,使得本領(lǐng)域技術(shù)人員能夠獲知相應(yīng)的處理細(xì)節(jié)。此外,圖6所示的系統(tǒng)也可如圖1所示的系統(tǒng)一樣,還包括諸如規(guī)則獲取裝置的額外裝置,其中,所述規(guī)則獲取裝置用于獲取所述關(guān)于預(yù)測目標(biāo)的至少一條規(guī)則。
如上所述,歷史數(shù)據(jù)記錄獲取裝置1000、規(guī)則相關(guān)特征產(chǎn)生裝置2000、訓(xùn)練樣本產(chǎn)生裝置3000和機(jī)器學(xué)習(xí)模型訓(xùn)練裝置4000可分別與圖1所示的數(shù)據(jù)記錄獲取裝置100、規(guī)則相關(guān)特征產(chǎn)生裝置200、預(yù)測樣本產(chǎn)生裝置300和機(jī)器學(xué)習(xí)預(yù)測裝置400相集成,使得集成后的裝置在模型訓(xùn)練和模型預(yù)測階段分別執(zhí)行相應(yīng)的操作。此外,圖6所示的系統(tǒng)中的至少一個(gè)裝置或全部裝置也可與圖1所示的系統(tǒng)相互分離,作為獨(dú)立的部分存在。
根據(jù)本發(fā)明的示例性實(shí)施例,在機(jī)器學(xué)習(xí)模型的訓(xùn)練過程中,使用了包含規(guī)則相關(guān)特征的訓(xùn)練樣本,即,規(guī)則轉(zhuǎn)換為特征,從而更為有效地參與到機(jī)器學(xué)習(xí)過程中。
以下將參照?qǐng)D7來描述根據(jù)本發(fā)明另一示例性實(shí)施例的結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的方法的流程圖。這里,作為示例,圖7所示的方法可由圖6所示的系統(tǒng)來執(zhí)行,也可完全通過計(jì)算機(jī)程序以軟件方式實(shí)現(xiàn),還可通過特定配置的計(jì)算裝置來執(zhí)行圖7所示的方法。為了描述方便,以下假設(shè)圖7所示的方法由圖1所示的系統(tǒng)來執(zhí)行。
這里,本領(lǐng)域技術(shù)人員應(yīng)理解,圖7所示的方法旨在訓(xùn)練出根據(jù)本發(fā)明示例性實(shí)施例的機(jī)器學(xué)習(xí)預(yù)測模型,其所實(shí)現(xiàn)的處理可對(duì)應(yīng)于圖3所示的方法中所執(zhí)行的處理。相應(yīng)地,對(duì)于圖7中各步驟的具體操作,以下將參照?qǐng)D3所示的方法來進(jìn)行描述,而不再重復(fù)相關(guān)的細(xì)節(jié),僅重點(diǎn)描述圖3中未體現(xiàn)出的技術(shù)特征。
如圖所示,在步驟S1000中,由歷史數(shù)據(jù)記錄獲取裝置1000獲取歷史數(shù)據(jù)記錄,其中,所述歷史數(shù)據(jù)記錄包括多個(gè)屬性信息和作為預(yù)測目標(biāo)實(shí)際值的標(biāo)記。這里,應(yīng)理解,在步驟S1000中,歷史數(shù)據(jù)記錄獲取裝置1000可按照類似于數(shù)據(jù)記錄獲取裝置100在步驟S100中執(zhí)行的操作來獲取歷史數(shù)據(jù)記錄,只是其所獲取的是已經(jīng)具有了預(yù)測目標(biāo)實(shí)際值的歷史數(shù)據(jù)。
接下來,在步驟S2000中,由規(guī)則相關(guān)特征產(chǎn)生裝置2000將關(guān)于預(yù)測目標(biāo)的至少一條規(guī)則應(yīng)用于所述多個(gè)屬性信息,以產(chǎn)生歷史數(shù)據(jù)記錄的規(guī)則相關(guān)特征。這里,在步驟S2000中,規(guī)則相關(guān)特征產(chǎn)生裝置2000可按照類似于規(guī)則相關(guān)特征產(chǎn)生裝置200在步驟S200中執(zhí)行的操作來產(chǎn)生同樣的規(guī)則相關(guān)特征。
在步驟S3000中,由訓(xùn)練樣本產(chǎn)生裝置3000至少基于所述規(guī)則相關(guān)特征和標(biāo)記來形成訓(xùn)練樣本。這里,在步驟S3000中,訓(xùn)練樣本產(chǎn)生裝置3000可按照類似于預(yù)測樣本產(chǎn)生裝置300在步驟S300中執(zhí)行的操作來產(chǎn)生訓(xùn)練樣本,只是所述訓(xùn)練樣本還需要包括相應(yīng)的標(biāo)記。
在步驟S4000中,由機(jī)器學(xué)習(xí)模型訓(xùn)練裝置4000基于訓(xùn)練樣本來訓(xùn)練機(jī)器學(xué)習(xí)預(yù)測模型,其中,所述機(jī)器學(xué)習(xí)模型用于針對(duì)新的數(shù)據(jù)記錄來提供關(guān)于預(yù)測目標(biāo)的機(jī)器學(xué)習(xí)預(yù)測結(jié)果。
這里,在訓(xùn)練機(jī)器學(xué)習(xí)預(yù)測模型時(shí),作為可選方式,可進(jìn)一步將規(guī)則應(yīng)用于模型的系數(shù),例如,將規(guī)則的權(quán)重和/或規(guī)則的結(jié)論值應(yīng)用于模型的系數(shù)。通過這種方式,可有效地借鑒先驗(yàn)知識(shí),有利于快速準(zhǔn)確地學(xué)習(xí)出機(jī)器學(xué)習(xí)模型。
具體說來,對(duì)于訓(xùn)練樣本中的規(guī)則描述特征而言,其在模型中的對(duì)應(yīng)系數(shù)的初始值可被設(shè)置為與規(guī)則相關(guān)。
作為示例,在步驟S2000中,規(guī)則相關(guān)特征產(chǎn)生裝置2000可將指示歷史數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值作為規(guī)則描述特征,相應(yīng)地,在步驟S4000中,機(jī)器學(xué)習(xí)模型訓(xùn)練裝置4000可將所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重分別作為機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值,其中,所述權(quán)重表示相應(yīng)規(guī)則的確定性。
在上述示例中,還可基于機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的更新值來設(shè)置所述至少一條規(guī)則之中的各條規(guī)則,從而使得機(jī)器學(xué)習(xí)與規(guī)則兩者能夠互相影響,從而迭代出更好的模型。
作為另一示例,在步驟S2000中,規(guī)則相關(guān)特征產(chǎn)生裝置2000可將指示所述歷史數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值作為規(guī)則描述特征,相應(yīng)地,在步驟S4000中,機(jī)器學(xué)習(xí)模型訓(xùn)練裝置4000可將所述至少一條規(guī)則之中的各條規(guī)則的結(jié)論值分別作為機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值,其中,所述結(jié)論值表示相應(yīng)規(guī)則的條件成立時(shí)所導(dǎo)致的結(jié)果。
作為又一示例,在步驟S2000中,規(guī)則相關(guān)特征產(chǎn)生裝置2000可將指示所述歷史數(shù)據(jù)記錄針對(duì)所述至少一條規(guī)則之中的各條規(guī)則的條件是否成立的邏輯值作為規(guī)則描述特征,相應(yīng)地,在步驟S4000中,機(jī)器學(xué)習(xí)模型訓(xùn)練裝置4000可將所述至少一條規(guī)則之中的各條規(guī)則的權(quán)重與結(jié)論值的乘積分別作為機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值。
除此之外,還可通過系數(shù)修正值來調(diào)整規(guī)則描述特征系數(shù)的初始值。具體說來,在訓(xùn)練機(jī)器學(xué)習(xí)預(yù)測模型時(shí),所述方法還可包括以下步驟:將機(jī)器學(xué)習(xí)預(yù)測模型的規(guī)則描述特征系數(shù)的初始值乘以系數(shù)修正值,從而使得模型的訓(xùn)練過程更為有效。這里,系數(shù)修正值可由編程人員手動(dòng)調(diào)節(jié),或者,也可根據(jù)機(jī)器學(xué)習(xí)預(yù)測模型的算法而自動(dòng)設(shè)置。
另一方面,圖1、圖2或圖6所示的各個(gè)裝置也可以通過硬件、軟件、固件、中間件、微代碼或其任意組合來實(shí)現(xiàn)。當(dāng)以軟件、固件、中間件或微代碼實(shí)現(xiàn)時(shí),用于執(zhí)行相應(yīng)操作的程序代碼或者代碼段可以存儲(chǔ)在諸如存儲(chǔ)介質(zhì)的計(jì)算機(jī)可讀介質(zhì)中,使得處理器可通過讀取并運(yùn)行相應(yīng)的程序代碼或者代碼段來執(zhí)行相應(yīng)的操作。
這里,本發(fā)明的示例性實(shí)施例還可以實(shí)現(xiàn)為計(jì)算裝置,該計(jì)算裝置包括存儲(chǔ)部件和處理器,存儲(chǔ)部件中存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令集合,當(dāng)所述計(jì)算機(jī)可執(zhí)行指令集合被所述處理器執(zhí)行時(shí),執(zhí)行上述結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的方法。
具體說來,所述計(jì)算裝置可以部署在服務(wù)器或客戶端中,也可以部署在分布式網(wǎng)絡(luò)環(huán)境中的節(jié)點(diǎn)裝置上。此外,所述計(jì)算裝置可以是PC計(jì)算機(jī)、平板裝置、個(gè)人數(shù)字助理、智能手機(jī)或其他能夠執(zhí)行上述指令集合的裝置。
這里,所述計(jì)算裝置并非必須是單個(gè)的計(jì)算裝置,還可以是任何能夠單獨(dú)或聯(lián)合執(zhí)行上述指令(或指令集)的裝置或電路的集合體。計(jì)算裝置還可以是集成控制系統(tǒng)或系統(tǒng)管理器的一部分,或者可被配置為與本地或遠(yuǎn)程(例如,經(jīng)由無線傳輸)以接口互聯(lián)的便攜式電子裝置。
在所述計(jì)算裝置中,處理器可包括中央處理器(CPU)、圖形處理器(GPU)、可編程邏輯裝置、專用處理器系統(tǒng)、微控制器或微處理器。作為示例而非限制,處理器還可包括模擬處理器、數(shù)字處理器、微處理器、多核處理器、處理器陣列、網(wǎng)絡(luò)處理器等。
上述結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的方法中所描述的某些操作可通過軟件方式來實(shí)現(xiàn),某些操作可通過硬件方式來實(shí)現(xiàn),此外,還可通過軟硬件結(jié)合的方式來實(shí)現(xiàn)這些操作。
處理器可運(yùn)行存儲(chǔ)在存儲(chǔ)部件之一中的指令或代碼,其中,所述存儲(chǔ)部件還可以存儲(chǔ)數(shù)據(jù)。指令和數(shù)據(jù)還可經(jīng)由網(wǎng)絡(luò)接口裝置而通過網(wǎng)絡(luò)被發(fā)送和接收,其中,所述網(wǎng)絡(luò)接口裝置可采用任何已知的傳輸協(xié)議。
存儲(chǔ)部件可與處理器集成為一體,例如,將RAM或閃存布置在集成電路微處理器等之內(nèi)。此外,存儲(chǔ)部件可包括獨(dú)立的裝置,諸如,外部盤驅(qū)動(dòng)、存儲(chǔ)陣列或任何數(shù)據(jù)庫系統(tǒng)可使用的其他存儲(chǔ)裝置。存儲(chǔ)部件和處理器可在操作上進(jìn)行耦合,或者可例如通過I/O端口、網(wǎng)絡(luò)連接等互相通信,使得處理器能夠讀取存儲(chǔ)在存儲(chǔ)部件中的文件。
此外,所述計(jì)算裝置還可包括視頻顯示器(諸如,液晶顯示器)和用戶交互接口(諸如,鍵盤、鼠標(biāo)、觸摸輸入裝置等)。計(jì)算裝置的所有組件可經(jīng)由總線和/或網(wǎng)絡(luò)而彼此連接。
上述關(guān)于結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的方法所涉及的操作可被描述為各種互聯(lián)或耦合的功能塊或功能示圖。然而,這些功能塊或功能示圖可被均等地集成為單個(gè)的邏輯裝置或按照非確切的邊界進(jìn)行操作。
具體說來,如上所述,根據(jù)本發(fā)明示例性實(shí)施例的結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的計(jì)算裝置可包括存儲(chǔ)部件和處理器,存儲(chǔ)部件中存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令集合,當(dāng)所述計(jì)算機(jī)可執(zhí)行指令集合被所述處理器執(zhí)行時(shí),執(zhí)行下述步驟:(A)獲取數(shù)據(jù)記錄,其中,所述數(shù)據(jù)記錄包括多個(gè)屬性信息;(B)將關(guān)于預(yù)測目標(biāo)的至少一條規(guī)則應(yīng)用于所述多個(gè)屬性信息,以產(chǎn)生數(shù)據(jù)記錄的規(guī)則相關(guān)特征;(C)至少基于所述規(guī)則相關(guān)特征來形成預(yù)測樣本;以及(D)利用機(jī)器學(xué)習(xí)預(yù)測模型,基于預(yù)測樣本來產(chǎn)生關(guān)于預(yù)測目標(biāo)的機(jī)器學(xué)習(xí)預(yù)測結(jié)果,其中,所述機(jī)器學(xué)習(xí)預(yù)測模型被訓(xùn)練為針對(duì)預(yù)測樣本來提供相應(yīng)的機(jī)器學(xué)習(xí)預(yù)測結(jié)果。應(yīng)注意,以上已經(jīng)結(jié)合圖3到圖5描述了根據(jù)本發(fā)明示例性實(shí)施例的結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的方法的各處理細(xì)節(jié),這里將不再贅述計(jì)算裝置執(zhí)行各步驟時(shí)的處理細(xì)節(jié)。
此外,根據(jù)本發(fā)明另一示例性實(shí)施例的結(jié)合規(guī)則來進(jìn)行機(jī)器學(xué)習(xí)的計(jì)算裝置可包括存儲(chǔ)部件和處理器,存儲(chǔ)部件中存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令集合,當(dāng)所述計(jì)算機(jī)可執(zhí)行指令集合被所述處理器執(zhí)行時(shí),執(zhí)行下述步驟:(A)獲取歷史數(shù)據(jù)記錄,其中,所述歷史數(shù)據(jù)記錄包括多個(gè)屬性信息和作為預(yù)測目標(biāo)實(shí)際值的標(biāo)記;(B)將關(guān)于預(yù)測目標(biāo)的至少一條規(guī)則應(yīng)用于所述多個(gè)屬性信息,以產(chǎn)生歷史數(shù)據(jù)記錄的規(guī)則相關(guān)特征;(C)至少基于所述規(guī)則相關(guān)特征和標(biāo)記來形成訓(xùn)練樣本;以及(D)基于訓(xùn)練樣本來訓(xùn)練機(jī)器學(xué)習(xí)預(yù)測模型,其中,所述機(jī)器學(xué)習(xí)模型用于針對(duì)新的數(shù)據(jù)記錄來提供關(guān)于預(yù)測目標(biāo)的機(jī)器學(xué)習(xí)預(yù)測結(jié)果。
以上已經(jīng)描述了本發(fā)明的各示例性實(shí)施例,應(yīng)理解,上述描述僅是示例性的,并非窮盡性的,并且本發(fā)明也不限于所披露的各示例性實(shí)施例。在不偏離本發(fā)明的范圍和精神的情況下,對(duì)于本領(lǐng)域技術(shù)人員來說許多修改和變更都是顯而易見的。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的范圍為準(zhǔn)。