本發(fā)明涉及計(jì)算技術(shù)領(lǐng)域,具體而言,涉及一種基于混合整數(shù)線性規(guī)劃的粗糙集模型建立方法和裝置。
背景技術(shù):
粗糙集理論是一門(mén)關(guān)于不確定性的學(xué)科,粗糙集理論的核心思想是通過(guò)將給定的有限集合表示為上近似集合和下近似集合,并以此來(lái)進(jìn)行對(duì)不精確數(shù)據(jù)的推理,或者發(fā)現(xiàn)數(shù)據(jù)間的關(guān)系。粗糙集有一很明顯的缺點(diǎn),對(duì)噪聲數(shù)據(jù)很敏感。在實(shí)際應(yīng)用中,對(duì)于包含噪聲數(shù)據(jù)的數(shù)據(jù)集,基于粗糙集的決策模型的精度會(huì)比較低。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明的目的在于提供一種基于混合整數(shù)線性規(guī)劃的粗糙集模型建立方法和設(shè)備,以力圖解決或者至少緩解上面存在的問(wèn)題。
第一方面,本發(fā)明的實(shí)施例提供一種基于混合整數(shù)線性規(guī)劃的粗糙集模型建立方法,包括:
獲取原始數(shù)據(jù);
根據(jù)所述原始數(shù)據(jù)的條件屬性和決策屬性,確定計(jì)算原始數(shù)據(jù)中既屬于條件屬性近似等價(jià)類又屬于決策屬性近似等價(jià)類的目標(biāo)近似等價(jià)類中的樣本數(shù)目所需使用的目標(biāo)函數(shù)和性能參數(shù)的約束條件,得到基于混合整數(shù)線性規(guī)劃的粗糙集模型,所述目標(biāo)函數(shù)至少包含表征模型條件屬性及決策屬性的性能參數(shù),所述原始數(shù)據(jù)用于指示該模型中所述性能參數(shù)的取值。
可選地,所述計(jì)算原始數(shù)據(jù)中既屬于條件屬性近似等價(jià)類又屬于決策屬性近似等價(jià)類的目標(biāo)近似等價(jià)類中的樣本數(shù)目的目標(biāo)函數(shù)至少基于條件屬性近似等價(jià)類集合和決策屬性近似等價(jià)類集合進(jìn)行計(jì)算,其中,所述條件屬性近似等價(jià)類至少采用表征模型條件屬性的性能參數(shù)進(jìn)行計(jì)算,所述條件屬性近似等價(jià)類集合包括至少一個(gè)條件屬性近似等價(jià)類,所述決策屬性近似等價(jià)類至少采用表征模型決策屬性的性能參數(shù)進(jìn)行計(jì)算,所述決策屬性近似等價(jià)類集合包括至少一個(gè)決策屬性近似等價(jià)類。
可選地,所述確定所述性能參數(shù)的約束條件,包括:
確定表征模型條件屬性的性能參數(shù)所滿足的平衡條件;
確定表征模型決策屬性的性能參數(shù)所滿足的平衡條件;
確定表征模型條件屬性和決策屬性的性能參數(shù)所滿足的平衡條件。
可選地,所述確定表征模型條件屬性的性能參數(shù)所滿足的平衡條件,包括:
m*ssijc≥αc-|xci-xcj|,i∈i,j∈i,c∈c
m*(1-ssijc)≥|xci-xcj|-αc,i∈i,j∈i,c∈c
ω_cij≤ssijc+(1-slc),i∈i,j∈i,c∈c
ssijc≥1-slc,i∈i,j∈i,c∈c
其中,i、j分別為屬于同一條件屬性c的論域中兩樣本,i、j為自然數(shù);
xci為i樣本在條件屬性c下的取值;
xcj為j樣本在條件屬性c下的取值;
c為條件屬性集;
c為條件屬性集中的任意一個(gè)屬性;
m為任意大數(shù);
αc為條件屬性集的相似度閾值;
ssijc的取值為0或1,對(duì)于論域i中的任意兩個(gè)樣本點(diǎn)i和j,以及條件屬性集中的任意屬性c,若ssijc=1,則樣本點(diǎn)i和j在屬性c上的取值滿足對(duì)應(yīng)的相似度閾值αc,否則為0;
ω_cij取值為0或1,對(duì)于論域i中任意兩個(gè)樣本點(diǎn)i和j,若ω_cij=1,則i和j可以在同一個(gè)由條件屬性劃分的近似等價(jià)類中,反之,i和j無(wú)法被劃分到同一個(gè)條件屬性劃分的近似等價(jià)類中;
slc取值為0或1,對(duì)于條件屬性集中的條件屬性c,若slc=1,則該屬性c被選擇為新的條件屬性集參與對(duì)論域的劃分,否則該條件屬性c選擇與否對(duì)決策規(guī)則的建立影響很小,從條件屬性集中被剔除。
可選地,所述確定表征模型決策屬性的性能參數(shù)所滿足的平衡條件,包括:
m*ss′ijd≥αd-|xdi-xdj|,i∈i,j∈i,d∈d
m*(1-ss′ijd)≥|xdi-xdj|-αd,i∈i,j∈i,d∈d
ss′ijd≥1-sl′d,i∈i,j∈i,d∈d
其中,d為決策屬性集;
d為決策屬性集中的任意一個(gè)屬性;
αd為決策屬性集的相似度閾值;
i、j分別為屬于同一決策屬性d的論域中兩樣本,i、j為自然數(shù);
xdi為i樣本在決策屬性c下的取值;
xdj為j樣本在決策屬性c下的取值;
ss′ijd取值為0或1,對(duì)于論域i中的任意兩個(gè)樣本點(diǎn)i和j,以及決策屬性集中的任意屬性d,若ss′ijd=1,則樣本點(diǎn)i和j在屬性d上的取值滿足對(duì)應(yīng)的相似度閾值αd;
ω_dij取值為0或1,對(duì)于論域i中任意兩個(gè)樣本點(diǎn)i和j,若ω_dij=1,則i和j可以在同一個(gè)由決策屬性集劃分的近似等價(jià)類中,反之,i和j無(wú)法被劃分到同一個(gè)決策屬性集的近似等價(jià)類中;
sl′d取值為0或1,對(duì)于決策屬性集中的決策屬性d,若sl′d=1,則該決策屬性d被選擇為新的決策屬性集并參與對(duì)論域的劃分,否則決策屬性d選擇與否對(duì)決策規(guī)則的建立影響很小,從決策屬性集中被剔除。
可選地,在所述獲取原始數(shù)據(jù)之后,還包括:
對(duì)原始數(shù)據(jù)進(jìn)行缺失值處理和降維處理。
可選地,還包括:
根據(jù)所述原始數(shù)據(jù)及所述約束條件計(jì)算所述目標(biāo)函數(shù),得到原始數(shù)據(jù)中既為條件屬性近似等價(jià)類又為決策屬性近似等價(jià)類的目標(biāo)近似等價(jià)類中的樣本數(shù)目;
基于所述樣本數(shù)目和原始數(shù)據(jù),計(jì)算該基于混合整數(shù)線性規(guī)劃的粗糙集模型的決策精度,所述決策精度用于評(píng)價(jià)該模型的決策結(jié)果。
第二方面,本發(fā)明的實(shí)施例提供一種模型建立裝置,包括:
獲取單元,用于獲取原始數(shù)據(jù);
第一計(jì)算單元,用于根據(jù)所述原始數(shù)據(jù)的條件屬性和決策屬性,確定計(jì)算原始數(shù)據(jù)中既屬于條件屬性近似等價(jià)類又屬于決策屬性近似等價(jià)類的目標(biāo)近似等價(jià)類中的樣本數(shù)目所需使用的目標(biāo)函數(shù)和性能參數(shù)的約束條件,得到基于混合整數(shù)線性規(guī)劃的粗糙集模型,所述目標(biāo)函數(shù)至少包含表征模型條件屬性及決策屬性的性能參數(shù),所述原始數(shù)據(jù)用于指示該模型中所述性能參數(shù)的取值。
可選地,所述第一計(jì)算單元所述計(jì)算原始數(shù)據(jù)中既屬于條件屬性近似等價(jià)類又屬于決策屬性近似等價(jià)類的目標(biāo)近似等價(jià)類中的樣本數(shù)目的目標(biāo)函數(shù),至少基于條件屬性近似等價(jià)類集合和決策屬性近似等價(jià)類集合進(jìn)行計(jì)算,其中,所述條件屬性近似等價(jià)類至少采用表征模型條件屬性的性能參數(shù)進(jìn)行計(jì)算,所述條件屬性近似等價(jià)類集合包括至少一個(gè)條件屬性近似等價(jià)類,所述決策屬性近似等價(jià)類至少采用表征模型決策屬性的性能參數(shù)進(jìn)行計(jì)算,所述決策屬性近似等價(jià)類集合包括至少一個(gè)決策屬性近似等價(jià)類。
可選地,所述第一計(jì)算單元還用于:
確定表征模型條件屬性的性能參數(shù)所滿足的平衡條件;
確定表征模型決策屬性的性能參數(shù)所滿足的平衡條件;
確定表征模型條件屬性和決策屬性的性能參數(shù)所滿足的平衡條件。
可選地,還包括:處理單元,所述處理單元用于:
對(duì)原始數(shù)據(jù)進(jìn)行缺失值處理和降維處理。
可選地,還包括:第二計(jì)算單元,所述第二計(jì)算單元用于:
根據(jù)所述原始數(shù)據(jù)及所述約束條件計(jì)算所述目標(biāo)函數(shù),得到原始數(shù)據(jù)中既為條件屬性近似等價(jià)類又為決策屬性近似等價(jià)類的目標(biāo)近似等價(jià)類中的樣本數(shù)目;
基于所述樣本數(shù)目和原始數(shù)據(jù),計(jì)算該基于混合整數(shù)線性規(guī)劃的粗糙集模型的決策精度,所述決策精度用于評(píng)價(jià)該模型的決策結(jié)果。
根據(jù)本發(fā)明的技術(shù)方案,可以剔除各個(gè)屬性集中對(duì)決策精度影響較小的屬性,自動(dòng)完成屬性篩選過(guò)程,實(shí)現(xiàn)了屬性集對(duì)原始的劃分,具有很強(qiáng)的可擴(kuò)展性,可以根據(jù)具體的研究對(duì)象,選擇屬性集對(duì)論域的具體劃分依據(jù)和方法,以適應(yīng)多種數(shù)據(jù)類型的數(shù)據(jù)組成的數(shù)據(jù)集。
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說(shuō)明如下。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,應(yīng)當(dāng)理解,以下附圖僅示出了本發(fā)明的某些實(shí)施例,因此不應(yīng)被看作是對(duì)范圍的限定,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。
圖1為本發(fā)明實(shí)施例提供的一種基于混合整數(shù)線性規(guī)劃的粗糙集模型的建立方法的流程圖;
圖2為本發(fā)明實(shí)施例提供的一種基于混合整數(shù)線性規(guī)劃的粗糙集模型的建立裝置的結(jié)構(gòu)圖。
具體實(shí)施方式
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。通常在此處附圖中描述和示出的本發(fā)明實(shí)施例的組件可以以各種不同的配置來(lái)布置和設(shè)計(jì)。因此,以下對(duì)在附圖中提供的本發(fā)明的實(shí)施例的詳細(xì)描述并非旨在限制要求保護(hù)的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實(shí)施例?;诒景l(fā)明的實(shí)施例,本領(lǐng)域技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
圖1為根據(jù)本發(fā)明實(shí)施例提供的一種模型建立方法的流程示意圖。如圖1所示,該方法始于步驟s110。
在步驟s110中,獲取原始數(shù)據(jù)。
可選地,在所述獲取原始數(shù)據(jù)之后,還包括:
對(duì)原始數(shù)據(jù)進(jìn)行缺失值處理和降維處理。
其中,原始數(shù)據(jù)的結(jié)合稱為論域i,缺失值處理算法可以是但不限于多重替代缺失值、直接刪除包含缺失值的樣本、最大似然估計(jì)法、均值代替缺失值等,降維處理算法可以是但不限于主成分分析法等,本發(fā)明對(duì)此不予限制。由于原始數(shù)據(jù)相互之間可能存在很強(qiáng)的相關(guān)性,通過(guò)降維處理以在原始數(shù)據(jù)的基礎(chǔ)上對(duì)數(shù)據(jù)集進(jìn)行簡(jiǎn)化。
對(duì)于高維度的數(shù)據(jù)集,首先需要進(jìn)行降維處理,但是降維處理后的數(shù)據(jù)集只能在一定程度上代表原始數(shù)據(jù)集,降維過(guò)程的實(shí)現(xiàn)實(shí)際上是以犧牲部分原始數(shù)據(jù)集中所蘊(yùn)含的信息為代價(jià)的,而本發(fā)明只需要根據(jù)數(shù)據(jù)質(zhì)量分析進(jìn)行簡(jiǎn)單的預(yù)處理過(guò)程就可以作為該模型的輸入數(shù)據(jù),最大程度上保留了原始數(shù)據(jù)集中所包含的全部信息。
在步驟s120中,根據(jù)所述原始數(shù)據(jù)的條件屬性和決策屬性,確定計(jì)算原始數(shù)據(jù)中既屬于條件屬性近似等價(jià)類又屬于決策屬性近似等價(jià)類的目標(biāo)近似等價(jià)類中的樣本數(shù)目所需使用的目標(biāo)函數(shù)和性能參數(shù)的約束條件,得到基于混合整數(shù)線性規(guī)劃(milp)的粗糙集模型,所述目標(biāo)函數(shù)至少包含表征模型條件屬性及決策屬性的性能參數(shù),所述原始數(shù)據(jù)用于指示該模型中所述性能參數(shù)的取值。
可選地,所述計(jì)算原始數(shù)據(jù)中既屬于條件屬性近似等價(jià)類又屬于決策屬性近似等價(jià)類的目標(biāo)近似等價(jià)類中的樣本數(shù)目的目標(biāo)函數(shù)至少基于條件屬性近似等價(jià)類集合和決策屬性近似等價(jià)類集合進(jìn)行計(jì)算,其中,所述條件屬性近似等價(jià)類至少采用表征模型條件屬性的各個(gè)性能參數(shù)進(jìn)行計(jì)算,所述條件屬性近似等價(jià)類集合包括至少一個(gè)條件屬性近似等價(jià)類,所述決策屬性近似等價(jià)類至少采用表征模型決策屬性的各個(gè)性能參數(shù)進(jìn)行計(jì)算,所述決策屬性近似等價(jià)類集合包括至少一個(gè)決策屬性近似等價(jià)類。
可選地,所述確定所述性能參數(shù)的約束條件,包括:
確定表征模型條件屬性的性能參數(shù)所滿足的平衡條件;
確定表征模型決策屬性的性能參數(shù)所滿足的平衡條件;
確定表征模型條件屬性和決策屬性的性能參數(shù)所滿足的平衡條件。
可選地,所述確定表征模型條件屬性的性能參數(shù)所滿足的平衡條件,包括:
m*ssijc≥αc-|xci-xcj|,i∈i,j∈i,c∈c
m*(1-ssijc)≥|xci-xcj|-αc,i∈i,j∈i,c∈c
ω_cij≤ssijc+(1-slc),i∈i,j∈i,c∈c
ssijc≥1-slc,i∈i,j∈i,c∈c
其中,i、j分別為屬于同一條件屬性c的論域中兩樣本,i、j為自然數(shù);
xci為i樣本在條件屬性c下的取值;
xcj為j樣本在條件屬性c下的取值;
c為條件屬性集;
c為條件屬性集中的任意一個(gè)屬性;
m為任意大數(shù);
αc為條件屬性集的相似度閾值;
ssijc的取值為0或1,對(duì)于論域i中的任意兩個(gè)樣本點(diǎn)i和j,以及條件屬性集中的任意屬性c,若ssijc=1,則樣本點(diǎn)i和j在屬性c上的取值滿足對(duì)應(yīng)的相似度閾值αc,否則為0;
ω_cij取值為0或1,對(duì)于論域i中任意兩個(gè)樣本點(diǎn)i和j,若ω_cij=1,則i和j可以在同一個(gè)由條件屬性劃分的近似等價(jià)類中,反之,i和j無(wú)法被劃分到同一個(gè)條件屬性劃分的近似等價(jià)類中;
slc取值為0或1,對(duì)于條件屬性集中的條件屬性c,若slc=1,則該屬性c被選擇為新的條件屬性集參與對(duì)論域的劃分,否則該條件屬性c選擇與否對(duì)決策規(guī)則的建立影響很小,從條件屬性集中被剔除。
可選地,所述確定表征模型決策屬性的性能參數(shù)所滿足的平衡條件,包括:
m*ss′ijd≥αd-|xdi-xdj|,i∈i,j∈i,d∈d
m*(1-ss′ijd)≥|xdi-xdj|-αd,i∈i,j∈i,d∈d
ssi′jd≥1-sl′d,i∈i,j∈i,d∈d
其中,d為決策屬性集;
d為決策屬性集中的任意一個(gè)屬性;
αd為決策屬性集的相似度閾值;
i、j分別為屬于同一決策屬性d的論域中兩樣本,i、j為自然數(shù);
xdi為i樣本在決策屬性c下的取值;
xdj為j樣本在決策屬性c下的取值;
ss′ijd取值為0或1,對(duì)于論域i中的任意兩個(gè)樣本點(diǎn)i和j,以及決策屬性集中的任意屬性d,若ss′ijd=1,則樣本點(diǎn)i和j在屬性d上的取值滿足對(duì)應(yīng)的相似度閾值αd;
ω_dij取值為0或1,對(duì)于論域i中任意兩個(gè)樣本點(diǎn)i和j,若ω_dij=1,則i和j可以在同一個(gè)由決策屬性集劃分的近似等價(jià)類中,反之,i和j無(wú)法被劃分到同一個(gè)決策屬性集的近似等價(jià)類中;
sl′d取值為0或1,對(duì)于決策屬性集中的決策屬性d,若sl′d=1,則該決策屬性d被選擇為新的決策屬性集并參與對(duì)論域的劃分,否則決策屬性d選擇與否對(duì)決策規(guī)則的建立影響很小,從決策屬性集中被剔除。
其中,條件屬性和決策屬性一般為根據(jù)原始數(shù)據(jù)的特征進(jìn)行劃分,本發(fā)明對(duì)此不予限制。在本發(fā)明實(shí)施例中,計(jì)算計(jì)算原始數(shù)據(jù)中既屬于條件屬性近似等價(jià)類又屬于決策屬性近似等價(jià)類的目標(biāo)近似等價(jià)類中的樣本數(shù)目所需使用的目標(biāo)函數(shù),如下:
其中,c為條件屬性集;
c為條件屬性集中的任意一個(gè)屬性;
d為決策屬性集;
d為決策屬性集中的任意一個(gè)屬性;
kc為根據(jù)條件屬性集對(duì)論域進(jìn)行劃分的近似等價(jià)類的集合;
k為kc中近似等價(jià)類的標(biāo)號(hào),k為自然數(shù);
yk為kc中的第k個(gè)近似等價(jià)類k是kd中第k′個(gè)近似等價(jià)類的下近似集時(shí),該下近似集k中樣本的數(shù)目;
kd為根據(jù)決策屬性集對(duì)論域進(jìn)行劃分的近似等價(jià)類的集合。
其中,條件屬性集合中包括多個(gè)條件屬性,決策屬性集合中包括多個(gè)決策屬性。在實(shí)際應(yīng)用中,可根據(jù)屬性的名稱為屬性編號(hào)。
確定所述性能參數(shù)的約束條件,如下:
若屬于同一條件屬性集c的論域中兩樣本點(diǎn)之間的距離小于該屬性對(duì)應(yīng)的相似度閾值αc,則變量ssijc=1;反之,ssijc=0;建立約束條件如下:
m*ssijc≥αc-|xci-xcj|,i∈i,j∈i,c∈c(1)
m*(1-ssijc)≥|xci-xcj|-αc,i∈i,j∈i,c∈c(2)
其中,i、j分別為屬于同一條件屬性c的論域中兩樣本,i、j為自然數(shù);
xci為i樣本在條件屬性c下的取值;
xcj為j樣本在條件屬性c下的取值;
c為條件屬性集;
c為條件屬性集中的任意一個(gè)屬性;
m為任意大數(shù);
αc為條件屬性集的相似度閾值;
ssijc的取值為0或1,對(duì)于論域i中的任意兩個(gè)樣本點(diǎn)i和j,以及條件屬性集中的任意屬性c,若ssijc=1,則樣本點(diǎn)i和j在屬性c上的取值滿足對(duì)應(yīng)的相似度閾值αc,否則為0;
若選擇條件屬性c,即slc=1,則該屬性被選入條件屬性集并參與對(duì)論域的劃分,建立約束條件(3);否則,slc=0,即條件屬性c對(duì)論域的劃分沒(méi)有影響,認(rèn)為在剔除屬性上兩樣本之間總是存在不可分辨關(guān)系,建立約束條件(4);
ω_cij≤ssijc+(1-slc),i∈i,j∈i,c∈c(3)
ssijc≥1-slc,i∈i,j∈i,c∈c(4)
其中,ω_cij取值為0或1,對(duì)于論域i中任意兩個(gè)樣本點(diǎn)i和j,若ω_cij=1,則i和j可以在同一個(gè)由條件屬性劃分的近似等價(jià)類中,反之,i和j無(wú)法被劃分到同一個(gè)條件屬性劃分的近似等價(jià)類中;
slc取值為0或1,對(duì)于條件屬性集中的條件屬性c,若slc=1,則該屬性c被選擇為新的條件屬性集參與對(duì)論域的劃分,否則該條件屬性c選擇與否對(duì)決策規(guī)則的建立影響很小,從條件屬性集中被剔除。
論域中任意兩個(gè)樣本點(diǎn)可以劃分到一個(gè)近似等價(jià)類中的必要條件為ω_cij=1成立,即,任意兩個(gè)樣本點(diǎn)在條件屬性集的每個(gè)屬性上都滿足對(duì)應(yīng)的相似度閾值,建立約束條件(5)如下:
若決策屬性d上兩樣本點(diǎn)之間的距離小于該屬性對(duì)應(yīng)的相似度閾值αd,則變量ss′ijd=1;反之,ss′ijd=0;建立約束條件(6)、(7)如下:
m*ss′ijd≥αd-|xdi-xdj|,i∈i,j∈i,d∈d(6)
m*(1-ss′ijd)≥|xdi-xdj|-αd,i∈i,j∈i,d∈d(7)
其中,d為決策屬性集;
d為決策屬性集中的任意一個(gè)屬性;
αd為決策屬性集的相似度閾值;
i、j分別為屬于同一決策屬性d的論域中兩樣本,i、j為自然數(shù);
xdi為i樣本在決策屬性c下的取值;
xdj為j樣本在決策屬性c下的取值;
ss′ijd取值為0或1,對(duì)于論域i中的任意兩個(gè)樣本點(diǎn)i和j,以及決策屬性集中的任意屬性d,若ss′ijd=1,則樣本點(diǎn)i和j在屬性d上的取值滿足對(duì)應(yīng)的相似度閾值αd。
若選擇決策屬性d,即sl′d=1,則該決策屬性d被選入決策屬性集并參與對(duì)論域的劃分,建立約束條件(8);否則,sl′d=0,即決策屬性d對(duì)論域的劃分沒(méi)有影響,認(rèn)為在剔除屬性上兩樣本之間總是存在不可分辨關(guān)系,建立約束條件(9);
ω_dij≤ss′ijd+(1-sl′d),i∈i,j∈i,d∈d(8)
ss′ijd≥1-sl′d,i∈i,j∈i,d∈d(9)
其中,ω_dij取值為0或1,對(duì)于論域i中任意兩個(gè)樣本點(diǎn)i和j,若ω_dij=1,則i和j可以在同一個(gè)由決策屬性集劃分的近似等價(jià)類中,反之,i和j無(wú)法被劃分到同一個(gè)決策屬性集的近似等價(jià)類中;
sl′d取值為0或1,對(duì)于決策屬性集中的決策屬性d,若sl′d=1,則該決策屬性d被選擇為新的決策屬性集并參與對(duì)論域的劃分,否則決策屬性d選擇與否對(duì)決策規(guī)則的建立影響很小,從決策屬性集中被剔除;
論域中任意兩個(gè)樣本點(diǎn)可以劃分到一個(gè)近似等價(jià)類中的必要條件為ω_dij=1成立,即,任意兩個(gè)樣本點(diǎn)在整個(gè)決策屬性集的每個(gè)決策屬性上都滿足對(duì)應(yīng)的相似度閾值,建立約束條件(10)如下:
為條件屬性集的樣本分配過(guò)程設(shè)定初始值,也就是要將指定樣本分配到一個(gè)條件屬性對(duì)論域劃分后的一個(gè)近似等價(jià)類中,由變量qik的定義可知:i=1代表論域中編號(hào)為1的樣本,k=1代表集合kc中編號(hào)為1的近似等價(jià)類,具體做法就是將編號(hào)為1的樣本劃分給編號(hào)為1的近似等價(jià)類;建立約束條件(11)如下:
q11=1(11)
其中,qik取值為0或1,對(duì)于論域i中的任意樣本點(diǎn)i和由條件屬性集對(duì)論域進(jìn)行劃分得到的近似等價(jià)類集合kc中的任意一個(gè)近似等價(jià)類k,若qik=1,則樣本點(diǎn)i在近似等價(jià)類k中,反之,樣本點(diǎn)i不屬于近似等價(jià)類k。
每個(gè)樣本屬于并且僅屬于一個(gè)近似等價(jià)類,但并不是每一個(gè)預(yù)先設(shè)定的近似等價(jià)類中都存在樣本,因?yàn)樵谖粗唧w劃分近似等價(jià)類的個(gè)數(shù)的前提下,預(yù)先設(shè)定的近似等價(jià)類集合中近似等價(jià)類的個(gè)數(shù)可能是過(guò)剩的,如果預(yù)先設(shè)定的近似等價(jià)類集合中近似等價(jià)類的個(gè)數(shù)少于實(shí)際劃分的近似等價(jià)類個(gè)數(shù),那么該模型將會(huì)不可解。建立約束條件(12)如下:
論域中的兩個(gè)樣本點(diǎn)i和j同時(shí)被分配到一個(gè)近似等價(jià)類中的前提條件是這兩個(gè)樣本點(diǎn)必須屬于同一個(gè)近似等價(jià)類,當(dāng)且僅當(dāng)ω_cij=1時(shí),qik和qjk才可能同時(shí)取1;建立約束條件(13)如下:
其中,qjk取值為0或1,對(duì)于論域i中的任意樣本點(diǎn)j和由條件屬性集對(duì)論域進(jìn)行劃分得到的近似等價(jià)類集合kc中的任意一個(gè)近似等價(jià)類k,若qjk=1,則樣本j在近似等價(jià)類k中,反之,樣本點(diǎn)j不屬于近似等價(jià)類k。
變量qk的設(shè)定是為了統(tǒng)計(jì)由條件屬性集對(duì)論域進(jìn)行劃分得到的各個(gè)近似等價(jià)類中被分配的樣本點(diǎn)的個(gè)數(shù);建立約束條件(14)如下:
其中,qk為由條件屬性集對(duì)論域進(jìn)行劃分得到的近似等價(jià)類k中的樣本的數(shù)目;
為決策屬性集的樣本分配過(guò)程設(shè)定初始值,也就是要將指定樣本點(diǎn)分配到一個(gè)決策屬性集對(duì)論域劃分后的一個(gè)近似等價(jià)類中,由變量q′ik′的定義可知:i=1代表論域中編號(hào)為1的樣本,k′=1代表集合kd中編號(hào)為1的近似等價(jià)類,具體做法就是將編號(hào)為1的樣本劃分給編號(hào)為1的近似等價(jià)類;建立約束條件(15)如下:
q′11=1(15)
其中,q′ik′取值為0或1,對(duì)于論域i中的任意樣本點(diǎn)i和由決策屬性集對(duì)論域進(jìn)行劃分得到的近似等價(jià)類集合kd中的任意一個(gè)近似等價(jià)類k′,若q′ik′=1,則樣本i在近似等價(jià)類k′中,反之,樣本點(diǎn)i不屬于近似等價(jià)類k′。
每個(gè)樣本屬于并且僅屬于一個(gè)近似等價(jià)類,但并不是每一個(gè)預(yù)先設(shè)定的近似等價(jià)類中都存在樣本點(diǎn),因?yàn)樵谖粗唧w劃分近似等價(jià)類的個(gè)數(shù)的前提下,預(yù)先設(shè)定的近似等價(jià)類集合中近似等價(jià)類的個(gè)數(shù)可能是過(guò)剩的,如果預(yù)先設(shè)定的近似等價(jià)類集合中近似等價(jià)類的個(gè)數(shù)少于實(shí)際劃分的近似等價(jià)類個(gè)數(shù),那么該模型將會(huì)不可解;建立約束條件(16)如下:
論域中的兩個(gè)樣本點(diǎn)i和j同時(shí)被分配到一個(gè)近似等價(jià)類中的前提條件是這兩個(gè)樣本點(diǎn)必須可以屬于同一個(gè)近似等價(jià)類,當(dāng)且僅當(dāng)
其中,q′jk′取值為0或1,對(duì)于論域i中的任意樣本點(diǎn)j和由決策屬性集對(duì)論域進(jìn)行劃分得到的近似等價(jià)類集合kd中的任意一個(gè)近似等價(jià)類k′,若q′jk′=1,則樣本j在近似等價(jià)類k′中,反之,樣本點(diǎn)j不屬于近似等價(jià)類k′。
每個(gè)樣本屬于并且僅屬于一個(gè)近似等價(jià)類,但并不是每一個(gè)預(yù)先設(shè)定的近似等價(jià)類中都存在樣本點(diǎn),因?yàn)樵谖粗唧w劃分近似等價(jià)類的個(gè)數(shù)的前提下,預(yù)先設(shè)定的近似等價(jià)類集合中近似等價(jià)類的個(gè)數(shù)可能是過(guò)剩的,如果預(yù)先設(shè)定的近似等價(jià)類集合中近似等價(jià)類的個(gè)數(shù)少于實(shí)際劃分的近似等價(jià)類個(gè)數(shù),那么該模型將會(huì)不可解;建立約束條件(18)如下:
其中,q′k′為由決策屬性集對(duì)論域進(jìn)行劃分得到的近似等價(jià)類k′中的樣本的數(shù)目。
根據(jù)經(jīng)典粗糙集中下近似集的定義,選擇了既屬于條件屬性集劃分論域得到的近似等價(jià)類k又屬于決策屬性集劃分論域得到的近似等價(jià)類k′的樣本點(diǎn);建立約束條件(19)如下:
2*eikk′≤qik+q′ik′,i∈i,k∈kc,k′∈kd(19)
其中,eikk′取值為0或1,對(duì)于論域i中的任意樣本點(diǎn)i和條件屬性集的近似等價(jià)類k以及決策屬性集的近似等價(jià)類k′,若eikk′=1,則樣本i既屬于條件屬性集的近似等價(jià)類k又屬于決策屬性集的近似等價(jià)類k′。
統(tǒng)計(jì)既屬于近似等價(jià)類k又屬于近似等價(jià)類k′的樣本點(diǎn)的個(gè)數(shù);建立約束條件(20)如下:
其中,ekk′為論域i中既屬于條件屬性集的近似等價(jià)類k又屬于決策屬性集的近似等價(jià)類k′的樣本數(shù)目。
根據(jù)粗糙集中支持度的概念,在模型中設(shè)定的下近似集需要滿足樣本點(diǎn)的最小支持?jǐn)?shù),建立約束條件(21)和(23),其中變量fk標(biāo)記了對(duì)應(yīng)的近似等價(jià)類中的樣本點(diǎn)個(gè)數(shù)是否滿足最小支持?jǐn)?shù),即如果qk<n,則fk必為0;基于milp的粗糙集模型引入了可變精度作為提升模型對(duì)數(shù)據(jù)集中噪聲信息抵抗能力的輔助方法,建立約束條件(22)根據(jù)公式(7)實(shí)現(xiàn)帶可變精度的粗糙集對(duì)下近似集的定義過(guò)程;
n*fk≤n+(qk-n)(21)
card(i)*lkk′≤card(i)+(ekk′-qk*β),k∈kc,k′∈kd(22)
lkk′≤fk,k∈kc,k′∈kd(23)
其中,n為條件屬性集的最小支持?jǐn)?shù),即正整數(shù);
β為可變精度,即常數(shù),0<β<1;
fk取值為0或1,若fk=1,則條件屬性集的近似等價(jià)類k中的樣本個(gè)數(shù)滿足最小支持度數(shù)n,近似等價(jià)類k可以成為下近似集,反之,近似等價(jià)類k不滿足成為下近似集的條件;
lkk′取值為0或1,若lkk′=1,則kc中的近似等價(jià)類k是kd中的近似等價(jià)類k′的下近似集。
最后,對(duì)模型的下近似集中的樣本點(diǎn)個(gè)數(shù)進(jìn)行統(tǒng)計(jì),如果一個(gè)由條件屬性集對(duì)論域進(jìn)行劃分得到的近似等價(jià)類不是任何一個(gè)由決策屬性集對(duì)論域進(jìn)行劃分得到的近似等價(jià)類的下近似集則該近似等價(jià)類不為確定區(qū)域,其確定區(qū)域中樣本個(gè)數(shù)計(jì)為0,反之若為下近似集則為確定區(qū)域,對(duì)應(yīng)確定區(qū)域中樣本個(gè)數(shù)即為該下近似集中樣本點(diǎn)的個(gè)數(shù);建立約束條件(24)和(25)如下:
yk≤qk,k∈kc(24)
可選地,還包括:
根據(jù)所述原始數(shù)據(jù)及所述約束條件計(jì)算所述目標(biāo)函數(shù),得到原始數(shù)據(jù)中既為條件屬性近似等價(jià)類又為決策屬性近似等價(jià)類的目標(biāo)近似等價(jià)類中的樣本數(shù)目;
基于所述樣本數(shù)目和原始數(shù)據(jù),計(jì)算該基于混合整數(shù)線性規(guī)劃的粗糙集模型的決策精度,所述決策精度用于評(píng)價(jià)該模型的決策結(jié)果。
優(yōu)選地,根據(jù)所述原始數(shù)據(jù)及所述約束條件計(jì)算所述目標(biāo)函數(shù),得到原始數(shù)據(jù)中既為條件屬性近似等價(jià)類又為決策屬性近似等價(jià)類的目標(biāo)近似等價(jià)類中的樣本數(shù)目的最大值
在一個(gè)實(shí)施例中,通過(guò)模型求解,會(huì)得到最優(yōu)的目標(biāo)函數(shù)值。同時(shí),也會(huì)得到相應(yīng)的qk,實(shí)現(xiàn)屬性的篩選過(guò)程;得到e矩陣,確定既在近似等價(jià)類k又在等價(jià)類k′中的個(gè)數(shù);根據(jù)以下公式計(jì)算該決策系統(tǒng)的決策精度:
其中,λ為決策精度,0<λ<1。
λ越大說(shuō)明通過(guò)該模型得到的決策結(jié)果的精度越高,否則決策結(jié)果的精度越低。
另外,應(yīng)當(dāng)注意,在本發(fā)明中同一字母、字符、參數(shù)等表示的含義相同,不再一一解釋。
本發(fā)明建立的基于milp的粗糙集模型可用于對(duì)柴油機(jī)進(jìn)行評(píng)價(jià),原始數(shù)據(jù)包含了31臺(tái)國(guó)產(chǎn)某型號(hào)六缸柴油機(jī)的34個(gè)裝配間隙參數(shù)數(shù)據(jù)和整機(jī)質(zhì)量等級(jí)數(shù)據(jù),其中,裝配間隙參數(shù)可作為條件屬性,整機(jī)質(zhì)量等級(jí)可作為決策屬性。通過(guò)該模型可得到條件屬性集和決策屬性集之間存在部分依賴關(guān)系:
{柴油機(jī)的裝配間隙參數(shù)}→λ{(lán)柴油機(jī)的整機(jī)質(zhì)量等級(jí)}
對(duì)柴油機(jī)進(jìn)行評(píng)價(jià)時(shí),條件屬性與決策屬性的依賴度越高,即裝配間隙參數(shù)與整機(jī)質(zhì)量等級(jí)的依賴程度,該模型的決策結(jié)果更精確。
圖2為本發(fā)明實(shí)施例提供的一種基于混合整數(shù)線性規(guī)劃的粗糙集模型的建立裝置的結(jié)構(gòu)圖。該裝置包括:獲取單元210、第一計(jì)算單元220、處理單元230、第二計(jì)算單元240。
獲取單元210用于獲取原始數(shù)據(jù)。
第一計(jì)算單元220,用于根據(jù)所述原始數(shù)據(jù)的條件屬性和決策屬性,確定計(jì)算原始數(shù)據(jù)中既屬于條件屬性近似等價(jià)類又屬于決策屬性近似等價(jià)類的目標(biāo)近似等價(jià)類中的樣本數(shù)目所需使用的目標(biāo)函數(shù)和性能參數(shù)的約束條件,得到基于混合整數(shù)線性規(guī)劃的粗糙集模型,所述目標(biāo)函數(shù)至少包含表征模型條件屬性及決策屬性的性能參數(shù),所述原始數(shù)據(jù)用于指示該模型中所述性能參數(shù)的取值。
可選地,所述第一計(jì)算單元220所述計(jì)算原始數(shù)據(jù)中既屬于條件屬性近似等價(jià)類又屬于決策屬性近似等價(jià)類的目標(biāo)近似等價(jià)類中的樣本數(shù)目的目標(biāo)函數(shù),至少基于條件屬性近似等價(jià)類集合和決策屬性近似等價(jià)類集合進(jìn)行計(jì)算,其中,所述條件屬性近似等價(jià)類至少采用表征模型條件屬性的性能參數(shù)進(jìn)行計(jì)算,所述條件屬性近似等價(jià)類集合包括至少一個(gè)條件屬性近似等價(jià)類,所述決策屬性近似等價(jià)類至少采用表征模型決策屬性的性能參數(shù)進(jìn)行計(jì)算,所述決策屬性近似等價(jià)類集合包括至少一個(gè)決策屬性近似等價(jià)類。
可選地,所述第一計(jì)算單元220還用于:
確定表征模型條件屬性的性能參數(shù)所滿足的平衡條件;
確定表征模型決策屬性的性能參數(shù)所滿足的平衡條件;
確定表征模型條件屬性和決策屬性的性能參數(shù)所滿足的平衡條件。
可選地,處理單元230用于:
對(duì)原始數(shù)據(jù)進(jìn)行缺失值處理和降維處理。
可選地,第二計(jì)算單元240用于:
根據(jù)所述原始數(shù)據(jù)及所述約束條件計(jì)算所述目標(biāo)函數(shù),得到原始數(shù)據(jù)中既為條件屬性近似等價(jià)類又為決策屬性近似等價(jià)類的目標(biāo)近似等價(jià)類中的樣本數(shù)目;
基于所述樣本數(shù)目和原始數(shù)據(jù),計(jì)算該基于混合整數(shù)線性規(guī)劃的粗糙集模型的決策精度,所述決策精度用于評(píng)價(jià)該模型的決策結(jié)果。
本發(fā)明實(shí)施例所提供的一種milp的粗糙集模型的建立裝置可以為設(shè)備上的特定硬件或者安裝于設(shè)備上的軟件或固件等。本發(fā)明實(shí)施例所提供的裝置,其實(shí)現(xiàn)原理及產(chǎn)生的技術(shù)效果和前述方法實(shí)施例相同,為簡(jiǎn)要描述,裝置實(shí)施例部分未提及之處,可參考前述方法實(shí)施例中相應(yīng)內(nèi)容。所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,前述描述的系統(tǒng)、裝置和單元的具體工作過(guò)程,均可以參考上述方法實(shí)施例中的對(duì)應(yīng)過(guò)程,在此不再贅述。
在本發(fā)明所提供的實(shí)施例中,應(yīng)該理解到,所揭露裝置和方法,可以通過(guò)其它的方式實(shí)現(xiàn)。以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,又例如,多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過(guò)一些通信接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。
所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。
另外,在本發(fā)明提供的實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。
所述功能如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:u盤(pán)、移動(dòng)硬盤(pán)、只讀存儲(chǔ)器(rom,read-onlymemory)、隨機(jī)存取存儲(chǔ)器(ram,randomaccessmemory)、磁碟或者光盤(pán)等各種可以存儲(chǔ)程序代碼的介質(zhì)。
應(yīng)注意到:相似的標(biāo)號(hào)和字母在下面的附圖中表示類似項(xiàng),因此,一旦某一項(xiàng)在一個(gè)附圖中被定義,則在隨后的附圖中不需要對(duì)其進(jìn)行進(jìn)一步定義和解釋,此外,術(shù)語(yǔ)“第一”、“第二”、“第三”等僅用于區(qū)分描述,而不能理解為指示或暗示相對(duì)重要性。
最后應(yīng)說(shuō)明的是:以上所述實(shí)施例,僅為本發(fā)明的具體實(shí)施方式,用以說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)其限制,本發(fā)明的保護(hù)范圍并不局限于此,盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),其依然可以對(duì)前述實(shí)施例所記載的技術(shù)方案進(jìn)行修改或可輕易想到變化,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改、變化或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明實(shí)施例技術(shù)方案的精神和范圍。都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)所述以權(quán)利要求的保護(hù)范圍為準(zhǔn)。