1.一種數(shù)據(jù)集合的確定方法,其特征在于,包括:
接收到用于指示從多個(gè)第一數(shù)據(jù)集合中獲取目標(biāo)數(shù)據(jù)集合的指令,其中,所述第一數(shù)據(jù)集合中包括按照目標(biāo)類型采集到的至少一個(gè)實(shí)例數(shù)據(jù),所述目標(biāo)數(shù)據(jù)集合的數(shù)據(jù)用于進(jìn)行數(shù)據(jù)分析;
根據(jù)第一屬性集合確定每個(gè)所述第一數(shù)據(jù)集合中每個(gè)實(shí)例數(shù)據(jù)的目標(biāo)概率,其中,所述目標(biāo)概率為所述實(shí)例數(shù)據(jù)屬于所述目標(biāo)類型的概率,所述第一屬性集合中包括用于指示為所述目標(biāo)類型的數(shù)據(jù)的屬性;
基于每個(gè)所述第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的目標(biāo)概率確定每個(gè)所述第一數(shù)據(jù)集合的采集質(zhì)量信息,其中,所述采集質(zhì)量信息用于指示按照所述目標(biāo)類型采集到的所述第一數(shù)據(jù)集合的質(zhì)量;
確定多個(gè)所述第一數(shù)據(jù)集合中采集質(zhì)量信息滿足預(yù)設(shè)質(zhì)量要求的為用于進(jìn)行數(shù)據(jù)分析的所述目標(biāo)數(shù)據(jù)集合。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)第一屬性集合確定每個(gè)所述第一數(shù)據(jù)集合中每個(gè)實(shí)例數(shù)據(jù)的目標(biāo)概率包括:
獲取每個(gè)所述實(shí)例數(shù)據(jù)的第二屬性集合,其中,所述第二屬性集合中包括所述實(shí)例數(shù)據(jù)所具有的屬性信息;
基于所述第一屬性集合和每個(gè)所述實(shí)例數(shù)據(jù)的所述第二屬性集合確定每個(gè)所述實(shí)例數(shù)據(jù)的目標(biāo)概率。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一屬性集合的數(shù)量為至少一個(gè),
在基于所述第一屬性集合和每個(gè)所述實(shí)例數(shù)據(jù)的所述第二屬性集合確定每個(gè)所述實(shí)例數(shù)據(jù)的目標(biāo)概率之前,所述方法還包括:獲取每個(gè)所述第一屬性集合的置信度,其中,所述置信度用于指示具有所述第一屬性集合中所有屬性信息的數(shù)據(jù)屬于所述目標(biāo)類型的概率;
基于所述第一屬性集合和每個(gè)所述實(shí)例數(shù)據(jù)的所述第二屬性集合確定每個(gè)所述實(shí)例數(shù)據(jù)的目標(biāo)概率包括:通過將所述實(shí)例數(shù)據(jù)的所述第二屬性集合與每一個(gè)所述第一屬性集合進(jìn)行匹配,確定所述實(shí)例數(shù)據(jù)相對(duì)于每一個(gè)所述第一屬性集合的目標(biāo)匹配度;將與至少一個(gè)所述目標(biāo)匹配度中的最大匹配度對(duì)應(yīng)的所述第一屬性集合的置信度作為所述實(shí)例數(shù)據(jù)的目標(biāo)概率。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,通過將所述實(shí)例數(shù)據(jù)的所述第二屬性集合與每一個(gè)所述第一屬性集合進(jìn)行匹配,確定所述實(shí)例數(shù)據(jù)相對(duì)于每一個(gè)所述第一屬性集合的目標(biāo)匹配度包括:
確定所述實(shí)例數(shù)據(jù)的第二屬性集合中的屬性信息與所述第一屬性集合中的屬性信息的第一匹配度;
確定所述第一屬性集合中的屬性信息與所述實(shí)例數(shù)據(jù)的第二屬性集合中的屬性信息的第二匹配度;
根據(jù)所述第一匹配度和所述第二匹配度確定所述實(shí)例數(shù)據(jù)相對(duì)于所述第一屬性集合的所述目標(biāo)匹配度。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,確定所述實(shí)例數(shù)據(jù)的第二屬性集合中的屬性信息與所述第一屬性集合中的屬性信息的第一匹配度包括:
確定所述第二屬性集合中與所述第一屬性集合中的屬性信息匹配的目標(biāo)屬性信息的數(shù)量;
將所述目標(biāo)屬性信息的數(shù)量與所述第一屬性集合中的屬性信息的數(shù)量的比值作為所述第一匹配度。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于每個(gè)所述第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的目標(biāo)概率確定每個(gè)所述第一數(shù)據(jù)集合的采集質(zhì)量信息包括以下至少之一:
確定所述第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的目標(biāo)概率的第一平均值,其中,所述第一平均值用于指示按照所述目標(biāo)類型采集到的數(shù)據(jù)的準(zhǔn)確度;
確定所述第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的目標(biāo)概率的熵值,其中,所述熵值用于指示按照所述目標(biāo)類型采集到的數(shù)據(jù)的混雜度,所述采集質(zhì)量信息包括所述第一平均值和/或所述熵值。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,確定所述第一數(shù)據(jù)集合中所有所述實(shí)例數(shù)據(jù)的目標(biāo)概率的熵值包括:
通過對(duì)所述第一數(shù)據(jù)集合中的所有實(shí)例數(shù)據(jù)的目標(biāo)概率進(jìn)行取對(duì)數(shù)運(yùn)算確定所述熵值。
8.根據(jù)權(quán)利要求6所述的方法,其特征在于,確定多個(gè)所述第一數(shù)據(jù)集合中采集質(zhì)量信息滿足預(yù)設(shè)質(zhì)量要求的為用于進(jìn)行數(shù)據(jù)分析的所述目標(biāo)數(shù)據(jù)集合包括:
將多個(gè)所述第一數(shù)據(jù)集合中第一平均值達(dá)到第一預(yù)設(shè)值和/或熵值達(dá)到第二預(yù)設(shè)值的作為所述目標(biāo)數(shù)據(jù)集合。
9.根據(jù)權(quán)利要求6所述的方法,其特征在于,在基于每個(gè)所述第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的目標(biāo)概率確定每個(gè)所述第一數(shù)據(jù)集合的采集質(zhì)量信息之后,所述方法還包括:
獲取多個(gè)所述第一數(shù)據(jù)集合的所述第一平均值的第二平均值,其中,多個(gè)所述第一數(shù)據(jù)集合中的數(shù)據(jù)滿足預(yù)設(shè)關(guān)系,所述預(yù)設(shè)關(guān)系用于指示數(shù)據(jù)和數(shù)據(jù)所屬的類型,所述第二平均值用于指示按照所述預(yù)設(shè)關(guān)系采集到的數(shù)據(jù)的準(zhǔn)確度;
獲取多個(gè)所述第一數(shù)據(jù)集合的所述熵值的第三平均值,其中,所述第三平均值用于指示按照所述預(yù)設(shè)關(guān)系采集到的數(shù)據(jù)的混雜度。
10.根據(jù)權(quán)利要求1所述的方法,其特征在于,在根據(jù)第一屬性集合確定每個(gè)所述第一數(shù)據(jù)集合中每個(gè)實(shí)例數(shù)據(jù)的目標(biāo)概率之前,所述方法還包括:
獲取第二數(shù)據(jù)集合,其中,所述第二數(shù)據(jù)集合中的每一個(gè)數(shù)據(jù)均屬于所述目標(biāo)類型;
通過對(duì)所述第二數(shù)據(jù)集合進(jìn)行數(shù)據(jù)挖掘,得到所述第一屬性集合。
11.一種數(shù)據(jù)集合的確定裝置,其特征在于,包括:
接收單元,用于接收到用于指示從多個(gè)第一數(shù)據(jù)集合中獲取目標(biāo)數(shù)據(jù)集合的指令,其中,所述第一數(shù)據(jù)集合中包括按照目標(biāo)類型采集到的至少一個(gè)實(shí)例數(shù)據(jù),所述目標(biāo)數(shù)據(jù)集合的數(shù)據(jù)用于進(jìn)行數(shù)據(jù)分析;
第一確定單元,用于根據(jù)第一屬性集合確定每個(gè)所述第一數(shù)據(jù)集合中每個(gè)實(shí)例數(shù)據(jù)的目標(biāo)概率,其中,所述目標(biāo)概率為所述實(shí)例數(shù)據(jù)屬于所述目標(biāo)類型的概率,所述第一屬性集合中包括用于指示為所述目標(biāo)類型的數(shù)據(jù)的屬性;
第二確定單元,用于基于每個(gè)所述第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的目標(biāo)概率確定每個(gè)所述第一數(shù)據(jù)集合的采集質(zhì)量信息,其中,所述采集質(zhì)量信息用于指示按照所述目標(biāo)類型采集到的所述第一數(shù)據(jù)集合的質(zhì)量;
第三確定單元,用于確定多個(gè)所述第一數(shù)據(jù)集合中采集質(zhì)量信息滿足預(yù)設(shè)質(zhì)量要求的為用于進(jìn)行數(shù)據(jù)分析的所述目標(biāo)數(shù)據(jù)集合。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述第一確定單元包括:
獲取模塊,用于獲取每個(gè)所述實(shí)例數(shù)據(jù)的第二屬性集合,其中,所述第二屬性集合中包括所述實(shí)例數(shù)據(jù)所具有的屬性信息;
第一確定模塊,用于基于所述第一屬性集合和每個(gè)所述實(shí)例數(shù)據(jù)的所述第二屬性集合確定每個(gè)所述實(shí)例數(shù)據(jù)的目標(biāo)概率。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述第一屬性集合的數(shù)量為至少一個(gè),所述第一確定模塊包括:
獲取子模塊,用于獲取每個(gè)所述第一屬性集合的置信度,其中,所述置信度用于指示具有所述第一屬性集合中所有屬性信息的數(shù)據(jù)屬于所述目標(biāo)類型的概率;
確定子模塊,用于通過將所述實(shí)例數(shù)據(jù)的所述第二屬性集合與每一個(gè)所述第一屬性集合進(jìn)行匹配,確定所述實(shí)例數(shù)據(jù)相對(duì)于每一個(gè)所述第一屬性集合的目標(biāo)匹配度;
處理子模塊,用于將與至少一個(gè)所述目標(biāo)匹配度中的最大匹配度對(duì)應(yīng)的所述第一屬性集合的置信度作為所述實(shí)例數(shù)據(jù)的目標(biāo)概率。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述確定子模塊還用于:
確定所述實(shí)例數(shù)據(jù)的第二屬性集合中的屬性信息與所述第一屬性集合中的屬性信息的第一匹配度;
確定所述第一屬性集合中的屬性信息與所述實(shí)例數(shù)據(jù)的第二屬性集合中的屬性信息的第二匹配度;
根據(jù)所述第一匹配度和所述第二匹配度確定所述實(shí)例數(shù)據(jù)相對(duì)于所述第一屬性集合的所述目標(biāo)匹配度。
15.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述第二確定單元包括:
第二確定模塊,用于確定所述第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的目標(biāo)概率的第一平均值,其中,所述第一平均值用于指示按照所述目標(biāo)類型采集到的數(shù)據(jù)的準(zhǔn)確度;
第三確定模塊,用于確定所述第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的目標(biāo)概率的熵值,其中,所述熵值用于指示按照所述目標(biāo)類型采集到的數(shù)據(jù)的混雜度,所述采集質(zhì)量信息包括所述第一平均值和/或所述熵值。
16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述第三確定單元還用于將多個(gè)所述第一數(shù)據(jù)集合中第一平均值達(dá)到第一預(yù)設(shè)值和/或熵值達(dá)到第二預(yù)設(shè)值的作為所述目標(biāo)數(shù)據(jù)集合。