本發(fā)明涉及數(shù)據(jù)分析領域,具體而言,涉及一種數(shù)據(jù)集合的確定方法和裝置。
背景技術:
:數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,提取有用信息和形成結論而對數(shù)據(jù)加以詳細研究和概括總結的過程。數(shù)據(jù)分析通常與計算機科學有關,并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。數(shù)據(jù)分析有極廣泛的應用范圍。典型的數(shù)據(jù)分析可能包括以下步驟:步驟1,數(shù)據(jù)采集,按照既定的方式采集多份數(shù)據(jù),然后可利用其中置信度較高的一份或者多份數(shù)據(jù)進行數(shù)據(jù)分析。步驟2,探索性數(shù)據(jù)分析,當數(shù)據(jù)剛取得時,可能雜亂無章,看不出規(guī)律,通過作圖、造表、用各種形式的方程擬合,計算某些特征量等手段探索規(guī)律性的可能形式,即往什么方向和用何種方式去尋找和揭示隱含在數(shù)據(jù)中的規(guī)律性。步驟3,模型選定分析,在探索性分析的基礎上提出一類或幾類可能的模型,然后通過進一步的分析從中挑選一定的模型。步驟4,推斷分析,通常使用數(shù)理統(tǒng)計方法對所定模型或估計的可靠程度和精確程度作出推斷。在整個數(shù)據(jù)分析的過程中步驟1顯得格外重要,只有選取了置信度較高的數(shù)據(jù)才有可能獲得較為準確的數(shù)據(jù)分析結果。在完成數(shù)據(jù)采集后,得到了多份數(shù)據(jù),選取其中質量較高的一份或者多份數(shù)據(jù)對數(shù)據(jù)分析起到至關重要的作用,若選取到噪音數(shù)據(jù)較多的數(shù)據(jù),將直接導致數(shù)據(jù)分析得到錯誤的結果。目前,選取數(shù)據(jù)主要是隨機選擇或者用戶根據(jù)經驗進行選擇,可能選取到質量較低的數(shù)據(jù)。針對相關技術中無法獲取到質量較高的數(shù)據(jù)集合的問題,目前尚未提出有效的解決方案。技術實現(xiàn)要素:本發(fā)明實施例提供了一種數(shù)據(jù)集合的確定方法和裝置,以至少解決相關技術中無法獲取到質量較高的數(shù)據(jù)集合的技術問題。根據(jù)本發(fā)明實施例的一個方面,提供了一種數(shù)據(jù)集合的確定方法,包括:接收到用于指示從多個第一數(shù)據(jù)集合中獲取目標數(shù)據(jù)集合的指令,其中,第一數(shù)據(jù)集合中包括按照目標類型采集到的至少一個實例數(shù)據(jù),目標數(shù)據(jù)集合的數(shù)據(jù)用于進行數(shù)據(jù)分析;根據(jù)第一屬性集合確定每個第一數(shù)據(jù)集合中每個實例數(shù)據(jù)的目標概率,其中,目標概率為實例數(shù)據(jù)屬于目標類型的概率,第一屬性集合中包括用于指示為目標類型的數(shù)據(jù)的屬性;基于每個第一數(shù)據(jù)集合中所有實例數(shù)據(jù)的目標概率確定每個第一數(shù)據(jù)集合的采集質量信息,其中,采集質量信息用于指示按照目標類型采集到的第一數(shù)據(jù)集合的質量;確定多個第一數(shù)據(jù)集合中采集質量信息滿足預設質量要求的為用于進行數(shù)據(jù)分析的目標數(shù)據(jù)集合。根據(jù)本發(fā)明實施例的另一方面,還提供了一種數(shù)據(jù)集合的確定裝置,包括:接收單元,用于接收到用于指示從多個第一數(shù)據(jù)集合中獲取目標數(shù)據(jù)集合的指令,其中,第一數(shù)據(jù)集合中包括按照目標類型采集到的至少一個實例數(shù)據(jù),目標數(shù)據(jù)集合的數(shù)據(jù)用于進行數(shù)據(jù)分析;第一確定單元,用于根據(jù)第一屬性集合確定每個第一數(shù)據(jù)集合中每個實例數(shù)據(jù)的目標概率,其中,目標概率為實例數(shù)據(jù)屬于目標類型的概率,第一屬性集合中包括用于指示為目標類型的數(shù)據(jù)的屬性;第二確定單元,用于基于每個第一數(shù)據(jù)集合中所有實例數(shù)據(jù)的目標概率確定每個第一數(shù)據(jù)集合的采集質量信息,其中,采集質量信息用于指示按照目標類型采集到的第一數(shù)據(jù)集合的質量;第三確定單元,用于確定多個第一數(shù)據(jù)集合中采集質量信息滿足預設質量要求的為用于進行數(shù)據(jù)分析的目標數(shù)據(jù)集合。在本發(fā)明實施例中,在接收到用于指示從多個第一數(shù)據(jù)集合中獲取目標數(shù)據(jù)集合的指令時,通過第一屬性集合來確定第一數(shù)據(jù)集合中的實例數(shù)據(jù)屬于目標類型的概率,然后基于第一數(shù)據(jù)集合中所有實例數(shù)據(jù)的目標概率確定第一數(shù)據(jù)集合的采集質量信息,并從中選出滿足預設質量要求的目標數(shù)據(jù)集合用于進行數(shù)據(jù)分析,可以解決了相關技術中無法獲取到質量較高的數(shù)據(jù)集合的技術問題,進而達到獲取到質量較高的數(shù)據(jù)集合的技術效果,保證了數(shù)據(jù)分析結果的可靠性。附圖說明此處所說明的附圖用來提供對本發(fā)明的進一步理解,構成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構成對本發(fā)明的不當限定。在附圖中:圖1是根據(jù)本發(fā)明實施例的數(shù)據(jù)集合的確定方法的硬件環(huán)境的示意圖;圖2是根據(jù)本發(fā)明實施例的一種可選的數(shù)據(jù)集合的確定方法的流程圖;圖3是根據(jù)本發(fā)明實施例的數(shù)據(jù)集合的確定方法的軟件模塊的示意圖;圖4是根據(jù)本發(fā)明實施例的一種可選的數(shù)據(jù)集合的確定方法的流程圖;圖5是根據(jù)本發(fā)明實施例的一種可選的數(shù)據(jù)集合的確定裝置的示意圖;圖6是根據(jù)本發(fā)明實施例的一種可選的數(shù)據(jù)集合的確定裝置的示意圖;圖7是根據(jù)本發(fā)明實施例的一種可選的數(shù)據(jù)集合的確定裝置的示意圖;以及圖8是根據(jù)本發(fā)明實施例的一種終端的結構框圖。具體實施方式為了使本
技術領域:
的人員更好地理解本發(fā)明方案,下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分的實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應當屬于本發(fā)明保護的范圍。需要說明的是,本發(fā)明的說明書和權利要求書及上述附圖中的術語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應該理解這樣使用的數(shù)據(jù)在適當情況下可以互換,以便這里描述的本發(fā)明的實施例能夠以除了在這里圖示或描述的那些以外的順序實施。此外,術語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產品或設備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或對于這些過程、方法、產品或設備固有的其它步驟或單元。首先,在對本發(fā)明實施例進行描述的過程中出現(xiàn)的部分名詞或者術語適用于如下解釋:本體的形式化定義分為兩種,五元組或七元組,五元組的定義是O=(C,R,HC,Rel,Ao),C是概念的集合、R是關系的集合、HC表示概念的層次、Rel表示概念間的關系、Ao表示本體公理;七元組的定義為O={C,AC,R,AR,H,I,X},C是概念的集合、Ao是概念屬性的集合、R是關系的集合、AR是關系屬性的集合、H表示層次的集合、I是實例的集合、X是公理的集合。概念(Concepts)又稱為類(class),是某一領域內具有相同性質的對象的集合,如:動物、人、組織,RDF中通過預定義屬性“rdf:Class”來定義。另外RDFS(ResourceDescriptionFrameworkSchema)中還提供了預定義的類來表示一些簡單的數(shù)據(jù)類型,如整數(shù)(xs:integer)、字符串(xs:string)等。實例(Instances)是某個概念或類的具體化,例如,奧巴馬是概念“人”的實例。RDF(ResourceDescriptionFramework):世界萬維網組織(W3C)于1999年推出了用于描述萬維網資源的標準語言資源描述框架RDF,RDF是一種主要的本體描述語言,它為互聯(lián)網上的各種應用提供信息描述的規(guī)范。RDF以三元組形式“<主語,謂詞,賓語>”來描述Web上的資源,已成為本體描述的標準之一,被廣泛應用于語義網和元數(shù)據(jù)的描述中。is-a關系:通常來說RDF知識庫分為TBox和ABox兩個部分,TBox表達了知識庫中概念間的關系,而TBox中的is-a關系則是表達了概念間的上下位關系,即subclass-of關系,例如:subclass-of(Writer,Person)表達的是“Writer”是“Person”的子類。與TBox不同,而ABox主要包含了實例間的關系,ABox中的is-a關系則表示實例屬于某個概念,即instance-of關系,例如Tom是Person的一個實例通常表達為instance-of(Tom,Person)。subclass-of關系的抽象是為了形式化的表達核心概念之間的層次結構。instance-of關系反映的是實例與類別的關系,是概念層和實例層聯(lián)系的基礎。因此本體中is-a關系是一些關鍵技術的基礎,如:推理、一致性檢測等。需要說明的是,本體中的is-a關系反映的是實例與類別的關系,是概念層和實例層聯(lián)系的基礎,例如Tom是Person的一個實例通常表達為Tomis-aPerson,Tom不是Organization的實例,可以將Tom稱為Organization的反例。在用RDF中,Instanceis-aType是本體中Type(a)斷言常用的表達方式。在一元關系Type(a)中,a表示知識庫中的實例信息,Type表示知識庫中的類別或概念信息,該一元關系我們稱之為Type斷言。實施例1根據(jù)本發(fā)明實施例,提供了一種數(shù)據(jù)集合的確定方法的方法實施例??蛇x地,在本實施例中,上述數(shù)據(jù)集合的確定方法可以應用于如圖1所示的由服務器102和終端104所構成的硬件環(huán)境中。如圖1所示,服務器102通過網絡與終端104進行連接,上述網絡包括但不限于:廣域網、城域網或局域網,終端104并不限定于PC、手機、平板電腦等。本發(fā)明實施例的方法可以由服務器102來執(zhí)行,也可以由終端104來執(zhí)行,還可以是由服務器102和終端104共同執(zhí)行。其中,終端104執(zhí)行本發(fā)明實施例的方法也可以是由安裝在其上的客戶端來執(zhí)行。圖2是根據(jù)本發(fā)明實施例的一種可選的數(shù)據(jù)集合的確定方法的流程圖,如圖2所示,該方法可以包括以下步驟:步驟S202,接收到用于指示從多個第一數(shù)據(jù)集合中獲取目標數(shù)據(jù)集合的指令,第一數(shù)據(jù)集合中包括按照目標類型采集到的至少一個實例數(shù)據(jù),目標數(shù)據(jù)集合的數(shù)據(jù)用于進行數(shù)據(jù)分析;步驟S204,根據(jù)第一屬性集合確定每個第一數(shù)據(jù)集合中每個實例數(shù)據(jù)的目標概率,目標概率為實例數(shù)據(jù)屬于目標類型的概率,第一屬性集合中包括用于指示為目標類型的數(shù)據(jù)的屬性;步驟S206,基于每個第一數(shù)據(jù)集合中所有實例數(shù)據(jù)的目標概率確定每個第一數(shù)據(jù)集合的采集質量信息,采集質量信息用于指示按照目標類型采集到的第一數(shù)據(jù)集合的質量;步驟S208,確定多個第一數(shù)據(jù)集合中采集質量信息滿足預設質量要求的為用于進行數(shù)據(jù)分析的目標數(shù)據(jù)集合。通過上述步驟S202至步驟S208,在接收到用于指示從多個第一數(shù)據(jù)集合中獲取目標數(shù)據(jù)集合的指令時,通過第一屬性集合來確定第一數(shù)據(jù)集合中的實例數(shù)據(jù)屬于目標類型的概率,然后基于第一數(shù)據(jù)集合中所有實例數(shù)據(jù)的目標概率確定第一數(shù)據(jù)集合的采集質量信息,并從中選出滿足預設質量要求的目標數(shù)據(jù)集合用于進行數(shù)據(jù)分析,可以解決了相關技術中無法獲取到質量較高的數(shù)據(jù)集合的技術問題,進而達到獲取到質量較高的數(shù)據(jù)集合的技術效果,保證了數(shù)據(jù)分析結果的可靠性。上述的數(shù)據(jù)集合為按照目標類型(即概念或者類)采集到的滿足is-a關系的實例數(shù)據(jù),實例數(shù)據(jù)的采集方式可以為自動抽取或利用異構數(shù)據(jù)集成的方式獲得,如知識庫DBpeida通過抽取維基百科Wikipedia的頁面得到實例數(shù)據(jù)。上述的數(shù)據(jù)分析是指通過對數(shù)據(jù)進行挖掘和處理來尋找和揭示隱含在數(shù)據(jù)中的規(guī)律。上述的第一屬性集合中包括的屬性信息為能夠用來描述上述的目標類型的屬性信息,通過這些屬性信息能夠判斷出實例數(shù)據(jù)是否屬于目標類型。上述的采集質量信息可以為用來描述第一數(shù)據(jù)集合中所有實例數(shù)據(jù)的采集準確度、分布情況、混雜度等采集質量的信息。在本申請的實施例中,所使用的方法可以用于數(shù)據(jù)處理中,用于從多份數(shù)據(jù)中篩選出采集質量較好的數(shù)據(jù),主要包括以下步驟:通過分類關聯(lián)規(guī)則挖掘得到每個概念C的一個或多個判定屬性集,并計算該判定集屬于概念C的置信度;根據(jù)實例的屬性與每個概念C的判斷屬性集進行匹配,得到每個實例is-a關系的置信度;通過提出的兩個測度來評價本體中概念的質量。下面結合圖2詳述本申請的實施例:在步驟S202提供的技術方案中,在用戶進行數(shù)據(jù)分析的過程中,首先得獲取采集指令較好的數(shù)據(jù),獲取的過程可以為自動獲取,即計算機會接收到用于指示從多個第一數(shù)據(jù)集合中獲取目標數(shù)據(jù)集合的指令。在步驟S204提供的技術方案中,在根據(jù)第一屬性集合確定每個第一數(shù)據(jù)集合中每個實例數(shù)據(jù)的目標概率之前,獲取第二數(shù)據(jù)集合,其中,第二數(shù)據(jù)集合中的每一個數(shù)據(jù)均屬于目標類型;通過對第二數(shù)據(jù)集合進行數(shù)據(jù)挖掘,得到第一屬性集合。利用本申請的技術方案,可評估一個本體中is-a關系(即目標類型或者概念)的質量,在這個過程中,主要挑戰(zhàn)是如何找出本體中is-a關系錯誤的實例,申請人在經過仔細研究后發(fā)現(xiàn),每個概念Ci有且僅含有一個屬性集合Pc={p1,p2….,pn},Pc是知識庫中屬性P的一個子集,那么會存在至少一個Pc的子集DPc,能夠用來描述該概念Ci,那么DPc可稱為判定屬性集(即第一屬性集合),若實例的屬性屬于某個概念Ci的判斷屬性集,則該實例很可能屬于Ci,反之該實例則很可能是噪聲數(shù)據(jù)。例如,對于Country的實例,通常含有Caption(即首都)的屬性,而對于Person的實例,通常含有Birthday(生日)這個屬性,根據(jù)常識可知,一個國家是含有首都的,而一個人則有他自己的生日,若一個Country的實例含有Birthday這個屬性則該實例有很大可能是一個噪聲數(shù)據(jù)。可使用分類關聯(lián)規(guī)則挖掘算法,計算出每個類的判定屬性集,然后利用匹配規(guī)則將實例和概念進行匹配,而將匹配到判定屬性集的置信度作為該實例屬于該概念的后驗概率,即目標概率。定義實例E(a1,a2…an),其中ai是實例E(即目標類型)的屬性,則E屬于類Ci的概率p(Ci│e)=p(Ci│a1,a2…an)。p(Ci│a1,a2…an)可以通過統(tǒng)計求得。由于數(shù)據(jù)本身不可靠且存在非典型屬性,若直接統(tǒng)計會出現(xiàn)較大誤差,非典型屬性是指出現(xiàn)頻率極低,且不能表達某個類的屬性。針對這種情況,本申請?zhí)岢鲇梅诸愱P聯(lián)規(guī)則,找到最能代表類Ci的關聯(lián)規(guī)則集合(即第一屬性集合),把這些屬性集稱作判定屬性集。然后根據(jù)一定匹配規(guī)則找到與該實例最相近的關聯(lián)規(guī)則(第一屬性集合)是(s1,s2…sn),那么其置信度最接近真實的p(Ci│E)。上述的關聯(lián)規(guī)則挖掘算法有Apriori算法和FP-樹,都可挖掘強關聯(lián)規(guī)則(即第一屬性集合)及其置信度,但可能會計算與類Ci無關的關聯(lián)規(guī)則,造成信息冗余和額外的內存開銷。為了克服該問題,優(yōu)選地,本申請可采用分類關聯(lián)規(guī)則挖掘算法中的CAR-Apriori算法,只挖掘與類Ci相關的關聯(lián)規(guī)則及其置信度,以其置信度作為實例屬于該類別的概率。CAR-Apriori算法能挖掘指定類別的關聯(lián)規(guī)則,通過調整支持度來挖掘能代表類別的屬性集及它們的置信度。雖然本體中實例的屬性數(shù)量并不算大,根據(jù)CAR-Apriori算法的基本思想,不同的屬性會形成不同頻度的組合,這個組合數(shù)量是成指數(shù)趨勢增長的。為了減少系統(tǒng)開銷,在實際處理時進行了部分數(shù)據(jù)過濾,即過濾在每個類別中出現(xiàn)頻率極高的屬性。因為這類屬性無法提供實例屬于某個類型的信息,類似于文本挖掘中的停用詞,如“是”、“的”等??蛇x地,在得到第一屬性集合之后,可根據(jù)第一屬性集合確定每個第一數(shù)據(jù)集合中每個實例數(shù)據(jù)的目標概率,具體如下:獲取每個實例數(shù)據(jù)的第二屬性集合,第二屬性集合中包括實例數(shù)據(jù)所具有的屬性信息;基于第一屬性集合和每個實例數(shù)據(jù)的第二屬性集合確定每個實例數(shù)據(jù)的目標概率。上述的第一屬性集合的數(shù)量為至少一個,在基于第一屬性集合和每個實例數(shù)據(jù)的第二屬性集合確定每個實例數(shù)據(jù)的目標概率之前,可獲取每個第一屬性集合的置信度,置信度用于指示具有第一屬性集合中所有屬性信息的數(shù)據(jù)屬于目標類型的概率。在基于第一屬性集合和每個實例數(shù)據(jù)的第二屬性集合確定每個實例數(shù)據(jù)的目標概率時,可通過將實例數(shù)據(jù)的第二屬性集合與每一個第一屬性集合進行匹配,確定實例數(shù)據(jù)相對于每一個第一屬性集合的目標匹配度,即每個實例數(shù)據(jù)可以得到至少一個目標匹配度;將與至少一個目標匹配度中的最大匹配度對應的第一屬性集合的置信度作為實例數(shù)據(jù)的目標概率??蛇x地,通過將實例數(shù)據(jù)的第二屬性集合與每一個第一屬性集合進行匹配,確定實例數(shù)據(jù)相對于每一個第一屬性集合的目標匹配度可通過如下方式實現(xiàn):確定實例數(shù)據(jù)的第二屬性集合中的屬性信息與第一屬性集合中的屬性信息的第一匹配度;確定第一屬性集合中的屬性信息與實例數(shù)據(jù)的第二屬性集合中的屬性信息的第二匹配度;根據(jù)第一匹配度和第二匹配度確定實例數(shù)據(jù)相對于第一屬性集合的目標匹配度。上述的確定實例數(shù)據(jù)的第二屬性集合中的屬性信息與第一屬性集合中的屬性信息的第一匹配度包括:確定第二屬性集合中與第一屬性集合中的屬性信息匹配的目標屬性信息的數(shù)量,如第二屬性集合中與第一屬性集合中的屬性信息相同的目標屬性信息的數(shù)量;將目標屬性信息的數(shù)量與第一屬性集合中的屬性信息的數(shù)量的比值作為第一匹配度。上述的確定第一屬性集合中的屬性信息與實例數(shù)據(jù)的第二屬性集合中的屬性信息的第二匹配度包括:確定第一屬性集合中與第二屬性集合中的屬性信息匹配的目標屬性信息的數(shù)量,如第一屬性集合中與第二屬性集合中的屬性信息相同的目標屬性信息的數(shù)量;將目標屬性信息的數(shù)量與第二屬性集合中的屬性信息的數(shù)量的比值作為第二匹配度。上述的根據(jù)第一匹配度和第二匹配度確定實例數(shù)據(jù)相對于第一屬性集合的目標匹配度包括:將第一匹配度和第二匹配度的和作為目標匹配度,或者將第一匹配度和第二匹配度的乘積作為目標匹配度。在步驟S206提供的技術方案中,基于每個第一數(shù)據(jù)集合中所有實例數(shù)據(jù)的目標概率確定每個第一數(shù)據(jù)集合的采集質量信息包括以下至少之一:確定第一數(shù)據(jù)集合中所有實例數(shù)據(jù)的目標概率的第一平均值,第一平均值用于指示按照目標類型采集到的數(shù)據(jù)的準確度;確定第一數(shù)據(jù)集合中所有實例數(shù)據(jù)的目標概率的熵值,熵值用于指示按照目標類型采集到的數(shù)據(jù)的混雜度,采集質量信息包括第一平均值和/或熵值??蛇x地,確定第一數(shù)據(jù)集合中所有實例數(shù)據(jù)的目標概率的熵值包括:通過對第一數(shù)據(jù)集合中的所有實例數(shù)據(jù)的目標概率進行取對數(shù)運算確定熵值。本申請?zhí)岢鰞蓚€測度來評價一個概念中is-a關系的質量,其中一個通過概率的平均值Z(Ci)來評估is-a關系的正確性,公式如下:需要說明的是,Z(Ci)無法體現(xiàn)數(shù)據(jù)的分布情況,即不能表達該類中實例的混雜程度。因此本申請還提出用信息熵來反映數(shù)據(jù)的分布情況,記作M(Ci),信息混雜程度越高,熵值越大。將實例屬于某個類別的概率分區(qū)間分為若干個區(qū)間,落在第i區(qū)間的概率記做qi,區(qū)間個數(shù)為n,M(Ci)的計算公式如下:隨著語義網技術的飛速發(fā)展,本體已經被應用到了越來越多的領域,本體質量評估已經成為了語義網技術用必不可少的部分。本申請?zhí)岢隽艘环N評價RDF數(shù)據(jù)is-a關系質量的測評方法,基于分類關聯(lián)規(guī)則計算出實例屬于其類別的概率,類的混雜度通過熵來表現(xiàn),類中is-a關系的正確性通過實例屬于類的概率均值表現(xiàn)。這兩個測度能在較全面、正確的反映RDF數(shù)據(jù)的is-a關系質量。這不僅給本體構建者提供一個評價參考,以便他們發(fā)現(xiàn)知識庫存在的問題,而且給本體使用者提供了一個參考以便他們選擇一個“最好的”本體。在步驟S208提供的技術方案中,確定多個第一數(shù)據(jù)集合中采集質量信息滿足預設質量要求的為用于進行數(shù)據(jù)分析的目標數(shù)據(jù)集合包括:將多個第一數(shù)據(jù)集合中第一平均值達到第一預設值和/或熵值達到第二預設值的作為目標數(shù)據(jù)集合。上述的第一預設值和第二預設值為根據(jù)需求預先設置好的數(shù)值,通過利用這些數(shù)值可以過濾出采集質量較好的數(shù)據(jù)集合。上述實施例中,可通過本申請的方法從多個數(shù)據(jù)集合中選出采集質量較好的數(shù)據(jù)集合,用于進行數(shù)據(jù)分析,有利于得到正確的分析結果。利用本申請的方法,還可以實現(xiàn)對RDF中is-a的質量評估。具體在基于每個第一數(shù)據(jù)集合中所有實例數(shù)據(jù)的目標概率確定每個第一數(shù)據(jù)集合的采集質量信息之后,獲取多個第一數(shù)據(jù)集合的第一平均值的第二平均值,多個第一數(shù)據(jù)集合中的數(shù)據(jù)滿足預設關系,預設關系用于指示數(shù)據(jù)和數(shù)據(jù)所屬的類型,第二平均值用于指示按照預設關系采集到的數(shù)據(jù)的準確度;獲取多個第一數(shù)據(jù)集合的熵值的第三平均值,第三平均值用于指示按照預設關系采集到的數(shù)據(jù)的混雜度。在本申請的實施例中,可用Z(O)描述數(shù)據(jù)質量的正確性,用M(O)描述類別中的混雜度。其中O表示一個本體,Cj表示第j個類,信息混雜程度越高,M(O)越大,數(shù)據(jù)中is-a關系質量正確性越高Z(O)越大。Z(O)和M(O)的計算公式如下:本申請?zhí)岢鲆环N基于分類管理規(guī)則挖掘的方法來對本體中is-a關系的質量進行評估,并提出兩個測度來評價類別和概念的質量,旨在保證本體的質量,實現(xiàn)對本體的有效維護,從而為本體構建者提供參考依據(jù),為本體使用提供選擇依據(jù)。下面結合圖3所示的實施方式詳述本申請的實施例。本申請的方法在軟件上可以分為如圖3所示的四個模塊:數(shù)據(jù)預處理模塊32,用于提取知識庫中的數(shù)據(jù),構建分類關聯(lián)規(guī)則挖掘的事務表,挖掘事務表中每個概念C的判定屬性集及其置信度。概率計算模塊34,用于根據(jù)C的判斷屬性集合對實例和概念進行匹配。質量計算模塊36,用于計算概念質量的兩個測度。質量評估模塊38,完成對每個概念中Type斷言的質量評估,并輸入評估數(shù)據(jù)和日志,以供用戶參考。步驟S402,數(shù)據(jù)預處理模塊從數(shù)據(jù)源獲取數(shù)據(jù)(如獲取術語數(shù)據(jù));步驟S404,獲取數(shù)據(jù)表構建實體、數(shù)據(jù)、類矩陣;步驟S406,根據(jù)矩陣做分類關聯(lián)規(guī)則挖掘,得到類的強關聯(lián)規(guī)則集合分與置信度;步驟S408,將實例與類別的強關聯(lián)規(guī)則集合做匹配,得到實例數(shù)據(jù)的目標概率;步驟S410,通過區(qū)間切分求得類別概率加權概率和與熵;步驟S412,計算數(shù)據(jù)集合的is-a指令評分,輸出日志log以便于用戶理解。(1)數(shù)據(jù)預處理模塊數(shù)據(jù)預處理模塊是為隨后的關聯(lián)規(guī)則挖掘服務的,該模塊通過SPARQL查詢從數(shù)據(jù)源獲取實例的屬性和類型信息,進而構建分類關聯(lián)規(guī)則挖掘所使用的事務表T,以供分類關聯(lián)規(guī)則挖掘使用。事務表T將事務數(shù)據(jù)(Transaction)分成兩部分。第一部分為Tp={tp1,tp2,…tpn},Tp中的每一個元素都是一個屬性集合(即第二屬性集合),tpn表示第n個事務數(shù)據(jù)的屬性集合,第二個部分為Tc={C1,C2,…,Cn},其中,Cn表示第n個事務數(shù)據(jù)所屬的概念。本申請采用封閉世界假設(CloseWorldAssumption),即實例不包含某個屬性則該實例則不具備該屬性。最終事務如表1所示,其中:表1實例名nameBirthdayheightweightClassAaron_Line1111PersonWashington1000PlaceBummer1111PersonEdmond1110Person…………………在表1中,name、Birthday、height、weight表示屬性,Class表示類(即數(shù)據(jù)類型或概念)。(2)概率計算模塊本申請使用分類關聯(lián)規(guī)則挖掘算法,計算出每個類的判定屬性集,然后根據(jù)匹配規(guī)則將實例和概念進行匹配,而匹配到判定屬性集的置信度作為該實例屬于該概念的后驗概率。具體的匹配規(guī)則如下:得到能代表各個類別的關聯(lián)規(guī)則集(即第一屬性集合)之后,需要根據(jù)一定的匹配策略找到與該實例相似度最高的判定集,用該判定集的置信度代表該實例屬于這個類的概率,本申請?zhí)岢龅钠ヅ洳呗允菍⒁粋€實例的屬性集E與某判定集Ni匹配,用匹配集合中屬性的個數(shù)|S|占|Ni|的比重來表達匹配的準確度,用匹配集合中屬性的個數(shù)|S|占|E|的比重作為其貢獻值,然后用兩者的乘積做排名,最后選取匹配到最大的置信度,作為實例E屬于該類別的概率,具體的計算公式如下:其中,候選集Ni的集合為N,S為匹配項集,E為實例屬性集。為了進一步說明實例屬于某個類概率的計算方式,下面以具體數(shù)據(jù)為例進行說明,如為Person類挖掘得到關聯(lián)規(guī)則集合(即第一屬性集合)包括以下兩個:[[birthday,name,age,address]->person;confidence=0.9];[birthday,gender,name,graduation,email,tell,blogAddress]->person;confidence=0.8]。屬性集合中的birthday、name、age、address、gender、graduation、email、tell、blogAddress表示person的判定屬性信息,confidence表示置信度?,F(xiàn)在有實例E[birthday,name,gender,age]根據(jù)匹配策略得到與第一個候選項的匹配得分是3/4*3/4,與第二個候選項的匹配得分是3/7*3/4,因此與實例E最匹配的候選集是[[birthday,name,age,address]->person;confidence=0.9],那么該實例的屬于類Person的概率為0.9。(3)質量計算模塊本申請通過兩個測度來評價一個概念中is-a關系的質量。其中一個通過概率的平均值Z(Ci)來評估is-a關系的正確性。但Z(Ci)無法體現(xiàn)數(shù)據(jù)的分布情況,即不能表達該類中實例的混雜程度。例如:兩組實例A和B的概率分布是,A:{0.1,0.8,0.8,0.8,0.8},B:{0.2,0.4,0.9,0.9,0.9},其平均值都是0.66。而事實上,A組幾乎只有一個噪聲數(shù)據(jù),而B組很有可能有兩個噪聲數(shù)據(jù),應該是A組數(shù)據(jù)的質量更高,是它們的得分卻相等。出現(xiàn)這種現(xiàn)象的原因由于Z(Ci)忽略了數(shù)據(jù)分布的情況,因此本申請還可用信息熵來反映數(shù)據(jù)分布情況。記作M(Ci)。信息混雜程度越高,熵值越大。另外,為了驗證本申請?zhí)岢龅姆椒ǖ恼_性,還可以通過如下方式對各個集合中的噪聲數(shù)據(jù)進行抽檢,例如:在DBpedia中執(zhí)行如下SPARQL語句:select?xwhere{?xadbpedia-owl:Person.?xadbpedia-owl:Organization.}上述語句可以從DBpedia中查找同時屬于Person類和Organization類的實例,這里的實例是指某個具體的人或者組織,通過常識可知,Person和Organization是不相交的,即Person中的實例不可能存在于Organization中,但根據(jù)上述的SPARQL卻得到了一系列返回結果,如Jordanhill_College等。這表明DBpedia中存在同時屬于這個兩個類的實例,因此可以認為Jordanhill_College是一個噪聲數(shù)據(jù)。通過上述方式可以對數(shù)據(jù)集合中的數(shù)據(jù)進行驗證。(4)質量評估模塊本申請用Z(O)描述數(shù)據(jù)質量的正確性,用M(O)描述類別中的混雜度。其中O表示一個本體,Cj表示第j個類,信息混雜程度越高,M(O)越大,數(shù)據(jù)中is-a關系質量正確性越高Z(O)越大。在通過上述的公式完成對每個概念中Type斷言的質量評估,并輸入評估數(shù)據(jù)和日志,以供用戶參考。本體中的is-a關系反映的是實例與類別的關系,實例是本體中其他公理的基礎,而大部分本體中的實例都是通過自動抽取或異構數(shù)據(jù)集成的方法獲得,因此在實例層中會存在大量的噪音數(shù)據(jù)。這種噪音數(shù)據(jù)會導致基于本體的應用得到錯誤的數(shù)據(jù)和信息。通過本申請的方法,提出了一種評價RDF數(shù)據(jù)is-a關系質量的測評方法,基于分類關聯(lián)規(guī)則計算出實例屬于其類別的概率,類的混雜度通過熵來表現(xiàn),類中is-a關系的正確性通過實例屬于類的概率均值表現(xiàn)。這兩個測度能在較全面、正確的反映RDF數(shù)據(jù)的is-a關系質量。需要說明的是,對于前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發(fā)明并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明,某些步驟可以采用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作和模塊并不一定是本發(fā)明所必須的。通過以上的實施方式的描述,本領域的技術人員可以清楚地了解到根據(jù)上述實施例的方法可借助軟件加必需的通用硬件平臺的方式來實現(xiàn),當然也可以通過硬件,但很多情況下前者是更佳的實施方式。基于這樣的理解,本發(fā)明的技術方案本質上或者說對現(xiàn)有技術做出貢獻的部分可以以軟件產品的形式體現(xiàn)出來,該計算機軟件產品存儲在一個存儲介質(如ROM/RAM、磁碟、光盤)中,包括若干指令用以使得一臺終端設備(可以是手機,計算機,服務器,或者網絡設備等)執(zhí)行本發(fā)明各個實施例所述的方法。實施例2根據(jù)本發(fā)明實施例,還提供了一種用于實施上述數(shù)據(jù)集合的確定方法的數(shù)據(jù)集合的確定裝置。圖5是根據(jù)本發(fā)明實施例的一種可選的數(shù)據(jù)集合的確定裝置的示意圖,如圖5所示,該裝置可以包括:接收單元52、第一確定單元54、第二確定單元56以及第三確定單元58。接收單元52,用于接收到用于指示從多個第一數(shù)據(jù)集合中獲取目標數(shù)據(jù)集合的指令,其中,第一數(shù)據(jù)集合中包括按照目標類型采集到的至少一個實例數(shù)據(jù),目標數(shù)據(jù)集合的數(shù)據(jù)用于進行數(shù)據(jù)分析;第一確定單元54,用于根據(jù)第一屬性集合確定每個第一數(shù)據(jù)集合中每個實例數(shù)據(jù)的目標概率,其中,目標概率為實例數(shù)據(jù)屬于目標類型的概率,第一屬性集合中包括用于指示為目標類型的數(shù)據(jù)的屬性;第二確定單元56,用于基于每個第一數(shù)據(jù)集合中所有實例數(shù)據(jù)的目標概率確定每個第一數(shù)據(jù)集合的采集質量信息,其中,采集質量信息用于指示按照目標類型采集到的第一數(shù)據(jù)集合的質量;第三確定單元58,用于確定多個第一數(shù)據(jù)集合中采集質量信息滿足預設質量要求的為用于進行數(shù)據(jù)分析的目標數(shù)據(jù)集合。需要說明的是,該實施例中的接收單元52可以用于執(zhí)行本申請實施例1中的步驟S202,該實施例中的第一確定單元54可以用于執(zhí)行本申請實施例1中的步驟S204,該實施例中的第二確定單元56可以用于執(zhí)行本申請實施例1中的步驟S206,該實施例中的第三確定單元58可以用于執(zhí)行本申請實施例1中的步驟S208。此處需要說明的是,上述模塊與對應的步驟所實現(xiàn)的示例和應用場景相同,但不限于上述實施例1所公開的內容。需要說明的是,上述模塊作為裝置的一部分可以運行在如圖1所示的硬件環(huán)境中,可以通過軟件實現(xiàn),也可以通過硬件實現(xiàn)。通過上述模塊,在接收到用于指示從多個第一數(shù)據(jù)集合中獲取目標數(shù)據(jù)集合的指令時,通過第一屬性集合來確定第一數(shù)據(jù)集合中的實例數(shù)據(jù)屬于目標類型的概率,然后基于第一數(shù)據(jù)集合中所有實例數(shù)據(jù)的目標概率確定第一數(shù)據(jù)集合的采集質量信息,并從中選出滿足預設質量要求的目標數(shù)據(jù)集合用于進行數(shù)據(jù)分析,可以解決了相關技術中無法獲取到質量較高的數(shù)據(jù)集合的技術問題,進而達到獲取到質量較高的數(shù)據(jù)集合的技術效果,保證了數(shù)據(jù)分析結果的可靠性。上述的數(shù)據(jù)集合為按照目標類型(即概念或者類)采集到的滿足is-a關系的實例數(shù)據(jù),實例數(shù)據(jù)的采集方式可以為自動抽取或利用異構數(shù)據(jù)集成的方式獲得,如知識庫DBpeida通過抽取維基百科Wikipedia的頁面得到實例數(shù)據(jù)。上述的數(shù)據(jù)分析是指通過對數(shù)據(jù)進行挖掘和處理來尋找和揭示隱含在數(shù)據(jù)中的規(guī)律。上述的第一屬性集合中包括的屬性信息為能夠用來描述上述的目標類型的屬性信息,通過這些屬性信息能夠判斷出實例數(shù)據(jù)是否屬于目標類型。上述的采集質量信息可以為用來描述第一數(shù)據(jù)集合中所有實例數(shù)據(jù)的采集準確度、分布情況、混雜度等采集質量的信息??蛇x地,上述的第一確定單元還用于在根據(jù)第一屬性集合確定每個第一數(shù)據(jù)集合中每個實例數(shù)據(jù)的目標概率之前,獲取第二數(shù)據(jù)集合,其中,第二數(shù)據(jù)集合中的每一個數(shù)據(jù)均屬于目標類型;通過對第二數(shù)據(jù)集合進行數(shù)據(jù)挖掘,得到第一屬性集合。利用本申請的技術方案,可評估一個本體中is-a關系(即目標類型或者概念)的質量,在這個過程中,主要挑戰(zhàn)是如何找出本體中is-a關系錯誤的實例,申請人在經過仔細研究后發(fā)現(xiàn),每個概念Ci有且僅含有一個屬性集合Pc={p1,p2….,pn},Pc是知識庫中屬性P的一個子集,那么會存在至少一個Pc的子集DPc,能夠用來描述該概念Ci,那么DPc可稱為判定屬性集(即第一屬性集合),若實例的屬性屬于某個概念Ci的判斷屬性集,則該實例很可能屬于Ci,反之該實例則很可能是噪聲數(shù)據(jù)。例如,對于Country的實例,通常含有Caption(即首都)的屬性,而對于Person的實例,通常含有Birthday(生日)這個屬性,根據(jù)常識可知,一個國家是含有首都的,而一個人則有他自己的生日,若一個Country的實例含有Birthday這個屬性則該實例有很大可能是一個噪聲數(shù)據(jù)??墒褂梅诸愱P聯(lián)規(guī)則挖掘算法,計算出每個類的判定屬性集,然后利用匹配規(guī)則將實例和概念進行匹配,而將匹配到判定屬性集的置信度作為該實例屬于該概念的后驗概率,即目標概率。定義實例E(a1,a2…an),其中ai是實例E(即目標類型)的屬性,則E屬于類Ci的概率p(Ci│e)=p(Ci│a1,a2…an)。p(Ci│a1,a2…an)可以通過統(tǒng)計求得。由于數(shù)據(jù)本身不可靠且存在非典型屬性,若直接統(tǒng)計會出現(xiàn)較大誤差,非典型屬性是指出現(xiàn)頻率極低,且不能表達某個類的屬性。針對這種情況,本申請?zhí)岢鲇梅诸愱P聯(lián)規(guī)則,找到最能代表類Ci的關聯(lián)規(guī)則集合(即第一屬性集合),把這些屬性集稱作判定屬性集。然后根據(jù)一定匹配規(guī)則找到與該實例最相近的關聯(lián)規(guī)則(第一屬性集合)是(s1,s2…sn),那么其置信度最接近真實的p(Ci│E)。上述的關聯(lián)規(guī)則挖掘算法有Apriori算法和FP-樹,都可挖掘強關聯(lián)規(guī)則(即第一屬性集合)及其置信度,但可能會計算與類Ci無關的關聯(lián)規(guī)則,造成信息冗余和額外的內存開銷。為了克服該問題,優(yōu)選地,本申請可采用分類關聯(lián)規(guī)則挖掘算法中的CAR-Apriori算法,只挖掘與類Ci相關的關聯(lián)規(guī)則及其置信度,以其置信度作為實例屬于該類別的概率。CAR-Apriori算法能挖掘指定類別的關聯(lián)規(guī)則,通過調整支持度來挖掘能代表類別的屬性集及它們的置信度。雖然本體中實例的屬性數(shù)量并不算大,根據(jù)CAR-Apriori算法的基本思想,不同的屬性會形成不同頻度的組合,這個組合數(shù)量是成指數(shù)趨勢增長的。為了減少系統(tǒng)開銷,在實際處理時進行了部分數(shù)據(jù)過濾,即過濾在每個類別中出現(xiàn)頻率極高的屬性。因為這類屬性無法提供實例屬于某個類型的信息,類似于文本挖掘中的停用詞,如“是”、“的”等??蛇x地,如圖6所示,第一確定單元54包括:獲取模塊542,用于獲取每個實例數(shù)據(jù)的第二屬性集合,其中,第二屬性集合中包括實例數(shù)據(jù)所具有的屬性信息;第一確定模塊544,用于基于第一屬性集合和每個實例數(shù)據(jù)的第二屬性集合確定每個實例數(shù)據(jù)的目標概率。需要說明的是,第一屬性集合的數(shù)量為至少一個,第一確定模塊包括:獲取子模塊,用于獲取每個第一屬性集合的置信度,其中,置信度用于指示具有第一屬性集合中所有屬性信息的數(shù)據(jù)屬于目標類型的概率;確定子模塊,用于通過將實例數(shù)據(jù)的第二屬性集合與每一個第一屬性集合進行匹配,確定實例數(shù)據(jù)相對于每一個第一屬性集合的目標匹配度;處理子模塊,用于將與至少一個目標匹配度中的最大匹配度對應的第一屬性集合的置信度作為實例數(shù)據(jù)的目標概率。上述的確定子模塊還用于:確定實例數(shù)據(jù)的第二屬性集合中的屬性信息與第一屬性集合中的屬性信息的第一匹配度;確定第一屬性集合中的屬性信息與實例數(shù)據(jù)的第二屬性集合中的屬性信息的第二匹配度;根據(jù)第一匹配度和第二匹配度確定實例數(shù)據(jù)相對于第一屬性集合的目標匹配度。具體地,上述確定子模塊通過如下方式確定實例數(shù)據(jù)的第二屬性集合中的屬性信息與第一屬性集合中的屬性信息的第一匹配度:確定第二屬性集合中與第一屬性集合中的屬性信息匹配的目標屬性信息的數(shù)量,如第二屬性集合中與第一屬性集合中的屬性信息相同的目標屬性信息的數(shù)量;將目標屬性信息的數(shù)量與第一屬性集合中的屬性信息的數(shù)量的比值作為第一匹配度。上述確定子模塊通過如下方式確定第一屬性集合中的屬性信息與實例數(shù)據(jù)的第二屬性集合中的屬性信息的第二匹配度:確定第一屬性集合中與第二屬性集合中的屬性信息匹配的目標屬性信息的數(shù)量,如第一屬性集合中與第二屬性集合中的屬性信息相同的目標屬性信息的數(shù)量;將目標屬性信息的數(shù)量與第二屬性集合中的屬性信息的數(shù)量的比值作為第二匹配度??蛇x地,如圖7所示,第二確定單元56包括:第二確定模塊562,用于確定第一數(shù)據(jù)集合中所有實例數(shù)據(jù)的目標概率的第一平均值,其中,第一平均值用于指示按照目標類型采集到的數(shù)據(jù)的準確度;第三確定模塊564,用于確定第一數(shù)據(jù)集合中所有實例數(shù)據(jù)的目標概率的熵值,其中,熵值用于指示按照目標類型采集到的數(shù)據(jù)的混雜度,采集質量信息包括第一平均值和/或熵值。本申請?zhí)岢鰞蓚€測度來評價一個概念中is-a關系的質量,其中一個通過概率的平均值Z(Ci)來評估is-a關系的正確性,公式如下:需要說明的是,Z(Ci)無法體現(xiàn)數(shù)據(jù)的分布情況,即不能表達該類中實例的混雜程度。因此本申請還提出用信息熵來反映數(shù)據(jù)的分布情況,記作M(Ci),信息混雜程度越高,熵值越大。將實例屬于某個類別的概率分區(qū)間分為若干個區(qū)間,落在第i區(qū)間的概率記做qi,區(qū)間個數(shù)為n,M(Ci)的計算公式如下:隨著語義網技術的飛速發(fā)展,本體已經被應用到了越來越多的領域,本體質量評估已經成為了語義網技術用必不可少的部分。本申請?zhí)岢隽艘环N評價RDF數(shù)據(jù)is-a關系質量的測評方法,基于分類關聯(lián)規(guī)則計算出實例屬于其類別的概率,類的混雜度通過熵來表現(xiàn),類中is-a關系的正確性通過實例屬于類的概率均值表現(xiàn)。這兩個測度能在較全面、正確的反映RDF數(shù)據(jù)的is-a關系質量。這不僅給本體構建者提供一個評價參考,以便他們發(fā)現(xiàn)知識庫存在的問題,而且給本體使用者提供了一個參考以便他們選擇一個“最好的”本體??蛇x地,第三確定單元還用于將多個第一數(shù)據(jù)集合中第一平均值達到第一預設值和/或熵值達到第二預設值的作為目標數(shù)據(jù)集合。利用本申請的方法,還可以實現(xiàn)對RDF中is-a的質量評估。具體在基于每個第一數(shù)據(jù)集合中所有實例數(shù)據(jù)的目標概率確定每個第一數(shù)據(jù)集合的采集質量信息之后,獲取多個第一數(shù)據(jù)集合的第一平均值的第二平均值,多個第一數(shù)據(jù)集合中的數(shù)據(jù)滿足預設關系,預設關系用于指示數(shù)據(jù)和數(shù)據(jù)所屬的類型,第二平均值用于指示按照預設關系采集到的數(shù)據(jù)的準確度;獲取多個第一數(shù)據(jù)集合的熵值的第三平均值,第三平均值用于指示按照預設關系采集到的數(shù)據(jù)的混雜度。本申請?zhí)岢鲆环N基于分類管理規(guī)則挖掘的方法來對本體中is-a關系的質量進行評估,并提出兩個測度來評價類別和概念的質量,旨在保證本體的質量,實現(xiàn)對本體的有效維護,從而為本體構建者提供參考依據(jù),為本體使用提供選擇依據(jù)。此處需要說明的是,上述模塊與對應的步驟所實現(xiàn)的示例和應用場景相同,但不限于上述實施例1所公開的內容。需要說明的是,上述模塊作為裝置的一部分可以運行在如圖1所示的硬件環(huán)境中,可以通過軟件實現(xiàn),也可以通過硬件實現(xiàn),其中,硬件環(huán)境包括網絡環(huán)境。實施例3根據(jù)本發(fā)明實施例,還提供了一種用于實施上述數(shù)據(jù)集合的確定方法的服務器或終端。圖8是根據(jù)本發(fā)明實施例的一種終端的結構框圖,如圖8所示,該終端可以包括:一個或多個(圖中僅示出一個)處理器801、存儲器803、以及傳輸裝置805(如上述實施例中的發(fā)送裝置),如圖8所示,該終端還可以包括輸入輸出設備807。其中,存儲器803可用于存儲軟件程序以及模塊,如本發(fā)明實施例中的方法和裝置對應的程序指令/模塊,處理器801通過運行存儲在存儲器803內的軟件程序以及模塊,從而執(zhí)行各種功能應用以及數(shù)據(jù)處理,即實現(xiàn)上述的方法。存儲器803可包括高速隨機存儲器,還可以包括非易失性存儲器,如一個或者多個磁性存儲裝置、閃存、或者其他非易失性固態(tài)存儲器。在一些實例中,存儲器803可進一步包括相對于處理器801遠程設置的存儲器,這些遠程存儲器可以通過網絡連接至終端。上述網絡的實例包括但不限于互聯(lián)網、企業(yè)內部網、局域網、移動通信網及其組合。上述的傳輸裝置805用于經由一個網絡接收或者發(fā)送數(shù)據(jù),還可以用于處理器與存儲器之間的數(shù)據(jù)傳輸。上述的網絡具體實例可包括有線網絡及無線網絡。在一個實例中,傳輸裝置805包括一個網絡適配器(NetworkInterfaceController,NIC),其可通過網線與其他網絡設備與路由器相連從而可與互聯(lián)網或局域網進行通訊。在一個實例中,傳輸裝置805為射頻(RadioFrequency,RF)模塊,其用于通過無線方式與互聯(lián)網進行通訊。其中,具體地,存儲器803用于存儲應用程序。處理器801可以通過傳輸裝置805調用存儲器803存儲的應用程序,以執(zhí)行下述步驟:接收到用于指示從多個第一數(shù)據(jù)集合中獲取目標數(shù)據(jù)集合的指令,其中,第一數(shù)據(jù)集合中包括按照目標類型采集到的至少一個實例數(shù)據(jù),目標數(shù)據(jù)集合的數(shù)據(jù)用于進行數(shù)據(jù)分析;根據(jù)第一屬性集合確定每個第一數(shù)據(jù)集合中每個實例數(shù)據(jù)的目標概率,其中,目標概率為實例數(shù)據(jù)屬于目標類型的概率,第一屬性集合中包括用于指示為目標類型的數(shù)據(jù)的屬性;基于每個第一數(shù)據(jù)集合中所有實例數(shù)據(jù)的目標概率確定每個第一數(shù)據(jù)集合的采集質量信息,其中,采集質量信息用于指示按照目標類型采集到的第一數(shù)據(jù)集合的質量;確定多個第一數(shù)據(jù)集合中采集質量信息滿足預設質量要求的為用于進行數(shù)據(jù)分析的目標數(shù)據(jù)集合。處理器801還用于執(zhí)行下述步驟:獲取每個實例數(shù)據(jù)的第二屬性集合,其中,第二屬性集合中包括實例數(shù)據(jù)所具有的屬性信息;基于第一屬性集合和每個實例數(shù)據(jù)的第二屬性集合確定每個實例數(shù)據(jù)的目標概率。采用本發(fā)明實施例,在接收到用于指示從多個第一數(shù)據(jù)集合中獲取目標數(shù)據(jù)集合的指令時,通過第一屬性集合來確定第一數(shù)據(jù)集合中的實例數(shù)據(jù)屬于目標類型的概率,然后基于第一數(shù)據(jù)集合中所有實例數(shù)據(jù)的目標概率確定第一數(shù)據(jù)集合的采集質量信息,并從中選出滿足預設質量要求的目標數(shù)據(jù)集合用于進行數(shù)據(jù)分析,可以解決了相關技術中無法獲取到質量較高的數(shù)據(jù)集合的技術問題,進而達到獲取到質量較高的數(shù)據(jù)集合的技術效果,保證了數(shù)據(jù)分析結果的可靠性??蛇x地,本實施例中的具體示例可以參考上述實施例1和實施例2中所描述的示例,本實施例在此不再贅述。本領域普通技術人員可以理解,圖8所示的結構僅為示意,終端可以是智能手機(如Android手機、iOS手機等)、平板電腦、掌上電腦以及移動互聯(lián)網設備(MobileInternetDevices,MID)、PAD等終端設備。圖8其并不對上述電子裝置的結構造成限定。例如,終端還可包括比圖8中所示更多或者更少的組件(如網絡接口、顯示裝置等),或者具有與圖8所示不同的配置。本領域普通技術人員可以理解上述實施例的各種方法中的全部或部分步驟是可以通過程序來指令終端設備相關的硬件來完成,該程序可以存儲于一計算機可讀存儲介質中,存儲介質可以包括:閃存盤、只讀存儲器(Read-OnlyMemory,ROM)、隨機存取器(RandomAccessMemory,RAM)、磁盤或光盤等。實施例4本發(fā)明的實施例還提供了一種存儲介質。可選地,在本實施例中,上述存儲介質可以用于執(zhí)行數(shù)據(jù)集合的確定方法的程序代碼。可選地,在本實施例中,上述存儲介質可以位于上述實施例所示的網絡中的多個網絡設備中的至少一個網絡設備上。可選地,在本實施例中,存儲介質被設置為存儲用于執(zhí)行以下步驟的程序代碼:S11,接收到用于指示從多個第一數(shù)據(jù)集合中獲取目標數(shù)據(jù)集合的指令,其中,第一數(shù)據(jù)集合中包括按照目標類型采集到的至少一個實例數(shù)據(jù),目標數(shù)據(jù)集合的數(shù)據(jù)用于進行數(shù)據(jù)分析;S12,根據(jù)第一屬性集合確定每個第一數(shù)據(jù)集合中每個實例數(shù)據(jù)的目標概率,其中,目標概率為實例數(shù)據(jù)屬于目標類型的概率,第一屬性集合中包括用于指示為目標類型的數(shù)據(jù)的屬性;S13,基于每個第一數(shù)據(jù)集合中所有實例數(shù)據(jù)的目標概率確定每個第一數(shù)據(jù)集合的采集質量信息,其中,采集質量信息用于指示按照目標類型采集到的第一數(shù)據(jù)集合的質量;S14,確定多個第一數(shù)據(jù)集合中采集質量信息滿足預設質量要求的為用于進行數(shù)據(jù)分析的目標數(shù)據(jù)集合??蛇x地,存儲介質還被設置為存儲用于執(zhí)行以下步驟的程序代碼:S21,獲取每個實例數(shù)據(jù)的第二屬性集合,其中,第二屬性集合中包括實例數(shù)據(jù)所具有的屬性信息;S22,基于第一屬性集合和每個實例數(shù)據(jù)的第二屬性集合確定每個實例數(shù)據(jù)的目標概率??蛇x地,本實施例中的具體示例可以參考上述實施例1和實施例2中所描述的示例,本實施例在此不再贅述。可選地,在本實施例中,上述存儲介質可以包括但不限于:U盤、只讀存儲器(ROM,Read-OnlyMemory)、隨機存取存儲器(RAM,RandomAccessMemory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質。上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。上述實施例中的集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產品銷售或使用時,可以存儲在上述計算機可讀取的存儲介質中。基于這樣的理解,本發(fā)明的技術方案本質上或者說對現(xiàn)有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟件產品的形式體現(xiàn)出來,該計算機軟件產品存儲在存儲介質中,包括若干指令用以使得一臺或多臺計算機設備(可為個人計算機、服務器或者網絡設備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。在本發(fā)明的上述實施例中,對各個實施例的描述都各有側重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關描述。在本申請所提供的幾個實施例中,應該理解到,所揭露的客戶端,可通過其它的方式實現(xiàn)。其中,以上所描述的裝置實施例僅僅是示意性的,例如所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網絡單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。以上所述僅是本發(fā)明的優(yōu)選實施方式,應當指出,對于本
技術領域:
的普通技術人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本發(fā)明的保護范圍。當前第1頁1 2 3