本發(fā)明屬于數(shù)據(jù)檢索領(lǐng)域,具體涉及一種基于云平臺多維數(shù)據(jù)融合分析系統(tǒng)的數(shù)據(jù)清理、索引方法。
背景技術(shù):
目前,在企業(yè)平臺建設(shè)方面,主要是以多方的數(shù)據(jù)為基礎(chǔ),比如手動導入的數(shù)據(jù),包括txt格式、excel格式、csv格式等,同步的數(shù)據(jù),實時從其他業(yè)務(wù)系統(tǒng)獲取的數(shù)據(jù)等等,通過對數(shù)據(jù)的分析,進行數(shù)據(jù)的定向的匯總,以便后期的檢索,但是隨著企業(yè)規(guī)模的不斷擴大,業(yè)務(wù)量的不斷增長,自身產(chǎn)生的多方數(shù)據(jù)也是急劇的增加,對于一般的數(shù)據(jù)都是采用傳統(tǒng)的方法或者購買現(xiàn)成的檢索方法,進行數(shù)據(jù)的清理檢索。但是對于大部分的數(shù)據(jù)都是來自于各個平臺或者各方數(shù)據(jù)的匯總,這些數(shù)據(jù)由于沒有之前的整理,規(guī)整,因此所有的數(shù)據(jù)都是處于零散的狀態(tài),如果還是采用普通的數(shù)據(jù)采集,數(shù)據(jù)清理,數(shù)據(jù)檢索的方式,那么由于這些檢索的工具都是現(xiàn)成的工具,沒法進一步的進行工具的完善和修改,因此基本上所有的這些數(shù)據(jù)都不能夠在現(xiàn)有的檢索工具基礎(chǔ)上匯總,使用,這給企業(yè)造成了很的麻煩和資源的浪費,因為只有在現(xiàn)有的檢索方式的基礎(chǔ)上進行嘗試才能夠發(fā)現(xiàn)其那些內(nèi)容不能夠使用或者檢索效果不好,此過程本身就是一個資源的耗費過程,因此繼續(xù)有針對性得進行改進。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的不足而提供一種針對性強,能夠快速將數(shù)據(jù)進行規(guī)整,清理,能夠根據(jù)具體的數(shù)據(jù)進行索引方法的微調(diào),從而實現(xiàn)數(shù)據(jù)的快速索引,可復制性的效果非常好。
本發(fā)明的目的是這樣實現(xiàn)的:
一種數(shù)據(jù)清理、索引方法,其特征在于:具體流程如下:
1)數(shù)據(jù)清理、導入:
對于結(jié)構(gòu)化數(shù)據(jù)的清理,通過清理工具利用在線同步的方式同步到數(shù)據(jù)中心的分布式數(shù)據(jù)庫集群上或者通過文件等方式傳送到數(shù)據(jù)中心的分布式數(shù)據(jù)庫集群中或者通過接口實時調(diào)用;
對于非結(jié)構(gòu)化數(shù)據(jù)的清理,通過清理工具層進行交換處理,存放于數(shù)據(jù)中心的分布式文件系統(tǒng)中,指定冗余度,同時實現(xiàn)統(tǒng)一存儲管理和冗余備份;
2)元數(shù)據(jù)的建立:
(1)元數(shù)據(jù)獲取,通過元數(shù)據(jù)獲取流程整合數(shù)據(jù)中心多個源中的不同元數(shù)據(jù),并使用數(shù)據(jù)庫作為元數(shù)據(jù)知識庫進行統(tǒng)一存儲管理;
(2)元數(shù)據(jù)發(fā)布,建立一套元數(shù)據(jù)的發(fā)布流程來管理元數(shù)據(jù)的發(fā)布,元數(shù)據(jù)發(fā)布后,用戶能通過元數(shù)據(jù)報表來查詢各種元數(shù)據(jù)的內(nèi)容,使用關(guān)聯(lián)影響分析、依賴分析、血統(tǒng)分析方法來分析元數(shù)據(jù)間的關(guān)系,通過搜索功能對元數(shù)據(jù)對象進行精確或模糊查詢,以XML標準進行元數(shù)據(jù)交換,并提供API接口和WebService接口接入,使得用戶的查詢請求得到及時有效的反饋;
(3)元數(shù)據(jù)訪問,建立一套元數(shù)據(jù)訪問權(quán)限的授予、管理流程機制,控制合法用戶對元數(shù)據(jù)資料的有效訪問;
3)索引構(gòu)建:
通過元數(shù)據(jù)訪問,得出數(shù)據(jù)中心的分布式數(shù)據(jù)集群上的數(shù)據(jù)屬性,其中對于與表有關(guān)的數(shù)據(jù)庫結(jié)構(gòu)采用數(shù)據(jù)庫索引,對于存儲在介質(zhì)上的位置數(shù)據(jù)信息的描述采用空間索引,對于姓名、手機號和地址信息的描述采用關(guān)系索引,在關(guān)系型數(shù)據(jù)中,對數(shù)據(jù)中心的所有要素都要進行匹配的時候,采用全文索引。
基于以上所述,所述的數(shù)據(jù)清理、導入過程中,現(xiàn)有RDBMS數(shù)據(jù)庫中,關(guān)鍵數(shù)據(jù)少的部分,通過清理工具利用在線同步的方式同步到數(shù)據(jù)中心的分布式數(shù)據(jù)庫集群上;數(shù)據(jù)量大的部分,通過文件等方式傳送到數(shù)據(jù)中心的分布式數(shù)據(jù)庫集群中,或者通過接口實時調(diào)用的方式;
WEB平臺錄入的信息經(jīng)過清理工具的處理直接同步到數(shù)據(jù)中心的分布式數(shù)據(jù)集群中。
基于以上所述,所述的清理工具為能夠支持常見文件格式,至少包括txt文件、csv文件、Excel文件、dmp文件數(shù)據(jù)格式,并且相同數(shù)據(jù)、不同數(shù)據(jù)的轉(zhuǎn)換過程能夠自定義,還能夠?qū)崿F(xiàn)數(shù)據(jù)格式的轉(zhuǎn)換,按照要求進行標準化處理,另外數(shù)據(jù)規(guī)范化工具操作便利、界面直觀以及數(shù)據(jù)格式化工作自動和人工進行。
基于以上所述,所述的元數(shù)據(jù)建立過程中,當元數(shù)據(jù)發(fā)生變更時,元數(shù)據(jù)管理應(yīng)用應(yīng)該捕捉到這種變更,給出分析報告,指引用戶完成元數(shù)據(jù)同步工作;并且自動跟蹤和記錄元數(shù)據(jù)的更新,包括變更時間和變更原因,生成完整的元數(shù)據(jù)變更歷史。
本發(fā)明具有如下的優(yōu)點:
本發(fā)明的技術(shù)方案是在具體的實踐過程中,針對具體的情況所進行的分析判斷,然后得出的技術(shù)方案。單單是數(shù)據(jù)的來源就有好多的種類,比如手動導入的數(shù)據(jù),包括txt格式、excel格式、csv格式等,同步的數(shù)據(jù),實時從其他業(yè)務(wù)系統(tǒng)獲取的數(shù)據(jù)等等,很多的數(shù)據(jù)種類,本發(fā)明從數(shù)據(jù)的結(jié)構(gòu)進行了整體的分類,這樣以來,整體的數(shù)據(jù)屬性就非常清晰,結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)區(qū)分的很明確。這樣針對不同的數(shù)據(jù)結(jié)構(gòu)類型,有針對性的選擇清洗工具,使其達到最好的清洗轉(zhuǎn)換效果,大大的提高了數(shù)據(jù)整合轉(zhuǎn)換的效率。元數(shù)據(jù)的使用,主要是更進一步的找到數(shù)據(jù)的屬性,元數(shù)據(jù)作為一個中間數(shù)據(jù),起到的作用是毋庸置疑的,在本發(fā)明中,元數(shù)據(jù)的建立主要是采用關(guān)聯(lián)分析、依賴分析等手段或者方法分析數(shù)據(jù)之間的關(guān)系以及數(shù)據(jù)自身的屬性,達到數(shù)據(jù)的更加清晰化和規(guī)范化,同時也能夠更加方便的實現(xiàn)索引的建立。索引的建立是基于元數(shù)據(jù)的建立,屬性的明確,索引的建立過程是一個再次對數(shù)據(jù)規(guī)整的過程,同時又不旦是規(guī)整,更多的是為了方便后期的檢索,查詢,更加準確的查詢,四種索引的方式基于不同的數(shù)據(jù)屬性,有針對性的建立索引,使得后期的索引方式更加有針對性,有目的性,最重要的是本發(fā)明的索引方法由于采用四種索引方法,這四種索引方法相互之間又都是根據(jù)不同的屬性特點來實現(xiàn),通過空間關(guān)系,關(guān)聯(lián)關(guān)系,模糊匹配效率低的問題,以及與表有關(guān)的數(shù)據(jù)進行有針對性的索引,達到對數(shù)據(jù)庫進行優(yōu)化的效果。
另外,此清洗和索引的方法可以針對不同的數(shù)據(jù),進行調(diào)整,比如清洗的工具,針對不同的數(shù)據(jù)來源,可以采用不同的清洗工具,也就說清洗的方法一樣,但是因為清洗的數(shù)據(jù)不一樣,清洗的過程會有變化,但是最終的目的都是為了元數(shù)據(jù)的建立提供更加規(guī)整的數(shù)據(jù),元數(shù)據(jù)的屬性確定,又為后期的索引提供規(guī)整的二次數(shù)據(jù),這些一連串的過程,是可以復制,可操作性也是非常強,即便是出現(xiàn)了根據(jù)具體的情況的微調(diào)。
具體實施方式
下面通過具體的實施方式對本發(fā)明作進一步的描述。
一種數(shù)據(jù)清理、索引方法,其特征在于:具體流程如下:
1)數(shù)據(jù)清理、導入:
對于結(jié)構(gòu)化數(shù)據(jù)的清理,所述的數(shù)據(jù)清理、導入過程中,現(xiàn)有RDBMS數(shù)據(jù)庫中,關(guān)鍵數(shù)據(jù)少的部分,通過清理工具利用在線同步的方式同步到數(shù)據(jù)中心的分布式數(shù)據(jù)庫集群上;數(shù)據(jù)量大的部分,通過文件等方式傳送到數(shù)據(jù)中心的分布式數(shù)據(jù)庫集群中,或者通過接口實時調(diào)用的方式。
WEB平臺錄入的信息經(jīng)過清理工具的處理直接同步到數(shù)據(jù)中心的分布式數(shù)據(jù)集群中。
對于非結(jié)構(gòu)化數(shù)據(jù)的清理,各系統(tǒng)中相關(guān)的音頻、視頻、圖片等以及其他較大的文件,通過清理工具層進行交換處理,存放于數(shù)據(jù)中心的分布式文件系統(tǒng)中,指定冗余度,同時實現(xiàn)統(tǒng)一存儲管理和冗余備份。
數(shù)據(jù)導入功能負責把清洗過的數(shù)據(jù)導入數(shù)據(jù)庫中,數(shù)據(jù)導入支持大數(shù)據(jù)量的批量導入。對關(guān)鍵要素(姓名、電話號碼、地址、時間等)都進行索引的創(chuàng)建,提高數(shù)據(jù)的查詢分析效率。
導入操作中伴隨索引操作,會影響到數(shù)據(jù)導入的速度和效率,所以在導入前需要進行表或索引的存在性判斷,已存在的表能夠禁用索引,導入完成能夠自動恢復索引,不存在的表、表空間、分區(qū)、索引能夠自動創(chuàng)建表、索引、分區(qū)。
清理工具為能夠支持常見文件格式,至少包括txt文件、csv文件、excel文件、dmp文件數(shù)據(jù)格式,并且相同數(shù)據(jù)、不同數(shù)據(jù)的轉(zhuǎn)換過程能夠自定義,還能夠?qū)崿F(xiàn)數(shù)據(jù)格式的轉(zhuǎn)換,按照要求進行標準化處理,另外數(shù)據(jù)規(guī)范化工具操作便利、界面直觀以及數(shù)據(jù)格式化工作自動和人工進行。
2)元數(shù)據(jù)的建立:
(1)元數(shù)據(jù)獲取,通過元數(shù)據(jù)獲取流程整合數(shù)據(jù)中心多個源中的不同元數(shù)據(jù),并使用數(shù)據(jù)庫作為元數(shù)據(jù)知識庫進行統(tǒng)一存儲管理;
(2)元數(shù)據(jù)發(fā)布,建立一套元數(shù)據(jù)的發(fā)布流程來管理元數(shù)據(jù)的發(fā)布,元數(shù)據(jù)發(fā)布后,用戶能通過元數(shù)據(jù)報表來查詢各種元數(shù)據(jù)的內(nèi)容,使用關(guān)聯(lián)影響分析、依賴分析、血統(tǒng)分析方法來分析元數(shù)據(jù)間的關(guān)系,通過搜索功能對元數(shù)據(jù)對象進行精確或模糊查詢,以XML標準進行元數(shù)據(jù)交換,并提供API接口和WebService接口接入,使得用戶的查詢請求得到及時有效的反饋;
(3)元數(shù)據(jù)訪問,建立一套元數(shù)據(jù)訪問權(quán)限的授予、管理流程機制,控制合法用戶對元數(shù)據(jù)資料的有效訪問,元數(shù)據(jù)發(fā)布后,用戶能通過元數(shù)據(jù)報表來查詢各種元數(shù)據(jù)的內(nèi)容,使用關(guān)聯(lián)影響分析、依賴分析、血統(tǒng)分析等方法來分析元數(shù)據(jù)間的關(guān)系,通過搜索功能對元數(shù)據(jù)對象進行精確或模糊查詢,以XML等標準進行元數(shù)據(jù)交換,并提供API接口和WebService接口接入。
所述的元數(shù)據(jù)建立過程中,當元數(shù)據(jù)發(fā)生變更時,元數(shù)據(jù)管理應(yīng)用應(yīng)該捕捉到這種變更,給出分析報告,指引用戶完成元數(shù)據(jù)同步工作;并且自動跟蹤和記錄元數(shù)據(jù)的更新,包括變更時間和變更原因,生成完整的元數(shù)據(jù)變更歷史。
3)索引構(gòu)建:
通過元數(shù)據(jù)訪問,得出數(shù)據(jù)中心的分布式數(shù)據(jù)集群上的數(shù)據(jù)屬性,其中對于與表有關(guān)的數(shù)據(jù)庫結(jié)構(gòu)采用數(shù)據(jù)庫索引,對于存儲在介質(zhì)上的位置數(shù)據(jù)信息的描述采用空間索引,對于姓名、手機號和地址信息的描述采用關(guān)系索引,在關(guān)系型數(shù)據(jù)中,對數(shù)據(jù)中心的所有要素都要進行匹配的時候,采用全文索引。
數(shù)據(jù)庫索引:
索引是指使用索引可快速訪問數(shù)據(jù)庫表中的特定信息。索引是對數(shù)據(jù)庫表中一列或多列的值進行排序的一種結(jié)構(gòu)。
在關(guān)系數(shù)據(jù)庫中,索引是一種與表有關(guān)的數(shù)據(jù)庫結(jié)構(gòu),它可以使對應(yīng)于表的SQL語句執(zhí)行得更快。索引的作用相當于圖書的目錄,可以根據(jù)目錄中的頁碼快速找到所需的內(nèi)容。當表中有大量記錄時,若要對表進行查詢,第一種搜索信息方式是全表搜索,是將所有記錄一一取出,和查詢條件進行一一對比,然后返回滿足條件的記錄,這樣做會消耗大量數(shù)據(jù)庫系統(tǒng)時間,并造成大量磁盤I/O操作;第二種就是在表中建立索引,然后在索引中找到符合查詢條件的索引值,最后通過保存在索引中的ROWID(相當于頁碼)快速找到表中對應(yīng)的記錄。
索引提供指向存儲在表的指定列中的數(shù)據(jù)值的指針,然后根據(jù)您指定的排序順序?qū)@些指針排序。數(shù)據(jù)庫使用索引的方式與您使用書籍中的索引的方式很相似:它搜索索引以找到特定值,然后順指針找到包含該值的行。
在數(shù)據(jù)庫關(guān)系圖中,可以在選定表的“索引/鍵”屬性頁中創(chuàng)建、編輯或刪除每個索引類型。當保存索引所附加到的表,或保存該表所在的關(guān)系圖時,索引將保存在數(shù)據(jù)庫中。
對于Oracle數(shù)據(jù)庫中的各數(shù)據(jù)資源表,經(jīng)常用于搜索的字段分別建立索引。提高Sql語音查詢效率。
空間索引:
空間索引是指依據(jù)空間對象的位置和形狀或空間對象之間的某種空間關(guān)系按一定的順序排列的一種數(shù)據(jù)結(jié)構(gòu),其中包含空間對象的概要信息,如對象的標識、外接矩形及指向空間對象實體的指針。
空間數(shù)據(jù)查詢即空間索引,是對存儲在介質(zhì)上的數(shù)據(jù)位置信息的描述,是用來提高系統(tǒng)對數(shù)據(jù)獲取的效率,也稱為空間訪問方法(Spatial Access Method SAM)。是指依據(jù)空間對象的位置和形狀或空間對象之間的某種空間關(guān)系按一定的順序排列的一種數(shù)據(jù)結(jié)構(gòu)其中包含空間對象的概要信息如對象的標識外接矩形及指向空間對象實體的指針。
作為一種輔助性的空間數(shù)據(jù)結(jié)構(gòu)空間索引介于空間操作算法和空間對象之間它通過篩選作用,大量與特定空間操作無關(guān)的空間對象被排除從而提高空間操作的速度和效率。
一些資源中包含著人員地點信息,這些地點描述了經(jīng)緯度坐標,對于地點字段建立空間索引,便于在系統(tǒng)中以地圖的形式展示人員活動的位置;另一方面可以通過在地區(qū)中畫一個區(qū)域,分析區(qū)域內(nèi)的各種活動,這樣進行搜索的話,用戶使用上更直觀易用,并且搜索更有目的性。
關(guān)系索引:
例如物流資源中有姓名、手機號、地址信息,那么手機號、姓名、地址就可以作為構(gòu)建物流與常住人口關(guān)系的要素。根據(jù)常住人口中的手機號,可以找出該人員所有的郵寄關(guān)系,給哪些人郵寄過包裹信息;同樣根據(jù)手機號從A口數(shù)據(jù)中,可以找出該人員所有的通話關(guān)系。
全文索引:
在關(guān)系型數(shù)據(jù)中,對數(shù)據(jù)資源中所有要素都進行模糊匹配,效率很低,尤其在數(shù)據(jù)量龐大的情況下。這樣的sql語句很長,并且都是模糊匹配,效率很低。根據(jù)這樣的情況,全文索引就發(fā)揮了很大的優(yōu)勢。
全文索引技術(shù)是目前搜索引擎的關(guān)鍵技術(shù)。試想在1M大小的文件中搜索一個詞,可能需要幾秒,在100M的文件中可能需要幾十秒,如果在更大的文件中搜索那么就需要更大的系統(tǒng)開銷,這樣的開銷是不現(xiàn)實的。所以在這樣的矛盾下出現(xiàn)了全文索引技術(shù),有時候有人叫倒排文檔技術(shù)。
原理是先定義一個詞庫,然后在文章中查找每個詞條(term)出現(xiàn)的頻率和位置,把這樣的頻率和位置信息按照詞庫的順序歸納,這樣就相當于對文件建立了一個以詞庫為目錄的索引,這樣查找某個詞的時候就能很快的定位到該詞出現(xiàn)的位置。
問題在處理英文文檔的時候顯然這樣的方式是非常好的,因為英文自然的被空格分成若干詞,只要我們有足夠大的詞匯庫就能很好的處理。但是亞洲文字因為沒有空格作為斷詞標志,所以就很難判斷一個詞,而且人們使用的詞匯在不斷的變化,而維護一個可擴展的詞匯庫的成本是很高的,所以問題出現(xiàn)了。
解決出現(xiàn)這樣的問題使“分詞”成為全文索引的關(guān)鍵技術(shù)。目前有兩種基本的方法:
二元法 它把所有有可能的每兩兩漢字的組合看為一個詞組,這樣就沒有維護詞庫的開銷。
詞庫法 它使使用詞庫中的詞作為切分的標準,這樣也出現(xiàn)了詞庫跟不上詞匯發(fā)展的問題,除非你維護詞庫。
實際上現(xiàn)在很多著名的搜索引擎都使用了多種分詞的辦法,比如“正向最大匹配”+“逆向最大匹配”,基于統(tǒng)計學的新詞識別,自動維護詞庫等技術(shù),但是顯然這樣的技術(shù)還沒有做到完美。