使用記錄、鍵和/或數(shù)據(jù)字段值的重復(fù)解釋數(shù)據(jù)集合的制作方法
【專利說明】使用記錄、鍵和/或數(shù)據(jù)字段值的重復(fù)解釋數(shù)據(jù)集合
[0001]分案說明
[0002]本申請屬于申請日為2010年8月18日的中國發(fā)明專利申請N0.201080036870.4的分案申請。
技術(shù)領(lǐng)域
[0003]本描述涉及數(shù)據(jù)集合。
【背景技術(shù)】
[0004]例如,典型關(guān)系數(shù)據(jù)庫的表表示記錄的數(shù)據(jù)集合。每條記錄具有已經(jīng)針對該表所定義的字段中的數(shù)據(jù)值。每個字段針對該字段所表示的屬性可以具有最多一個值。該表具有將記錄與另一記錄明確區(qū)分的唯一鍵(unique key)。數(shù)據(jù)庫中表的關(guān)系在正常情況下是事先定義的,并且所有數(shù)據(jù)和表以共同共享的本地格式表示。除了執(zhí)行數(shù)據(jù)庫中的事務(wù)之夕卜,用戶通常能夠通過數(shù)據(jù)庫應(yīng)用所提供的界面觀看每個表的記錄,以及相關(guān)表中所包含的數(shù)據(jù)組合。
[0005]有時,企業(yè)的相關(guān)數(shù)據(jù)并沒有保存在預(yù)先定義的嚴格規(guī)范(well-disciplined)的數(shù)據(jù)庫中,而是被生成為可能具有不同的不相關(guān)格式的單獨文件、數(shù)據(jù)集合或數(shù)據(jù)流。雖然這些源中每一個的數(shù)據(jù)可以被構(gòu)建為記錄,但是例如,從記錄到字段的界定可能并沒有在源內(nèi)定義。有時,雖然相關(guān),但是不同源中的數(shù)據(jù)可能是不一致或重復(fù)的。
[0006]于2009年3月31日授權(quán)的與本專利申請同屬一家公司的美國專利7512610描述了一種對源文件、數(shù)據(jù)流或數(shù)據(jù)集合進行處理,使其數(shù)據(jù)可以作為能夠由用戶操作和分析的記錄而被可輕易訪問和可觀看的方式,其全文通過引用結(jié)合于此。
【發(fā)明內(nèi)容】
[0007]總體上,在一個方面,存在兩個或更多的數(shù)據(jù)集合。所述數(shù)據(jù)集合中的每一個包含可以被解釋為記錄的數(shù)據(jù),每條記錄具有數(shù)據(jù)字段的數(shù)據(jù)值。所述數(shù)據(jù)集合中的每一個包含至少一些與其它數(shù)據(jù)集合中的至少一個中的數(shù)據(jù)相關(guān)的數(shù)據(jù)。所述數(shù)據(jù)集合中的不同數(shù)據(jù)集合中的數(shù)據(jù)可以不同地組織或表達。所述數(shù)據(jù)集合中的每一個容許針對數(shù)據(jù)集合的記錄定義鍵。數(shù)據(jù)集合的特征在于(a)記錄、(b)鍵的部分或(C)數(shù)據(jù)字段的值實例中至少一個的重復(fù)。向用戶提供關(guān)于所述重復(fù)的至少一個的信息。
[0008]實施方式的特征可以在于以下一個或多個特征。所述數(shù)據(jù)集合中的至少一個包括具有文件格式的文件。所述數(shù)據(jù)集合中的至少兩個包括具有不同文件格式的文件。從用戶接收關(guān)于所述數(shù)據(jù)集合中的至少一個的數(shù)據(jù)可以被解釋為記錄的方式的信息,每條記錄均具有數(shù)據(jù)字段的數(shù)據(jù)值。從用戶接收能夠根據(jù)其確定所述數(shù)據(jù)集合中的每一個的鍵的信息。所述數(shù)據(jù)集合中的一個的鍵具有與所述數(shù)據(jù)集合中的另一個的鍵的定義的層級關(guān)系。記錄的重復(fù)包括所述數(shù)據(jù)集合中的一個中的重復(fù)記錄。鍵的部分的重復(fù)包括所述數(shù)據(jù)集合中的一個中的鍵值對應(yīng)于所述數(shù)據(jù)集合中的另一個的鍵的部分的兩個不同值。數(shù)據(jù)字段的值實例的重復(fù)包括兩個或更多值實例被包括在給定字段中。用戶能夠?qū)λ鰯?shù)據(jù)集合中的至少一個的記錄的值執(zhí)行標記、取消標記、過濾、取消過濾和頻率分析中的至少一種。
[0009]向用戶提供信息包括顯示該信息。顯示包括顯示所述數(shù)據(jù)集合的記錄、所述記錄的字段的標識以及數(shù)據(jù)集合中重復(fù)的指示。顯示關(guān)于重復(fù)的信息包括顯示數(shù)據(jù)字段的重復(fù)值實例。顯示關(guān)于重復(fù)的信息包括指明數(shù)據(jù)集合中存在重復(fù)記錄。顯示關(guān)于重復(fù)的信息包括指明鍵的一部分存在重復(fù)。
[0010]向用戶提供信息包括使用戶能夠創(chuàng)建包括所述數(shù)據(jù)集合的數(shù)據(jù)以及關(guān)于重復(fù)的信息的記錄的綜合文件(integrated file)。該綜合文件包含受鍵約束的記錄。該綜合文件的鍵包括數(shù)據(jù)集合的字段的層級串聯(lián)。重復(fù)數(shù)據(jù)值包括在該綜合文件的記錄的給定字段中。該綜合文件的記錄被顯示給用戶。顯示該綜合文件中的數(shù)據(jù)的視圖,該數(shù)據(jù)對應(yīng)于所述數(shù)據(jù)集合中的數(shù)據(jù),該綜合文件根據(jù)該數(shù)據(jù)集合的數(shù)據(jù)創(chuàng)建。權(quán)利要求的方法還使用戶能夠?qū)λ鰯?shù)據(jù)集合中的至少一個的記錄的值執(zhí)行標記、取消標記、過濾、取消過濾和頻率分析中的至少一種。使用戶能夠?qū)υ摼C合文件的記錄的值執(zhí)行標記、取消標記、過濾、取消過濾和頻率分析中的至少一種,該標記、取消標記、過濾和頻率分析被自動應(yīng)用于數(shù)據(jù)的其它視圖。
[0011 ]總體上,在一個方面,接收包含能夠被解釋為記錄的數(shù)據(jù)的數(shù)據(jù)集合,每條記錄均具有數(shù)據(jù)字段的數(shù)據(jù)值。該數(shù)據(jù)集合的特征在于數(shù)據(jù)字段中的至少一個的值實例的任意數(shù)目的重復(fù)。關(guān)于至少一個重復(fù)的信息被提供給用戶。該數(shù)據(jù)集合包括具有文件格式的文件。從用戶接收關(guān)于該數(shù)據(jù)集合的數(shù)據(jù)可以被解釋為記錄的方式的信息,每條記錄均具有數(shù)據(jù)字段的數(shù)據(jù)值。從用戶接收能夠根據(jù)其確定該數(shù)據(jù)集合的鍵的信息。該用戶能夠?qū)υ摂?shù)據(jù)集合的記錄的值執(zhí)行標記、取消標記、過濾、取消過濾和頻率分析。向用戶提供信息包括顯示該信息。顯示包括顯示該數(shù)據(jù)集合的記錄、該記錄的字段的標識以及數(shù)據(jù)集合中的重復(fù)的指示。顯示關(guān)于重復(fù)的信息包括顯示數(shù)據(jù)字段的重復(fù)值實例。
[0012]總體上,在一個方面,一種介質(zhì)承載數(shù)據(jù)記錄和所述記錄的鍵的綜合文件。每條記錄包含至少一個數(shù)據(jù)字段的至少一個數(shù)據(jù)值。該數(shù)據(jù)記錄包含表示至少兩個數(shù)據(jù)集合的數(shù)據(jù)的信息。所述數(shù)據(jù)集合中的每一個包含能夠被解釋為記錄的數(shù)據(jù),每條記錄均具有數(shù)據(jù)字段的數(shù)據(jù)值。所述數(shù)據(jù)集合中的每一個包含至少一些與其它數(shù)據(jù)集合中的至少一個的數(shù)據(jù)相關(guān)的數(shù)據(jù)。所述數(shù)據(jù)集合中的不同數(shù)據(jù)集合中的數(shù)據(jù)可能以不同方式組織或表達。所述數(shù)據(jù)集合中的每一個容許針對該數(shù)據(jù)集合的記錄定義鍵。所述數(shù)據(jù)集合的特征在于(a)記錄、(b)部分鍵或(C)數(shù)據(jù)字段的值實例中的至少一個的重復(fù)。該綜合文件包括識別所述重復(fù)的信息。
[0013]這些和其它方面及特征以及它們的組合可以表達為方法、過程、裝置、程序產(chǎn)品、數(shù)據(jù)庫、經(jīng)營方法、系統(tǒng)、用于執(zhí)行功能的手段,以及其它方式。
[0014]根據(jù)以下描述和權(quán)利要求,其它的優(yōu)勢和特征將是顯而易見的。
【附圖說明】
[0015]圖1是框圖。
[0016]圖2至14是截屏。
【具體實施方式】
[0017]如圖1所示,我們在這里描述了處理12諸如(但并不限于)平面文件、頂S*、MQ、ODBC和XML的獨立的數(shù)據(jù)集合、文件或數(shù)據(jù)流10(源)的方式。數(shù)據(jù)源可以(a)包含相關(guān)數(shù)據(jù),(b)具有不同的組織方案和格式,并且(C)包括重復(fù)數(shù)據(jù)。這里所描述的處理使用戶14能夠通過用戶界面16對數(shù)據(jù)顯示進行訪問、顯示、分析和操作。在一些實施方式中,至少一些處理基于由用戶提供的關(guān)于數(shù)據(jù)源的信息完成。在一些情況下,該處理提供了對數(shù)據(jù)源自身的記錄中的數(shù)據(jù)的訪問、顯示、分析和操作。在一些實施方式中,綜合文件18根據(jù)源文件創(chuàng)建并且為用戶提供了額外的訪問、顯示、分析和操作能力。所述特征可以在不需要用戶進行編程或改編的情況下提供。
[0018]這里所描述的至少一些特征的實施方式和其它實施方式在可從威斯康辛州麥迪遜的M1Soft公司獲得的被稱作Business Data Tooltm的商業(yè)產(chǎn)品中找到。該產(chǎn)品及其手冊和描述通過引用結(jié)合于此。
[0019]作為待處理的數(shù)據(jù)源的一個示例,考慮三個單獨但相關(guān)的數(shù)據(jù)集合(在這種情況下,包含在三個數(shù)據(jù)文件中),其中至少一些分別在圖2、圖3和圖4中示出。三個源數(shù)據(jù)文件的記錄分別包含關(guān)于特定計算機課程的課段教員、每門課程的名稱以及注冊了課程的學(xué)生的信息。當數(shù)據(jù)集合以預(yù)先定義的文件格式(諸如.tXt或.CSV)表達時,有時我們將該數(shù)據(jù)集合稱作文件。但是我們在這里所描述的技術(shù)寬泛地可應(yīng)用于數(shù)據(jù)能夠在其中被構(gòu)建為記錄的任意類型的數(shù)據(jù)集合、文件或數(shù)據(jù)流。在一些情況下,記錄的定界符(delimiter)在數(shù)據(jù)源中預(yù)先定義。在其它情況下,記錄及其定界符在具有或沒有用戶協(xié)助的情況下從數(shù)據(jù)源推斷出來。
[0020]我們有時以非常寬泛的含義可互換地使用文件和數(shù)據(jù)集合(和其它術(shù)語)這些詞語,以包括任意類型、源、格式、長度、大小、內(nèi)容或其它特征的數(shù)據(jù)的任意集合。數(shù)據(jù)集合可以為組織的數(shù)據(jù)陣列或未組織數(shù)據(jù)的流(或二者的組合),其能夠被解析或分析以推斷出所謂的記錄以及記錄的定界符。我們意在使短語“數(shù)據(jù)集合的記錄”非常寬泛地包括該數(shù)據(jù)集合的任意數(shù)據(jù)群組,該數(shù)據(jù)群組包含與該數(shù)據(jù)集合的字段相關(guān)聯(lián)的屬性的一個或多個值。
[0021]在該示例中,圖2示出了名為sess1ns, txt的純文本文件的數(shù)據(jù)。該文件可以被解讀為包括記錄50,其中每條記錄在字段54中包括一個值52,該字段54表示課程編號(例如69.102)和該課程的課段字母(諸如a或b,其例如可以對應(yīng)于第一課段和第二課段或者單個課段中給定的課程的兩個不同分段)的組合。第二字段58中的每條記錄的第二值56表示教員的姓名(例如,Chris Schulze)。
[0022]名為courses, csv并且在圖3中示出的第二文件以逗號分隔變量(.csv)格式表達并且具有記錄60,每條記錄60包括在一個字段62中標識課程編號的值61以及在第二字段64中表示課程名稱的相應(yīng)值63。例如,課程69.102具有名稱Data Migrator (數(shù)據(jù)迀移器)。
[0023]名為students_with_addresses.csv并且在圖4中不出的第三文件也以.csv格式表達。其許多字段(圖4中并未全部示出)包含值,除其它之外,所述值包括標識每個學(xué)生的編號70的值69 (A欄)、名字72的值(B欄)、姓氏74的值(C欄)、以波浪字符分隔的一個或多個地址76,78的值(D欄)、課程課段的標識