專利名稱::提高數(shù)據(jù)倉庫性能的方法和裝置的制作方法
技術(shù)領域:
:本發(fā)明概要地涉及數(shù)據(jù)格式化和分析,并且尤其涉及提高數(shù)據(jù)倉庫性能的方法和裝置。
背景技術(shù):
:各種類型數(shù)據(jù)的存儲、檢索和處理允許企業(yè)為了優(yōu)化性能而策劃新的業(yè)務計劃和/或調(diào)整現(xiàn)有的業(yè)務計劃。例如,無線電話公司可以管理存儲現(xiàn)有用戶信息和/或新用戶信息的數(shù)據(jù)倉庫。如果該無線公司處理這種收集到的數(shù)據(jù),可能會發(fā)現(xiàn)暗示新的市場機會和/或需要恢復和/或附加服務設備的負擔過重的市場的成長趨勢。分析在數(shù)據(jù)倉庫中存儲的業(yè)務數(shù)據(jù)可以使公司將這種數(shù)據(jù)轉(zhuǎn)化為企業(yè)智慧,更好地了解他們的客戶,和/或基于依據(jù)經(jīng)驗信息而非試探法來制定各種管理決策。非商業(yè)性組織也可以分析倉儲的數(shù)據(jù)以滿足各種設計目的。例如,政府和/或市政部門可以研究人口增長和/或人口流動,以為增加的使用更好地配備城市基礎設施和/或服務。類似地,這種人口趨勢分析能夠例示所分配的預算可以從需求較少的城市項目重新?lián)軇澋脚c高人口增長率關系密切的更優(yōu)先的項目。數(shù)據(jù)倉庫可以維持用于后序分析的數(shù)據(jù)的拷貝。數(shù)據(jù)可以包括人口數(shù)據(jù)、財務數(shù)據(jù)、商業(yè)數(shù)據(jù)、和/或行為數(shù)據(jù),比如有線電視訂閱、家庭購買行為、和/或廣播節(jié)目消費??梢园锤鞣N方式存儲數(shù)據(jù)倉庫,包括按關系數(shù)據(jù)庫、多維數(shù)據(jù)庫、平面文件、層級數(shù)據(jù)庫、對象數(shù)據(jù)庫,等等。通常創(chuàng)建根據(jù)數(shù)據(jù)倉庫產(chǎn)生的報告以揭露出對于商號、政府實體、和/或其它團體很重要的具體指標。通常,所述報告耗用限定數(shù)量的處理和存儲資源,這可能導致在存儲數(shù)據(jù)的規(guī)模增加時數(shù)據(jù)倉庫性能下降。而且,如果多個客戶在重疊的時間里從特定數(shù)據(jù)倉庫尋找報告,下降的表現(xiàn)能力可能導致令人不滿的客戶端等待時間,和/或不能以響應于客戶端迅速轉(zhuǎn)換需求的方式運行查詢。例如,一些數(shù)據(jù)倉庫可能需要多個小時的處理時間以生成給客戶的報告。如果客戶接下來為報告選擇另一組參數(shù),那么客戶必須等待大量時間以在下一時機在超負荷的數(shù)據(jù)倉庫上運行査詢。在其它時間,依據(jù)數(shù)據(jù)倉庫的處理量,處理時間可能降低,從而使得數(shù)據(jù)倉庫管理器很難對多個客戶端有效地分配和/或管理數(shù)據(jù)倉庫處理時間。圖1是例示了數(shù)據(jù)倉庫系統(tǒng)示例的結(jié)構(gòu)圖。圖2是圖1的示例數(shù)據(jù)倉庫優(yōu)化器的框圖。圖3是可執(zhí)行以實現(xiàn)圖1和2的示例數(shù)據(jù)倉庫優(yōu)化器的機器可讀指令典型示例的流程圖。圖4是可執(zhí)行以為圖3的示例指令獲取數(shù)據(jù)的機器可讀指令典型示、^5是可執(zhí)行以在圖3的示例指令中處理數(shù)據(jù)的機器可讀指令典型示例的流程圖。圖6是提高數(shù)據(jù)倉庫性能的示例數(shù)據(jù)格式器的框圖。圖7是用在圖1的示例系統(tǒng)中的示例數(shù)據(jù)倉庫架構(gòu)和對應的層級目錄路徑。圖8是可執(zhí)行以組織圖7的示例層級目錄路徑的機器可讀指令典型示例的流程圖。圖9是另一示例數(shù)據(jù)倉庫優(yōu)化器的框圖。圖10是用來執(zhí)行圖3—5和/或圖8的示例機器可讀指令以實現(xiàn)本文描述的示例系統(tǒng)和/或方法的示例處理器系統(tǒng)的結(jié)構(gòu)圖。具體實施例方式數(shù)據(jù)倉庫收集關于一個或更多興趣主題的大量信息,對興趣主題僅舉幾例,例如為消費者和/或企業(yè)的消費習慣,交易數(shù)據(jù)(例如,金融市場交易,房地產(chǎn)交易等),人口增長信息,和/或多媒體廣播收看行為。維護和控制數(shù)據(jù)倉庫設施和/或提供數(shù)據(jù)存儲、處理、分析、和/或報告生成服務的企業(yè)面臨由這一增長帶來的挑戰(zhàn)。一般而言,由于耗用數(shù)據(jù)倉庫存儲容量,需要額外的處理能力和/或處理周期以分析數(shù)量越來越多的收集數(shù)據(jù)。如本文中應用的,數(shù)據(jù)分析(處理)可以包括但不限于搜索所收集的數(shù)據(jù)參數(shù)之間的趨勢,對所收集的數(shù)據(jù)執(zhí)行統(tǒng)計功能,積累計算結(jié)果,和/或生成反映查詢結(jié)果的報告給最終用戶審査。數(shù)據(jù)倉庫的數(shù)據(jù)處理、分析和/或存儲功能競爭處理資源,從而隨著收集數(shù)據(jù)的增長使數(shù)據(jù)倉庫系統(tǒng)負擔加重。向客戶提供這種存儲和/或處理服務的數(shù)據(jù)倉庫企業(yè)有時會試圖通過向計算機服務器增加處理器、向數(shù)據(jù)倉庫系統(tǒng)增加存儲空間、和/或?qū)嵤?shù)據(jù)倉庫子系統(tǒng)來管理客戶期望。除了改變和/或更新數(shù)據(jù)倉庫基礎結(jié)構(gòu)以改善性能之外,這些數(shù)據(jù)倉庫企業(yè)也可以向他們的客戶提供關于完成報告的周轉(zhuǎn)時間的預先通知,以確??蛻舨粫H绻蛻羰孪戎蓝嚅L時間才能拿到指定的報告,則客戶期望可以與事實完全相符,從而提高客戶滿意度。然而,無論是否預先通知客戶,過長的報告生成處理時間仍可能導致客戶的不滿。此外,報告生成處理時間可能會取決于一天中不同時間的利用率,這樣的利用率會引起預計處理時間意外波動,從而難以準確地向客戶提供預先通知。為了適應不同的客戶,數(shù)據(jù)倉庫企業(yè)可以使用許多專用數(shù)據(jù)棧(datamart)。如本文中應用的,"專用數(shù)據(jù)棧"是一個或更多個集中于一個或更多個特定業(yè)務和/或主題的較小的數(shù)據(jù)庫。然而,盡管存在專用數(shù)據(jù)桟的規(guī)模小于聚集的數(shù)據(jù)倉庫的規(guī)模的事實,但是專用數(shù)據(jù)??赡茉鲩L到很大的規(guī)模,從而對報告生成和其他數(shù)據(jù)庫性能特點產(chǎn)生負面影響。本文中描述的示例方法和裝置可以用來提高數(shù)據(jù)倉庫性能??偟膩碚f,本文中示出的示例方法和裝置可以由數(shù)據(jù)倉庫就地使用,和/或作為應用編程接口(API)提供給一個或更多客戶端,以在一個或更多個人計算機、服務器、和/或其他計算平臺上運行。API可以包括圖形用戶界面(GUI),和/或數(shù)據(jù)倉庫可以響應于簡單的基于網(wǎng)絡的報告請求向他們的客戶提供全面解決方案。圖1是根據(jù)本公開的教導構(gòu)造的示例數(shù)據(jù)倉庫系統(tǒng)100的結(jié)構(gòu)圖。示例系統(tǒng)100包括饋送到數(shù)據(jù)倉庫優(yōu)化器104的輸入的數(shù)據(jù)分析指令102。數(shù)據(jù)分析指令102可以構(gòu)造為,例如,包含有關客戶端目標的詳細內(nèi)容的可擴展標記語言(XML)文件。數(shù)據(jù)分析指令102可以以任何計算機語言編寫和/或可以釆取任何替換形式,如文本文件,字符分隔的文件(characterdelimitedfile),和/或可以解析為具體的數(shù)據(jù)參數(shù)、統(tǒng)計方法,和/或報告格式參數(shù)的二進制文件,而沒有任何限制。例如,國家廣播公司客戶可以要求一份包含廣播節(jié)目、新聞事件和/或商業(yè)收視率的收視率數(shù)據(jù)的報告。此外,該廣播公司客戶可能需要以統(tǒng)計的方式分離的子報告以確定,例如,哪個年齡組別的觀眾觀看一個或多個特定的廣播節(jié)目。并且,該廣播客戶可能需要這種以統(tǒng)計的方式分離的子報告按諸如國家、地區(qū)、州、郡、和/或城市的地理界限分離收視率信息。本領域普通技術(shù)人員將能夠理解,由數(shù)據(jù)倉庫存儲和/或處理的數(shù)據(jù)不限于收視率信息,也可能包括任何類型的信息。例如,數(shù)據(jù)倉庫信息可以包括但不限于金融交易信息、人口統(tǒng)計信息、訂閱服務消費信息、醫(yī)療信息、處方藥的使用和/或供應信息、銷售信息(例如,銷售點信息)、天氣信息和/或行為信息。如下文進一步詳細討論的,所示出的示例的數(shù)據(jù)倉庫優(yōu)化器104與一個或更多數(shù)據(jù)倉庫106、108、110通信。各數(shù)據(jù)倉庫106、108、110可以包括一個或更多數(shù)據(jù)庫112以存儲一種或更多種類型的數(shù)據(jù)。在所例示的示例中,一個數(shù)據(jù)倉庫106以通訊的方式直接連接到數(shù)據(jù)倉庫優(yōu)化器104。到數(shù)據(jù)倉庫的直接連接可以通過一個或更多連接和/或通訊協(xié)議完成,該通訊協(xié)議包括但不限于通用串行總線(USB)通信協(xié)議和/或&6^^^@通信協(xié)議(即IEEE-1394)。此外,所示出的示例的數(shù)據(jù)倉庫優(yōu)化器104和數(shù)據(jù)倉庫106、108、110通過諸如內(nèi)聯(lián)網(wǎng)和/或互聯(lián)網(wǎng)的網(wǎng)絡114以通訊的方式結(jié)合。合適的網(wǎng)絡114連接包括但不限于Ethernet(以太網(wǎng))通信協(xié)議、IEEE-802.11(Wi-Fi)、Bluetooth(藍牙)、900MHz、1.6GHz和/或移動通信協(xié)議(例如,CDMA、TDMA、GSM、AMPS、EDGE等)。所示出的示例的數(shù)據(jù)倉庫優(yōu)化器104接收數(shù)據(jù)分析指令102,并響應于分析指令102從一個或更多個數(shù)據(jù)倉庫106、108、110提取相關數(shù)據(jù)。所示出的示例的數(shù)據(jù)倉庫優(yōu)化器104從一個或更多數(shù)據(jù)倉庫106、108、IIO提取(例如,復制)響應于一組給定指令102的具體數(shù)據(jù)并將所提取的數(shù)據(jù)存儲到臨時存儲器116,而不是使每一個數(shù)據(jù)倉庫106、108、110充滿數(shù)據(jù)査詢(獲取)和統(tǒng)計處理。這樣,數(shù)據(jù)倉庫優(yōu)化器104使數(shù)據(jù)倉庫106、108、110免于履行復雜的統(tǒng)計數(shù)據(jù)處理的職責,從而允許各數(shù)據(jù)倉106、108、110把重點放在數(shù)據(jù)存儲、歸檔、和響應于請求提供數(shù)據(jù)的任務上。存儲器116可以由海量存儲光、磁、和/或固態(tài)存儲器來實現(xiàn),可以用于存儲上述的可執(zhí)行API和/或從數(shù)據(jù)倉庫106、108、110收集的將用于構(gòu)建分塊統(tǒng)計(blockstatistics)的數(shù)據(jù),如下文進一步詳細討論的。雖然在圖1中僅示出了一個優(yōu)化器104,但是本領域普通技術(shù)人員將理解,可以使用多個優(yōu)化器104。所示出的示例的數(shù)據(jù)倉庫優(yōu)化器104在諸如個人計算機(PC)的計算機上實施。本領域普通技術(shù)人員將理解,計算機和/或計算機硬件的成本已經(jīng)降低,從而使個人計算機成為專門的處理任務在成本上的明智替換物。附加地或者可替換地,數(shù)據(jù)倉庫優(yōu)化器104可以在包括一個或更多個硬盤驅(qū)動器以存儲從數(shù)據(jù)倉庫106、108、110接收的所收集數(shù)據(jù)的服務器上實施。實施優(yōu)化器104的個人計算機和/或服務器可以位于或靠近數(shù)據(jù)倉庫業(yè)務設施來處理客戶端請求。可替換地,實施優(yōu)化器104的個人計算機和/或服務器可以屬于一個或更多個客戶。因此,舉例來說,數(shù)據(jù)倉庫優(yōu)化器104可以在客戶端機器上作為API執(zhí)行以創(chuàng)建和/或處理數(shù)據(jù)分析指令102。這樣的API可以出售或授權(quán)給客戶,和/或數(shù)據(jù)倉庫公司可以向客戶收取使用API的每次交易費。在圖2中更詳細地示出了示例數(shù)據(jù)倉庫優(yōu)化器104。在該例示的示例中,數(shù)據(jù)倉庫優(yōu)化器104包括通信接口202、數(shù)據(jù)檢索器204、分析器206和報告生成器208。此外,示例數(shù)據(jù)檢索器204包括結(jié)構(gòu)査詢語言(SQL)生成器210和調(diào)度器212。如上所述,通信接口202使得能夠通過專用連接、直接連接和/或諸如內(nèi)聯(lián)網(wǎng)或互聯(lián)網(wǎng)的網(wǎng)絡114來通信。至/從實施例數(shù)據(jù)倉庫優(yōu)化器104的通信可以通過網(wǎng)頁(例如,動態(tài)服務器主頁)、命令行用戶界面、圖形用戶界面和/或信息亭發(fā)生。通信接口202可以包括一個或更多個保護措施(如防火墻)來保護數(shù)據(jù)倉庫優(yōu)化器104免受未經(jīng)授權(quán)的使用和/或篡改的傷害。通過通信接口202接收比如XML文件的數(shù)據(jù)分析指令102,并將其提供給數(shù)據(jù)檢索器204。數(shù)據(jù)分析指令102可以包含針對所請求的報告的一個或更多參數(shù)、屬性、統(tǒng)計和/或格式指令。例如,數(shù)據(jù)分析指令102可以指定感興趣數(shù)據(jù)的類型和/或以下數(shù)據(jù)應當針對特定時段(例如,日,周,月等)、特定廣播節(jié)目(例如,體育比賽、電影、連續(xù)劇等)和/或特定人口群體(如兒童、青少年、成人、長者、墨西哥裔美國人、波蘭裔美國人等等)從數(shù)據(jù)倉庫中提取的數(shù)據(jù)。數(shù)據(jù)分析指令102也可以指定要從其檢索數(shù)據(jù)的特定數(shù)據(jù)倉庫106、108、110。許多數(shù)據(jù)倉庫可能包含私人的、保密的(例如,律師/客戶通信,社保號碼,銀行帳戶號碼等)和/或商業(yè)敏感的數(shù)據(jù)。因此,數(shù)據(jù)分析指令102也可包含一個或更多個驗證參數(shù)來控制對整個數(shù)據(jù)倉庫或數(shù)據(jù)倉庫的特定方面的連接和/或訪問。因此,所示出的示例的數(shù)據(jù)檢索器204可以調(diào)用通信接口202以建立用于數(shù)據(jù)傳送的連接。數(shù)據(jù)倉庫優(yōu)化器104和數(shù)據(jù)倉庫106、108、110之間的驗證可以包括,但不限于安全套接層(SSL)、數(shù)字證書、密碼保護、加密、和/或公鑰密碼法。一旦示例數(shù)據(jù)倉庫優(yōu)化器104連接到特定的數(shù)據(jù)倉庫106、108、110,SQL生成器210可以創(chuàng)建針對在數(shù)據(jù)分析指令102中標識的請求數(shù)據(jù)的查詢命令。在一些示例中,指令102可以將"情景喜劇"列為數(shù)據(jù)倉庫優(yōu)化器104分析收視率數(shù)量所針對的數(shù)據(jù)參數(shù)。類似地,指令102可以將"退休人員"列為數(shù)據(jù)倉庫優(yōu)化器104分析收視率數(shù)量所針對的另一項數(shù)據(jù)參數(shù)。然而,數(shù)據(jù)分析指令102與一個或更多數(shù)據(jù)倉庫106、108、IIO之間可能不存在確切的參數(shù)術(shù)語。這樣,數(shù)據(jù)檢索器204可以使用例如元數(shù)據(jù)解決一個或更多數(shù)據(jù)倉庫106、108、110與分析指令102之間的任何不一致。因此,例如,當示例數(shù)據(jù)分析指令102列出"情景喜劇"時,數(shù)據(jù)倉庫可能改為使用名詞"連續(xù)劇"。元數(shù)據(jù)在一個或更多名詞之間進行術(shù)語映射,使得在數(shù)據(jù)倉庫106、108、110與分析指令102之間缺乏確切的一致性不能阻礙數(shù)據(jù)處理。所示出的示例的數(shù)據(jù)檢索器通過將頻繁使用的替換術(shù)語與特定分析指令102(例如,XML文件)所采用的術(shù)語相關聯(lián)來完成元數(shù)據(jù)分解??商鎿Q地,數(shù)據(jù)分析指令可包括任何數(shù)目的術(shù)語名詞別名以與數(shù)據(jù)倉庫術(shù)語相關聯(lián),使得如果匹配分析參數(shù)與數(shù)據(jù)倉庫參數(shù)的第一次嘗試失敗,那么可以嘗試來自分析指令的替代的術(shù)語名詞。在其他示例中,數(shù)據(jù)檢索器204將數(shù)據(jù)分析指令值分解為由一個或更多個數(shù)據(jù)倉庫所采用的編碼值??梢允褂镁幋a值而不是確切值,例如以節(jié)省存儲器。例如,數(shù)據(jù)倉庫可以使用從1到4的整數(shù)范圍來代表四個不同的收入水平。值"1"可以代表$10,000和$20,000之間的收入閾值;值"2"可以代表$20,000和$40,000之間的收入閾值;值"3"可以代表$40,000禾卩$70,000之間的收入閾值;值"4"可以代表超過$70,000的收入閾值。這樣,數(shù)據(jù)檢索器204可以在例如檢索對應于1到4的特定值的條目之后,將從倉庫接收的任何數(shù)據(jù)分解(即翻譯)為關于適當收入閾值的收入欄。因此,舉例來說,如果數(shù)據(jù)分析指令僅請求$20,000與$40,000之間的閾值收入,那么在這個示例中,數(shù)據(jù)檢索器204將產(chǎn)生使用關聯(lián)值"2"的SQL查詢指令,該關聯(lián)值"2"被目標數(shù)據(jù)倉庫理解為有效査詢輸入名詞。在示出的示例中,能夠構(gòu)建調(diào)度器212以周期性地和/或非周期性地從一個或更多數(shù)據(jù)倉庫向存儲器116中復制數(shù)據(jù)分析指令102和/或構(gòu)建分塊統(tǒng)計所涉及的一些或全部數(shù)據(jù)。因此,雖然前面的示例示出了數(shù)據(jù)檢索器204響應于接收數(shù)據(jù)分析指令102而從數(shù)據(jù)倉庫獲取數(shù)據(jù),相關的數(shù)據(jù)倉庫信息(例如,一個或更多參數(shù)、屬性、統(tǒng)計和/或格式指令)可能作為在由調(diào)度器212調(diào)用的在先前周期性的、非周期性的和/或手動的數(shù)據(jù)獲取中發(fā)生的檢索結(jié)果已經(jīng)存儲在存儲器16中。因而,可能沒有必要響應于給定的指令集102來查詢一個或多個數(shù)據(jù)倉庫。如上文所討論的,當國家的大部分人可能正在收看重要事件時,比如在超級杯(SuperBowl)或奧運會期間,數(shù)據(jù)倉庫可能會遇到大量使用的時段。調(diào)度器212可在當這種大量使用不太可能發(fā)生的時段從數(shù)據(jù)倉庫檢索相關的數(shù)據(jù)(例如,為數(shù)據(jù)庫的相關部分制作副本),從而確保由于負擔較少的數(shù)據(jù)倉庫處理器導致的更快的査詢響應時間。類似地,數(shù)據(jù)倉庫的活動可能在清晨的時間較低。因此,調(diào)度器212可以被配置為每天,例如在凌晨2:00獲取(例如,制作副本)數(shù)據(jù)倉庫的一個或更多部分。在完成從一個或更多數(shù)據(jù)倉庫106、108、110中提取數(shù)據(jù)并存儲到存儲器116之后,數(shù)據(jù)倉庫優(yōu)化器104可以調(diào)用分析器206來參照數(shù)據(jù)分析指令102處理數(shù)據(jù)。可以通過數(shù)據(jù)倉庫優(yōu)化器104執(zhí)行數(shù)據(jù)分析,而不是通過要由數(shù)據(jù)倉庫106、108、110的一個或更多處理器執(zhí)行的SQL命令/指令來調(diào)用數(shù)據(jù)分析。優(yōu)化器104可以以任何所需的計算機語言編程。本領域普通技術(shù)人員將理解,Java程序是獨立平臺并且可能比其他以SQL腳本實現(xiàn)的程序執(zhí)行得更快。因此,Java特別適合用于實施部分或全部的優(yōu)化器104。所示出的示例的數(shù)據(jù)倉庫優(yōu)化器104特別適合于企業(yè)智慧(BI)報告應用。所示出的示例的優(yōu)化器104能夠在數(shù)據(jù)倉庫106、108、110的數(shù)據(jù)庫112和/或在存儲器116中的數(shù)據(jù)上直接執(zhí)行統(tǒng)計計算。當數(shù)據(jù)分析指令102的報告需求變得更加復雜并且數(shù)據(jù)庫112的數(shù)據(jù)集很大時,基于SQL的方案變得越來越效率低下和繁瑣。不同于通過使用數(shù)據(jù)倉庫優(yōu)化器104實現(xiàn)的簡單的SQL提取命令,基于SQL的計算通常需要執(zhí)行相對緩慢的多道SQL和臨時表格。此外,由于從數(shù)據(jù)倉庫106、108、110提取的數(shù)據(jù)集中于由數(shù)據(jù)分析指令102所確定的客戶特定目標,所以通過數(shù)據(jù)倉庫優(yōu)化器104的所述數(shù)據(jù)的后序數(shù)據(jù)處理執(zhí)行得較快,這是因為要分類的非相關數(shù)據(jù)較少。所示出的示例的分析器206通過處理構(gòu)建分塊統(tǒng)計(本文中也稱為一次統(tǒng)計)開始數(shù)據(jù)分析。一般來說,初級/構(gòu)建分塊統(tǒng)計可以包括基于來自數(shù)據(jù)倉庫106、108、110的直接可用數(shù)據(jù)的一個或更多計算。另一方面,綜合統(tǒng)計(本文中也稱為二次統(tǒng)計)可以部分地基于由一次統(tǒng)計所獲得的結(jié)果和/或來自數(shù)據(jù)倉庫106、108、110的附加數(shù)據(jù)來計算。構(gòu)建分塊統(tǒng)計可以通過多階段處理來生成。舉例來說,一個或更多個分組和組織的初步階段使得后序的綜合統(tǒng)計計算成為可能。例如,構(gòu)建分塊統(tǒng)計可以包括,但不限于觀看特定廣播節(jié)目的觀眾總數(shù),全國范圍的廣播節(jié)目收視率直方圖,廣播節(jié)目在各州的平均收視率等。如上文所討論的,雖然本文中示出的示例特別針對廣播節(jié)目和/或收視率,但是本文中描述的系統(tǒng),方法和裝置可以不限于此而應用于任何類型的數(shù)據(jù)倉庫主題事項。構(gòu)建分塊統(tǒng)計還可以包括信息的離散桶(discretebuckets)和包含于其中的一個或更多個子群的分類。例如,可以根據(jù)所收集的數(shù)據(jù)來計算"人口統(tǒng)計"類型的桶。對于任何特定的數(shù)據(jù)樣本大小,比如某一天,多天,周,和/或月,人口統(tǒng)計桶可以包含不同的人口統(tǒng)計子群。例如,周末期間的數(shù)據(jù)樣本可能包括具有相對更大比例的成年男性在下午時段觀看電視節(jié)目的人口統(tǒng)計桶。作為另一個示例,工作日期間的數(shù)據(jù)樣本可能包括具有相對更大比例的40—60歲的婦女在下午時段觀看電視節(jié)目的人口統(tǒng)計桶。元數(shù)據(jù)還允許數(shù)據(jù)倉庫優(yōu)化器104確定從數(shù)據(jù)倉庫106、108、110獲得哪些數(shù)據(jù)。在一些示例中,元數(shù)據(jù)包含有事實和星型架構(gòu)的維度之間的關系。這種關系允許示例數(shù)據(jù)檢索器204的SQL生成器210生成適當?shù)幕赟QL的提取命令。在另一個示例中,數(shù)據(jù)倉庫優(yōu)化器104通過分析器206檢査按照數(shù)據(jù)分析指令102生成的綜合統(tǒng)計。此外,元數(shù)據(jù)可以基于所請求的綜合統(tǒng)計確定計算綜合統(tǒng)計需要哪些構(gòu)建分塊統(tǒng)計。另一方面,綜合統(tǒng)計可以使用一些或全部的構(gòu)建分塊統(tǒng)計。這種綜合統(tǒng)計可以在構(gòu)建分塊階段之后的一個或更多處理階段期間由所示出的示例的分析器206來計算。例如,綜合統(tǒng)計可以包括確定在$70,000或以上的收入閾值中在工作日觀看電視的40—60歲婦女的百分比。在這一示例中,綜合統(tǒng)計基于下述內(nèi)容的分塊統(tǒng)計(1)40—60歲的婦女,以及(2)有$70,000或以上收入的婦女。在其它示例中,綜合統(tǒng)計可以包括確定在給定的周末期間成年男性觀看足球?qū)W運會的相對百分比收視率。這種綜合統(tǒng)計可以基于一個或更多個構(gòu)建分塊統(tǒng)計。所示出的示例的報告生成器208利用在數(shù)據(jù)分析指令102中指定的報告格式參數(shù)和/或默認參數(shù)向客戶端提供處理后的數(shù)據(jù)結(jié)果。可以按一種或更多種格式提供報告,包括但不限于制表符分隔文件、電子表格、圖表、直方圖、餅形圖和/或趨勢分析曲線。所示出的示例的報告生成器208可以附加地或可替換地調(diào)用通信接口202的網(wǎng)絡服務器以成網(wǎng)絡瀏覽器可見格式的這種報告信息。在圖3至圖5中示出了可被執(zhí)行以實現(xiàn)圖1和/或圖2的示例數(shù)據(jù)倉庫優(yōu)化器104的示例機器可讀指令的典型流程圖。在這些示例中,由各個流程圖表示的機器可讀指令可以包含由以下執(zhí)行的一個或更多程序(a)處理器,如圖10(b)中的處理器1012,(b)控制器,和/或(c)任何其它適合的設備。所述一個或更多程序能夠具體表現(xiàn)為存儲于例如存儲器116(見圖1)的有形介質(zhì)上的軟件,但是本領域普通技術(shù)人員將容易理解,另外一個或多個程序的全部和/或他們的一部分能夠由除處理器1012以外的設備執(zhí)行和/或?qū)嵤楣碳驅(qū)S糜布?例如,利用專用集成電路(ASIC)、可編程邏輯器件(PLD),現(xiàn)場可編程邏輯器件(FPLD)、離散邏輯等來實施)。例如,能夠用軟件、硬件和/或固件的任意組合實施處理器1012、1/0控制器1012、存儲器控制器1020和/或網(wǎng)絡接口1030。并且,由圖3到圖5的流程圖表示的部分或全部塊可以手動地實施。此外,盡管參照圖3到圖5的流程圖描述了示例機器可讀指令,但是本領域普通技術(shù)人員將容易理解,另外也能夠使用實現(xiàn)本文中描述的示例方法和裝置的許多其它技術(shù)。例如,參照圖3到圖5的流程圖,可以改變塊的執(zhí)行順序,和/或可以將所描述的一些塊改變、去掉、組合和/或再分割為多個塊。參見圖3,數(shù)據(jù)倉庫優(yōu)化器104的通信接口202可以接收例如文本文件、二進制文件、XML文件、或其它指令格式的形式的分析指令102(塊302)。如果分析指令102需要來自一個或更多數(shù)據(jù)倉庫的數(shù)據(jù)(塊304),那么數(shù)據(jù)倉庫優(yōu)化器104的SQL生成器210和數(shù)據(jù)檢索器204從所述倉庫獲取相關數(shù)據(jù)(塊306),如下文參照圖4所討論的。如果分析指令102僅需要本地存儲的數(shù)據(jù)(例如,由調(diào)度器212從倉庫預先檢索的數(shù)據(jù))(塊304),那么數(shù)據(jù)倉庫優(yōu)化器104的分析器206處理存儲在本地存儲器116中的數(shù)據(jù)(塊30S)。如果通過數(shù)據(jù)倉庫優(yōu)化器104沒有接收到分析指令102(塊302),那么數(shù)據(jù)倉庫優(yōu)化器104的調(diào)度器212確定是否已經(jīng)達到預定的獲取時間(塊310)。如上文所討論的,在(完整地或部分地)實施數(shù)據(jù)倉庫的示例中,調(diào)度器212可以被配置為每天凌晨2:00査詢和獲取在倉庫的相關部分中發(fā)現(xiàn)的任何新數(shù)據(jù)的拷貝(塊306)。如果獲取時間還沒有發(fā)生(塊310),那么控制返回塊302。如果獲取時間已經(jīng)發(fā)生(塊310),調(diào)用請求對應的相關數(shù)據(jù)的請求(塊312)。返回塊308,在己經(jīng)按照分析指令102處理數(shù)據(jù)(塊308,如參照圖5進一步討論的)之后,報告生成器208為客戶端生成報告(塊314)。然后控制返回塊302。圖4是例示了實現(xiàn)圖3的塊306和312的示例方式的流程圖。如果所提供的指令指定了一個或多個特定的數(shù)據(jù)倉庫(塊402),那么通信接口202通過驗證協(xié)議與那些數(shù)據(jù)倉庫106、108、IIO建立連接(塊404)。另一方面,如果分析指令102未標識一個或更多特定的數(shù)據(jù)倉庫(塊402),那么處理306可以用本地存儲器116中的數(shù)據(jù)繼續(xù)進行和/或數(shù)據(jù)檢索器204可以從己知包含與所述指令有關的數(shù)據(jù)的一個或更多數(shù)據(jù)倉庫連接、驗證、和/或獲取數(shù)據(jù)(塊406)。如上文所討論的,因為數(shù)據(jù)倉庫106、108、IIO可以采用與分析指令102所采用的術(shù)語不同的參數(shù)術(shù)語,所以數(shù)據(jù)檢索器204可以通過元數(shù)據(jù)解決這種差異(塊40S)。然后將由SQL生成器210產(chǎn)生的査詢發(fā)送到遠程和/或本地數(shù)據(jù)源(例如,本地存儲器U6和/或一個或更多倉庫106、108、110)(塊409)。然后將由數(shù)據(jù)源返回的數(shù)據(jù)存儲在存儲器116中的數(shù)據(jù)工作文件中(塊410),其可以包含一個或更多參數(shù)數(shù)據(jù)、一個或更多屬性、一個或更多統(tǒng)計、一個或更多構(gòu)建分塊統(tǒng)計、和/或一個或更多格式指令。圖5是例示了實施圖3的塊308的示例方式的流程圖。如上文所討論的,數(shù)據(jù)分析指令102可以包括使用從數(shù)據(jù)倉庫106、108、110提取的數(shù)據(jù)計算的一個或更多統(tǒng)計公式。可替換地,分析器206可以包括默認公式。分析器206檢索在圖4的塊410存儲的工作文件并生成要根據(jù)分析指令102處理的任何構(gòu)建分塊統(tǒng)計(塊502)。為了以后的使用,可以將這種構(gòu)建分塊統(tǒng)計存儲在存儲器116中。然后分析器206參照所接收的目標參數(shù)處理構(gòu)建分塊統(tǒng)計(塊504)。可以將構(gòu)建分塊統(tǒng)計用作一個或更多其它統(tǒng)計計算的基礎,該一個或更多其它統(tǒng)計計算涉及在存儲器116中存儲的所獲取的數(shù)據(jù)的目標參數(shù)的更大復雜性、附加組合、禾口/或交錯置換。這樣,可以按一個或更多批次/分組計算構(gòu)建分塊統(tǒng)計。一旦完成在分析指令102中標識的任何一個特定的構(gòu)建分塊統(tǒng)計,分析器206確定分析指令102是否包括附加的構(gòu)建分塊統(tǒng)計指令(塊506)。如果要計算更多的構(gòu)建分塊統(tǒng)計,則控制返回塊502。否則,分析器206從分析指令102和/或從與分析器206相關聯(lián)的默認指令中(例如,從XML文件中)檢索綜合統(tǒng)計指令(塊50S)。如上文所討論的,可以通過使用較早計算的構(gòu)建分塊統(tǒng)計來部分地計算綜合統(tǒng)計。分析器206參照目標參數(shù)和/或先前計算的構(gòu)建分塊統(tǒng)計結(jié)果來處理這種綜合統(tǒng)計(塊510)。與構(gòu)建分塊統(tǒng)計很相像,可以按一個或更多批次和/或分組計算綜合統(tǒng)計。一旦完成任何一個特定的綜合統(tǒng)計指令,分析器確定分析指令是否包括附加的綜合統(tǒng)計指令(塊512)。如果要計算更多的綜合統(tǒng)計指令,那么處理控制返回塊508。除了以基于SQL的方式進行復雜的統(tǒng)計計算、分類和/或分組的傳統(tǒng)BI報告方法之外,采用所示出的示例的數(shù)據(jù)倉庫優(yōu)化器104允許高度擴展的其它選擇。數(shù)據(jù)倉庫106、108、110通常為昂貴的整體式服務器,其需要大量的費用升級。鑒于上述披露的數(shù)據(jù)檢索、分組和統(tǒng)計計算的方案,更便宜的PC可能會被以可擴展方式來使用以比現(xiàn)有技術(shù)更快地生成客戶端報告。本領域普通技術(shù)人員將理解,可以使用其他的編程語言來實施數(shù)據(jù)倉庫優(yōu)化器104的全體或部分。這種編程語言可能包括,但不限于ASNI、C、C十+和/或C弁。為了更有效地存儲和訪問從一個或更多個倉庫獲得的數(shù)據(jù),示例系統(tǒng)還可以設置有數(shù)據(jù)格式器600,如圖6中所示。示例數(shù)據(jù)格式器600可實現(xiàn)為圖2的數(shù)據(jù)檢索器204的一部分,和/或作為數(shù)據(jù)倉庫優(yōu)化器104的單獨模塊來工作。不限于此,示例數(shù)據(jù)格式器600可以與數(shù)據(jù)倉庫優(yōu)化器104完全地分離,和/或在將數(shù)據(jù)倉庫106、108、110信息存儲到存儲器116之前對數(shù)據(jù)倉庫106、108、110信息執(zhí)行數(shù)據(jù)格式化技術(shù)。圖6的示例數(shù)據(jù)格式器600包括通信接口602(或可以共享圖2的通信接口202)、調(diào)度器604(其可以是圖2的調(diào)度器212)、數(shù)據(jù)倉庫提取器606、組織器608,壓縮引擎610和存儲器612。存儲器612可以在示例數(shù)據(jù)格式器600外部,可以訪問圖1中所示的示例存儲器116,和/或可以由存儲器116來實施。通信接口602以類似于圖2的通信接口202的方式工作。例如,通信接口602使數(shù)據(jù)格式器600與一個或更多數(shù)據(jù)倉庫(例如圖1中所示的倉庫106、108、110)之間能夠通信。通信可以網(wǎng)絡連接發(fā)生,該網(wǎng)絡連接采用Etheme俾通信協(xié)議、正EE-802.11(Wi-Fi)、Bluetooth(藍牙),900MHz、1.6GHz禾口/或移動通信協(xié)議(例如,CDMA、TDMA、GSM、AMPS、EDGE等)。附加地或可替換地,到/來自示例數(shù)據(jù)格式器600的通信可以通過采用通用串行總線(USB)通信協(xié)議、和/或FireWire⑧通信協(xié)議(例如IEEE-1394)的直接連接發(fā)生。通過通信接口602從數(shù)據(jù)倉庫106、108、110接收的數(shù)據(jù)可發(fā)送到以下中任意之一/由以下中任意之一發(fā)送調(diào)度器604、數(shù)據(jù)倉庫提取器606、組織器608、壓縮引擎610和/或存儲器612。存儲在數(shù)據(jù)倉庫中的數(shù)據(jù)可以采取一種或更多格式,這些格式包括脫tL操作數(shù)據(jù)庫、脫機數(shù)據(jù)倉庫、實時數(shù)據(jù)倉庫和/或集成數(shù)據(jù)倉庫。數(shù)據(jù)倉庫的數(shù)據(jù)源可以指信息的任何電子儲存庫,并可以包括主機數(shù)據(jù)庫(例如,IBMSDB2、VSAM、ISAM、Adabas等),客戶端服務器數(shù)據(jù)庫(例如,Oracle,Informix,SQLServer(SQL服務器)等),和/或PC數(shù)據(jù)庫(例如,Microsoft,Access)。數(shù)據(jù)倉庫通常存儲通過可以按反映數(shù)據(jù)的通常用途的主題區(qū)域(例如,消費者、產(chǎn)品、金融等)集合在一起的數(shù)據(jù)。這種集合可以包括使用維度方案(dimensionalapproach),在該方案中將信息作為可以是針對交易和/或事件的數(shù)字或文本數(shù)據(jù)的事實來存儲。附加地或可替換地,維度(例如,數(shù)據(jù)庫/倉庫結(jié)構(gòu)的架構(gòu)要素)可以包含允許對交易以不同方式進行分類的參考信息。例如,銷售交易可以被分解為包括許多所定購產(chǎn)品的數(shù)量和所支付價格的事實。另外,維度可以包括其它因素,比如銷售日期、消費者信息、產(chǎn)品細節(jié)、銷售的地理位置、以及由哪個銷售員進行銷售。雖然數(shù)據(jù)倉庫優(yōu)化器104和數(shù)據(jù)格式器600能夠就任何數(shù)據(jù)庫架構(gòu)工作,出于例示的目的,下面將討論星型架構(gòu)。星型架構(gòu)包括具有復合主關鍵字(例如,佛羅里達收視率6-20-06,如圖7中所示)的單一事實表(facttable)。該事實表包含關于例如公司和/或其它組織感興趣的主題的定量數(shù)據(jù)或事實數(shù)據(jù)。事實表的每個不同的關鍵字(例如,圖7的節(jié)目ID禾tV或住戶)包括對應的維度表(dimensiontable),該維度表可以包括實施例業(yè)務的事實和/或不同屬性的附加欄??梢栽谥芷诘?、非周期的和/或預定的基礎上由調(diào)度器604調(diào)用通信接口602以連接一個或更多數(shù)據(jù)倉庫。許多數(shù)據(jù)倉庫包含敏感數(shù)據(jù)和/或私人數(shù)據(jù)。因此,這種倉庫可以在訪問和/或提取包含于其中的數(shù)據(jù)之前要求驗證。數(shù)據(jù)格式器600和數(shù)據(jù)倉庫106、108、110之間的驗證可以包括,但不限于安全套接協(xié)議層(SSL)、數(shù)字證書、密碼保護、加密、和/或公鑰密碼法。一旦數(shù)據(jù)格式器600連接到一個或更多特定的數(shù)據(jù)倉庫106、108、110,數(shù)據(jù)倉庫提取器606構(gòu)建一個或更多個查詢命令,比如基于SQL的提取命令,以從數(shù)據(jù)倉庫獲得數(shù)據(jù)。來自數(shù)據(jù)倉庫提取器606的提取命令通常以基本無差別的方式工作并根據(jù)興趣時段(例如,特定日子、根據(jù)多個日子、根據(jù)特定周,和/或根據(jù)任何其它時間范圍)獲取所有的數(shù)據(jù)。不限于此,數(shù)據(jù)倉庫提取器606能夠以更有識別力的方式構(gòu)建提取命令,該方式可以要求更大復雜性的基于SQL的提取命令。例如,數(shù)據(jù)倉庫提取器606可以回顧和/或解析全部或部分數(shù)據(jù)分析指令102,以獲取應當從數(shù)據(jù)倉庫106、108、110提取的特定參數(shù)。可以將從所述數(shù)據(jù)倉庫提取的數(shù)據(jù)保存在存儲器612中用于后面的組織,和/或組織可以在數(shù)據(jù)提取處理期間實時地發(fā)生?;趶钠浍@取了數(shù)據(jù)的數(shù)據(jù)倉庫106、108、110的結(jié)構(gòu)(域特定細節(jié)),組織器608創(chuàng)建層級目錄文件路徑結(jié)構(gòu)。例如,在用于數(shù)據(jù)倉庫106、108、110的星型構(gòu)架構(gòu)造中,每個維度建模為目錄。如上所述,維度可以是數(shù)據(jù)庫和/或倉庫的一個或更多個結(jié)構(gòu)構(gòu)架元素,并且各維度可以具有一個或更多數(shù)據(jù)欄。例如,產(chǎn)品的維度可以包括涉及產(chǎn)品標識、產(chǎn)品成本、產(chǎn)品尺寸等的欄。每個維度目錄可以包含許多針對維度的每個欄的單獨目錄。通常來講,組織器608可以創(chuàng)建與數(shù)據(jù)倉庫106、108、110的最頂級(例如,最寬泛的,最概括的)提取相關聯(lián)的第一層級目錄文件路徑。并且,組織器608可以創(chuàng)建與數(shù)據(jù)倉庫106、108、110的比第一層級目錄文件路徑的提取更狹窄的一個或更多個提取相關聯(lián)的第二層級目錄文件路徑。實施例組織器608可以創(chuàng)建任意數(shù)量的附加層級目錄文件路徑以適應一個或更多個數(shù)據(jù)倉庫。在給定維度的每個欄之下是包含維度關鍵字到標識符(ID)數(shù)據(jù)(例如,"id.bin")的映射的第一二進制文件。每個關鍵字(例如,如產(chǎn)生維度表的事實的一個或更多個關鍵字)是維度的主關鍵字,而ID是代表那一欄的值的數(shù)字。每欄還包括包含ID數(shù)據(jù)到值(例如,"valuemap.bin")的映射的第二二進制文件。使用這兩種文件允許通過以順序的方式對文件映射層級從頭至尾進行依次映射推導一定關鍵字的欄的實際值(例如,通過基于數(shù)據(jù)分析指令102的查詢)。例如,如果事實表包括名稱為"住戶"的關鍵字并且住戶維度表包括名稱為"收入"的關鍵字,那么用于査詢的關聯(lián)值可以通過遵循合乎邏輯的層級目錄路徑"DIM/住戶/收入"來確定,以檢索對應值(例如,圖7中的value_ll.bin)。本文中描述的一個或更多個層級目錄路徑的游歷還減少和域消除在訪問數(shù)據(jù)時對SQL命令的需要。結(jié)果,能夠通過使用例如網(wǎng)頁瀏覽器、信息亭、和/或目錄樹的目錄游歷來簡化數(shù)據(jù)訪問。一旦由組織器608完成層級目錄結(jié)構(gòu),壓縮引擎610可以壓縮所有的二進制文件以節(jié)約存儲空間。壓縮技術(shù)可以包括,但不限于收縮(shrinking)方法、減小(reducing)方法、爆聚(imploding)方法,和/或令牌化(tokenizing)方法。可以采用ZIP文件格式以利用其開放的格式和豐富的實用性。壓縮引擎610也可以將整個層級目錄壓縮為帶有日期關鍵字文件名(比如下面在圖7中例示的"Juliandatecode(Julian日期碼)")的單一ZIP文件。圖7示出了示例星型架構(gòu)702和由數(shù)據(jù)格式器600創(chuàng)建的示例層級目錄路徑704。示例星型架構(gòu)702包括具有標注為"節(jié)目ID"708以及"住戶"710的關鍵字(例如,每一個與一個維度相關聯(lián)的主關鍵字)的事實表"佛羅里達收視率6/20/06"706。該事實表包括作為數(shù)據(jù)的"觀眾數(shù)"712。另外,示例星型架構(gòu)702包括針對事實表706的各關鍵字708、710的對應維度表。特別是,示例星型架構(gòu)702包括"節(jié)目ID"維度表714以及"住戶"維度表716。"節(jié)目ID"維度表714包括附加的維度關鍵字"世界杯"718、"PGA巡回賽"720、"《我們的生活》"722和"《海綿寶寶》"724。類似地,"住戶"維度表716包括維度關鍵字"成人"726、"年輕人"728、"兒童"730、"TV數(shù)"732和"收入"734。示例數(shù)據(jù)格式器600以反映數(shù)據(jù)倉庫結(jié)構(gòu)的方式創(chuàng)建層級目錄路徑704,其在圖7的所例示示例中是星型架構(gòu)。特別是,數(shù)據(jù)格式器600的組織器608創(chuàng)建事實表路徑736、"節(jié)目ID"維度表路徑738以及"住戶"維度表路徑740。如上所述,每個對應的目錄包括含有映射和/或數(shù)據(jù)信息的關聯(lián)二進制文件(欄742)。示例層級目錄路徑704也包括對于"節(jié)目ID"和"住戶"維度表714、716的單獨目錄標簽路徑744。例如,一旦游歷到目錄路徑704的最頂級維度表路徑(例如,738或740)之一,對應二進制文件(欄742)可以包含映射信息以說明可以對其進行游歷的附加路徑。因而,游歷至與二進制文件(例如,維度映射文件)"valuel.bin"相關聯(lián)的"NMRXDI她節(jié)目ID",提供映射信息以允許游歷到目錄標簽路徑744的一個或更多二進制文件。最終,目錄游歷可以包括任意數(shù)量的嵌套目錄路徑,順序地訪問每一個以提供附加的映射信息(例如,一個或更多游歷選項),和/或數(shù)據(jù)(例如,收視率信息)。在圖7的所例示示例中,第一層級目錄文件路徑包括事實表路徑736、第二層級目錄文件路徑包括維度表路徑"NMRXDIMV節(jié)目ID"738或者"NMRADIMV(主戶"740,并且第三層級目錄文件路徑可以包括目錄標簽路徑744中任何一個。當組織器608完成層級目錄路徑704時,壓縮引擎可以將目錄保存為ZIP文件746。圖8是示出了從數(shù)據(jù)倉庫800檢索和格式化數(shù)據(jù)的示例處理的流程圖。如上所述,調(diào)度器604可以被配置為以周期性的和/或非周期性的方式從數(shù)據(jù)倉庫106、108、110獲取數(shù)據(jù)(塊802)。附加地或可替換地,可以通過例如客戶端、用戶、和/或數(shù)據(jù)獲取及報告生成業(yè)務的管理器手動地調(diào)用數(shù)據(jù)的獲取(塊804)。在從一個或更多數(shù)據(jù)倉庫106、108、110獲取數(shù)據(jù)之前,通信接口602連接到目標數(shù)據(jù)倉庫106、108、110并作為安全措施驗證該連接(塊806)以維持數(shù)據(jù)完整性(塊806)。所示出的示例的數(shù)據(jù)倉庫提取器606構(gòu)建針對目標數(shù)據(jù)倉庫106、108、IIO的查詢命令(塊808)以檢索數(shù)據(jù),比如基于SQL的命令。例如,數(shù)據(jù)倉庫提取器606可以構(gòu)建具有最小規(guī)范約束的簡單的基于SQL的數(shù)據(jù)提取命令,比如請求針對特定小時、若干小時的范圍、天、若干天的范圍、周等的所有數(shù)據(jù)。然后執(zhí)行查詢命令(塊SIO)并且將從數(shù)據(jù)倉庫返回的數(shù)據(jù)存儲到存儲器612(塊810)。組織器608將所接收的數(shù)據(jù)安排(塊812)到一個或更多層級目錄路徑704中,其反映起源的數(shù)據(jù)倉庫106、108、110的域特定細節(jié)(domainspecificdetails)。如上所述,雖然所示出的示例采用星型架構(gòu)格式,但是本文中所描述的系統(tǒng)和方法不限于此,而可以適應任何數(shù)據(jù)庫架構(gòu)。一旦完成層級目錄路徑組織(塊812),壓縮引擎可以將目錄壓縮為,例如,ZIP文件(塊814)。然后控制返回塊802。圖9示出了另一示例數(shù)據(jù)倉庫優(yōu)化器904。如上所述,雖然通過將數(shù)據(jù)倉庫從與統(tǒng)計計算相關聯(lián)的任何任務中部分地解除出來,和/或通過以Java取代基于SQL的命令進行這種報告生成處理,圖1和2的示例數(shù)據(jù)倉庫優(yōu)化器104與SQL數(shù)據(jù)庫引擎相比,報告生成時間提高到十倍,但是還可以通過加入數(shù)據(jù)格式器600來實現(xiàn)額報告生成時間的附加提高。圖9的示例數(shù)據(jù)倉庫優(yōu)化器904可以使用示例層級目錄路徑704以按大約一百的系數(shù)來提高報告生成時間消耗,而不是調(diào)用針對數(shù)據(jù)倉庫數(shù)據(jù)的基于SQL的查詢命令。除了數(shù)據(jù)檢索器204中附加的數(shù)據(jù)格式器600,圖9的示例數(shù)據(jù)倉庫優(yōu)化器904本質(zhì)上與圖2的示例數(shù)據(jù)倉庫優(yōu)化器204相同。在圖9中以與圖2和6中同樣的標號來標識相似的部件,并不再對其做進一步討論。圖10是可用來執(zhí)行圖3-5和圖8的示例機器可讀指令以實現(xiàn)本文中描述的示例系統(tǒng)和/或方法的示例處理器系統(tǒng)1010的結(jié)構(gòu)圖。如圖10中所示,處理器系統(tǒng)IOIO包括連接到互連總線1014的處理器1012。處理器1012包括寄存器組或寄存器空間1016,其在圖10中被描述為完全芯片級(on-chip),但是可選地,其能夠完全或部分位于芯片外并且通過專用電連接和/或通過互連總線1014直接結(jié)合到處理器1012。處理器1012可以是任何適用的處理器、處理單元或微處理器。盡管在圖10中沒有示出,但是系統(tǒng)1010可以是多處理器系統(tǒng),并且因而可以包括與處理器1012相同或相似并以通信的方式結(jié)合到互連總線1014的一個或更多附加處理器。.將圖10的處理器1012結(jié)合到芯片集1018,芯片集1018包括存儲器控制器1020和輸入/輸出(I/O)控制器1022。眾所周知,芯片集通常提供I/O和存儲器管理功能以及多個通用和/或?qū)S眉拇嫫?、計時器等,它們能夠由結(jié)合到芯片集1018的一個或更多個處理器訪問或使用。存儲器控制器1020執(zhí)行使處理器1012(或多個處理器,如果存在多個處理器)能夠訪問系統(tǒng)存儲器1024和海量存儲的存儲器1025的功能。系統(tǒng)存儲器1024可以包括任何所需類型的易失和/或非易失存儲器,例如,靜態(tài)隨機存取存儲器(SRAM)、動態(tài)隨機存取存儲器(DRAM)、閃存、只讀存儲器(ROM)等。海量存儲的存儲器1025可以包括任何所需類型的海量存儲裝置,包括硬盤驅(qū)動器、光驅(qū)、磁帶存儲裝置等。I/O控制器1022執(zhí)行使處理器1012能夠通過I/O總線1032與外圍輸入/輸出(I/O)設備1026和1028以及網(wǎng)絡接口1030通信的功能。I/O設備1026和1028可以是任何所需類型的I/O設備,例如,鍵盤、視頻顯示器或監(jiān)視器、鼠標等。網(wǎng)絡接口1030可以是使處理器系統(tǒng)1010能夠與另一處理器系統(tǒng)通信的設備,例如,以太網(wǎng)設備、異步傳輸模式(ATM)設備、802.11設備、數(shù)字用戶線路(DSL)調(diào)制解調(diào)器、纜線調(diào)制解調(diào)器、蜂窩調(diào)制解調(diào)器等。雖然存儲器控制器1020和I/O控制器1022在圖10中描述為芯片集1018中獨立的功能模塊,但是由這些模塊執(zhí)行的功能可以集成在單一半導體電路中或者可以用兩個或更多獨立集成電路來實施。盡管本文中己經(jīng)描述了特定的方法、裝置、系統(tǒng)和制品,但本專利覆蓋的范圍不限于此。相反,本專利涵蓋完全落入所附權(quán)利要求在字面上或依據(jù)其等同物原理的范圍內(nèi)的所有方法、裝置、系統(tǒng)和制品。權(quán)利要求1、一種對從數(shù)據(jù)倉庫所接收的數(shù)據(jù)進行格式化的方法,該方法包括以下步驟接收分析指令;基于所述分析指令從所述數(shù)據(jù)倉庫檢索數(shù)據(jù);以及將映射文件與事實表相關聯(lián),該映射文件存儲在第一層級目錄文件路徑中。2、如權(quán)利要求1中所限定的方法,其中所述事實表包括與維度表相關聯(lián)的主關鍵字,該維度表與第二層級目錄文件路徑中存儲的維度映射文件相關聯(lián)。3、如權(quán)利要求2中所限定的方法,其中所述維度表包括維度關鍵字,該維度關鍵字與存儲在第三層級目錄文件路徑中的數(shù)據(jù)文件相關聯(lián)。4、如權(quán)利要求3中所限定的方法,該方法還包括壓縮所述第一層級目錄文件路徑,所述第二層級目錄文件路徑和所述第三層級目錄文件路徑。5、如權(quán)利要求3中所限定的方法,該方法還包括通過從所述第一層級目錄文件路徑到所述第二層級目錄文件路徑,再到所述第三層級目錄文件路徑的順序游歷,來發(fā)起數(shù)據(jù)查詢。6、如權(quán)利要求1中所限定的方法,該方法還包括基于存儲在所述第一層級目錄文件路徑中的所述映射文件來定位第二層級目錄文件路徑。7、如權(quán)利要求6中所限定的方法,該方法還包括基于存儲在所述第二層級目錄文件路徑中的映射文件來定位第三層級目錄文件路徑。8、如權(quán)利要求7中所限定的方法,其中所述第三層級目錄文件路徑包含與所述第一層級目錄文件路徑,所述第二層級目錄文件路徑和所述第三層級目錄文件路徑相關聯(lián)的查詢數(shù)據(jù)。9、如權(quán)利要求1中所限定的方法,該方法還包括基于所檢索的數(shù)據(jù)計算一次統(tǒng)計。10、如權(quán)利要求9中所限定的方法,其中所述一次統(tǒng)計包括以下中至少之一執(zhí)行一行為的實體的總數(shù),在一位置執(zhí)行該行為的實體的平均數(shù),或者在一時間段內(nèi)執(zhí)行該行為的實體的總數(shù)。11、如權(quán)利要求10中所限定的方法,其中所述執(zhí)行一行為的實體的總數(shù)包括觀看媒體節(jié)目的觀眾的總數(shù)。12、如權(quán)利要求9中所限定的方法,該方法還包括至少基于所述一次統(tǒng)計來計算二次統(tǒng)計。13、如權(quán)利要求9中所限定的方法,該方法還包括至少基于所述一次統(tǒng)計和所檢索的數(shù)據(jù)來計算二次統(tǒng)計。14、如權(quán)利要求1中所限定的方法,其中從所述數(shù)據(jù)倉庫檢索數(shù)據(jù)的步驟包括以下步驟在預定時間或周期性間隔中的至少之一期間處理所述分析指令。15、如權(quán)利要求1中所限定的方法,其中所述分析指令包括檢索以下至少之一的指令收視成員媒體觀看數(shù)據(jù),廣播節(jié)目收視率數(shù)據(jù),或人口統(tǒng)計收視率數(shù)據(jù)。16、一種對從數(shù)據(jù)倉庫接收的數(shù)據(jù)進行格式化的裝置,該裝置包括通信接口,其接收分析指令并與至少一個數(shù)據(jù)倉庫以通信的方式連接;數(shù)據(jù)檢索器,其從所述數(shù)據(jù)倉庫檢索數(shù)據(jù),該數(shù)據(jù)檢索器包括生成查詢請求的數(shù)據(jù)庫查詢引擎;存儲器,其存儲所檢索的數(shù)據(jù);以及數(shù)據(jù)格式器,其創(chuàng)建在所述存儲器中存儲的所述數(shù)據(jù)的層級目錄文件路徑結(jié)構(gòu),該數(shù)據(jù)格式器創(chuàng)建與映射文件相關聯(lián)的第一層級目錄文件路徑,和與第二映射文件或數(shù)據(jù)文件中至少之一相關聯(lián)的第二層級目錄文件路徑。17、如權(quán)利要求16中所限定的裝置,其中所述第一層級目錄文件路徑包括與所述映射文件相關聯(lián)的事實表路徑。18、如權(quán)利要求17中所限定的裝置,其中所述第二層級目錄文件路徑包括與所述第二映射文件或所述數(shù)據(jù)文件中至少之一相關聯(lián)的維度表路徑。19、如權(quán)利要求16中所限定的裝置,該裝置還包括分析器,該分析器響應于查詢,順序地分別游歷所述第一層級目錄文件路徑和第二層級目錄文件路徑,以在存儲于所述存儲器中的所檢索的數(shù)據(jù)中識別各自的雙慨。20、如權(quán)利要求16中所限定的裝置,該裝置還包括壓縮引擎,該壓縮引擎壓縮所述第一層級目錄文件路徑和所述第二層級目錄文件路徑,并且還壓縮與所述第一層級目錄文件路徑和所述第二層級目錄文件路徑相關聯(lián)的所述映射文件或所述數(shù)據(jù)文件中的至少之一。21、一種存儲有機器可讀指令的制品,該機器可讀指令在被執(zhí)行時使機器接收分析指令;基于所述分析指令從數(shù)據(jù)倉庫檢索數(shù)據(jù);以及將映射文件與事實表相關聯(lián),該映射文件存儲在第一層級目錄文件路徑中。22、如權(quán)利要求21中所限定的制品,其中所述機器可讀指令還使所述機器將所述事實表的主關鍵字與維度表相關聯(lián),該維度表與存儲在第二層級目錄文件路徑中的維度映射文件相關聯(lián)。23、如權(quán)利要求22中所限定的制品,其中所述機器可讀指令還使所述機器將維度關鍵字與存儲在第三層級目錄文件路徑中的數(shù)據(jù)文件相關聯(lián)。24、如權(quán)利要求23中所限定的制品,其中所述機器可讀指令還使所述機器壓縮所述第一層級目錄文件路徑,所述第二層級目錄文件路徑,和所述第三層級目錄文件路徑。25、如權(quán)利要求23中所限定的制品,其中所述機器可讀指令還使所述機器通過從所述第一層級目錄文件路徑到所述第二層級目錄文件路徑,再到所述第三層級目錄文件路徑的順序游歷,來發(fā)起數(shù)據(jù)查詢。26、如權(quán)利要求21中所限定的制品,其中所述機器可讀指令還使所述機器基于存儲在所述第一層級目錄文件路徑中的所述映射文件來定位第二層級目錄文件路徑。27、如權(quán)利要求26中所限定的制品,其中所述機器可讀指令還使所述機器基于存儲在所述第二層級目錄文件路徑中的映射文件來定位第三層級目錄文件路徑。28、如權(quán)利要求21中所限定的制品,其中所述機器可讀指令還使所述機器基于所檢索的數(shù)據(jù)計算一次統(tǒng)計。29、如權(quán)利要求28中所限定的制品,其中所述機器可讀指令還使所述機器至少基于所述一次統(tǒng)計來計算二次統(tǒng)計。30、如權(quán)利要求28中所限定的制品,其中所述機器可讀指令還使所述機器至少基于所述一次統(tǒng)計和所檢索的數(shù)據(jù)來計算二次統(tǒng)計。31、如權(quán)利要求21中所限定的制品,其中所述機器可讀指令還使所述機器在預定時間或周期性間隔的至少之一期間處理所述分析指令。全文摘要公開了用于提高數(shù)據(jù)倉庫性能的方法和裝置。一種對從數(shù)據(jù)倉庫所接收的數(shù)據(jù)進行格式化的示例方法,包括接收分析指令,基于所述分析指令從所述數(shù)據(jù)倉庫檢索數(shù)據(jù),以及將映射文件與事實表相關聯(lián),該映射文件存儲在第一層級目錄文件路徑中。文檔編號G06F17/30GK101542478SQ200780023779公開日2009年9月23日申請日期2007年6月26日優(yōu)先權(quán)日2006年6月26日發(fā)明者史提夫·拉夫達斯,道格·麥克道爾申請人:尼爾森(美國)有限公司