欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

非結(jié)構(gòu)化數(shù)據(jù)四面體數(shù)據(jù)模型的系統(tǒng)、實現(xiàn)、應(yīng)用和查詢語言的制作方法

文檔序號:6357843閱讀:501來源:國知局
專利名稱:非結(jié)構(gòu)化數(shù)據(jù)四面體數(shù)據(jù)模型的系統(tǒng)、實現(xiàn)、應(yīng)用和查詢語言的制作方法
技術(shù)領(lǐng)域
本公開總體上涉及數(shù)字內(nèi)容領(lǐng)域,具體地涉及非結(jié)構(gòu)化數(shù)據(jù)的表示。
背景技術(shù)
隨著信息技術(shù)的快速發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)的數(shù)量急劇增加。現(xiàn)在,非結(jié)構(gòu)化數(shù)據(jù)占據(jù)了世界上所有數(shù)據(jù)的大部分。非結(jié)構(gòu)化數(shù)據(jù)(也稱為非結(jié)構(gòu)化信息)是指不具有統(tǒng)一結(jié)構(gòu)的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)的示例包括文本、圖形、圖像、音頻和視頻數(shù)據(jù)。與利用顯式語義數(shù)據(jù)模型描述的結(jié)構(gòu)化數(shù)據(jù)不同,非結(jié)構(gòu)化數(shù)據(jù)缺少計算機化解釋所必需的上述顯式語義結(jié)構(gòu)。參見2008年5月、0ASIS,“非結(jié)構(gòu)化信息管理架構(gòu)(UIMA) 1. 0版”,工作草案05,通過參考將其全部內(nèi)容并入。因此,非結(jié)構(gòu)化數(shù)據(jù)經(jīng)常需要人工或自動化注釋,以便由計算機應(yīng)用/設(shè)備正確解釋和/或處理。已經(jīng)開發(fā)出了各種內(nèi)容管理系統(tǒng)和數(shù)據(jù)庫管理系統(tǒng)以用于管理非結(jié)構(gòu)化數(shù)據(jù)。然而,由于由這些系統(tǒng)使用的數(shù)據(jù)模型通過描述性文本或者低層特征來描述非結(jié)構(gòu)化數(shù)據(jù), 所以這些系統(tǒng)只能提供有限的數(shù)據(jù)檢索方法,并且不具有支持通常為管理和操縱大量非結(jié)構(gòu)化數(shù)據(jù)所必需的智能數(shù)據(jù)服務(wù)的能力(例如,基于多個檢索方法、數(shù)據(jù)分析、數(shù)據(jù)挖掘的檢索)。因此,需要一種數(shù)據(jù)模型,其可以提供不同種類非結(jié)構(gòu)化數(shù)據(jù)的特征和文本描述的整體表示,并且還需要一種利用該數(shù)據(jù)模型來在非結(jié)構(gòu)化數(shù)據(jù)上提供高效智能數(shù)據(jù)操作的系統(tǒng)和應(yīng)用。

發(fā)明內(nèi)容
本公開的實施方式包括用于非結(jié)構(gòu)化數(shù)據(jù)四面體數(shù)據(jù)模型的系統(tǒng)、實現(xiàn)、應(yīng)用和
查詢語言。本公開的一個方面是用于非結(jié)構(gòu)化數(shù)據(jù)的四面體數(shù)據(jù)模型。四面體數(shù)據(jù)模型的實例(也稱為四面體)包括頂點、四個刻面以及刻面之間的連線。頂點表示底層非結(jié)構(gòu)化數(shù)據(jù)的唯一性標(biāo)識。四個刻面表示底層非結(jié)構(gòu)化數(shù)據(jù)的四個方面基本屬性、語義特征、低層特征和原始數(shù)據(jù)。連接刻面的連線表示不同刻面的連接元素之間的關(guān)系。本公開的另一方面是非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)管理系統(tǒng)(Unstructured data Base Management System) (UDBMS)中四面體數(shù)據(jù)模型的實現(xiàn)。UDBMS生成頂點,并且將基本屬性和語義特征存儲在可擴展標(biāo)記語言(XML)文件中。低層特征和原始數(shù)據(jù)使用在運行時可擴展的三維(“3D”)寬表進(jìn)行組織和存儲。不同刻面上元素之間的關(guān)聯(lián)存儲在鄰接矩陣中。本公開的第三方面是用于使用四面體數(shù)據(jù)模型來表示非結(jié)構(gòu)化數(shù)據(jù)的四面體注釋模塊(以及相應(yīng)的過程和計算機程序產(chǎn)品)。四面體注釋模塊可以集成至非結(jié)構(gòu)化數(shù)據(jù)處理裝置中,諸如,數(shù)碼相機、數(shù)字音頻記錄器、數(shù)字視頻記錄器、音頻/視頻(A/V)數(shù)據(jù)生成設(shè)備,和文檔/視頻/音頻/圖像/圖形編輯應(yīng)用。四面體注釋模塊針對由該裝置生成的非結(jié)構(gòu)化數(shù)據(jù)創(chuàng)建四面體,并且使用與該非結(jié)構(gòu)化數(shù)據(jù)有關(guān)的信息來填入該四面體。本公開的第四方面是一種非結(jié)構(gòu)化數(shù)據(jù)查詢語言(UDQL),其被開發(fā)以用于提供針對UDBMS中的由四面體數(shù)據(jù)模型所表示的非結(jié)構(gòu)化數(shù)據(jù)的全面查詢操作。針對由UDQL支持的非結(jié)構(gòu)化數(shù)據(jù)的示例查詢操作包括基本數(shù)據(jù)檢索(例如,針對四面體單個刻面的查詢)、關(guān)聯(lián)檢索(例如,使用四面體的兩個或三個刻面的查詢,在多個四面體中的查詢)以及智能檢索(例如,實現(xiàn)面向主題的多維數(shù)據(jù)分析、根據(jù)指定條件的數(shù)據(jù)聚類和分類)。UDQL 還通過支持基于這三種不同種類的查詢操作的嵌套結(jié)構(gòu)而支持更復(fù)雜的查詢。在本說明書中描述的特征和優(yōu)勢不是全包含的,并且具體地,對于閱讀了附圖、說明書和權(quán)利要求書的本領(lǐng)域普通技術(shù)人員而言,很多附加特征和優(yōu)勢將是明顯的。而且,應(yīng)當(dāng)注意,在本說明書中使用的語言主要是針對易讀性和指令性的目的而選取的,而不是為了勾勒或限制所公開主題而選擇的。


圖1是根據(jù)本公開一個實施方式的非結(jié)構(gòu)化數(shù)據(jù)四面體數(shù)據(jù)模型的可視表示的示意圖。圖2是示出了根據(jù)本公開一個實施方式的、圖1中所示四面體數(shù)據(jù)模型的實現(xiàn)的高層框圖。圖3是示出了根據(jù)本公開一個實施方式的四面體數(shù)據(jù)模型注釋系統(tǒng)內(nèi)的模塊的高層框圖。圖4是示出了根據(jù)本公開一個實施方式的、用于實現(xiàn)圖3中所示四面體數(shù)據(jù)模型的計算機示例的高層框圖。圖5A-圖5E是示出了根據(jù)本公開一個實施方式的、集成有圖3中所示四面體數(shù)據(jù)模型的示例系統(tǒng)的高層框圖。圖6是示出了根據(jù)本公開一個實施方式的、用于使用四面體數(shù)據(jù)模型來描述非結(jié)構(gòu)化數(shù)據(jù)以及使用四面體數(shù)據(jù)模型來進(jìn)行搜索的過程的流程圖。
具體實施例方式附圖和下文描述僅通過示例方式描述了某些實施方式。本領(lǐng)域技術(shù)人員將從下述描述理解到,在不脫離此處所描述原理的情況下,可以采用此處所示結(jié)構(gòu)和方法的備選實施方式?,F(xiàn)在將詳細(xì)參考若干實施方式,其示例在附圖中示出。注意,在附圖中可以使用可行的類似或相同附圖標(biāo)記,并且這些附圖標(biāo)記可以指示類似或相同的功能。四面體數(shù)據(jù)模型圖1包括根據(jù)本公開一個實施方式的非結(jié)構(gòu)化數(shù)據(jù)四面體數(shù)據(jù)模型的可視表示。 如所示,四面體數(shù)據(jù)模型的實例(也稱為四面體)包括頂點、四個刻面以及刻面之間的連線。頂點(由V表示)表示底層非結(jié)構(gòu)化數(shù)據(jù)的唯一性標(biāo)識。四個刻面表示底層非結(jié)構(gòu)化數(shù)據(jù)的四個方面基本屬性、語義特征、低層特征和原始數(shù)據(jù)。具體地,底部刻面(與頂點相對)表示原始數(shù)據(jù),并且被稱為原始數(shù)據(jù)刻面(或“RDF”),三個側(cè)刻面(與頂點鄰接)分別表示基本屬性、語義特征和低層特征,并且被分別稱為基本屬性刻面(“BAF”)、語義特征刻面(“SFF”)和低層特征刻面(“LFF”)。連接刻面的連線表示不同刻面的連接元素之間的關(guān)系。基本屬性是指所有種類非結(jié)構(gòu)化數(shù)據(jù)的通用屬性,諸如名稱、類型、創(chuàng)建者和創(chuàng)建時間?;緦傩圆话〝?shù)據(jù)的語義。基本屬性集合由基本屬性刻面上的點(也稱為“元素”) 表示,其可以通過以下4元組表達(dá)BASIC_ATTRIBUTE(V,BA_id,BA_set,BA_content),(1)其中V 表示此基本屬性集合所屬于的四面體的標(biāo)識,BA_id表示基本屬性集合的標(biāo)識,BA_set表示基本屬性項集合 (例如,類型、創(chuàng)建者和創(chuàng)建日期),以及BA_COntent表示BA_set中項的值。語義特征是指文本表達(dá)的語義特性,諸如,創(chuàng)作意圖、主題說明、非結(jié)構(gòu)化數(shù)據(jù)的對象和內(nèi)容的描述、低層特征的含義、關(guān)鍵詞的形式或自由文本形式描述的注釋以及使用本體描述的數(shù)據(jù)對象的概念。語義特征由語義特征刻面上的點表示,并且可以通過以下6 元組表達(dá)SEMANTIC_FEATURE(V, SF_id, SF_class, SF_name, SF_keyword, SF_content), (2)其中V表示包含此語義特征的四面體的標(biāo)識,SF_id表示語義特征的標(biāo)識,SF_ class表示語義特征的類型(例如,音頻特征、視頻特征),SF_name表示語義特征的名稱 (例如,主題、創(chuàng)作意圖、情節(jié)、關(guān)鍵幀的文本描述),SF_keyWOrd表示語義特征的一個或多個關(guān)鍵詞的集合,以及SF_COntent表示語義特征的內(nèi)容(例如,一段說明性或描述性文本)。低層特征(也稱為“感知特征”)是指特定于通過使用適當(dāng)特征提取技術(shù)獲得的一種或若干種種類非結(jié)構(gòu)化數(shù)據(jù)的特性,諸如針對圖像的顏色、紋理和形狀,針對音頻的音頻音高,以及針對視頻的關(guān)鍵幀。低層特征由低層特征刻面上的點表示,并且可以由以下6元組表達(dá)LOff_LEVEL_FEATURE (V, LF_id, LF_class, LF_name, LF_rep_type, LF_id_content ), (3)其中V表示包含此低層特征的四面體的標(biāo)識,LF_id表示低層特征的標(biāo)識,LF_ class表示低層特征所描述的數(shù)據(jù)類型,并且LF_claSS e {文本、圖像、視頻、音頻、圖形}, LF_name表示低層特征的名稱(例如顏色、紋理、形狀、音頻、關(guān)鍵幀),LF_Mp_type表示低層特征的數(shù)據(jù)結(jié)構(gòu)(例如,用于顏色的直方圖、用于紋理的共生矩陣、用于形狀的傅立葉描述符),LF_id_content表示低層特征的值。原始數(shù)據(jù)是指底層非結(jié)構(gòu)化數(shù)據(jù)的存儲文件。一個視頻、音頻或圖像數(shù)據(jù)可以包含若干個存儲文件(也稱為“原始數(shù)據(jù)文件”、“數(shù)據(jù)對象”),并且每個文件由原始數(shù)據(jù)刻面上的一個點表示。原始數(shù)據(jù)文件可以由以下4元組表達(dá)DATA(V, DATA_id, DATA_File_id, DATA_File_Name), (4)其中V表示包含原始數(shù)據(jù)刻面的四面體的標(biāo)識,DATA_id表示原始數(shù)據(jù)的數(shù)據(jù)文件集合的標(biāo)識,DATA_File_id表示數(shù)據(jù)文件集合中的數(shù)據(jù)文件的標(biāo)識,以及DATA_File_ Name表示數(shù)據(jù)文件的名稱。四面體可以使用下述6元組描述Tetrahedron = (V, BA_FACET, SF_FACET, LF_FACET, RD_FACET, CONJS), (5)
其中V表示關(guān)聯(lián)所屬于的四面體的標(biāo)識,BA_FACET表示基本屬性刻面,并且包括非結(jié)構(gòu)化數(shù)據(jù)的基本屬性集合,SF_FACET表示語義特征刻面,并且包括紋理語義信息集合, LF_FACET表示低層特征刻面,并且包括使用多媒體特征提取技術(shù)從非結(jié)構(gòu)化數(shù)據(jù)獲得的特征集合,RD_FACET表示原始數(shù)據(jù)刻面,并且包括原始數(shù)據(jù)文件集合,以及CONJS表示連接不同刻面上對象的所有連線的集合,其表示已連接對象之間的關(guān)聯(lián)。進(jìn)一步使用如下等式來描述 BA_FACET、SF_FACET、LF_FACET、RD_FACET 和 CONJS。BA_FACET = {Basic_Attribute},(6)SF_FACET = {Semantic_Featurej j e [l,m]}, (7)其中m是指示語義特征總數(shù)的正整數(shù),LF_FACET = {Low_Level_Featurek k e [l,n]},(8)其中η是指示低層特征總數(shù)的正整數(shù),RD_FACET = (Data11 1 e [1,ρ]},(9)其中ρ是指示數(shù)據(jù)文件總數(shù)的正整數(shù),以及CONJS = {BA_FACETXSF_FACET U BA_FACET X LF_FACET UBA_FACETXRD_FACET U SF_FACET X LF_FACET USF_FACETXRD_FACET U LF_FACET X RD_FACET},(10)指示CONJS包括來自不同刻面的元素的關(guān)聯(lián)。由四個刻面上的點表示的原始數(shù)據(jù)文件、基本屬性、語義特征和低層特征(統(tǒng)稱為“對象”)之間通常存在關(guān)系(也稱為“關(guān)聯(lián)”)。例如,低層特征及其語義描述是相關(guān)的。這種關(guān)系在視覺上利用連接不同刻面中相關(guān)對象的連線表示,并且在等式5中統(tǒng)稱為 C0NJS,以及在等式10中進(jìn)行了定義。在一個四面體內(nèi)的兩個對象之間的關(guān)聯(lián)可以由以下 3元組表達(dá)ASSOCIATION(V,Object1Jd, 0bject2_id),(11)其中V表示關(guān)聯(lián)所屬于的四面體的標(biāo)識,以及Object1Jd和0bject2_id分別表示已連接的兩個對象 Object1 和 Object2 的標(biāo)識,Object1, Object2 e {BA_FACET V SF_ FACET V LF_FACET V RD_FACET},且 Objec、和 Object2 屬于不同的刻面。關(guān)系也可以位于不同的四面體之間。例如,具有相同主題的不同非結(jié)構(gòu)化數(shù)據(jù)的四面體彼此有關(guān)。多個四面體之間的關(guān)聯(lián)可以通過使用這些四面體的標(biāo)識來建立。k個四面體的關(guān)聯(lián)可以由以下二元組來表達(dá)ASS0CIATI0N_0F_TETRAHEDR0NS(Subject, {Vu|u e [l,w]}),(12)其中=Subject表示主題的描述,以及{Vu|u e [1,w]}是與一個主題有關(guān)的w個四面體的集合。關(guān)聯(lián)可以支持涉及一個或多個四面體的多個刻面的關(guān)聯(lián)檢索。關(guān)聯(lián)檢索可以基于四面體內(nèi)的關(guān)聯(lián)或者多個四面體之間的關(guān)聯(lián)來實現(xiàn)。例如,按照基本屬性、語義特征和低層特征之間關(guān)聯(lián)的檢索可以快速縮小搜索范圍,并更高效且準(zhǔn)確地找到匹配的非結(jié)構(gòu)化數(shù)據(jù)。另外,多個四面體的關(guān)聯(lián)可以支持面向主題的檢索。例如,通過使用ASS0CIATI0N_of_ TETRAHEDRONS中的Subject元素,與主題有關(guān)的所有數(shù)據(jù)均可被檢索,并且從集合中的任何Vu,可以找到與Vu有關(guān)的、并且與Vu具有相同主題的數(shù)據(jù)。四面體數(shù)據(jù)模型實現(xiàn)
圖2示出了根據(jù)本描述一個實施方式的、非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)管理系統(tǒng)(UDBMS) 中的四面體數(shù)據(jù)模型的實現(xiàn)。在此示例實現(xiàn)中,用于唯一性標(biāo)識四面體的頂點可以由UDBMS生成?;緦傩院驼Z義特征可以使用各種結(jié)構(gòu)化語言進(jìn)行描述。在一個示例中,可擴展標(biāo)記語言(XML)因其自描述特征、強大的鏈接能力以及描述復(fù)雜語義和結(jié)構(gòu)的能力而被用來表示和存儲基本屬性和語義特征。低層特征和/或原始數(shù)據(jù)可以使用三維(“3D”)寬表來組織和存儲。如圖2所示,3D寬表的三個維度分別表示數(shù)據(jù)對象、低層特征(或原始數(shù)據(jù))和時間。3D寬表中的每行表示數(shù)據(jù)對象,而每列表示低層特征(或原始數(shù)據(jù))。此外,不同的數(shù)據(jù)對象可以具有不同的低層特征集合。低層特征的值可以是任何基本數(shù)據(jù)類型值(例如,數(shù)字,字符串)或特征向量。數(shù)據(jù)對象的低層特征值/原始數(shù)據(jù)可以隨時間改變,并且低層特征/原始數(shù)據(jù)的每次修訂形成新的數(shù)據(jù)版本。這些版本序列可以通過使用3D寬表的第三維度(即,時間) 來存儲。與關(guān)系數(shù)據(jù)庫中的常規(guī)2D表不同,3D寬表的三個維度在運行時都是可擴展的,并且由此3D寬表對于存儲其結(jié)構(gòu)和形式多種多樣的非結(jié)構(gòu)化數(shù)據(jù)而言很靈活。此外,3D寬表允許原始數(shù)據(jù)與其低層特征的統(tǒng)一存儲。不同刻面上對象之間的關(guān)聯(lián)存儲在鄰接矩陣中,其是指3D寬表中存儲的原始數(shù)據(jù)和低層特征以及XML文件中存儲的基本屬性和語義特征。在一個實施方式中,為了實現(xiàn)數(shù)據(jù)獨立性,在數(shù)據(jù)庫管理系統(tǒng)的三級模式架構(gòu)中的邏輯模式中實現(xiàn)四面體數(shù)據(jù)模型。參見 Codd E. F. , "A Relational Model of Data for Large Shared Data Banks,,, Communication of ACM,Vol. 13,No. 6,1970年6月,通過參考而并入其全部內(nèi)容。四面體數(shù)據(jù)模型注釋系統(tǒng)的架構(gòu)圖3是示出了根據(jù)本描述一個實施方式的四面體數(shù)據(jù)模型注釋系統(tǒng)(也稱為“四面體注釋系統(tǒng)”或“四面體注釋模塊”)300內(nèi)的模塊的示意圖,該系統(tǒng)用于使用四面體數(shù)據(jù)模型來表示非結(jié)構(gòu)化數(shù)據(jù)。系統(tǒng)300的某些實施方式具有除此處描述之外的不同和/或其他模塊。類似地,功能可以根據(jù)其他實施方式、以與此處描述的不同方式分布在模塊間。如所示,系統(tǒng)300包括注釋引擎310、用戶接口(UI)模塊320、基本屬性模塊330、語義特征模塊340、低層特征模塊350、原始數(shù)據(jù)模塊360、關(guān)聯(lián)模塊370和數(shù)據(jù)存儲380。注釋引擎310針對一個未注釋的非結(jié)構(gòu)化數(shù)據(jù)創(chuàng)建四面體。另外,注釋引擎310 與四面體注釋系統(tǒng)300內(nèi)的其他模塊一起工作以填入該四面體,并且將結(jié)果四面體存儲在數(shù)據(jù)存儲380中。UI模塊320提供用于繪制(例如,顯示)與一個非結(jié)構(gòu)化數(shù)據(jù)有關(guān)的信息(例如, 原始數(shù)據(jù)文件、基本屬性、語義特征、低層特征)和/或接收用戶輸入的UI。例如,用戶可以通過UI模塊320為四面體提供基本屬性和語義特征(例如,基于顯示的原始數(shù)據(jù)文件),或者編輯已有的屬性/特征?;緦傩阅K330利用基于接收自UI模塊320或其他來源(例如,與四面體注釋系統(tǒng)300連接的設(shè)備或應(yīng)用)的信息創(chuàng)建的基本屬性來填入四面體的基本屬性刻面。類似地,語義特征模塊340利用基于接收的信息(例如,來自UI模塊320或其他來源)創(chuàng)建的語義特征來填入四面體的語義特征刻面。在一個實施方式中,基本屬性模塊330和語義特征模塊340使用XML來描述基本屬性(例如,公式1中的4元組)和語義特征(例如,公式2中的6元組),并且將結(jié)果XML文件存儲在數(shù)據(jù)存儲380中。低層特征模塊350利用基于接收的信息創(chuàng)建的低層特征來填入四面體的低層特征刻面。原始數(shù)據(jù)模塊360使用底層非結(jié)構(gòu)化數(shù)據(jù)的原始數(shù)據(jù)文件來填入四面體的原始數(shù)據(jù)刻面。在一個實施方式中,低層特征模塊350和原始數(shù)據(jù)模塊360將低層特征(例如,公式3中的6元組)和原始數(shù)據(jù)文件(例如,公式4中的4元組)存儲在數(shù)據(jù)存儲380中的 3D寬表中。關(guān)聯(lián)模塊370基于四面體內(nèi)的元素(例如,基本屬性、語義特征、低層特征、原始數(shù)據(jù)文件)的內(nèi)在關(guān)系和所接收信息中指示的關(guān)系在這些元素之中創(chuàng)建關(guān)聯(lián)。在一個實施方式中,關(guān)聯(lián)模塊370將關(guān)聯(lián)(例如,公式11中的3元組)存儲在鄰接矩陣中。數(shù)據(jù)存儲380存儲由四面體注釋系統(tǒng)300創(chuàng)建的四面體。在一個實施方式中,數(shù)據(jù)存儲380包括UDBMS,并且其被配置用于針對每個四面體生成頂點,以在UDBMS中唯一性標(biāo)識四面體。計算機架構(gòu)圖3中所示模塊使用一個或多個計算機實現(xiàn)。圖4是示出了示例計算機400的高層框圖。計算機400包括耦合至芯片集404的至少一個處理器402。芯片集404包括存儲器控制器集線器420和輸入/輸出(I/O)控制器集線器422。存儲器406和圖形適配器412 耦合至存儲器控制器集線器420,并且顯示器418耦合至圖形適配器412。存儲設(shè)備408、鍵盤410、指點設(shè)備414和網(wǎng)絡(luò)適配器416耦合至I/O控制器集線器422。計算機400的其他實施方式具有不同的架構(gòu)。存儲設(shè)備408是非瞬態(tài)計算機可讀存儲介質(zhì),諸如,硬盤驅(qū)動器、壓縮盤只讀存儲器(⑶-ROM)、DVD或固態(tài)存儲器器件。存儲器406保有由處理器402使用的指令和數(shù)據(jù)。指點設(shè)備414是鼠標(biāo)、跟蹤球或其他類型的指點設(shè)備,并且結(jié)合鍵盤410使用以向計算機系統(tǒng) 400內(nèi)輸入數(shù)據(jù)。圖形適配器412在顯示器418上顯示圖像和其他信息。網(wǎng)絡(luò)適配器416 將計算機系統(tǒng)400耦合到一個或多個計算機網(wǎng)絡(luò)。計算機400適用于執(zhí)行用以提供此處所描述功能的計算機程序模塊。此處使用的術(shù)語“模塊”是指用來提供指定功能的計算機程序邏輯。由此,模塊可以利用硬件、固件和/ 或軟件實現(xiàn)。在一個實施方式中,程序模塊存儲在存儲設(shè)備408上,加載至存儲器406中, 并且由處理器402執(zhí)行。由圖3的模塊所使用的計算機400的類型可以因?qū)嵤┓绞揭约皩嶓w所需的處理功率而發(fā)生變化,并且可以不具有上述組件的某些組件,諸如鍵盤210、圖形適配器212和顯
不器218 ο四面體注釋系統(tǒng)的示例應(yīng)用四面體注釋系統(tǒng)300可以集成至各種系統(tǒng),用于表示該系統(tǒng)可訪問的非結(jié)構(gòu)化數(shù)據(jù)。這種系統(tǒng)的示例在圖5Α-圖5Ε中示出并在下文進(jìn)行描述。圖5Α是示出了圖像生成設(shè)備510的高層框圖。圖像生成設(shè)備510的示例包括數(shù)字相機和數(shù)字圖像生成設(shè)備(例如,數(shù)字掃描儀)。如所示,圖像生成設(shè)備510包括四面體注釋模塊515,用于自動為由圖像生成設(shè)備510所生成的數(shù)字圖像生成四面體。四面體注釋模塊515可選地使用由圖像生成設(shè)備510提供的信息(諸如,圖像創(chuàng)建時間(基本屬性)和圖像文件(原始數(shù)據(jù)))來填入四面體。圖像生成設(shè)備510的用戶可以通過四面體注釋模塊515向四面體中提供附加文本描述(基本屬性或語義特征)。圖像分析應(yīng)用可以生成低層特征(諸如,圖像的物理/光特征)并將其添加至四面體中。結(jié)果四面體繼而可以存儲在UDBMS中,其轉(zhuǎn)而將指派標(biāo)識(例如,四面體的頂點)并且使圖像可用于高級查詢操作。圖5B是示出了音頻生成設(shè)備530的高層框圖。音頻生成設(shè)備530的示例包括數(shù)字音頻記錄器和音頻編輯設(shè)備/應(yīng)用(例如,音頻同步器)。如所示,音頻生成設(shè)備530包括四面體注釋模塊535,用于自動為由音頻生成設(shè)備530所生成的音頻數(shù)據(jù)生成四面體。四面體注釋模塊535可選地使用由音頻生成設(shè)備530提供的信息(諸如,音頻創(chuàng)建時間(基本屬性)和音頻文件(原始數(shù)據(jù)))來填入四面體。音頻生成設(shè)備的用戶可以通過四面體注釋模塊535向四面體中提供附加文本描述。音頻分析應(yīng)用可以生成低層特征(諸如,音頻數(shù)據(jù)的物理/聲特征)并將其添加至四面體中。結(jié)果四面體繼而可以存儲在UDBMS中, 其轉(zhuǎn)而將指派標(biāo)識并且使音頻數(shù)據(jù)可用于高級查詢操作。圖5C是示出了視頻生成設(shè)備550的高層框圖。視頻生成設(shè)備550的示例包括數(shù)字視頻記錄器和視頻編輯設(shè)備/應(yīng)用。如所示,視頻生成設(shè)備550包括四面體注釋模塊555, 用于自動為由視頻生成設(shè)備550所生成的視頻數(shù)據(jù)生成四面體。四面體注釋模塊555可選地使用由視頻生成設(shè)備550提供的信息(諸如,視頻創(chuàng)建時間(基本屬性)和視頻文件(原始數(shù)據(jù)))來填入四面體。視頻生成設(shè)備550的用戶可以通過四面體注釋模塊555向四面體中提供附加文本描述。視頻分析應(yīng)用可以生成低層特征(諸如,視頻數(shù)據(jù)的物理/光特征)并將其添加至四面體中。結(jié)果四面體繼而可以存儲在UDBMS中,其轉(zhuǎn)而將指派標(biāo)識并且使視頻數(shù)據(jù)可用于高級查詢操作。圖5D是示出了音頻/視頻(“A/V”)生成設(shè)備570的高層框圖。A/V生成設(shè)備570 的示例包括數(shù)字?jǐn)z錄機和A/V編輯設(shè)備/應(yīng)用。如所示,A/V生成設(shè)備570包括四面體注釋模塊575,用于自動為由A/V生成設(shè)備570所生成的A/V數(shù)據(jù)生成四面體。四面體注釋模塊575可選地使用由A/V生成設(shè)備570提供的信息(諸如,創(chuàng)建時間(基本屬性)和視頻文件(原始數(shù)據(jù)))來填入四面體。A/V生成設(shè)備570的用戶可以通過四面體注釋模塊575 向四面體中提供附加文本描述。A/V分析應(yīng)用可以生成低層特征(諸如,A/V數(shù)據(jù)的物理/ 聲/光特征)并將其添加至四面體中。結(jié)果四面體繼而可以存儲在UDBMS中,其轉(zhuǎn)而可以指派標(biāo)識并且使A/V數(shù)據(jù)可用于高級查詢操作。圖5E是示出了文檔/視頻/音頻/圖像/圖形編輯應(yīng)用(也稱為“編輯應(yīng)用”)590 的高層框圖。如所示,編輯應(yīng)用590包括四面體注釋模塊595,用于為包含非結(jié)構(gòu)化數(shù)據(jù)的文檔、視頻數(shù)據(jù)、音頻數(shù)據(jù)、圖像和/或圖形數(shù)據(jù)創(chuàng)建和/或編輯四面體數(shù)據(jù)模型。四面體注釋模塊595可以提供wiki功能,以用于管理和跟蹤對底層非結(jié)構(gòu)化數(shù)據(jù)的文本描述(例如,基本屬性和語義特征)所作的編輯。結(jié)果四面體繼而可以存儲(或更新)在UDBMS中, 其轉(zhuǎn)而將指派標(biāo)識(如果還未指派的話)并且使文檔、視頻數(shù)據(jù)、音頻數(shù)據(jù)、圖像和/或圖形數(shù)據(jù)可用于高級查詢操作。四面體注釋模塊515、535、555、575和595包括上述四面體注釋系統(tǒng)300的某些或所有模塊,并且可以實現(xiàn)為軟件、固件或硬件。四面體注釋模塊還可以包括附加模塊,諸如支持操作者在生成/編輯非結(jié)構(gòu)化數(shù)據(jù)時提供口頭注釋的語音識別模塊(未示出)。語音識別模塊將口頭注釋轉(zhuǎn)換成文本,并且添加至對應(yīng)的四面體中(例如,作為語義特征)。針對四面體數(shù)據(jù)模型的非結(jié)構(gòu)化數(shù)據(jù)查詢語言
非結(jié)構(gòu)化數(shù)據(jù)查詢語言(UDQL)被開發(fā)以提供針對由UDBMS中的四面體數(shù)據(jù)模型所表示的非結(jié)構(gòu)化數(shù)據(jù)的全面查詢操作。由UDQL所支持的針對非結(jié)構(gòu)化數(shù)據(jù)的示例查詢操作包括基本數(shù)據(jù)檢索、關(guān)聯(lián)檢索和智能檢索?;緮?shù)據(jù)檢索是指針對四面體的單個刻面 (例如,基本屬性刻面、語義特征刻面、低層特征刻面)的查詢。這些查詢利用關(guān)鍵詞搜索或者低層特征匹配(例如,基于樣本的特征匹配)。關(guān)聯(lián)檢索是指使用四面體的兩個或三個刻面(例如,基本屬性刻面、語義特征刻面、低層特征刻面)的查詢,以及基于多個四面體的語義特征刻面(或其他刻面)在該多個四面體中進(jìn)行的面向主題的查詢。智能檢索是指根據(jù)指定條件實現(xiàn)面向主題的多維數(shù)據(jù)分析、數(shù)據(jù)聚類和分類的查詢。UDQL還通過支持基于這三種不同查詢操作的嵌套結(jié)構(gòu)而支持更復(fù)雜的查詢。UDQL中的查詢語句支持上述所有三種查詢操作。由于在一個示例中,四面體數(shù)據(jù)模型的基本屬性和語義特征是使用XML描述的,所以通過擴展XML的查詢語言(例如, XQuery)來定義UDQL。XQuery中的查詢語句利用FLWOR表達(dá)式來描述。FLffOR由R)r,Let, Where, Order by和Return的首字母組成的。FLWOR表達(dá)式定義了查詢的基本結(jié)構(gòu),并且該表達(dá)式可以支持多個查詢條件,從而為數(shù)據(jù)重構(gòu)提供了靈活的途徑。示例UDQL查詢語句0_ UD具有以下FLWOR結(jié)構(gòu)
QUD= for <object_list> let <var_def_list> where〈condition〉 order by <order_spec_list> return <return_list>在上述語句中,for子句創(chuàng)建循環(huán),并且在let子句中定義局部變量。針對for循環(huán)的<object_list>中的每個對象,檢查where子句中的〈condition〉。如果結(jié)果為真,則將通過調(diào)用return子句來輸出對象。Q_UD的各子句中的每個參數(shù)進(jìn)一步詳細(xì)定義如下參數(shù)<0njeCt_list>表示要包括在查詢中的數(shù)據(jù)對象。如下述等式所示,該集合中的元素可以是四面體的單個刻面上的對象、另一Q_UD查詢的結(jié)果,或者是兩個(或更多) Q_UD查詢結(jié)果的并、差、交或笛卡爾積< object list〉= BA FACET
ISFFACET |LF—FACET IQ—UD
|Union(Q_UDl,Q_UD2) |Difference(Q_UDl,Q_UD2) |Intersection(Q_UD 1 ,QUD2) |CartesianProduct(Q_UD 1 ,QUD2) 參數(shù)<Var_def_liSt>表示要在Q_UD中使用的局部變量列表,并且可以使用以下等式來描述 參數(shù)〈condition〉表示查詢條件,并且被定義為一個表達(dá)式。如在下述等式中所示,〈condition〉可以是簡單條件或復(fù)雜條件。復(fù)雜條件是通過使用與、或、非之類的邏輯運算符構(gòu)成的。簡單條件包括精確匹配和非精確匹配兩種類型 <complex_condition> = condition (and | or | not) condition ,其中<preCiSe_COmpariSOn>定義了基于常規(guī)比較運算的精確比較條件,而 <imprecise_comparison>定義了用于低層特征查詢的非精確比較條件?;緦傩曰蛘Z義屬性中用于關(guān)鍵詞、字符串、數(shù)字型數(shù)值的精確比較的運算數(shù)為=、<、< =、>、> =和! =。對基本屬性和語義屬性的查詢可以使用〈precisejomparison〉條件進(jìn)行構(gòu)造。為了構(gòu)造非精確比較表達(dá)式,可能必需通過添加運算符match和低層特征比較函數(shù)similarity, degree ()來對XQuery進(jìn)行擴展。運算符match使用以下表達(dá)式進(jìn)行定義lf_vl match lf_v2, (degree),這意味著將特征lf_vl與特征lf_v2進(jìn)行比較,并且兩個特征的相似度不應(yīng)低于 degree。匹配表達(dá)式的結(jié)果類型是布爾型。特征比較函數(shù)similarity—degree ()定義為similarity_degree(lf_vl, lf_v2) :LF_FACETXLF_FACET — W,1],其中將函數(shù) similarity_degree(lf_vl, lf_v2)的兩個參數(shù)進(jìn)行比較,返回值是
區(qū)間中的實數(shù)。參數(shù)<0rder_SpeC_l i st>使用下述等式進(jìn)行定義其中,〈expression〉指定如何對查詢結(jié)果進(jìn)行排序,而〈orderModif ier>指定排序是升序還是降序。<retUrn_liSt>參數(shù)是指定了選定數(shù)據(jù)對象的返回內(nèi)容的表達(dá)式??梢栽?<return_list>表達(dá)式中定義和使用諸如數(shù)據(jù)分析運算符、數(shù)據(jù)聚類和數(shù)據(jù)分類運算符的<var_def_list> = <VarName> = 〈expression〉(,<VarName> =〈expression *
〈condition〉 = <simple_condition>|<complex_condition>, <simple_condition> = <prec i se_compari son>
I<imprecise_comparison>, 〈order—spec—list> = <expression><orderModifier>智能運算符,以在指定數(shù)據(jù)集上實施智能數(shù)據(jù)處理。一類上述運算符是多維數(shù)據(jù)分析運算符集,其包括根據(jù)特定的維度或主題將數(shù)據(jù)切片和切塊,并支持進(jìn)一步對切片和切塊后的數(shù)據(jù)執(zhí)行統(tǒng)計分析。數(shù)據(jù)切片運算符、數(shù)據(jù)切塊運算符和統(tǒng)計分析使用以下表達(dá)式進(jìn)行定義數(shù)據(jù)切片運算符slicedon(Cl1, d2)其中CliG = 1,2)表示維度,數(shù)據(jù)切塊運算符diced on(屯,d2,d3)其中CliG = 1,2,3)表示維度,以及統(tǒng)計分析:statisical_analysis with<stat_model>,其中<stat_model>表示某種統(tǒng)計模型。另一類可以在〈returrulist〉參數(shù)中使用的運算符是數(shù)據(jù)挖掘運算符,諸如使用以下表達(dá)式定義的數(shù)據(jù)聚類運算符和數(shù)據(jù)分類運算符數(shù)據(jù)聚類 cluster by<expression>,以及數(shù)據(jù)分類:classify on<expression>,其中,〈expression〉指定了數(shù)據(jù)聚類和分類的規(guī)則,并且其可以是FLWOR表達(dá)式、 布爾表達(dá)式、條件表達(dá)式、分支表達(dá)式或這些表達(dá)式的組合。通過Q_UD語句,可以實現(xiàn)對非結(jié)構(gòu)化數(shù)據(jù)的操作,包括基本數(shù)據(jù)檢索、關(guān)聯(lián)檢索和智能檢索。對于基本數(shù)據(jù)檢索,在<objeCt_list>中指定與查詢相關(guān)的四面體的刻面,并可以在〈condition〉中定義查詢條件。對于四面體的多個刻面間的關(guān)聯(lián)檢索可以通過構(gòu)造嵌套查詢語句予以實現(xiàn)。例如,查詢語句可以將刻面的9_皿放入將在其他刻面查詢的另一個 Q_UD 的〈condition〉或 <object_list> 中。通過在 <object_list> 中使用 Union(Q_ UD1,Q_UD2)、Difference (Q_UD1, Q_UD2)或 Intersection (Q_UD1, Q_UD2),并在這些參數(shù) Q_ UD中使用相同的主題相關(guān)條件,便可構(gòu)造用于實現(xiàn)面向主題的多個四面體之間關(guān)聯(lián)檢索的 Q_UD。通過在<return_list>的〈expression〉中使用智能查詢運算符,可以對特定范圍的數(shù)據(jù)進(jìn)行智能檢索。方法總覽圖6是示出了根據(jù)一個實施方式的、用于使用四面體數(shù)據(jù)模型來描述非結(jié)構(gòu)化數(shù)據(jù)以及使用四面體數(shù)據(jù)模型來進(jìn)行搜索的過程600的流程圖。其他實施方式可以按照不同順序執(zhí)行方法600的步驟。此外,其他實施方式可以包括與此處所述步驟不同的步驟和/ 或附加步驟。最初,四面體注釋模塊接收610非結(jié)構(gòu)化數(shù)據(jù)。例如,四面體注釋模塊可以嵌入到數(shù)字?jǐn)z錄機中,并且接收由數(shù)字?jǐn)z錄機捕獲的視頻剪輯。四面體注釋模塊創(chuàng)建620四面體以表示非結(jié)構(gòu)化數(shù)據(jù)、確定630關(guān)于非結(jié)構(gòu)化數(shù)據(jù)的各個方面(基本屬性、語義特征、低層特征和/或原始數(shù)據(jù))及其內(nèi)在關(guān)系的信息,并使用所確定的信息來填入640四面體。繼續(xù)上述示例,四面體注釋模塊創(chuàng)建620用于視頻剪輯的四面體,并確定630該視頻剪輯的基本屬性、語義特征、低層特征和/或原始數(shù)據(jù)文件, 以及屬性、特征和原始數(shù)據(jù)文件間的關(guān)系?;緦傩缘氖纠〝?shù)據(jù)類型(例如,視頻)、題目和創(chuàng)建者。語義特征的示例包括流派、描述、主題和長度。低層特征的示例包括關(guān)鍵幀、 紋理和顏色直方圖。屬性和特征可以由數(shù)字?jǐn)z錄機或用戶(例如,通過語音識別)來提供。
14四面體注釋模塊利用所確定的基本屬性、語義特征、低層特征和原始數(shù)據(jù)文件(統(tǒng)稱為元素)來填入640四面體,并且基于所確定的關(guān)系來創(chuàng)建所填入元素之間的關(guān)聯(lián)。四面體注釋模塊將四面體存儲650在UDBMS中。UDBMS生成在UDBMS中唯一性標(biāo)識四面體的標(biāo)識、將基本屬性和語義特征存儲在一個或多個XML文件中、將低層特征和原始數(shù)據(jù)文件(或其代表元組)存儲在3D寬表中,并且將關(guān)聯(lián)存儲在鄰接矩陣中。UDBMS接收660UDQL中的用戶查詢,并檢索670表示了滿足用戶查詢中的條件的非結(jié)構(gòu)化數(shù)據(jù)的四面體。用戶查詢包括FLWOR結(jié)構(gòu),其支持基本數(shù)據(jù)檢索、關(guān)聯(lián)檢索和智能檢索。上述描述的某些部分在算法處理和操作方面描述了實施方式。這些算法描述和表示是數(shù)據(jù)處理領(lǐng)域的技術(shù)人員通常所使用的將其工作的本質(zhì)有效地傳達(dá)給本領(lǐng)域其他技術(shù)人員的方式。這些在功能上、計算上和邏輯上被描述的操作應(yīng)被理解為通過計算機程序?qū)崿F(xiàn),這些程序包括供處理器或等同電子電路、微代碼等執(zhí)行的指令。此外,已經(jīng)證明在不失一般性的前提下將這些功能操作的布置當(dāng)作模塊有時是方便的。所描述的操作及其關(guān)聯(lián)模塊可以利用軟件、固件、硬件或其任何組合實現(xiàn)。此處對“一個實施方式”或“實施方式”的任何使用意味著結(jié)合該實施方式描述的特定元素、特征、結(jié)構(gòu)或特性包括在至少一個實施方式中。在說明書各處出現(xiàn)的短語“在一個實施方式中”并不必須是指相同的實施方式。某些實施方式可以使用表述“耦合”和“連接”及其衍生物進(jìn)行描述。應(yīng)當(dāng)理解, 這些術(shù)語并不試圖作為彼此的同義詞。例如,可以使用術(shù)語“連接”描述某些實施方式來指示兩個或更多元素彼此處于直接物理或電連接。在另一示例中,可以使用術(shù)語“耦合”描述某些實施方式來指示兩個或更多元件直接物理或電接觸。然而,術(shù)語“耦合”也可以意味著兩個或更多元件未彼此直接接觸,但仍能彼此合作或交互。實施方式并不限于此上下文。此處使用的術(shù)語“包括”、“包含”、“涵蓋”、“囊括”、“具有”、“有”或其任何其他變體意在覆蓋非窮盡性包括。例如,包括元素列表的過程、方法、制品或裝置并不必然僅限于那些元素,而是可以包括未明確列出或者對于這種過程、方法、制品或裝置而言并不是內(nèi)在具有的其他元素。此外,除非有顯式相反說明,否則“或”是指包括性的“或”而非排除性的 “或”。例如,以下任一滿足條件A或B :A為真(或存在)且B為假(或不存在),A為假(或不存在)且B為真(或存在),以及A和B都為真(或存在)。此外,使用“ 一個”或“一,,來描述此處實施方式的元素和部件。這僅僅是為了方便以及給出本公開的一般性概念。此描述應(yīng)當(dāng)理解為包括一個或至少一個,并且單數(shù)也可以包括復(fù)數(shù),除非顯然具有其他含義。在閱讀了本公開之后,本領(lǐng)域技術(shù)人員將會理解使用四面體數(shù)據(jù)模型來描述非結(jié)構(gòu)化數(shù)據(jù)和/或使用四面體數(shù)據(jù)模型來進(jìn)行搜索的附加備選實現(xiàn)、系統(tǒng)和過程。由此,盡管已經(jīng)示出和描述了特定實施方式和應(yīng)用,但是應(yīng)當(dāng)理解,本發(fā)明不限于此處公開的特定構(gòu)造和部件,并且對于本領(lǐng)域技術(shù)人員而言,在不脫離所附權(quán)利要求所定義的精神和范圍的前提下,可以對在此處公開的方法和裝置的布置、操作和細(xì)節(jié)中做出各種修改、改變和變化。
權(quán)利要求
1.一種非結(jié)構(gòu)化數(shù)據(jù)處理裝置,包括四面體注釋模塊,用于使用四面體數(shù)據(jù)模型來表示由所述裝置生成的非結(jié)構(gòu)化數(shù)據(jù), 包括注釋模塊,用于自動為所述裝置生成的非結(jié)構(gòu)化數(shù)據(jù)創(chuàng)建所述四面體數(shù)據(jù)模型(“四面體”)的實例,其中所述四面體包括基本屬性集合、語義特征集合、低層特征集合和原始數(shù)據(jù)集合;原始數(shù)據(jù)模塊,用于利用所述非結(jié)構(gòu)化數(shù)據(jù)的一個或多個原始數(shù)據(jù)文件來填入所述原始數(shù)據(jù)集合;低層特征模塊,用于利用特定于所述非結(jié)構(gòu)化數(shù)據(jù)一個類型的一個或多個特性來填入所述低層特征集合;語義特征模塊,用于利用所述非結(jié)構(gòu)化數(shù)據(jù)的一個或多個語義特性來填入所述語義特征集合;基本屬性模塊,用于利用非結(jié)構(gòu)化數(shù)據(jù)通用的一個或多個屬性來填入所述基本屬性集合;關(guān)聯(lián)模塊,用于利用不同集合的元素之間的關(guān)聯(lián)來填入所述四面體;以及非瞬態(tài)計算機可讀存儲介質(zhì),用于將得以填入的四面體存儲在非瞬態(tài)計算機可讀存儲介質(zhì)中。
2.如權(quán)利要求1的裝置,其中所述裝置包括數(shù)碼相機,以及所述非結(jié)構(gòu)化數(shù)據(jù)包括圖像。
3.如權(quán)利要求1的裝置,其中所述裝置包括數(shù)字音頻記錄器,并且所述非結(jié)構(gòu)化數(shù)據(jù)包括音頻數(shù)據(jù)。
4.如權(quán)利要求1的裝置,其中所述裝置包括數(shù)字視頻記錄器,并且所述非結(jié)構(gòu)化數(shù)據(jù)包括視頻數(shù)據(jù)。
5.如權(quán)利要求1的裝置,其中所述裝置包括音頻/視頻(A/V)數(shù)據(jù)生成設(shè)備,并且所述非結(jié)構(gòu)化數(shù)據(jù)包括音頻數(shù)據(jù)和視頻數(shù)據(jù)。
6.如權(quán)利要求1的裝置,其中所述裝置包括文檔/視頻/音頻/圖像/圖形編輯應(yīng)用, 并且所述非結(jié)構(gòu)化數(shù)據(jù)包括以下中的一個或多個非結(jié)構(gòu)化文檔、視頻數(shù)據(jù)、音頻數(shù)據(jù)、圖像和圖形數(shù)據(jù)。
7.如權(quán)利要求1的裝置,其中所述非瞬態(tài)計算機可讀存儲介質(zhì)包括非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)管理系統(tǒng)(UDBMS),所述UDBMS配置用于向所述得以填入的四面體指派唯一標(biāo)識。
8.如權(quán)利要求7的裝置,其中所述UDBMS將所述原始數(shù)據(jù)集合和所述低層特征集合中的元素存儲在可擴展三維(3D)寬表中。
9.如權(quán)利要求7的裝置,其中所述UDBMS將不同集合中元素之間的關(guān)聯(lián)存儲在鄰接矩陣中。
10.如權(quán)利要求7的裝置,其中所述UDBMS將所述基本屬性集合和所述語義特征集合中的元素存儲在一個或多個可擴展標(biāo)記語言(XML)文件中。
11.一種用于處理非結(jié)構(gòu)化數(shù)據(jù)的計算機實現(xiàn)的方法,包括創(chuàng)建用于表示非結(jié)構(gòu)化數(shù)據(jù)的四面體數(shù)據(jù)模型(“四面體”)的實例,其中所述四面體包括基本屬性集合、語義特征集合、低層特征集合和原始數(shù)據(jù)集合;使用與所述非結(jié)構(gòu)化數(shù)據(jù)有關(guān)的信息來填入所述四面體,包括以下中的一個或多個 利用所述非結(jié)構(gòu)化數(shù)據(jù)的一個或多個原始數(shù)據(jù)文件來填入所述原始數(shù)據(jù)集合; 利用特定于所述非結(jié)構(gòu)化數(shù)據(jù)一個類型的一個或多個特性來填入所述低層特征集合;利用所述非結(jié)構(gòu)化數(shù)據(jù)的一個或多個語義特性來填入所述語義特征集合; 利用非結(jié)構(gòu)化數(shù)據(jù)通用的一個或多個屬性來填入所述基本屬性集合;以及利用不同集合的元素之間的關(guān)聯(lián)來填入所述四面體;以及將得以填入的四面體存儲在非瞬態(tài)計算機可讀存儲介質(zhì)中。
12.如權(quán)利要求11的方法,其中存儲所述得以填入的四面體進(jìn)一步包括 向所述四面體指派唯一標(biāo)識;以及將所述四面體與所述唯一標(biāo)識一起存儲在非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)管理系統(tǒng)(UDBMS)中。
13.如權(quán)利要求12的方法,其中所述存儲步驟進(jìn)一步包括將所述原始數(shù)據(jù)集合和所述低層特征集合中的元素存儲在所述UDBMS中的可擴展三維(3D)寬表中。
14.如權(quán)利要求12的方法,其中所述存儲步驟進(jìn)一步包括 將不同集合中元素之間的關(guān)聯(lián)存儲在所述UDBMS中的鄰接矩陣中。
15.如權(quán)利要求12的方法,其中所述基本屬性集合和所述語義特征集合中的元素存儲在一個或多個可擴展標(biāo)記語言(XML)文件中。
16.一種非瞬態(tài)計算機可讀存儲介質(zhì),其存儲有用于處理非結(jié)構(gòu)化數(shù)據(jù)的可執(zhí)行計算機程序指令,所述計算機程序指令包括用于下述操作的指令創(chuàng)建用于表示非結(jié)構(gòu)化數(shù)據(jù)的四面體數(shù)據(jù)模型(“四面體”)的實例,其中所述四面體包括基本屬性集合、語義特征集合、低層特征集合和原始數(shù)據(jù)集合;使用與所述非結(jié)構(gòu)化數(shù)據(jù)有關(guān)的信息來填入所述四面體,包括以下中的一個或多個 利用所述非結(jié)構(gòu)化數(shù)據(jù)的一個或多個原始數(shù)據(jù)文件來填入所述原始數(shù)據(jù)集合; 利用特定于所述非結(jié)構(gòu)化數(shù)據(jù)一個類型的一個或多個特性來填入所述低層特征集合;利用所述非結(jié)構(gòu)化數(shù)據(jù)的一個或多個語義特性來填入所述語義特征集合; 利用非結(jié)構(gòu)化數(shù)據(jù)通用的一個或多個屬性來填入所述基本屬性集合;以及利用不同集合的元素之間的關(guān)聯(lián)來填入所述四面體;以及將得以填入的四面體存儲在非瞬態(tài)計算機可讀存儲介質(zhì)中。
17.如權(quán)利要求16的存儲介質(zhì),其中存儲得以填入的四面體進(jìn)一步包括 向所述四面體指派唯一標(biāo)識;以及將所述四面體與所述唯一標(biāo)識一起存儲在非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)管理系統(tǒng)(UDBMS)中。
18.如權(quán)利要求17的存儲介質(zhì),其中所述存儲步驟進(jìn)一步包括將所述原始數(shù)據(jù)集合和所述低層特征集合中的元素存儲在所述UDBMS中的可擴展三維(3D)寬表中。
19.如權(quán)利要求17的存儲介質(zhì),其中所述存儲步驟進(jìn)一步包括 將不同集合中元素之間的關(guān)聯(lián)存儲在所述UDBMS中的鄰接矩陣中。
20.如權(quán)利要求17的存儲介質(zhì),其中所述基本屬性集合和所述語義特征集合中的元素存儲在一個或多個可擴展標(biāo)記語言(XML)文件中。
全文摘要
本發(fā)明公開了用于非結(jié)構(gòu)化數(shù)據(jù)四面體數(shù)據(jù)模型的系統(tǒng)、實現(xiàn)、應(yīng)用和查詢語言。四面體數(shù)據(jù)模型包括頂點、四個刻面以及刻面之間的連線。頂點表示底層非結(jié)構(gòu)化數(shù)據(jù)的唯一性標(biāo)識。四個刻面表示基本屬性、語義特征、低層特征和原始數(shù)據(jù)。連線表示連接元素之間的關(guān)系。四面體數(shù)據(jù)模型在非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)管理系統(tǒng)(UDBMS)中的邏輯模式中實現(xiàn),該UDBMS將基本屬性和語義特征存儲在XML文件中,使用三維寬表來存儲低層特征和原始數(shù)據(jù),以及將關(guān)聯(lián)存儲在鄰接矩陣中。創(chuàng)建和填入四面體的四面體注釋模塊可以集成至非結(jié)構(gòu)化數(shù)據(jù)處理裝置中。非結(jié)構(gòu)化數(shù)據(jù)查詢語言提供針對由UDBMS中的四面體數(shù)據(jù)模型表示的非結(jié)構(gòu)化數(shù)據(jù)的全面查詢操作。
文檔編號G06F17/30GK102591896SQ201110089509
公開日2012年7月18日 申請日期2011年4月11日 優(yōu)先權(quán)日2011年1月5日
發(fā)明者李曉耕, 李未, 郎波 申請人:北京大用科技有限責(zé)任公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
夏津县| 杂多县| 孟州市| 平远县| 韶关市| 海门市| 开原市| 女性| 西宁市| 岑溪市| 柯坪县| 凉城县| 东方市| 罗定市| 彝良县| 嘉峪关市| 峡江县| 平远县| 吉林市| 读书| 中山市| 霍山县| 五家渠市| 章丘市| 永清县| 信丰县| 临湘市| 汤阴县| 乐山市| 呈贡县| 宣武区| 临泉县| 垣曲县| 深州市| 金沙县| 武隆县| 信丰县| 渝北区| 南昌市| 五家渠市| 宣恩县|