欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于消費(fèi)信息提取服務(wù)的可擴(kuò)展表面的制作方法

文檔序號(hào):6365686閱讀:139來源:國知局

專利名稱::用于消費(fèi)信息提取服務(wù)的可擴(kuò)展表面的制作方法
技術(shù)領(lǐng)域
:本發(fā)明涉及用于消費(fèi)信息提取服務(wù)的可擴(kuò)展表面。
背景技術(shù)
:計(jì)算機(jī)和計(jì)算系統(tǒng)已經(jīng)影響了現(xiàn)代生活的幾乎每個(gè)方面。計(jì)算機(jī)通常在工作、休閑、保健、運(yùn)輸、娛樂、家政管理等中都有涉獵。計(jì)算系統(tǒng)常被用于信息管理。具體而言,計(jì)算系統(tǒng)可用于向用戶提供信息。然而,可以多種不同方式存儲(chǔ)信息并使其對(duì)用戶可用。例如,計(jì)算系統(tǒng)可以實(shí)現(xiàn)關(guān)系型數(shù)據(jù)庫管理系統(tǒng)(RDBMS)來存儲(chǔ)數(shù)據(jù)并將數(shù)據(jù)組織為結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)是按照語義組織的數(shù)據(jù)。此外,類似的數(shù)據(jù)實(shí)體常根據(jù)關(guān)系型數(shù)據(jù)庫中的關(guān)系或根據(jù)面向?qū)ο笙到y(tǒng)中的類型類來分組到一起。簡單RDBMS的示例僅是具有列和行的表格。列描述數(shù)據(jù)的類別而行存儲(chǔ)該類別的實(shí)例。RDBMS系統(tǒng)便于數(shù)據(jù)的高效檢索。例如,簡單表格可具有城市的列和當(dāng)前溫度的列。為了找到給定城市的溫度,標(biāo)識(shí)該城市列,并且在城市列中尋找感興趣的城市并且在城市列的特定行中找到它。標(biāo)識(shí)該溫度列,并且在該溫度列中標(biāo)識(shí)與該感興趣的城市相對(duì)應(yīng)的行,從而標(biāo)識(shí)感興趣的城市的溫度。因此,RDBMS中的數(shù)據(jù)通常是結(jié)構(gòu)化數(shù)據(jù)。另ー種類型的數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)通常不以允許計(jì)算系統(tǒng)立即標(biāo)識(shí)數(shù)據(jù)的類型或關(guān)系結(jié)構(gòu)的方式組織。例如,文本文檔可包含以下數(shù)據(jù)“里約熱內(nèi)盧的溫度現(xiàn)在是82度”。然而,里約熱內(nèi)盧沒有被結(jié)構(gòu)化為城市類型而82沒有被結(jié)構(gòu)化為溫度類型,也不存在里約熱內(nèi)盧和82度的形式化結(jié)構(gòu)圖。此外,文本文檔可包含描述全世界的各城市中的各溫度的多個(gè)句子。對(duì)自動(dòng)化計(jì)算系統(tǒng)來說,與使用能基于類別捜索數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)庫相比,使用文本文件中的非結(jié)構(gòu)化數(shù)據(jù)來確定給定城市的溫度更加困難。在此要求保護(hù)的主題不限于解決任何缺點(diǎn)或僅在諸如上述環(huán)境中操作的各個(gè)實(shí)施例。相反,提供該背景僅用以示出在其中可實(shí)踐在此描述的部分實(shí)施例的一個(gè)示例性
技術(shù)領(lǐng)域
。
發(fā)明內(nèi)容此處所述的ー個(gè)實(shí)施例是在計(jì)算環(huán)境中實(shí)施的方法。該方法包括用于按照允許使用關(guān)系型數(shù)據(jù)庫概念來查詢的方式表示從非結(jié)構(gòu)化數(shù)據(jù)提取的結(jié)構(gòu)化數(shù)據(jù)的動(dòng)作。該方法包括接收指定一個(gè)或多個(gè)數(shù)據(jù)庫視圖的用戶輸入。該方法進(jìn)ー步包括接收指定信息提取技術(shù)(諸如提取工作流)的用戶輸入。該方法進(jìn)ー步包括接收指定數(shù)據(jù)語料庫的用戶輸入。該提取技術(shù)被應(yīng)用到該數(shù)據(jù)語料庫以產(chǎn)生該ー個(gè)或多個(gè)數(shù)據(jù)庫視圖。然后使用數(shù)據(jù)庫工具來查詢這些視圖或?qū)ζ溥M(jìn)行操作。提供本
發(fā)明內(nèi)容以便以簡化形式介紹將在以下具體實(shí)施方式中進(jìn)ー步描述的ー些概念。本
發(fā)明內(nèi)容并非g在標(biāo)識(shí)所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不g在用于幫助確定所要求保護(hù)的主題的范圍。另外的特征和優(yōu)點(diǎn)將在以下的描述中闡述,并且部分可從該描述中顯而易見,或者可以從此處的教示實(shí)踐中習(xí)得。本發(fā)明的特征和優(yōu)點(diǎn)可以通過在所附權(quán)利要求中特別指出的手段和組合來實(shí)現(xiàn)并獲取。本發(fā)明的特征將從以下描述和所附權(quán)利要求書中變得完全顯而易見,或者可通過如下所述對(duì)本發(fā)明的實(shí)踐而獲知。為了描述可獲得本主題的上述和其它優(yōu)點(diǎn)和特征的方式,將通過參考附圖中示出的本主題的具體實(shí)施例來呈現(xiàn)以上簡要描述的本主題的更具體描述。應(yīng)該理解,這些附圖僅描繪了各典型實(shí)施例,因此其不應(yīng)被認(rèn)為是對(duì)范圍的限制,各實(shí)施例將通過使用附圖用附加特征和細(xì)節(jié)來描述并解釋,在附圖中圖I示出了通過工作流處理非結(jié)構(gòu)化數(shù)據(jù)的語料庫以產(chǎn)生一個(gè)或多個(gè)視圖;圖2示出了由示例工作流產(chǎn)生的視圖的集合;以及圖3示出了按照允許使用關(guān)系型數(shù)據(jù)庫概念來查詢的方式表示從非結(jié)構(gòu)化數(shù)據(jù)提取的結(jié)構(gòu)化數(shù)據(jù)的方法。具體實(shí)施例方式本文描述的ー些實(shí)施例可以實(shí)現(xiàn)用于將對(duì)非結(jié)構(gòu)化數(shù)據(jù)的提取表示成RDBMS中的結(jié)構(gòu)化數(shù)據(jù)的用戶表面。一些實(shí)施例包括用于表示對(duì)被表示為行集(rowset)的文檔的整個(gè)語料庫而不是僅對(duì)單個(gè)文檔進(jìn)行操作的提取的功能。一些實(shí)施例實(shí)現(xiàn)了用于展示復(fù)雜的、可獨(dú)立查詢的提取輸出(諸如實(shí)體-關(guān)系圖)的功能。一些實(shí)施例實(shí)現(xiàn)了用于通過被良好理解且良好支持的RDBMS概念(諸如表、視圖等)來展示提取輸出的功能。具體而言,實(shí)施例可將提取結(jié)果展示為視圖或包含視圖的模式(schemas),以使得這些結(jié)果能夠表示諸如圖(graph)等復(fù)雜結(jié)構(gòu)并且是可獨(dú)立查詢的。一些實(shí)施例可實(shí)現(xiàn)接口和提取方法來維持應(yīng)用提取時(shí)的相同感覺,不論提取細(xì)節(jié)如何,并因此能擴(kuò)展到數(shù)據(jù)庫中的新提取。數(shù)據(jù)提取系統(tǒng)可用于從非結(jié)構(gòu)化數(shù)據(jù)提取并分類數(shù)據(jù)以允許自動(dòng)化系統(tǒng)對(duì)該數(shù)據(jù)進(jìn)行分類數(shù)據(jù)捜索。這些提取系統(tǒng)可以確定或嘗試確定類型或關(guān)系信息,以使得非結(jié)構(gòu)化數(shù)據(jù)可被組織為結(jié)構(gòu)化數(shù)據(jù)。用戶越來越多地使用RDBMS來存儲(chǔ)非結(jié)構(gòu)化文檔,諸如文件、圖像、或大文本值。用于管理這樣的數(shù)據(jù)的ー些方法實(shí)現(xiàn)信息提取。信息提取包括輸入非結(jié)構(gòu)化文檔,然后輸出描述它們的結(jié)構(gòu)化數(shù)據(jù)的過程。一些示例包括但不限于從MP3文件提取ID3元數(shù)據(jù)、從文本提取實(shí)體和關(guān)系、以及識(shí)別圖片或視頻中的面部。出于許多原因,諸如保持?jǐn)?shù)據(jù)繁重的處理靠近數(shù)據(jù)以及利用如備份/恢復(fù)、復(fù)制、安全等現(xiàn)有管理特征,在數(shù)據(jù)庫中執(zhí)行這樣的提取是有價(jià)值的。RDBMS可支持某種內(nèi)建提取。這分為兩大類索引和專用數(shù)據(jù)類型。例如,全文本和XML索引輸入文本,并輸出結(jié)構(gòu)化索引。同樣,多媒體的專用數(shù)據(jù)類型通過函數(shù)執(zhí)行提取,例如,以從圖片中提取色彩數(shù)據(jù)。現(xiàn)在參考圖1,示出了ー個(gè)示例。圖I示出了數(shù)據(jù)語料庫102。數(shù)據(jù)語料庫102包括非結(jié)構(gòu)化數(shù)據(jù)。例如,數(shù)據(jù)語料庫102可包括一個(gè)或多個(gè)非結(jié)構(gòu)化的文本文檔、媒體文件、圖片、視頻、生物測定數(shù)據(jù)等。該非結(jié)構(gòu)化數(shù)據(jù)包括在實(shí)體層級(jí)沒有按照語義組織的數(shù)據(jù),因?yàn)樵摂?shù)據(jù)不具有形式化的類型和/或不處于正式實(shí)體層級(jí)關(guān)系中,其中在該正式實(shí)體層級(jí)關(guān)系中一個(gè)實(shí)體被正式相關(guān)(諸如通過圖、樹和/或其他關(guān)系結(jié)構(gòu))。如上所述,數(shù)據(jù)語料庫可以是單個(gè)文件或文檔,或者文件和/或文檔的集合。在一些實(shí)施例中,單個(gè)文件或文檔可用于自組織提取和捜索,如同下面將會(huì)更詳細(xì)地解釋的。在其他實(shí)施例中,單個(gè)文件或文檔,或文件和/或文檔的集合,可被提取到數(shù)據(jù)庫或其他結(jié)構(gòu),以用于單個(gè)自組織實(shí)例以外的進(jìn)行中的搜索和/或訪問。數(shù)據(jù)語料庫102可被饋送到信息提取工作流104中。信息提取工作流104定義從數(shù)據(jù)語料庫102提取該數(shù)據(jù)以將數(shù)據(jù)語料庫102中的數(shù)據(jù)組織為結(jié)構(gòu)化數(shù)據(jù)的方式?,F(xiàn)在示出信息提取工作流的示例。盡管示出了特定示例,然而應(yīng)當(dāng)理解,這些示例不是對(duì)提取技術(shù)的窮舉,也可以使用其他提取技木。在一些實(shí)施例中,提取工作流可包括短語語義提取技木。具體而言,實(shí)施例可包括能夠基于短語或短語中的字的語義環(huán)境來確定與該短語或該字有關(guān)的元數(shù)據(jù)的模塊。例如,可以通過詞語彼此的鄰近度來確定關(guān)系。例如,如果發(fā)現(xiàn)跨各文檔的語料庫術(shù)語Microsoft和Excel緊挨著彼此,則短語語義分析可確定這兩個(gè)術(shù)語是有關(guān)的??梢允褂米值浠蛟~法定義來創(chuàng)建字或短語的類型或關(guān)系。例如,里約熱內(nèi)盧的詞法定義會(huì)將它標(biāo)識(shí)為ー個(gè)城市,并且因此可以提取將里約熱內(nèi)盧分類為城市類型的元數(shù)據(jù)。在另ー示例中,文檔可具有文本“January13,2011(2011年I月13日)”??梢允褂肑anuary(l月)的詞法查找來確定它是在確定日期時(shí)使用的月份,并因此可以做出此文本是日期類型的判斷。在一些實(shí)施例中,提取工作流可包括關(guān)系標(biāo)識(shí)功能。例如,文本文檔可包含短語“cityofRiodeJaneiro(里約熱內(nèi)盧市)”?;谠摱陶Z的語法,可以確定里約熱內(nèi)盧是類型“城市”的對(duì)象。在另ー示例中,文本文檔可包括文本“Author:RobertSmith(作者RobertSmith)”。基于常見語法,可以將它提取為“RobertSmith”是類型“author(作者)”的對(duì)象。語法和關(guān)系標(biāo)識(shí)可以是基于標(biāo)識(shí)關(guān)系和/或基于標(biāo)識(shí)關(guān)系的經(jīng)驗(yàn)的學(xué)習(xí)的用戶輸入的。例如,可以接收用戶輸入,其中用戶標(biāo)識(shí)短語中的關(guān)系,諸如通過在標(biāo)識(shí)類型時(shí)標(biāo)識(shí)該對(duì)象。例如,在上面示出的示例中,用戶可以標(biāo)識(shí)詞語“城市”以代表類型,并標(biāo)識(shí)“里約熱內(nèi)盧”來表示類型“城市”的對(duì)象。可以剖析后續(xù)的具有類似語法的短語以提取元數(shù)據(jù)以創(chuàng)建結(jié)構(gòu)化數(shù)據(jù)。在一些實(shí)施例中,提取工作流可包括屬性提升(propertypromotion)。例如,音樂文件(諸如mp3文件)可包括該mp3文件中的元數(shù)據(jù)。這些元數(shù)據(jù)可定義藝術(shù)家、歌曲標(biāo)題、歌曲長度等。該元數(shù)據(jù)可被提升到結(jié)構(gòu)化數(shù)據(jù)。在一些實(shí)施例中,提取工作流可包括實(shí)體識(shí)別或?qū)嶓w提取工作流。例如,文檔可包含公司名稱的列表。工作流可被設(shè)計(jì)為將公司名稱標(biāo)識(shí)為公司名稱。這可被用于通過類型或以關(guān)系為基礎(chǔ)來結(jié)構(gòu)化文檔中的數(shù)據(jù)。在一些實(shí)施例中,提取工作流可包括實(shí)體消歧(disambiguation)。例如,工作流在一個(gè)或多個(gè)文檔中可能遇到PedroDeRose和DeRose博士和DeRose先生的不同數(shù)據(jù)。該工作流可以能夠確定這些數(shù)據(jù)點(diǎn)中的每ー個(gè)表示同一個(gè)人。在一些實(shí)施例中,提取工作流可包括模式識(shí)別。在圖像中的面部識(shí)別中示出了一個(gè)這樣的示例。例如,在一個(gè)實(shí)施例中,模式識(shí)別可以簡單地注釋面部出現(xiàn)??闪磉x地或附加地,實(shí)施例可以基于面部的字典來標(biāo)識(shí)該面部。如圖I所示,使數(shù)據(jù)語料庫102穿過提取工作流104可用于產(chǎn)生一個(gè)或多個(gè)數(shù)據(jù)庫視圖106。該數(shù)據(jù)庫視圖可以是可對(duì)其運(yùn)行單個(gè)查詢或單組查詢的自組織視圖,或者是更持久的以對(duì)擴(kuò)展的數(shù)量或擴(kuò)展的組的查詢在擴(kuò)展的時(shí)間段上使用。這些視圖可以表示多個(gè)不同形式的數(shù)據(jù)中的ー個(gè),包括表、圖等。在一些實(shí)施例中,視圖的集合可表示此數(shù)據(jù)。例如,可從微軟公司獲得的SQL服務(wù)器的模式是這種視圖集合的示例。當(dāng)輸出多個(gè)視圖時(shí),提取工作流可以將它們分組在這樣的集合中。該提取技術(shù)除了被用于產(chǎn)生視圖以外,該提取技術(shù)可進(jìn)一歩被用于產(chǎn)生過程。這些過程可以定義對(duì)ー個(gè)或多個(gè)視圖的內(nèi)容進(jìn)行操作、管理或刷新的方法。使用用于對(duì)這些視圖進(jìn)行操作的數(shù)據(jù)庫系統(tǒng)能夠訪問這些過程。在高層次上,用戶可以用非結(jié)構(gòu)化文檔的表格開始。在圖I中,這被示出為數(shù)據(jù)語料庫102。在一些實(shí)施例中,數(shù)據(jù)語料庫可包括若干不同文檔。用戶指定與提取有關(guān)的服務(wù)來執(zhí)行提取,諸如提取元數(shù)據(jù)屬性、提取實(shí)體和關(guān)系、使用短語語義進(jìn)行提取等。這作為圖I的示例由提取工作流104示出。工作流104表示用戶指定的特定提取類型。用戶還選擇他們是否想要展示結(jié)構(gòu)化的結(jié)果。這在圖I中由視圖106示出。在一些實(shí)施例中,無論所指定的特定提取如何,選擇和展示提取的不同方法可以是相同的,或非常類似的,以創(chuàng)建用于結(jié)構(gòu)化非結(jié)構(gòu)化數(shù)據(jù)的通用過程。具體而言,用戶可以能夠使用標(biāo)準(zhǔn)化用戶接ロ或API來調(diào)用不同提取。從本高層次圖示中,進(jìn)ー步探究了各種中間概念。第一個(gè)概念是已存儲(chǔ)文檔的概念。這與在提取之前文檔如何在數(shù)據(jù)庫中存儲(chǔ)有夫。已存儲(chǔ)文檔可以是作為表格中的行或視圖的文檔。在本不例中,該行具有卩隹ーid,該卩隹一id可以是該表格上的卩隹ー鍵的一部分。該行可以具有多個(gè)具有文本或ニ進(jìn)制碼的列,該文本或ニ進(jìn)制碼可以等同于文檔的已命名章節(jié)。文檔語料庫可以是行集,諸如表格或視圖。第二個(gè)概念是自組織文檔的概念。本概念針對(duì)當(dāng)文檔沒有被存儲(chǔ)而是為單個(gè)查詢而被提供吋,如何表示這些文檔。在一些用于與可從華盛頓雷蒙德的微軟公司獲得的SQL服務(wù)器一起使用的示例實(shí)施例中,SQL服務(wù)器CLR類型(被稱為文檔)可被用于表示被指定為URI的文檔。例如DECLAREidDOCUMENT=‘file://···’·第三個(gè)概念是提取工作流的概念。提取工作流定義并命名用于從非結(jié)構(gòu)化數(shù)據(jù)提取結(jié)構(gòu)的過程。可以實(shí)現(xiàn)一些實(shí)施例,其中用戶能創(chuàng)建他們自己的提取工作流。附加地或可另選地,一些實(shí)施例可具有系統(tǒng)定義的工作流。例如,該系統(tǒng)可以定義從文件提取元數(shù)據(jù)的property_promotion(屬性_提升)工作流,或者提取已命名實(shí)體和關(guān)系的entity_relationship(實(shí)體_關(guān)系)工作流。每個(gè)工作流是一已命名黑箱,該黑箱展示它接受什么配置選項(xiàng),以及在它能被創(chuàng)建之前什么其他提取工作流應(yīng)當(dāng)存在。這可以通過數(shù)據(jù)庫中的系統(tǒng)目錄展示。第四個(gè)概念是提取調(diào)用的概念。提取調(diào)用包括向文檔的特定語料庫應(yīng)用提取工作流。該調(diào)用包括指定該工作流可用的配置選項(xiàng),指定用于在語料庫變化時(shí)應(yīng)當(dāng)如何更新提取輸出的更新政策(例如,自動(dòng)地,人工地),以及當(dāng)需要提取輸出時(shí)在其上構(gòu)建的現(xiàn)有提取輸出。因此,該調(diào)用可被視為提取管道的創(chuàng)建,該提取管道將使用該工作流處理文檔并產(chǎn)生輸出。在一些實(shí)施例中,為了表示調(diào)用,可以使用子句。下面示出了可被定義的子句的示例USINGEXTRACTIONextraction_workflow_nameONdocument_table(document_columns)WITHconfiguration_optionsREFERENCESexisting_extraction_output上面示出了可由系統(tǒng)接受的調(diào)用子句的非常具體的示例,而可以使用另選的子句或其他調(diào)用方法。USINGEXTRACTION(使用提取)被用于定義在數(shù)據(jù)語料庫上操作的ー個(gè)或多個(gè)提取工作流。此處,extraction_workflow_name(提取_工作流_名稱)表示針對(duì)特定用戶的提取工作流。ON(對(duì)于)被用于定義數(shù)據(jù)語料庫。WITH(具有)被用于定義各配置選項(xiàng),諸如用于基于字典的提取的字典,或輸入文檔中要忽略的ー組無用詞(stop-word)。REFERENCES(參考)用于定義要在其上構(gòu)筑的現(xiàn)有提取輸出。例如,定義實(shí)體間關(guān)系的提取工作流可以在提取了這些實(shí)體的早先提取工作流的輸出上構(gòu)筑。這里,REFERENCES將指向該早先提取工作流的輸出。一些實(shí)施例可以實(shí)現(xiàn)并使用自組織調(diào)用。自組織調(diào)用將提取工作流應(yīng)用到特定自組織文檔。然而,一些提取使用包括多個(gè)文檔在內(nèi)的語料庫作為上下文。例如,考慮ー工作流,該工作流使用對(duì)語料庫中的短語頻率的靜態(tài)分析來從文本中提取關(guān)鍵概念。這種提取使用包括多個(gè)文檔在內(nèi)的語料庫作為上下文來從每個(gè)單獨(dú)文檔中提取關(guān)鍵短語而獲得更好的效果。因此,自組織提取可以指定由在現(xiàn)有語料庫的基礎(chǔ)上的提取創(chuàng)建的現(xiàn)有提取輸出。對(duì)于非自組織調(diào)用,實(shí)施例可使用上面的用于自組織調(diào)用的子句上的變型。下面示出了上面示出的調(diào)用的ー個(gè)非常具體的變型。USINGEXTRACTIONstatistically_key_phrasesONad-hocdocumentBASISexisting_extraction_output在本示例中,關(guān)鍵短語將從該自組織文檔(ad-hocdocument)中提取,其中該自組織文檔不作為單個(gè)文檔,而是就像它是用于產(chǎn)生現(xiàn)有提取輸出的語料庫的一部分一祥。提取輸出表示在文檔的語料庫上調(diào)用提取工作流的結(jié)構(gòu)化輸出。此輸出可以是可獨(dú)立查詢的。然而,在它來自對(duì)基礎(chǔ)數(shù)據(jù)應(yīng)用ー過程的意義上,它是推導(dǎo)出的數(shù)據(jù)。在RDBM上,表示可獨(dú)立查詢的推導(dǎo)出的數(shù)據(jù)的概念可以是視圖。因此,在一些實(shí)施例中,提取的輸出被展示為視圖。此視圖可以是使用適當(dāng)?shù)恼{(diào)用持久化的,或者用于通過自組織命令中的自組織調(diào)用的單個(gè)自組織查詢。例如,WITH命令是在可從華盛頓雷蒙德的微軟公司獲得的SQL服務(wù)器中使用的自組織命令?!┨崛‘a(chǎn)生可不被清晰顯示為單個(gè)視圖的輸出。例如,考慮ー提取,該提取輸出實(shí)體-關(guān)系圖。這種圖的ー個(gè)自然的關(guān)系型表示是將其對(duì)于多個(gè)緊密相關(guān)的視圖歸ー化。ー些數(shù)據(jù)庫系統(tǒng)實(shí)現(xiàn)能夠包含多個(gè)視圖的集合単元。例如,在SQL服務(wù)器中,能夠包含多個(gè)視圖的単元被稱為“模式”,而不與定義結(jié)構(gòu)和內(nèi)容的其他上下文中使用的模式相混淆。因此,當(dāng)提取輸出多個(gè)視圖吋,它可以被持久化為包含那些視圖的集合。接下來是多個(gè)用例示例。可實(shí)現(xiàn)其中用戶確定哪些類型的提取可用的實(shí)施例。例如,數(shù)據(jù)庫可包括允許用戶查詢可用提取的用戶接ロ,以及應(yīng)當(dāng)為那些提取指定的屬性。例如,用戶可以提交會(huì)致使該系統(tǒng)指示屬性提升和短語語義提取可用的查詢。例如,一些實(shí)施例包括允許用戶確定什么提取工作流可用的命令。例如,在ー個(gè)非常具體的實(shí)施例中,下面的命令SELECT*FR0Msys.extraction_workflows;產(chǎn)生下面的表格輸出權(quán)利要求1.一種在計(jì)算環(huán)境中的按照允許使用關(guān)系型數(shù)據(jù)庫概念來查詢的方式表示從非結(jié)構(gòu)化數(shù)據(jù)提取的結(jié)構(gòu)化數(shù)據(jù)的方法,所述方法包括接收指定一個(gè)或多個(gè)數(shù)據(jù)庫視圖(106)的用戶輸入(302);接收指定信息提取技術(shù)的用戶輸入(304);接收指定數(shù)據(jù)語料庫(102)的用戶輸入(306);以及將所述提取技術(shù)應(yīng)用到所述數(shù)據(jù)語料庫(102)以產(chǎn)生所述ー個(gè)或多個(gè)數(shù)據(jù)庫視圖(106)(308)。2.如權(quán)利要求I所述的方法,其特征在于,所述ー個(gè)或多個(gè)視圖包括單個(gè)查詢的ー個(gè)或多個(gè)自組織視圖。3.如權(quán)利要求I所述的方法,其特征在于,多個(gè)視圖被指定為視圖的集合。4.如權(quán)利要求I所述的方法,其特征在于,還包括接收與所述提取技術(shù)有關(guān)的附加選項(xiàng)。5.如權(quán)利要求I所述的方法,其特征在于,還包括對(duì)所產(chǎn)生的視圖執(zhí)行ー個(gè)或多個(gè)查詢。6.如權(quán)利要求I所述的方法,其特征在于,應(yīng)用所述提取技術(shù)還產(chǎn)生過程。7.如權(quán)利要求6所述的方法,其特征在于,所述過程定義對(duì)所述ー個(gè)或多個(gè)視圖進(jìn)行操作的方法。8.如權(quán)利要求I所述的方法,其特征在于,所述提取技術(shù)包括語義提取技木。9.如權(quán)利要求I所述的方法,其特征在于,所述提取技術(shù)包括屬性提升。10.如權(quán)利要求I所述的方法,其特征在于,所述提取技術(shù)包括關(guān)系標(biāo)識(shí)。11.如權(quán)利要求I所述的方法,其特征在于,所述提取技術(shù)包括實(shí)體識(shí)別或?qū)嶓w提取。12.如權(quán)利要求I所述的方法,其特征在于,所述提取技術(shù)包括實(shí)體消歧。13.如權(quán)利要求I所述的方法,其特征在于,所述ー個(gè)或多個(gè)視圖表示圖。14.如權(quán)利要求I所述的方法,其特征在于,所述ー個(gè)或多個(gè)視圖表示表格數(shù)據(jù)。15.如權(quán)利要求I所述的方法,其特征在于,所述提取技術(shù)包括模式識(shí)別。全文摘要本發(fā)明涉及用于消費(fèi)信息提取服務(wù)的可擴(kuò)展表面。按照允許使用關(guān)系型數(shù)據(jù)庫概念查詢的方式表示從非結(jié)構(gòu)化數(shù)據(jù)提取的結(jié)構(gòu)化數(shù)據(jù)。一種方法包括接收指定一個(gè)或多個(gè)數(shù)據(jù)庫視圖的用戶輸入。該方法進(jìn)一步包括接收指定信息提取技術(shù)(諸如提取工作流)的用戶輸入。該方法進(jìn)一步包括接收指定數(shù)據(jù)語料庫的用戶輸入。該提取技術(shù)被應(yīng)用到該數(shù)據(jù)語料庫以產(chǎn)生該一個(gè)或多個(gè)數(shù)據(jù)庫視圖。然后使用數(shù)據(jù)庫工具來查詢這些視圖或?qū)ζ溥M(jìn)行操作。文檔編號(hào)G06F17/30GK102693269SQ20121005287公開日2012年9月26日申請(qǐng)日期2012年3月2日優(yōu)先權(quán)日2011年3月4日發(fā)明者P·D·德羅塞申請(qǐng)人:微軟公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
文昌市| 吴川市| 涿鹿县| 建水县| 天祝| 莆田市| 建湖县| 抚宁县| 德庆县| 红桥区| 故城县| 闽清县| 威海市| 东乡县| 西昌市| 马公市| 防城港市| 中宁县| 溆浦县| 武义县| 乌海市| 读书| 项城市| 汉阴县| 大理市| 弥渡县| 拜泉县| 邵东县| 南雄市| 海南省| 鱼台县| 达拉特旗| 柘荣县| 衡山县| 全州县| 徐水县| 兴宁市| 宁明县| 屏南县| 石林| 云林县|