理解供搜索的表格的制作方法
【專利說(shuō)明】理解供搜索的表格
[0001] 相關(guān)申請(qǐng)的交叉引用
[0002] 不適用 [0003] 背景
[0004] 1.背景和相關(guān)技術(shù)
[0005] 計(jì)算機(jī)系統(tǒng)及相關(guān)技術(shù)影響社會(huì)的許多方面。的確,計(jì)算機(jī)系統(tǒng)處理信息的能力 已轉(zhuǎn)變了人們生活和工作的方式。現(xiàn)在,計(jì)算機(jī)系統(tǒng)通常執(zhí)行在計(jì)算機(jī)系統(tǒng)出現(xiàn)以前人工 執(zhí)行的許多任務(wù)(例如,文字處理、日程安排、帳目管理等)。最近,計(jì)算機(jī)系統(tǒng)彼此耦合并耦 合到其他電子設(shè)備以形成計(jì)算機(jī)系統(tǒng)及其他電子設(shè)備可在其上傳輸電子數(shù)據(jù)的有線和無(wú) 線計(jì)算機(jī)網(wǎng)絡(luò)。因此,許多計(jì)算任務(wù)的執(zhí)行被分布在多個(gè)不同的計(jì)算機(jī)系統(tǒng)和/或多個(gè)不同 的計(jì)算環(huán)境中。
[0006] 搜索引擎可以被用在包括因特網(wǎng)的網(wǎng)絡(luò)上以定位用戶感興趣的信息。搜索引擎通 常使用在諸如因特網(wǎng)之類的網(wǎng)絡(luò)上連續(xù)爬行網(wǎng)頁(yè)的爬行器,以索引內(nèi)容。為了找到內(nèi)容,用 戶向搜索引擎提交一個(gè)或多個(gè)搜索項(xiàng)。搜索引擎標(biāo)識(shí)被認(rèn)為包含與所述一個(gè)或多個(gè)搜索項(xiàng) 有關(guān)的內(nèi)容的頁(yè)面。搜索引擎隨后將到所標(biāo)識(shí)的頁(yè)面的鏈接返回給用戶。用戶可以隨后選 擇(例如"點(diǎn)擊")鏈接以查看對(duì)應(yīng)頁(yè)面的內(nèi)容。
[0007] 結(jié)構(gòu)化數(shù)據(jù)搜索系統(tǒng)(SDSS)類似地爬行諸如因特網(wǎng)之類的網(wǎng)絡(luò)以索引結(jié)構(gòu)化信 息。結(jié)構(gòu)化信息可以包括在關(guān)系型數(shù)據(jù)庫(kù)中的表格或從網(wǎng)頁(yè)提取的HTML表格。為了找到內(nèi) 容,用戶將一個(gè)或多個(gè)搜索項(xiàng)提交給SDSSdDSS標(biāo)識(shí)被認(rèn)為包含與所述一個(gè)或多個(gè)搜索項(xiàng) 有關(guān)的內(nèi)容的結(jié)構(gòu)化數(shù)據(jù),例如表格。搜索引擎隨后將結(jié)構(gòu)化數(shù)據(jù)返回給用戶。用戶可以隨 后將結(jié)構(gòu)化數(shù)據(jù)整合入他們的應(yīng)用中。
[0008] 為了有效索引結(jié)構(gòu)化數(shù)據(jù),例如表格,對(duì)結(jié)構(gòu)化數(shù)據(jù)的至少一些理解是必要的。網(wǎng) 絡(luò)上的一些表格可以明確地定義他們的主題列和列標(biāo)題。SDSS可以相對(duì)有效地索引這些類 型的表格。網(wǎng)絡(luò)上的其他表格可能沒(méi)有明確地定義他們的主題列和/或列標(biāo)題。SDSS可能不 能索引這些其他類型的表格。
[0009] 由于在因特網(wǎng)上的內(nèi)容生成的多樣性,因特網(wǎng)上的表格的相當(dāng)部分缺少明確定義 的主題列和/或明確定義的列標(biāo)題。因?yàn)镾DSS可能不能夠索引缺少明確的主題列和/或明確 定義的列標(biāo)題的表格,響應(yīng)于用戶搜索返回這樣的表格是相當(dāng)不可能的。這樣,對(duì)于用戶來(lái) 說(shuō)要找到缺少明確的主題列和/或缺少明確定義的列標(biāo)題的表格是非常困難的,即使這樣 的表格的內(nèi)容將是有用的。
[0010] 簡(jiǎn)要概述
[0011] 本發(fā)明涉及用于理解供搜索的表格的方法、系統(tǒng)、和計(jì)算機(jī)程序產(chǎn)品。本發(fā)明的各 方面包括標(biāo)識(shí)表格的主題列,使用其它表格檢測(cè)一個(gè)表格的列標(biāo)題,并用知識(shí)庫(kù)檢測(cè)表格 的列標(biāo)題。
[0012] 提供該概述以便以簡(jiǎn)化形式介紹概念的選集,所述概念在以下詳細(xì)描述中被進(jìn)一 步描述。本概述并非旨在標(biāo)識(shí)出要求保護(hù)的主題的關(guān)鍵特征或必要特征,亦非旨在用作輔 助確定要求保護(hù)的主題的范圍。
[0013] 本發(fā)明的附加特征和優(yōu)點(diǎn)將在以下描述中敘述,并且其一部分根據(jù)本描述將是顯 而易見(jiàn)的,或者可通過(guò)對(duì)本發(fā)明的實(shí)踐來(lái)獲知。本發(fā)明的特征和優(yōu)點(diǎn)可通過(guò)在所附權(quán)利要 求書(shū)中特別指出的工具和組合來(lái)實(shí)現(xiàn)和獲得。本發(fā)明的這些以及其它特征、優(yōu)點(diǎn)和特征將 根據(jù)以下描述和所附權(quán)利要求而變得更顯而易見(jiàn),或者可通過(guò)如此后闡述的對(duì)本發(fā)明的實(shí) 踐而獲知。
[0014] 附圖簡(jiǎn)述
[0015] 為了描述可獲得本發(fā)明的上述和其它優(yōu)點(diǎn)和特征的方式,將通過(guò)參考附圖中示出 的本發(fā)明的具體實(shí)現(xiàn)來(lái)對(duì)以上簡(jiǎn)要描述的本發(fā)明進(jìn)行更具體描述??梢岳斫?,這些附圖僅 描述本發(fā)明的一些實(shí)現(xiàn),從而不被認(rèn)為是對(duì)其范圍的限制,本發(fā)明將通過(guò)使用附圖用附加 特征和細(xì)節(jié)來(lái)描述和說(shuō)明,在附圖中:
[0016] 圖1示出便利于從結(jié)構(gòu)化數(shù)據(jù)的一個(gè)或多個(gè)數(shù)據(jù)集中構(gòu)建一個(gè)或多個(gè)索引的示例 計(jì)算機(jī)體系結(jié)構(gòu)。
[0017] 圖2示出便利于標(biāo)識(shí)表格的主題列的示例計(jì)算機(jī)體系結(jié)構(gòu)。
[0018] 圖3示出了用于標(biāo)識(shí)表格的主題列的示例方法的流程圖。
[0019] 圖4示出便利于檢測(cè)表格的列標(biāo)題的示例的計(jì)算機(jī)體系結(jié)構(gòu)。
[0020] 圖5示出了用于檢測(cè)表格的列標(biāo)題的示例方法的流程圖。
[0021] 圖6示出示例表格。
[0022] 圖7示出被用于從實(shí)例集中推斷概念的各種公式。
[0023] 圖8示出了示例標(biāo)題行。
[0024] 圖9示出被用于計(jì)算所提取的屬性的典型性分?jǐn)?shù)的各種公式。
[0025] 圖10示出示例表格。
[0026]圖11示出便利于理解表格的示例體系結(jié)構(gòu)。
[0027] 詳細(xì)描述
[0028] 本發(fā)明涉及用于理解供搜索的表格的方法、系統(tǒng)、和計(jì)算機(jī)程序產(chǎn)品。本發(fā)明的各 方面包括標(biāo)識(shí)表格的主題列,使用其它表格檢測(cè)一個(gè)表格的列標(biāo)題,并用知識(shí)庫(kù)檢測(cè)表格 的列標(biāo)題。
[0029] 本發(fā)明的各實(shí)現(xiàn)可包括或利用專用或通用計(jì)算機(jī),該專用或通用計(jì)算機(jī)包括諸如 舉例而言一個(gè)或多個(gè)處理器和系統(tǒng)存儲(chǔ)器的計(jì)算機(jī)硬件,如以下更詳細(xì)討論的。本發(fā)明范 圍內(nèi)的各實(shí)現(xiàn)還包括用于承載或存儲(chǔ)計(jì)算機(jī)可執(zhí)行指令和/或數(shù)據(jù)結(jié)構(gòu)的物理和其它計(jì)算 機(jī)可讀介質(zhì)。這樣的計(jì)算機(jī)可讀介質(zhì)可以是可由通用或?qū)S糜?jì)算機(jī)系統(tǒng)訪問(wèn)的任何可用介 質(zhì)。存儲(chǔ)計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì)是計(jì)算機(jī)存儲(chǔ)介質(zhì)(設(shè)備)。承載計(jì)算機(jī)可執(zhí) 行指令的計(jì)算機(jī)可讀介質(zhì)是傳輸介質(zhì)。'由此,作為示例而非限制,本發(fā)明的各實(shí)現(xiàn)可包括 至少兩種顯著不同種類的計(jì)算機(jī)可讀介質(zhì):計(jì)算機(jī)存儲(chǔ)介質(zhì)(設(shè)備)和傳輸介質(zhì)。
[0030] 計(jì)算機(jī)存儲(chǔ)介質(zhì)(設(shè)備)包括RAM、R0M、EEPR0M、CD-R0M、固態(tài)驅(qū)動(dòng)器("SSD")(如基 于RAM)、閃存、相變存儲(chǔ)器("PCM")、其他類型的存儲(chǔ)器、其他光盤存儲(chǔ)、磁盤存儲(chǔ)或其他磁 存儲(chǔ)設(shè)備、或可用于存儲(chǔ)計(jì)算機(jī)可執(zhí)行指令或數(shù)據(jù)結(jié)構(gòu)形式的所需程序代碼裝置且可由通 用或?qū)S糜?jì)算機(jī)訪問(wèn)的任何其他介質(zhì)。
[0031] "網(wǎng)絡(luò)"被定義為使得電子數(shù)據(jù)能夠在計(jì)算機(jī)系統(tǒng)和/或模塊和/或其它電子設(shè)備 之間傳輸?shù)囊粋€(gè)或多個(gè)數(shù)據(jù)鏈路。當(dāng)信息通過(guò)網(wǎng)絡(luò)或另一個(gè)通信連接(硬連線、無(wú)線、或者 硬連線或無(wú)線的組合)傳輸或提供給計(jì)算機(jī)時(shí),該計(jì)算機(jī)將該連接適當(dāng)?shù)匾暈閭鬏斀橘|(zhì)。傳 輸介質(zhì)可以包括可以用來(lái)攜帶所需要的以計(jì)算機(jī)可執(zhí)行的指令或數(shù)據(jù)結(jié)構(gòu)的形式存在的 程序代碼裝置并可以被通用或?qū)S糜?jì)算機(jī)訪問(wèn)的網(wǎng)絡(luò)和/或數(shù)據(jù)鏈路。上述的組合應(yīng)當(dāng)也 被包括在計(jì)算機(jī)可讀介質(zhì)的范圍內(nèi)。
[0032] 此外,在到達(dá)各種計(jì)算機(jī)系統(tǒng)組件之后,計(jì)算機(jī)可執(zhí)行指令或數(shù)據(jù)結(jié)構(gòu)形式的程 序代碼裝置可從傳輸介質(zhì)自動(dòng)傳輸?shù)接?jì)算機(jī)存儲(chǔ)介質(zhì)(設(shè)備)(或反之亦然)。例如,通過(guò)網(wǎng) 絡(luò)或數(shù)據(jù)鏈接接收到的計(jì)算機(jī)可執(zhí)行指令或數(shù)據(jù)結(jié)構(gòu)可被緩存在網(wǎng)絡(luò)接口模塊(例如, "NIC")內(nèi)的RAM中,然后最終被傳輸?shù)接?jì)算機(jī)系統(tǒng)RAM和/或計(jì)算機(jī)系統(tǒng)處的較不易失性的 計(jì)算機(jī)存儲(chǔ)介質(zhì)(設(shè)備)。因而,應(yīng)當(dāng)理解,計(jì)算機(jī)存儲(chǔ)介質(zhì)(設(shè)備)可被包括在還利用(甚至 主要利用)傳輸介質(zhì)的計(jì)算機(jī)系統(tǒng)組件中。
[0033] 計(jì)算機(jī)可執(zhí)行指令例如包括,當(dāng)在處理器處執(zhí)行時(shí)使通用計(jì)算機(jī)、專用計(jì)算機(jī)、或 專用處理設(shè)備執(zhí)行某一功能或某組功能的指令和數(shù)據(jù)。計(jì)算機(jī)可執(zhí)行指令可以是例如二進(jìn) 制代碼、諸如匯編語(yǔ)言之類的中間格式指令、或甚至源代碼。盡管用結(jié)構(gòu)特征和/或方法動(dòng) 作專用的語(yǔ)言描述了本主題,但可以理解,所附權(quán)利要求書(shū)中定義的主題不必限于上述特 征或動(dòng)作。相反,上述特征和動(dòng)作是作為實(shí)現(xiàn)權(quán)利要求的示例形式而公開(kāi)的。
[0034] 本領(lǐng)域的技術(shù)人員將理解,本發(fā)明可以在具有許多類型的計(jì)算機(jī)系統(tǒng)配置的網(wǎng)絡(luò) 計(jì)算環(huán)境中實(shí)踐,這些計(jì)算機(jī)系統(tǒng)配置包括個(gè)人計(jì)算機(jī)、臺(tái)式計(jì)算機(jī)、膝上型計(jì)算機(jī)、消息 處理器、手持式設(shè)備、多處理器系統(tǒng)、基于微處理器的或可編程消費(fèi)電子設(shè)備、網(wǎng)絡(luò)PC、小型 計(jì)算機(jī)、大型計(jì)算機(jī)、移動(dòng)電話、PDA、平板、尋呼機(jī)、路由器、交換機(jī)等等。本發(fā)明也可在其中 通過(guò)網(wǎng)絡(luò)鏈接(或者通過(guò)硬連線數(shù)據(jù)鏈路、無(wú)線數(shù)據(jù)鏈路,或者通過(guò)硬連線和無(wú)線數(shù)據(jù)鏈路 的組合)的本地和遠(yuǎn)程計(jì)算機(jī)系統(tǒng)兩者都執(zhí)行任務(wù)的分布式系統(tǒng)環(huán)境中實(shí)施。在分布式系 統(tǒng)環(huán)境中,程序模塊可以位于本地和遠(yuǎn)程存儲(chǔ)器存儲(chǔ)設(shè)備二者中。
[0035]本發(fā)明還可以在云計(jì)算環(huán)境中實(shí)現(xiàn)。在該描述和下面的權(quán)利要求書(shū)中,"云計(jì)算" 被定義為用于允許對(duì)可配置計(jì)算資源的共享池的按需網(wǎng)絡(luò)訪問(wèn)的模型。例如,云計(jì)算可被 用于市場(chǎng),以便提供對(duì)可配置計(jì)算資源的共享池的普遍存在且方便的按需訪問(wèn)??膳渲糜?jì) 算資源的共享池可經(jīng)由虛擬化而被快速地供應(yīng),并可利用低管理努力或服務(wù)提供商干預(yù)來(lái) 發(fā)布,并隨后因此被縮放。
[0036] 云計(jì)算模型可由各種特性組成,諸如按需自服務(wù)、廣泛網(wǎng)絡(luò)訪問(wèn)、資源池、快速靈 活性、測(cè)定的服務(wù)等。云計(jì)算模型還可形成各種服務(wù)模型,諸如例如軟件即服務(wù)(SaaS)、平 臺(tái)即服務(wù)(PaaS)以及基礎(chǔ)結(jié)構(gòu)即服務(wù)(IaaS)。云計(jì)算模型還可以使用不同的部署模型來(lái)部 署,諸如私有云、社區(qū)云、公共云和混合云等。在本說(shuō)明書(shū)和權(quán)利要求中,"云計(jì)算環(huán)境"是在 其中部署了云計(jì)算的環(huán)境。
[0037] 在這些描述和下面的權(quán)利要求中,"表格"被定義為使用垂直列和水平行的模型的 數(shù)據(jù)元素(值)的集合。行和列的每個(gè)交集表示一個(gè)單元格。行可以由出現(xiàn)在指定列子集(例 如被標(biāo)識(shí)為關(guān)鍵字索引)中的值來(lái)標(biāo)識(shí)??梢栽跀?shù)據(jù)庫(kù)中、web頁(yè)面中、從在圖像(例如白板) 中所捕獲的有組織的數(shù)據(jù)集中找到表格,在其它文件(例如便攜文檔格式("PDF")文件)中 找到表格,或在其它源等找到表格。本發(fā)明的各方面可以被用于理解來(lái)自任何這些源中的 表格。
[0038] 表格的一個(gè)或多個(gè)列可以是主題列。主題列包含該表格有關(guān)的實(shí)體的名字。表格 中的其它列表示主題列中的實(shí)體的關(guān)系或?qū)傩?。主題列可以被看作為近似關(guān)鍵字 (approximate key)。
[0039] 表格的一行可以是列標(biāo)題。表格的列標(biāo)題包含了表格的列的名字。
[0040] 簡(jiǎn)要參考圖10,圖10描述了表格1000。表格1000具有主題列1021"郡名"和列標(biāo)題 1022。
[0041 ]本發(fā)明的各方面包括標(biāo)識(shí)表格的主題列,使用其它表格檢測(cè)一個(gè)表格的列標(biāo)題, 并用知識(shí)檢庫(kù)檢測(cè)表格的列標(biāo)題。
[0042]索引構(gòu)建體系結(jié)構(gòu)
[0043]圖1示出便利于從結(jié)構(gòu)化數(shù)據(jù)的一個(gè)或多個(gè)數(shù)據(jù)集中構(gòu)建一個(gè)或多個(gè)索引的示例 計(jì)算機(jī)體系結(jié)構(gòu)100。參考圖1,計(jì)算機(jī)體系結(jié)構(gòu)100包括表格提取和分類模塊101、表格理解 模塊102、表格注釋模塊103、特征計(jì)算模塊104、索引構(gòu)建模塊106、web快照111、有組織數(shù)據(jù) 集112、點(diǎn)擊日志113、知識(shí)庫(kù)114和索引121、122和123。表格提取和分類模塊101、表格理解 模塊102、表格注釋模塊103、特征計(jì)算模塊104、索引構(gòu)建模塊106、網(wǎng)頁(yè)快照111、經(jīng)組織的 數(shù)據(jù)集112、點(diǎn)擊日志113和知識(shí)庫(kù)114以及索引121、122和123中的每個(gè)都可在網(wǎng)絡(luò)上彼此 相連(或?yàn)榫W(wǎng)絡(luò)的一部分),所述網(wǎng)絡(luò)例如是諸如局域網(wǎng)("LAN")、廣域網(wǎng)("WAN")和甚至因 特網(wǎng)。因此,表格提取和分類模塊101、表格理解模塊102、表格注釋模塊103、特征計(jì)算模塊 104、索引構(gòu)建模塊106、網(wǎng)頁(yè)快照111、經(jīng)組織的數(shù)據(jù)集112、點(diǎn)擊日志113和知識(shí)庫(kù)114以及 索引121、122和123中的每個(gè)以及任何其它連接的計(jì)算機(jī)系統(tǒng)及其組件都可以創(chuàng)建消息相 關(guān)數(shù)據(jù)并通過(guò)網(wǎng)絡(luò)交換與消息相關(guān)數(shù)據(jù)(例如,網(wǎng)際協(xié)議("IP")數(shù)據(jù)報(bào)和利用IP數(shù)據(jù)報(bào)的 其它更高層協(xié)議,諸如傳輸控制協(xié)議("TCP")、超文本傳輸協(xié)議("HTTP")、簡(jiǎn)單郵件傳輸協(xié) 議("SMTP")等)。
[0044] 通常,計(jì)算機(jī)體系結(jié)構(gòu)100可以利用web快照111,以