欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

邏輯結構分析裝置、方法和計算機產品的制作方法

文檔序號:6466421閱讀:201來源:國知局

專利名稱::邏輯結構分析裝置、方法和計算機產品的制作方法
技術領域
:本發(fā)明涉及包括紙質表單(form)和電子表單在內的表單上的字符串之間的邏輯結構(關系)分析。
背景技術
:傳統(tǒng)上,為了從紙質表單中提取數據,使用了結構化表單,即具有固定布局(layout))的表單。在從結構化表單中提取數據時,具有某種含義的字符(character)或字符串(characterstring)存在于某些區(qū)域中,并且定義這種字符、字符串和位置的用于布局的字段定義被生成。通過分析寫在有關區(qū)域中的這些字符和/或字符串來提取數據。但是,如果針對僅為幾個拷貝處理的表單進行創(chuàng)建的話,那么創(chuàng)建對布局的字段定義的成本變得巨大;因此為這種表單手工輸入數據,這轉而需要巨大的數據輸入成本。近來,即使在表格(table)中改變了標題(heading)的順序,也可以識別數據位置,并且針對在表格被創(chuàng)建時同一列中的標題被顛倒的情況,在日本專利申請早期公布No.2005-275830中公開了一種數據提取方法。但是,傳統(tǒng)上,對于非結構化布局的邏輯結構分析或者是在標題之間的關系是分級的(例如主標題和副標題之間的關系或者基于構成層級的副標題之間的等同關系)時提取數據的模式,或者是可應用到具有定義標題群組內的非唯一順序的某些規(guī)則的線條和單元(cell)的表單的邏輯結構分析模式。因此,傳統(tǒng)的處理不能應用到下述表單是成問題的(1)通過多個標題從中獲得數據的表單,但是不能判定該數據是否形成表格,(2)多次使用同一標題的表單,每個標題分別對應于一段數據,或者(3)具有這樣的結構的表單標題和相應數據不相鄰,例如(標題1)-(標題2)-(與標題l相對應的數據)-(與標題2相對應的數據)。例如,日本專利申請早期公布No.2005-275830中公開的技術沒有解決上述問題(1)和(3),因為是在使用表格的前提下使用單元關系的。另外,如果不解決問題(2),那么當多個數據項(item)對應于同一標題字符串時,關系仍然是含糊的,從而導致邏輯結構分析的準確度降低。
發(fā)明內容本發(fā)明的一個目的是至少解決傳統(tǒng)技術中的上述問題。根據本發(fā)明的一個方面的一種計算機可讀記錄介質中存儲有邏輯結構分析計算機程序,該邏輯結構分析計算機程序使得計算機執(zhí)行從包括一個或多個標題和一個或多個數據項的表單上的字符串中提取單位單詞候選;將每個所述單詞候選分類成針對所述標題的標題候選的群組和針對所述數據項的數據候選的群組,以基于所述單詞候選在所述表單上的位置,生成第一候選集合,每個所述第一候選集合包括所述標題候選中的一個標題候選和所述數據候選中可由所包括的標題候選所標識的一個數據候選;組合所述第一候選集合,以生成第二候選集合,使得每一個包括多個不同的標題候選和所述數據候選中的一個數據候選;從所述第二候選集合中,針對每個所述數據項,去除包括所述數據項中的一數據項和標識該數據項的標題的已確定集合,該去除是基于每個所述第二候選集合中包括的標題候選和數據單詞候選在所述表單上的位置的;以及輸出所述己確定集合。根據本發(fā)明的另一方面的一種邏輯結構分析裝置包括提取部件,該提取部件從包括一個或多個標題和一個或多個數據項的表單上的字符串中提取單詞候選;第一生成部件,該第一生成部件將每個所述單詞候選分類成針對所述標題的標題候選的群組和針對所述數據項的數據候選的群組,以基于所述單詞候選在所述表單上的位置,生成第一候選集合,每個所述第一候選集合包括所述標題候選中的一個標題候選和所述數據候選中可由所包括的標題候選所標識的一個數據候選;第二生成部件,該第二生成部件組合所述第一候選集合,以生成第二候選集合,使得每一個包括多個不同的標題候選和所述數據候選中的一個數據候選;去除部件,該去除部件針對每個所述數據項,基于每個所述第二候選集合中包括的標題候選和數據單詞候選在所述表單上的位置,從所述第二候選集合中去除包括所述數據項中的一數據項和標識該數據項的標題的已確定集合;以及輸出部件,該輸出部件輸出所述已確定集合。根據本發(fā)明的另一個方面的一種邏輯結構分析方法包括從包括一個或多個標題和一個或多個數據項的表單上的字符串中提取單位單詞候選;將每個所述單詞候選分類成針對所述標題的標題候選的群組和針對所述數據項的數據候選的群組,以基于所述單詞候選在所述表單上的位置,生成第一候選集合,每個所述第一候選集合包括所述標題候選中的一個標題候選和所述數據候選中可由所包括的標題候選所標識的一個數據候選;組合所述第一候選集合,以生成第二候選集合,使得每一個包括多個不同的標題候選和所述數據候選中的一個數據候選;從所述第二候選集合中,針對每個所述數據項,去除包括所述數據項中的一數據項和標識該數據項的標題的已確定集合,該去除是基于每個所述第二候選集合中包括的標題候選和數據單詞候選在所述表單上的位置的;以及輸出所述已確定集合。當結合附圖理解時,將在以下對本發(fā)明的詳細描述中具體闡述或者可以從以下對本發(fā)明的詳細描述中清楚看到本發(fā)明的其他目的、特征和優(yōu)點。圖1A和1B是關于經歷邏輯結構分析的表單的示例的示意圖。圖2是表單的字符信息的示意圖3A至3D是共通邏輯結構DB的存儲內容的示意圖;圖4A至4C是從表單的單詞候選提取結果的示意圖;圖5是邏輯結構分析裝置的功能配置的框圖;圖6是邏輯結構分析處理的流程圖7A至7D是詳細示出兩片段集合候選的生成的示意圖;圖8是詳細示出一標題/一數據片段集合候選生成處理(步驟S604)的流程圖;圖9A至9D是詳細示出(N+l)片段集合候選的生成的示意圖10是詳細示出多標題/一數據片段集合候選生成處理(步驟S605)的流程圖11和12是詳細示出(N+l)片段集合候選生成處理的流程圖;圖13A至14C是詳細示出對(N+l)片段集合候選的已確定集合的去除的示意圖15是詳細示出已確定集合去除處理(步驟S606)的流程圖16是詳細示出圖13A至13D所示的前向處理的流程圖17是詳細示出(N+l)片段集合候選去除處理(步驟S1502或S1504)的流程圖18是詳細示出圖14A至14C所示的后向處理的流程圖19是詳細示出圖18所示的標題邏輯元素比較處理(步驟S1806)的流程圖20A和20B是表單的其他示例的示意圖;圖21是從圖20A所示的表單獲得的兩片段集合候選的示意圖;圖22A至22C是從圖20A所示的表單獲得的(N+l)片段集合候選的示意圖23A和23B是從圖20B所示的表單獲得的兩片段集合候選的示意圖24是在同一標題單詞候選多次存在時的標題單詞候選評估技術的示意圖25是標題單詞候選評估處理(步驟S607)的詳細流程圖;圖26是在同一標題單詞候選多次存在時標題單詞候選的另一種評估技術的示意圖27是詳細示出標題單詞候選評估處理(步驟S607)的另一過程的流程圖28是表單的另一示例的示意圖29A和29B是三片段集合候選的組合的評估示例的示意圖;圖30是詳細示出數據單詞候選評估處理(步驟S608)的流程圖;圖31是詳細示出同時實現可能性檢查處理(步驟S3007)的流程圖32A是詳細示出距離方差計算處理(步驟S3013)的流程圖;圖32B是詳細示出目標元素提取處理(步驟S3203)的流程圖;圖33是詳細示出最小方差選擇處理(步驟S3016)的流程圖;圖34A和34B是三片段集合候選的組合的另一評估示例的示意圖;圖35是詳細示出數據單詞候選評估處理(步驟S608)的另一過程的流程圖36是詳細示出圖35所示的矩形方差計算處理(步驟S3515)的流程圖;以及圖37是邏輯結構分析裝置的硬件配置的示意圖。具體實施例方式參考附圖,下面詳細說明根據本發(fā)明的示例性實施例。根據該實施例的邏輯結構分析是這樣一種技術,該技術讀取紙質介質或圖像數據的表單、分析表單上的字符信息和布局信息(如果諸如表格之類的布局存在的話),并且分析字符信息的邏輯結構。這里所使用的邏輯結構是指示出表單中的標題和該標題所標識的數據之間的關聯的邏輯結構。在本說明書中,如果簡單地使用術語"數據",則表明任意的數值(例如貨幣金額和數值量),即通配符。圖1A和1B是關于經歷邏輯結構分析的表單的示例的示意圖。如圖1A所示,表單IOO具有矩陣狀邏輯結構,其中字符串被寫在單元中。作為標題的字符串包括項目(item),例如旅費(travelexpense)、設備費(equipmentexpense)禾口消耗品費(consumablesexpense),以及年度(year),例如17年度(17thyear)、18年度(18thyeaer)和19年度(18thyear)。這些被統(tǒng)稱為字符信息。寫在給定項目和給定年度的交叉區(qū)域中的值被識別為該年度該項目的值。例如,第n年度的旅費的數據為100,000(日元)。圖1B是圖1A所示的表單IOO的布局信息。布局信息是諸如排除了字符信息的框架和線條之類的信息。單元被分別指派以標識符(單元號碼)C1至C16。因此,如果通過此實施例來分析邏輯結構,則可通過基于此布局信息創(chuàng)建電子數據表(spreadsheet)并將有關字符信息分別寫入電子數據表的每個單元中,來將表單ioo轉換為包括其字符信息的電子數據表。圖2是表單100的字符信息的示意圖。讀表單100,并且獲得字符信息,字符信息包括字符號碼、字符代碼、坐標和單元號碼。字符號碼是從"1"開始按升序分別指派給每個字符代碼的唯一號碼。字符代碼是從表單100讀取的字符。即使不止一次地讀取了同一字符代碼,每次也指派一個不同的字符號碼。坐標標識字符代碼在表單100上的位置。字符代碼的位置是由圍繞字符代碼的矩形相對于表單上被定義為起始點的任意位置的左上坐標和右下坐標來標識的。其中寫有字符代碼的單元由單元號碼來標識。圖3A至3D是共通邏輯結構DB的存儲內容的示意圖。圖3A和3B是與標題項(headingitem)相關的邏輯元素(以下稱之為"標題邏輯元素")的表格,圖3C和3D是與數據相關的邏輯元素(以下稱之為"數據邏輯元素")的表格。圖3A示出了"邏輯元素群組G1:項目"的邏輯元素表格。標題邏輯元素表格301包括元素號碼、代表性單詞和單詞。元素號碼是指派給代表性單詞的唯一號碼。具有元素號碼Eij的邏輯元素在下面將被稱為邏輯元素Eij。代表性單詞是指示項目的典型單詞。單詞是指示與代表性單詞相等同或是代表性單詞的同義詞的單詞的字符串。以邏輯元素Ell為例,代表性單詞是辭語"旅費",其單詞是包括"旅費"、"出差費(businesstripexpense)"和"出差旅費(businesstravelexpense)"在內的辭語。由于以這種方式提供了等同的單詞和同義詞,因此可以以多種形式來標識類似的標題。圖3B示出了"邏輯元素群組G2:年度"的邏輯元素表格。與標題邏輯元素表格301的情況一樣,該標題邏輯元素表格302也包括元素號碼、代表性單詞和單詞。以邏輯元素E21為例,代表性單詞是辭語"17年度",其單詞是包括"17年度"、"17年(year17)"、"2005年度(2005thyear)"和"2005年(year2005)"在內的辭語。圖3C示出了"邏輯元素群組G3:數據"的邏輯元素表格。該數據邏輯元素表格303除了存儲有圖3A和3B所示的元素號碼、代表性單詞和單詞之外,還存儲了與其他群組Gl和G2的關系。由于數據是由兩個標題(項目和年度)標識的值,因此代表性單詞是鏈接"邏輯元素群組Gl:項目"的代表性單詞和"邏輯元素群組G2:年度"的代表性單詞的字符串。以元素號碼E31為例,代表性單詞是鏈接"旅費"和"17年度"的辭語"旅費17年度"。由于任意的數值被寫在表單100上,因此單詞由*(通配符)表示。但是,即使在通配符的情況下,與該通配符相關的等同單詞和同義詞也被存儲,例如單獨一個數值;數值和(一個或多個)逗號;數值和貨幣符號(例如Y、日元、$、美元,等等);以及數值、(一個或多個)逗號和貨幣符號。對于與其他群組Gl和G2的關系,相應標題邏輯元素計數和相應標題邏輯元素的元素號碼被存儲。相應標題邏輯元素是與標識數據的標題項相關的邏輯元素,并且相應標題邏輯元素計數是其數目。以元素號碼E31為例,可以知道,與代表性單詞"17年度"相關的數據是由兩個相應標題邏輯元素Ell(代表性單詞"旅費")和E21(代表性單詞"17年度")來標識的。由于項目的邏輯元素計數為三個(E11至E13),并且年度的邏輯元素計數也是三個(E21至E23),因此數據的邏輯元素計數是三乘以三,即九個(E31至E39)。圖3D示出了與圖3C所示的數據相關的邏輯元素表格303的另一示例。在圖3D所示的邏輯元素表格304中,邏輯元素(元素號碼、代表性單詞和單詞)與邏輯元素表格303相同。另一方面,在邏輯元素表格304中,與其他群組的關系是基于相應邏輯元素群組來表示的,而不是像邏輯元素表格303中那樣基于相應標題邏輯元素來表示的。在圖3D的情況下,圖3C所示的邏輯元素表格303是參考圖3A和3B的邏輯元素表格生成的。以元素號碼E31為例,由于相應的邏輯元素群組是Gl和G2,并且代表性單詞是鏈接"旅費"和"17年度"的"旅費17年度",因此可以從相應的邏輯元素群組Gl的邏輯元素表格301中識別出具有代表性單詞"旅費"的元素號碼Ell,并且可以從相應的邏輯元素群組G2的邏輯元素表格302中識別出具有代表性單詞"17年度"的元素號碼E21。圖4A至4C是從圖1A所示的表單100的單詞候選(wordcandidate)提取結果的示意圖。圖4A是與"邏輯元素群組G1:項目"相關的單詞候選提取結果401。圖4B是與"邏輯元素群組G2:年度"相關的單詞候選提取結果402。圖4C是與"邏輯元素群組G3:數據"相關的單詞候選提取結果403。如圖4A至4C所示,對于每個元素號碼及其代表性單詞,單詞候選提取結果401至403包括單詞候選、字符計數和字符號碼。單詞候選是邏輯元素表格301到304中包括的具有與圖2所示的字符代碼相匹配的字符代碼的單詞。字符計數分別指示出單詞候選中的字符的數目,并且字符號碼是與形成單詞候選的字符代碼相對應的字符號碼。在圖4A至4C中,邏輯元素Eij的單詞候選將被描述為Wdj-k。在此情況下,k表示單詞候選的號碼。從由元素號碼標識的單詞中,匹配單詞被選擇為單詞候選。以圖4A所示的與"邏輯元素群組Gl:項目"相關的單詞提取結果為例,在元素號碼Ell的單詞中,"旅費"與圖1A所示的項目中的"旅費"相匹配。由于圖1A所示的項目中的"旅費"被寫在布局信息中的單元C5中,因此單元C5被用作從圖2所示的字符信息中獲得字符計數(=2)和字符號碼(15和16)的線索。標題邏輯元素的單詞候選被稱為標題單詞候選,數據邏輯元素的單詞候選被稱為數據單詞候選。圖5是邏輯結構分析裝置500的功能配置的框圖。如圖5所示,邏輯結構分析裝置500包括提取部件(unit)501、檢測部件502、第一生成部件503、第二生成部件504、去除部件505、標題單詞候選評估部件506、數據單詞候選評估部件507和輸出部件508。部件501至508的功能可由執(zhí)行與之相關并被存儲在邏輯結構分析裝置500的存儲部件(HD或存儲器)中的程序的CPU來實現。這些功能可通過輸入/輸出I/F來實現。從部件501至508輸出的數據被存儲在存儲部件中。假定圖5的箭頭所指示的連接目的地的功能是通過從存儲部件讀取從連接源部件輸出的數據并通過由CPU執(zhí)行有關程序,從而來實現的。共通邏輯結構DB被包括在邏輯結構分析裝置500中或者能夠與邏輯結構分析裝置500通信的外部服務器中,并且其中存儲了圖3A至3C(或圖3D)所示的邏輯元素表格301至303。提取部件501從寫在表單100上的字符信息中提取有關單詞來作為單詞候選。具體而言,圖4A至4C所示的單詞候選提取結果是通過參考圖2所示的讀出結果和通用邏輯結構DB510(邏輯元素表格301至304)來輸出的。檢測部件502檢測標題邏輯元素群組計數,這是構成表單100的標題項的類型的數目。具體而言,例如,由于"邏輯元素群組Gl:項目"和"邏輯元素群組G2:年度"被用作用于提取圖1A所示的表單100上的單詞候選的標題邏輯元素,因此標題邏輯元素群組計數Nmax=2被檢測到。第一生成部件503生成候選,該候選是從表單100選擇出來的一個標題項和由該標題項標識的一段數據(onepieceofdata)的組合(一標題/一數據片段集合(one-heading/one-data-pieceset),以下簡稱為"兩片段集合"(two-pieceset))。第二生成部件504具有生成下述候選的功能該候選是從表單IOO選擇出來的N個標題項(其中N為2《N《Nmax)和由這些標題項標識的一段數據的組合(多標題/一數據片段集合(multi-heading/one-data-pieceset),以下簡稱為"(N+l)片段集合"((N+l)-pieceset))。如果只有一段數據被確定為對應于標題單詞候選的相同組合,則去除部件505從(N+l)片段集合候選中確定并輸出作為與數據相對應的標題的標題單詞候選。如果只存在具有數據邏輯元素的一個數據單詞候選的一個(N+l)片段集合候選,則去除部件505確定并輸出標題單詞候選。去除部件505還遞歸地執(zhí)行去除這些候選并檢査是否存在可確定的(N+l)片段集合候選的處理。至于標題單詞候選評估部件506的功能,如果因為對于一數據邏輯元素存在多個數據單詞候選而去除部件505無法識別僅一個(N+l)片段集合,則僅從具有帶相同數據單詞候選的數據邏輯元素的(N+l)片段集合候選中選擇給出不同位置處的標題單詞候選的標題邏輯元素,并且基于標題單詞候選和數據單詞候選之間的位置關系來評估(N+l)片段的組合。至于數據單詞候選評估部件507的功能,如果在對于一數據邏輯元素存在多個數據單詞候選而去除部件505無法識別僅一個(N+l)片段集合,則基于其位置關系,針對具有由相同標題單詞候選和不同數據單詞候選構成的組合的(N+l)片段集合候選以及均具有相同數據單詞候選的不同邏輯元素的標題單詞候選的組合,來評估(N+l)片段的組合。輸出部件508輸出邏輯結構分析的結果。輸出格式可被顯示在顯示器上,通過打印機打印輸出,發(fā)送到外部計算機以及存儲到內部存儲部件中。在服務器/客戶端配置的情況下,邏輯結構分析裝置500是服務器,因此向客戶端發(fā)送邏輯結構分析結果,并且邏輯結構分析結果被顯示在接收方客戶端的顯示器上。圖6是邏輯結構分析過程的流程圖。如圖6所示,表單100被讀取(步驟S60I),并且被解構為字符信息(見圖2)和布局信息101,并且提取部件501獲取如圖4A至4C所示的單詞候選提取結果(步驟S602)。檢測部件502隨后檢測表單100的標題邏輯元素計數Nmax(步驟S603)。第一生成部件503執(zhí)行一標題/一數據片段集合候選生成處理(步驟S604);第二生成部件504執(zhí)行多標題/一數據片段集合候選生成處理(處理S605);去除部件505執(zhí)行已確定集合去除處理(步驟S606);標題單詞候選評估部件506執(zhí)行標題單詞候選評估處理(步驟S607);并且數據單詞候選評估部件507執(zhí)行數據單詞候選評估處理(步驟S608)。標題單詞候選評估處理(步驟S607)和數據單詞候選評估處理(步驟S608)是根據需要被執(zhí)行的。最后,輸出部件508輸出步驟S606至S608的處理結果(步驟S609)。以下針對第一生成部件503、第二生成部件504、去除部件505、標題單詞候選評估部件506和數據單詞候選評估部件507來描述細節(jié)。圖7A至7D是詳細示出兩片段集合候選的生成的示意圖。兩片段集合候選是給定標題項和能夠由該標題項標識的數據的組合。表單100的標題項與位于下側、右側和右下側的數據相關。在本說明書中,標題項的下側、右側或右下側的位置被稱為指定區(qū)域。因此,對于每個標題項,指定區(qū)域是不同的。標題項和位于其指定區(qū)域中的數據構成兩片段集合候選。在圖7A至7D中,粗線橢圓指示所選擇的標題項,細線橢圓指示能夠由所選擇的標題項標識的數據。鏈接粗線橢圓和細線橢圓的線段指示所形成的組合。粗線橢圓和細線橢圓的組合是兩片段集合候選。圖7A示出了當"邏輯元素群組G1:項目"的元素號碼E11的標題單詞候選"旅費"被選擇時的兩片段集合候選。由于"旅費"和邏輯元素群組G3的數據單詞候選的位置關系,獲取了九個兩片段集合候選。雖然單詞候選"17年度"至"19年度"被包括在不同的群組G2中,但是這些候選是標題項,而沒有資格用于兩片段集合候選。圖7B示出了當"邏輯元素群組G1:項目"的元素號碼E13的標題單詞候選"消耗品費"被選擇時的兩片段集合候選。由于"消耗品費"和邏輯元素群組G3的數據單詞候選的位置關系,獲取了三個兩片段集合候選。其他數據位于相對于"雜費"的位置的右上側,而沒有資格形成兩片段集合候選。圖7C示出了當"邏輯元素群組G2:年度"的元素號碼E21的標題單詞候選"17年度"被選擇時的兩片段集合候選。由于"17年度"和邏輯元素群組G3的數據單詞候選的位置關系,獲取了九個兩片段集合候選。圖7D示出了當"邏輯元素群組G2:年度"的元素號碼E23的標題單詞候選"19年度"被選擇時的兩片段集合候選。由于"19年度"和邏輯元素群組G3的數據單詞候選的位置關系,獲取了三個兩片段集合候選。圖8是詳細示出一標題/一數據片段集合候選生成處理(步驟S604)的流程圖。首先,兩片段集合候選計數n被設置為n=1(步驟S801);邏輯元素群組Gi的號碼i被設置為i二1(步驟S802);并且邏輯元素Eij的號碼j被設置為j:l(步驟S803)。然后判定邏輯元素Eij是否是數據的邏輯元素(步驟S804)。如果元素不是數據的邏輯元素(步驟S804:否),貝Uj被遞增(步驟S805),并且過程返回到步驟S804。另一方面,如果元素是數據的邏輯元素(步驟S805:是),則邏輯元素群組Gi的號碼ii(由G(ii)表示,區(qū)別于Gi)被設置為ii=1(步驟S806),并且標題邏輯元素群組G(ii)被讀取(步驟5807)。例如,在ii二l的情況下,在圖4A至4C所示的單詞候選提取結果中,標題邏輯元素群組G1(圖4A所示的邏輯元素群組G1)被讀取。標題邏輯元素Eij(由E(ii,j)表示,區(qū)別于Eij)隨后被讀取(步驟5808)。例如,圖4A所示的邏輯元素群組Gl被讀取作為標題邏輯元素群組G(ii),并且由于ii=l且j=1,因此E(ii,j)被限定,并且標題邏輯元素Ell被從邏輯元素群組1中讀取,以作為E(ii,j)。在步驟S804識別的數據邏輯元素Eij的單詞候選號碼k隨后被設置為k=1(步驟S809),并且在步驟S808讀取的標題邏輯元素E(i,j)的單詞候選號碼k(由kk表示,區(qū)別于步驟S809的k)隨后被設置為kk二l(步驟S810)。判定在關于標題單詞候選We(ii,j-kk)的指定區(qū)域中是否存在數據單詞候選Weij-k(步驟S811)。在指定區(qū)域中是否存在候選可由圖2所示的單元號碼和坐標來標識。如果在指定區(qū)域中存在候選(步驟S811:是),則標題單詞候選We(ii,j-kk)和數據單詞候選Weij-k的組合被存儲以作為第n個兩片段集合(步驟S812)。在遞增n之后(步驟S811),過程去到步驟S814。另一方面,如果在指定區(qū)域中不存在候選(步驟S811:否),則過程去到步驟S814。在步驟S814,標題邏輯元素E(ii,j)的單詞候選號碼kk被遞增。然后判定是否滿足kk《KK(步驟S815)。在此情況下,KK表示標題邏輯元素E(ii,j)的單詞候選的總數。如果滿足kk《KK(步驟S815:是),則過程去到步驟S811,以判定在關于遞增后的標題單詞候選We(ii,j-kk)的指定區(qū)域中是否存在數據單詞候選Weij-k。另一方面,如果不滿足kk《KK(步驟S815:否),則遞增數據邏輯元素Eij的單詞候選號碼k(步驟S816),并且判定是否滿足k《K(步驟S817)。在此情況下,K表示數據邏輯元素Eij的單詞候選的總數。如果滿足k《K(步驟S817:是),則過程去到步驟S810,以判定在關于標題單詞候選We(ii,j-kk)的指定區(qū)域中是否存在遞增后的數據單詞候選Weij-k(步驟S810和S811)。另一方面,如果不滿足k《K(步驟S817:否),則遞增標題邏輯元素群組G(ii)的號碼ii(步驟S818),并且判定是否滿足ii《II(步驟S819)。在此情況下,II表示標題邏輯元素群組G(ii)的總數。如果滿足ii<II(步驟S819:是),則過程去到步驟S807,以讀取遞增后的標題邏輯元素群組G(ii)。如果不滿足ii《11(步驟S819:否),則遞增其他標題邏輯元素的元素號碼j(步驟S820),并且判定是否滿足j《J(步驟S821)。在此情況下,J表示其他邏輯元素的總數。如果滿足j《J(步驟S821:是),則過程去到步驟S804,以判定遞增后的邏輯元素Eij是否是數據邏輯元素。另一方面,如果不滿足j《J(步驟S821:否),則遞增邏輯元素群組號碼i(步驟S822),并且判定是否滿足i《I(步驟S823)。在此情況下,I表示邏輯元素群組Gi的總數。如果滿足i《I(步驟S823:是),則過程去到步驟S823以判定屬于遞增后的邏輯元素群組Gi的邏輯元素Eij是否是數據邏輯元素(步驟S804)。如果不滿足i《I(步驟S823:否),則第一生成部件503的處理序列被終止,并且過程去到步驟S605。結果,圖7A至7D所示的兩片段集合候選被自動生成。圖9A至9D是詳細示出(N+l)片段集合候選的生成的示意圖。(N+l)片段集合候選是各種標題項和能夠由這些標題項標識的一段數據的組合。表單100的標題項與位于下側、右側和右下側的數據相關。在本說明書中,各種標題項的下側、右側或右下側的交疊位置被稱為指定區(qū)域。因此,對于各種標題項的每個組合,指定區(qū)域是不同的。各種標題項的組合和位于其指定區(qū)域中的數據構成(N+l)片段集合候選。參考圖7A至7D,描述了通過使用N=2,即通過對標題項使用兩個項(項目和年度),而獲取的三片段集合候選。在圖9A至9D中,粗線橢圓指示所選擇的標題項,細線橢圓指示能夠由所選擇的兩個標題項標識的數據。鏈接粗線橢圓和細線橢圓的線段指示所形成的組合。兩個粗線橢圓和一個細線橢圓的組合是三片段集合候選。圖9A示出了當"邏輯元素群組G1:項目"的元素號碼E13的標題單詞候選"消耗品費"被選擇時的兩片段集合候選。由于"消耗品費"和邏輯元素群組G3的數據單詞候選的位置關系,獲取了三個兩片段集合候選。其他數據位于相對于"消耗品費"的位置的右上側,而沒有資格形成兩片段集合候選。圖9B示出了當"邏輯元素群組G2:年度"的元素號碼E23的標題單詞候選"19年度"被選擇時的兩片段集合候選。由于"19年度"和邏輯元素群組G3的數據單詞候選的位置關系,獲取了三個兩片段集合候選。圖9C示出了當"邏輯元素群組G1:項目"的元素號碼E13的標題單詞候選"消耗品費"和"邏輯元素群組G2:年度"的元素號碼E23的標題單詞候選"19年度"被選擇時的三片段集合候選。也就是說,只有圖9A和9B共同的數據(8,000)被包括在三片段集合候選中。圖9D示出了當"邏輯元素群組G1:項目"的元素號碼E11的標題單詞候選"旅費"和"邏輯元素群組G2:年度"的元素號碼E21的標題單詞候選"17年度"被選擇時的三片段集合候選。也就是說,圖7A和7B共同的九片段數據被包括在三片段集合候選中。圖10是詳細示出多標題/一數據片段集合候選生成處理(步驟S605)的流程圖。如圖10所示,首先,標題邏輯元素群組計數N被設置為N二2(步驟S100),并且(N+l)片段集合候選生成處理被執(zhí)行(步驟S1002)。隨后遞增N(步驟S1003),并且判定是否滿足N<Nmax(步驟S1004)。如果不滿足N〈Nmax(步驟S1004:否),則過程返回到步驟S1002。另一方面,如果滿足N〈Nmax(步驟S1004:是),則第二生成部件504的處理序列終止。結果,圖9C和9D所示的(N+l)片段集合候選被自動生成?,F描述圖IO所示的(N+l)片段集合候選生成處理的詳細處理過程。圖11和12是詳細示出(N+l)片段集合候選生成處理的流程圖。(N+l)片段集合候選是基于N片段集合候選來創(chuàng)建的,并且可由任意數目的標題項來指示。如圖ll所示,(N+l)片段集合候選計數d被設置為d=l(步驟S1101),并且N片段集合候選的號碼n被設置為n^1(步驟S1102)。與N片段集合候選相關的信息被讀取(步驟S1103)。要讀取的信息如下。HN(n,*):第n個N片段集合候選的第*個標題單詞候選DN(n):第n個N片段集合候選的數據單詞候選GHN(n,*):HN(n,*)的第*個邏輯元素群組號碼EHN(n,*):HN(n,*)的第*個邏輯元素號碼GDN(n):DN(n)的邏輯元素群組號碼EDN(n):DN(n)的邏輯元素號碼兩片段集合候選的號碼m被設置為m=1(步驟S1104),并且與第m個兩片段集合候選的信息被讀取(步驟S1105)。要讀取的信息如下。H2(m):第m個兩片段集合候選的標題邏輯元素的單詞候選D2(m):第m個兩片段集合候選的數據邏輯元素的單詞候選GH2(m):H2(m)的邏輯元素群組號碼EH2(m):H2(m)的邏輯元素號碼GD2(m):D2(m)的邏輯元素群組號碼ED2(m):D2(m)的邏輯元素號碼判定Dw(n)和D2(m)是否由相同字符號碼串構成(步驟S1106)。如果Dw(n)和D2(m)不是由相同字符號碼串構成的(步驟S1106:否),則過程去到圖12的步驟S1204。另一方面,如果D^n)和D2(m)是由相同字符號碼串構成的(步驟S1106:是),則判定Dn(ii)和D2(m)是否相同(步驟S1107)。如果Dn(ii)和D2(m)不相同(步驟S1107:否),則過程去到圖12的步驟S1204。如果DN(n)和D2(m)相同(步驟S1107:是),則判定GDN(n)和GD2(m)是否相同(步驟S1108)。如果GDN(n)和GD2(m)不相同(步驟S1108:否),則過程去到圖12的步驟S1204。另一方面,如果GDn(ii)和GD2(m)相同(步驟S1108:是),標志f被設置為f二0(步驟S1109)。將N片段集合候選的父號碼i設置為i=1(步驟S1110),并且判定GHN(n,"和GH2(m)是否不同(步驟Sllll)。如果GHN(n,*)和GH2(m)相同(步驟Sllll:否),則標志f被設置為f=1(步驟S1112),并且過程去到步驟S1113。如果GHN(n,*)和GH2(m)不同(步驟Sllll:是),則父號碼i被遞增(步驟S1113)。然后判定是否滿足i<N(步驟S1114),并且如果滿足i<N(步驟S1114:是),則過程返回到步驟Sllll。如果不滿足i<N(步驟S1114:否),即,在i二N的情況下,過程去到圖12的步驟S1201。如圖12所示,判定是否滿足標志f二0(步驟S1201)。如果不滿足f=0(步驟S120h否),則過程去到步驟S1204。如果滿足f=0(步驟S1201:是),則候選被存儲以作為(N+l)片段集合候選(步驟S1202),并且(N+l)片段集合候選計數d被遞增(步驟S1203)。在步驟S1204,遞增兩片段集合候選的號碼m(步驟S1204),并且判定是否滿足m《mmax(步驟S1205)。在此情況下,mmax表示兩片段集合候選的總數。如果滿足m《mmax(步驟S1205:是),則過程去到圖11所示的步驟S1105。另一方面,如果不滿足m《mmax(步驟S1205:否),則遞增N片段集合候選的號碼n(步驟S1206),并且判定是否滿足n《nmax(步驟S1207)。在此情況下,nmax表示N片段集合候選的總數。如果滿足n《nmax(步驟S1207:是),則過程去到圖11所示的步驟S1103。如果不滿足n《nmax(步驟S1207:否),則過程去到圖10所示的步驟S1003以終止(N+l)片段集合候選生成處理。圖13A至14C是詳細示出對(N+l)片段集合候選的已確定集合的去除的示意圖。由(N+l)片段集合候選生成部件生成的(N+l)片段集合候選群組包括具有已確定候選的那些和不具有已確定候選的那些。通過確定具有可確定候選的那些,并且通過從(N+l)片段集合候選群組中去除己確定的(N+l)片段集合候選,來遞歸地確定與多個標題相對應的數據。參考圖13A至13D和14A至14C,描述了通過使用N=2,即通過對標題項使用兩個項(項目和年度),而獲取的三片段集合候選。粗線橢圓指示所選擇的標題項,細線橢圓指示能夠由所選擇的標題項標識的數據。鏈接粗線橢圓和細線橢圓的線段指示所形成的組合。粗線橢圓和細線橢圓的組合是三片段集合候選。圖13A至13D示出了前向處理。圖13A示出了當邏輯元素群組G1的標題單詞候選"旅費"和邏輯元素群組G2的標題單詞候選"17年度"被選擇時的三片段集合候選。也就是說,圖7A和7C共同的九段數據構成了三片段集合候選。在此階段,存在包括標題單詞候選"旅費"和"17年度"的九個三片段集合候選。如圖13B所示,從來自圖13A所示的狀態(tài)的具有標題單詞候選"旅費"和"17年度"的三片段集合候選中包括的九個數據單詞候選"100,000"至"8,000"中確定/去除數據單詞候選"100,000"。未確定的數據單詞候選由多重細線橢圓指示。雖然存在九個數據單詞候選,但由于數據單詞候選"100,000"僅由標題單詞候選"旅費"和"17年度"標識,并且未被包括為標題單詞候選的其他組合的候選,因此數據單詞候選"100,000"被自動確定為(N+l)片段集合并且被從(N+l)片段集合候選群組中去除。也就是說,確定17年度的旅費為100,000。圖13C示出了從剩余的八個未確定的數據單詞候選中確定/去除具有標題單詞候選"旅費"和"18年度"的三片段集合候選中包括的數據單詞候選"110,000"和具有標題單詞候選"設備費"和"17年度"的三片段集合候選中包括的數據單詞候選"400,000"的狀態(tài)。這兩個三片段集合候選都不具有被包括為除"旅費"和"17年度"外的標題單詞候選的其他組合的候選,因此被自動確定為(N+l)片段集合并被從(N+l)片段集合候選群組中去除。也就是說,確定17年度的設備費為400,000,并且18年度的旅費為110,000。圖13D示出了前向處理。如圖13D所示的從左上側到最右下側處理數據被稱為前向處理,并且數據單詞候選被逐一減少。因此,標識數據單詞候選的邏輯元素群組Gl和G2的標題單詞候選可被唯一地識別。雖然在第二至第四輪中存在多個數據單詞候選,但是在同一輪中可以首先確定任何數據單詞候選。圖14A至14C示出了后向處理。圖14A示出了由邏輯元素群組G1的標題單詞候選"消耗品費",邏輯元素群組G2的標題單詞候選"19年度"以及由這兩個標題單詞候選標識的數據單詞候選"8,000"構成的(N+l)片段集合候選。由于只存在一個數據單詞候選,因此該候選被自動確定為(N+l)片段集合,并被從(N+l)片段集合候選群組中去除。也就是說,確定19年度的消耗品費為8,000。圖14B示出了由邏輯元素群組Gl的標題單詞候選"消耗品費",邏輯元素群組G2的標題單詞候選"18年度"以及由這兩個標題單詞候選標識的數據單詞候選"5,000"構成的(N+l)片段集合候選。雖然存在兩個數據單詞候選,但由于數據單詞候選"8,000"已在圖14A中被確定,因此候選縮窄到數據單詞候選"5,000"。因此,該候選被自動確定為(N+l)片段集合,并被從(N+l)片段集合候選群組中去除。也就是說,確定18年度的消耗品費為5,000。圖14C示出了后向處理。如圖14C所示的從最右下側數據到左上側的處理被稱為后向處理,并且數據單詞候選被逐一減少。因此,標識數據單詞候選的邏輯元素群組Gl和G2的標題單詞候選可被唯一地識別。雖然在第二至第四輪中存在多個數據單詞候選,但是在同一輪中可以首先確定任何數據單詞候選。圖15是詳細示出已確定集合去除處理(步驟S606)的流程圖。如圖15所示,首先,執(zhí)行圖13A至13D所示的前向處理(步驟S1501),并且執(zhí)行(N+l)片段集合候選去除處理(步驟S1502)。然后執(zhí)行圖14A至14C所示的后向處理(步驟S1503)并且執(zhí)行(N+l)片段集合候選去除處理(步驟S1504)。結果,已確定集合被保留,并且過程去到步驟S607。在己確定集合去除處理(步驟S606)中,可以只執(zhí)行前向處理(步驟S1501)及其(N+l)片段集合候選去除處理(步驟S1502),或者可以只執(zhí)行后向處理(步驟S1503)及其(N+l)片段集合候選去除處理(步驟S1504)。但是,通過在后向處理(步驟S1503)之前執(zhí)行前向處理(步驟S1501)及其(N+l)片段集合候選去除處理(步驟S1502),可以減少發(fā)送到后向處理(步驟S1503)的輸出(N+l)片段集合候選的數目,從而可在后向處理(步驟S1503)中高效地去除已確定集合。圖16是詳細示出圖13A至13D所示的前向處理的流程圖。如圖16所示,首先,已去除候選計數i被設置為i=0(步驟S1601),并且輸入(N+l)片段集合候選號碼n被設置為n=1(步驟S1602)。檢測標志f被設置為f二O(步驟S1603),并且輸出(N+l)片段集合候選號碼m被設置為111=1(步驟S1604)。然后判定是否滿足m^n(步驟S1605)。如果不滿足m#n(步驟S1605:否),則過程去到步驟S1608。另一方面,如果滿足m#n(步驟S1605:是),則判定第m個數據單詞候選的字符號碼是否包括在第n個數據單詞候選的字符號碼中(步驟S1606);如果包括(步驟S1606:是),則檢測標志f被設置為f:1(步驟S1607),并且過程去到步驟S1608。另一方面,如果第m個數據單詞候選的字符號碼不被包括(步驟S1606:否),則檢測標志f保持f二0并且過程去到步驟S1608。在步驟S1608,遞增輸出(N+l)片段集合候選號碼m(步驟S1608),并且判定是否滿足m《mmax(步驟S1609)。在此情況下,mmax表示(N+l)片段集合候選計數。如果滿足m《mmax(步驟S1609:是),則過程去到步驟S1605。另一方面,如果不滿足m《mmax(步驟S1609:否),則判定是否滿足檢測標志f二O(步驟S1610)。如果不滿足f二0(步驟S1610:否),則過程去到步驟S1613。如果滿足f二0(步驟S1610:是),則第n個(N+l)片段集合候選被存儲以作為已去除候選(步驟S1611)。已去除候選計數i隨后被遞增(步驟S1612),并且輸入(N+l)片段集合候選號碼n被遞增(步驟S1613),以判定是否滿足n《mmax(步驟S1614)。如果滿足n《mmax(步驟S1614:是),則過程返回到步驟S1603。如果不滿足n《mmax(步驟S1614:否),則前向處理終止并且過程去到步驟S1502。圖17是詳細示出(N+l)片段集合候選去除處理(步驟S1502或S1504)的流程圖。如圖17所示,首先,輸入(N+l)片段集合候選號碼n被設置為n-1(步驟S1701);輸出(N+l)片段集合候選號碼m被設置為m=1(步驟S1702);并且去除序列號碼p被設置為p=1(步驟51703)。輸入(N+l)片段集合候選是前一階段的輸出結果。也就是說,如果(N+l)片段集合候選去除處理是步驟S1502,則輸入(N+l)片段集合候選是從圖16所示的前向處理(步驟S1501)輸出的(N+l)片段集合候選,并且(N+l)片段集合候選由此(N+l)片段集合候選去除處理(步驟S1502)來確定。另一方面,如果(N+l)片段集合候選去除處理是步驟S1504,則輸入(N+l)片段集合候選是從圖18所示的后向處理(步驟S1503)輸出的(N+l)片段集合候選,并且(N+l)片段集合候選由此(N+l)片段集合候選去除處理(步驟S1504)來確定。再次參考圖17,在步驟S1703之后,判定是否滿足e(p)=n(步驟51704)。在此情況下,e(p)是具有去除序列號碼p的輸入(N+l)片段集合候選(在圖16的步驟S1611存儲的已去除候選)。如果滿足e(p)二n(步驟S1704:是),則過程去到步驟S1707。另一方面,如果不滿足e(p)二n(步驟S1704:否),則第n個輸入(N+l)片段集合候選被拷貝到輸出(N+l)片段集合候選群組中(步驟S1705)。輸出(N+l)片段集合候選號碼m隨后被遞增(步驟S1706),并且去除序列號碼p被遞增(步驟S1707)。判定是否滿足p《pmax(步驟S1708)。在此情況下,pmax表示與已去除候選相對應的(N+l)片段集合候選計數。如果滿足p《pmax(步驟S1708:是),則過程返回到步驟S1704。如果不滿足p《pmax(步驟S1708:否),則遞增輸入(N+l)片段集合候選號碼n(步驟S1709)并且判定是否滿足n《nmax(步驟S1710)。在此情況下,nmax表示(N+l)片段集合候選計數。如果滿足n《nmax(步驟S1710:是),則過程返回到步驟S1702。另一方面,如果不滿足n《nmax(步驟S1710:否),則在步驟S1705獲取的輸出(N+l)片段集合候選群組被輸出(步驟S1711)。如果(N+l)片段集合候選去除處理是步驟S1502,則過程去到步驟S1503,而如果處理是步驟S1504,則過程去到步驟S607。圖18是詳細示出圖14A至14C所示的后向處理的流程圖。如圖18所示,首先,已去除候選計數i被設置為i=0(步驟S1801),并且輸入(N+l)片段集合候選號碼n被設置為n=1(步驟S1802)。檢測標志f被設置為f二0(步驟S1803),并且輸出(N+l)片段集合候選號碼m被設置為m-l(步驟S1804)。然后判定是否滿足m^n(步驟S1805)。如果不滿足m#n(步驟S1805:否),則過程去到步驟S1807。另一方面,如果滿足m#n(步驟S1805:是),則執(zhí)行標題邏輯元素比較處理(步驟S1806)。標題邏輯元素比較處理(步驟S1806)在下文中描述。在標題邏輯元素比較處理(步驟S1806)之后,遞增(N+l)片段集合候選號碼m(步驟S1807),并且判定是否滿足m《nmax(步驟S1808)。在此情況下,nmax表示(N+l)片段集合候選計數。如果滿足m《nmax(步驟S1808:是),則過程返回到步驟S1805。如果不滿足m《nmax(步驟S1808:否),則判定檢測標志f是否為f=0(歩驟S畫)。如果不滿足f-0(步驟S1809:否),則過程去到步驟S1812。另一方面,如果滿足f-0(步驟S1809:是),則第n個(N+l)片段集合候選被保存以作為己去除候選(步驟S1810)。已去除候選計數i隨后被遞增(步驟S1811),并且(N+l)片段集合候選號碼n被遞增(步驟S1812),以判定是否滿足n《mmax(步驟S1813)。如果滿足n《mmax(步驟S1813:是),則過程返回到步驟S1803。如果不滿足n《mmax(步驟S1813:否),則后向處理終止并且過程去到步驟S1504。圖19是詳細示出圖18所示的標題邏輯元素比較處理(步驟S1806)的流程圖。如圖19所示,(N+l)片段集合候選號碼n的標題號碼j被設置為j=1(步驟S1901);(N+l)片段集合候選號碼m的標題號碼k被設置為k=1(步驟S1902);并且標題同值標志ff被設置為ff=0(步驟S簡)。然后判定標題號碼j的標題單詞候選的邏輯元素是否等同于標題號碼k的標題單詞候選的邏輯元素(步驟S1904)。如果邏輯元素不等同(步驟S1904:否),則標題同值標志ff被遞增(步驟S1906),并且過程去到步驟S1909。另一方面,如果邏輯元素等同(步驟S1904:是),則判定標題號碼j的標題單詞候選的字符號碼串是否等同于標題號碼k的標題單詞候選的字符號碼串(步驟S1905)。如果字符號碼串等同(歩驟S1905:是),則標題同值標志ff被遞增(步驟S1906),并且過程去到步驟S1909。另一方面,如果字符號碼串不等同(步驟S1905:否),則遞增標題號碼k(步驟S1907),并且判定是否滿足k《kmax(步驟S1908)。在此情況下,kmax表示標題計數。如果滿足k《kmax(步驟S1908:是),則過程回到步驟S1903并且標題同值標志被重置為ff二0。另一方面,如果不滿足k《kmax(步驟S1908:否),則遞增標題號碼j(步驟S1909),并且判定是否滿足j=jmax(步驟S1910)。如果不滿足j=jmax(步驟S1910:否),則判定標題同值標志ff是否為ff=kmax(步驟S1911)。在此情況下,kmax表示標題計數。如果不滿足ff二kmax(步驟S1911:否),則標題邏輯元素比較處理(步驟S1806)終止,并且過程去到步驟S1807。如果滿足ff二kmax(步驟S1911:是),則檢測標志f被設置為f=1(步驟S1912),以終止標題邏輯元素比較處理(步驟S1806),并且過程去到步驟S1807。如上所述,根據以上實施例,可以從圖1A所示的表單100分析邏輯結構。以上實施例可應用到獨立于表格和標題的順序和布局的表單100。圖20A和20B是表單的其他示例的示意圖。圖20A的表單2001是這樣一個表單,其中17年度的旅費、設備費和消耗品費被寫在一行中。圖20B的表單2002是這一個表單,其中17年度的旅費、設備費和消耗品費和18年度的旅費、設備費和消耗品費分別被寫在兩行中。圖21是從圖20A所示的表單2001獲得的兩片段集合候選的示意圖。在圖21中,粗線橢圓指示標題單詞候選,細線橢圓指示數據單詞候選。如果表單2001被表示為一行,則能夠構成具有某一標題單詞候選的兩片段集合的數據單詞候選位于該標題單詞候選的右側。兩片段集合候選是利用此屬性生成的。如圖21所示,由于兩片段集合候選群組2101具有三個數據單詞候選,因此生成了三個兩片段集合候選({17年度,100,000}、{17年度,400,000}以及{17年度,3,000})。由于兩片段集合候選群組2102也具有三個數據單詞候選,因此生成了三個兩片段集合候選({旅費,100,000}、{旅費,400,000}以及{旅費,3,000})。由于兩片段集合候選群組2103具有兩個數據單詞候選,因此生成了兩個兩片段集合候選({設備費,400,000}和{設備費,3,000})。由于兩片段集合候選群組2104具有一個數據單詞候選,因此候選被直接確定為兩片段集合候選({消耗品費,3,000})。圖22A至22C是從圖20A所示的表單2001獲得的(N+l)片段集合候選的示意圖。這里使用了兩個標題邏輯元素(項目和年度),因此導致N=2。如圖22A所示,由于三片段集合候選群組2201具有三個數據單詞候選,因此生成三個三片段集合候選({17年度,旅費,100,000}、{17年度,旅費,400,000}和{17年度,旅費,3,000})。在這三個三片段集合候選中,由于{17年度,旅費,100,000}的數據單詞候選"100,000"未被用在其他的三片段集合候選群組2202和2203中,所以{17年度,旅費,100,000}被前向處理(步驟S1501)所確定/去除。如圖22B所示,由于三片段集合候選群組2202具有兩個數據單詞候選,因此生成了兩個三片段集合候選(卩7年度,設備費,400,000}和{17年度,設備費,3,000})。如圖22C所示,由于三片段集合候選群組2203具有一個數據單詞候選,因此直接生成三片段集合({17年度,消耗品費,3,000})。由于三片段集合候選(群組)2203只具有數據單詞候選"3,000",因此該候選被后向處理(步驟S1503)確定/去除。圖23A和23B是從圖20B所示的表單2002獲得的兩片段集合候選的示意圖。在圖23A和23B中,粗線橢圓指示標題單詞候選,細線橢圓指示數據單詞候選。如果表單2002被表示成多行(在此情況下是兩行),則能夠構成具有某一標題單詞候選的兩片段集合的數據單詞候選位于該數據單詞候選的右側、下側或右下側。兩片段集合候選是利用此屬性生成的。圖23A和23B示出了為同一數據單詞候選"5,000"選擇"18年度"和"消耗品費"作為標題單詞候選時的三片段集合候選。圖23A示出了當17年度的行中的"消耗品費"被選擇時的三片段集合候選2301,圖23B示出了當18年度的行中的"消耗品費"被選擇時的三片段集合候選2302。如果同一標題單詞候選多次存在,像上面的"消耗品費"那樣,則三片段集合候選無法被唯一地識別。因此,從標題單詞候選"消耗品費"中的每一個相對于兩者共同的數據單詞候選"5,000"的位置的位置來確定正確的標題單詞候選。此處理由圖5所示的標題單詞候選評估部件506來執(zhí)行。圖24是在同一標題單詞候選"消耗品費"多次存在時的標題單詞候選評估技術的示意圖。雖然可由標題單詞候選標識的數據單詞候選在位于表單上標題單詞候選的右側、下側或右下側時能夠被標識,但如果右側和右下側像圖24所示那樣彼此競爭,則右側被優(yōu)先采用。類似地,如果下側和右下側彼此競爭,則下側被優(yōu)先采用。也就是說,位于數據單詞候選的水平或垂直方向(或者基本水平或垂直的方向)的標題單詞候選被給予優(yōu)先權。更具體而言,通過獲得鏈接標題單詞候選的外接矩形2402和2403的中心q3和數據單詞候選的外接矩形2401的中心Ql的線段L12和L13,并且相對于經過數據單詞候選的中心Ql的水平線L評估線段L12和L13,即通過評估角度012和6>13,可選擇適當的標題單詞候選。角度012是由水平線L和線段L12形成的角度,角度013是由水平線L和線段L13形成的角度。對于每個角度,獲得sin26L角度012和013被代入0。如果結果是sin20的值變?yōu)榱?,則確定標題單詞候選相對于數據單詞候選位于水平或垂直方向(或基本水平或垂直的方向),并且該標題單詞候選被選擇為適當的標題單詞候選。由于在圖24所示的示例中013為180度,因此sin20的值變?yōu)榱悖⑶彝饨泳匦?403的標題單詞候選被選擇。也就是說,如圖23A和23B所示,圖23B的三片段集合候選是正確的。圖25是標題單詞候選評估處理(步驟S607)的詳細流程圖。如圖25所示,首先,評估目標候選計數i被設置為i=0(步驟S2501);(N+l)片段集合候選號碼n被設置為n=1(步驟S2502);檢測標志f被設置為f-0(步驟S2503);并且另一(N+l)片段集合候選號碼m被設置為111=1(步驟S2504)。判定號碼n的(N+l)片段集合候選和號碼m的(N+l)片段集合候選是否是相同邏輯元素群組的相同邏輯元素(步驟S2505)。如果這些候選不是相同邏輯元素群組的相同邏輯元素(步驟S2505:否),則過程去到步驟S2513。另一方面,如果這些候選是相同邏輯元素群組的相同邏輯元素(步驟S2505:是),則判定是否滿足m^n(步驟S2506)。如果不滿足m#n(步驟S2506:否),則過程去到步驟S2513。如果滿足m#n(步驟S2506:是),則判定號碼m的(N+l)片段集合候選的數據單詞候選的字符號碼是否被包括在號碼n的(N+l)片段集合候選的數據單詞候選的字符號碼中(步驟S2507)。如果字符號碼未被包括(步驟S1507:否),則過程去到步驟S2513;如果包括(步驟S2507:是),則在號碼m的(N+l)片段集合候選和號碼n的(N+l)片段集合候選之間具有不相同的邏輯元素群組、邏輯元素和字符號碼的標題單詞候選的數目被計數(步驟S2508)。然后判定標題單詞候選計數的差別是否不大于1(步驟S2509)。如果差別大于l(步驟S2509:否),則過程去到步驟S2513。如果差別不大于1(步驟S2509:是),則標題單詞候選和數據單詞候選之間的角度被計算(步驟S2510)。然后判定號碼n的(N+l)片段集合候選的標題單詞候選的位置是否位于數據單詞候選的位置的水平或垂直方向上(或基本水平或垂直的方向上)(步驟S2511)。如果不位于水平或垂直方向上(或者不位于基本水平或垂直的方向上)(步驟S2511:否),則過程去到步驟S2513I;如果位于水平或垂直方向上(或者位于基本水平或垂直的方向上)(步驟S2512:否),則檢測標志f被設置為f:l(步驟S2512),并且m被遞增(步驟S2513)。判定是否滿足m《mmax(步驟S2514)。在此情況下,mmax表示(N+l)片段集合候選計數。如果滿足m《max(步驟S2514:是),則過程回到步驟S2505。另一方面,如果不滿足m《mmax(步驟S25M:否),則判定檢測標志f是否是f二l(步驟S2515)。如果不滿足f-l(步驟S2515:否),則過程去到步驟S2517,因為該候選不是候選去除的目標。另一方面,如果滿足f=0(步驟S2515:是),則第n個(N+l)片段集合候選被存儲以作為已去除候選e(p)(步驟S2516),并且號碼n被遞增(步驟S2517)。然后判定是否滿足n《mmax(步驟S2518)。如果滿足n《mmax(步驟S2518:是),則過程回到步驟S2504。如果不滿足n《mmax(步驟S2518:否),則標題單詞候選評估處理終止。在步驟S2516存儲的已去除候選e(p)被輸出,作為已確定的(N+l)片段集合。圖26是在同一標題單詞候選"消耗品費"多次存在時標題單詞候選的另一種評估技術的示意圖。圖26示出了根據包含一組標題單詞候選的外接矩形和數據單詞候選的外接矩形的新外接矩形的大小(面積)來采用適當的標題單詞候選的示例。具有較小的外接矩形的標題單詞候選被采用。外接矩形2601是外接數據單詞候選的外接矩形2401和標題單詞候選的外接矩形2402的矩形,外接矩形2602是外接數據單詞候選的外接矩形2401和標題單詞候選的外接矩形2403的矩形。由于外接矩形2602與外接矩形2601相比較小,因此外接矩形2602中包括的外接矩形2403的標題單詞候選被選擇為適當的標題單詞候選。圖27是詳細示出標題單詞候選評估處理(步驟S607)的另一過程的流程圖。在圖27的流程圖中,圖25的流程圖的步驟S2510和S2511被步驟S2710和S2711所替換,其他步驟與圖25的相同。在步驟S2710,號碼n和m的標題單詞候選被檢測并與共同的數據單詞候選相組合,以生成包括號碼n的標題單詞候選的外接矩形和數據單詞候選的外接矩形的號碼n的外接矩形,和包括號碼m的標題單詞候選的外接矩形和數據單詞候選的外接矩形的號碼m的外接矩形,并且兩個外接矩形的面積被計算。然后過程去到步驟S2711。在步驟S2711,判定號碼n的外接矩形的面積是否小于號碼m的外接矩形的面積。如果面積不小于(步驟S2711:否),則過程去到步驟S2513。另一方面,如果面積小于(步驟S2711:是),則過程去到步驟S2512。后續(xù)的處理與圖25的相同。根據標題單詞候選評估部件506,如果同一標題單詞候選多次存在,則可識別適當的標題單詞候選,并且在表單的邏輯結構分析中可實現更高的準確度?,F詳細描述圖5所示的數據單詞候選評估部件507。圖28是表單的另一示例的示意圖。如圖28的(A)部分所示,表單2800的標題項("旅費"和"設備費")和數據("100,000"和"400,000")在某些部分并行地寫為兩層。雖然人可以在直覺上知道旅費是100,000(日元)并且設備費是400,000(日元),但是此邏輯結構無法如上所述地被唯一識別。在圖28的示例中,雖然標題項2801只具有標題項候選"17年度",但標題項2802具有兩個標題項候選("旅費"和"設備費")。類似地,數據項(dataitem)2803具有兩個數據項候選("100,000"和"400,000")。因此,如圖28所示,存在四個樣式的三片段集合候選28B至28E。在圖28中,粗線橢圓指示標題單詞候選,細線橢圓指示數據單詞候選。三片段集合候選28B由標題單詞候選"17年度"、標題單詞候選"旅費"和數據單詞候選"100,000"構成。三片段集合候選28C由標題單詞候選"17年度"、標題單詞候選"設備費"和數據單詞候選"400,000"構成。三片段集合候選28D由標題單詞候選"17年度"、標題單詞候選"旅費"和數據單詞候選"400,000"構成。三片段集合候選28E由標題單詞候選"17年度"、標題單詞候選"設備費"和數據單詞候選"100,000"構成。在識別出三片段集合候選28B至28E之后,計算從標題項2802選擇的標題單詞候選和從數據項選擇的數據單詞候選之間的距離,以識別三片段集合候選28B至28E之中具有相同的所計算距離的三片段集合候選。圖29A和29B是三片段集合候選的組合的評估示例的示意圖。圖29A示出了三片段集合候選28B和28C的組合的評估示例,圖29B示出了三片段集合候選28D和28E的組合的評估示例。在三片段集合候選28B至28E中計算的距離分別是db、dc、dd和de。距離db和dc在圖29A中是等同的,距離dd和de在圖29B中是等同的。因此,三片段集合候選28B和28C被選擇為適當的三片段集合候選。當實際選擇適當的三片段集合候選時,獲得標題單詞候選和數據單詞候選之間的距離,并且選擇具有較小方差(variance)的三片段集合候選。圖30是詳細示出數據單詞候選評估處理(步驟S608)的流程圖。如圖30所示,(N+l)片段集合候選號碼n被設置為n二1(步驟S3001),并且與候選號碼n并發(fā)地實現的(N+l)片段集合候選的數目tbl一max被設置為tbl—max(n)=0(步驟S3002)。然后判定候選號碼n是否被包括在候選號碼表格tbl(i,j)中(其中1=l至n-l,并且j=l至tbl—max(i))(步驟S3003)。如果候選號碼n被包括(步驟S3003:是),則過程去到步驟S3014。如果候選號碼n不被包括(步驟S3003:否),則候選號碼表格tbl(i,j)被設置為tbl(n,1)=1(步驟S3004),并且tbl—max(n)=1被設置(步驟S3005)。候選號碼n的(N+l)片段集合候選的同時實現的候選的候選號碼m被設置為m=1(步驟S3006)。同時實現可能性(concurrentrealizability)檢查處理被執(zhí)行(步驟S3007)。同時實現可能性檢査處理(步驟S3007)在下文中描述。定義同時實現可能性標志為f,并且判定同時實現可能性標志f是否為f=1(步驟S3008)。如果不滿足f^1(步驟S3008:否),則過程去到步驟S3011。如果滿足f=1(步驟S3008:是),則同時實現候選計數tbl—max(n)被設置為tbl—max(n)=tbl_max(n)+1(步驟S3009),并且候選號碼表格tbl(i,j)被設置為tbl(n,tbl_max(n))=m(步驟S3010)。同時實現候選號碼m隨后被實現(步驟S3011)。判定是否滿足m《nmax(步驟S3012)。在此情況下,nmax表示(N+l)片段集合候選計數。如果滿足m《nmax(步驟S3012:是),則過程去到步驟S3007。如果不滿足m《nmax(步驟S3012:否),則執(zhí)行距離方差計算處理(步驟S3013)。距離方差計算處理(步驟S3013)在下文中描述。然后遞增候選號碼n(步驟S3014),并且判定是否滿足n《nmax(步驟S3015)。如果滿足n《nmax(步驟S3015:是),則過程去到步驟S3002。如果不滿足n《nmax(步驟S3015:否),則執(zhí)行最小方差選擇處理(步驟S3016)。最小方差選擇處理(步驟S3016)在下文中描述。然后,在最小方差選擇處理(步驟S3016)中選擇的(N+l)片段集合候選號碼tbl(min—n,*)的tbl—max(min—n)個候選被拷貝到已去除候選(步驟S3017)。過程去到步驟S609。圖31是詳細示出同時實現可能性檢査處理(步驟S3007)的流程圖。如圖31所示,首先,將同時實現可能性標志f設置為f=0(步驟S3101),并且判定候選號碼n的(N+l)片段集合候選的數據單詞候選的邏輯元素群組是否等同于候選號碼m的(N+l)片段集合候選的數據單詞候選的邏輯元素群組(步驟S3102)。如果群組不等同(步驟S3102:否),則同時實現可能性標志f被設置為f=0(步驟S3114),并且過程去到步驟S3008。另一方面,如果群組等同(步驟S3102:是),則判定候選號碼n的(N+l)片段集合候選的數據單詞候選的邏輯元素是否等同于候選號碼m的(N+l)片段集合候選的數據單詞候選的邏輯元素(步驟S3103)。如果元素等同(步驟S3103:是),則同時實現可能性標志f被設置為f=0(步驟S3114),并且過程去到步驟S3008。如果元素不等同(步驟S3103:否),則判定在候選號碼n的(N+l)片段集合候選的數據單詞候選的字符號碼串和候選號碼m的(N+l)片段集合候選的數據單詞候選的字符號碼串中是否存在相同字符號碼(步驟S3104)。如果存在相同字符號碼(步驟S3104:是),則同時實現可能性標志f被設置為f=0(步驟S3114),并且過程去到步驟S3008。另一方面,如果不存在相同字符號碼(步驟S3104:否),則候選號碼n的標題號碼p被設置為p=0(步驟S3105),并且候選號碼m的標題號碼q被設置為q=0(步驟S3106)。判定標題號碼p的邏輯元素群組是否等同于標題號碼q的邏輯元素群組(步驟S3107)。如果群組不等同(步驟S3107:否),則同時實現可能性標志被設置為f-0(步驟S3114),并且過程去到步驟S3008。如果群組等同(步驟S3107:是),則判定標題號碼p的邏輯元素是否等同于標題號碼q的邏輯元素(步驟S3108)。如果元素等同(步驟S3108:是),則過程去到步驟S3111。另一方面,如果元素不等同(步驟S3108:否),則同時實現可能性標志f被設置為f=1(步驟S3109),并且標題號碼q被遞增(步驟S3110)。然后判定是否滿足q《pmax(步驟S3111)。在此情況下,pmax表示標題單詞候選計數。如果滿足q《pniax(步驟S3111:是),則過程回到步驟S3107。如果不滿足q《pmax(步驟S3111:否),則遞增標題號碼p,并且判定是否滿足p《pmax(步驟S3112)。如果滿足p《pmax(步驟S3113:是),則過程回到步驟S3106。另一方面,如果不滿足p《pmax(步驟S3113:否),則過程去到步驟S3008。圖32A是詳細示出距離方差計算處理(步驟S3013)的流程圖。如圖32A所示,表示平均值的變量"a"被設置為a=0(步驟S3201);表示方差的變量"b"被設置為b=0(步驟S3202);并且目標元素提取處理被執(zhí)行(步驟S3203)。目標元素提取處理(步驟S3203)在下文中描述。然后,定義j-0(步驟S2104),并且將同時實現的候選的候選號碼k設置為k:tbl(n,j)(步驟S3205)。搜索不同于其他同時實現的候選的單詞候選(步驟S3206)。然后,計算x=DGX(k)-DHX(k,1)(步驟S3207)。DGX(k)是候選號碼k的同時實現候選的數據單詞候選的中心的X坐標值,DHX(k,l)是候選號碼k的同時實現候選的第一標題單詞候選的中心的X坐標值。類似地,計算y二DGy(k)-DHy(k,1)(步驟S3208)。DGY(k)是候選號碼k的同時實現候選的數據單詞候選的中心的Y坐標值,DHY(k,l)是候選號碼k的同時實現候選的第一標題單詞候選的中心的Y坐標值。計算出的x和y被用于計算候選號碼k的同時實現候選的第一標題單詞候選和數據單詞候選之間的距離d(步驟S3209)。計算出的距離d被添加到表示平均值的變量a以更新變量a(步驟53210);距離d的平方被添加到表示方差的變量b以更新變量b(步驟53211);并且j被遞增(步驟S3212)。判定是否滿足j《tbl一max(n)(步驟S3213)。如果滿足j《tbl_max(n)(步驟S3213:是),則過程去到步驟S3205。如果不滿足j《tbl—max(n)(步驟S3213:否),則變量a被存儲以作為平均值mean(n)(步驟S3214),并且變量b被存儲以作為方差var(n)(步驟S3215)。這導致距離方差計算處理的終止,并且過程去到步驟S3014。圖32B是詳細示出目標元素提取處理(步驟S3203)的流程圖。如圖32B所示,目標元素號碼1(*,*)被設置為1(*,*)=0(步驟S3221);候選號碼表格tbl(n,l)的標題號碼p被設置為p=1(步驟S3222);同時實現候選號碼2被設置為2=2(步驟S3223);候選號碼表格tbl(n,z)的標題號碼q被設置為q二l(步驟S3224)。判定標題號碼p的邏輯元素群組是否等同于標題號碼q的邏輯元素群組(步驟S3225),并且如果群組不等同(步驟S3225:否),則過程去到步驟S3230。如果群組等同(步驟S3225:是),則判定標題號碼p的邏輯元素是否等同于標題號碼q的邏輯元素(步驟S3226),并且如果元素不等同(步驟S3226:否),貝ijl(p,z)=q被設置(步驟S3227);l(p,1)二p被設置(步驟S3228);ll-p被設置(步驟S3229);并且過程去到步驟S3232。另一方面,如果在步驟S3226,標題號碼p的邏輯元素等同于標題號碼q的邏輯元素(步驟S3226:是),則遞增標題號碼q(步驟S3230),并且判定是否滿足q《pmax(步驟S3231),其中pmax是標題的數目。如果滿足q《pmax(步驟S3231:是),則過程回到步驟S3225。如果不滿足q《pmax(步驟S3231:否),則遞增標題號碼p(步驟S3232)并且判定是否滿足p《pmax(步驟S3233)。如果滿足p《pmax(步驟S3233:是),則過程回到步驟S3224;如果不滿足p《pmax(步驟S3233:否),則目標元素提取處理終止。圖33是詳細示出最小方差選擇處理(步驟S3016)的流程圖。如圖33所示,最小方差值min被設置為min:O(步驟S3301);最小方差候選號碼min—n=0被設置(步驟S330),并且(N+l)片段候選的候選號碼11被設置為11=1(步驟S3303)。判定同時實現候選計數tbl_max(n)是否是tbl_max(n)>0(步驟S3340)。如果不滿足tb1—max(n)〉0(步驟S3304:否),則過程去到步驟S3308。另一方面,如果滿足tbl—max(n)>0(步驟S3304:是),則判定最小方差值min是否為min>var(n)(步驟S3305)。如果不滿足min〉var(n)(步驟S3305:否),則過程去到步驟S3308。如果滿足min>var(n)(步驟S3305:是),則最小方差值min被設置為min=var(n)(步驟S3306),并且最小方差候選號碼min—n被設置為1^11_11=11(步驟S3307)。在遞增n之后(步驟S3308),判定是否滿足n《nmax(步驟S3009),其中nmax是(N+l)片段集合候選計數。如果滿足n《nmax(步驟S3309:是),則過程回到步驟S3304。如果不滿足n《nmax(步驟S3309:否),則過程去到步驟S3017。圖34A和34B是三片段集合候選的組合的另一評估示例的示意圖。雖然如圖29所示,通過獲得標題單詞候選和數據單詞候選的中心之間的距離來將具有較小方差的(N+l)片段集合候選選擇為適當的(N+l)片段集合候選,但是圖34所示的評估是通過比較包括標題單詞候選的外接矩形和數據單詞候選的外接矩形的外接矩形的形狀而不是中心之間的距離,從而來執(zhí)行的。圖34A示出了三片段集合候選28B和28C的組合的評估示例,圖34B示出了三片段集合候選28D和28E的組合的評估示例。為三片段集合候選28B至28E獲取的外接矩形分別是rb、rc、rd和re。如圖34A所示,外接矩形rb和rc的面積是等同的(外接矩形之間的方差較小),而如圖29B所示,外接矩形db和de的面積是不同的(外接矩形之間的方差較大)。因此,三片段集合候選28B和28C被選擇為適當的三片段集合候選。當實際選擇適當的三片段集合候選時,選擇在外接矩形之間具有較小方差的三片段集合候選。圖35是詳細示出數據單詞候選評估處理(步驟S608)的另一過程的流程圖。在圖35的流程圖中,圖30的流程圖的步驟S3013被步驟S3513所替換,其他步驟與圖30的相同。在步驟S3513,執(zhí)行矩形方差計算處理。圖36是詳細示出圖35所示的矩形方差計算處理(步驟S3515)的流程圖。如圖36所示,表示平均值的變量"a"被設置為a=0(步驟S3601);表示方差的變量"b"被設置為b:0(步驟S3602);并且同時實現候選的號碼k被設置為k二1(步驟S3603)。搜索與其他同時實現候選不同的單詞候選(步驟S3604)。然后,計算包括第k個同時實現候選的標題單詞候選和數據單詞候選的外接矩形。具體而言,計算左上x坐標sx=MIN(hsx,dsx)(步驟S3605),其中hsx表示標題單詞候選的左上x坐標值,dsx表示數據單詞候選的左上x坐標值。類似地,計算左上y坐標sy=MIN(hsy,dsy)(步驟S3606),其中hsy表示標題單詞候選的左上y坐標值,dsy表示數據單詞候選的左上y坐標值。計算右下x坐標ex=MIN(hex,dex)(步驟S3607),其中hex表示標題單詞候選的右下x坐標值,dex表示數據單詞候選的右下x坐標值。類似地,計算右下y坐標ey=MIN(hey,dey)(步驟S3608),其中hey表示標題單詞候選的右下y坐標值,dey表示數據單詞候選的右下y坐標值。計算外接矩形的面積S(S=(ex-sx)X(ey-sy))(步驟S3609)。計算出的面積S被添加到表示平均值的變量a以更新變量a(步驟53610);面積S的平方被添加到表示方差的變量b以更新變量b(步驟53611);并且同時實現候選的號碼k被遞增(步驟S3612)。判定是否滿足k《j(步驟S3613)。如果滿足k《j(步驟S3613:是),則過程回到步驟S3605。如果不滿足k《j(步驟S3613:否),則變量a被存儲以作為平均值(步驟S3614),并且變量b被存儲以作為方差(步驟S3615)。這導致矩形方差計算處理的終止,并且過程去到步驟S3014。根據數據單詞候選評估部件507,如果存在標題單詞候選和數據單詞候選的多個組合,則可以識別適當的組合,并且可以在表單的邏輯結構分析中實現更高的準確度。圖37是根據實施例的邏輯結構分析裝置的硬件配置的示意圖。如圖37所示,邏輯結構分析裝置500包括計算機3710、輸入設備3720和輸出設備3730,并且可通過路由器或調制解調器(未示出)連接到諸如LAN或WAN之類的網絡3740。計算機3710具有CPU、存儲器和接口。CPU負責邏輯結構分析裝置500的整體控制。存儲器由ROM、RAM、HD、光盤3711和閃存構成。存儲器用作CPU的工作區(qū)域。存儲器中存儲有各種程序,這些程序根據來自CPU的指令被加載。對HD和光盤3711的數據讀取/寫入由盤驅動器來控制。光盤3711和閃存可被從計算機3710去除。接口控制來自輸入設備3720的輸入、到輸出設備3730的輸出以及通過網絡3740的發(fā)送/接收。輸入設備3720包括鍵盤3721、鼠標3722、掃描儀3723,等等。鍵盤3721包括用于輸入字符、數字字符、各種指令等等的鍵,用于數據的輸入。可以使用觸摸板。鼠標3722移動光標、選擇區(qū)域,或者移動窗口或調整窗口大小,等等。掃描儀3723以光學方式讀取圖像。讀取的圖像被捕捉和存儲在計算機3710的存儲器中,作為圖像數據。掃描儀3723可具有光學字符識別(OCR)功能。輸出設備3730包括顯示器3731、揚聲器3732、打印機3733,等等。打印機1513打印圖像數據和文檔數據。顯示器3731顯示光標、圖標或工具框,以及諸如文檔、圖像和功能信息之類的數據。揚聲器輸出諸如聲音效果和閱讀語音之類的聲音。打印機3733打印圖像數據和文檔數據。在本實施例中說明的方法可由諸如個人計算機和工作站之類的執(zhí)行預先準備的程序的計算機來實現。程序被記錄在諸如硬盤、柔性盤、CD-ROM、MO和DVD之類的計算機可讀記錄介質上,并且通過被計算機從記錄介質讀出而被執(zhí)行。程序可以是能夠通過諸如因特網之類的網絡分發(fā)的傳輸介質。根據上述實施例,可以讀取具有各種布局的表單,以唯一地標識多個標題和由標題標識的數據,并且可以自動分析表單的邏輯結構。如果已確定集合候選包括含糊的標題群組,則可根據表單上的數據和含糊標題群組的相對位置來識別適當的標題,以唯一地識別標題和由標題標識的數據。類似地,如果己確定集合候選包括含糊的標題群組和含糊的數據群組,則可以根據已確定集合候選中的含糊數據和含糊標題的相對位置來識別數據和標題的適當組合,以唯一地標識標題和由標題標識的數據。雖然已經針對具體實施例描述了本發(fā)明以便進行完整和清楚的公開,但是所附權利要求并不受此限制,而是應當被解釋為包含了本領域的技術人員可以想到的、完全落入這里闡述的基本教導之內的所有修改和替換。本申請基于2007年10月31日提交的在先日本專利申請No.2007-283916并要求其優(yōu)先權,該在先申請的全部內容能夠引用被并入在此。權利要求1.一種計算機可讀記錄介質,其中存儲有邏輯結構分析計算機程序,該邏輯結構分析計算機程序使得計算機執(zhí)行從包括一個或多個標題和一個或多個數據項的表單上的字符串中提取單位單詞候選;將每個所述單詞候選分類成針對所述標題的標題候選的群組和針對所述數據項的數據候選的群組,以基于所述單詞候選在所述表單上的位置,生成第一候選集合,每個所述第一候選集合包括所述標題候選中的一個標題候選和所述數據候選中可由所包括的標題候選所標識的一個數據候選;組合所述第一候選集合,以生成第二候選集合,使得每一個包括多個不同的標題候選和所述數據候選中的一個數據候選;從所述第二候選集合中,針對每個所述數據項,去除包括所述數據項中的一數據項和標識該數據項的標題的已確定集合,該去除是基于每個所述第二候選集合中包括的標題候選和數據單詞候選在所述表單上的位置的;以及輸出所述已確定集合。2.如權利要求1所述的計算機可讀記錄介質,還包括在所述已確定集合中有第一集合和第二集合時評估標題候選,其中該第一集合包括一數據項和標識該數據項的標題,并且在該第二集合中,在標題中有單個標題的位置與所述第一集合的標題不同,其中所述評估包括基于所述單個標題的位置和所述數據的位置來選擇所述第一集合或所述第二集合作為適當的已確定集合,并且所述輸出包括輸出所述適當的已確定集合。3.如權利要求2所述的計算機可讀記錄介質,其中所述評估包括基于所述單個標題在所述表單上相對于所述數據的位置來選擇所述適當的己確定集合。4.如權利要求2所述的計算機可讀記錄介質,其中所述評估包括基于包圍所述數據和所述單個標題的區(qū)域的面積來選擇所述適當的已確定集5.如權利要求1所述的計算機可讀記錄介質,還包括在所述已確定集合包括多個所述數據項、標識所述數據項的第一標題和在數目上等同于所述數據項并且可由所述數據項標識的多個第二標題時,評估數據候選,其中所述評估包括通過基于所述數據項和所述第二標題的組合中的數據項和第二標題的相對位置比較所述組合,來從所述組合中選擇適當的己確定集合,并且所述輸出包括輸出所述適當的已確定集合。6.如權利要求5所述的計算機可讀記錄介質,其中所述評估包括通過比較所述組合中的數據項和第二標題之間的距離來選擇適當的己確定集合。7.如權利要求5所述的計算機可讀記錄介質,其中所述評估包括通過比較分別包圍所述組合中的數據項和第二標題的面積來選擇適當的己確定8.—種邏輯結構分析裝置,包括提取部件,該提取部件從包括一個或多個標題和一個或多個數據項的表單上的字符串中提取單詞候選;第一生成部件,該第一生成部件將每個所述單詞候選分類成針對所述標題的標題候選的群組和針對所述數據項的數據候選的群組,以基于所述單詞候選在所述表單上的位置,生成第一候選集合,每個所述第一候選集合包括所述標題候選中的一個標題候選和所述數據候選中可由所包括的標題候選所標識的一個數據候選;第二生成部件,該第二生成部件組合所述第一候選集合,以生成第二候選集合,使得每一個包括多個不同的標題候選和所述數據候選中的一個數據候選;去除部件,該去除部件針對每個所述數據項,基于每個所述第二候選集合中包括的標題候選和數據單詞候選在所述表單上的位置,從所述第二候選集合中去除包括所述數據項中的一數據項和標識該數據項的標題的已確定集合;以及輸出部件,該輸出部件輸出所述已確定集合。9.一種邏輯結構分析方法,包括從包括一個或多個標題和一個或多個數據項的表單上的字符串中提取單位單詞候選;將每個所述單詞候選分類成針對所述標題的標題候選的群組和針對所述數據項的數據候選的群組,以基于所述單詞候選在所述表單上的位置,生成第一候選集合,每個所述第一候選集合包括所述標題候選中的一個標題候選和所述數據候選中可由所包括的標題候選所標識的一個數據候選;組合所述第一候選集合,以生成第二候選集合,使得每一個包括多個不同的標題候選和所述數據候選中的一個數據候選;從所述第二候選集合中,針對每個所述數據項,去除包括所述數據項中的一數據項和標識該數據項的標題的已確定集合,該去除是基于每個所述第二候選集合中包括的標題候選和數據單詞候選在所述表單上的位置的;以及輸出所述已確定集合。全文摘要本發(fā)明提供了邏輯結構分析裝置、方法和計算機產品。一種邏輯結構分析裝置包括提取部件,其從表單提取單詞候選;第一生成部件,其將每個單詞候選分類成標題候選的群組和數據候選的群組,以基于單詞候選在表單上的位置,生成第一候選集合,每個第一候選集合包括一個標題候選和可由該標題候選標識的一個數據候選;第二生成部件,其組合第一候選集合,以生成第二候選集合,使得每一個包括多個不同的標題候選和一個數據候選;去除部件,其基于每個第二候選集合中的標題候選和數據單詞候選的位置,從第二候選集合中去除包括一數據項和標識該數據項的標題的已確定集合;以及輸出部件,其輸出已確定集合。文檔編號G06K9/00GK101425131SQ20081014588公開日2009年5月6日申請日期2008年8月18日優(yōu)先權日2007年10月31日發(fā)明者堀田悅伸,皆川明洋,藤井勇作,藤本克仁申請人:富士通株式會社
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
边坝县| 宿州市| 万山特区| 定边县| 靖远县| 吕梁市| 伊春市| 调兵山市| 景东| 吴桥县| 绥宁县| 乌拉特前旗| 香河县| 方城县| 全椒县| 太仓市| 余江县| 繁昌县| 兖州市| 大兴区| 东兰县| 冀州市| 常熟市| 淳安县| 巫山县| 磐石市| 临澧县| 蒙山县| 龙泉市| 资溪县| 扶沟县| 合川市| 南江县| 罗山县| 卢龙县| 镇康县| 珲春市| 凯里市| 三都| 仲巴县| 北流市|