信息處理裝置和用于生成圖表的方法
【專利摘要】本發(fā)明涉及信息處理裝置和用于生成圖表的方法。一種信息處理裝置,包括確定單元和圖表生成單元。該確定單元通過分析要呈現(xiàn)在電子文件中的字符串來確定圖表類型。該圖表生成單元基于電子文件的數(shù)據(jù)來生成具有該圖表類型的圖表。
【專利說明】信息處理裝置和用于生成圖表的方法
【技術(shù)領(lǐng)域】
[0001]本文所討論的實施例涉及信息處理裝置以及用于生成圖表的方法。
【背景技術(shù)】
[0002]電子文件可包含以可視的方式呈現(xiàn)某些具體數(shù)據(jù)的圖表。為了用計算機產(chǎn)生這樣的電子文件,用戶可以指定一種圖表和將源數(shù)據(jù)輸入計算機。在響應中,計算機通過運行具有圖表生成功能的軟件程序來根據(jù)用戶輸入生成圖表。
[0003]用于圖表生成的軟件可以是例如電子表格應用程序。在計算機上運行的電子表格程序使用戶能以表格形式輸入數(shù)據(jù)并且根據(jù)數(shù)據(jù)表格產(chǎn)生用戶所指定的類型的圖表??梢酝ㄟ^用于設(shè)計并且創(chuàng)建諸如商業(yè)報表格式的文件的其他應用程序軟件來類似地產(chǎn)生圖表。該軟件根據(jù)給定的源數(shù)據(jù)生成圖表并且將得到的圖表插入文件。
[0004]還提出了一種文件處理設(shè)備,該文件處理設(shè)備幫助用戶創(chuàng)建適用于他的或她的文件目的的示圖,而無需與這種示圖的格式有關(guān)的任何專門知識。所提出的設(shè)備接受指定要創(chuàng)建的示圖的目的的用戶命令以及描述示圖如何表現(xiàn)其內(nèi)容的一組規(guī)則。在響應中,文件處理設(shè)備針對示圖確定適當?shù)念伾钆?、對象布局以及裝飾。例如,參見,日本已公開專利公布第2000-268112號。
[0005]諸如商業(yè)報表格式的電子文件根據(jù)文件的目的(即,圖表打算傳遞何種信息)可包括條形圖表、線形圖表或其他類型的圖表。例如,當用戶打算在多個數(shù)據(jù)值之間就它們的大小提供比較時,可以選擇條形圖表。當打算描繪兩個或更多個數(shù)據(jù)項目隨時間的變化時,在許多情況下,線形圖表會是直觀的。
[0006]必須注意的是,在上述的傳統(tǒng)技術(shù)中,選擇生成哪種類型的圖表由用戶決定。然而,這意味著用戶并不總能做出正確的圖表選擇。如果指定了錯誤的類型,得到的圖像會難以理解,因此用戶將不得不花費額外的時間來丟棄無用的圖表并且通過指定不同的圖表類型來創(chuàng)建另一圖表。
【發(fā)明內(nèi)容】
[0007]一方面,實施例的目的是提供一種便于生成適當類型的圖表的信息處理裝置和圖表生成方法。
[0008]根據(jù)本文要討論的實施例的一個方面,提供了一種用于產(chǎn)生圖表的方法,該方法包括:由計算機通過分析要在電子文件中呈現(xiàn)的字符串來確定圖表類型;并且由計算機基于該電子文件的數(shù)據(jù)來生成該圖表類型的圖表。
【專利附圖】
【附圖說明】
[0009]圖1例示了根據(jù)第一實施例的信息處理裝置的功能結(jié)構(gòu)的示例;
[0010]圖2例示了根據(jù)第二實施例的系統(tǒng)配置的示例;
[0011]圖3例示了在第二實施例中的服務器的硬件配置的示例;[0012]圖4例示了第二實施例的功能框圖;
[0013]圖5例示了文件式樣形式的示例;
[0014]圖6例示了文件式樣數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)的示例;
[0015]圖7例示了詞匯存儲單元的數(shù)據(jù)結(jié)構(gòu)的示例;
[0016]圖8例示了中間數(shù)據(jù)存儲單元的數(shù)據(jù)結(jié)構(gòu)的示例;
[0017]圖9是例示產(chǎn)生文件的處理的流程圖;
[0018]圖10是例示如何創(chuàng)建文件式樣形式的流程圖;
[0019]圖11是例示文件如何輸出的流程圖;
[0020]圖12例示如何產(chǎn)生用于插入文件的表格的示例;
[0021]圖13是例不如何廣生圖表的流程圖;
[0022]圖14是例示如何確定圖表類型的流程圖;
[0023]圖15是例示如何確定文件的分類的流程圖;
[0024]圖16例示從文件提取標題的示例;
[0025]圖17是例示詞匯提取處理的示例的流程圖;
[0026]圖18例示基于標題的文件分類的示例;
[0027]圖19是例示如何確定數(shù)據(jù)序列的數(shù)量的流程圖;
[0028]圖20例示對數(shù)據(jù)序列計數(shù)的示例;
[0029]圖21是例示如何確定項目的數(shù)量的示例的流程圖;
[0030]圖22是例示如何選擇圖表類型的流程圖;
[0031]圖23是例示選擇用于比較的圖表類型的處理的流程圖;
[0032]圖24是例示如何選擇用于分析的圖表類型的示例的流程圖;
[0033]圖25例示如何基于數(shù)據(jù)值的總和來選擇圖表類型的示例;
[0034]圖26例示如何生成包含圖表的文件的第一示例;以及
[0035]圖27至圖29是例示如何生成包含圖表的文件第二示例的第一至第三示圖。
【具體實施方式】
[0036]下面將參考附圖來描述幾個實施例。這些實施例除非它們具有相矛盾的特征否則可以彼此結(jié)合。
[0037](a)第一實施例
[0038]圖1例示了根據(jù)第一實施例的信息處理裝置的功能結(jié)構(gòu)的示例。所例示的信息處理裝置I包括電子文件生成單元la、確定單元Ib以及圖表生成單元lc。
[0039]電子文件生成單元Ia配置成基于表格4b的源數(shù)據(jù)3并且基于式樣數(shù)據(jù)2來生成用于電子文件4-1的表格4b,該式樣數(shù)據(jù)2定義包括表格的這種電子文件4-1的外觀或式樣。電子文件生成單元Ia基于式樣數(shù)據(jù)2生成電子文件4-1。例如,電子文件生成單元Ia將所生成的表格4b插入在式樣數(shù)據(jù)2中所定義的表格區(qū)域2b。
[0040]更具體地,式樣數(shù)據(jù)2包括標題2a、表格區(qū)域2b、圖表區(qū)域2c以及其他參數(shù)的定義,用于由信息處理裝置I用來產(chǎn)生電子文件4-1。標題2a是要產(chǎn)生的電子文件4-1的辨識名稱。表格區(qū)域2b是在電子文件4-1中定義的將插入表格4b的區(qū)域。圖表區(qū)域2c是在電子文件4-1中將插入圖表4d的另一區(qū)域。式樣數(shù)據(jù)2結(jié)合指示何種數(shù)據(jù)與字段相關(guān)聯(lián)的信息來將表格區(qū)域2b定義為與一組數(shù)據(jù)字段。例如,源數(shù)據(jù)3包括多個記錄,每個記錄均由兩個或更多個數(shù)據(jù)值形成。式樣數(shù)據(jù)2指定將哪個數(shù)據(jù)項目分配給要在表格區(qū)域2b中放置的表格的哪個字段。參考圖1的示例,表格區(qū)域2b定義成容納具有與源數(shù)據(jù)值相關(guān)聯(lián)的以下三列的表格。標題為“AA”的最左側(cè)列包含每個記錄的第一數(shù)據(jù)值(#1)。標題為“BB”的下一列包含每個記錄的第二數(shù)據(jù)值(#2)。標題為“CC”的最右側(cè)列包含每個記錄的第三數(shù)據(jù)值(#3)。這種表格區(qū)域定義允許電子文件生成單元Ia通過用在源數(shù)據(jù)3中的每個記錄的數(shù)據(jù)值填充表格4b的數(shù)據(jù)字段來產(chǎn)生表格4b。
[0041]確定單元Ib分析在電子文件4-1中所包含的字符串,從而確定適合于電子文件4-1的圖表類型。例如,確定單元Ib首先基于電子文件4-1中的某些字符串來指定電子文件4-1的文件目的,即,為了什么目的而產(chǎn)生電子文件4-1。然后確定單元Ib選擇適合于預期的文件目的的適合類型圖表。更具體地,確定單元Ib從電子文件4-1的標題4a提取專業(yè)詞匯,假定標題4a包含表示例如電子文件4-1預期用于什么的這種字符串?;谒崛〉膶I(yè)詞匯詞語,確定單元Ib指定電子文件4-1的文件目的,例如,該目的可以是數(shù)據(jù)的比較或者數(shù)據(jù)的分析。
[0042]確定單元Ib還可以依賴其他參數(shù)(例如數(shù)據(jù)序列的數(shù)量或項目的數(shù)量)來確定圖表4d的類型。前一參數(shù)(即,數(shù)據(jù)序列的數(shù)量)表示要在圖表4d中描繪多少種數(shù)據(jù)。后一參數(shù)(即,項目的數(shù)量)表示將多少數(shù)據(jù)值分組進單一種類的數(shù)據(jù)或數(shù)據(jù)序列。從電子文件4-1中的表格4b的定義來獲得這些參數(shù)。確定單元Ib可以使用數(shù)據(jù)序列的數(shù)量和項目的數(shù)量這兩者來確定圖表類型。注意,可將表格4b中所包含的數(shù)據(jù)分組進多個行數(shù)據(jù)或者多個列數(shù)據(jù)中。術(shù)語“數(shù)據(jù)序列”指(例如)適合電子文件4-1的文件目的表格4b中的那些數(shù)據(jù)組中的全部或一部分。
[0043]圖表生成單元Ic基于電子文件4-1中的數(shù)據(jù)來生成所選擇類型的圖表4d。圖表生成單元Ic可進一步將所生成的圖表4d插入電子文件4-1的通過上述式樣數(shù)據(jù)2產(chǎn)生的圖表區(qū)域4c。圖表生成單元Ic然后輸出得到的包含圖表4d的電子文件4-2。
[0044]在上述的信息處理裝置I的操作中,根據(jù)給定式樣數(shù)據(jù)2和源數(shù)據(jù)3來產(chǎn)生電子文件4-1。參考圖1的示例,該電子文件4-1標題為“銷售記錄”并且包含尺寸為三行乘三列的表4b。表4b具有名稱為“aa”和“bb”的兩個項目。當確定單元Ib確定要生成哪種類型的圖表時,確定單元Ib參考該表4b的標題和項目的數(shù)量。例如,假定術(shù)語“記錄”是暗示電子文件4-1是用于數(shù)據(jù)比較的專業(yè)詞匯詞語。由于標題4a在其字符串中包括該項目“記錄”,所以確定單元Ib確定所涉及的電子文件4-1打算用于某些數(shù)據(jù)的“比較”。確定單元Ib還將項目的數(shù)量與指定的閾值作比較。在圖1的示例中假定項目的數(shù)量沒有超過閾值。然后確定單元Ib選擇不僅適合數(shù)據(jù)比較的目的而且適合于這種小項目數(shù)量的適當類型圖表。在圖1的示例中,確定單元Ib為電子文件4-1選擇了垂直條形圖表。
[0045]通過具體圖形類型的選擇,圖形生成單元Ic基于例如在表格4b中所提供的源數(shù)據(jù)來生成圖表4d。所生成的圖表4d插入電子文件4-1的圖表區(qū)域4c。得到的帶有圖表4d的電子文件4-2可以輸出至打印機以在物理介質(zhì)上產(chǎn)生一個或多個副本。最后的電子文件4-2還可發(fā)送至存儲設(shè)備。
[0046]正如從上面的描述可以看出的,第一實施例設(shè)計成根據(jù)文件中所包含的字符串來選擇電子文件4-1的合適類型圖表。所提出的第一實施例的信息處理裝置I避免了產(chǎn)生不適合的圖表并且使得有可能提供將文件的內(nèi)容有效地傳達給用戶的圖表。
[0047]例如,上述電子文件生成單元la、確定單元lb、圖表生成單元Ic可以作為信息處理裝置I中的處理器的功能的一部分來實現(xiàn)。應當注意,圖1中將功能塊互連的線僅是示例。圖1為了簡化而省略了某些通信路徑。本領(lǐng)域的技術(shù)人員應理解的是在實際實現(xiàn)中可以存在其他通信路徑。
[0048](b)第二實施例
[0049]這一部分描述第二實施例,其中服務器通過利用從終端設(shè)備提供的文件式樣形式來產(chǎn)生表示源數(shù)據(jù)的文件。第二實施例能使服務器在產(chǎn)生文件時選擇適合類型的圖表。這里,術(shù)語“文件”用作在第一實施例中所討論的電子文件4-1的示例。
[0050]圖2例示了根據(jù)第二實施例的系統(tǒng)配置的示例。在本系統(tǒng)中,多個終端設(shè)備200和200a經(jīng)由網(wǎng)絡(luò)10連接至服務器100,并且打印機19附接至網(wǎng)絡(luò)10。
[0051]終端設(shè)備200和200a是用于為服務器100創(chuàng)建文件式樣并且輸入源數(shù)據(jù)的計算機。例如,一個用戶通過他的或她的終端設(shè)備200創(chuàng)建文件式樣形式并且將該文件式樣形式發(fā)送至服務器100。另一用戶經(jīng)由他的或她的終端設(shè)備200a輸入源數(shù)據(jù)并且將該源數(shù)據(jù)發(fā)送至服務器100。
[0052]服務器100是配置成生成用戶的文件的計算機。例如,服務器100接收并且存儲文件式樣和源數(shù)據(jù)。通過所存儲的文件式樣和源數(shù)據(jù),服務器100根據(jù)從終端設(shè)備200和200a發(fā)送的用戶命令產(chǎn)生文件。服務器100可以將打印命令與表示所產(chǎn)生文件的文件數(shù)據(jù)一起傳輸至打印機19。然后打印機19按要求打印出文件。
[0053]服務器100還能夠自動生成作為文件的一部分的圖表。服務器100通過咨詢文件式樣形式和源數(shù)據(jù)來確定哪種類型的圖表適合于要生成的文件。
[0054]為了提供上面提到的功能,服務器100可以具有下面描述的硬件配置。圖3例示了在第二實施例中的服務器的硬件配置的示例。所例示的服務器100具有用于控制其整個操作的處理器101。該處理器101連接至總線109上的隨機存取存儲器(RAM,random accessmemory) 102和各種設(shè)備和接口。處理器101可以是單個處理設(shè)備或者是包括兩個或更多個處理設(shè)備的多處理器系統(tǒng)。具體地,處理器101可以是例如中央處理器(CPU,centralprocessing unit)、微處理單兀(MPU, micro processing unit)或數(shù)字信號處理器(DSP,digital signal processor)。還應注意的是,處理器101的處理功能可以完全地或部分地由專用集成電路(ASIC, application-specific integrated circuit)、可編程邏輯器件(PLD,programmable logic device)或者其他電子電路,或者它們的結(jié)合來執(zhí)行。術(shù)語“處理器”用于統(tǒng)稱這些設(shè)備。
[0055]RAM102用作服務器100的主存儲器。具體地,RAM102用于臨時存儲處理器101執(zhí)行的應用程序和操作系統(tǒng)(OS)程序的至少一部分,還存儲處理器在運行時操縱的其他各種數(shù)據(jù)對象??偩€109上的其他設(shè)備是硬盤驅(qū)動(HDD, hard disk drive) 103、圖形處理器104、輸入設(shè)備接口 105、光盤驅(qū)動106、外圍設(shè)備接口 107以及網(wǎng)絡(luò)接口 108。
[0056]HDD103以磁的方式寫入并且讀取在其內(nèi)部盤片上的數(shù)據(jù)。HDD103用作服務器100的輔助存儲器以存儲操作系統(tǒng)和應用程序的程序和數(shù)據(jù)文件。閃存和其他半導體存儲器也可以用作輔助存儲器。
[0057]耦接至監(jiān)視器11的圖形處理器104根據(jù)來自處理器101的繪圖命令產(chǎn)生視頻圖像并且將視頻圖像顯示在監(jiān)視器11的屏幕上。監(jiān)視器11可以是例如陰極射線管(CRT,cathode ray tube)顯示器或者液晶顯示器。
[0058]輸入設(shè)備接口 105連接至諸如鍵盤12和鼠標13等輸入設(shè)備并且將來自這些設(shè)備的信號提供至處理器101。鼠標13是指示設(shè)備,其可以用其他種類的指示設(shè)備(諸如觸摸屏、平板電腦、觸摸板、跟蹤球)來代替。
[0059]光盤驅(qū)動106通過利用激光來讀取在光盤14上編碼的數(shù)據(jù)。光盤14是便攜式數(shù)據(jù)存儲介質(zhì),其上所存儲的數(shù)據(jù)能夠讀取為光反射或者無光反射。例如,光盤14可以是數(shù)字通用光盤(DVD, digital versatile disc)、DVD-RAM、光盤只讀存儲器(CD-ROM, compactdisc read-only memory)、可記錄光盤(O)-R)或可重寫光盤(⑶-鼎)。
[0060]外圍設(shè)備接口 107是用于將外圍設(shè)備連接至服務器100的通信接口。例如,外圍設(shè)備接口 107可用于連接存儲設(shè)備15和存儲卡讀/寫器16。存儲設(shè)備15是具有與外圍設(shè)備接口 107通信的能力的數(shù)據(jù)存儲介質(zhì)。存儲卡讀/寫器16是用于將數(shù)據(jù)寫入存儲卡17或者從存儲卡17讀取數(shù)據(jù)的適配器,存儲卡17是小卡形式的數(shù)據(jù)存儲介質(zhì)。
[0061]網(wǎng)絡(luò)接口 108連接至網(wǎng)絡(luò)10。處理器101能夠在網(wǎng)絡(luò)10上與其他計算機或通信設(shè)備(未示出)交換數(shù)據(jù)。
[0062]上述硬件平臺可以用于實現(xiàn)第二實施例的處理功能。盡管圖3例示了服務器100的硬件結(jié)構(gòu),但相同的結(jié)構(gòu)能夠類似地應用于終端設(shè)備200和200a。前述第一實施例的信息處理裝置I還可通過圖3中例示的硬件來實現(xiàn)。
[0063]服務器100通過執(zhí)行在例如計算機可讀非暫時性存儲介質(zhì)中存儲的程序來提供第二實施例的各種處理功能。服務器100的程序可存儲在各種計算機可讀介質(zhì)中。例如,這種程序文件可以存儲在HDD103中。處理器101將從HDD103讀取出的那些程序文件的至少一部分加載到RAM102并且在RAM102上執(zhí)行這些程序。用于存儲程序的計算機可讀介質(zhì)包括光盤14、存儲器15、存儲卡17以及其他便攜式存儲介質(zhì)。在這種便攜式存儲介質(zhì)中存儲的程序在處理器101的控制下安裝在HDD103中,使得這些程序易于按要求來執(zhí)行。處理器101可以在適當情況下執(zhí)行從便攜式存儲介質(zhì)讀取出的程序代碼,而無需將這些程序代碼安裝在處理器101的本地存儲設(shè)備上。
[0064]為了生成包括圖表的文件,第二實施例中的裝置配置成提供下述功能。圖4是第二實施例的功能框圖。例示的終端設(shè)備200包括文件式樣存儲單元210、文件式樣生成單元220以及文件式樣發(fā)送單元230,以產(chǎn)生文件式樣形式。
[0065]文件式樣存儲單元210為在下面描述的文件式樣生成單元220處產(chǎn)生的文件式樣數(shù)據(jù)提供了存儲空間。例如,文件式樣存儲單元210可以實現(xiàn)為終端設(shè)備200中的RAM或HDD的一部分。
[0066]文件式樣生成單元220配置成根據(jù)用戶輸入產(chǎn)生文件式樣形式。例如,文件式樣生成單元220允許用戶對文本、繪圖、表格以及其他對象進行編輯。通過與用戶交互,文件式樣生成單元220將標題、表格區(qū)域、圖表區(qū)域等放置在指定的頁面空間內(nèi)。例如,文件式樣生成單元220可以將列標題和項目名稱分配給表格。列標題是指明特定種類的一組數(shù)據(jù)值的辨識名稱。例如,諸如“名稱”和“目標金額”等字符串可分配為列標題。項目名稱是由一個或多個數(shù)據(jù)值組成的記錄的辨識名稱。文件式樣生成單元220還定義表格中的每個單元格如何與源數(shù)據(jù)相關(guān)聯(lián)。文件式樣生成單元220允許用戶定義要輸入至表格中的指定單元格的源數(shù)據(jù)的屬性。該屬性信息指示例如所涉及的源數(shù)據(jù)值是字符串或數(shù)值。
[0067]文件式樣生成單元220可以將所產(chǎn)生的文件式樣的數(shù)據(jù)存儲進文件式樣存儲單元210中。該數(shù)據(jù)稱為文件式樣數(shù)據(jù)。文件式樣生成單元220可以將文件式樣數(shù)據(jù)傳送(pass)至文件式樣發(fā)送單元230,以使服務器100保留文件式樣數(shù)據(jù)的副本。文件式樣發(fā)送單元230配置成將所產(chǎn)生的文件式樣數(shù)據(jù)傳輸至服務器100。
[0068]例示的服務器100包括下列部件:文件式樣存儲單元110、源數(shù)據(jù)存儲單元120、詞匯存儲單元130、中間數(shù)據(jù)存儲單元140、文件存儲單元150、文件式樣接收單元161、用戶應用程序162、分析單元163、圖表生成單元164、以及打印單元165。源數(shù)據(jù)存儲單元120、詞匯存儲單元130、中間數(shù)據(jù)存儲單元140以及文件存儲單元150實現(xiàn)為例如RAM102或HDD103的存儲空間的一部分。
[0069]文件式樣存儲單元110配置成存儲在終端設(shè)備200中產(chǎn)生的文件式樣數(shù)據(jù)的副本。源數(shù)據(jù)存儲單元120配置成存儲通過用戶應用程序162接收的源數(shù)據(jù)。例如,源數(shù)據(jù)用于填充文件中的表格并且生成在該文件中的圖表。
[0070]詞匯存儲單元130配置成存儲專業(yè)詞匯,即,能夠用于指定圖表的目的的一組詞語和短語。在該詞匯存儲單元130中,詞匯的每一條記錄包括用于確定包含具體專業(yè)詞匯詞語的文件的目的的某些相關(guān)信息。這里應當注意的是,術(shù)語“專業(yè)詞匯詞語”的范圍不限于單個詞語表示,而是包括由兩個或更多個詞語組成的短語。
[0071]中間數(shù)據(jù)存儲單元140配置成對在文件生成的處理過程中圖表生成單元164產(chǎn)生的中間數(shù)據(jù)進行存儲。文件存儲單元150配置成存儲所生成文件的文件數(shù)據(jù)。
[0072]文件式樣接收單元161配置成從終端設(shè)備200接收文件式樣數(shù)據(jù)并且將所接收的文件式樣數(shù)據(jù)存儲在文件式樣存儲單元110中。
[0073]用戶應用程序162從用戶接受文件的數(shù)據(jù)輸入以及用于輸出文件的命令。例如,用戶應用程序162可以從經(jīng)由網(wǎng)絡(luò)10連接至服務器100的終端設(shè)備200和200a接收這種數(shù)據(jù)和命令。用戶應用程序162還可以響應于用戶輸入來命令分析單元163輸出文件。當接收到文件的數(shù)據(jù)時,用戶應用程序162將所接收數(shù)據(jù)作為源數(shù)據(jù)存儲在源數(shù)據(jù)存儲單元120 中。
[0074]分析單兀163配置成響應于用戶應用程序162針對文件發(fā)出的輸出命令來分析該文件的文件式樣數(shù)據(jù)和源數(shù)據(jù)。例如,輸出命令指定包括表格區(qū)域的文件的文件式樣數(shù)據(jù)和源數(shù)據(jù)。分析單元163從文件式樣存儲單元110取回指定的文件式樣數(shù)據(jù),然后分析所取回的數(shù)據(jù)以確定用源數(shù)據(jù)的那一部分來填充表格區(qū)域。分析單元163從源數(shù)據(jù)存儲單元120取回源數(shù)據(jù)的被確定部分,分析所取回的源數(shù)據(jù),并且通過將數(shù)據(jù)值放置在適當?shù)膯卧駚硖畛浔砀駞^(qū)域。分析單元163將文件式樣數(shù)據(jù)的分析結(jié)果與源數(shù)據(jù)一起提供給圖表生成單元164。
[0075]圖表生成單元164配置成基于給定的文件式樣數(shù)據(jù)和源數(shù)據(jù)來生成文件的圖表。例如,文件式樣數(shù)據(jù)指示包括圖表區(qū)域的對象的具體布局。為了生成圖表,圖表生成單元164首先通過利用在詞匯存儲單元130中所存儲的專業(yè)詞匯來確定文件目的。然后圖表生成單元164選擇適用于指定的文件目的的適當類型的圖表并且根據(jù)源數(shù)據(jù)生成所選擇類型的圖表。在這個過程中,圖表生成單元164可基于上面指定的文件的目的來確定文件中的“數(shù)據(jù)序列”。術(shù)語“數(shù)據(jù)序列”指在單一類別中的數(shù)據(jù)值的集合,諸如在列標題“目標金額”或“銷售金額”下的那些數(shù)據(jù)值的集合。例如,假設(shè)文件目的在于觀察各個銷售人員的績效。在這種情況下,源數(shù)據(jù)包括銷售人員的名稱和表示銷售人員的銷售記錄的值,諸如“目標金額”和“銷售金額”。銷售人員的名稱作為“項目名稱”處理,而銷售記錄作為“數(shù)據(jù)序列”的值來處理。
[0076]在以上面討論的方式生成了圖表之后,圖表生成單元164輸出文件數(shù)據(jù),該文件數(shù)據(jù)表示包含所產(chǎn)生圖表的文件。例如,圖表生成單元164將所產(chǎn)生的文件數(shù)據(jù)存儲進文件存儲單元150中。除了存儲之外,圖表生成單元164還可將文件數(shù)據(jù)輸出至打印單元165。打印單元165根據(jù)所接收的文件數(shù)據(jù)打印出文件。例如,打印單元165在網(wǎng)絡(luò)10上向打印機19發(fā)出打印命令,而且將文件數(shù)據(jù)發(fā)送至該打印機。打印機19相應地輸出文件的打印副本。
[0077]所提出的系統(tǒng)使用戶能夠在服務器100的幫助下自動產(chǎn)生文件。應當注意的是,將圖4中的功能塊互連的線僅是示例。本領(lǐng)域的技術(shù)人員應理解的是在實際實現(xiàn)中可以有其他通信路徑。圖4中的分析單元163是在第一實施例的圖1中的、前述電子文件生成單元Ia的示例。此外,圖4中的圖表生成單元164提供在第一實施例的圖1中的、前述確定單元Ib和圖表生成單元Ic這二者的功能。
[0078]現(xiàn)在,將針對文件式樣的特征進行描述。圖5例示了文件式樣形式的示例。所例示的文件式樣形式20包括標題21、作者名稱22、表格區(qū)域23以及圖表區(qū)域24。
[0079]標題21是指示要生成的文件的主題的字符串。作者名稱22是指示誰(人或者組織)產(chǎn)生了這個文件的字符串。表格區(qū)域23是要插入表格的位置。該表格區(qū)域23可以由例如表頭部23a和源數(shù)據(jù)映射部23b形成。表頭部23a是由多個字符串構(gòu)成的表格的第一行,這些字符串指示在表格的每個對應列中的數(shù)據(jù)值的類型。在源數(shù)據(jù)映射部23b中,源數(shù)據(jù)中的數(shù)據(jù)值根據(jù)由表頭部23a所指示的數(shù)據(jù)值的數(shù)據(jù)類型而映射在該數(shù)據(jù)值的對應列上。某些附加信息可分配給源數(shù)據(jù)映射部23b,以指定在由表頭部23a區(qū)分的每個列中的數(shù)據(jù)的屬性。例如,一種屬性指示所涉及的數(shù)據(jù)值是字符串還是數(shù)。另一屬性以字符為單位給出數(shù)據(jù)長度。文件式樣形式20還定義了要插入圖表的圖表區(qū)域24。
[0080]將上述的文件式樣形式20作為文件式樣數(shù)據(jù)傳輸至服務器100。服務器100將所接收的文件式樣數(shù)據(jù)存儲在其本地文件式樣存儲單元110中。圖6例示了文件式樣數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)的示例。所例示的文件式樣數(shù)據(jù)30包括頁面參數(shù)和多組分區(qū)參數(shù)。頁面參數(shù)包括要使用的紙頁的垂直尺寸和水平尺寸。
[0081]分區(qū)參數(shù)描述了文件所劃分成的多個區(qū)域或分區(qū)。例如,分區(qū)參數(shù)包括整體上描述文件的那些分區(qū)參數(shù)、描述表格區(qū)域的那些分區(qū)參數(shù)以及描述圖表區(qū)域的那些分區(qū)參數(shù)。這些分區(qū)參數(shù)組中的每一組可包括例如項目數(shù)據(jù)和框線數(shù)據(jù)。項目數(shù)據(jù)描述了在分區(qū)中要包含的項目??蚓€參數(shù)描述了在分區(qū)中要畫出的框線。
[0082]例如,項目參數(shù)31實際上是關(guān)于特定項目的以下參數(shù):項目名稱、項目位置、項目尺寸、數(shù)據(jù)長度、數(shù)據(jù)格式、字體、對齊方式、文本格式、記錄內(nèi)位置以及數(shù)據(jù)定義。項目名稱參數(shù)給出項目的唯一辨識名稱。項目位置參數(shù)包含指示項目所在位置的坐標。項目尺寸參數(shù)指示項目所占據(jù)的空間(例如,在項目位置處項目的空間的寬度和高度)。數(shù)據(jù)長度參數(shù)指示項目數(shù)據(jù)的長度(例如,位的數(shù)量)。數(shù)據(jù)格式參數(shù)指示項目是哪種數(shù)據(jù)(例如,字符串、數(shù)字)。字體參數(shù)指定用于顯示項目值的字體的名稱和尺寸。對齊方式參數(shù)指定用于顯示項目值的字符串的對齊方式(例如,居中)。文本格式參數(shù)指定文本的格式(例如,斜體、粗體)。記錄內(nèi)位置參數(shù)將項目與源數(shù)據(jù)的特定部分相關(guān)聯(lián)。例如,源數(shù)據(jù)的記錄可以以逗號分隔值(CSV, Comma-separated Values)的格式提供。S卩,記錄的數(shù)據(jù)值通過逗號來分隔。記錄內(nèi)位置參數(shù)指示項目對應于源數(shù)據(jù)記錄中的什么編號數(shù)據(jù)值。數(shù)據(jù)定義參數(shù)包含項目的真實數(shù)據(jù)。例如,數(shù)據(jù)定義參數(shù)在項目定義成屬于某種字符串時包含該具體字符串。圖6例示這種項目參數(shù)32的示例,該項目參數(shù)包括上述的項目名稱參數(shù)、項目位置參數(shù)、項目尺寸參數(shù)以及數(shù)據(jù)格式參數(shù)的具體值。
[0083]服務器100使用上述文件式樣數(shù)據(jù)30來產(chǎn)生文件。當文件式樣形式20包括圖表區(qū)域24時,服務器100基于文件式樣數(shù)據(jù)30和源數(shù)據(jù)生成圖表。在詞匯存儲單元130中所寄存的專業(yè)詞匯詞語在這里用于選擇具體的圖表類型。
[0084]圖7例示了詞匯存儲單元130的數(shù)據(jù)結(jié)構(gòu)的示例。在本示例中,詞匯存儲單元130對由多個記錄形成的詞匯管理表131進行存儲,其中每個記錄對應于特定的專業(yè)詞匯詞語。
[0085]具體地,詞匯管理表131具有下列數(shù)據(jù)字段:“字符串”、“分類”、“分類矢量”以及“準同義詞”。字符串字段包含被認為是專業(yè)詞匯詞語的字符串。分類字段指示專業(yè)詞匯詞語是否暗示數(shù)據(jù)的“分析”或者數(shù)據(jù)的“比較”。例如,如果文件包含分類為“分析”的專業(yè)詞匯詞語,則意味著文件打算用于數(shù)據(jù)分析。然后為了數(shù)據(jù)分析來選擇適當?shù)膱D表類型。分類矢量字段包含矢量,該矢量表示多少專業(yè)詞匯詞語與“分析”和“比較”這兩個概念中的每一個相關(guān)聯(lián)。該矢量稱為“分類矢量”。在圖7的示例中,所例示的分類矢量的第一分量表示專業(yè)詞匯詞語傾向于“比較”,而第二分量表示傾向于“分析”。分類矢量的每一分量取在零到I的范圍中的實數(shù)值。準同義詞字段包含意思與專業(yè)詞匯詞語類似的一個或多個術(shù)語。認為專業(yè)詞匯詞語及其準同義詞是以同樣的方式分類,并因此具有相同的分類矢量。
[0086]某些專業(yè)詞匯詞語以同等權(quán)重暗示比較和分析。對于這些專業(yè)詞匯詞語,向詞匯管理表格131的分類矢量字段給出值(0.5,0.5)并且所歸檔的分類矢量保持空白。用戶可以編輯詞匯管理表格131,用于寄存新的專業(yè)詞匯詞語,以及刪除并且編輯現(xiàn)存的專業(yè)詞匯詞語。
[0087]中間數(shù)據(jù)存儲單元140存儲下列數(shù)據(jù)。具體地,圖8例示了中間數(shù)據(jù)存儲單元140的數(shù)據(jù)結(jié)構(gòu)的示例。中間數(shù)據(jù)存儲單元140用于存儲在生成圖表的過程中所產(chǎn)生或參考的各種數(shù)據(jù),它們是候選標題數(shù)據(jù)141、矢量數(shù)據(jù)142、標記數(shù)據(jù)143、候選序列數(shù)據(jù)144、序列數(shù)據(jù)145、源數(shù)據(jù)146以及總和數(shù)據(jù)147。
[0088]候選標題數(shù)據(jù)141描述從文件提取的作為標題的候選的字符串。具體地,該候選標題數(shù)據(jù)141的每個寄存的記錄由下列數(shù)據(jù)字段形成以描述候選:標題串、屬性以及位置。標題串字段包含可能是文件的標題的字符串。屬性字段指示應用于候選的字符串的某些可選式樣,并且位置字段指示字符串在文件內(nèi)的位置。候選標題數(shù)據(jù)141中寄存的每個候選標題依次編號。更具體地,通過序號來索引陣列“候選標題□”,使得能夠通過指定標題的特定候選的序號來從中間數(shù)據(jù)存儲單元140取回該標題的特定候選。
[0089]矢量數(shù)據(jù)142包括每個候選標題中所包括的專業(yè)詞匯詞語的一個或更多個分類矢量。更具體地,矢量數(shù)據(jù)142的每個寄存的記錄包括專業(yè)詞匯詞語的字符串和分類矢量。這里專業(yè)詞匯詞語依次編號,并且通過序號來索引陣列“矢量[]”,使得能夠通過指定特定專業(yè)詞匯詞語的分類矢量的序號來從中間數(shù)據(jù)存儲單元140中取回該特定專業(yè)詞匯詞語的分類矢量。
[0090]標記數(shù)據(jù)143給出了指示文件的目的的標記,文件的目的基于標題來確定。如之前所描述的,文件可通過其目的來分類。在第二實施例中,標記數(shù)據(jù)143的標記取“比較”或“分析”的值。當設(shè)定為“比較”時,標記意味著為了比較某些數(shù)據(jù)而產(chǎn)生文件。當設(shè)定為“分析”時,標記意味著為了分析某些數(shù)據(jù)而產(chǎn)生文件。盡管圖8例示了標記值的“比較”作為示例,標記可以配置成取例如零或I的二進制值來分別表示“比較”或“分析”的目的。
[0091]候選序列數(shù)據(jù)144指示在要生成的圖表中的數(shù)據(jù)序列的候選。候選序列數(shù)據(jù)144可以實際上包括這種候選的一個或更多個字符串。在候選序列數(shù)據(jù)144中寄存的每個候選依次編號。通過候選的序號來索引陣列“候選□”,使得能夠通過指定特定候選的序號來從中間數(shù)據(jù)存儲單元140取回該特定候選。
[0092]序列數(shù)據(jù)145指示在要生成的圖表中的數(shù)據(jù)序列。序列數(shù)據(jù)145可以包括這種數(shù)據(jù)序列的一個或更多個字符串。在序列數(shù)據(jù)145中所寄存的每個數(shù)據(jù)序列被依次編號。通過數(shù)據(jù)序列的序號來索引陣列“數(shù)據(jù)序列[]”,使得能夠通過指定特定數(shù)據(jù)序列的序號來從中間數(shù)據(jù)存儲單元140取回特定數(shù)據(jù)序列。
[0093]源數(shù)據(jù)146是要以圖表形式觀看的一組數(shù)據(jù)值。具體地,源數(shù)據(jù)146可以是在源數(shù)據(jù)存儲單元120中所存儲的原始源數(shù)據(jù)的子集,其在生成圖表時所提取。所提取的源數(shù)據(jù)的記錄被依次編號,作為每個記錄中的數(shù)據(jù)元素。通過記錄編號和記錄內(nèi)數(shù)據(jù)編號來索引二維陣列“源數(shù)據(jù)[]□”,使得能夠通過指定這些編號來從中間數(shù)據(jù)存儲單元140取回特定記錄中的特定數(shù)據(jù)元素。
[0094]總和數(shù)據(jù)147是值的集合,這些值均表示由上述源數(shù)據(jù)146中的記錄構(gòu)成的數(shù)據(jù)值的總和。向此總和數(shù)據(jù)147的每個元素提供與源數(shù)據(jù)146相同的記錄編號。通過記錄編號來索引陣列“總和[]”,使得能夠通過指定特定記錄的總和值的記錄編號來從中間數(shù)據(jù)存儲單元140取回特定記錄的總和值。
[0095]服務器100根據(jù)上述數(shù)據(jù)產(chǎn)生包括圖表的文件。下面的部分將討論產(chǎn)生文件的更具體的步驟。
[0096]圖9是例示產(chǎn)生文件的處理的流程圖。
[0097](步驟S100)終端設(shè)備200根據(jù)用戶輸入產(chǎn)生文件式樣形式。終端設(shè)備200將得到的文件式樣數(shù)據(jù)發(fā)送至服務器100。
[0098](步驟S200)利用所接收的文件式樣數(shù)據(jù),服務器100產(chǎn)生并且輸出文件。例如,服務器100將所產(chǎn)生的文件輸出至打印機19。
[0099]下面將詳細描述上面的步驟。圖10是例示如何創(chuàng)建文件式樣格式的流程。
[0100](步驟S101)響應于來自用戶的輸入,終端設(shè)備200中的文件式樣生成單元220除了產(chǎn)生文件式樣數(shù)據(jù)的初始版本并且將該版本存儲在文件試樣存儲單元210中之外還在監(jiān)視器屏幕上顯示用于文件式樣設(shè)計的窗口。
[0101](步驟S102)文件式樣生成單元220通過與用戶的交互來產(chǎn)生文件的標題。例如,用戶可指定將標題放置在文件設(shè)計窗口中什么位置并且標題是什么字符串。然后文件式樣生成單元220將指定的字符串放置在指定的位置,從而產(chǎn)生標題字符串。
[0102](步驟S103)文件式樣生成單元220通過與用戶的交互來產(chǎn)生表格區(qū)域和圖表區(qū)域。例如,用戶可以在文件設(shè)計窗口中指定兩個點并且輸入指示這些點是表格區(qū)域的一部分的命令。作為響應,文件式樣生成單元220將指定的點解釋為矩形的左上角和右下角并且將那個矩形區(qū)域選擇為文件的表格區(qū)域。因此文件式樣生成單元220將表格放置在所選擇的表格區(qū)域。類似地,用戶在文件設(shè)計窗口中指定另外兩個點并且輸入指示這些點是圖表區(qū)域的一部分的命令。然后,文件式樣生成單元220將指定的點解釋為文件的圖表區(qū)域的左上角和右下角。
[0103](步驟S104)文件式樣生成單元220產(chǎn)生表格區(qū)域中的表的列標題和項目名稱。例如,用戶可以將字符串輸入表格的最上部行(表頭)。然后文件式樣生成單元220將這些字符串識別為列標題并且因此將它們合并進表格定義。用戶還可以在表格的最左側(cè)列中輸入字符串。則文件式樣生成單元220將這些字符串識別為項目名稱并因此將它們合并進表格定義。
[0104](步驟S105)文件式樣生成單元220還與用戶交互以確定表格的單元格如何與源數(shù)據(jù)相關(guān)聯(lián)。例如,用戶可以指定源數(shù)據(jù)中的什么編號元素對應于表格中的哪個數(shù)據(jù)序列。文件式樣生成單元220將信息塊分配給源數(shù)據(jù)映射部中的每個輸入字段,以指示源數(shù)據(jù)的哪個部分與該源數(shù)據(jù)映射部的哪個部分相關(guān)聯(lián)。文件式樣生成單元220還為源數(shù)據(jù)映射部供應序列數(shù)據(jù)的屬性。
[0105]終端設(shè)備200通過上面的步驟產(chǎn)生文件式樣形式。得到的文件式樣數(shù)據(jù)存儲在終端設(shè)備的文件式樣存儲單元210中。文件式樣數(shù)據(jù)還從終端設(shè)備200傳輸至服務器100并且存儲在服務器的文件式樣存儲單元110中。服務器100基于在文件式樣存儲單元110中的該文件式樣數(shù)據(jù)來生成并且輸出文件。
[0106]下一部分將詳細描述服務器100如何輸出文件。圖11是例不文件如何輸出的流程圖。當例如用戶向服務器100發(fā)出了指定要使用哪個文件式樣數(shù)據(jù)和源數(shù)據(jù)的文件輸出命令時執(zhí)行例示的處理。
[0107](步驟S201)響應于來自用戶的文件輸出命令,用戶應用程序162命令分析單元163輸出文件。例如,該指令包括指定要使用哪個文件式樣數(shù)據(jù)和源數(shù)據(jù)的信息。一旦接收到輸出指令,分析單元163分析所指定的文件式樣數(shù)據(jù)。例如,分析單元163根據(jù)所接收的輸出指令從文件式樣存儲單元110取回文件式樣數(shù)據(jù)并且分析在取回的文件式樣數(shù)據(jù)中指定了什么。然后分析單元163產(chǎn)生如在文件式樣數(shù)據(jù)中所定義的文件的初始版本。此初始文件數(shù)據(jù)包含在取回的文件式樣數(shù)據(jù)中所描述的內(nèi)容。
[0108](步驟S202)分析單元163分析在輸出指令中所指定的源數(shù)據(jù)。例如,分析單元163根據(jù)所接收的輸出指令從源數(shù)據(jù)存儲單元120取回源數(shù)據(jù)并且確定源數(shù)據(jù)的哪個部分與在文件的表格區(qū)域中所定義的每個具體數(shù)據(jù)序列相關(guān)聯(lián)。然后分析單元163用源數(shù)據(jù)的相關(guān)部分來填充表格區(qū)域,因此制成文件的表格。分析單元163向圖表生成單元164提供所得到的包括該表格的文件。
[0109](步驟S203)圖表生成單元164生成文件的圖表。后面將參考圖13描述該圖表生成處理的細節(jié)。
[0110](步驟S204)圖表生成單元164產(chǎn)生用于打印輸出該文件的數(shù)據(jù)。例如,圖表生成單元164產(chǎn)生文件數(shù)據(jù),該文件數(shù)據(jù)表示包括所生成的圖表的文件的打印輸出圖像。
[0111](步驟S205)圖表生成單元164將所產(chǎn)生的文件數(shù)據(jù)與其打印命令一起傳輸至打印機19。打印機19輸出文件的打印輸出。
[0112](步驟S206)分析單元163確定文件是否已修改。例如,當通過用戶應用程序162從用戶接收到用于修改文件的請求時,分析單元163識別修改的需要。另一方面,當用戶確認了文件的令人滿意的打印輸出時,分析單元163確定不需要修改文件。在前一情況中,處理進行至步驟S207。在后一情況中,處理前進至步驟S208。
[0113](步驟S207),分析單元163經(jīng)由用戶應用程序162獲得用戶所請求的修改并且將該修改應用于文件(不包括文件的圖表部分)。例如,分析單元163進行這樣的修改,如將表格的列和行交換或者改變源數(shù)據(jù)值的范圍。然后處理回到步驟S203以基于經(jīng)修改的源數(shù)據(jù)來生成圖表的新版本。
[0114](步驟S208)當不要求修改時,用戶應用程序162將其處理的結(jié)果返回用戶。例如,用戶應用程序162在終端屏幕上顯示消息以告知用戶文件已輸出。用戶應用程序162還可以在同一屏幕上顯示一條指示為文件選擇了該圖表類型的原因的信息。
[0115]上述步驟允許服務器100根據(jù)給定的文件式樣數(shù)據(jù)和源數(shù)據(jù)來生成文件。表格和圖表的生成是該處理的主要部分。
[0116]圖12例示如何產(chǎn)生用于插入文件的表格的示例。文件式樣形式20 (圖5)包括容納表格36的表格區(qū)域。最初,表格36的每一列通過表不數(shù)據(jù)序列的名稱的字符串來加標題,但是表格36不包含那些數(shù)據(jù)序列的數(shù)據(jù)值。然后用源數(shù)據(jù)37來填充表格36。例如,例示的源數(shù)據(jù)37處于CSV格式。即,在該源數(shù)據(jù)37中的每一條記錄由通過逗號(在適當情況下,以及引號)分隔的多個數(shù)據(jù)值組成。具體地,每個記錄包含按照以下順序的下列五個數(shù)據(jù)值:“名稱”,“目標金額”,“銷售金額”以及“利潤率”。這些數(shù)據(jù)值輸入至表格36中這些數(shù)據(jù)值的對應數(shù)據(jù)序列。圖12例示了以此方式產(chǎn)生的表格38。
[0117]下一部分將詳細描述服務器100如何產(chǎn)生這樣的圖表。圖13是例示圖表產(chǎn)生處理的流程圖。
[0118](步驟S211)圖表生成單元164選擇為文件產(chǎn)生哪種類型的圖表。稍后將參考圖14描述該圖表類型選擇的細節(jié)。
[0119](步驟S212)圖表生成單元164確定要生成的圖表的軸刻度。換言之,確定以什么單位來為圖表的每個軸設(shè)定刻度。例如,圖表生成單元164找到圖表中的數(shù)據(jù)值的最大值,并且以最大值能夠畫在給定圖表區(qū)域24內(nèi)的方式來選擇適合的刻度。
[0120](步驟S213)圖表生成單元164在圖表區(qū)域24中布局圖表標題、圖表以及圖例。
[0121](步驟S214)圖表生成單元164生成圖表。例如,圖表生成單元164生成具有在步驟S211所選擇的圖表類型的圖表并且將所生成的圖表放置在圖表區(qū)域24中。
[0122]以上述方式生成圖表。下一部分提供了前述選擇適合圖表類型的步驟的細節(jié)。
[0123]圖14是例示圖表類型確定處理的流程圖。
[0124](步驟S221)圖表生成單元164通過審查文件的標題來確定文件的分類。具體地,根據(jù)標題,將文件分類為“比較”或“分析”。分類處理的結(jié)果記錄在標記數(shù)據(jù)143 (參見圖8)中。后面將參考圖15描述基于標題的文件分類的細節(jié)。
[0125](步驟S222)圖表生成單元164通過審查其表格區(qū)域的表頭部來確定在圖表中將包括多少數(shù)據(jù)序列。后面將參考圖19描述該確定處理的細節(jié)。
[0126](步驟S223)圖表生成單元164通過審查源數(shù)據(jù)來確定在圖表中將包括多少項目。后面將參考圖20來描述該確定處理的細節(jié)。
[0127](步驟S224)圖表生成單元164確定將在圖表中畫出源數(shù)據(jù)值中的什么范圍。例如,當源數(shù)據(jù)值中的一些小于或等于特定閾值時,圖表生成單元164將這些源數(shù)據(jù)值排除在圖表之外。例如,當一組源數(shù)據(jù)的所有值是零時可省略這一組源數(shù)據(jù)??捎捎脩糁付ㄔ磾?shù)據(jù)范圍的閾值。
[0128](步驟S225)圖表生成單元164根據(jù)基于標題的分類的結(jié)果、數(shù)據(jù)序列的數(shù)量以及項目的數(shù)量來確定要選擇哪種圖表。后面將參考圖21描述該確定處理的細節(jié)。
[0129]服務器100以上述方式確定圖表的類型。下面的部分將提供基于標題的文件分類的細節(jié)。
[0130]圖15是例示確定文件的分類的處理的流程圖。
[0131](步驟S231)圖表生成單元164從所涉及的文件來提取字符串(文本數(shù)據(jù))。圖表生成單元164產(chǎn)生名稱為“候選標題”(表示為候選標題[X])的陣列,該陣列包含作為其構(gòu)成元素的所提取的字符串。該陣列作為候選標題數(shù)據(jù)141存儲在中間數(shù)據(jù)存儲單元140中。
[0132](步驟S232)圖表生成單元164選擇一個候選標題。例如,通過整數(shù)變量來索引陣列“候選標題[X]”。圖表生成單元164以升序增加變量來逐一地選擇候選標題。每當提取了新的候選標題時,則處理移動至步驟S233。
[0133](步驟S233)圖表生成單元164確定所選擇的候選標題是否具有修飾其外觀的任何文本格式。該確定通過例如查詢作為項目參數(shù)的一部分而包括在文件數(shù)據(jù)中的文本格式參數(shù)來進行。當找到特定的文本格式時,處理跳轉(zhuǎn)至步驟S236。當未找到文本格式時,處理前進至步驟S234。
[0134](步驟S234)圖表生成單元164確定所選擇的候選標題是否位于文件的上半部。例如,圖表生成單元164通過查詢整個文件的分區(qū)參數(shù)部中的項目尺寸參數(shù)來獲得文件的垂直尺寸(高度),其作為文件數(shù)據(jù)的一部分寄存。然后圖表生成單元164檢查所選擇的候選標題的項目位置參數(shù)以確定所選擇的候選標題的位置是否在文件的上半部內(nèi)。當發(fā)現(xiàn)該位置是在文件的上半部內(nèi)時,處理前進至步驟S235。當發(fā)現(xiàn)該位置是在文件的下半部內(nèi)時,處理回到步驟S232以選擇另一候選標題。
[0135](步驟S235)圖表生成單元164確定所選擇的候選標題是否位于文件的水平中心。例如,圖表生成單元164通過查詢整個文件的分區(qū)參數(shù)部中的項目尺寸參數(shù)來獲得文件的水平尺寸(寬度),其作為文件數(shù)據(jù)的一部分寄存。然后圖表生成單元164檢查所選擇的候選標題的項目位置參數(shù)和項目尺寸參數(shù)以確定候選標題是否跨越將整個文件劃分成左半邊和右半邊的垂直線上。圖表生成單元164還可以配置成當候選標題的對齊方式參數(shù)設(shè)置為“中心對齊”時確定出候選標題在水平中心處。當所選擇的候選標題位于文件的水平中心處,處理前進至步驟S236。否則處理回到步驟S232,以選擇另一候選標題。
[0136](步驟S236)圖表生成單元164使當前所選擇的候選標題有資格作為文件的標題。
[0137](步驟S237)圖表生成單元164從標題的字符串提取專業(yè)詞匯詞語。后面將參考圖17來描述該詞匯提取的細節(jié)。
[0138](步驟S238)圖表生成單元164確定是否已從標題提取了至少一個專業(yè)詞匯詞語。當已經(jīng)提取了一個或更多個專業(yè)詞匯詞語時,處理前進至步驟S239。當沒有找到專業(yè)詞匯詞語時,處理進行至步驟S241。[0139](步驟S239)當在標題中找到專業(yè)詞匯詞語時,則圖表生成單元164計算它們的分類矢量的加權(quán)平均。例如,當專業(yè)詞匯詞語的位置更接近標題的第一個詞時向?qū)I(yè)詞匯詞語的分類矢量提供更大的加權(quán)。然后圖表生成單元164在考慮分類矢量的各個加權(quán)的情況下來計算分類矢量的平均。
[0140](步驟S240)基于上面所計算的分類矢量的加權(quán)平均,圖表生成單元164確定文件的分類。例如,圖表生成單元164將平均的分類矢量的兩個分量(B卩,“比較”值和“分析”值)進行比較并且指出兩者之中的哪一個更大。如果比較值大于分析值,圖表生成單元164推斷出文件落入“比較”組。如果分析值大于比較值,則圖表生成單元164推斷出文件落入“分析”組。然后,圖表生成單元164退出文件分類的處理。
[0141](步驟S241)當標題不包含專業(yè)詞匯詞語時,圖表生成單元164確定文件落入“比較”組。然后,圖表生成單元164退出文件分類的處理。
[0142]上述步驟允許服務器100提取文件的標題并且基于所提取的標題指定文件的目的。圖16例示了從文件提取標題的示例,該實例包括文件40的四個不同狀態(tài)。第一狀態(tài)表示生成圖表之前的文件40。具體地,文件40包含其標題41、作者名稱42、表格43以及圖表區(qū)域44。標題41作為簡單字符串包含在文件數(shù)據(jù)中,與文件中的其他字符串沒有明顯區(qū)分。由于這個原因,圖表生成單元164分析文件40以找到哪個字符串是其標題。
[0143]標題提取處理開始于從文件40提取字符串。圖16中的文件40的第二狀態(tài)表示該字符串提取的結(jié)果。參考圖16的實例,已從標題41、作者名稱42以及表格43提取了字符串。這些字符串作為候選標題組存儲。
[0144]然后標題提取處理從候選標題提取被修改的字符串。然而,在圖16的示例中,這些候選標題中的任何一個都未修改。因此,針對每個標題來確定其是否位于文件40的上半部。圖16中所看到的第三狀態(tài)表示該確定的結(jié)果。即,標題41和作者名稱42兩者都位于上半部,而表格43的大部分屬于文件40的下半部。
[0145]標題提取處理還審查在上半部的每個候選標題以確定該標題是否位于文件的水平中心。圖6中所看到的第四狀態(tài)表示該確定的結(jié)果。參考圖16的示例,標題41是位于文件40的中心的唯一字符串。因此,標題提取處理從多個候選中成功地挑選出了標題41。
[0146]盡管在上面的示例中服務器100根據(jù)字符串的布局來提取標題,但實施例不受限于具體示例。另一可能方法是找出詞語“標題”的位置,然后提取其后緊接的字符串作為標題。又一可能方法是提取這樣的字符串,該字符串的屬性或者性質(zhì)指示該字符串作為標題的狀態(tài)。
[0147]然后服務器100搜索所提取的標題以找到專業(yè)詞匯詞語。圖17是例示詞匯提取處理的示例的流程圖。
[0148](步驟S251)圖表生成單元164將初始值I分配給變量y,該變量y是大于零的整數(shù)。變量y是局部變量,其范圍僅在本詞匯提取處理內(nèi)。
[0149](步驟S252)圖表生成單元164從詞匯存儲單元130取回第y個專業(yè)詞匯詞語。例如,專業(yè)詞匯詞語存儲為名稱為“詞匯”的陣列。圖表生成單元164通過指定y為索引來引用該陣列的第y個元素。
[0150](步驟S253)圖表生成單元164確定標題是否包含所提取的專業(yè)詞匯詞語和其準同義詞中的任意一個的字符串。當標題包含這種字符串時,處理進行至步驟S254。否則,處理跳轉(zhuǎn)至S255。
[0151](步驟S254)由于發(fā)現(xiàn)了標題包含所提取的專業(yè)詞匯詞語,所以圖表生成單元164將該專業(yè)詞匯詞語的數(shù)據(jù)(即,其字符串和分類矢量)分配給名稱為“矢量”的陣列。然后處理前進至步驟S255。
[0152](步驟S255)圖表生成單元164確定變量y是否已達到y(tǒng)max。值ymax是大于零的整數(shù),表示在詞匯存儲單元130中所寄存的專業(yè)詞匯詞語的總計數(shù)。當y ^ yfflax時,圖表生成單元164退出本詞匯提取處理。當y〈ymax時,處理前進至步驟S256。
[0153](步驟S256)圖表生成單元164使變量y加I并且返回步驟S252。
[0154]上面的步驟允許服務器100從給定的標題提取專業(yè)詞匯詞語并且獲得包含其各個分類矢量的陣列“矢量[]”。當在標題中未找到專業(yè)詞匯詞語時,服務器100將該文件分類到例如“比較”組。當從標題中提取了一些專業(yè)詞匯詞語時,服務器100基于標題內(nèi)的每個專業(yè)詞匯詞語的位置并且基于每個專業(yè)詞匯詞語的分類矢量來確定文件的分類,如將在下面描述的。
[0155]圖18例示了基于標題的文件分類的示例。圖18的示例假設(shè)所涉及的文件的標題為“人口結(jié)構(gòu)趨勢”并且詞匯存儲單元130 (參見圖7)包含“結(jié)構(gòu)”和“趨勢”作為其條目的一部分。因此在這種情況下服務器100從標題“人口結(jié)構(gòu)趨勢”提取兩個專業(yè)詞匯詞語“結(jié)構(gòu)”和“趨勢”。
[0156]已向前一專業(yè)詞匯詞語“結(jié)構(gòu)”分配了分類矢量(0,1),而向后一專業(yè)詞匯詞語“趨勢”分配了不同的分類矢量(1,0)。分類矢量的左側(cè)分量表示“比較”的程度,右側(cè)分量表示“分析”的程度。在無加權(quán)的情況下,這兩個分類矢量的和會具有相等的分量值,意味著標題以相同的置信度落入“比較”組和“分析”組。為了避免這種情況,第二實施例使用加權(quán)處理來評價標題中的專業(yè)詞匯詞語。在圖18中即使服務器100已提取了相等數(shù)量的“比較”和“分析”專業(yè)詞匯詞語,但加權(quán)處理仍有可能更適當?shù)胤诸悩祟}。
[0157]具體地,第二實施例將加權(quán)的分類矢量Vi定義如下。
[0158]Vi=VX [NXlog{N/(N-1)}+l],..(I)
[0159]其中,V是專業(yè)詞匯詞語的原始分類矢量,N是大于零的整數(shù),其表示從標題提取的專業(yè)詞匯詞語的數(shù)量,以及i是小于N的正整數(shù),i表示專業(yè)詞匯詞語在標題內(nèi)的位置。當專業(yè)詞匯詞語位于最接近標題的第一個詞語時,專業(yè)詞匯詞語的位置取零值。換言之,在標題中第一個出現(xiàn)的專業(yè)詞匯詞語具有位置值O。而第二接近的專業(yè)詞匯詞語將具有位置值1,而最遠的專業(yè)詞匯詞語(最接近標題的最后一個詞語的一個專業(yè)詞匯詞語)將具有位置值N-1。在上面的公式(I),符號“l(fā)og”表示底數(shù)為10的常用對數(shù)。
[0160]為了加權(quán),對所提取的專業(yè)詞匯詞語的分類矢量運用公式(1),并且它們的算術(shù)平均(本文中稱為“評分(score)”)計算如下:
[0161]Score= (Σ Vi) /N...(2)。
[0162]參考圖18的示例,“結(jié)構(gòu)”是在標題中的第一位置出現(xiàn)的專業(yè)詞匯詞語并因此給出有位置值O。上面的加權(quán)操作如下地應用于該專業(yè)詞匯詞語“結(jié)構(gòu)”的分類矢量:
[0163](O, I) X [2 X log (2/2-0) +1] = (O, I) X I
[0164]標題中的第二專業(yè)詞匯詞語是位置值為I的“趨勢”。則該專業(yè)詞匯詞語“趨勢”的分類矢量加權(quán)如下:[0165](I, O) X [2Xlog(2/2-l)+l] = (l, O) X 1.6
[0166]這兩個加權(quán)的矢量的平均將是:
[0167]Score= ((O, I) X 1+(1, O) XL 6)/2=(0.8,0.5)。
[0168]注意,在得到的評分矢量中比較分量“0.8”高于分析分量“0.5”。因此,文件標題“人口結(jié)構(gòu)趨勢”落入“比較”組。
[0169]盡管圖18的示例中的標題包括僅兩個專業(yè)詞匯詞語,但上面所描述的計算可類似地應用于標題中包括三個或更多個專業(yè)詞匯詞語的其他情況。例如,假設(shè)標題包含三個專業(yè)詞匯詞語,具有分類矢量(0,I)的第一個專業(yè)詞匯詞語,具有分類矢量(1,0)的第二個專業(yè)詞匯詞語以及具有分類矢量(1,0)的第三個專業(yè)詞匯詞語。在該示例中,執(zhí)行下列計算:
[0170]V0= (O, I) X [3 X log {3/ (3-0)} +1],
[0171]V1=(I1O) X [3Xlog{3/(3-1)1+1],
[0172]V2= (I, O) X [3 X log {3/ (3-2)} +1],
[0173]Score= {(0,I) X 1+(1, 0) X 1.52+(1, 0) X 2.43} /2=(1.31,0.3)。
[0174]結(jié)果指示在評分矢量中比較分量“1.31”高于分析分量“0.3”。因此文件落入匕
較”組。
[0175]如從上面的示例可以看到的,公式(I)的加權(quán)處理更多地強調(diào)出現(xiàn)在標題后部的專業(yè)詞匯詞語。該加權(quán)策略遵循了在文件中所使用的語言的語言特征。在本示例中,修飾語“人口結(jié)構(gòu)”在被修飾詞“趨勢”的前面,并且向被修飾詞提供比修飾語更重的加權(quán),以使標題分類更合適。本領(lǐng)域的技術(shù)人員應理解的是,上述在公式(I)中的加權(quán)僅是示例,并且存在用于對分類矢量加權(quán)的其他可能方法。
[0176]第二實施例基于上述的文件分類來確定要選擇哪種圖表。如將在下面描述的,選擇處理還可以根據(jù)數(shù)據(jù)序列的數(shù)量和項目的數(shù)量。下面的部分將首先討論如何確定數(shù)據(jù)序列的數(shù)量。
[0177]圖19是例示如何確定數(shù)據(jù)序列的數(shù)量的流程圖。
[0178](步驟S261)表格表頭包括列標題的字符串。圖表生成單元164引用這些標題字符串作為數(shù)據(jù)序列的候選。例如,圖表生成單元164在表頭部中選擇每一個這樣的字符串并且將它分配給名稱為“候選”的陣列。
[0179](步驟S262)圖表生成單元164將初始值I分配給變量X,變量x是大于O的整數(shù)。該變量X是局部變量,其范圍僅在對數(shù)據(jù)序列的數(shù)量計數(shù)的本處理內(nèi)。
[0180](步驟S263)圖表生成單元164將初始值I分配給另一變量y,該變量I是大于零的整數(shù)。該變量y是局部變量,其范圍在對數(shù)據(jù)序列的數(shù)量計數(shù)的本處理內(nèi)。
[0181](步驟S264)圖表生成單元164從詞匯存儲單元130取回第y個專業(yè)詞匯詞語(詞匯[y])。
[0182](步驟S265)圖表生成單元164確定第X個候選(候選[x])是否包含所取回的專業(yè)詞匯詞語和其準同義詞中的任意一個的字符串。例如,圖表生成單元164針對所取回的第y個專業(yè)詞匯詞語或其準同義詞的字符串來搜索第X個候選的字符串。當找到這樣的字符串時,圖表生成單元164識別出存在專業(yè)詞匯詞語并因此進行至步驟S268。當既沒有找到專業(yè)詞匯詞語也沒有找到準同義詞時,處理前進至步驟S266。[0183](步驟S266)當?shù)赬個候選不包含所取回的第y個專業(yè)詞匯詞語時,圖表生成單元164確定變量y是否達到y(tǒng)max,即,專業(yè)詞匯詞語的數(shù)量。當已達到y(tǒng)max時,處理進行至步驟S271。當y小于ymax時,處理前進至步驟S267。
[0184](步驟S267)圖表生成單元164使變量y加I并且回到步驟S264。
[0185](步驟S268)由于第X個候選包含取回的第y個專業(yè)詞匯詞語,所以圖表生成單元164檢查該專業(yè)詞匯詞語的分類。當所涉及的專業(yè)詞匯詞語分類為“比較”時,處理前進至步驟S269。當專業(yè)詞匯詞語分類為“分析”時,處理前進至步驟S270。當沒有將特定的分類分配給專業(yè)詞匯詞語(例如,圖7中的“容量”和“總計”)時,處理進行至步驟S272。
[0186](步驟S269)當所涉及的專業(yè)詞匯詞語分類為“比較”時,圖表生成單元164還檢查標記以查看基于標題的文件分類是否是“比較”。當標記也指示“比較”時,處理前進至步驟S271。當標記指示“分析”時,處理跳轉(zhuǎn)至步驟S272。
[0187](步驟S270)當所涉及的專業(yè)詞匯詞語分類為“分析”,圖表生成單元164還檢查標記以查看基于標題的文件分類是否是“分析”。當文件分類成“分析”時,處理前進至步驟S271。當文件分類成“比較”時,處理跳轉(zhuǎn)至步驟S272。
[0188](步驟S271)因為所取回的專業(yè)詞匯詞語與文件就它們的分類而言相匹配或者在第X個候選中沒有找到專業(yè)詞匯詞語,所以到達步驟S271。因此,圖表生成單元164使第X個候選有資格作為數(shù)據(jù)序列。例如,圖表生成單元164將第X個候選的字符串輸入名稱為“數(shù)據(jù)序列”的陣列。
[0189](步驟S272)圖表生成單元164確定變量X是否已達到xmax,S卩,候選的數(shù)量。當已達到Xmax時,處理前進至步驟S274。當X小于Xmax時,處理前進至步驟S273。
[0190](步驟S273)圖表生成單元164使變量x加I并且返回步驟S263。
[0191](步驟S274)圖表生成單元164對已有資格作為數(shù)據(jù)序列的元素的數(shù)量計數(shù)。例如,圖表生成單元164對在陣列“序列”中寄存的字符串的數(shù)量計數(shù)。
[0192](步驟S275)圖表生成單元164確定使用步驟S274的所得計數(shù)作為圖表的數(shù)據(jù)序列的數(shù)量。
[0193]上面的步驟允許服務器100發(fā)現(xiàn)表格表頭中哪個列標題具有與整個文件相同的專業(yè)詞匯詞語的分類。這些列標題在生成圖表時指明數(shù)據(jù)序列。然后服務器100對存在多少這樣的數(shù)據(jù)序列計數(shù)。在圖19的上述示例中,不具有專業(yè)詞匯詞語的候選也具有資格作為數(shù)據(jù)序列。然而,第二實施例可以修改為將這樣的候選從數(shù)據(jù)序列中排除。
[0194]圖20例示對數(shù)據(jù)序列計數(shù)的示例。在該示例中的文件分類為“比較”。所例示的表格33的表頭部包含下面四個列標題:“名稱”、“目標金額”、“銷售金額”以及“利潤率”。引用圖7中的詞匯存儲單元130,詞語“率”寄存為專業(yè)詞匯詞語“比例”的準同義詞。注意,該詞“率”包括在圖20中的最右側(cè)列標題“利潤率”中。如圖7中所看到的,“率”的分類是“分析”,意味著列標題“利潤率”的基于詞匯的分類并不與文件的分類匹配。由于該不匹配,所以列標題“利潤率”沒有資格作為數(shù)據(jù)序列。
[0195]剩余的列標題“名稱”、“目標金額”以及“銷售金額”由于它們并不包含任何專業(yè)詞匯詞語或?qū)I(yè)詞匯詞語的準同義詞而均有資格作為數(shù)據(jù)序列。因此,在表格33中找到三個數(shù)據(jù)序列,即,數(shù)據(jù)序列的數(shù)量=3。應當注意,第二實施例配置成將列“名稱”作為數(shù)據(jù)序列之一來計數(shù),這是因為這一列在對項目計數(shù)時將進行參考。[0196]現(xiàn)在將在下面詳細描述對項目計數(shù)的前述處理。圖21是例示如何確定項目的數(shù)量的示例的流程圖。
[0197](步驟S281)圖表生成單元164從源數(shù)據(jù)存儲單元120讀取源數(shù)據(jù)值以在文件生成處理中使用。具體地,將這些數(shù)據(jù)值分配給名稱為“源數(shù)據(jù)”的二維陣列(稱為源數(shù)據(jù)[X][y])。源數(shù)據(jù)的每個記錄依次編號,使得能夠通過在變量X中指定特定記錄的序號而獲得該特定記錄。記錄內(nèi)的每個數(shù)據(jù)值依次編號,因此能夠通過在另一變量y中指定特定數(shù)據(jù)值的序號來獲得該特定數(shù)據(jù)值。
[0198](步驟S282)圖表生成單元164對在上面的陣列“源數(shù)據(jù)[x][y] ”中的記錄x的數(shù)量進行計數(shù)。
[0199](步驟S283)圖表生成單元164確定使用得到的計數(shù)作為圖表中的項目的數(shù)量。
[0200]上面的步驟允許服務器100確定項目的數(shù)量?,F(xiàn)在,已確定了文件分類、數(shù)據(jù)序列的數(shù)量以及項目的數(shù)量,服務器100通過使用這幾條信息來選擇適當?shù)膱D表類型。
[0201]圖22是例示如何選擇圖表類型的流程圖。
[0202](步驟S301)圖表生成單元164確定文件的分類標記是否指示“比較”或“分析”。當分類標記是“比較”時,處理前進至步驟S302。當分類標記是“分析”時,步驟前進至步驟S303。
[0203](步驟S302)由于文件目的是為了比較,所以圖表生成單元164執(zhí)行選擇適合于數(shù)據(jù)比較的圖表類型的處理。后面將參考圖23來描述該圖表類型選擇處理的細節(jié)。
[0204](步驟S303)由于文件目的是為了分析,所以圖表生成單元164執(zhí)行選擇適合于數(shù)據(jù)分析的圖表類型的處理。后面將參考圖24來描述該圖表類型選擇處理的細節(jié)。
[0205]現(xiàn)在將在下面詳細描述用于比較的前述圖表類型選擇處理。圖23是例示選擇用于比較的圖表類型的處理的流程圖。
[0206](步驟S311)圖表生成單元164確定序列數(shù)據(jù)145(參見圖8)是否包含任何時間關(guān)鍵字。時間關(guān)鍵字是表明關(guān)于時期或時間的某種概念的術(shù)語,諸如“財政年度的上半年”、“早晨”以及“春季”。例如,圖表生成單元164取回在陣列“數(shù)據(jù)序列□”中所寄存的每個字符串并且審查時間關(guān)鍵字的存在。當找到時間關(guān)鍵字時,處理跳轉(zhuǎn)至步驟S317。當沒有找到時間關(guān)鍵字時,處理前進至步驟S312。
[0207](步驟S312)圖表生成單元164確定序列數(shù)據(jù)145是否包含任何專有名詞,諸如個人或公司的名稱。例如,圖表生成單元164取回在數(shù)據(jù)序列[]中寄存的每個字符串并且審查專有名詞的存在。如果找到專有名詞,則處理進行至步驟S321。如果沒有找到專有名詞,處理前進至步驟S313。
[0208](步驟S313)圖表生成單元164確定序列數(shù)據(jù)145是否包含任何數(shù)字,例如,圖表生成單元164取回在陣列“數(shù)據(jù)序列□”中寄存的每個字符串并且審查數(shù)字的存在。如果找到一些數(shù)字,則處理前進至步驟S314。如果沒有找到數(shù)字,則處理前進至步驟S321。
[0209](步驟S314)圖表生成單元164計算第一數(shù)據(jù)序列與第二數(shù)據(jù)序列之間的數(shù)值的差值(DIFF#1)。
[0210](步驟S315)圖表生成單元164計算第二數(shù)據(jù)序列與第三數(shù)據(jù)序列之間的數(shù)值的差值(DIFF#2)。
[0211]圖表生成單元164將步驟S314的第一差值DIFF#1與步驟S315的第二差值DIFF#2相比較。當兩個差值彼此相等時,處理前進至步驟S317。當兩個差值不相等時,處理分支至步驟S321。
[0212](步驟S317)圖表生成單元164確定圖表是要比較時間上的變化。
[0213](步驟S318)圖表生成單元164將序列數(shù)據(jù)145中所包含的數(shù)據(jù)序列的數(shù)量與預定的閾值Ta相比較,其中Ta是正整數(shù)。當數(shù)據(jù)序列的數(shù)量大于或等于Ta時,處理前進至步驟S320。當數(shù)據(jù)序列的數(shù)量小于Ta時,處理前進至步驟S319。
[0214](步驟S319)由于數(shù)據(jù)序列的數(shù)量小于Ta,所以圖表生成單元164選擇垂直條形圖表作為要使用的圖表類型。然后圖表生成單元164退出該用于比較的圖表選擇處理。
[0215](步驟S320)由于數(shù)據(jù)序列的數(shù)量大于或等于Ta,所以圖表生成單元164選擇線形圖表作為要使用的圖表類型,然后退出該用于比較的圖表選擇處理。
[0216](步驟S321)圖表生成單元164確定圖表逐項目地比較差值。
[0217](步驟S322)圖表生成單元164將數(shù)據(jù)序列的數(shù)量與另一預定閾值Tb相比較,其中Tb是正整數(shù)。當數(shù)據(jù)序列的數(shù)量大于或等于Tb時,處理前進至步驟S323。當數(shù)據(jù)序列的數(shù)量小于Tb時,處理前進至步驟S325。
[0218](步驟S323)圖表生成單元164將數(shù)據(jù)序列的數(shù)量與又一預定閾值Tc相比較,其中Tc是正整數(shù)。當數(shù)據(jù)序列的數(shù)量大于或等于Tc時,處理前進至步驟S325。當數(shù)據(jù)序列的數(shù)量小于Tc時,處理前進至步驟S324。
[0219](步驟S324)當數(shù)據(jù)序列的數(shù)量小于Tc時,圖表生成單元164選擇水平條形圖表作為要使用的圖表類型,然后退出用于比較的圖表選擇處理。
[0220](步驟S325)由于項目的數(shù)量小于Tb,或者由于數(shù)據(jù)序列的數(shù)量大于或等于Tc,圖表生成單元164選擇垂直條形圖表作為要使用的圖表類型,然后退出該用于比較的圖表選擇處理。
[0221]上面的步驟允許服務器100選擇適合于分類在比較組中的文件的圖表類型。閾值Ta、Tb以及Tc可以由用戶來指定。例如,閾值Ta、Tb以及Tc可設(shè)置為5。另一方面,當文件分類在分析組中時,服務器100確定以下面詳細描述的方式選擇哪個圖表。
[0222]圖24是例示如何選擇用于分析的圖表類型的示例的流程圖。
[0223](步驟S331)圖表生成單元164確定項目的數(shù)量是否是I。當發(fā)現(xiàn)項目的數(shù)量是I時,處理進行至步驟S332。當項目的數(shù)量大于I時,處理前進至步驟S333。
[0224](步驟S332)由于存在僅一個項目,所以圖表生成單元164選擇餅圖作為要使用的圖表類型,然后退出該用于分析的圖表選擇處理。
[0225](步驟S333)圖表生成單元164搜索在中間數(shù)據(jù)存儲單元140中所存儲的候選序列數(shù)據(jù)144以查看所寄存的數(shù)據(jù)序列的候選中的任意一個是否包含“總計”字符串。當找至IJ “總計”時,處理前進至步驟S334。當沒有找到“總計”時,處理進行至步驟S337。
[0226](步驟S334)圖表生成單元164將源數(shù)據(jù)146的每個單個記錄中的數(shù)據(jù)值加起來并且從所得到的這些記錄的總和來編譯總和數(shù)據(jù)147。例如,圖表生成單元164重復下面的操作,同時使局部變量X (大于O的整數(shù))遞增,變量X的范圍限于該用于分析的圖表選擇處理。具體地,圖表生成單元164從二維陣列“源數(shù)據(jù)□□”提取所有的數(shù)據(jù)元素,變量X用作矩陣的第一索引。所提取的是在第X個記錄中的數(shù)值。圖表生成單元164將這種數(shù)值加起來,將所計算的總計值分配給陣列“總和[]”。[0227](步驟S335)圖表生成單元164針對在x的整個范圍中總計值是否是100來審查所得到的陣列“總和[X]”。當對于每個X總和[X]是100時,處理前進至步驟S336。當對于X的至少一個值總和[X]不是100時,處理前進至步驟S337。
[0228](步驟S336)由于對于每一個x總和[x]是100,所以圖表生成單元164選擇100%累計條形圖表作為要使用的圖表類型,然后退出該用于分析的圖表選擇處理。
[0229](步驟S337)到達這一步是因為“總計”不包括在候選中,或者因為即使“總計”包括在候選中,但對于X的至少一個值總和[X]不是100。在這些情況下,圖表生成單元164選擇累計條形圖表作為要使用的圖表類型,然后退出該用于分析的圖表選擇處理。
[0230]上面的步驟允許服務器100選擇適合于分類在分析組中的文件的圖表類型。如從圖24所看到的,根據(jù)在源數(shù)據(jù)的每個記錄中的數(shù)據(jù)值的總和來確定用于分析的圖表類型。注意,100%累計條形圖表適合于表示百分比數(shù)據(jù)。
[0231]圖25例示了如何基于數(shù)據(jù)值的總和來選擇圖表類型的示例。具體地,圖25的上半部描繪基于總和的圖表選擇的第一示例,下半部是基于總和的圖表選擇的第二示例。
[0232]在第一示例中所看到的表總結(jié)了在具體年的每個季度中的某些對象或者活動的評價結(jié)果。結(jié)果被評為“好”或“尚可”或“差”。在第一示例中,在每個季度中的三個對應數(shù)字的總和固定為100。這暗示了評價結(jié)果以百分比來表示。因此,圖表生成單元164選擇100%累計條形圖表。
[0233]第二示例將利用“好”或“尚可”或“差”等級來類似地總結(jié)在每個季度中的某些對象或活動的評價結(jié)果。差別在于在第二示例中每個季度數(shù)字的總和并不都是100。這種情況暗示評價結(jié)果并不以百分數(shù)表示,而是以其他方式來表示,諸如評價這些東西的等級的數(shù)量。在這種情況下,將選擇累計條形圖表。
[0234]如從上面的示例所看到的,服務器100根據(jù)數(shù)值的總和是否是100來選擇適合于要生成的圖表的內(nèi)容的圖表類型。服務器100產(chǎn)生包括所選擇的類型的圖表的文件并且將該文件輸出至打印機等。
[0235]圖26示出了如何生成包含圖表的文件的第一示例。所例示的文件50已根據(jù)文件式樣形式產(chǎn)生并且包括其標題51、作者名稱52、表格53以及圖表區(qū)域54。
[0236]標題51已識別為位于文件50的上半部的水平中心的字符串。服務器100分析該標題51以整體上確定文件的分類。在圖26的示例中,標題51標明為“銷售記錄-第四發(fā)展集團”。字符串包含術(shù)語“記錄”,該術(shù)語所寄存的是專業(yè)詞匯詞語“記錄表格”(參見圖7)的準同義詞。由于該術(shù)語“記錄”的分類矢量是(1,0),所以服務器100確定文件50落入比較組。
[0237]然后服務器100從表格53提取列標題的字符串作為數(shù)據(jù)序列的一組候選。列標題“利潤率”在所提取的候選之中,并且在其字符串中找到的術(shù)語“率”是專業(yè)詞匯詞語“比例”的準同義詞。術(shù)語“率”分類為“分析”,不同于上面所提及的整體上對文件50的分類。由于該不匹配,所以列標題“利潤率”沒有資格作為數(shù)據(jù)序列,并因此服務器100選擇剩余的三個候選作為數(shù)據(jù)序列。
[0238]根據(jù)文件“50”的分類“比較”,服務器100執(zhí)行用于比較的圖表類型選擇處理。在圖26的示例中,在數(shù)字序列中即沒有找到時間關(guān)鍵字也沒有找到數(shù)字。服務器100確定文件50中的圖表打算逐項目地比較差值。[0239]然后,基于項目的數(shù)量和數(shù)據(jù)序列的數(shù)量,服務器100確定水平的或垂直的條形圖表中的哪種類型適合于逐項目地比較差值。在圖26的示例中假定項目的數(shù)量的前述閾值設(shè)置為5,由于表格53的源數(shù)據(jù)每個數(shù)據(jù)序列包括兩個項目,所以意味著項目的數(shù)量小于閾值Tb。因此,服務器100選擇垂直條形圖表,無需檢查數(shù)據(jù)序列的數(shù)量。該圖表類型選擇產(chǎn)生在文件50的圖表區(qū)域54中的垂直條形圖表55。在圖26的示例中,服務器100識別出,標題為“名稱”的列給出了要比較的項目名稱。得到的垂直條形圖表55針對列標題為“名稱”下的每個項目描繪了 “目標金額”和“銷售金額”。
[0240]現(xiàn)在參考圖27至圖29,下面的部分描述了如何生成包括圖表的文件的第二示例。
[0241]圖27是例示如何生成包含圖表的文件的第二示例的第一示圖。例示的文件60已根據(jù)文件式樣形式產(chǎn)生,并且包括其標題61、輸出日期62、表格63以及圖表區(qū)域64。標題61已識別為位于文件60的上半部的水平中心的字符串。服務器100分析該標題61以整體上確定文件60的分類。在圖27的示例中,標題61標明為“個人月度統(tǒng)計表(銷售)”。
[0242]圖28是例示文件生成的第二示例的第二示圖。標題字符串“個人月度統(tǒng)計表格(銷售)”包含術(shù)語“表格”,該術(shù)語“表格”是所寄存的專業(yè)詞匯詞語“性能表格”(參見圖7)的準同義詞。由于該術(shù)語“表格”的分類矢量是(1,0),所以服務器100確定文件60落入比較組。
[0243]然后,服務器100從表格63提取列標題的字符串作為數(shù)據(jù)序列的一組候選。所提取的候選中的列標題“總計”寄存為專業(yè)詞匯詞語。然而,術(shù)語“總計”并沒有落入任何特定類中(參見圖7)。由于這個原因,列標題“總計”沒有資格作為數(shù)據(jù)序列,因此服務器100選擇剩余候選作為數(shù)據(jù)序列。
[0244]根據(jù)文件60的分類“比較”,服務器100執(zhí)行用于比較的圖表類型選擇處理。在圖28的示例中,數(shù)據(jù)序列包括時間關(guān)鍵字“一月”、“二月”、“三月”等。因此服務器100確定文件60中的圖表打算比較時間上的變化。
[0245]然后服務器100基于數(shù)據(jù)序列的數(shù)量來確定垂直條形圖表或線形圖表中的哪種類型圖表適合適合于比較時間上的變化。在圖28的示例中假設(shè)數(shù)據(jù)序列的數(shù)量的前述閾值Ta設(shè)置為5。由于表格63的源數(shù)據(jù)包括十三個數(shù)據(jù)序列,意味著數(shù)據(jù)序列的數(shù)量大于閾值Ta。因此,服務器100為文件60選擇線形圖表。
[0246]圖29是例示文件生成的第二示例的第三示圖。上面的圖表類型選擇產(chǎn)生在文件60的圖表區(qū)域64中的線形圖表65。在圖29的這個示例中,服務器100發(fā)現(xiàn),“個人”列標題給出了項目名稱。得到的線形圖表65描繪了每個人月度結(jié)余的變化。
[0247]如從上面的示例能夠看到的,第二實施例使得有可能產(chǎn)生基于文件中的字符串(例如,文件標題、列標題以及表格的項目名稱)選擇的、圖表的適合類型。所提出的技術(shù)幫助用戶避免了對表格做出糟糕的選擇。
[0248]根據(jù)第二實施例的一個方面,從要包括在圖表中的項目的數(shù)量選擇適合的圖表類型。該特征使用戶不需要知道圖表項目的數(shù)量與圖表的合適選擇之間的關(guān)系,因此減輕了用戶的負擔。
[0249]根據(jù)第二實施例的另一方面,從要包含在圖表中的數(shù)據(jù)序列的數(shù)目中選擇合適圖表類型。該特征使用戶不需要知道數(shù)據(jù)序列的數(shù)量與圖像的適當選擇之間的關(guān)系,從而減輕了用戶的負擔。[0250]根據(jù)第二實施例的又一方面,表格的列標題經(jīng)過篩選處理,該篩選處理拒絕不適合文件的預期目的那些列標題。該特征使圖表能夠根據(jù)適合于該目的的一組數(shù)據(jù)序列來生成。
[0251]根據(jù)第二實施例的又一方面,將文件標題中所包括的兩個或更多個專業(yè)詞匯詞語的分類矢量進行平均。平均矢量的分量彼此相比較以確定所涉及的文件屬于比較組或分析組。實施例的這一特征使得即使在文件的標題包含暗示比較的專業(yè)詞匯詞語和暗示分析的專業(yè)詞匯詞語時仍有可能對文件分類(或指定其目的)。
[0252]根據(jù)第二實施例的又一方面,平均處理可根據(jù)專業(yè)詞匯詞語在標題中出現(xiàn)的位置而對該專業(yè)詞匯詞語給出不同的加權(quán)。該特征使得即使在標題包含相等數(shù)量的不同類別專業(yè)詞匯詞語時仍有可能對文件分類(或指定其目的)。
[0253]上面已討論了兩個實施例和其變化。根據(jù)這些實施例的一個方面,所提出的技術(shù)幫助用戶產(chǎn)生適合類型的圖表。
【權(quán)利要求】
1.一種用于產(chǎn)生圖表的方法,所述方法包括: 由計算機通過分析要呈現(xiàn)在電子文件中的字符串來確定圖表類型;以及 由所述計算機基于所述電子文件的數(shù)據(jù)來生成具有所述圖表類型的圖表。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述確定包括: 基于在所述電子文件中的字符串來指定所述電子文件的文件目的;以及 基于所述文件目的來確定所述圖表類型。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述確定包括: 從所述電子文件的標題中提取多個專業(yè)詞匯詞語;以及 基于所提取的專業(yè)詞匯詞語來指定所述文件目的。
4.根據(jù)權(quán)利要求3所述的方法,其中: 所述多個專業(yè)詞匯詞語中的每一個與指示所述電子文件的特定文件目的的矢量相關(guān)聯(lián);以及 所述確定包括基于所述多個矢量的平均來指定所述文件目的。
5.根據(jù)權(quán)利要求4所述的方法,其中所述確定包括: 根據(jù)所述標題內(nèi)所述專業(yè)詞匯詞語出現(xiàn)的詞語位置來對分別與所述專業(yè)詞匯詞語相關(guān)聯(lián)的多個矢量進行加權(quán);以及 基于加權(quán)后的矢量的平均來指定所述文件目的。
6.根據(jù)權(quán)利要求2至5中任意一項所述的方法,其中,所述確定包括確定所述文件目的是數(shù)據(jù)的比較還是數(shù)據(jù)的分析。
7.根據(jù)權(quán)利要求3所述的方法,其中,所述確定包括: 提取在所述電子文件的字符串中滿足預定標準的一個字符串;以及 將所提取的字符串識別為所述電子文件的標題。
8.根據(jù)權(quán)利要求1所述的方法,其中,所述確定包括: 基于在所述電子文件中的表格來確定要在所述電子文件的圖表中描繪的數(shù)據(jù)值的序列的數(shù)量以及在每個所述序列中的項目的數(shù)量;以及 基于所述序列的數(shù)量和所述項目的數(shù)量來確定所述圖表類型。
9.根據(jù)權(quán)利要求8所述的方法,其中, 確定所述圖表類型包括基于用作所述電子文件的標題的字符串來指定所述文件目的;以及 確定所述序列的數(shù)量通過對在所述電子文件的表格的行和列中布置的所有數(shù)據(jù)集中包含適合于所指定的文件目的的字符串的數(shù)據(jù)集進行計數(shù)來實現(xiàn)。
10.根據(jù)權(quán)利要求1所述的方法,其中,所述確定包括: 計算每個項目的數(shù)值的總和;以及 根據(jù)每個項目中所計算的總和是否是100來指定所述文件目的。
11.根據(jù)權(quán)利要求1所述的方法,進一步包括: 由所述計算機根據(jù)式樣數(shù)據(jù)來產(chǎn)生所述電子文件,所述式樣數(shù)據(jù)定義所述電子文件中用于容納圖表的圖表區(qū)域;以及 由所述計算機將所生成的圖表插入所產(chǎn)生的電子文件的圖表區(qū)域。
12.一種信息處理裝置,包括:確定裝置,所述確定裝置用于通過分析要呈現(xiàn)在電子文件中的字符串來確定圖表類型;以及 圖表生成裝置,所述圖表生成裝置用于基于所述電子文件的數(shù)據(jù)來生成具有所述圖表類型的圖表。
【文檔編號】G06F17/30GK103914504SQ201310721998
【公開日】2014年7月9日 申請日期:2013年12月24日 優(yōu)先權(quán)日:2012年12月28日
【發(fā)明者】豐島巧 申請人:富士通株式會社