專利名稱::自結(jié)構(gòu)化文件提取信息之方法與裝置并計算機程序及其存儲介質(zhì)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明一般涉及自HTML等結(jié)構(gòu)化文件提取信息之方法,尤其是涉及自每天更新的結(jié)構(gòu)化文件特定并提取出事先選擇的期望部分之信息提取方法。本發(fā)明還涉及可容易地在結(jié)構(gòu)化文件中選擇期望部分之用戶接口。
背景技術(shù):
:存在著這樣的需求只想從每天更新的HTML等結(jié)構(gòu)化文件中選擇某一部分。譬如,用戶通過只對所熟悉網(wǎng)站的惹人注目之部分進行剪輯匯集中就可以容易地做到僅瀏覽所需信息。又,當(dāng)被剪輯部分之信息源每天更新時,則又需求自更新文件特定所選擇部分而再次剪輯匯集。為此,據(jù)涉及WWW信息提取系統(tǒng)的日本專利第2867986號公報所載,事先對表示所選擇部分的開始點及結(jié)束點的信息加以保存,根據(jù)該信息來從更新文件特定開始點及結(jié)束點,將夾于兩者之間的部分作為特定部分提取出來。譬如,預(yù)先在存儲器保存對應(yīng)于選擇部分的開始點及結(jié)束點的文本,當(dāng)從文件提取選擇部分時,只要根據(jù)所保存文本在HTML文件中特定開始點及結(jié)束點繼而提取出被特定部分即可。又據(jù)webMethods公司提出的系統(tǒng)(http//www.w3.org/TR/NOTE-widl)和LucaIocchi提出的系統(tǒng)(LucaIocchiTheWeb-OEMapproachtoWebinformation,JournalofNetworkandComputerApplications,Vol.22,pp.259-269(1999)),提出了這樣一種方法將HTML文件變換成樹結(jié)構(gòu),對相應(yīng)于事先選擇部分的部分樹之信息加以保存,從更新文件之中特定同所保存部分樹相對應(yīng)的部分。在此,該部分樹之信息包括一字符序列,用作選擇部分的標(biāo)識符。以標(biāo)記名作標(biāo)記的標(biāo)識符,樹結(jié)構(gòu)中同一階層內(nèi)標(biāo)記名被賦與相應(yīng)的數(shù)值索引。將組對于數(shù)值索引的標(biāo)記名嵌套狀鏈接,形成字符序列,以表現(xiàn)自整個樹的根至所選擇部分的部分樹根之結(jié)構(gòu)。譬如就圖1之例而言,假設(shè)”doc”是整個樹結(jié)構(gòu)的根,則用于指向所選擇的”當(dāng)?shù)匦侣劇辈糠种畼?biāo)識符可表現(xiàn)為doc.table.table。然而,上述已有的涉及WWW信息提取系統(tǒng)的日本專利第2867986號公報所載方法,由于是根據(jù)選擇部分的開始點及結(jié)束點的信息線索來提取選擇部分,所以自然要求該信息是文件更新后仍然留下的信息。但是,難以判斷哪些信息更新前后不變。尤其是就設(shè)計完全由作者單方面決定的因特網(wǎng)上主頁而言,例外很多。故,上述方法存在著應(yīng)用領(lǐng)域有限的問題。譬如,上述WWW信息提取系統(tǒng),以對應(yīng)于開始點及結(jié)束點的文本為線索時,這些文本本身可能會如圖2所示那樣變更,這樣,該方法就無用。又,根據(jù)該方法,當(dāng)如圖3A所示提取出所選擇部分時,則如圖3B所示,構(gòu)成不了作為樹結(jié)構(gòu)的部分樹。故,難以將該提取部分再利用于其它結(jié)構(gòu)化文件。又,前述webMethods公司或LucaIocchi提出的基于選擇部分的部分樹之標(biāo)識符的方法,由于其是以更新前后文件結(jié)構(gòu)不變?yōu)榍疤幔援?dāng)變更前后文件結(jié)構(gòu)有所改變時,事先選擇部分樹的標(biāo)識符同更新后的標(biāo)識符不匹配。譬如,當(dāng)具有同一標(biāo)記的文件塊被插入于文件的選擇部分所處的樹結(jié)構(gòu)的階層時,在部分樹的標(biāo)識符中標(biāo)記的數(shù)值索引移位。譬如在圖1之例中,在選擇部分上部插入table標(biāo)記包絡(luò)的”廣告2”所相關(guān)文本,以更新文件。其結(jié)果,則所選擇”當(dāng)?shù)匦侣劇睂?yīng)的table標(biāo)記名的標(biāo)記標(biāo)識符號的數(shù)值索引就從table變成table[1]。就常常插入或刪除標(biāo)題廣告、緊急新聞等的網(wǎng)站的主頁而言,進行這種形式上的細微變更之可能性很大,況且用戶欲選擇的也多是信息頻繁更新的網(wǎng)站的主頁。故如果因這種細微變更而造成選擇部分提取精度下降時,則需要指出精度下降。還有,若忘記關(guān)閉自選擇部分開始文件前面的在部分選擇時本不該存在的標(biāo)記時,則在形式上看,該標(biāo)記被作為選擇部分的母節(jié)點保留下來。譬如在圖1之更新例中,忘記關(guān)閉選擇部分上部的包絡(luò)”廣告1”的table標(biāo)記。結(jié)果,本應(yīng)正確地表示為doc.table.table這一標(biāo)識符變成doc.table.table.table[1]。而這表示存在著作為選擇部分”當(dāng)?shù)匦侣劇钡哪腹?jié)點的table標(biāo)記。由此,更新前后部分樹的標(biāo)識符不匹配。就目前普遍應(yīng)用的WWW瀏覽器而言,容許忘記關(guān)閉標(biāo)記,頁制作者更新頁時常常不注意標(biāo)記是否關(guān)閉。因為這種具有同一標(biāo)記的文件塊的插入以及忘記關(guān)閉標(biāo)記現(xiàn)象,會引發(fā)圖1的文件更新例的麻煩。即指向選擇部分的部分樹的標(biāo)識符從doc.table.table變成doc.table.table.table[1]。還有,在前述webMethods公司或LucaIocchi提出的方法中還存在著如是問題選擇HTML等結(jié)構(gòu)化文件中之一部分時,需要具備標(biāo)記和文件結(jié)構(gòu)方面的知識以及技術(shù)。
發(fā)明內(nèi)容本發(fā)明目的就在于解決上述已有技術(shù)中所存在的不足及缺點造成的某一或某些問題。具體而言,本發(fā)明目的在于提供一種即便文件更新也照樣可在精度無所降低的情況下提取出選擇部分的自結(jié)構(gòu)化文件提取信息之方法與裝置并計算機程序及其存儲介質(zhì)。本發(fā)明目的還在于提供一種可使得用戶以容易直觀掌握的方式來選擇HTML等結(jié)構(gòu)化文件中之一部分的自結(jié)構(gòu)化文件提取信息之方法與裝置并計算機程序及其存儲介質(zhì)。本發(fā)明目的是這樣實現(xiàn)的將一標(biāo)記標(biāo)識符用作部分樹標(biāo)識符,該標(biāo)記標(biāo)識符包括標(biāo)記名、該標(biāo)記的至少1個文件格式屬性名、以及至少1個該文件格式屬性值。靠這一部分樹標(biāo)識符,即便具有同所選擇部分的部分樹一樣標(biāo)記的文件塊被插入同所選擇部分一樣的階層,只要標(biāo)記的文件格式屬性不同,就可不以依賴于開始及結(jié)束點的方式來維系部分提取精度不降低。若該標(biāo)記的上述至少1個文件格式屬性包括多個文件格式屬性,則在上述標(biāo)記標(biāo)識符中按給定順序排列上述文件格式屬性名;從更新后樹結(jié)構(gòu)文件中所存在的部分樹的部分樹標(biāo)識符系列特定出部分樹,該部分樹具有同上述所選擇部分樹的部分樹標(biāo)識符一樣的部分樹標(biāo)識符。還可生成數(shù)值索引,其表示上述樹結(jié)構(gòu)內(nèi)同一階層中標(biāo)記標(biāo)識符序號;把標(biāo)記標(biāo)識符與數(shù)值索引組對,自整個樹結(jié)構(gòu)根至部分樹根嵌套狀鏈接多個上述對子,以形成部分樹標(biāo)識符。據(jù)此,即便同所選擇部分樹根相對應(yīng)的標(biāo)記與文件格式屬性之組合可被用于文件中其它標(biāo)記的場合,也可以對所選擇部分作唯一特定。進一步,在特定部分樹過程中,若被對照出的部分樹多個,則依次進入下一較高層的母節(jié)點,遞歸式重復(fù)對照標(biāo)識符。據(jù)此,即便出現(xiàn)所選擇部分之前頭有標(biāo)記忘記關(guān)閉的情況,也可維系部分提取精度不降低。本發(fā)明目的還可以這樣實現(xiàn)在選擇提取HTML等結(jié)構(gòu)化文件中之一部分的系統(tǒng)中,檢出同用戶在顯示有上述結(jié)構(gòu)化文件的屏幕上選擇的位置相對應(yīng)的樹結(jié)構(gòu)的末尾節(jié)點;使一連串節(jié)點可視地顯示于屏幕上,使用戶從其中選一節(jié)點。據(jù)此,可容易地使用戶選擇該節(jié)點所相應(yīng)的結(jié)構(gòu)化文件中之一部分,使該所選擇部分可再利用于其它結(jié)構(gòu)化文件。另外,本發(fā)明其它目的、特征及優(yōu)點可通過以下結(jié)合附圖對細節(jié)的描述得以清楚理解。圖1是已有技術(shù)示意圖。圖2是以開始及結(jié)束點的文本為線索進行文件部分選擇提取之例的示意圖。圖3A及3B是以開始及結(jié)束點的文本為線索提取HTML文件的對應(yīng)部分之例的示意圖。圖4是本發(fā)明原理示意圖。圖5是根據(jù)本發(fā)明實施例的表示具備同一標(biāo)記與同一文件格式屬性者有多個之情形的圖。圖6是根據(jù)本發(fā)明實施例1的自結(jié)構(gòu)化文件提取信息之系統(tǒng)結(jié)構(gòu)示意圖。圖7是根據(jù)本發(fā)明實施例1的提供用于文件選擇的顯示頁之例的示意圖。圖8是根據(jù)本發(fā)明實施例1的部分信息存儲單元所存儲信息之例的示意圖。圖9是根據(jù)本發(fā)明實施例1的通過文件結(jié)構(gòu)解析生成的樹結(jié)構(gòu)數(shù)據(jù)之例的示意圖。圖10是根據(jù)本發(fā)明實施例1的部分信息存儲單元之內(nèi)容示意圖。圖11是根據(jù)本發(fā)明實施例1的要素系列之例示意圖。圖12是根據(jù)本發(fā)明實施例1的被變換的樹數(shù)據(jù)結(jié)構(gòu)之例示意圖。圖13是根據(jù)本發(fā)明實施例1的自結(jié)構(gòu)化文件提取信息之方法的處理流程圖。圖14是根據(jù)本發(fā)明實施例2的自結(jié)構(gòu)化文件提取信息之系統(tǒng)結(jié)構(gòu)示意圖。圖15是根據(jù)本發(fā)明實施例2的選擇部分的部分樹標(biāo)識符生成示意圖。圖16是根據(jù)本發(fā)明實施例2的部分樹數(shù)據(jù)生成示意圖。圖17是根據(jù)本發(fā)明實施例2的自結(jié)構(gòu)化文件提取信息之方法的處理流程圖。圖18是本發(fā)明實施例3的自結(jié)構(gòu)化文件提取信息之系統(tǒng)結(jié)構(gòu)框圖。圖19是根據(jù)本發(fā)明實施例3的自結(jié)構(gòu)化文件提取信息之方法的處理流程圖。圖20是根據(jù)本發(fā)明的用戶接口原理示意圖。圖21是根據(jù)本發(fā)明的用戶接口原理結(jié)構(gòu)示意圖。圖22是根據(jù)本發(fā)明實施例的裝置結(jié)構(gòu)框圖。圖23是根據(jù)本發(fā)明一實施例的整個處理流程圖。圖24是根據(jù)本發(fā)明一實施例的瀏覽器上作部分選擇之例示意圖。圖25是根據(jù)本發(fā)明一實施例的樹結(jié)構(gòu)生成單元處理流程圖。圖26是根據(jù)本發(fā)明一實施例的選擇部分標(biāo)示單元處理流程圖。圖27是根據(jù)本發(fā)明一實施例的樹結(jié)構(gòu)與選擇部分顯示的對應(yīng)之例示意圖。圖28是根據(jù)本發(fā)明一實施例的系統(tǒng)整體結(jié)構(gòu)示意圖。圖29是同HTML源對應(yīng)的樹結(jié)構(gòu)、對應(yīng)的瀏覽器之例示意圖。具體實施例方式下面結(jié)合附圖對本發(fā)明實施例作以說明。圖4是本發(fā)明原理示意圖。根據(jù)本發(fā)明的自結(jié)構(gòu)化文件提取信息之方法可為將文件變換為樹結(jié)構(gòu),生成對應(yīng)于文件某部分的部分樹的標(biāo)識符,據(jù)此來事先選擇結(jié)構(gòu)化文件中任意部分,從被更新文件特定出選擇部分。如圖4所示,本方法包括如下步驟。步驟S1以對應(yīng)于部分樹根的標(biāo)記名、標(biāo)記的某一或某些文件格式屬性名、文件格式屬性值之組合為標(biāo)記的標(biāo)識符,以該標(biāo)記的標(biāo)識符為對應(yīng)的部分樹的標(biāo)識符。步驟S2在標(biāo)記的標(biāo)識符具備多個文件格式屬性之場合,按文件屬性名順序(如字母順序)排列文件屬性,將標(biāo)記的標(biāo)識符規(guī)范化。步驟S3據(jù)變換成樹結(jié)構(gòu)的文件中所存在的部分樹的標(biāo)識符系列,將具有同已選擇部分樹的標(biāo)識符一樣的部分樹特定為選擇部分。又如圖5所示,該文件中對應(yīng)于所選擇部分樹根的標(biāo)記名與文件格式屬性之組合被用于多個標(biāo)記的場合,生成數(shù)值索引,表示一系列標(biāo)記的標(biāo)識符屬于樹結(jié)構(gòu)內(nèi)同一階層。于是,把標(biāo)記標(biāo)識符與數(shù)值索引組對,將這些對子自整個樹結(jié)構(gòu)根至所選擇部分樹根嵌套狀鏈接,據(jù)此形成該部分樹之標(biāo)識符。又,有時需要從變換成樹結(jié)構(gòu)的文件中所存在的部分樹的標(biāo)識符系列來特定具有同已選擇部分樹一樣的標(biāo)識符之部分樹。對于部分樹的標(biāo)識符之對照,只以部分樹根的標(biāo)識符進行對照。當(dāng)被對照的所選擇部分樹的候選者有多個時,通過進行該標(biāo)記標(biāo)識符所關(guān)連數(shù)值索引對照來篩選候選者。若根據(jù)數(shù)值索引篩選候選者后仍然剩有多個候選者時,再回到母標(biāo)記遞歸式地重復(fù)對照,當(dāng)對照結(jié)果只剩一個候選部分樹時,將該候選部分樹特定為所選擇部分樹。第1實施例圖6是根據(jù)本發(fā)明實施例1的自結(jié)構(gòu)化文件提取信息之系統(tǒng)結(jié)構(gòu)框圖。根據(jù)該圖所示系統(tǒng),即便具有同選擇部分的部分樹一樣的標(biāo)記的文件塊被插入選擇部分所屬同一階層時,只要標(biāo)記的文件格式屬性不同,就可以不依賴于所選擇部分開始及結(jié)束點的方式來維系選擇部分的提取精度不降低。圖6所示系統(tǒng)包括接受來自用戶的對結(jié)構(gòu)化文件中某部分作選擇的指令的部分選擇單元1;存儲所選擇部分之信息的部分信息存儲單元2;以標(biāo)記及其文件格式屬性來識別樹結(jié)構(gòu)中部分樹的文件結(jié)構(gòu)解析單元3;以及響應(yīng)用戶請求而返送同選擇部分相對應(yīng)的文件部分的部分特定單元4。部分選擇單元1包括文件獲取單元11、部分指定單元12以及文件結(jié)構(gòu)化單元13。文件獲取單元11,當(dāng)從部分指定單元12接收到基于文件標(biāo)識符即URL(UniformResourceLocator)的文件獲取請求時,從因特網(wǎng)上獲取相應(yīng)文件而返送之。部分指定單元12,利用一URL向文件獲取單元11提出文件獲取請求,以獲取相應(yīng)文件。接著,部分指定單元12請求文件結(jié)構(gòu)化單元13對該文件加以結(jié)構(gòu)化,以獲取變換成樹結(jié)構(gòu)的文件。進一步,如圖7所示,部分指定單元12還提供便于用戶特定該文件中之一部分的用戶接口。從特定部分區(qū)的坐標(biāo)等生成相應(yīng)的部分樹的標(biāo)識符,并將該標(biāo)識符連同URL一道存儲于圖8所示的部分信息存儲單元2。文件結(jié)構(gòu)化單元13請求文件結(jié)構(gòu)解析單元3對部分指定單元12傳遞來的文件加以結(jié)構(gòu)化。于是,文件結(jié)構(gòu)化單元13接收被變換成樹結(jié)構(gòu)的文件,作為表現(xiàn)圖9所示樹結(jié)構(gòu)母子關(guān)系的數(shù)據(jù)結(jié)構(gòu)。譬如,以要素ID、標(biāo)簽、子節(jié)點系列、部分樹標(biāo)識符來表示構(gòu)成樹結(jié)構(gòu)的標(biāo)記或文本要素。作為數(shù)據(jù)結(jié)構(gòu)獲取該等系列。部分信息存儲單元2從部分指定單元12獲取URL和部分樹的標(biāo)識符,設(shè)置部分文件ID,用以識別這一對參數(shù)(URL和部分部分樹標(biāo)識符)。這一參數(shù)及其文件部分ID(識別數(shù)據(jù))被加以保存,見圖10。于是返送部分文件ID給部分指定單元12。文件結(jié)構(gòu)解析單元3包括樹結(jié)構(gòu)變換單元31及部分樹標(biāo)識符生成單元32。樹結(jié)構(gòu)變換單元31從文件結(jié)構(gòu)化單元13或文件結(jié)構(gòu)化單元43接收結(jié)構(gòu)化文件并文件結(jié)構(gòu)化請求。樹結(jié)構(gòu)變換單元31將文件變換成以文件中存在的標(biāo)記及文本為要素的樹結(jié)構(gòu),并將變換后的文件返送至部分樹標(biāo)識符生成單元32。部分樹標(biāo)識符生成單元32生成構(gòu)成在樹結(jié)構(gòu)變換單元31變換成樹結(jié)構(gòu)的文件的標(biāo)記所對應(yīng)的標(biāo)記標(biāo)識符。該標(biāo)記標(biāo)識符號包括標(biāo)記名和文件格式屬性名及文件格式屬性值。以圖9為例,第一個table標(biāo)記被賦與一標(biāo)識符”table_border=”0”cellpadding=”1””,其包括標(biāo)記名”tabal”和文件格式屬性名及文件格式屬性值”table_border=0&cellpadding=1”。在存在多個文件格式屬性場合,按文件屬性名順序排列文件屬性,將標(biāo)記的標(biāo)識符規(guī)范化。將如此獲取的標(biāo)記標(biāo)識符作為以該標(biāo)記為根的部分樹的標(biāo)識符,使同樹結(jié)構(gòu)的要素對應(yīng)。將圖9所示的被賦與部分樹的標(biāo)識符的樹結(jié)構(gòu)的數(shù)據(jù)返送至文件結(jié)構(gòu)化單元13或文件結(jié)構(gòu)化單元43。部分特定單元4包括文件獲取單元41和部分樹標(biāo)識符特定單元42以及文件結(jié)構(gòu)化單元43。文件獲取單元41從接收基于文件標(biāo)識符即URL的文件獲取請求。響應(yīng)所接受請求,文件獲取單元41從因特網(wǎng)上獲取相應(yīng)文件,將該文件返送至部分樹標(biāo)識符特定單元42。部分樹標(biāo)識符特定單元42,從用戶接收連同部分文件ID一道發(fā)來的部分獲取請求,將部分文件ID送至部分信息存儲單元2,以獲取相應(yīng)URL及部分樹標(biāo)識符。于是,部分樹標(biāo)識符特定單元42將該URL送至文件獲取單元41,獲取相應(yīng)的文件。其請求文件結(jié)構(gòu)化單元43對所獲取文件加以結(jié)構(gòu)化,獲取被變換成樹結(jié)構(gòu)的圖11所示要素系列。部分樹標(biāo)識符特定單元42從所獲取要素系列獲取對應(yīng)于部分樹標(biāo)識符的標(biāo)記,將該標(biāo)記范圍內(nèi)的部分樹所包絡(luò)的文件作為部分文件返送至用戶。文件結(jié)構(gòu)化單元43請求文件結(jié)構(gòu)解析單元3對部分樹標(biāo)識符特定單元42傳遞來的文件加以結(jié)構(gòu)化。然后文件結(jié)構(gòu)化單元43接收被變換成樹結(jié)構(gòu)的文件,作為體現(xiàn)圖12所示樹結(jié)構(gòu)母子關(guān)系的數(shù)據(jù)結(jié)構(gòu)。譬如,以要素ID、標(biāo)簽、子節(jié)點系列、部分樹標(biāo)識符來表示構(gòu)成樹結(jié)構(gòu)的標(biāo)記和文本要素,作為數(shù)據(jù)結(jié)構(gòu)獲取該等系列。下面描述上述系統(tǒng)之動作。圖13是根據(jù)本發(fā)明實施例1的自結(jié)構(gòu)化文件提取信息之方法的處理流程圖。下述動作由三部分構(gòu)成A-部分選擇、B-部分特定、M-文件結(jié)構(gòu)化。以下對各個步驟附以A、B、M加以說明。首先描述A-部分選擇之處理過程。步驟A10按用戶的URL指令,文件獲取單元11從因特網(wǎng)上獲取URL所相應(yīng)的文件。部分指定單元12將所獲取文件傳遞至文件結(jié)構(gòu)化單元13,發(fā)出文件結(jié)構(gòu)化請求而進入M10。步驟M10樹結(jié)構(gòu)變換單元31從文件結(jié)構(gòu)化單元13獲取結(jié)構(gòu)化文件,將文件變換成以文件中存在的標(biāo)記及文本為要素的樹結(jié)構(gòu),并返送至部分樹標(biāo)識符生成單元32,進入M20。步驟M20部分樹標(biāo)識符生成單元32生成構(gòu)成在樹結(jié)構(gòu)變換單元31變換成樹結(jié)構(gòu)的文件的標(biāo)記所對應(yīng)的標(biāo)記標(biāo)識符。該標(biāo)記標(biāo)識符包括標(biāo)記名和文件格式屬性名及文件格式屬性值。以圖9為例,table標(biāo)記被賦與一標(biāo)識符”table_border=”0”cellpadding=”1””,其包括標(biāo)記名”tabal”和文件格式屬性名及其值”border=0&cellpadding=1”。在存在多個文件格式屬性場合,按文件屬性名順序排列文件屬性,將標(biāo)記的標(biāo)識符規(guī)范化。將如此獲取的標(biāo)記標(biāo)識符作為部分樹的標(biāo)識符,使同樹結(jié)構(gòu)的要素對應(yīng)。將圖9所示的被賦與部分樹的標(biāo)識符的樹結(jié)構(gòu)的數(shù)據(jù)返送至文件結(jié)構(gòu)化單元13。步驟A20部分指定單元12,從圖7所示的便于用戶容易作選擇的用戶接口獲取用戶欲選擇的部分,進入步驟A30。步驟A30部分指定單元12從圖8所示選擇區(qū)的坐標(biāo)等獲取選擇部分相應(yīng)的部分樹的標(biāo)識符,將所獲取部分樹標(biāo)識符與文件之URL存儲于部分信息存儲單元2,獲取識別這一對存儲參數(shù)的部分文件ID。接著描述B-部分特定之處理過程。步驟B10部分樹標(biāo)識符特定單元42從用戶接收連同部分文件ID一道發(fā)來的部分獲取請求,將部分文件ID送至部分信息存儲單元2,獲取相應(yīng)URL及部分樹標(biāo)識符,于是進入步驟B20。步驟B20部分樹標(biāo)識符特定單元42通過文件獲取單元41獲取相應(yīng)于上述所獲取URL的文件,其將所獲取文件送至文件結(jié)構(gòu)化單元43,發(fā)出文件文件結(jié)構(gòu)化請求,進入步驟M10。步驟M10樹結(jié)構(gòu)變換單元31從文件結(jié)構(gòu)化單元43獲取結(jié)構(gòu)化文件,根據(jù)文件標(biāo)記及文本將文件變換成樹結(jié)構(gòu)。樹結(jié)構(gòu)變換單元31將該樹結(jié)構(gòu)返送至部分樹標(biāo)識符生成單元32,進入M20。步驟M20部分樹標(biāo)識符生成單元32生成構(gòu)成在樹結(jié)構(gòu)變換單元31變換成樹結(jié)構(gòu)的文件的標(biāo)記所對應(yīng)的標(biāo)記標(biāo)識符。該標(biāo)記標(biāo)識符包括標(biāo)記名和文件格式屬性名及文件格式屬性值。以圖9為例,table標(biāo)記被賦與一標(biāo)識符”table_border=”0”cellpadding=”1””,其包括標(biāo)記名”tabal”和文件格式屬性名及其值”border=0&cellpadding=1”。在存在多個文件格式屬性場合,按文件屬性名順序排列文件屬性,將標(biāo)記的標(biāo)識符規(guī)范化。將如此獲取的標(biāo)記標(biāo)識符作為部分樹的標(biāo)識符,使同樹結(jié)構(gòu)的要素對應(yīng)。將圖9所示的被賦與部分樹的標(biāo)識符的樹結(jié)構(gòu)的數(shù)據(jù)返送至文件結(jié)構(gòu)化單元43。其后進入步驟B30。步驟B30部分樹標(biāo)識符特定單元42從被變換成樹結(jié)構(gòu)的圖11所示要素系列檢索對應(yīng)于所獲取部分樹標(biāo)識符的標(biāo)記。若不存在相應(yīng)的部分樹的標(biāo)識符則就此結(jié)束處理;若存在則進入步驟B40。步驟B40部分樹標(biāo)識符特定單元42將同所獲取部分樹標(biāo)識符相應(yīng)的部分樹所包絡(luò)的文件作為部分文件返送至用戶。第2實施例圖14是本發(fā)明實施例2的自結(jié)構(gòu)化文件提取信息之系統(tǒng)結(jié)構(gòu)框圖。根據(jù)該圖所示系統(tǒng),即便在文件中存在多個同選擇部分樹根相對應(yīng)的標(biāo)記與文件格式屬性之組合的場合,也可以對選擇部分作唯一特定。在本實施例2中,除了文件結(jié)構(gòu)解析單元3中部分樹標(biāo)識符生成單元32a而外,其它皆同于上述實施例1,故同一部分不加贅述。部分樹標(biāo)識符生成單元32a生成構(gòu)成在樹結(jié)構(gòu)變換單元31變換成樹結(jié)構(gòu)的文件的標(biāo)記所對應(yīng)的標(biāo)記標(biāo)識符。該標(biāo)記標(biāo)識符包括標(biāo)記名和文件格式屬性名及文件格式屬性值。以圖15為例,第一個table標(biāo)記被賦與一標(biāo)識符”table_border=”0”cellpadding=”1””,其包括標(biāo)記名”tabal”和文件格式屬性名及其值”border=0&cellpadding=1”。在存在多個文件格式屬性場合,按文件屬性名順序排列文件屬性,將標(biāo)記的標(biāo)識符規(guī)范化。生成數(shù)值索引,其表示樹結(jié)構(gòu)內(nèi)同一階層中標(biāo)記標(biāo)識符的序號。將該標(biāo)記標(biāo)識符同數(shù)值索引組對,把這些對子自整個樹結(jié)構(gòu)根至部分樹根嵌套狀鏈接,形成圖15所示部分樹之標(biāo)識符。將被賦與這樣的部分樹標(biāo)識符的圖16所示樹結(jié)構(gòu)數(shù)據(jù)返送至文件結(jié)構(gòu)化單元13或文件結(jié)構(gòu)化單元43。圖17是根據(jù)本發(fā)明實施例2的自結(jié)構(gòu)化文件提取信息之方法的處理流程圖。以下只描述步驟M20a及M30a,因其它步驟均同上述實施例1的一樣。步驟M20a部分樹標(biāo)識符生成單元32a生成構(gòu)成在樹結(jié)構(gòu)變換單元31變換成樹結(jié)構(gòu)的文件的標(biāo)記所對應(yīng)的標(biāo)記標(biāo)識符。該標(biāo)記標(biāo)識符包括標(biāo)記名和文件格式屬性名及文件格式屬性值。以圖15為例,第一個table標(biāo)記被賦與一標(biāo)識符”table_border=0&cellpadding=1”,其包括標(biāo)記名”tabal”和文件格式屬性名及文件格式屬性值”border=”0”cellpadding=1”。在存在多個文件格式屬性場合,按文件屬性名順序進行排列,將標(biāo)記的標(biāo)識符規(guī)范化。而后進入步驟M30a。步驟M30a部分樹標(biāo)識符生成單元32a生成數(shù)值索引,其表示樹結(jié)構(gòu)內(nèi)同一階層中標(biāo)記標(biāo)識符的序號。將該標(biāo)記標(biāo)識符同數(shù)值索引組對,把這些對子自整個樹結(jié)構(gòu)根至部分樹根嵌套狀鏈接,形成圖15所示部分樹之標(biāo)識符。將被賦與這樣的部分樹標(biāo)識符的圖16所示樹結(jié)構(gòu)數(shù)據(jù)返送至文件結(jié)構(gòu)化單元13或文件結(jié)構(gòu)化單元43。而后進入步驟A20或步驟B30。第3實施例圖18是本發(fā)明實施例3的自結(jié)構(gòu)化文件提取信息之系統(tǒng)結(jié)構(gòu)框圖。根據(jù)該圖所示系統(tǒng),即便出現(xiàn)選擇部分之前頭有標(biāo)記忘記關(guān)閉的情況,也可維系選擇部分提取精度不降低。在此,除了部分樹標(biāo)識符特定單元42a而外,其它皆同于上述實施例1,故其它部分不加贅述。部分樹標(biāo)識符特定單元42a,從用戶接收連同部分文件ID一道發(fā)來的部分獲取請求,將部分文件ID送至部分信息存儲單元2,以獲取相應(yīng)URL及部分樹標(biāo)識符。于是,將該URL送至文件獲取單元41,獲取相應(yīng)的文件。部分樹標(biāo)識符特定單元42a請求文件結(jié)構(gòu)化單元43對所獲取文件加以結(jié)構(gòu)化,據(jù)此獲取被變換成樹結(jié)構(gòu)的圖16所示要素系列。為了從所獲取要素的部分樹標(biāo)識符系列特定出自部分信息存儲單元2獲取的部分樹標(biāo)識符,只以標(biāo)識符末尾標(biāo)記標(biāo)識符進行對照。就doc.table_border=1&cellpadding=1.table_border=0&cellpadding=1[1]這一部分樹標(biāo)識符而言,其末尾的標(biāo)記標(biāo)識符即為最靠右的tableborder=0&cellpadding=1。當(dāng)被對照的部分樹的候選者有多個時,通過進行該標(biāo)記標(biāo)識符的數(shù)值索引對照來篩選候選者。若通過標(biāo)記標(biāo)識符的數(shù)值索引篩選候選者后仍然剩有多個候選者時,再回到母標(biāo)記,遞歸式地重復(fù)對照。其結(jié)果,當(dāng)只剩一個候選部分樹時,將該候選部分樹特定為所選擇部分樹。將該特定出的部分樹標(biāo)識符所相應(yīng)的部分樹包絡(luò)的部分文件返送至用戶。圖19是根據(jù)本發(fā)明實施例3的自結(jié)構(gòu)化文件提取信息之方法的處理流程圖。以下只描述步驟B30a至B90a,因其它步驟均同上述實施例1的一樣。步驟B30a部分樹標(biāo)識符特定單元42,為了從所獲取的變換成樹結(jié)構(gòu)的圖16所示要素系列特定出自部分信息存儲單元2獲取的部分樹標(biāo)識符,將標(biāo)識符末尾標(biāo)記標(biāo)識符設(shè)為對照對象。譬如就”doc.table_border=1&cellpadding=1.table_border=0&cellpadding=1[1]”這一部分樹標(biāo)識符而言,其末尾的標(biāo)記標(biāo)識符即為最靠右的table_border=0&cellpadding=1。設(shè)置完畢即進入步驟B40a。步驟B40a對作為當(dāng)前對照對象的標(biāo)記標(biāo)識符進行對照。當(dāng)被對照的部分樹的候選者有多個時進入步驟B50a;而若只有一個時則進入步驟B60a;無候選者則結(jié)束。步驟B50a通過進行該標(biāo)記標(biāo)識符的數(shù)值索引對照來篩選候選者。當(dāng)被對照的部分樹的候選者仍有多個時進入步驟B80a;而若只有一個時則進入步驟B60a;無候選者則結(jié)束。步驟B60a因被對照的候選部分樹只有一個,故將該候選部分樹特定為所選擇部分樹,而后進入步驟B70a。步驟B70a部分樹標(biāo)識符特定單元42a將同所獲取部分標(biāo)識符相應(yīng)的部分樹包絡(luò)的部分文件返送至用戶。步驟B80a因即便利用標(biāo)記標(biāo)識符的索引數(shù)值來篩選候選者也仍剩有多個候選者,故將對照對象向上移動一個階層。譬如就”doc.table_border=1&cellpadding=1.table_border=0&cellpadding=1[1]”而言,對照了末尾標(biāo)記標(biāo)識符”tableborder=0&cellpadding=1”后下個對照對象就變成”table_border=1&cellpadding=1”(母標(biāo)記標(biāo)識符)。然后進入步驟B90a。步驟B90a當(dāng)在步驟80a遞歸式地將對照對象向上移動一個階層,其結(jié)果使得最上層標(biāo)記成為對照對象之后再也不存在對照對象之場合,則結(jié)束。否則返回步驟B40a。須指出的是,本發(fā)明也可以將上述各實施例之方法編制成計算機程序,將之安裝于用做信息提取裝置的計算機,亦或是通過網(wǎng)絡(luò)傳播之。又,所編制的計算機程序也可以預(yù)先存放于同用做信息提取裝置的計算機相連接的硬盤裝置、軟盤、或CD-ROM等可攜帶存儲介質(zhì)中,在實施本發(fā)明之際裝入。圖20是一種涉及可使得用戶以容易直觀掌握的方式來選擇HTML等結(jié)構(gòu)化文件中之一部分的用戶接口的本發(fā)明之原理示意圖。本發(fā)明的結(jié)構(gòu)化文件之部分選擇及提取方法,是自被選擇的HTML等結(jié)構(gòu)化文件提取部分信息之方法,包括如下步驟步驟1-檢出同用戶在有文件被顯示的屏幕上選擇的位置對應(yīng)的樹結(jié)構(gòu)的末尾節(jié)點;步驟2-使用戶從以一連串節(jié)點為要素的序列中選擇節(jié)點,該一連串節(jié)點是從上述末尾節(jié)點開始逐一檢出上層節(jié)點而得到的;步驟3-選擇同用戶所選節(jié)點相對應(yīng)的結(jié)構(gòu)化文件中之一部分。圖21是一種涉及上述用戶接口的本發(fā)明之原理結(jié)構(gòu)示意圖。根據(jù)本發(fā)明的結(jié)構(gòu)化文件部分選擇提取裝置,是一種自被選擇的HTML等結(jié)構(gòu)化文件提取部分信息之裝置,其包括如下單元節(jié)點檢出單元101-用于檢出同用戶在有文件被顯示的屏幕上選擇的位置對應(yīng)的樹結(jié)構(gòu)的末尾節(jié)點;和選擇指示單元102-使用戶從以一連串節(jié)點為要素的序列中選擇節(jié)點,該一連串節(jié)點是從上述末尾節(jié)點開始逐一檢出上層節(jié)點而得到的;以及部分選擇單元103-選擇同用戶所選節(jié)點相對應(yīng)的結(jié)構(gòu)化文件中之一部分。圖22是根據(jù)本發(fā)明一實施例的裝置結(jié)構(gòu)框圖。圖22所示結(jié)構(gòu)化文件部分選擇提取裝置100包括帶選擇部分標(biāo)示單元111的顯示控制單元110、輸入單元120、樹結(jié)構(gòu)生成單元130、以及顯示部分保存單元140;并同顯示裝置10及輸入裝置20連接。顯示裝置10顯示瀏覽器所處理的HTML文本及圖像。輸入裝置20輸入用戶通過按鍵操作等選擇的信息。該按鍵操作包括區(qū)域的擴大(+)、尺寸縮小(-)、刪除(clear)、選擇(select)等。顯示控制單元110的選擇部分標(biāo)示單元111,根據(jù)用戶按鍵操作來逐一顯示樹結(jié)構(gòu)內(nèi)各層目標(biāo)。用戶所選期望部分譬如被作為HTML文本保存于顯示部分保存單元140。輸入單元120自輸入裝置20接收用戶輸入(按鍵操作輸入),將輸入信息送至樹結(jié)構(gòu)生成單元130及選擇部分標(biāo)示單元111。樹結(jié)構(gòu)生成單元130從構(gòu)成HTML整個樹結(jié)構(gòu)的目標(biāo)檢出處于用戶鼠標(biāo)單擊位置的目標(biāo)而存放于目標(biāo)序列中。圖23是根據(jù)本發(fā)明一實施例的選擇提取方法的處理流程圖。于步驟S110,顯示作為處理對象的HTML文件于用戶終端瀏覽器窗口。于步驟S120,用戶在屏幕上鼠標(biāo)單擊欲選擇部分。于步驟S130,樹結(jié)構(gòu)生成單元130從構(gòu)成HTML樹結(jié)構(gòu)的目標(biāo)提取出處于鼠標(biāo)單擊位置的目標(biāo)。于是,如圖24所示,被提取出的目標(biāo)所對應(yīng)的矩形區(qū)被標(biāo)示在屏幕上顯示的文件上。此時,若用戶選擇該標(biāo)示部分,則將該標(biāo)示部分作為HTML文本保存于顯示部分保存單元140(步驟S160),而后刪除文件上的標(biāo)示(步驟S180)。若用戶不選擇該標(biāo)示部分,用戶可通過按鍵(此時按鍵業(yè)已被顯示)操作來使該區(qū)域擴大(+)、縮小(-)、被刪除(clear)或選擇(select)等(步驟S170)。通過用戶按鍵操作,可逐一顯示樹結(jié)構(gòu)內(nèi)上層或下層目標(biāo)。當(dāng)期望部分被標(biāo)示于屏幕時,通過選擇按鈕”select”選擇標(biāo)示部分(步驟S150)。所選擇部分被作為HTML文本保存于顯示部分保存單元140(步驟S160)。上述處理可以在瀏覽器上執(zhí)行。此時,對作為處理對象的原HTML附加JavaScript等記述的原語(script),將之讀入瀏覽器,。下面描述樹結(jié)構(gòu)生成單元130的處理。圖25是根據(jù)本發(fā)明一實施例的樹結(jié)構(gòu)生成單元處理流程圖。首先進行目標(biāo)序列初始化(步驟S131)。檢出處于鼠標(biāo)單擊位置的目標(biāo)(步驟S132),存放于序列中(步驟S133)。這里,目標(biāo)對應(yīng)于HTML文件部分,就樹結(jié)構(gòu)而言是對應(yīng)于各節(jié)點。另外在屏幕上還存在與之一一對應(yīng)的區(qū)域。拿圖29之例來說,樹結(jié)構(gòu)總共由13個節(jié)點構(gòu)成。若被檢出目標(biāo)中有母目標(biāo)時(步驟S134之Yes),該母目標(biāo)也作為處于鼠標(biāo)單擊位置的目標(biāo)保存于上述序列中(步驟S133)。通過在所有目標(biāo)階層進行該項處理,可以得到處于鼠標(biāo)單擊位置的目標(biāo)序列a。以圖29為例,鼠標(biāo)單擊”apple”時,“k,j,i,h,f,e,d,a”等各目標(biāo)均存放于序列a中。接著進行該序列中各要素檢查(步驟S135)。即,對于屏幕上無法區(qū)別的諸目標(biāo)(因某目標(biāo)中含有的文本或圖像、某目標(biāo)所相應(yīng)的文本或區(qū)域等同其它目標(biāo)的一樣,故無法區(qū)別),選擇其中最上層者。只要存在下個要素,就判斷一下該下個要素所含文本是否不同(步驟S137)。若不同,則將其存放入序列b(步驟S138)。接著再判斷一下存在下個要素否(步驟S136)。若不存在下個要素則將目標(biāo)存放于序列b(步驟S139)。就此,處理結(jié)束。這樣,最終可得到由處于鼠標(biāo)單擊位置并且屏幕上可相互區(qū)別的目標(biāo)構(gòu)成的序列b。下面以圖29為例具體加以闡述。在”k”和”j”之下都含有同一文本”apple”,故將其中位于上層的”j”存放于序列b。在”i”和”h”之下都含有同一文本”apple”及”orange”,故將其中位于上層的”h”存放于序列b。則最終存放于序列b中的是目標(biāo)”j”,”h”,”a”。下面描述選擇部分標(biāo)示單元111。圖26是根據(jù)本發(fā)明一實施例的選擇部分標(biāo)示單元111處理流程圖。首先設(shè)置作為顯示對象的目標(biāo)(步驟S141)。該設(shè)置體現(xiàn)為首次顯示—顯示”當(dāng)前所選擇序列b之要素”;擴大顯示—顯示”序列b中下個較高層要素”;尺寸縮小顯示—顯示”序列b中下個較低層要素”。在首次顯示中,提取對應(yīng)于目標(biāo)序列b中最下層目標(biāo)之矩形(步驟S142),譬如圖24所示那樣將之重疊于屏幕之上而顯示(步驟S143)。操作圖24所示擴大按鍵”+”時,選擇對應(yīng)于當(dāng)前所選擇部分的目標(biāo)的下個較高層目標(biāo),其結(jié)果,新選擇目標(biāo)的矩形重疊于屏幕之上而被顯示。同理,操作尺寸縮小按鈕”-”時,選擇上個較低層目標(biāo)。以圖29為例,對應(yīng)于存放于序列b中的目標(biāo),重疊顯示如圖27所示。最后描述系統(tǒng)整體結(jié)構(gòu)。圖28是根據(jù)本發(fā)明一實施例的系統(tǒng)結(jié)構(gòu)示意圖。圖28所示系統(tǒng)包括用戶終端100(結(jié)構(gòu)化文件部分選擇提取裝置)、中繼服務(wù)器200、以及存儲作為處理對象的HTML文件的服務(wù)器300。為便于就作為處理對象的HTML一邊于屏幕顯示”http//www.foo.com/doc.html”一邊在屏幕上作上述操作,設(shè)中繼節(jié)點200http//www.myserv.com/cgi-bin/get.cgi?http//foo.com/doc.html。下述括號()中數(shù)字同圖28中括號()中數(shù)字對應(yīng)。(1)首先,用戶以處理對象HTML的URL為自變量從用戶終端100啟動中繼服務(wù)器200的CGI。(2)中繼服務(wù)器200以URL發(fā)送請求給服務(wù)器300。(3)服務(wù)器300傳遞HTML文件給中繼服務(wù)器200。(4)中繼服務(wù)器200在從服務(wù)器300獲取的HTML文件的末尾附加處理原語(jobscript)。(5)中繼服務(wù)器200將附加了部分文件選擇及提取功能的HTML文件發(fā)送至用戶終端100。這樣,用戶終端100就可以處理附加了部分文件選擇及提取功能的HTML文件。須指出的是,也可以將上述實施例之結(jié)構(gòu)化文件部分選擇提取裝置之構(gòu)成要素計算機程序化,將之安裝于用做結(jié)構(gòu)化文件部分選擇提取裝置的計算機,亦或是通過網(wǎng)絡(luò)傳播之。又,所編制的計算機程序也可以預(yù)先存放于同用做結(jié)構(gòu)化文件部分選擇提取裝置的計算機相連接的硬盤裝置、軟盤、或CD-ROM等可攜帶存儲介質(zhì)中,在實施本發(fā)明之際裝入。本發(fā)明并非僅限于上述實施例,在不脫離本發(fā)明總的構(gòu)思情況下可以有變形和修改。本申請是基于先后于2002年6月28日和同年7月12日于日本提出的申請?zhí)枮?002-190621號及2002-204641號的在先申請,在此參照了其全部內(nèi)容。權(quán)利要求1一種自結(jié)構(gòu)化文件提取信息之方法,將結(jié)構(gòu)化文件變換為樹結(jié)構(gòu),以便從被更新的該結(jié)構(gòu)化文件特定出所選擇部分,該所選擇部分為事先從該結(jié)構(gòu)化文件選擇的,該所選擇部分對應(yīng)于所選擇部分樹,其中,包括如下步驟將包括標(biāo)記標(biāo)識符的部分樹標(biāo)識符賦與上述所選擇部分樹,該標(biāo)記標(biāo)識符包括對應(yīng)于上述所選擇部分樹根的標(biāo)記名、該標(biāo)記的至少1個文件格式屬性名、該至少1個文件格式屬性值;若該標(biāo)記的上述至少1個文件格式屬性包括多個文件格式屬性,則在上述標(biāo)記標(biāo)識符中按給定順序排列上述文件格式屬性名;從更新后樹結(jié)構(gòu)文件中所存在的部分樹的部分樹標(biāo)識符系列特定出部分樹,該部分樹具有同上述所選擇部分樹的部分樹標(biāo)識符一樣的部分樹標(biāo)識符。2按權(quán)利要求1所述的方法,其特征在于,上述結(jié)構(gòu)化文件中多個標(biāo)記所具有的標(biāo)記名及上述至少1個文件格式屬性名同上述所選擇部分樹的一樣;則本方法還包括如下步驟生成數(shù)值索引,其表示上述樹結(jié)構(gòu)內(nèi)同一階層中標(biāo)記標(biāo)識符序號;把標(biāo)記標(biāo)識符與數(shù)值索引組對,自樹結(jié)構(gòu)根至所選擇部分樹根嵌套狀鏈接多個上述標(biāo)記標(biāo)識符與數(shù)值索引之對子,以形成上述部分樹標(biāo)識符。3按權(quán)利要求2所述的方法,其特征在于,上述特定出部分樹之步驟還包括如下步驟對照步驟—只參照上述部分樹標(biāo)識符末尾的標(biāo)記標(biāo)識符,來對照上述部分樹的部分樹標(biāo)識符與上述所選擇部分樹的部分樹標(biāo)識符;篩選步驟—若上述對照步驟后仍然剩有多個上述部分樹標(biāo)識符候選者,則參照上述部分樹標(biāo)識符的數(shù)值索引篩選候選者;遞歸式重復(fù)對照步驟—若上述篩選步驟后仍然剩有多個上述部分樹標(biāo)識符候選者,則依次進入下一較高層的用于對照的標(biāo)記,遞歸式地對照上述部分樹的部分樹標(biāo)識符與上述所選擇部分樹的部分樹標(biāo)識符;特定步驟—當(dāng)遞歸式重復(fù)對照步驟后只剩一個部分樹時,將該部分樹特定為上述所選擇部分樹。4按權(quán)利要求1所述的方法,其特征在于,還包括如下步驟檢出同用戶在顯示有上述結(jié)構(gòu)化文件的屏幕上選擇的位置相對應(yīng)的樹結(jié)構(gòu)的末尾節(jié)點;使用戶從一連串節(jié)點中選一節(jié)點,該一連串節(jié)點是從上述末尾節(jié)點開始逐一檢出較高層節(jié)點而得到的;選擇同用戶所選節(jié)點相對應(yīng)的結(jié)構(gòu)化文件中之一部分,以作為上述所選擇部分。5一種計算機程序,使計算機執(zhí)行自結(jié)構(gòu)化文件提取信息的處理,即,將結(jié)構(gòu)化文件變換為樹結(jié)構(gòu),以便從被更新的該結(jié)構(gòu)化文件特定出所選擇部分,該所選擇部分為事先從該結(jié)構(gòu)化文件選擇的,該所選擇部分對應(yīng)于所選擇部分樹,其中,包括如下步驟將包括標(biāo)記標(biāo)識符的部分樹標(biāo)識符賦與上述所選擇部分樹,該標(biāo)記標(biāo)識符包括對應(yīng)于上述所選擇部分樹根的標(biāo)記名、該標(biāo)記的至少1個文件格式屬性名、該至少1個文件格式屬性值;若該標(biāo)記的上述至少1個文件格式屬性包括多個文件格式屬性,則在上述標(biāo)記標(biāo)識符中按給定順序排列上述文件格式屬性名;從更新后樹結(jié)構(gòu)文件中所存在的部分樹的部分樹標(biāo)識符系列特定出部分樹,該部分樹具有同上述所選擇部分樹的部分樹標(biāo)識符一樣的部分樹標(biāo)識符。6按權(quán)利要求5所述的計算機程序,其特征在于,上述結(jié)構(gòu)化文件中多個標(biāo)記所具有的標(biāo)記名及上述至少1個文件格式屬性名同上述所選擇部分樹的一樣;則本程序還包括如下步驟生成數(shù)值索引,其表示上述樹結(jié)構(gòu)內(nèi)同一階層中標(biāo)記標(biāo)識符序號;把標(biāo)記標(biāo)識符與數(shù)值索引組對,自樹結(jié)構(gòu)根至所選擇部分樹根嵌套狀鏈接多個上述標(biāo)記標(biāo)識符與數(shù)值索引之對子,以形成上述部分樹標(biāo)識符。7按權(quán)利要求6所述的計算機程序,其特征在于,上述特定出部分樹之步驟還包括如下步驟對照步驟—只參照上述部分樹標(biāo)識符末尾的標(biāo)記標(biāo)識符,來對照上述部分樹的部分樹標(biāo)識符與上述所選擇部分樹的部分樹標(biāo)識符;篩選步驟—若上述對照步驟后仍然剩有多個上述部分樹標(biāo)識符候選者,則參照上述部分樹標(biāo)識符的數(shù)值索引篩選候選者;遞歸式重復(fù)對照步驟—若上述篩選步驟后仍然剩有多個上述部分樹標(biāo)識符候選者,則依次進入下一較高層的用于對照的標(biāo)記,遞歸式地對照上述部分樹的部分樹標(biāo)識符與上述所選擇部分樹的部分樹標(biāo)識符;特定步驟—當(dāng)遞歸式重復(fù)對照步驟后只剩一個部分樹時,將該部分樹特定為上述所選擇部分樹。8按權(quán)利要求5所述的計算機程序,其特征在于,還包括如下步驟檢出同用戶在顯示有上述結(jié)構(gòu)化文件的屏幕上選擇的位置相對應(yīng)的樹結(jié)構(gòu)的末尾節(jié)點;使用戶從一連串節(jié)點中選一節(jié)點,該一連串節(jié)點是從上述末尾節(jié)點開始逐一檢出較高層節(jié)點而得到的;選擇同用戶所選節(jié)點相對應(yīng)的結(jié)構(gòu)化文件中之一部分,以作為上述所選擇部分。9一種計算機可讀存儲介質(zhì),其存儲有計算機程序,該程序使計算機執(zhí)行自結(jié)構(gòu)化文件提取信息的處理,即,將結(jié)構(gòu)化文件變換為樹結(jié)構(gòu),以便從被更新的該結(jié)構(gòu)化文件特定出所選擇部分,該所選擇部分為事先從該結(jié)構(gòu)化文件選擇的,該所選擇部分對應(yīng)于所選擇部分樹,其中,該程序包括如下步驟將包括標(biāo)記標(biāo)識符的部分樹標(biāo)識符賦與上述所選擇部分樹,該標(biāo)記標(biāo)識符包括對應(yīng)于上述所選擇部分樹根的標(biāo)記名、該標(biāo)記的至少1個文件格式屬性名、該至少1個文件格式屬性值;若該標(biāo)記的上述至少1個文件格式屬性包括多個文件格式屬性,則在上述標(biāo)記標(biāo)識符中按給定順序排列上述文件格式屬性名;從更新后樹結(jié)構(gòu)文件中所存在的部分樹的部分樹標(biāo)識符系列特定出部分樹,該部分樹具有同上述所選擇部分樹的部分樹標(biāo)識符一樣的部分樹標(biāo)識符。10按權(quán)利要求9所述的計算機可讀存儲介質(zhì),其特征在于,上述結(jié)構(gòu)化文件中多個標(biāo)記所具有的標(biāo)記名及上述至少1個文件格式屬性名同上述所選擇部分樹的一樣;則上述程序還包括如下步驟生成數(shù)值索引,其表示上述樹結(jié)構(gòu)內(nèi)同一階層中標(biāo)記標(biāo)識符序號;把標(biāo)記標(biāo)識符與數(shù)值索引組對,自樹結(jié)構(gòu)根至所選擇部分樹根嵌套狀鏈接多個上述標(biāo)記標(biāo)識符與數(shù)值索引之對子,以形成上述部分樹標(biāo)識符。11按權(quán)利要求10所述的計算機可讀存儲介質(zhì),其特征在于,上述特定出部分樹之步驟還包括如下步驟對照步驟—只參照上述部分樹標(biāo)識符末尾的標(biāo)記標(biāo)識符,來對照上述部分樹的部分樹標(biāo)識符與上述所選擇部分樹的部分樹標(biāo)識符;篩選步驟—若上述對照步驟后仍然剩有多個上述部分樹標(biāo)識符候選者,則參照上述部分樹標(biāo)識符的數(shù)值索引篩選候選者;遞歸式重復(fù)對照步驟—若上述篩選步驟后仍然剩有多個上述部分樹標(biāo)識符候選者,則依次進入下一較高層的用于對照的標(biāo)記,遞歸式地對照上述部分樹的部分樹標(biāo)識符與上述所選擇部分樹的部分樹標(biāo)識符;特定步驟—當(dāng)遞歸式重復(fù)對照步驟后只剩一個部分樹時,將該部分樹特定為上述所選擇部分樹。12按權(quán)利要求9所述的計算機可讀存儲介質(zhì),其特征在于,上述程序還包括如下步驟檢出同用戶在顯示有上述結(jié)構(gòu)化文件的屏幕上選擇的位置相對應(yīng)的樹結(jié)構(gòu)的末尾節(jié)點;使用戶從一連串節(jié)點中選一節(jié)點,該一連串節(jié)點是從上述末尾節(jié)點開始逐一檢出較高層節(jié)點而得到的;選擇同用戶所選節(jié)點相對應(yīng)的結(jié)構(gòu)化文件中之一部分,以作為上述所選擇部分。13一種自結(jié)構(gòu)化文件提取信息之裝置,其中包括樹結(jié)構(gòu)變換單元—將結(jié)構(gòu)化文件變換成樹結(jié)構(gòu);和部分樹標(biāo)識符生成單元—將包括標(biāo)記標(biāo)識符的部分樹標(biāo)識符賦與上述樹結(jié)構(gòu)的部分樹,該標(biāo)記標(biāo)識符包括對應(yīng)于上述所選擇部分樹根的標(biāo)記名、該標(biāo)記的至少1個文件格式屬性名、該至少1個文件格式屬性值。14按權(quán)利要求13所述的裝置,其特征在于,若上述標(biāo)記的至少1個文件格式屬性包括多個文件格式屬性,則上述部分樹標(biāo)識符生成單元在上述標(biāo)記標(biāo)識符中按給定順序排列上述文件格式屬性名。15按權(quán)利要求13所述的裝置,其特征在于,上述結(jié)構(gòu)化文件中多個標(biāo)記所具有的標(biāo)記名及上述至少1個文件格式屬性名同上述所選擇部分樹的一樣;上述部分樹標(biāo)識符生成單元生成數(shù)值索引,其表示上述樹結(jié)構(gòu)內(nèi)同一階層中標(biāo)記標(biāo)識符序號;把標(biāo)記標(biāo)識符與數(shù)值索引組對,自樹結(jié)構(gòu)根至所選擇部分樹根嵌套狀鏈接多個上述標(biāo)記標(biāo)識符與數(shù)值索引之對子,以形成上述部分樹標(biāo)識符。16按權(quán)利要求13所述的裝置,其特征在于,還包括如下各單元節(jié)點檢出單元—檢出同用戶在顯示有文件的屏幕上選擇的位置相對應(yīng)的樹結(jié)構(gòu)的末尾節(jié)點;和選擇指示單元—使用戶從一連串節(jié)點中選一節(jié)點,該一連串節(jié)點是從上述末尾節(jié)點開始逐一檢出較高層節(jié)點而得到的;以及部分選擇單元—選擇同用戶所選節(jié)點相對應(yīng)的結(jié)構(gòu)化文件中之一部分,以作為上述所選擇部分。17一種結(jié)構(gòu)化文件部分選擇提取方法,其中,包括如下步驟檢出步驟—檢出同用戶在顯示有結(jié)構(gòu)化文件的屏幕上選擇的位置相對應(yīng)的樹結(jié)構(gòu)的末尾節(jié)點;和促選步驟—使用戶從一連串節(jié)點中選一節(jié)點,該一連串節(jié)點是從上述末尾節(jié)點開始逐一檢出較高層節(jié)點而得到的;以及選擇步驟—選擇提取同用戶所選節(jié)點相對應(yīng)的結(jié)構(gòu)化文件中之一部分。18按權(quán)利要求17所述的方法,其中,上述促選步驟包括如下步驟標(biāo)示步驟—于上述屏幕標(biāo)示同上述一節(jié)點相對應(yīng)的結(jié)構(gòu)化文件之一部分的區(qū)域;促擇步驟—使用戶通過改變節(jié)點選擇來選擇期望區(qū)域;確定步驟—確定同上述選擇期望區(qū)域相對應(yīng)的節(jié)點作用戶所選節(jié)點;于上述選擇步驟,選擇同上述用戶所選節(jié)點相對應(yīng)的結(jié)構(gòu)化文件中之一部分。19按權(quán)利要求18所述的方法,其中,上述確定步驟還包括如是步驟當(dāng)上述多個節(jié)點對應(yīng)于上述選擇期望區(qū)域時,從該等多個節(jié)點中選擇最高層節(jié)點作上述用戶所選節(jié)點。20按權(quán)利要求18所述的方法,其中,上述確定步驟還包括如是步驟當(dāng)上述多個節(jié)點均包絡(luò)同一文本及圖像數(shù)據(jù)時,從該等多個節(jié)點中選擇最高層節(jié)點作上述用戶所選節(jié)點。21按權(quán)利要求17所述的方法,其中還包括如下步驟發(fā)送被用戶特定URL所指定的結(jié)構(gòu)化文件至中繼服務(wù)器;于上述中繼服務(wù)器,將含文件部分選擇及提取功能的原語附加于上述結(jié)構(gòu)化文件;由上述中繼服務(wù)器將附加了原語上述結(jié)構(gòu)化文件發(fā)送至用戶終端;于該用戶終端,利用上述附加原語執(zhí)行上述檢出、促選及選擇步驟。22一種結(jié)構(gòu)化文件部分選擇提取裝置,其中,包括如下各單元節(jié)點檢出單元—檢出同用戶在顯示有結(jié)構(gòu)化文件的屏幕上選擇的位置相對應(yīng)的樹結(jié)構(gòu)的末尾節(jié)點;和選擇確定單元—使用戶從一連串節(jié)點中選一節(jié)點,該一連串節(jié)點是從上述末尾節(jié)點開始逐一檢出較高層節(jié)點而得到的;以及部分選擇單元—選擇提取同用戶所選節(jié)點相對應(yīng)的結(jié)構(gòu)化文件中之一部分。23按權(quán)利要求22所述的裝置,其中,上述選擇確定單元于上述屏幕標(biāo)示同上述一節(jié)點相對應(yīng)的結(jié)構(gòu)化文件之一部分的區(qū)域,使用戶通過改變節(jié)點選擇來選擇期望區(qū)域,確定同上述選擇期望區(qū)域相對應(yīng)的節(jié)點作用戶所選節(jié)點;上述部分選擇單元選擇同上述用戶所選節(jié)點相對應(yīng)的結(jié)構(gòu)化文件中之一部分。24按權(quán)利要求23所述的裝置,其中,上述選擇確定單元,在當(dāng)上述多個節(jié)點對應(yīng)于上述選擇期望區(qū)域時,從該等多個節(jié)點中選擇最高層節(jié)點作上述用戶所選節(jié)點。25按權(quán)利要求23所述的裝置,其中,上述選擇確定單元,在當(dāng)上述多個節(jié)點均包絡(luò)同一文本及圖像數(shù)據(jù)時,從該等多個節(jié)點中選擇最高層節(jié)點作上述用戶所選節(jié)點。26按權(quán)利要求22所述的裝置,其中還包括如下各單元發(fā)送被用戶特定URL所指定的結(jié)構(gòu)化文件至中繼服務(wù)器的單元;和于上述中繼服務(wù)器將含文件部分選擇及提取功能的原語附加于上述結(jié)構(gòu)化文件的單元;和由上述中繼服務(wù)器將附加了原語上述結(jié)構(gòu)化文件發(fā)送至用戶終端的單元;上述節(jié)點檢出單元、上述選擇確定單元及上述部分選擇單元于上述用戶終端利用上述附加原語進行處理。27一種計算機程序,用于選擇提取結(jié)構(gòu)化文件之一部分,其中,包括如下各步驟檢出步驟—檢出同用戶在顯示有結(jié)構(gòu)化文件的屏幕上選擇的位置相對應(yīng)的樹結(jié)構(gòu)的末尾節(jié)點;和促選步驟—使用戶從一連串節(jié)點中選一節(jié)點,該一連串節(jié)點是從上述末尾節(jié)點開始逐一檢出較高層節(jié)點而得到的;以及選擇步驟—選擇提取同用戶所選節(jié)點相對應(yīng)的結(jié)構(gòu)化文件中之一部分。28按權(quán)利要求27所述的計算機程序,其中,上述促選步驟包括如下步驟標(biāo)示步驟—于上述屏幕標(biāo)示同上述一節(jié)點相對應(yīng)的結(jié)構(gòu)化文件之一部分的區(qū)域;促擇步驟—使用戶通過改變節(jié)點選擇來選擇期望區(qū)域;確定步驟—確定同上述選擇期望區(qū)域相對應(yīng)的節(jié)點作用戶所選節(jié)點;于上述選擇步驟,選擇同上述用戶所選節(jié)點相對應(yīng)的結(jié)構(gòu)化文件中之一部分。29按權(quán)利要求28所述的計算機程序,其中,上述確定步驟還包括如是步驟當(dāng)上述多個節(jié)點對應(yīng)于上述選擇期望區(qū)域時,從該等多個節(jié)點中選擇最高層節(jié)點作上述用戶所選節(jié)點。30按權(quán)利要求28所述的計算機程序,其中,上述確定步驟還包括如是步驟當(dāng)上述多個節(jié)點均包絡(luò)同一文本及圖像數(shù)據(jù)時,從該等多個節(jié)點中選擇最高層節(jié)點作上述用戶所選節(jié)點。31按權(quán)利要求27所述的計算機程序,其中還包括如下步驟發(fā)送被用戶特定URL所指定的結(jié)構(gòu)化文件至中繼服務(wù)器;于上述中繼服務(wù)器,將含文件部分選擇及提取功能的原語附加于上述結(jié)構(gòu)化文件;由上述中繼服務(wù)器將附加了原語上述結(jié)構(gòu)化文件發(fā)送至用戶終端;于該用戶終端,利用上述附加原語執(zhí)行上述檢出、促選及選擇步驟。32一種計算機可讀存儲介質(zhì),其存儲有計算機程序,該程序使計算機選擇提取結(jié)構(gòu)化文件之一部分,其中,該程序包括如下各步驟檢出步驟—檢出同用戶在顯示有結(jié)構(gòu)化文件的屏幕上選擇的位置相對應(yīng)的樹結(jié)構(gòu)的末尾節(jié)點;和促選步驟—使用戶從一連串節(jié)點中選一節(jié)點,該一連串節(jié)點是從上述末尾節(jié)點開始逐一檢出較高層節(jié)點而得到的;以及選擇步驟—選擇提取同用戶所選節(jié)點相對應(yīng)的結(jié)構(gòu)化文件中之一部分。33按權(quán)利要求32所述的計算機可讀存儲介質(zhì),其中,上述促選步驟包括如下步驟標(biāo)示步驟—于上述屏幕標(biāo)示同上述一節(jié)點相對應(yīng)的結(jié)構(gòu)化文件之一部分的區(qū)域;促擇步驟—使用戶通過改變節(jié)點選擇來選擇期望區(qū)域;確定步驟—確定同上述選擇期望區(qū)域相對應(yīng)的節(jié)點作用戶所選節(jié)點;于上述選擇步驟,選擇同上述用戶所選節(jié)點相對應(yīng)的結(jié)構(gòu)化文件中之一部分。34按權(quán)利要求33所述的計算機可讀存儲介質(zhì),其中,上述確定步驟還包括如是步驟當(dāng)上述多個節(jié)點對應(yīng)于上述選擇期望區(qū)域時,從該等多個節(jié)點中選擇最高層節(jié)點作上述用戶所選節(jié)點。35按權(quán)利要求33所述的計算機可讀存儲介質(zhì),其中,上述確定步驟還包括如是步驟當(dāng)上述多個節(jié)點均包絡(luò)同一文本及圖像數(shù)據(jù)時,從該等多個節(jié)點中選擇最高層節(jié)點作上述用戶所選節(jié)點。36按權(quán)利要求32所述的計算機可讀存儲介質(zhì),其中還包括如下步驟發(fā)送被用戶特定URL所指定的結(jié)構(gòu)化文件至中繼服務(wù)器;于上述中繼服務(wù)器,將含文件部分選擇及提取功能的原語附加于上述結(jié)構(gòu)化文件;由上述中繼服務(wù)器將附加了原語上述結(jié)構(gòu)化文件發(fā)送至用戶終端;于該用戶終端,利用上述附加原語執(zhí)行上述檢出、促選及選擇步驟。全文摘要一種自結(jié)構(gòu)化文件提取信息之方法,包括如下步驟將包括標(biāo)記標(biāo)識符的部分樹標(biāo)識符賦與所選擇部分樹,該標(biāo)記標(biāo)識符包括對應(yīng)于所選擇部分樹根的標(biāo)記名、該標(biāo)記的至少1個文件格式屬性名、該至少1個文件格式屬性值;若該標(biāo)記的上述至少1個文件格式屬性包括多個文件格式屬性,則在上述標(biāo)記標(biāo)識符中按給定順序排列上述文件格式屬性名;從更新后樹結(jié)構(gòu)文件中所存在的部分樹的部分樹標(biāo)識符系列特定出部分樹,該部分樹具有同上述所選擇部分樹的部分樹標(biāo)識符一樣的部分樹標(biāo)識符。文檔編號G06F17/21GK1469276SQ0314866公開日2004年1月21日申請日期2003年6月18日優(yōu)先權(quán)日2002年6月28日發(fā)明者內(nèi)山匡,宮本勝申請人:日本電信電話株式會社