專利名稱:一種網(wǎng)頁化文檔生成交互式文檔結(jié)構(gòu)的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于電子計算機(jī)應(yīng)用技術(shù)領(lǐng)域,涉及一種快速自動的將網(wǎng)頁化文檔變?yōu)榻?br>
互式文檔結(jié)構(gòu)的方法,特別是一種網(wǎng)頁化文檔生成交互式文檔結(jié)構(gòu)的方法。
背景技術(shù):
網(wǎng)頁化文檔也成為超文本標(biāo)記語言(Hypertext Markup Language,簡稱HTML),采 用由特定字母組成的文字字符串或稱為標(biāo)簽來界定正文內(nèi)容的不同顯示方式,是數(shù)據(jù)和顯 示風(fēng)格組合在一起的數(shù)據(jù)結(jié)構(gòu)。隨著計算機(jī)網(wǎng)絡(luò)的普及應(yīng)用,基于網(wǎng)頁形式瀏覽大型文檔 的情況越來越多,這類大型網(wǎng)頁化文檔的內(nèi)容一般比較豐富,打印出來常常都在幾十頁,甚 至達(dá)數(shù)百頁,這些文檔閱讀與使用起來費(fèi)時費(fèi)力,如果沒有目錄索引結(jié)構(gòu)使用起來更是無 處下手。目前,如何提高這類大型網(wǎng)頁化文檔的使用效率成為本技術(shù)領(lǐng)域中正在探求的創(chuàng) 新型課題;在使用word查閱大型文檔時其自帶的"文檔結(jié)構(gòu)圖"給使用者留下了深刻的印 象,這是一種基于標(biāo)題目錄層次關(guān)系創(chuàng)建的交互式文檔結(jié)構(gòu),文檔結(jié)構(gòu)上的索引與關(guān)聯(lián)的 對應(yīng)內(nèi)容隨點(diǎn)隨到。利用微軟提供的生成文檔結(jié)構(gòu)的范例方法,可以生成交互式文檔結(jié)構(gòu), 但是對于大型網(wǎng)頁文檔要花費(fèi)的時間往往在幾分鐘以上,其等待時間之長讓使用者難以讓 人忍受??偨Y(jié)起來,現(xiàn)有的網(wǎng)頁化文檔生成交互式文檔結(jié)構(gòu)的技術(shù)還不成熟,已經(jīng)實(shí)施的類 似方法也還存在著速度慢,生成結(jié)構(gòu)復(fù)雜,使用方便性差等缺點(diǎn)。因此,尋求一種可以提高 大型網(wǎng)頁化文檔變?yōu)榻换ナ轿臋n結(jié)構(gòu)的自動生成速度,不需要預(yù)先保存文檔結(jié)構(gòu)的計算機(jī) 應(yīng)用方法滿足使用需要,具有明顯的實(shí)際應(yīng)用價值。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,利用電子計算機(jī)技術(shù)的遍歷算法為大型 網(wǎng)頁化文檔提供一種自動生成交互式文檔結(jié)構(gòu)的快速方法。 為了實(shí)現(xiàn)上述目的,本發(fā)明采用遍歷算法遍歷文檔中的所有標(biāo)簽,對其中用于文 檔結(jié)構(gòu)的標(biāo)簽生成對應(yīng)的交互錨點(diǎn)結(jié)構(gòu),并建立與之關(guān)聯(lián)的交互式文檔結(jié)構(gòu)索引的關(guān)聯(lián), 在word查閱大型文檔時使用文檔結(jié)構(gòu)圖點(diǎn)擊文檔結(jié)構(gòu)的索引,跳轉(zhuǎn)顯示相應(yīng)的文檔內(nèi)容; 本發(fā)明方法能提高用遍歷算法生成大型網(wǎng)頁化文檔對應(yīng)的交互式文檔結(jié)構(gòu)的速度,縮短文 檔結(jié)構(gòu)的生成的等待時間,不需要預(yù)先生成與保存文檔結(jié)構(gòu)即可快速自動生成交互式文檔 結(jié)構(gòu);為了實(shí)現(xiàn)遍歷算法生成文檔結(jié)構(gòu)快速即時的目的,本發(fā)明采用快速獲取標(biāo)記文檔結(jié) 構(gòu)的專用標(biāo)簽集合,構(gòu)建有效且縮小的標(biāo)簽集合的遍歷方法。
本發(fā)明方法的主要步驟包括以下三個過程 步驟1 :將文檔內(nèi)的所有標(biāo)簽分類過濾,把能夠體現(xiàn)文檔結(jié)構(gòu)的內(nèi)容標(biāo)題用特殊 標(biāo)記和統(tǒng)一標(biāo)識快速逐類進(jìn)行標(biāo)記; 步驟2 :根據(jù)統(tǒng)一標(biāo)識的共同特征,快速獲取已做過統(tǒng)一標(biāo)識標(biāo)記的標(biāo)簽集合,形 成與在文檔中先后順序一致的專用標(biāo)記文檔結(jié)構(gòu)的標(biāo)簽集合; 步驟3 :在所形成的專用標(biāo)記文檔結(jié)構(gòu)的標(biāo)簽集合中,用遍歷算法逐個在網(wǎng)頁文檔內(nèi)容中對應(yīng)的標(biāo)題標(biāo)簽處生成對應(yīng)的交互錨點(diǎn)結(jié)構(gòu),同時建立與之關(guān)聯(lián)的交互式文檔結(jié) 構(gòu)中的索引項(xiàng)。 本發(fā)明所述的用特殊標(biāo)記和統(tǒng)一標(biāo)識對文檔結(jié)構(gòu)標(biāo)簽進(jìn)行標(biāo)記是對文檔結(jié)構(gòu)標(biāo) 簽進(jìn)行逐類快速地統(tǒng)一標(biāo)識標(biāo)記;所述的獲取專用標(biāo)記文檔結(jié)構(gòu)的標(biāo)簽集合和用遍歷算法 進(jìn)行生成交互式文檔結(jié)構(gòu)是根據(jù)統(tǒng)一標(biāo)識的共同特征,快速獲取已做過統(tǒng)一標(biāo)識標(biāo)記的標(biāo) 簽,形成專用的標(biāo)記文檔結(jié)構(gòu)的標(biāo)簽集合;并基于已獲取的專用標(biāo)記文檔結(jié)構(gòu)的標(biāo)簽集合 進(jìn)行生成交互式文檔結(jié)構(gòu);對文檔結(jié)構(gòu)專用標(biāo)簽集合用遍歷算法逐個在網(wǎng)頁文檔內(nèi)容中生 成對應(yīng)的交互錨點(diǎn)結(jié)構(gòu),再同時建立與之關(guān)聯(lián)的交互式文檔結(jié)構(gòu)。 本發(fā)明的核心在于用盡可能快的速度獲取最精準(zhǔn)的標(biāo)記標(biāo)簽集合,再由特定標(biāo)記 標(biāo)簽集合快速地去組織生成文檔結(jié)構(gòu);與現(xiàn)有技術(shù)相比,其生成交互式文檔的速度快,實(shí)時 性強(qiáng),靈活性好,節(jié)省時間和人力。
圖1為本發(fā)明工作流程結(jié)構(gòu)原理示意框圖。
具體實(shí)施例方式
下面通過實(shí)施例并結(jié)合附圖做進(jìn)一步說明。
本實(shí)施例按下列步驟實(shí)施 1)把網(wǎng)頁文檔內(nèi)的所有標(biāo)簽過濾分類,再把能夠體現(xiàn)文檔結(jié)構(gòu)的內(nèi)容或各級標(biāo)
題,逐類分別用特殊的統(tǒng)一標(biāo)識標(biāo)記出來;采用的這種特殊的統(tǒng)一標(biāo)識要利于下一步驟中
快速直接獲取對應(yīng)標(biāo)簽集合;具體是在HTML標(biāo)簽處理中,用document, all. tags(〃 HI")
按在文檔中出現(xiàn)的先后順序獲取文檔中所有一級標(biāo)題的標(biāo)簽,并給每個標(biāo)題指定ID為同
一標(biāo)識,例如為"HI";用相同方法把組成文檔結(jié)構(gòu)的標(biāo)簽統(tǒng)一標(biāo)識出來; 2)按這些標(biāo)記標(biāo)簽在文檔中的先后位置關(guān)系快速獲取這些做過標(biāo)記的標(biāo)簽
集合,構(gòu)建一個用于文檔結(jié)構(gòu)的文中所有標(biāo)題組成的遍歷數(shù)組;具體是用document.
all(" HI")按在文檔中出現(xiàn)的先后順序獲取獲取文檔中所有ID為"HI"標(biāo)簽; 3)用遍歷算法在縮小的所選定的標(biāo)簽集合——遍歷數(shù)組中,生成對應(yīng)的交互式文
檔結(jié)構(gòu)中的各個索引項(xiàng),實(shí)現(xiàn)文檔結(jié)構(gòu)內(nèi)的索引標(biāo)識與文檔內(nèi)容具體位置的關(guān)聯(lián)瀏覽;具
體是指定document, all (〃 HI")的結(jié)果作為實(shí)現(xiàn)文檔結(jié)構(gòu)遍歷標(biāo)簽的集合,進(jìn)行充分必
要的標(biāo)簽遍歷與索引的生成。 本實(shí)施例由于縮小了遍歷的標(biāo)簽數(shù)量——為必要充分的用于文檔結(jié)構(gòu)的所有標(biāo) 題標(biāo)簽集合,從而提高讀寫大型網(wǎng)頁文檔的速度,尤其是即時生成交互式文檔結(jié)構(gòu)的大型 網(wǎng)頁文檔的開檔速度。 本實(shí)施例根據(jù)網(wǎng)頁化文檔內(nèi)的所有標(biāo)簽進(jìn)行分類過濾,把能夠體現(xiàn)文檔結(jié)構(gòu)的內(nèi) 容標(biāo)題用特殊的標(biāo)記快速逐類用統(tǒng)一標(biāo)識進(jìn)行標(biāo)記;再根據(jù)統(tǒng)一標(biāo)識的共同特征,快速獲 取這些做過統(tǒng)一標(biāo)識標(biāo)記的標(biāo)簽集合,形成專用標(biāo)記文檔結(jié)構(gòu)的標(biāo)簽集合;再基于專用標(biāo) 記文檔結(jié)構(gòu)的標(biāo)簽集合,用遍歷算法逐個在網(wǎng)頁文檔內(nèi)容中對應(yīng)的標(biāo)題標(biāo)簽處生成對應(yīng)的 交互錨點(diǎn)結(jié)構(gòu),同時建立與之關(guān)聯(lián)的交互式文檔結(jié)構(gòu)中的索引項(xiàng)。 本實(shí)施例所述的用特殊的標(biāo)記對文檔結(jié)構(gòu)標(biāo)簽進(jìn)行統(tǒng)一標(biāo)識標(biāo)記是對文檔結(jié)構(gòu)標(biāo)簽進(jìn)行逐類快速地統(tǒng)一標(biāo)識標(biāo)記;所述的獲取專用的標(biāo)記文檔結(jié)構(gòu)的標(biāo)簽集合用遍歷算 法進(jìn)行生成交互式文檔結(jié)構(gòu)是根據(jù)統(tǒng)一標(biāo)識的共同特征,快速獲取這些做過統(tǒng)一標(biāo)識標(biāo)記 的標(biāo)簽,形成專用的標(biāo)記文檔結(jié)構(gòu)的標(biāo)簽集合;再基于已獲取的專用的標(biāo)記文檔結(jié)構(gòu)的標(biāo) 簽集合進(jìn)行生成交互式文檔結(jié)構(gòu);本實(shí)施方式僅用于以說明本發(fā)明的技術(shù)方案而非對其限 制;對于非結(jié)構(gòu)化網(wǎng)頁文檔,在內(nèi)容長達(dá)數(shù)十頁甚至數(shù)百頁,編制、閱讀與使用起來都比較 費(fèi)時費(fèi)力,采用微軟范例算法生成文檔結(jié)構(gòu),對于大型文檔花費(fèi)時間在幾十秒鐘甚至數(shù)分 鐘以上,該方法即時快速自動生成類似word中的"文檔結(jié)構(gòu)圖",對于含有過萬個標(biāo)記標(biāo)簽 的HTML文檔,采用微軟范例算法生成文檔結(jié)構(gòu),平均需要1分鐘以上;采用新算法,不超過 5秒鐘,大大改善了文檔結(jié)構(gòu)生成時的響應(yīng)速度;另外該方法不需要額外存放文檔結(jié)構(gòu)內(nèi) 容,方便了網(wǎng)頁正文的其他用途。
權(quán)利要求
一種網(wǎng)頁化文檔生成交互式文檔結(jié)構(gòu)的方法,其特征在于先將文檔內(nèi)的所有標(biāo)簽分類過濾,把能夠體現(xiàn)文檔結(jié)構(gòu)的內(nèi)容標(biāo)題用特殊標(biāo)記和統(tǒng)一標(biāo)識快速逐類進(jìn)行標(biāo)記;再根據(jù)統(tǒng)一標(biāo)識的共同特征,快速獲取已做過統(tǒng)一標(biāo)識標(biāo)記的標(biāo)簽集合,形成與在文檔中先后順序一致的專用標(biāo)記文檔結(jié)構(gòu)的標(biāo)簽集合;然后在所形成的專用標(biāo)記文檔結(jié)構(gòu)的標(biāo)簽集合中,用遍歷算法逐個在網(wǎng)頁文檔內(nèi)容中對應(yīng)的標(biāo)題標(biāo)簽處生成對應(yīng)的交互錨點(diǎn)結(jié)構(gòu),同時建立與之關(guān)聯(lián)的交互式文檔結(jié)構(gòu)中的索引項(xiàng)。
全文摘要
本發(fā)明屬于電子計算機(jī)應(yīng)用技術(shù)領(lǐng)域,涉及一種快速自動的將網(wǎng)頁化文檔變?yōu)榻换ナ轿臋n結(jié)構(gòu)的方法,特別是一種網(wǎng)頁化文檔生成交互式文檔結(jié)構(gòu)的方法,先將文檔內(nèi)的所有標(biāo)簽分類過濾,把能夠體現(xiàn)文檔結(jié)構(gòu)的內(nèi)容標(biāo)題用特殊標(biāo)記和統(tǒng)一標(biāo)識快速逐類進(jìn)行標(biāo)記;再根據(jù)統(tǒng)一標(biāo)識的共同特征,快速獲取已做過統(tǒng)一標(biāo)識標(biāo)記的標(biāo)簽集合,形成與在文檔中先后順序一致的專用標(biāo)記文檔結(jié)構(gòu)的標(biāo)簽集合;然后在所形成的專用標(biāo)記文檔結(jié)構(gòu)的標(biāo)簽集合中,用遍歷算法逐個在網(wǎng)頁文檔內(nèi)容中對應(yīng)的標(biāo)題標(biāo)簽處生成對應(yīng)的交互錨點(diǎn)結(jié)構(gòu),同時建立與之關(guān)聯(lián)的交互式文檔結(jié)構(gòu)中的索引項(xiàng);其生成交互式文檔速度快,實(shí)時性強(qiáng),靈活性好,節(jié)省時間和人力。
文檔編號G06F17/30GK101727497SQ20101001188
公開日2010年6月9日 申請日期2010年1月13日 優(yōu)先權(quán)日2010年1月13日
發(fā)明者張金石, 陳晨, 陳景亮 申請人:陳景亮