專利名稱::一種文檔格式的轉(zhuǎn)換方法及裝置的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明屬于文檔應(yīng)用領(lǐng)域,具體涉及一種文檔格式的轉(zhuǎn)換方法及裝置。
背景技術(shù):
:隨著電腦的不斷普及,無紙化辦公得到越來越多的應(yīng)用,各種各樣的文檔也大量的出現(xiàn)在用戶的面前。以可移植文檔格式(PortableDocumentFormat,PDF)、office文檔為例,在將PDF格式的文檔轉(zhuǎn)換為office格式的文檔時,面臨較多的困難。在PDF格式的文檔中,實際看到的文字特效,譬如例如下劃線、刪除線、字符底紋等,都是將圖形與文本疊加形成的。因此,在將PDF文件轉(zhuǎn)換為office格式的文檔時,如果僅僅是從PDF文檔中提取原始數(shù)據(jù)內(nèi)容,有文字特效的文本就會變成分散的文本與圖形混合在一起,如果需要還原文本特效,需要手動刪除多余的圖形并重新設(shè)置文本特效。上述的轉(zhuǎn)換方式不但丟失了原有PDF的文本效果,在轉(zhuǎn)換后,還會造成頁面的混亂,給轉(zhuǎn)換后的文檔的編輯帶來極大的不便。如何使得諸如PDF文檔在轉(zhuǎn)換為其他格式的文檔時,能夠保持原文檔內(nèi)容的還原度,增加文檔轉(zhuǎn)換后可編輯性,是文檔轉(zhuǎn)換
技術(shù)領(lǐng)域:
研究的方向之一。
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種文檔格式的轉(zhuǎn)換方法,旨在使得諸如PDF文檔在轉(zhuǎn)換為其他格式的文檔時,能夠保持原文檔內(nèi)容的還原度,增加文檔轉(zhuǎn)換后可編輯性。本發(fā)明實施例是這樣實現(xiàn)的,一種文檔格式的轉(zhuǎn)換方法,所述方法包括以下步驟獲取原文檔中的文本信息和圖形信息;將獲取的原文檔中的文本信息和圖形信息進(jìn)行文本特效識別,識別所述文本信息與所述圖形信息之間的對應(yīng)關(guān)系;將識別出的所述文本信息與所述圖形信息之間的對應(yīng)關(guān)系進(jìn)行存儲;根據(jù)所述存儲的文本信息與所述圖形信息之間的對應(yīng)關(guān)系生成用戶指定的文檔格式。本發(fā)明實施例的另一目的在于提供一種文檔格式的轉(zhuǎn)換裝置,所述裝置包括信息獲取模塊,用于獲取原文檔中的文本信息和圖形信息;文本特效識別模塊,用于將獲取的原文檔中的文本信息和圖形信息進(jìn)行文本特效識別,識別所述文本信息與所述圖形信息之間的對應(yīng)關(guān)系;存儲模塊,用于將識別出的所述文本信息與所述圖形信息之間的對應(yīng)關(guān)系進(jìn)行存儲;文檔格式轉(zhuǎn)換模塊,用于根據(jù)所述存儲的文本信息與所述圖形信息之間的對應(yīng)關(guān)系生成用戶指定的文檔格式。本發(fā)明實施例通過獲取PDF文檔中的文本信息以及圖形信息,并對PDF文檔中的文本信息和圖形信息進(jìn)行文本特效識別,識別文本信息和圖形信息之間的關(guān)系并存儲,根據(jù)存儲的文本信息和圖形信息之間的關(guān)系將PDF文檔轉(zhuǎn)換為其他格式的文檔,使得諸如PDF文檔在轉(zhuǎn)換為其他格式的文檔時,能夠保持原文檔內(nèi)容的還原度,增加文檔轉(zhuǎn)換后可編輯性,解決了轉(zhuǎn)換后頁面混亂的問題。圖1為本發(fā)明實施例圖2為本發(fā)明實施例圖3為本發(fā)明實施例圖4為本發(fā)明實施例圖5為本發(fā)明實施例圖6為本發(fā)明實施例圖7為本發(fā)明實施例圖8為本發(fā)明實施例圖9為本發(fā)明實施例提供的文檔格式的轉(zhuǎn)換方法的流程提供的將矩形轉(zhuǎn)換為線段的流程提供的特效圖形中下劃線的特征示意提供的特效圖形中刪除線的特征示意提供的特效圖形中底紋與高亮的特征示意提供的對帶圈字符的識別轉(zhuǎn)換流程提供的對帶圈字符之外的其他特效圖形的處理流程提供的能與圖形組合成為特效文本的文本塊集合的流程圖提供的文檔格式的轉(zhuǎn)換裝置的結(jié)構(gòu)圖。具體實施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。圖1示出了本發(fā)明實施例提供的文檔格式的轉(zhuǎn)換方法的流程。在步驟S101中,獲取原文檔中的文本信息和圖形信息。為了便于說明,本發(fā)明實施例以PDF文檔作為原文檔為例進(jìn)行說明,當(dāng)然也可以是將其他的文檔格式進(jìn)行轉(zhuǎn)換,此處不一一列舉。在步驟S102中,將獲取的原文檔中的文本信息和圖形信息進(jìn)行文本特效識別,識別所述文本信息與所述圖形信息之間的對應(yīng)關(guān)系。在具體實施過程中,所述文本信息和所述圖形信息包含的位置以及大小關(guān)系;所述圖形信息包含的圖形的屬性、特征等基本信息。在步驟S103中,將識別出的所述文本信息與所述圖形信息之間的對應(yīng)關(guān)系進(jìn)行存儲。本發(fā)明是將識別的結(jié)果保存至標(biāo)識了文本所具有的特殊效果的獨立中間數(shù)據(jù)結(jié)構(gòu)中。在步驟S104中,根據(jù)所述存儲的文本信息與所述圖形信息之間的對應(yīng)關(guān)系生成用戶指定的文檔格式。其中,步驟S101中的圖形信息包括有特效圖形的特征信息,所述的特效圖形為下劃線、刪除線、底紋與高亮以及帶圈字符等圖形。在根據(jù)所述存儲的文本信息與所述圖形信息之間的對應(yīng)關(guān)系生成用戶指定的文檔格式時,根據(jù)所述特效圖形的特征信息查找符合條件的特效圖形,刪除所述圖形信息中的特效圖形。其中,由于PDF頁面顯示的內(nèi)容均是由頁面內(nèi)容流中的一系列控制字來表示的,所以步驟S101中在獲取原文檔中的文本信息和圖形信息時,首先讀入并接收文檔中存儲的文檔繪制指令,所述文檔繪制指令包括繪制文本指令以及繪制圖形指令;然后,根據(jù)接收到的繪制文本指令提取繪制文本指令中對應(yīng)的文本信息;根據(jù)接收到的繪制圖形指令提取所述繪制圖形指令中對應(yīng)的圖形信息。作為本發(fā)明的優(yōu)選的實施例,步驟S103中在將識別出的所述文本信息與所述圖形信息之間的對應(yīng)關(guān)系進(jìn)行存儲時,還包括;將獲取的文本信息保存至文本塊集合中,將獲取的圖形信息保存至圖形集合中。其中,提取出的文本信息與圖形信息均保存有位置、外界矩形區(qū)域大小等基本信息,所述的圖形信息還保存有組成該圖形的邊的屬性、填充色等圖形的基本信息。在具體實施過程中,由于PDF中表示線段的方式有多種,除了通常理解的繪制一條線段之外,另一種方式就是繪制一個寬度很小的細(xì)長矩形。后一種方式在顯示時與前一種方式有同樣的效果,為了簡化識別的判斷邏輯,本發(fā)明實施例將提取出的細(xì)長矩形全部轉(zhuǎn)換為線段,具體轉(zhuǎn)換步驟請參閱圖2步驟S21、判斷獲取的圖形是否為四邊形,若是,進(jìn)行步驟S22,否則終止;步驟S22、判斷獲取的圖形是否為矩形,若是,進(jìn)行步驟S23,否則終止;步驟S23、判斷是否具有某一邊的寬度是否小于PDF在正常顯示時能夠區(qū)分線段和矩形的臨界寬度,若是,則進(jìn)行步驟S24,否則終止;其中,上述的臨界寬度為一經(jīng)驗值,根據(jù)大量具體的PDF的屬性而定。步驟S24、提取該矩形的區(qū)域信息,以該矩形的2條窄邊的中點為線段的2個頂點,轉(zhuǎn)化為相應(yīng)的線段,并用轉(zhuǎn)化后的線段替換掉原來的矩形。下面詳細(xì)的說明步驟S102中將獲取的原文檔中的文本信息和圖形信息進(jìn)行文本特效識別,識別所述文本信息與所述圖形信息之間的對應(yīng)關(guān)系、以及特效圖形的過程。在進(jìn)行文本特效識別時,要明確各種文本特效圖形的特征,這需要對各種PDF文檔中文本信息和圖形信息進(jìn)行樣例分析,得出圖形信息與對應(yīng)文本信息之間的對應(yīng)關(guān)系或者特效圖形一般特征,本發(fā)明實施例以A下劃線、B刪除線、C底紋與高亮以及D帶圈字符為例進(jìn)行詳細(xì)的說明。A、以下劃線為例,請參閱圖3,下劃線a就是在文本下方與文字方向平行的線段。根據(jù)對大量PDF文本與下劃線線段之間的位置關(guān)系的分析,下劃線線段一般位于文本對象外接矩形框內(nèi)部下1/4位置到矩形框外部下方1/3位置,這些分?jǐn)?shù)值也可以根據(jù)具體情況相應(yīng)進(jìn)行調(diào)整,并不限定于前面列出的值,本發(fā)明實施例使用的分?jǐn)?shù)均是按外接矩形框高度為單位1來計算的。同時,由于PDF中的文本并不是以自然的單詞或者字來分割,有可能是幾個字母或者一個漢字就為一個文本對象,通過幾個文本對象的組合來得到在閱讀時的完整單詞和句子的效果,因此,對下劃線線段只能要求與文本對象在x方向有相交部分即可。由此,識別出的下劃線(僅針對橫排文本)的特征為A1、下劃線為沿水平方向x方向的線段;A2、下劃線與劃分出來的某個文本行列塊有相交部分;A3、y方向所占區(qū)域落在文本塊y方向區(qū)域的下3/4與4/3范圍之內(nèi),x方向與文本塊x方向有相交部分。B、以刪除線為例,請參閱圖4,刪除線b的特點是穿過文字,與文字方向平行的線段。根據(jù)對大量PDF文本與刪除線線段之間的位置關(guān)系的分析,大部分的刪除線線段都位于文本對象外接矩形框的上部1/4位置到下部1/4位置之間,這些分?jǐn)?shù)值也可以根據(jù)具體情況相應(yīng)進(jìn)行調(diào)整,并不限定于前面列出的值。在x方向上的特征,由于PDF中文本對象的不確定性,與下劃線是類似的。本發(fā)明識別出的刪除線(僅針對橫排文本)的特征為B1、刪除線是水平方向x方向的線段;B2、刪除線與劃分出來的某個文本行列塊有相交部分;B3、y方向所占區(qū)域落在文本塊y方向區(qū)域的1/4與3/4范圍之內(nèi),x方向與文本塊x方向有相交部分。C、以底紋與高亮為例,請參閱圖5,底紋與高亮在PDF中的表現(xiàn)形式都是文字下面有特效圖形,特效圖形的區(qū)域遮蓋了文字的大部分區(qū)域。在對大量的PDF中的底紋與高亮進(jìn)行分析后,得出底紋與高亮確實具有完全相同的PDF元素組合關(guān)系,特效圖形幾乎完全覆蓋了文字。進(jìn)行樣例分析后,發(fā)現(xiàn)特效圖形上端一般都不會超過文本外接矩形框上方1/4,也不會低于矩形框內(nèi)側(cè)上部的1/4,特效圖形下端超出矩形框內(nèi)側(cè)下1/10,但不會超過矩形框下方外側(cè)1/4。這些分?jǐn)?shù)值也可以根據(jù)具體情況相應(yīng)進(jìn)行調(diào)整,并不限定于前面列出的值。同時,在x方向上的特征由于PDF中文本對象的不確定性,底紋與高亮跟下劃線和刪除線類似,都只要求與文本對象在x方向有相交部分即可。由此,本發(fā)明識別出的高亮與底紋(僅針對橫排文本)的特征為C1、高亮與底紋是矩形,且有填充色;C2、高亮與底紋與劃分出來的某個文本行列塊有相交部分;C3、y方向所占區(qū)域的上部既不越過文本塊y方向區(qū)域上方的y方向區(qū)域1/4大小,也不低于文本塊y方向區(qū)域1/4處,底部超過文本塊y方向區(qū)域9/10,但不超過與文本塊y方向區(qū)域5/4,x方向與文本塊x方向有相交部分。D、以帶圈字符為例,帶圈字符是PDF中比較特殊的文本特效類型。根據(jù)對PDF的分析,帶圈字符是由2個文本對象疊加得到的,其中一個文本對象即是圈字符,一般為字符“〇、口、A、”中的一個。另一個文本對象是一個至多只有2個字符的文本對象,這2個文本對象的區(qū)域大部分是相交的。本發(fā)明識別出的帶圈字符的特征為D1、帶圈字符是只有1個字符的文本塊,字符必須為“〇、口、A、”中的一個;D2、帶圈字符與除了自身之外的某個文本塊相交,且這個文本決最多只有2個字符。當(dāng)然在具體實施過程中,還包括其他若干的圖形,此處僅以上述A、B、C、D四個為例,總結(jié)出圖形信息的基本特征后,這些基本特征可以在識別過程中對圖形進(jìn)行分級多次篩選,提高篩選效率。同時,判斷特征的過程是相對獨立的,可以自由分離或組合使用。在具體實施過程中,首先進(jìn)行帶圈字符的識別轉(zhuǎn)換,該識別轉(zhuǎn)換過程請參閱圖67步驟S61、查找文本塊集合中的圖形,是否找到符合帶圈字符特效圖形特征(D1)的文本塊,若找到,則進(jìn)行S62,若找不到這種文本塊,結(jié)束識別;步驟S62、根據(jù)找到的特效圖形屬性,查找文本塊集合直至找到一個至多只有2個字符的,并且與特效圖形相交的文本塊,若找到,進(jìn)行步驟S63,若找不到這樣的文本塊,回到步驟S61;步驟S63、根據(jù)此特效圖形的字符為“〇、口、A、”中的哪一個,設(shè)置對應(yīng)的相交文本塊的屬性為帶圓圈字符、帶矩形圈字符、帶三角形圈字符,帶菱形圈字符中的一種;步驟S64、刪除特效圖形文本塊。完成帶圈字符的識別后,進(jìn)行其它特效圖形的識別,識別的方法為,遍歷圖形集合中的圖形,對每個圖形應(yīng)用以下步驟(請參閱圖7)步驟S71、查找能與該圖形組合成為特效文本的文本塊集合;若查找出文本塊集合,此圖形即為特效圖形,進(jìn)行步驟S72;若找不到則結(jié)束;步驟S72、計算查找出的文本塊集合的區(qū)域大小,如果與特效圖形區(qū)域x方向?qū)挾炔顒e過大,則回到步驟S71繼續(xù)查找文本塊,否則進(jìn)行步驟S73;步驟S73、對文本塊集合中的每一個文本塊設(shè)置與特效圖形對應(yīng)的文本特效屬性;步驟S74、刪除特效圖形。其中,上述步驟S71的具體過程請參閱圖8步驟3711、判斷圖形是否符合特效圖形特征的第一特征(即上文中的々1、81、(1),若符合則進(jìn)行步驟S712,若不符合則查找結(jié)束,查找結(jié)果為空,結(jié)束;步驟S712、遍歷文本集合中的每一個行列塊,判斷圖形與行列塊的關(guān)系是否符合特效圖形的第二特征(即上文中的A2、B2、C2),若符合,進(jìn)行步驟S713,若全部都不符合,則查找結(jié)束,查找結(jié)果為空,結(jié)束;步驟S713、對于找到的行列塊中的每一個文本塊,判斷圖形與文本塊是否符合特效圖形的第三特征(即上文中的A3、B3、C3),如符合,進(jìn)行步驟S714,若沒有一個符合,繼續(xù)進(jìn)行步驟S712;步驟S714、將符合文本塊集合作為查找結(jié)果返回。其中,對于每一次符合的判斷,都將對應(yīng)的文本塊記錄至一個符合文本塊集合中。完成圖形的遍歷與識別后,PDF中文本特效識別即結(jié)束。通過對中間結(jié)構(gòu)的讀取,就可以在生成其它文檔格式時,設(shè)置這些格式支持的文本特效。經(jīng)過本發(fā)明實施例處理過的PDF文檔元素,生成的其它文檔格式中的文本附帶特效,還原度、可讀性都得到了很大的提尚。而且,本發(fā)明實施例可以消除簡單的PDF文檔元素提取所得的文本與特效圖形混合在一起,頁面元素混亂的問題,處理過程可以方便的增加新的特效識別。而且,識別及設(shè)置各種文本特效的操作是可分離的,可以自由使用其中的某一個識別功能或者設(shè)置功能。本發(fā)明還提供一種文檔格式的轉(zhuǎn)換裝置,請參閱圖9。其中,信息獲取模塊91,用于獲取原文檔中的文本信息和圖形信息;文本特效識別模塊92,用于將獲取的原文檔中的文本信息和圖形信息進(jìn)行文本特效識別,識別所述文本信息與所述圖形信息之間的對應(yīng)關(guān)系;存儲模塊93,用于將識別出的所述文本信息與所述圖形信息之間的對應(yīng)關(guān)系進(jìn)行存儲;其中,圖形信息包括有所述特效圖形的特征信息;文檔格式轉(zhuǎn)換模塊94,用于根據(jù)所述存儲的文本信息與所述圖形信息之間的對應(yīng)關(guān)系生成用戶指定的文檔格式。其中,所述圖形信息包含的圖形的屬性以及特征,所述文本信息與所述圖形信息之間的對應(yīng)關(guān)系包括位置以及大小關(guān)系。所述文檔格式轉(zhuǎn)換模塊94包括線段轉(zhuǎn)換模塊941,用于判斷獲取的圖形是否為四邊形,判斷獲取的圖形是否為矩形,判斷是否具有某一邊的寬度是否小于PDF在正常顯示時能夠區(qū)分線段和矩形的臨界寬度,以及,將該矩形轉(zhuǎn)化為相應(yīng)的線段,并用轉(zhuǎn)化后的線段替換掉原來的矩形。特效圖形查找模塊942,用于根據(jù)所述特效圖形的特征信息查找符合條件的特效圖形。特效圖形刪除模塊943,用于刪除所述圖形信息中的特效圖形。具體的各模塊的工作流程在上文已有詳細(xì)的描述,此處不再贅述。本發(fā)明實施例通過獲取PDF文檔中的文本信息以及圖形信息,并對PDF文檔中的文本信息和圖形信息進(jìn)行文本特效識別,識別文本信息和圖形信息之間的關(guān)系并存儲,根據(jù)存儲的文本信息和圖形信息之間的關(guān)系將PDF文檔轉(zhuǎn)換為其他格式的文檔,使得諸如PDF文檔在轉(zhuǎn)換為其他格式的文檔時,能夠保持原文檔內(nèi)容的還原度,增加文檔轉(zhuǎn)換后可編輯性,解決了轉(zhuǎn)換后頁面混亂的問題。應(yīng)當(dāng)理解的是,對本領(lǐng)域普通技術(shù)人員來說,可以根據(jù)上述說明加以改進(jìn)或變換,而這些改進(jìn)和變換都應(yīng)屬于本發(fā)明所附權(quán)利要求的保護(hù)范圍。9權(quán)利要求一種文檔格式的轉(zhuǎn)換方法,其特征在于,所述方法包括以下步驟獲取原文檔中的文本信息和圖形信息;將獲取的原文檔中的文本信息和圖形信息進(jìn)行文本特效識別,識別所述文本信息與所述圖形信息之間的對應(yīng)關(guān)系;將識別出的所述文本信息與所述圖形信息之間的對應(yīng)關(guān)系進(jìn)行存儲;根據(jù)所述存儲的文本信息與所述圖形信息之間的對應(yīng)關(guān)系生成用戶指定的文檔格式。2.如權(quán)利要求1所述的文檔格式的轉(zhuǎn)換方法,其特征在于,所述圖形信息包含的圖形的屬性以及特征,所述文本信息與所述圖形信息之間的對應(yīng)關(guān)系包括文本和圖形的位置以及大小關(guān)系。3.如權(quán)利要求1所述的文檔格式的轉(zhuǎn)換方法,其特征在于,所述的圖形信息包含有特效圖形,在根據(jù)所述存儲的文本信息與所述圖形信息之間的對應(yīng)關(guān)系生成用戶指定的文檔格式時,所述方法還包括以下步驟刪除所述圖形信息中的特效圖形。4.如權(quán)利要求1或3所述的文檔格式的轉(zhuǎn)換方法,其特征在于,在刪除所述圖形信息中的特效圖形的步驟之前,所述方法還包括;存儲所述特效圖形的特征信息;在根據(jù)所述存儲的文本信息與所述圖形信息之間的對應(yīng)關(guān)系生成用戶指定的文檔格式時,根據(jù)所述特效圖形的特征信息查找符合條件的特效圖形。5.如權(quán)利要求3所述的文檔格式的轉(zhuǎn)換方法,其特征在于,在刪除所述圖形信息中的特效圖形的步驟之前,所述方法還包括判斷獲取的圖形是否為四邊形,若是則繼續(xù)判斷獲取的圖形是否為矩形,若是,則繼續(xù)判斷是否具有某一邊的寬度小于原文檔在正常顯示時能夠區(qū)分線段和矩形的臨界寬度,若是,提取該矩形的區(qū)域信息,將該矩形轉(zhuǎn)化為相應(yīng)的線段,并用轉(zhuǎn)化后的線段替換掉原來的矩形。6.一種文檔格式的轉(zhuǎn)換裝置,其特征在于,所述裝置包括信息獲取模塊,用于獲取原文檔中的文本信息和圖形信息;文本特效識別模塊,用于將獲取的原文檔中的文本信息和圖形信息進(jìn)行文本特效識別,識別所述文本信息與所述圖形信息之間的對應(yīng)關(guān)系;存儲模塊,用于將識別出的所述文本信息與所述圖形信息之間的對應(yīng)關(guān)系進(jìn)行存儲;文檔格式轉(zhuǎn)換模塊,用于根據(jù)所述存儲的文本信息與所述圖形信息之間的對應(yīng)關(guān)系生成用戶指定的文檔格式。7.如權(quán)利要求6所述的文檔格式的轉(zhuǎn)換裝置,其特征在于,所述圖形信息包含的圖形的屬性以及特征,所述文本信息與所述圖形信息之間的對應(yīng)關(guān)系包括文本和圖形的位置以及大小關(guān)系。8.如權(quán)利要求6所述的文檔格式的轉(zhuǎn)換裝置,其特征在于,所述文檔格式轉(zhuǎn)換模塊具體包括特效圖形刪除模塊,用于刪除所述圖形信息中的特效圖形。9.如權(quán)利要求6或8所述的文檔格式的轉(zhuǎn)換裝置,其特征在于,所述圖形信息包括有特效圖形的特征信息,所述文檔格式轉(zhuǎn)換模塊還包括;特效圖形查找模塊,用于根據(jù)所述特效圖形的特征信息查找符合條件的特效圖形。10.如權(quán)利要求6或8所述的文檔格式的轉(zhuǎn)換裝置,其特征在于,所述文檔格式轉(zhuǎn)換模塊還包括線段轉(zhuǎn)換模塊,用于判斷獲取的圖形是否為四邊形,判斷獲取的圖形是否為矩形,判斷是否具有某一邊的寬度是否小于原文檔在正常顯示時能夠區(qū)分線段和矩形的臨界寬度,以及,將該矩形轉(zhuǎn)化為相應(yīng)的線段,并用轉(zhuǎn)化后的線段替換掉原來的矩形。全文摘要本發(fā)明屬于文檔應(yīng)用領(lǐng)域,公開了一種文檔格式的轉(zhuǎn)換方法及裝置,所述方法包括獲取原文檔中的文本信息和圖形信息;將獲取的原文檔中的文本信息和圖形信息進(jìn)行文本特效識別,識別所述文本信息與所述圖形信息之間的對應(yīng)關(guān)系;將識別出的所述文本信息與所述圖形信息之間的對應(yīng)關(guān)系進(jìn)行存儲;根據(jù)所述存儲的文本信息與所述圖形信息之間的對應(yīng)關(guān)系生成用戶指定的文檔格式。本發(fā)明使得諸如PDF文檔等原文檔在轉(zhuǎn)換為其他格式的文檔時,能夠保持原文檔內(nèi)容的還原度,增加文檔轉(zhuǎn)換后可編輯性,解決了轉(zhuǎn)換后頁面混亂的問題。文檔編號G06F17/21GK101853246SQ20101020640公開日2010年10月6日申請日期2010年6月14日優(yōu)先權(quán)日2010年6月14日發(fā)明者晏檢平,李譞申請人:深圳市萬興軟件有限公司