1.一種Word文檔的轉(zhuǎn)換方法,其特征在于,包括以下步驟:
Word文檔Html化:對Word文檔的全文進行Html標簽語言文本化,輸出Html標簽語言文本;
預(yù)定義結(jié)構(gòu)搜索匹配:設(shè)置具有正則表達式的預(yù)定義結(jié)構(gòu),通過所述預(yù)定義結(jié)構(gòu)對所述Html標簽語言文本執(zhí)行搜索匹配,輸出初步結(jié)構(gòu)化文檔型數(shù)據(jù);
人工輔助修正:用戶根據(jù)預(yù)定義結(jié)構(gòu)搜索匹配后提示的錯誤信息,對所述初步結(jié)構(gòu)化文檔型數(shù)據(jù)中結(jié)構(gòu)的各層級以及內(nèi)容分別進行人工修正,輸出完整的結(jié)構(gòu)化文檔型數(shù)據(jù)。
2.如權(quán)利要求1中所述的Word文檔的轉(zhuǎn)換方法,其特征在于,Word文檔Html化,包括以下步驟:
通過Office自動化工程,將所述Word文檔中的所有文本轉(zhuǎn)化為Html標簽語言文本;
將所述Word文檔中的所有非文本資源轉(zhuǎn)化為Base64編碼的文本字符;
將所述Html標簽語言文本和所述Base64編碼的文本字符存入Html中。
3.如權(quán)利要求2中所述的Word文檔的轉(zhuǎn)換方法,其特征在于,所述非文本資源包括所述Word文檔中內(nèi)嵌圖片和對象。
4.如權(quán)利要求1中所述的Word文檔的轉(zhuǎn)換方法,其特征在于,所述預(yù)定義結(jié)構(gòu)的結(jié)構(gòu)之間設(shè)有嵌套關(guān)系,所述搜索匹配包括遞歸搜索匹配。
5.如權(quán)利要求1中所述的Word文檔的轉(zhuǎn)換方法,其特征在于,所述人工修正的操作包括:對所述初步結(jié)構(gòu)化文檔型數(shù)據(jù)中結(jié)構(gòu)的各層級進行增加、刪除以及移位;對所述初步結(jié)構(gòu)化文檔型數(shù)據(jù)中結(jié)構(gòu)的內(nèi)容進行增加、刪除以及修改。
6.如權(quán)利要求5所述的Word文檔的轉(zhuǎn)換方法,其特征在于,所述人工修正的操作還包括:
預(yù)定義結(jié)構(gòu)的更新:對所述初步結(jié)構(gòu)化文檔型數(shù)據(jù)中結(jié)構(gòu)的內(nèi)容進行增加、刪除以及修改后,對結(jié)構(gòu)的各層級添加自定義信息。
7.如權(quán)利要求1中所述的Word文檔的轉(zhuǎn)換方法,其特征在于,所述完整的結(jié)構(gòu)化文檔型數(shù)據(jù)包括結(jié)構(gòu)化文檔型數(shù)據(jù)Xml和Json。
8.一種應(yīng)用如權(quán)利要求1-7中任一項所述的Word文檔轉(zhuǎn)換方法進行轉(zhuǎn)換的系統(tǒng),其特征在于,其包括:
本地程序端,其用于接收所述瀏覽器端請求,選擇Word文檔并對Word文檔的全文進行Html標簽語言文本化,輸出Html標簽語言文本;
瀏覽器端,其用于響應(yīng)所述本地程序端的Ajax請求,設(shè)置預(yù)定義結(jié)構(gòu)及其更新、執(zhí)行搜索匹配以及實施人工輔助修正,輸出完整的結(jié)構(gòu)化文檔型數(shù)據(jù);以及,
服務(wù)器端,其用于接收所述瀏覽器端輸出的完整的結(jié)構(gòu)化文檔型數(shù)據(jù)并存儲。