欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

Word文檔的轉(zhuǎn)換方法及系統(tǒng)與流程

文檔序號(hào):12550835閱讀:968來(lái)源:國(guó)知局
Word文檔的轉(zhuǎn)換方法及系統(tǒng)與流程

本發(fā)明涉及Word文檔轉(zhuǎn)換技術(shù)領(lǐng)域,更具體地說(shuō),本發(fā)明涉及一種Word文檔的轉(zhuǎn)換方法及系統(tǒng)。



背景技術(shù):

Word文檔是目前最為流行的電子文檔工具。現(xiàn)有技術(shù)通常涉及結(jié)構(gòu)化文檔型數(shù)據(jù)(如xml、json等)轉(zhuǎn)為Word文檔或基于Word文檔的信息提取技術(shù)。

但是,Word本身是二進(jìn)制文件,計(jì)算機(jī)無(wú)法直接使用文本檢索的方式對(duì)其數(shù)據(jù)進(jìn)行訪問(wèn)。目前的Word文檔信息提取技術(shù),用于解決該問(wèn)題,也僅僅只針對(duì)標(biāo)的內(nèi)容進(jìn)行檢索和提取,無(wú)法實(shí)現(xiàn)對(duì)Word文檔原有自然語(yǔ)言組織結(jié)構(gòu)的內(nèi)容以及基于結(jié)構(gòu)化文檔型數(shù)據(jù)的完全重現(xiàn)。



技術(shù)實(shí)現(xiàn)要素:

針對(duì)上述技術(shù)中存在的不足之處,本發(fā)明提供一種Word文檔的轉(zhuǎn)換方法及系統(tǒng),通過(guò)對(duì)Word文檔Html化、預(yù)定義結(jié)構(gòu)搜索匹配以及人工輔助修正的方法,將Word文檔中以自然語(yǔ)言組織的內(nèi)容轉(zhuǎn)為以計(jì)算機(jī)語(yǔ)言組織的結(jié)構(gòu)化文檔型數(shù)據(jù)存儲(chǔ),供內(nèi)容數(shù)據(jù)的便利存儲(chǔ)、查詢以及分析。

為了實(shí)現(xiàn)根據(jù)本發(fā)明的這些目的和其它優(yōu)點(diǎn),本發(fā)明通過(guò)以下技術(shù)方案實(shí)現(xiàn):

本發(fā)明提供一種WORD文檔的轉(zhuǎn)換方法,其包括以下步驟:

Word文檔Html化:對(duì)Word文檔的全文進(jìn)行Html標(biāo)簽語(yǔ)言文本化,輸出Html標(biāo)簽語(yǔ)言文本;

預(yù)定義結(jié)構(gòu)搜索匹配:設(shè)置具有正則表達(dá)式的預(yù)定義結(jié)構(gòu),通過(guò)所述預(yù)定義結(jié)構(gòu)對(duì)Html標(biāo)簽語(yǔ)言文本執(zhí)行搜索匹配,輸出初步結(jié)構(gòu)化文檔型數(shù)據(jù);

人工輔助修正:用戶根據(jù)預(yù)定義結(jié)構(gòu)搜索匹配后提示的錯(cuò)誤信息,對(duì)所述初步結(jié)構(gòu)化文檔型數(shù)據(jù)中結(jié)構(gòu)的各層級(jí)以及內(nèi)容分別進(jìn)行人工修正,輸出完整的結(jié)構(gòu)化文檔型數(shù)據(jù)。

優(yōu)選的是,Word文檔Html化,包括以下步驟:

通過(guò)Office自動(dòng)化工程,將所述Word文檔中的所有文本轉(zhuǎn)化為Html標(biāo)簽語(yǔ)言文本;

將所述Word文檔中的所有非文本資源轉(zhuǎn)化為Base64編碼的文本字符;

將所述Html標(biāo)簽語(yǔ)言文本和所述Base64編碼的文本字符存入Html中。

優(yōu)選的是,所述非文本資源包括所述Word文檔中內(nèi)嵌圖片和對(duì)象。

優(yōu)選的是,所述預(yù)定義結(jié)構(gòu)的結(jié)構(gòu)之間設(shè)有嵌套關(guān)系,所述搜索匹配包括遞歸搜索匹配。

優(yōu)選的是,所述人工修正的操作包括:對(duì)所述初步結(jié)構(gòu)化文檔型數(shù)據(jù)中結(jié)構(gòu)的各層級(jí)進(jìn)行增加、刪除以及移位;對(duì)所述初步結(jié)構(gòu)化文檔型數(shù)據(jù)中結(jié)構(gòu)的內(nèi)容進(jìn)行增加、刪除以及修改。

優(yōu)選的是,所述人工修正的操作還包括:

預(yù)定義結(jié)構(gòu)的更新:對(duì)所述初步結(jié)構(gòu)化文檔型數(shù)據(jù)中結(jié)構(gòu)的內(nèi)容進(jìn)行增加、刪除以及修改后,對(duì)結(jié)構(gòu)的各層級(jí)添加自定義信息。

優(yōu)選的是,所述完整的結(jié)構(gòu)化文檔型數(shù)據(jù)包括結(jié)構(gòu)化文檔型數(shù)據(jù)Xml和Json。

一種Word文檔轉(zhuǎn)換系統(tǒng),其包括:

本地程序端,其用于接收所述瀏覽器端請(qǐng)求,選擇Word文檔并對(duì)Word文檔的全文進(jìn)行Html標(biāo)簽語(yǔ)言文本化,輸出Html標(biāo)簽語(yǔ)言文本;

瀏覽器端,其用于響應(yīng)所述本地程序端的Ajax請(qǐng)求,設(shè)置預(yù)定義結(jié)構(gòu)及其更新、執(zhí)行搜索匹配以及實(shí)施人工輔助修正,輸出完整的結(jié)構(gòu)化文檔型數(shù)據(jù);以及,

服務(wù)器端,其用于接收瀏覽器端輸出的完整的結(jié)構(gòu)化文檔型數(shù)據(jù)并存儲(chǔ)。

本發(fā)明至少包括以下有益效果:

1)本發(fā)明提供的Word文檔的轉(zhuǎn)換方法,通過(guò)對(duì)Word文檔Html化、預(yù)定義結(jié)構(gòu)搜索匹配以及人工輔助修正的方法,將Word文檔中以自然語(yǔ)言組織的內(nèi)容轉(zhuǎn)為以計(jì)算機(jī)語(yǔ)言組織的結(jié)構(gòu)化文檔型數(shù)據(jù)存儲(chǔ),供內(nèi)容數(shù)據(jù)的便利存儲(chǔ)、查詢以及分析;

2)預(yù)定義結(jié)構(gòu)的結(jié)構(gòu)之間設(shè)有嵌套關(guān)系,則搜索匹配包括遞歸搜索匹配,促使輸出的結(jié)構(gòu)化文檔型數(shù)據(jù)完整、結(jié)構(gòu)化文檔型數(shù)據(jù)之間存在相互關(guān)聯(lián),對(duì)Word文檔原有自然語(yǔ)言組織結(jié)構(gòu)的內(nèi)容實(shí)現(xiàn)基于結(jié)構(gòu)化文檔型數(shù)據(jù)的完全重現(xiàn);

3)對(duì)初步結(jié)構(gòu)化文檔型數(shù)據(jù)中結(jié)構(gòu)的各層級(jí)和內(nèi)容分別進(jìn)行人工修正、預(yù)定義結(jié)構(gòu)的更新,分別用于提高輸出完整的結(jié)構(gòu)化文檔型數(shù)據(jù)的精確性。

本發(fā)明的其它優(yōu)點(diǎn)、目標(biāo)和特征將部分通過(guò)下面的說(shuō)明體現(xiàn),部分還將通過(guò)對(duì)本發(fā)明的研究和實(shí)踐而為本領(lǐng)域的技術(shù)人員所理解。

附圖說(shuō)明

圖1為本發(fā)明所述的Word文檔的轉(zhuǎn)換方法的流程圖;

圖2為本發(fā)明所述的Word文檔Html化的方法流程圖;

圖3為本發(fā)明所述的Word文檔的轉(zhuǎn)換系統(tǒng)的示意圖。

具體實(shí)施方式

下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步的詳細(xì)說(shuō)明,以令本領(lǐng)域技術(shù)人員參照說(shuō)明書(shū)文字能夠據(jù)以實(shí)施。

應(yīng)當(dāng)理解,本文所使用的諸如“具有”、“包含”以及“包括”術(shù)語(yǔ)并不排除一個(gè)或多個(gè)其它元件或其組合的存在或添加。

實(shí)施例1

如圖1所示,本發(fā)明提供一種Word文檔的轉(zhuǎn)換方法,其包括步驟:

S10,Word文檔Html化:對(duì)Word文檔的全文進(jìn)行Html標(biāo)簽語(yǔ)言文本化,輸出Html標(biāo)簽語(yǔ)言文本。

S20,預(yù)定義結(jié)構(gòu)搜索匹配:設(shè)置具有正則表達(dá)式的預(yù)定義結(jié)構(gòu),通過(guò)預(yù)定義結(jié)構(gòu)對(duì)Html標(biāo)簽語(yǔ)言文本執(zhí)行搜索匹配,輸出初步結(jié)構(gòu)化文檔型數(shù)據(jù)。

S30,人工輔助修正:用戶根據(jù)預(yù)定義結(jié)構(gòu)搜索匹配后提示的錯(cuò)誤信息,對(duì)初步結(jié)構(gòu)化文檔型數(shù)據(jù)中結(jié)構(gòu)的各層級(jí)以及內(nèi)容分別進(jìn)行人工修正,輸出完整的結(jié)構(gòu)化文檔型數(shù)據(jù)。

上述實(shí)施方式中,步驟S10中,Word文檔Html化,如圖2所示,包括以下步驟:

S11,通過(guò)Office自動(dòng)化工程,將Word文檔中的所有文本轉(zhuǎn)化為Html標(biāo)簽語(yǔ)言文本;

S12,將Word文檔中的所有非文本資源轉(zhuǎn)化為Base64編碼的文本字符;非文本資源包括Word文檔中內(nèi)嵌圖片和對(duì)象;

S13,將Html標(biāo)簽語(yǔ)言文本和Base64編碼的文本字符存入Html中。

以將一個(gè)試卷的Word文檔Html化為例進(jìn)行說(shuō)明,Word文檔Html化,指的是,一方面,將該試卷的Word文檔中所有的文本通過(guò)Office自動(dòng)化工程轉(zhuǎn)化為Html標(biāo)簽語(yǔ)言文本;另一方面,將該試卷的Word文檔中所有內(nèi)嵌的圖片和公式對(duì)象等非文本資源轉(zhuǎn)為Base64編碼,存于Html中,無(wú)需引用其他的文件。

上述實(shí)施方式中,步驟S20中,用戶可以通過(guò)設(shè)置的具有正則表達(dá)式的預(yù)定義結(jié)構(gòu)對(duì)Html標(biāo)簽語(yǔ)言文本執(zhí)行搜索匹配。預(yù)定義結(jié)構(gòu)的結(jié)構(gòu)之間設(shè)有嵌套關(guān)系,則通過(guò)正則表達(dá)式執(zhí)行搜索匹配時(shí),會(huì)根據(jù)結(jié)構(gòu)之間嵌套關(guān)系進(jìn)行遞歸搜索匹配,以逐層嵌套結(jié)構(gòu)呈現(xiàn)給用戶,并復(fù)現(xiàn)內(nèi)容中的資源文件,從而促使輸出的結(jié)構(gòu)化文檔型數(shù)據(jù)完整、且結(jié)構(gòu)化文檔型數(shù)據(jù)之間存在相互關(guān)聯(lián),對(duì)Word文檔原有自然語(yǔ)言組織結(jié)構(gòu)的內(nèi)容實(shí)現(xiàn)基于結(jié)構(gòu)化文檔型數(shù)據(jù)的完全重現(xiàn)。以試卷的Word文檔為例進(jìn)行說(shuō)明:對(duì)于試卷,用戶可以根據(jù)學(xué)科、年級(jí)的不同,預(yù)定義不同的大題(區(qū)域,子區(qū)域)、題目、小題、題目組等結(jié)構(gòu)的內(nèi)容組成信息,然后,用戶將上述結(jié)構(gòu)的內(nèi)容組成信息轉(zhuǎn)為對(duì)應(yīng)的正則表達(dá)式用于執(zhí)行搜索匹配,則搜索匹配時(shí),試卷結(jié)構(gòu)嵌套關(guān)系如下所示:

區(qū)域:

子區(qū)域

題目組

題目

子區(qū)域

題目組

題目

題目組

題目

題目

子題目

上述實(shí)施方式中,步驟S30中,人工修正的操作包括:對(duì)初步結(jié)構(gòu)化文檔型數(shù)據(jù)中結(jié)構(gòu)的各層級(jí)進(jìn)行增加、刪除以及移位;對(duì)初步結(jié)構(gòu)化文檔型數(shù)據(jù)中結(jié)構(gòu)的內(nèi)容進(jìn)行增加、刪除以及修改。作為優(yōu)選,完整的結(jié)構(gòu)化文檔型數(shù)據(jù)包括結(jié)構(gòu)化文檔型數(shù)據(jù)Xml和Json。以試卷的Word文檔為例進(jìn)行說(shuō)明:用戶可以針對(duì)試卷的各個(gè)結(jié)構(gòu)進(jìn)行增加、刪除、移動(dòng)等操作,也可以對(duì)結(jié)構(gòu)中的內(nèi)容進(jìn)行操作,如對(duì)題目的題干部分的文字和圖片進(jìn)行增加、刪除以及修改等操作。設(shè)置人工修正程序,用于完善初步結(jié)構(gòu)化文檔型數(shù)據(jù)中結(jié)構(gòu)的層級(jí)和內(nèi)容,以輸出準(zhǔn)確、完整的結(jié)構(gòu)化文檔型數(shù)據(jù)。作為該實(shí)施方式的進(jìn)一步優(yōu)選,人工修正的操作還包括:預(yù)定義結(jié)構(gòu)的更新:對(duì)初步結(jié)構(gòu)化文檔型數(shù)據(jù)中結(jié)構(gòu)的內(nèi)容進(jìn)行增加、刪除以及修改后,對(duì)結(jié)構(gòu)的各層級(jí)添加自定義信息。以試卷的Word文檔為例進(jìn)行說(shuō)明:可以在設(shè)置的預(yù)定義結(jié)構(gòu)中,添加自定義的信息,如對(duì)題目設(shè)置題型、正確答案分值等信息。預(yù)定義結(jié)構(gòu)的更新,提高輸出完整的結(jié)構(gòu)化文檔型數(shù)據(jù)的精確性。

需要說(shuō)明的是,相對(duì)于現(xiàn)有技術(shù)中數(shù)據(jù)重用時(shí)信息提取的零碎、無(wú)關(guān)聯(lián),例如針對(duì)試卷的Word文檔提取,提取的結(jié)果很可能是一道道毫無(wú)關(guān)聯(lián)的題目,在數(shù)據(jù)重用時(shí),也只能以題目為單位,因?yàn)闊o(wú)法得知該題目屬于哪個(gè)大題,也無(wú)法得出該題目與哪些題目有共用的上下文,也無(wú)法直接獲知該題目之中有哪些小題。而使用本發(fā)明提供的Word文檔轉(zhuǎn)換方法,所有原有的試卷層次結(jié)構(gòu)關(guān)系將一目了然,可以任意訪問(wèn)其中的題目,大題,小題,題目組等結(jié)構(gòu)并重用,也能獲知它們之間的關(guān)系。另外,相對(duì)于現(xiàn)有技術(shù)中數(shù)據(jù)分析時(shí)得到的局限的、不完整的結(jié)果,例如針對(duì)試卷的Word文檔提取后的數(shù)據(jù)分析,對(duì)于老師來(lái)說(shuō),不僅僅是每個(gè)題目的分析,還涉及到題型的分布和安排、難易度題目的排布順序等等,乃至于歷年試卷的一個(gè)縱向比較,或者與其他科目試卷的橫向比較,現(xiàn)有技術(shù)中數(shù)據(jù)分析的結(jié)果得不到一個(gè)完整的試卷結(jié)構(gòu),而通過(guò)本發(fā)明提供的Word文檔轉(zhuǎn)換方法,可以得到試卷層次結(jié)構(gòu)并保存,便于老師進(jìn)行各種指標(biāo)的分析。因此,本發(fā)明提供的Word文檔轉(zhuǎn)換方法,通過(guò)對(duì)Word文檔Html化、預(yù)定義結(jié)構(gòu)搜索匹配以及人工輔助修正的方法,將Word文檔中以自然語(yǔ)言組織的內(nèi)容轉(zhuǎn)為以計(jì)算機(jī)語(yǔ)言組織的結(jié)構(gòu)化文檔型數(shù)據(jù)存儲(chǔ),具有供內(nèi)容數(shù)據(jù)的便利存儲(chǔ)、查詢以及分析的優(yōu)點(diǎn)。

實(shí)施例2

在實(shí)施例1提供的Word文檔轉(zhuǎn)換方法的基礎(chǔ)上,本發(fā)明提供一種Word文檔轉(zhuǎn)換系統(tǒng),如圖3所示,其包括本地程序端10、瀏覽器端20以及服務(wù)器端30。本地程序端10用于接收所述瀏覽器端請(qǐng)求,選擇Word文檔并對(duì)Word文檔的全文進(jìn)行Html標(biāo)簽語(yǔ)言文本化,輸出Html標(biāo)簽語(yǔ)言文本。瀏覽器端20用于響應(yīng)本地程序端的Ajax請(qǐng)求,設(shè)置預(yù)定義結(jié)構(gòu)及其更新、執(zhí)行搜索匹配以及實(shí)施人工輔助修正,輸出完整的結(jié)構(gòu)化文檔型數(shù)據(jù)。服務(wù)器端30用于接收瀏覽器端輸出的完整的結(jié)構(gòu)化文檔型數(shù)據(jù)并存儲(chǔ)。

上述實(shí)施方式中,本地程序端10接收瀏覽器端20的Ajax請(qǐng)求后,完成Word文檔的選擇和并對(duì)Word文檔的全文進(jìn)行Html標(biāo)簽語(yǔ)言文本化,輸出Html標(biāo)簽語(yǔ)言文本。至于預(yù)定義結(jié)構(gòu)搜索匹配以及人工輔助修正均是通過(guò)瀏覽器端20來(lái)完成,即瀏覽器端20響應(yīng)本地程序端10的Ajax請(qǐng)求,設(shè)置預(yù)定義結(jié)構(gòu)及其更新、執(zhí)行搜索匹配以及實(shí)施人工輔助修正,以輸出完整的結(jié)構(gòu)化文檔型數(shù)據(jù)。服務(wù)器端30主要用于存儲(chǔ)完整的結(jié)構(gòu)化文檔型數(shù)據(jù),供后續(xù)的查詢與分析。

本發(fā)明提供的Word文檔轉(zhuǎn)換系統(tǒng),可以實(shí)現(xiàn)對(duì)Word文檔Html化、預(yù)定義結(jié)構(gòu)搜索匹配以及人工輔助修正,從而將Word文檔中以自然語(yǔ)言組織的內(nèi)容轉(zhuǎn)為以計(jì)算機(jī)語(yǔ)言組織的結(jié)構(gòu)化文檔型數(shù)據(jù)存儲(chǔ),供內(nèi)容數(shù)據(jù)的便利存儲(chǔ)、查詢以及分析。

盡管本發(fā)明的實(shí)施方案已公開(kāi)如上,但其并不僅僅限于說(shuō)明書(shū)和實(shí)施方式中所列運(yùn)用。它完全可以被適用于各種適合本發(fā)明的領(lǐng)域。對(duì)于熟悉本領(lǐng)域的人員而言可容易地實(shí)現(xiàn)另外的修改。因此在不背離權(quán)利要求及等同范圍所限定的一般概念下,本發(fā)明并不限于特定的細(xì)節(jié)和這里示出與描述的圖例。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
班玛县| 永昌县| 静海县| 信阳市| 库车县| 简阳市| 永登县| 南郑县| 茌平县| 龙川县| 乌鲁木齐县| 南昌市| 黑河市| 麻江县| 翼城县| 波密县| 海宁市| 绩溪县| 密云县| 原阳县| 永川市| 龙胜| 吴川市| 阿勒泰市| 图木舒克市| 精河县| 东阳市| 寻甸| 诸暨市| 石棉县| 安远县| 长海县| 抚宁县| 太仓市| 大兴区| 灵寿县| 成都市| 阳高县| 安西县| 凤翔县| 乌什县|