流式電子書產(chǎn)生的方法及網(wǎng)站系統(tǒng)的制作方法【
技術(shù)領(lǐng)域:
】[0001]本發(fā)明關(guān)于一種電子書產(chǎn)生方法,特別是一種流式電子書產(chǎn)生方法及產(chǎn)生流式電子書的網(wǎng)站系統(tǒng)?!?br>背景技術(shù):
】[0002]隨著科技的進步,手持顯示裝置(如平板電腦、手機)已普及于人們的生活周遭。人們常使用此等手持顯示裝置瀏覽網(wǎng)頁、閱讀電子書。因此,數(shù)字書籍的需求量大增,使得出版社開始考慮在出版?zhèn)鹘y(tǒng)紙本書籍之外,亦可踏入數(shù)字出版之門。[0003]然而,常見將紙本書籍轉(zhuǎn)換為電子書文件的作法是直接使用印刷前的非結(jié)構(gòu)化(Unstructured)文件(如PDF文檔)。然而,此種文件雖已可將書籍內(nèi)容呈現(xiàn)在手持顯示裝置上,但對閱讀者而言,如對書頁上的特定內(nèi)容想要看的更仔細時(特別是使用如手機等熒幕較小的裝置),僅能將書頁放大(ZoomIn),當(dāng)又要瀏覽其他部分的內(nèi)容時,又需要拖曳至該區(qū)域,相當(dāng)不便。[0004]而,部分廠商會對非結(jié)構(gòu)化文件做進一步處理。采用現(xiàn)有轉(zhuǎn)檔系統(tǒng)將非結(jié)構(gòu)化文件轉(zhuǎn)換成結(jié)構(gòu)化的流式文件(如html文檔),但現(xiàn)有轉(zhuǎn)檔系統(tǒng)無法正確的轉(zhuǎn)換,導(dǎo)致轉(zhuǎn)時換后的文件大都無法采用,因此,廠商需耗費龐大的人力手動獲取出書頁上的文字與圖案。接著,又需要將截取出的文字與圖案重新進行排版,耗費龐大的人力?!?br/>發(fā)明內(nèi)容】[0005]鑒于以上的問題,本發(fā)明在于提供一種流式(reflowcontent)電子書產(chǎn)生方法及產(chǎn)生流式電子書的網(wǎng)站系統(tǒng),藉以解決先前技術(shù)所存在紙本書籍轉(zhuǎn)換成數(shù)字書籍時排版需耗費大量人力及文字校對不易的問題。[0006]本發(fā)明的一實施例提供一種流式電子書產(chǎn)生方法,包含下列步驟:[0007]首先,接收一數(shù)字文件,其中數(shù)字文件包含至少一書頁內(nèi)容。接著,識別書頁內(nèi)容上的至少一原始段落的多數(shù)文字,其中多數(shù)文字沿一書寫方向排列為多數(shù)行。再,識別多數(shù)行的排列樣式,以根據(jù)排列樣式,串接多數(shù)行的多數(shù)文字為至少一流式段落并計算對應(yīng)各流式段落的一辨識信心值。又,顯示流式段落的多數(shù)文字于一編輯界面,并根據(jù)一門檻值,標(biāo)記辨識信心值低于門檻值的流式段落。于是,用戶可于編輯界面中確認或修改經(jīng)標(biāo)記的流式段落。最后,儲存所有流式段落為一流式電子書文件。通過上述的步驟,可簡易的將非結(jié)構(gòu)化的書籍文件轉(zhuǎn)換成流式電子書文件,并且可供用戶通過編輯界面快速檢閱可能發(fā)生辨識錯誤的地方。[0008]在此,編輯界面可具有對應(yīng)多數(shù)顯示裝置的裝置選項,以供用戶選擇顯示多數(shù)顯示裝置中的一者所顯示的段落的畫面,其中顯示裝置的顯示畫面尺寸不同。藉此,用戶可在編輯界面上編輯流式段落,且在編輯界面所看到的內(nèi)容即為對應(yīng)顯示裝置所能看到的編排內(nèi)容。[0009]在一實施例中,識別書頁內(nèi)容上的多數(shù)文字的步驟可包括識別每一書頁內(nèi)容中的多數(shù)文字并統(tǒng)計其二維坐標(biāo),其中二維坐標(biāo)包含橫坐標(biāo)及縱坐標(biāo);根據(jù)多數(shù)文字的縱坐標(biāo)的多數(shù)者決定上下邊界,并根據(jù)多數(shù)文字的橫坐標(biāo)的多數(shù)者決定左右邊界;及定義各書頁內(nèi)容中,位于上下邊界與左右邊界內(nèi)的多數(shù)文字為一內(nèi)文。藉此,可排除書頁中的頁碼、章節(jié)名稱、注解等非本文的內(nèi)容,以降低辨識錯誤的機率。[0010]在一實施例中,排列樣式包含字型、文字大小、縮排距離、文字間距及行距。例如,可先偵測原始段落的縮排距離,再根據(jù)原始段落的縮排距離,排列對應(yīng)的內(nèi)文的流式段落。藉此,可提高將原始段落轉(zhuǎn)換成流式段落的正確率。[0011]在一些實施例中,前述流式電子書產(chǎn)生方法還可包括一非文字區(qū)塊識別步驟,先識別一圖片或一表格為一非文字區(qū)塊,再識別每一該非文字區(qū)塊的一間距,最后將間距小于一預(yù)定值的非文字區(qū)塊合并。藉此,可將零碎的圖表整合為一圖片,以避免零碎的圖表被誤認為文字段落,造成辨識錯誤。[0012]本發(fā)明的另一實施例提供一種產(chǎn)生流式電子書的網(wǎng)站系統(tǒng),包括網(wǎng)絡(luò)接收模塊、影像識別模塊以及網(wǎng)站界面模塊。[0013]網(wǎng)絡(luò)接收模塊接收用戶上傳的數(shù)字文件,其中該數(shù)字文件包含至少一書頁內(nèi)容。影像識別模塊識別書頁內(nèi)容上的多數(shù)文字,其中多數(shù)文字沿一書寫方向排列為多數(shù)行,并識別多數(shù)行的排列樣式,以根據(jù)排列樣式串接多數(shù)行的多數(shù)文字為至少一流式段落并計算對應(yīng)各流式段落的一辨識信心值。網(wǎng)站界面模塊包含一編輯界面,以顯示流式段落的多數(shù)文字,并根據(jù)一門檻值,標(biāo)記辨識信心值低于門檻值的流式段落。藉此,用戶可通過編輯界面快速檢閱可能發(fā)生辨識錯誤的地方。[0014]在一實施例中,編輯界面可具有并列的第一瀏覽視窗及第二瀏覽視窗。第一瀏覽視窗顯示書頁內(nèi)容,第二瀏覽視窗顯示對應(yīng)的經(jīng)識別的流式段落。藉此,用戶可方便的對照原始段落與流式段落。[0015]在一實施例中,編輯界面還包括對應(yīng)多數(shù)顯示裝置的裝置選項及一編輯工具組合。裝置選項供用戶選擇顯示對應(yīng)多數(shù)顯示裝置中的一者所顯示流式段落的畫面于第二瀏覽視窗。其中,多數(shù)顯示裝置的顯示畫面尺寸不同,編輯工具組合供編輯第二瀏覽視窗內(nèi)顯示的流式段落。藉此,用戶可查看電子書在不同顯示裝置上顯示的畫面,并可立即的編輯。[0016]在一實施例中,編輯界面還包括一儲存按鍵,以儲存所有經(jīng)識別的流式段落為一流式電子書文件。[0017]在一實施例中,編輯界面更包括一跳躍按鍵,以依序顯示經(jīng)標(biāo)記的流式段落于第二瀏覽視窗。[0018]根據(jù)本發(fā)明的流式電子書產(chǎn)生方法及產(chǎn)生流式電子書的網(wǎng)站系統(tǒng),可供用戶快速檢閱可能發(fā)生辨識錯誤的地方,并立即編修存檔。并且,所產(chǎn)生的流式電子書,可較彈性的顯示于具有不同熒幕尺寸的顯示裝置。同時,通過本發(fā)明所采用的段落辨識步驟,可減少辨識錯誤的機率。【附圖說明】[0019]圖1為本發(fā)明一實施例的流式電子書產(chǎn)生方法流程圖。[0020]圖2為本發(fā)明一實施例的流式電子書產(chǎn)生方法的步驟S200流程圖。[0021]圖3為本發(fā)明一實施例的流式電子書產(chǎn)生方法的步驟S400流程圖。[0022]圖4為本發(fā)明一實施例的書頁內(nèi)容示意圖。[0023]圖5為本發(fā)明一實施例的編輯界面的視窗示意圖。[0024]圖6為本發(fā)明一實施例的網(wǎng)站系統(tǒng)的方塊示意圖。[0025]【符號說明】[0026]901:內(nèi)文[0027]902:章節(jié)[0028]903:頁碼[0029]904:注解[0030]905:上邊界[0031]906:下邊界[0032]907:左邊界[0033]908:右邊界[0034]910:編輯界面[0035]911:第一瀏覽視窗[0036]912:第二瀏覽視窗[0037]913:原始段落[0038]914:流式段落[0039]915:放大鍵[0040]916:縮小鍵[0041]917:裝置選擇鍵[0042]918:標(biāo)記段落選擇鍵[0043]919:翻頁選擇鍵[0044]920:編輯工具列[0045]921:儲存鍵[0046]930:網(wǎng)站系統(tǒng)[0047]931:網(wǎng)絡(luò)接收模塊[0048]932:影像識別模塊[0049]933:網(wǎng)站界面模塊[0050]940:用戶裝置[0051]D1、D5:縮排距離[0052]D2:文字間距[0053]D3、D4:行距【具體實施方式】[0054]請參照圖1,為本發(fā)明一實施例的流式電子書產(chǎn)生方法流程圖。流式電子書產(chǎn)生方法包含下列步驟,可經(jīng)由一網(wǎng)站系統(tǒng)實現(xiàn),此網(wǎng)站系統(tǒng)將于后詳述,于此將先說明流式電子書廣生方法的流程。[0055]步驟SlOO:網(wǎng)站系統(tǒng)接收由用戶上傳的一數(shù)字文件,數(shù)字文件包含至少一書頁內(nèi)容。在此,數(shù)字文件的文件格式可為奧多比系統(tǒng)(AdobeSystems)公司所開發(fā)的便攜式文件格式(I3DF,PortableDocumentFormat)。特別需說明的是,PDF文件可以是由Word文件或任何其他排版軟件文件轉(zhuǎn)檔而成的PDF文件,亦可為掃描圖檔經(jīng)OCR(OpticalCharacterRecognit1n,光學(xué)文字辨識)程序后所產(chǎn)生的PDF文件。[0056]步驟S200:識別書頁內(nèi)容上的原始段落的多數(shù)文字,其中文字沿一書寫方向排列為多數(shù)行。在此,書寫方向一般可為直式書寫方向或橫式書寫方向,但本發(fā)明非以此為限。[0057]參照圖2,為本發(fā)明一實施例的流式電子書產(chǎn)生方法的步驟S200流程圖。首先,于步驟S201,識別每一書頁內(nèi)容中的多數(shù)文字并統(tǒng)計其二維坐標(biāo),其中二維坐標(biāo)包含一橫坐標(biāo)及一縱坐標(biāo)。接著,于步驟S202,根據(jù)多數(shù)文字的縱坐標(biāo)的多數(shù)者決定上下邊界,并根據(jù)多數(shù)文字的橫坐標(biāo)的多數(shù)者決定左右邊界。最后于步驟S203中,定義各書頁內(nèi)容中,位于上下邊界與左右邊界內(nèi)的多數(shù)文字為一內(nèi)文901(如圖4所示)。[0058]請參見圖4,為本發(fā)明一實施例的書頁內(nèi)容示意圖,在此以直式書寫方向為例。書頁中可包含內(nèi)文901、位于內(nèi)文901上方的章節(jié)902、位于內(nèi)文901下方的頁碼903及位于內(nèi)文901左方的注解904等內(nèi)容。對于每一書頁進行統(tǒng)計后,內(nèi)文901中每一行的首字及末字的縱坐標(biāo)會是最頻繁出現(xiàn)的坐標(biāo)值,而內(nèi)文901中第一行的每一字的橫坐標(biāo)及最后一行的每一字的橫坐標(biāo)會是最頻繁出現(xiàn)的坐標(biāo)值。因此,可據(jù)以找出上邊界905、下邊界906、左邊界907及右邊界908。另一方面,由于注解904為偶然出現(xiàn)的內(nèi)容,因此不會影響邊界的判斷。[0059]在此,每頁書頁的內(nèi)文901多數(shù)會在同一區(qū)域范圍內(nèi),且其字型、文字大小等態(tài)樣(如粗體、斜體)會與內(nèi)文901范圍外的文字不盡相同,亦可利用來輔助判斷邊界是否判定錯誤。[0060]復(fù)參照圖1,步驟S300:識別該多數(shù)行的一排列樣式。在此,排列樣式可包含但不限于字型、文字大小、縮排距離Dl、D5、文字間距D2及行距D3、D4(如圖4所示)。[0061]接著,于步驟S400中,根據(jù)排列樣式,串接多數(shù)行的多數(shù)文字為至少一流式段落并計算對應(yīng)各流式段落的一辨識信心值。[0062]請參照圖3,為本發(fā)明一實施例的流式電子書產(chǎn)生方法的步驟S400流程圖。為了識別出各原始段落包含哪些行,可先偵測原始段落的當(dāng)前第1頁1 2