自動(dòng)切割章節(jié)方法
【專利摘要】本發(fā)明公開(kāi)一種自動(dòng)切割章節(jié)方法,其適用于一數(shù)碼文章,先識(shí)別數(shù)碼文章的數(shù)個(gè)段落的樣式組合。接著,計(jì)算每一不同的樣式組合的段落的一個(gè)或一個(gè)以上的段落特征,段落特征可為段落分散度、字號(hào)大小、平均字?jǐn)?shù)、平均段落間距或其任意組合。再根據(jù)每一段落特征,分別排名樣式組合。續(xù)而可分別根據(jù)各樣式組合對(duì)應(yīng)每一段落特征的排名,計(jì)算一加權(quán)平均值。再選取加權(quán)平均值排名第一者的段落為數(shù)個(gè)候選章節(jié)段落。最后根據(jù)候選章節(jié)段落切割數(shù)碼文章為數(shù)個(gè)章節(jié)。
【專利說(shuō)明】
自動(dòng)切割章節(jié)方法
技術(shù)領(lǐng)域
[0001]本發(fā)明是有關(guān)于一種切割章節(jié)方法,特別是一種適用于數(shù)碼文章的自動(dòng)切割章節(jié)方法。
【背景技術(shù)】
[0002]隨著科技的進(jìn)步,手持式顯示裝置(如平板電腦、手機(jī))已普及于人們的生活周遭。人們常使用此等手持顯示裝置瀏覽網(wǎng)頁(yè)、閱讀數(shù)碼出版的書籍。因此,數(shù)碼書籍的需求量大增,使得出版社和素人作者開(kāi)始考慮在出版?zhèn)鹘y(tǒng)紙本書籍之外,亦可踏入數(shù)碼出版之門。
[0003]為了讓讀者方便掌握書籍內(nèi)容的全貌,往往書籍編排上會(huì)設(shè)置目錄頁(yè)。雖然,目前已有許多文書編輯軟件均具有章節(jié)編輯的功能(如微軟的WORD軟件),然而不黯操作此功能的作者仍不在少數(shù)。若數(shù)碼文章未帶有章節(jié)編輯的設(shè)定,出版者或作者需要重新找出各個(gè)章節(jié)的標(biāo)題及其所在頁(yè)碼,并另行編輯目錄,將造成出版者與作者的困擾與延長(zhǎng)出版準(zhǔn)備時(shí)間。因此,若能輔助未設(shè)定章節(jié)編輯的數(shù)碼文章自動(dòng)產(chǎn)生出章節(jié)目錄,將能減縮數(shù)碼出版的準(zhǔn)備時(shí)程。
【發(fā)明內(nèi)容】
[0004]鑒于以上的問(wèn)題,本發(fā)明在于提供一種自動(dòng)切割章節(jié)方法,藉以解決先前技術(shù)所存在未帶有章節(jié)設(shè)定的數(shù)碼文章需要?jiǎng)谛膭诹χ匦戮庉嬚鹿?jié)的問(wèn)題。
[0005]本發(fā)明的一實(shí)施例提供一種自動(dòng)切割章節(jié)方法,適用于一數(shù)碼文章,先識(shí)別數(shù)碼文章的數(shù)個(gè)段落的樣式組合。接著,計(jì)算每一不同的樣式組合的段落的一個(gè)或一個(gè)以上的段落特征,段落特征可為段落分散度、字號(hào)大小、平均字?jǐn)?shù)、平均段落間距或其任意組合。再根據(jù)每一段落特征,分別排名樣式組合。續(xù)而可分別根據(jù)各樣式組合對(duì)應(yīng)每一段落特征的排名,計(jì)算一加權(quán)平均值。再選取加權(quán)平均值排名第一者的段落為數(shù)個(gè)候選章節(jié)段落。最后根據(jù)候選章節(jié)段落切割數(shù)碼文章為數(shù)個(gè)章節(jié)。于此,樣式組合可包括字號(hào)大小、加粗、傾斜、首行縮進(jìn)、對(duì)齊方式、下劃線或其任意組合。
[0006]在一實(shí)施例中,可先統(tǒng)計(jì)各樣式組合的段落的重復(fù)次數(shù),再刪除僅有一個(gè)段落的樣式組合,以及刪除具有最多數(shù)量的段落的樣式組合。甚者,還可刪除平均字?jǐn)?shù)大于一字?jǐn)?shù)門檻值的樣式組合,并刪除平均字?jǐn)?shù)小于或等于一字的樣式組合。藉此,可預(yù)先過(guò)濾不會(huì)是章節(jié)標(biāo)題的段落,以減輕后續(xù)計(jì)算段落特征的負(fù)荷。因此,前述計(jì)算每一不同的樣式組合的段落的一個(gè)或一個(gè)以上的段落特征的步驟,是以刪除后所剩余的樣式組合進(jìn)行統(tǒng)計(jì)。
[0007]在一實(shí)施例中,當(dāng)段落特征包含段落分散度時(shí),可先平均切分段落為數(shù)個(gè)群組,再計(jì)算不同的樣式組合的段落位于群組的所占比例,藉以計(jì)算出各個(gè)段落的段落分散度。
[0008]在一實(shí)施例中,根據(jù)每一種段落特征的類型,分別針對(duì)樣式組合進(jìn)行排名,具體而言,若段落特征的類型為段落分散度,則段落分散度由大到小排名;若段落特征的類型為字號(hào)大小,則字號(hào)大小由大到小排名;若段落特征的類型為平均字?jǐn)?shù),則平均字?jǐn)?shù)根據(jù)對(duì)于一預(yù)設(shè)字?jǐn)?shù)的差由小到大排名;若段落特征的類型為平均段落間距,則平均段落間距由大到小排名。
[0009]在一實(shí)施例中,于切割完章節(jié)后還可儲(chǔ)存所切割的章節(jié)為多個(gè)文件檔案。
[0010]根據(jù)本發(fā)明的自動(dòng)切割章節(jié)方法,應(yīng)用于數(shù)碼文章,可自動(dòng)識(shí)別出章節(jié)標(biāo)題在數(shù)碼文章中的位置(頁(yè)數(shù)、行數(shù)),而可據(jù)以產(chǎn)生目錄內(nèi)容。
【附圖說(shuō)明】
[0011]圖1為本發(fā)明的一實(shí)施例的自動(dòng)切割章節(jié)方法流程圖。
[0012]圖2為本發(fā)明一實(shí)施例的數(shù)碼文章的示意圖。
[0013]圖3為本發(fā)明一實(shí)施例的段落分散度示意圖。
[0014]【符號(hào)說(shuō)明】
[0015]200:數(shù)碼文章
[0016]210:章標(biāo)題
[0017]220:節(jié)標(biāo)題
[0018]230:內(nèi)文段落
[0019]SllO:識(shí)別數(shù)碼文章的數(shù)個(gè)段落的樣式組合
[0020]S120:計(jì)算每一不同的樣式組合的段落的一個(gè)或一個(gè)以上的段落特征,段落特征為段落分散度、字號(hào)大小、平均字?jǐn)?shù)、平均段落間距或其任意組合
[0021]S130:根據(jù)每一段落特征,分別排名樣式組合
[0022]S140:分別根據(jù)各樣式組合對(duì)應(yīng)每一段落特征的排名,計(jì)算一加權(quán)平均值
[0023]S150:選取加權(quán)平均值排名第一者的段落為數(shù)個(gè)候選章節(jié)段落
[0024]S160:根據(jù)候選章節(jié)段落切割數(shù)碼文章為數(shù)個(gè)章節(jié)
【具體實(shí)施方式】
[0025]請(qǐng)參閱圖1,為本發(fā)明的一實(shí)施例的自動(dòng)切割章節(jié)方法流程圖。所述自動(dòng)切割章節(jié)方法的適用對(duì)象為數(shù)碼文章。所述數(shù)碼文章即為支援樣式設(shè)定的數(shù)碼文本文件,例如 HTML (HyperText Markup Language)、微軟(Microsoft)公司的 WORD 文件、奧多比系統(tǒng)(Adobe Systems)公司的PDF文件、富文字格式文件(RTF文件)等。此些數(shù)碼文字文件可由文書軟件編輯而成,亦可由書籍掃描圖檔文件經(jīng)文字辨識(shí)(如光學(xué)字元識(shí)別技術(shù),OCR)后所生成。有關(guān)如何生成數(shù)碼文本文件,吾人已于臺(tái)灣第103116324號(hào)發(fā)明專利申請(qǐng)案「流式電子書之產(chǎn)生方法及網(wǎng)站系統(tǒng)」說(shuō)明,以下將著重于如何根據(jù)數(shù)碼文本文件的內(nèi)容自動(dòng)區(qū)分出各個(gè)章節(jié)來(lái)說(shuō)明。
[0026]圖2為本發(fā)明一實(shí)施例的數(shù)碼文章200的示意圖。如圖2所示,數(shù)碼文章200包括數(shù)個(gè)個(gè)段落,段落可為章段落210、節(jié)段落220及內(nèi)文段落230。但本發(fā)明的實(shí)施例的段落非僅以此三種段落類型為限,亦可能僅有章段落210及內(nèi)文段落230,或者具有更多種段落類型(如小節(jié)段落)。一般而言,相同的段落類型會(huì)有共同或相似的樣式組合。樣式組合可包括但不限于字號(hào)大小、加粗、傾斜、首行縮進(jìn)、對(duì)齊方式(如靠左對(duì)齊、居中對(duì)齊、靠右對(duì)齊)、下劃線或其任意組合。因此,藉由識(shí)別各段落類型的數(shù)量、字?jǐn)?shù)及分布情形,將可找出候選章節(jié)段落(意即可能為章節(jié)段落者)。在此,本說(shuō)明書文中所指的「任意組合」可為其中部分(其中一個(gè)或一個(gè)以上)或全部。以樣式組合為例,可僅為字號(hào)大小,亦可為字號(hào)大小結(jié)合其他參數(shù)(如對(duì)齊方式)。
[0027]如圖2所示,于本實(shí)施例中,章段落210為居中的加粗文字,且字號(hào)大小為18 ;節(jié)段落220為靠左的文字,字號(hào)大小為16。為了使圖式清楚呈現(xiàn),在此未繪示內(nèi)文段落230的文字內(nèi)容,僅以填滿斜線的方框表示一個(gè)內(nèi)文段落230。一個(gè)內(nèi)文段落230可包含數(shù)行文字。于此,內(nèi)文段落230為靠左且縮進(jìn)兩字的文字,且字號(hào)大小為12。
[0028]復(fù)參閱圖1,于步驟SllO中,先識(shí)別數(shù)碼文章200的數(shù)個(gè)段落的樣式組合。于是,可辨識(shí)出數(shù)碼文章200中具有前述三種段落類型。
[0029]接著,于步驟S120中,計(jì)算每一不同的樣式組合的段落的一個(gè)或一個(gè)以上的段落特征,段落特征可為段落分散度、字號(hào)大小、平均字?jǐn)?shù)、平均段落間距或其任意組合。平均字?jǐn)?shù)為同一個(gè)段落類型的段落的字?jǐn)?shù)的平均值。段落間距系指段落與其前后段落之間距;平均段落間距則為同一個(gè)段落類型的段落的所述間距的平均。段落分散度系指各個(gè)段落類型的多個(gè)段落在數(shù)碼文章200中的分散程度。一般而言,書籍的章節(jié)不會(huì)過(guò)度密集于某一區(qū)段,因此段落分散度是識(shí)別章節(jié)段落的其中一個(gè)重要指標(biāo)。
[0030]如圖3所示,為本發(fā)明一實(shí)施例的段落分散度示意圖。段落分散度的計(jì)算,是先平均切分段落為數(shù)個(gè)群組,再計(jì)算不同的樣式組合的段落位于群組的所占比例,藉以計(jì)算出各個(gè)段落的段落分散度。若將數(shù)碼文章200區(qū)分為N個(gè)等分,N為大于I的正整數(shù)。于此,數(shù)碼文章200區(qū)分為五等分(由四條鏈線所區(qū)分)??梢钥吹?,內(nèi)文段落230的分布最不平均,而節(jié)段落220的分布最為平均,章段落210則次之。因此,通過(guò)段落分散度,可優(yōu)先排除不會(huì)是章節(jié)段落者。然而,欲找出哪一個(gè)段落類型為章段落210,何者為節(jié)段落220,則可配合其他段落特征(如字號(hào)大小)綜合評(píng)估。
[0031]因此,于步驟120之后,根據(jù)每一段落特征,分別排名樣式組合(步驟S130)。若段落特征的類型為段落分散度,則段落分散度由大到小排名。若段落特征的類型為字號(hào)大小,則字號(hào)大小由大到小排名。若段落特征的類型為平均字?jǐn)?shù),則平均字?jǐn)?shù)根據(jù)對(duì)于一預(yù)設(shè)字?jǐn)?shù)的差由小到大排名。若段落特征的類型為平均段落間距,則平均段落間距由大到小排名。然而,前述排名方式并非以此為限,針對(duì)應(yīng)用的數(shù)碼文章200的排版習(xí)慣可進(jìn)行適應(yīng)性的調(diào)整。
[0032]接著,在步驟S140中,可分別根據(jù)各樣式組合對(duì)應(yīng)每一段落特征的排名,計(jì)算一加權(quán)平均值。換言之,針對(duì)各個(gè)段落特征的重要性,可分別乘上一加權(quán)值,再加總起來(lái)取得平均值。
[0033]于是,在步驟S150中,即可選取加權(quán)平均值排名第一者的段落為數(shù)個(gè)候選章節(jié)段落。最后,根據(jù)候選章節(jié)段落的位置,便可切割數(shù)碼文章為數(shù)個(gè)章節(jié)(步驟S160)。同時(shí),也可根據(jù)候選章節(jié)段落的位置,產(chǎn)生目錄內(nèi)容。
[0034]在一實(shí)施例中,在步驟S120之前,可先統(tǒng)計(jì)各樣式組合的段落的重復(fù)次數(shù),再刪除僅有一個(gè)段落的樣式組合,因?yàn)橐话愣?,章?jié)段落不會(huì)只有一個(gè)。也可以刪除具有最多數(shù)量的段落的樣式組合,在本實(shí)施例中,便可去除內(nèi)文段落230。甚者,還可刪除平均字?jǐn)?shù)大于一字?jǐn)?shù)門檻值的樣式組合,并刪除平均字?jǐn)?shù)小于或等于一字的樣式組合。因?yàn)橐话愣?,章?jié)段落的字?jǐn)?shù)不會(huì)過(guò)長(zhǎng)。藉由上述方式,優(yōu)先去除不會(huì)是章節(jié)段落者,可減輕后續(xù)計(jì)算段落特征的負(fù)荷。因此,若進(jìn)行所述去除不會(huì)是章節(jié)段落者的步驟,則第I圖中步驟S120所計(jì)算每一不同的樣式組合的段落的一個(gè)或一個(gè)以上的段落特征,是以刪除后所剩余的樣式組合進(jìn)行統(tǒng)計(jì)。
[0035]本發(fā)明實(shí)施例的自動(dòng)切割章節(jié)方法可由一網(wǎng)站伺服器所執(zhí)行,可供使用者通過(guò)網(wǎng)際網(wǎng)路登入使用。當(dāng)使用者終端(如個(gè)人電腦、智慧型手機(jī)等)上傳數(shù)碼文章200至網(wǎng)站伺服器后,網(wǎng)站伺服器便可執(zhí)行前述的自動(dòng)切割章節(jié)方法,而可將數(shù)碼文章按其章節(jié)標(biāo)題進(jìn)行切割,切割完章節(jié)后還可儲(chǔ)存所切割的章節(jié)為多個(gè)文件檔案,也可按章節(jié)標(biāo)題分布建立對(duì)應(yīng)的目錄。
[0036]前述實(shí)施例雖以橫書的數(shù)碼文章200為例,但本發(fā)明實(shí)施例非限于此,可應(yīng)用的數(shù)碼文章200亦可采直書形式。
[0037]綜上所述,根據(jù)本發(fā)明的自動(dòng)切割章節(jié)方法,應(yīng)用于數(shù)碼文章,可自動(dòng)識(shí)別出章節(jié)標(biāo)題在數(shù)碼文章中的位置(頁(yè)數(shù)、行數(shù)),而可據(jù)以產(chǎn)生目錄內(nèi)容。
【主權(quán)項(xiàng)】
1.一種自動(dòng)切割章節(jié)方法,適用于一數(shù)碼文章,其特征在于,該自動(dòng)切割章節(jié)方法包括: 識(shí)別該數(shù)碼文章的的數(shù)個(gè)段落的樣式組合; 計(jì)算每一不同的該樣式組合的該些段落的一個(gè)或一個(gè)以上的段落特征,該段落特征為段落分散度、字號(hào)大小、平均字?jǐn)?shù)、平均段落間距或其任意組合; 根據(jù)每一該段落特征,分別排名該些樣式組合; 分別根據(jù)各該樣式組合對(duì)應(yīng)每一該段落特征的排名,計(jì)算一加權(quán)平均值; 選取該加權(quán)平均值排名第一者的該些段落為數(shù)個(gè)候選章節(jié)段落;及 根據(jù)該些候選章節(jié)段落切割該數(shù)碼文章為數(shù)個(gè)章節(jié)。2.如權(quán)利要求1所述的自動(dòng)切割章節(jié)方法,其特征在于,更包括: 統(tǒng)計(jì)各該樣式組合的該段落的重復(fù)次數(shù); 刪除僅有一個(gè)該段落的該些樣式組合;及 刪除具有最多數(shù)量的該段落的該樣式組合。3.如權(quán)利要求2所述的自動(dòng)切割章節(jié)方法,其特征在于,該計(jì)算每一不同的該樣式組合的該些段落的一個(gè)或一個(gè)以上的段落特征的步驟是以刪除后所剩余的該些樣式組合進(jìn)行統(tǒng)計(jì)。4.如權(quán)利要求1所述的自動(dòng)切割章節(jié)方法,其特征在于,該段落特征包含該段落分散度時(shí),該計(jì)算每一不同的該樣式組合的該些段落的一個(gè)或一個(gè)以上的段落特征的步驟包括: 平均切分該些段落為數(shù)個(gè)群組;及 計(jì)算不同的該樣式組合的該些段落位于該些群組的一所占比例。5.如權(quán)利要求1所述的自動(dòng)切割章節(jié)方法,其特征在于,更包括: 刪除平均字?jǐn)?shù)大于一字?jǐn)?shù)門檻值的該些樣式組合,并刪除平均字?jǐn)?shù)小于或等于一字的該些樣式組合。6.如權(quán)利要求1所述的自動(dòng)切割章節(jié)方法,其特征在于,該根據(jù)每一該段落特征,分別排名該些樣式組合的步驟,還包括: 于該段落特征包括該段落分散度時(shí),該段落分散度由大到小排名; 于該段落特征包括該字號(hào)大小時(shí),該字號(hào)大小由大到小排名; 于該段落特征包括該平均字?jǐn)?shù)時(shí),該平均字?jǐn)?shù)根據(jù)對(duì)于一預(yù)設(shè)字?jǐn)?shù)的差由小到大排名;及/或 于該段落特征包括該平均段落間距時(shí),該平均段落間距由大到小排名。7.如權(quán)利要求1所述的自動(dòng)切割章節(jié)方法,其特征在于,更包括: 儲(chǔ)存所切割的該些章節(jié)為多個(gè)文件檔案。8.如權(quán)利要求1所述的自動(dòng)切割章節(jié)方法,其中該樣式組合包括字號(hào)大小、加粗、傾斜、首行縮進(jìn)、對(duì)齊方式、下劃線或其任意組合。
【文檔編號(hào)】G06F17/21GK105988975SQ201510040591
【公開(kāi)日】2016年10月5日
【申請(qǐng)日】2015年1月27日
【發(fā)明人】崔殷豪
【申請(qǐng)人】葆光信息有限公司