欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文件目錄的生成方法、裝置、服務(wù)器及計(jì)算機(jī)存儲(chǔ)介質(zhì)與流程

文檔序號(hào):11729448閱讀:360來(lái)源:國(guó)知局
文件目錄的生成方法、裝置、服務(wù)器及計(jì)算機(jī)存儲(chǔ)介質(zhì)與流程

本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體涉及一種文件目錄的生成方法、裝置、服務(wù)器及計(jì)算機(jī)存儲(chǔ)介質(zhì)。



背景技術(shù):

隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,人們可以通過(guò)不同的設(shè)備、不同的途徑獲得各種各樣的電子文件,這些電子文件極大地豐富了人們的工作和生活內(nèi)容。

很多時(shí)候,需要對(duì)電子文件進(jìn)行重新排版,對(duì)于包含目錄頁(yè)的文件,由于目錄初始設(shè)計(jì)并不規(guī)范,導(dǎo)致現(xiàn)有技術(shù)中不能準(zhǔn)確地獲取到目錄項(xiàng)文本,從而導(dǎo)致根據(jù)目錄項(xiàng)文本重新排版所生成的目錄頁(yè)并不準(zhǔn)確,致使目錄失去正確引導(dǎo)用戶閱讀、以及準(zhǔn)確定位文本的作用。



技術(shù)實(shí)現(xiàn)要素:

鑒于上述問(wèn)題,提出了本發(fā)明以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的文件目錄的生成方法、裝置、服務(wù)器和計(jì)算機(jī)存儲(chǔ)介質(zhì)。

根據(jù)本發(fā)明的一個(gè)方面,提供了一種文件目錄的生成方法,包括:

對(duì)文件中除目錄頁(yè)以外的其他頁(yè)面中的文本對(duì)象進(jìn)行文字樣式聚類處理,得到多個(gè)具有不同文字樣式的文本對(duì)象集合;

對(duì)文件的目錄頁(yè)進(jìn)行分析,得到目錄項(xiàng)文本;

對(duì)于每個(gè)文本對(duì)象集合,將該文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對(duì)象屬于目錄項(xiàng)的文本對(duì)象集合;

將文本對(duì)象與該文本對(duì)象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁(yè)。

根據(jù)本發(fā)明的另一方面,提供了一種文件目錄的生成裝置,包括:

聚類處理模塊,適于對(duì)文件中除目錄頁(yè)以外的其他頁(yè)面中的文本對(duì)象進(jìn)行文字樣式聚類處理,得到多個(gè)具有不同文字樣式的文本對(duì)象集合;

分析模塊,適于對(duì)文件的目錄頁(yè)進(jìn)行分析,得到目錄項(xiàng)文本;

匹配模塊,適于對(duì)于每個(gè)文本對(duì)象集合,將該文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對(duì)象屬于目錄項(xiàng)的文本對(duì)象集合;

生成模塊,適于將文本對(duì)象與該文本對(duì)象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁(yè)。

根據(jù)本發(fā)明的又一方面,提供了一種服務(wù)器,包括:處理器、存儲(chǔ)器、通信接口和通信總線,所述處理器、所述存儲(chǔ)器和所述通信接口通過(guò)所述通信總線完成相互間的通信;

所述存儲(chǔ)器用于存放至少一可執(zhí)行指令,所述可執(zhí)行指令使所述處理器執(zhí)行上述文件目錄的生成方法對(duì)應(yīng)的操作。

根據(jù)本發(fā)明的再一方面,提供了一種計(jì)算機(jī)存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一可執(zhí)行指令,所述可執(zhí)行指令使所述處理器執(zhí)行如上述文件目錄的生成方法對(duì)應(yīng)的操作。

根據(jù)本發(fā)明提供的方案,對(duì)文件中除目錄頁(yè)以外的其他頁(yè)面中的文本對(duì)象進(jìn)行文字樣式聚類處理,得到多個(gè)具有不同文字樣式的文本對(duì)象集合,對(duì)文件的目錄頁(yè)進(jìn)行分析,得到目錄項(xiàng)文本,對(duì)于每個(gè)文本對(duì)象集合,將該文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對(duì)象屬于目錄項(xiàng)的文本對(duì)象集合,將文本對(duì)象與該文本對(duì)象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁(yè)。利用本發(fā)明提供的技術(shù)方案,能夠提升目錄的規(guī)范性和準(zhǔn)確性,保證生成的目錄頁(yè)更為準(zhǔn)確,從而使用戶能夠充分地利用目錄定位到相應(yīng)的文本對(duì)象,給予用戶正確地引導(dǎo)。

上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。

附圖說(shuō)明

通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:

圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的文件目錄的生成方法的流程示意圖;

圖2示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的文件目錄的生成方法的流程示意圖;

圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的文件目錄的生成裝置的結(jié)構(gòu)示意圖;

圖4示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的文件目錄的生成裝置的結(jié)構(gòu)示意圖;

圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的服務(wù)器的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。

圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的文件目錄的生成方法的流程示意圖。如圖1所示,該方法包括以下步驟:

步驟s100,對(duì)文件中除目錄頁(yè)以外的其他頁(yè)面中的文本對(duì)象進(jìn)行文字樣式聚類處理,得到多個(gè)具有不同文字樣式的文本對(duì)象集合。

目錄具有引導(dǎo)用戶閱讀的作用,用戶可以通過(guò)目錄快速定位到文章中相應(yīng)的章節(jié)內(nèi)容,因此,目錄的準(zhǔn)確性直接影響用戶對(duì)文件的閱讀。本發(fā)明實(shí)施例適用于包含目錄頁(yè)的文件,這里將文件分為目錄頁(yè)和除目錄頁(yè)以外的其他頁(yè)面,首先,需要對(duì)文件進(jìn)行初步識(shí)別,得到文件包含的文本對(duì)象,然后對(duì)文件中除目錄頁(yè)以外的其他頁(yè)面中的文本對(duì)象進(jìn)行解析得到文本對(duì)象的文字樣式,在得到文字樣式之后,對(duì)文本對(duì)象進(jìn)行文字樣式聚類處理,將具有相同文字樣式的文本對(duì)象聚類在一起,得到多個(gè)具有不同文字樣式的文本對(duì)象集合,其中,每個(gè)文本對(duì)象集合包含同一種文字樣式的文本對(duì)象。

步驟s101,對(duì)文件的目錄頁(yè)進(jìn)行分析,得到目錄項(xiàng)文本。

文件的目錄頁(yè)一般都包括目錄項(xiàng)文本,本實(shí)施例中對(duì)文件的目錄頁(yè)進(jìn)行分析,主要是為了從目錄頁(yè)中獲取到目錄項(xiàng)文本,以便于后續(xù)根據(jù)目錄項(xiàng)文本確定上述文本對(duì)象集合中哪些屬于目錄項(xiàng)的文本對(duì)象集合。

步驟s102,對(duì)于每個(gè)文本對(duì)象集合,將該文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對(duì)象屬于目錄項(xiàng)的文本對(duì)象集合。

在得到目錄項(xiàng)文本之后,對(duì)于每個(gè)文本對(duì)象集合,將該文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配,舉例說(shuō)明,屬于某文字樣式的文本對(duì)象集合中包含3個(gè)文本對(duì)象,例如文本對(duì)象1、2、3,目錄項(xiàng)文本有10項(xiàng),這里需要將三個(gè)文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配,具體地,將文本對(duì)象1分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配,若存在與文本對(duì)象1文字內(nèi)容模糊匹配的目錄項(xiàng)文本,則模糊匹配結(jié)束,若未查找到與文本對(duì)象1文字內(nèi)容模糊匹配的目錄項(xiàng)文本,則需要繼續(xù)將文本對(duì)象1與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配直至文本對(duì)象1與10項(xiàng)目錄項(xiàng)文本都進(jìn)行了文字內(nèi)容模糊匹配才結(jié)束,對(duì)于文本對(duì)象2、3類似,這里不再贅述。在將文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配之后,根據(jù)模糊匹配結(jié)果,確定文本對(duì)象屬于目錄項(xiàng)的文本對(duì)象集合。

步驟s103,將文本對(duì)象與該文本對(duì)象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁(yè)。

文本偏移位置指文本對(duì)象在文件中位置,例如,文本對(duì)象在文件中的段落信息,在確定了文本對(duì)象屬于目錄項(xiàng)的文本對(duì)象集合之后,將文本對(duì)象與該文本對(duì)象在文件中的文本偏移位置相關(guān)聯(lián),然后生成目錄頁(yè),這里的相關(guān)聯(lián)指當(dāng)用戶點(diǎn)擊所生成的目錄頁(yè)中的某文本對(duì)象時(shí),可以根據(jù)文本偏移位置自動(dòng)且準(zhǔn)確地跳轉(zhuǎn)到該文本對(duì)象在文件中的位置,舉例說(shuō)明,目錄頁(yè)中某文本對(duì)象在文件中的段落信息為第5段,則用戶點(diǎn)擊目錄頁(yè)中該文本對(duì)象時(shí),可以跳轉(zhuǎn)至第5段對(duì)應(yīng)的文本對(duì)象。由于是根據(jù)文件中除目錄頁(yè)以外的其他頁(yè)面中的文本對(duì)象生成目錄頁(yè),相對(duì)于直接對(duì)文件中的目錄頁(yè)進(jìn)行識(shí)別的結(jié)果來(lái)說(shuō),所生成的目錄更為準(zhǔn)確,能夠更為準(zhǔn)確地引導(dǎo)用戶閱讀。

根據(jù)本發(fā)明上述實(shí)施例提供的方法,對(duì)文件中除目錄頁(yè)以外的其他頁(yè)面中的文本對(duì)象進(jìn)行文字樣式聚類處理,得到多個(gè)具有不同文字樣式的文本對(duì)象集合,對(duì)文件的目錄頁(yè)進(jìn)行分析,得到目錄項(xiàng)文本,對(duì)于每個(gè)文本對(duì)象集合,將該文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對(duì)象屬于目錄項(xiàng)的文本對(duì)象集合,將文本對(duì)象與該文本對(duì)象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁(yè)。利用本發(fā)明提供的技術(shù)方案,能夠提升目錄的規(guī)范性和準(zhǔn)確性,保證生成的目錄頁(yè)更為準(zhǔn)確,從而使用戶能夠充分地利用目錄定位到相應(yīng)的文本對(duì)象,給予用戶正確地引導(dǎo)。

圖2示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的文件目錄的生成方法的流程示意圖。如圖2所示,該方法包括以下步驟:

步驟s200,對(duì)文件中除目錄頁(yè)以外的其他頁(yè)面中的文本對(duì)象進(jìn)行文字樣式聚類處理,得到多個(gè)具有不同文字樣式的文本對(duì)象集合。

首先,對(duì)文件進(jìn)行初步識(shí)別,得到文件包含的文本對(duì)象,然后,對(duì)文件中除目錄頁(yè)以外的其他頁(yè)面中的文本對(duì)象進(jìn)行解析得到文本對(duì)象的文字樣式,在得到文字樣式之后,對(duì)文本對(duì)象進(jìn)行文字樣式聚類處理,將具有相同文字樣式的文本對(duì)象聚類在一起,舉例說(shuō)明,對(duì)于文本對(duì)象1,根據(jù)文本對(duì)象1的文字樣式創(chuàng)建文字樣式1的文本對(duì)象集合,并將文本對(duì)象1劃分到文字樣式1的文本對(duì)象集合中,然后將文本對(duì)象2的文字樣式與文本對(duì)象1的文字樣式進(jìn)行比較,確定文本對(duì)象2的文字樣式不同于文字對(duì)象1的文字樣式,則根據(jù)文本對(duì)象2的文字樣式創(chuàng)建文字樣式2的文本對(duì)象集合,并將文本對(duì)象2劃分到文字樣式2的文本對(duì)象集合中,對(duì)于其他的文本對(duì)象類似,這里不再贅述,最后得到多個(gè)具有不同文字樣式的文本對(duì)象集合。

步驟s201,對(duì)文件的目錄頁(yè)進(jìn)行分析,得到目錄項(xiàng)文本。

文件的目錄頁(yè)一般都包括目錄項(xiàng)文本,本實(shí)施例中對(duì)文件的目錄頁(yè)進(jìn)行分析,主要是為了從目錄頁(yè)中獲取到目錄項(xiàng)文本,以便于后續(xù)根據(jù)目錄項(xiàng)文本確定屬于目錄項(xiàng)的文本對(duì)象集合。

步驟s200中得到的文本對(duì)象集合可能會(huì)包含部分非目錄項(xiàng)的文本對(duì)象集合,例如,圖注對(duì)應(yīng)的文本對(duì)象集合、注釋對(duì)應(yīng)的文本對(duì)象集合等,這樣就需要對(duì)文本對(duì)象進(jìn)行初篩,具體地,可以采用步驟s202-步驟s204中的方法進(jìn)行篩選:

步驟s202,對(duì)于每個(gè)文本對(duì)象集合,將文本對(duì)象的總項(xiàng)數(shù)與預(yù)設(shè)項(xiàng)數(shù)閾值進(jìn)行比較,篩選得到文本對(duì)象的總項(xiàng)數(shù)小于或等于預(yù)設(shè)項(xiàng)數(shù)閾值的文本對(duì)象集合進(jìn)行后續(xù)處理。

通常情況下,文件中除目錄頁(yè)以外的其他頁(yè)面中,具有相同文字樣式且屬于目錄項(xiàng)的文本對(duì)象一般為各大小章節(jié)的標(biāo)題,其總項(xiàng)數(shù)相較于非目錄項(xiàng)的文本對(duì)象的總項(xiàng)數(shù)少,因此,對(duì)于每個(gè)文本對(duì)象集合,可以將文本對(duì)象的總項(xiàng)數(shù)與預(yù)設(shè)項(xiàng)數(shù)閾值進(jìn)行比較來(lái)確定文本對(duì)象集合是否可能為目錄項(xiàng)的文本對(duì)象集合,若文本對(duì)象的總項(xiàng)數(shù)大于預(yù)設(shè)項(xiàng)數(shù)閾值,則文本對(duì)象集合不可能是目錄項(xiàng)的文本對(duì)象集合,若文本對(duì)象的總項(xiàng)數(shù)小于或等于預(yù)設(shè)項(xiàng)數(shù)閾值,則文本對(duì)象集合可能是目錄項(xiàng)的文本對(duì)象集合,其中,預(yù)設(shè)項(xiàng)數(shù)閾值可以根據(jù)實(shí)際經(jīng)驗(yàn)進(jìn)行設(shè)定,例如,設(shè)定為15,這里僅是舉例說(shuō)明,不具有任何限定作用,對(duì)篩選得到文本對(duì)象的總項(xiàng)數(shù)小于或等于預(yù)設(shè)項(xiàng)數(shù)閾值的文本對(duì)象集合可以進(jìn)行后續(xù)處理。

當(dāng)然,對(duì)于每個(gè)文本對(duì)象集合,本發(fā)明可以僅通過(guò)將文本對(duì)象的總項(xiàng)數(shù)與預(yù)設(shè)項(xiàng)數(shù)閾值進(jìn)行比較的方法來(lái)對(duì)文本對(duì)象集合進(jìn)行篩選,但是為了進(jìn)一步提升準(zhǔn)確性,還可以在將文本對(duì)象的總項(xiàng)數(shù)與預(yù)設(shè)項(xiàng)數(shù)閾值進(jìn)行比較之后,再將文本對(duì)象的平均字?jǐn)?shù)與預(yù)設(shè)字?jǐn)?shù)閾值進(jìn)行比較從而進(jìn)一步篩選文本對(duì)象集合。

步驟s203,對(duì)于每個(gè)文本對(duì)象集合,將文本對(duì)象的平均字?jǐn)?shù)與預(yù)設(shè)字?jǐn)?shù)閾值進(jìn)行比較,篩選得到文本對(duì)象的平均字?jǐn)?shù)小于或等于預(yù)設(shè)字?jǐn)?shù)閾值的文本對(duì)象集合進(jìn)行后續(xù)處理。

通常情況下,文件中除目錄頁(yè)以外的其他頁(yè)面中,具有相同文字樣式且屬于目錄項(xiàng)的文本對(duì)象一般為各大小章節(jié)的標(biāo)題,其平均字?jǐn)?shù)相較于非目錄項(xiàng)的文本對(duì)象的平均字?jǐn)?shù)少,因此,對(duì)于每個(gè)文本對(duì)象集合,可以將文本對(duì)象的平均字?jǐn)?shù)與預(yù)設(shè)字?jǐn)?shù)閾值進(jìn)行比較,來(lái)確定文本對(duì)象集合是否可能為目錄項(xiàng)的文本對(duì)象集合,若文本對(duì)象的平均字?jǐn)?shù)大于預(yù)設(shè)字?jǐn)?shù)閾值,則文本對(duì)象集合不可能是目錄項(xiàng)的文本對(duì)象集合,若文本對(duì)象的平均字?jǐn)?shù)小于或等于預(yù)設(shè)字?jǐn)?shù)閾值,則文本對(duì)象集合可能是目錄項(xiàng)的文本對(duì)象集合,其中,預(yù)設(shè)字?jǐn)?shù)閾值可以根據(jù)實(shí)際經(jīng)驗(yàn)進(jìn)行設(shè)定,例如,設(shè)定為20,這里僅是舉例說(shuō)明,不具有任何限定作用,對(duì)篩選得到文本對(duì)象的平均字?jǐn)?shù)小于或等于預(yù)設(shè)字?jǐn)?shù)閾值的文本對(duì)象集合可以進(jìn)行后續(xù)處理。

當(dāng)然,對(duì)于每個(gè)文本對(duì)象集合,本發(fā)明可以僅通過(guò)將文本對(duì)象的平均字?jǐn)?shù)與預(yù)設(shè)字?jǐn)?shù)閾值進(jìn)行比較的方法來(lái)對(duì)文本對(duì)象集合進(jìn)行篩選,但是為了進(jìn)一步提升準(zhǔn)確性,還可以在將文本對(duì)象的平均字?jǐn)?shù)與預(yù)設(shè)字?jǐn)?shù)閾值進(jìn)行比較之后,再將文本對(duì)象的文字字號(hào)與預(yù)設(shè)字號(hào)閾值進(jìn)行比較從而進(jìn)一步篩選文本對(duì)象集合。

步驟s204,對(duì)于每個(gè)文本對(duì)象集合,將文本對(duì)象的文字字號(hào)與預(yù)設(shè)字號(hào)閾值進(jìn)行比較,篩選得到文本對(duì)象的文字字號(hào)大于或等于預(yù)設(shè)字號(hào)閾值的文本對(duì)象集合進(jìn)行后續(xù)處理。

通常情況下,文件中除目錄頁(yè)以外的其他頁(yè)面中,具有相同文字樣式且屬于目錄項(xiàng)的文本對(duì)象一般為各大小章節(jié)的標(biāo)題,其文字字號(hào)相較于非目錄項(xiàng)的文本對(duì)象的文字字號(hào)大,因此,對(duì)于每個(gè)文本對(duì)象集合,可以將文本對(duì)象的文字字號(hào)與預(yù)設(shè)字號(hào)閾值進(jìn)行比較,來(lái)確定文本對(duì)象集合是否可能為目錄項(xiàng)的文本對(duì)象集合,若文本對(duì)象的文字字號(hào)小于預(yù)設(shè)字號(hào)閾值,則文本對(duì)象集合不可能是目錄項(xiàng)的文本對(duì)象集合,若文本對(duì)象的文字字號(hào)大于或等于預(yù)設(shè)字號(hào)閾值,則文本對(duì)象集合可能是目錄項(xiàng)的文本對(duì)象集合,其中,預(yù)設(shè)字?jǐn)?shù)閾值可以根據(jù)實(shí)際經(jīng)驗(yàn)進(jìn)行設(shè)定,例如,設(shè)定為14,這里僅是舉例說(shuō)明,不具有任何限定作用,對(duì)篩選得到文本對(duì)象的文字字號(hào)大于或等于預(yù)設(shè)字號(hào)閾值的文本對(duì)象集合可以進(jìn)行后續(xù)處理。

當(dāng)然,對(duì)于每個(gè)文本對(duì)象集合,本發(fā)明可以僅將文本對(duì)象的文字字號(hào)與預(yù)設(shè)字號(hào)閾值進(jìn)行比較的方法來(lái)對(duì)文本對(duì)象集合進(jìn)行篩選,但是為了進(jìn)一步提升準(zhǔn)確性,還可以在將文本對(duì)象的文字字號(hào)與預(yù)設(shè)字號(hào)閾值進(jìn)行比較之后,再將文本對(duì)象的總項(xiàng)數(shù)與預(yù)設(shè)項(xiàng)數(shù)閾值進(jìn)行比較從而進(jìn)一步篩選文本對(duì)象集合。

另外,本發(fā)明可以僅利用步驟s202-步驟s204中的方法對(duì)文本對(duì)象集合進(jìn)行篩選,但是為了進(jìn)一步提升目錄頁(yè)生成效率,減少匹配次數(shù),還可以在對(duì)文本對(duì)象集合進(jìn)行初篩后,對(duì)篩選后的文本對(duì)象集合進(jìn)行排序。

步驟s205,對(duì)于每個(gè)文本對(duì)象集合,依據(jù)文字字號(hào)從大到小的順序?qū)Χ鄠€(gè)文本對(duì)象集合進(jìn)行排序。

不同文本對(duì)象集合中文本對(duì)象的文字字號(hào)并不相同,為了能夠優(yōu)先將可能屬于目錄項(xiàng)的文本對(duì)象集合與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配,減少后續(xù)匹配次數(shù),本實(shí)施例可以依據(jù)文字字號(hào)從大到小的順序?qū)Χ鄠€(gè)文本對(duì)象集合進(jìn)行排序,從而可以依據(jù)排序結(jié)果進(jìn)行后續(xù)匹配。

步驟s206,依據(jù)排序結(jié)果,依次將每個(gè)文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對(duì)象屬于目錄項(xiàng)的文本對(duì)象集合。

在多個(gè)文本對(duì)象集合排序結(jié)果之后,依據(jù)排序結(jié)果,依次將每個(gè)文本對(duì)象集合中文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配,舉例說(shuō)明,多個(gè)文本對(duì)象集合的排序分別為:文本對(duì)象集合1、文本對(duì)象集合3、文本對(duì)象集合2,則需要依據(jù)該排序結(jié)果,分別將文本對(duì)象集合1文本對(duì)象集合3、文本對(duì)象集合2中的文本對(duì)象與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對(duì)象屬于目錄項(xiàng)的文本對(duì)象集合。

具體地,可以采用如下方法確定文本對(duì)象是否屬于目錄項(xiàng)的文本對(duì)象集合:判斷文本對(duì)象集合中與目錄項(xiàng)文本的文字內(nèi)容匹配的文本對(duì)象的項(xiàng)數(shù)與文本對(duì)象集合中文本對(duì)象的總項(xiàng)數(shù)的比率是否大于或等于預(yù)設(shè)比率閾值;若是,則確定文本對(duì)象屬于目錄項(xiàng)的文本對(duì)象集合。

在本發(fā)明實(shí)施例中,若文本對(duì)象集合屬于目錄項(xiàng)的文本對(duì)象集合,則該文本對(duì)象集合中大部分的文本對(duì)象的文字內(nèi)容是與目錄項(xiàng)文本的文字內(nèi)容匹配的,可能會(huì)存在很少一部分文本對(duì)象的文字內(nèi)容不匹配的情況,因此,可以通過(guò)判斷文本對(duì)象集合中與目錄項(xiàng)文本的文字內(nèi)容匹配的文本對(duì)象的項(xiàng)數(shù)與文本對(duì)象集合中文本對(duì)象的總項(xiàng)數(shù)的比率是否大于或等于預(yù)設(shè)比率閾值來(lái)確定文本對(duì)象是否屬于目錄項(xiàng)的文本對(duì)象集合,若文本對(duì)象集合中與目錄項(xiàng)文本的文字內(nèi)容匹配的文本對(duì)象的項(xiàng)數(shù)與文本對(duì)象集合中文本對(duì)象的總項(xiàng)數(shù)的比率大于或等于預(yù)設(shè)比率閾值,則可以確定文本對(duì)象屬于目錄項(xiàng)的文本對(duì)象集合;若文本對(duì)象集合中與目錄項(xiàng)文本的文字內(nèi)容匹配的文本對(duì)象的項(xiàng)數(shù)與文本對(duì)象集合中文本對(duì)象的總項(xiàng)數(shù)的比率小于預(yù)設(shè)比率閾值,則可以確定文本對(duì)象不屬于目錄項(xiàng)的文本對(duì)象集合,其中,預(yù)設(shè)比率閾值可以根據(jù)實(shí)際經(jīng)驗(yàn)進(jìn)行設(shè)定,例如,設(shè)定預(yù)設(shè)比率閾值為95%,這里僅是舉例說(shuō)明,不具有任何限定作用。

當(dāng)然,本發(fā)明還可以不對(duì)文本對(duì)象集合進(jìn)行初篩,僅依據(jù)文字字號(hào)從大到小的順序?qū)Χ鄠€(gè)文本對(duì)象集合進(jìn)行排序,然后進(jìn)行文字內(nèi)容模糊匹配。

步驟s207,依據(jù)文字字號(hào)確定屬于目錄項(xiàng)的文本對(duì)象集合中文本對(duì)象的目錄級(jí)別。

其中,文字樣式包括:文字字號(hào)和文字字體,一般情況下,一級(jí)目錄的文字字號(hào)大于二級(jí)目錄的文字字號(hào),二級(jí)目錄的文字字號(hào)大于三級(jí)目錄的文字字號(hào)……,因此,可以依據(jù)文字字號(hào)確定屬于目錄項(xiàng)的文本對(duì)象集合中文本對(duì)象的目錄級(jí)別。

本發(fā)明不僅可以根據(jù)文字字號(hào)確定目錄級(jí)別,當(dāng)然還可以采用以下方法確定目錄級(jí)別:依據(jù)屬于目錄項(xiàng)的文本對(duì)象集合中文本對(duì)象在文件中出現(xiàn)的初始偏移位置,確定屬于目錄項(xiàng)的文本對(duì)象集合中文本對(duì)象的目錄級(jí)別。

其中,初始偏移位置指屬于同一文字樣式的文本對(duì)象在文件中其他頁(yè)面首次出現(xiàn)的位置,一般情況下,一級(jí)目錄在文件中出現(xiàn)的初始偏移位置較二級(jí)目錄在文件中出現(xiàn)的初始偏移位置靠前,二級(jí)目錄在文件中出現(xiàn)的初始偏移位置較三級(jí)目錄在文件中出現(xiàn)的初始偏移位置靠前……,因此,可以依據(jù)屬于目錄項(xiàng)的文本對(duì)象集合中文本對(duì)象在文件中出現(xiàn)的初始偏移位置,確定屬于目錄項(xiàng)的文本對(duì)象集合中文本對(duì)象的目錄級(jí)別。

步驟s208,依據(jù)目錄級(jí)別,將文本對(duì)象與該文本對(duì)象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁(yè)。

在確定了屬于目錄項(xiàng)的文本對(duì)象集合中文本對(duì)象的目錄級(jí)別之后,可以依據(jù)目錄級(jí)別,將文本對(duì)象與該文本對(duì)象在文件中的文本偏移位置相關(guān)聯(lián),然后生成目錄頁(yè)。文本偏移位置指文本對(duì)象在文件中位置,例如,文本對(duì)象在文件中的段落信息,在確定了文本對(duì)象屬于目錄項(xiàng)的文本對(duì)象集合之后,將文本對(duì)象與該文本對(duì)象在文件中的文本偏移位置相關(guān)聯(lián),然后生成目錄頁(yè),這里的相關(guān)聯(lián)指當(dāng)用戶點(diǎn)擊所生成的目錄頁(yè)中的某文本對(duì)象時(shí),可以根據(jù)文本偏移位置自動(dòng)且準(zhǔn)確地跳轉(zhuǎn)到該文本對(duì)象在文件中的位置,舉例說(shuō)明,目錄頁(yè)中某文本對(duì)象在文件中的段落信息為第5段,則用戶點(diǎn)擊目錄頁(yè)中該文本對(duì)象時(shí),可以跳轉(zhuǎn)至第5段對(duì)應(yīng)的文本對(duì)象。由于是根據(jù)文件中除目錄頁(yè)以外的其他頁(yè)面中的文本對(duì)象生成目錄頁(yè),相對(duì)于直接對(duì)文件中的目錄頁(yè)進(jìn)行識(shí)別的結(jié)果來(lái)說(shuō),所生成的目錄更為準(zhǔn)確,能夠更為準(zhǔn)確地引導(dǎo)用戶閱讀。

這里以pdf文件為例,很多時(shí)候會(huì)對(duì)pdf文件中的目錄進(jìn)行版式設(shè)計(jì),由于沒(méi)有統(tǒng)一的設(shè)計(jì)標(biāo)準(zhǔn),如果直接對(duì)pdf文件的目錄項(xiàng)文本進(jìn)行識(shí)別,根據(jù)識(shí)別結(jié)果得到的目錄頁(yè)并不準(zhǔn)確,然而當(dāng)需要將pdf文件轉(zhuǎn)換為epub文件時(shí),通過(guò)識(shí)別pdf文件中的目錄項(xiàng)文本生成epub文件的目錄頁(yè),就很容易出錯(cuò),因此,可以步驟s200-步驟s208中的方法來(lái)生成epub文件的目錄頁(yè),從而保證了epub文件的目錄頁(yè)的準(zhǔn)確性。

根據(jù)本發(fā)明上述實(shí)施例提供的方法,在得到多個(gè)具有不同文字樣式的文本對(duì)象集合后,對(duì)文本對(duì)象集合進(jìn)行多次篩選,提升了篩選后的文本對(duì)象集合是目錄項(xiàng)文本對(duì)象集合的概率,從而進(jìn)一步提高了生成目錄的準(zhǔn)確性;依據(jù)文字字號(hào)從大到小的順序?qū)Χ鄠€(gè)文本對(duì)象集合進(jìn)行排序,依據(jù)排序結(jié)果,依次將每個(gè)文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配,可以減少匹配次數(shù),提高了生成目錄頁(yè)的速率。此外,利用本發(fā)明提供的技術(shù)方案,能夠提升目錄的規(guī)范性和準(zhǔn)確性,保證生成的目錄頁(yè)更為準(zhǔn)確,從而使用戶能夠充分地利用目錄定位到相應(yīng)的文本對(duì)象,給予用戶正確地引導(dǎo)。

圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的文件目錄的生成裝置的結(jié)構(gòu)示意圖。如圖3所示,該裝置包括:聚類處理模塊300、分析模塊310、匹配模塊320和生成模塊330。

聚類處理模塊300,適于對(duì)文件中除目錄頁(yè)以外的其他頁(yè)面中的文本對(duì)象進(jìn)行文字樣式聚類處理,得到多個(gè)具有不同文字樣式的文本對(duì)象集合。

分析模塊310,適于對(duì)文件的目錄頁(yè)進(jìn)行分析,得到目錄項(xiàng)文本。

匹配模塊320,適于對(duì)于每個(gè)文本對(duì)象集合,將該文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對(duì)象屬于目錄項(xiàng)的文本對(duì)象集合。

生成模塊330,適于將文本對(duì)象與該文本對(duì)象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁(yè)。

根據(jù)本發(fā)明上述實(shí)施例提供的裝置,對(duì)文件中除目錄頁(yè)以外的其他頁(yè)面中的文本對(duì)象進(jìn)行文字樣式聚類處理,得到多個(gè)具有不同文字樣式的文本對(duì)象集合,對(duì)文件的目錄頁(yè)進(jìn)行分析,得到目錄項(xiàng)文本,對(duì)于每個(gè)文本對(duì)象集合,將該文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對(duì)象屬于目錄項(xiàng)的文本對(duì)象集合,將文本對(duì)象與該文本對(duì)象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁(yè)。利用本發(fā)明提供的技術(shù)方案,能夠提升目錄的規(guī)范性和準(zhǔn)確性,保證生成的目錄頁(yè)更為準(zhǔn)確,從而使用戶能夠充分地利用目錄定位到相應(yīng)的文本對(duì)象,給予用戶正確地引導(dǎo)。

圖4示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的文件目錄的生成裝置的結(jié)構(gòu)示意圖。如圖4所示,該裝置包括:聚類處理模塊400、分析模塊410、篩選模塊420、排序模塊430、匹配模塊440和生成模塊450。

聚類處理模塊400,適于對(duì)文件中除目錄頁(yè)以外的其他頁(yè)面中的文本對(duì)象進(jìn)行文字樣式聚類處理,得到多個(gè)具有不同文字樣式的文本對(duì)象集合。

分析模塊410,適于對(duì)文件的目錄頁(yè)進(jìn)行分析,得到目錄項(xiàng)文本。

篩選模塊420,適于對(duì)于每個(gè)文本對(duì)象集合,將文本對(duì)象的總項(xiàng)數(shù)與預(yù)設(shè)項(xiàng)數(shù)閾值進(jìn)行比較,篩選得到文本對(duì)象的總項(xiàng)數(shù)小于或等于預(yù)設(shè)項(xiàng)數(shù)閾值的文本對(duì)象集合進(jìn)行后續(xù)處理。

此外,篩選模塊420進(jìn)一步適于:對(duì)于每個(gè)文本對(duì)象集合,將文本對(duì)象的平均字?jǐn)?shù)與預(yù)設(shè)字?jǐn)?shù)閾值進(jìn)行比較,篩選得到文本對(duì)象的平均字?jǐn)?shù)小于或等于預(yù)設(shè)字?jǐn)?shù)閾值的文本對(duì)象集合進(jìn)行后續(xù)處理。

此外,篩選模塊420進(jìn)一步適于:對(duì)于每個(gè)文本對(duì)象集合,將文本對(duì)象的文字字號(hào)與預(yù)設(shè)字號(hào)閾值進(jìn)行比較,篩選得到文本對(duì)象的文字字號(hào)大于或等于預(yù)設(shè)字號(hào)閾值的文本對(duì)象集合進(jìn)行后續(xù)處理。

排序模塊430,適于依據(jù)文字字號(hào)從大到小的順序?qū)Χ鄠€(gè)文本對(duì)象集合進(jìn)行排序。

匹配模塊440,適于依據(jù)排序結(jié)果,依次將每個(gè)文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對(duì)象屬于目錄項(xiàng)的文本對(duì)象集合。

此外,匹配模塊440進(jìn)一步適于:判斷文本對(duì)象集合中與目錄項(xiàng)文本的文字內(nèi)容匹配的文本對(duì)象的項(xiàng)數(shù)與文本對(duì)象集合中文本對(duì)象的總項(xiàng)數(shù)的比率是否大于或等于預(yù)設(shè)比率閾值;若是,則確定文本對(duì)象屬于目錄項(xiàng)的文本對(duì)象集合。

在本發(fā)明實(shí)施例中,文字樣式包括:文字字號(hào)和文字字體;

生成模塊450進(jìn)一步包括:確定單元451,適于依據(jù)文字字號(hào)確定屬于目錄項(xiàng)的文本對(duì)象集合中文本對(duì)象的目錄級(jí)別;

生成單元452,適于依據(jù)目錄級(jí)別,將文本對(duì)象與該文本對(duì)象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁(yè)。

本發(fā)明不僅可以根據(jù)文字字號(hào)確定目錄級(jí)別,還可以依據(jù)屬于目錄項(xiàng)的文本對(duì)象集合中文本對(duì)象在文件中出現(xiàn)的初始偏移位置,確定屬于目錄項(xiàng)的文本對(duì)象集合中文本對(duì)象的目錄級(jí)別,具體地,生成模塊進(jìn)一步包括:確定單元,適于依據(jù)屬于目錄項(xiàng)的文本對(duì)象集合中文本對(duì)象在文件中出現(xiàn)的初始偏移位置,確定屬于目錄項(xiàng)的文本對(duì)象集合中文本對(duì)象的目錄級(jí)別;

生成單元452,適于依據(jù)目錄級(jí)別,將文本對(duì)象與該文本對(duì)象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁(yè)。

根據(jù)本發(fā)明上述實(shí)施例提供的裝置,在得到多個(gè)具有不同文字樣式的文本對(duì)象集合后,對(duì)文本對(duì)象集合進(jìn)行多次篩選,提升了篩選后的文本對(duì)象集合是目錄項(xiàng)文本對(duì)象集合的概率,從而進(jìn)一步提高了生成目錄的準(zhǔn)確性;依據(jù)文字字號(hào)從大到小的順序?qū)Χ鄠€(gè)文本對(duì)象集合進(jìn)行排序,依據(jù)排序結(jié)果,依次將每個(gè)文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配,可以減少匹配次數(shù),提高了生成目錄頁(yè)的速率。此外,利用本發(fā)明提供的技術(shù)方案,能夠提升目錄的規(guī)范性和準(zhǔn)確性,保證生成的目錄頁(yè)更為準(zhǔn)確,從而使用戶能夠充分地利用目錄定位到相應(yīng)的文本對(duì)象,給予用戶正確地引導(dǎo)。

本申請(qǐng)實(shí)施例提供了一種非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì),計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有至少一可執(zhí)行指令,該計(jì)算機(jī)可執(zhí)行指令可執(zhí)行上述任意方法實(shí)施例中的文件目錄的生成方法。

圖5示出了根據(jù)本發(fā)明實(shí)施例的一種服務(wù)器的結(jié)構(gòu)示意圖,本發(fā)明具體實(shí)施例并不對(duì)服務(wù)器的具體實(shí)現(xiàn)做限定。

如圖5所示,該服務(wù)器可以包括:處理器(processor)502、通信接口(communicationsinterface)504、存儲(chǔ)器(memory)506、以及通信總線508。

其中:

處理器502、通信接口504、以及存儲(chǔ)器506通過(guò)通信總線508完成相互間的通信。

通信接口504,用于與其它設(shè)備比如客戶端或其它服務(wù)器等的網(wǎng)元通信。

處理器502,用于執(zhí)行程序510,具體可以執(zhí)行上述文件目錄的生成方法實(shí)施例中的相關(guān)步驟。

具體地,程序510可以包括程序代碼,該程序代碼包括計(jì)算機(jī)操作指令。

處理器502可能是中央處理器cpu,或者是特定集成電路asic(applicationspecificintegratedcircuit),或者是被配置成實(shí)施本發(fā)明實(shí)施例的一個(gè)或多個(gè)集成電路。服務(wù)器包括的一個(gè)或多個(gè)處理器,可以是同一類型的處理器,如一個(gè)或多個(gè)cpu;也可以是不同類型的處理器,如一個(gè)或多個(gè)cpu以及一個(gè)或多個(gè)asic。

存儲(chǔ)器506,用于存放第一數(shù)據(jù)集合、第二數(shù)據(jù)集合以及程序510。存儲(chǔ)器506可能包含高速ram存儲(chǔ)器,也可能還包括非易失性存儲(chǔ)器(non-volatilememory),例如至少一個(gè)磁盤存儲(chǔ)器。

程序510具體可以用于使得處理器502執(zhí)行以下操作:對(duì)文件中除目錄頁(yè)以外的其他頁(yè)面中的文本對(duì)象進(jìn)行文字樣式聚類處理,得到多個(gè)具有不同文字樣式的文本對(duì)象集合;對(duì)文件的目錄頁(yè)進(jìn)行分析,得到目錄項(xiàng)文本;對(duì)于每個(gè)文本對(duì)象集合,將該文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對(duì)象屬于目錄項(xiàng)的文本對(duì)象集合;將文本對(duì)象與該文本對(duì)象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁(yè)。

在一種可選的實(shí)施方式中,文字樣式包括:文字字號(hào)和文字字體;

程序510還用于使得處理器502在將文本對(duì)象與該文本對(duì)象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁(yè)時(shí):依據(jù)文字字號(hào)確定屬于目錄項(xiàng)的文本對(duì)象集合中文本對(duì)象的目錄級(jí)別;依據(jù)目錄級(jí)別,將文本對(duì)象與該文本對(duì)象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁(yè)。

在一種可選的實(shí)施方式中,程序510還用于使得處理器502在將文本對(duì)象與該文本對(duì)象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁(yè)時(shí):依據(jù)屬于目錄項(xiàng)的文本對(duì)象集合中文本對(duì)象在文件中出現(xiàn)的初始偏移位置,確定屬于目錄項(xiàng)的文本對(duì)象集合中文本對(duì)象的目錄級(jí)別;依據(jù)目錄級(jí)別,將文本對(duì)象與該文本對(duì)象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁(yè)。

在一種可選的實(shí)施方式中,程序510還用于使得處理器502在將該文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對(duì)象屬于目錄項(xiàng)的文本對(duì)象集合時(shí):判斷文本對(duì)象集合中與目錄項(xiàng)文本的文字內(nèi)容匹配的文本對(duì)象的項(xiàng)數(shù)與文本對(duì)象集合中文本對(duì)象的總項(xiàng)數(shù)的比率是否大于或等于預(yù)設(shè)比率閾值;若是,則確定文本對(duì)象屬于目錄項(xiàng)的文本對(duì)象集合。

在一種可選的實(shí)施方式中,程序510還用于使得處理器502在將該文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配之前,對(duì)于每個(gè)文本對(duì)象集合,將文本對(duì)象的總項(xiàng)數(shù)與預(yù)設(shè)項(xiàng)數(shù)閾值進(jìn)行比較,篩選得到文本對(duì)象的總項(xiàng)數(shù)小于或等于預(yù)設(shè)項(xiàng)數(shù)閾值的文本對(duì)象集合進(jìn)行后續(xù)處理。

在一種可選的實(shí)施方式中,程序510還用于使得處理器502在將該文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配之前,對(duì)于每個(gè)文本對(duì)象集合,將文本對(duì)象的平均字?jǐn)?shù)與預(yù)設(shè)字?jǐn)?shù)閾值進(jìn)行比較,篩選得到文本對(duì)象的平均字?jǐn)?shù)小于或等于預(yù)設(shè)字?jǐn)?shù)閾值的文本對(duì)象集合進(jìn)行后續(xù)處理。

在一種可選的實(shí)施方式中,程序510還用于使得處理器502在將該文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配之前,對(duì)于每個(gè)文本對(duì)象集合,將文本對(duì)象的文字字號(hào)與預(yù)設(shè)字號(hào)閾值進(jìn)行比較,篩選得到文本對(duì)象的文字字號(hào)大于或等于預(yù)設(shè)字號(hào)閾值的文本對(duì)象集合進(jìn)行后續(xù)處理。

在一種可選的實(shí)施方式中,程序510還用于使得處理器502在將該文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配之前,依據(jù)文字字號(hào)從大到小的順序?qū)Χ鄠€(gè)文本對(duì)象集合進(jìn)行排序;

程序510還用于使得處理器502在對(duì)于每個(gè)文本對(duì)象集合,將該文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配時(shí):依據(jù)排序結(jié)果,依次將每個(gè)文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配。

在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見(jiàn)的。此外,本發(fā)明也不針對(duì)任何特定編程語(yǔ)言。應(yīng)當(dāng)明白,可以利用各種編程語(yǔ)言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語(yǔ)言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。

在此處所提供的說(shuō)明書(shū)中,說(shuō)明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒(méi)有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說(shuō)明書(shū)的理解。

類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開(kāi)并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開(kāi)的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說(shuō),如下面的權(quán)利要求書(shū)所反映的那樣,發(fā)明方面在于少于前面公開(kāi)的單個(gè)實(shí)施例的所有特征。因此,遵循具體實(shí)施方式的權(quán)利要求書(shū)由此明確地并入該具體實(shí)施方式,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。

本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中。可以把實(shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過(guò)程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說(shuō)明書(shū)(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的所有特征以及如此公開(kāi)的任何方法或者設(shè)備的所有過(guò)程或單元進(jìn)行組合。除非另外明確陳述,本說(shuō)明書(shū)(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來(lái)代替。

此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書(shū)中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來(lái)使用。

應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說(shuō)明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來(lái)實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過(guò)同一個(gè)硬件項(xiàng)來(lái)具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。

本發(fā)明公開(kāi)了:a1.一種文件目錄的生成方法,包括:

對(duì)文件中除目錄頁(yè)以外的其他頁(yè)面中的文本對(duì)象進(jìn)行文字樣式聚類處理,得到多個(gè)具有不同文字樣式的文本對(duì)象集合;

對(duì)文件的目錄頁(yè)進(jìn)行分析,得到目錄項(xiàng)文本;

對(duì)于每個(gè)文本對(duì)象集合,將該文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對(duì)象屬于目錄項(xiàng)的文本對(duì)象集合;

將文本對(duì)象與該文本對(duì)象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁(yè)。

a2.根據(jù)a1所述的方法,其中,所述文字樣式包括:文字字號(hào)和文字字體;

所述將文本對(duì)象與該文本對(duì)象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁(yè)進(jìn)一步包括:

依據(jù)文字字號(hào)確定屬于目錄項(xiàng)的文本對(duì)象集合中文本對(duì)象的目錄級(jí)別;

依據(jù)目錄級(jí)別,將文本對(duì)象與該文本對(duì)象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁(yè)。

a3.根據(jù)a1所述的方法,其中,所述將文本對(duì)象與該文本對(duì)象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁(yè)進(jìn)一步包括:

依據(jù)屬于目錄項(xiàng)的文本對(duì)象集合中文本對(duì)象在文件中出現(xiàn)的初始偏移位置,確定屬于目錄項(xiàng)的文本對(duì)象集合中文本對(duì)象的目錄級(jí)別;

依據(jù)目錄級(jí)別,將文本對(duì)象與該文本對(duì)象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁(yè)。

a4根據(jù)a1-a3任一項(xiàng)所述的方法,其中,所述將該文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對(duì)象屬于目錄項(xiàng)的文本對(duì)象集合進(jìn)一步包括:

判斷文本對(duì)象集合中與目錄項(xiàng)文本的文字內(nèi)容匹配的文本對(duì)象的項(xiàng)數(shù)與文本對(duì)象集合中文本對(duì)象的總項(xiàng)數(shù)的比率是否大于或等于預(yù)設(shè)比率閾值;

若是,則確定文本對(duì)象屬于目錄項(xiàng)的文本對(duì)象集合。

a5.根據(jù)a1-a4任一項(xiàng)所述的方法,其中,在將該文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配之前,所述方法還包括:

對(duì)于每個(gè)文本對(duì)象集合,將文本對(duì)象的總項(xiàng)數(shù)與預(yù)設(shè)項(xiàng)數(shù)閾值進(jìn)行比較,篩選得到文本對(duì)象的總項(xiàng)數(shù)小于或等于預(yù)設(shè)項(xiàng)數(shù)閾值的文本對(duì)象集合進(jìn)行后續(xù)處理。

a6.根據(jù)a1-a4任一項(xiàng)所述的方法,其中,在將該文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配之前,所述方法還包括:

對(duì)于每個(gè)文本對(duì)象集合,將文本對(duì)象的平均字?jǐn)?shù)與預(yù)設(shè)字?jǐn)?shù)閾值進(jìn)行比較,篩選得到文本對(duì)象的平均字?jǐn)?shù)小于或等于預(yù)設(shè)字?jǐn)?shù)閾值的文本對(duì)象集合進(jìn)行后續(xù)處理。

a7.根據(jù)a1-a4任一項(xiàng)所述的方法,其中,在將該文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配之前,所述方法還包括:

對(duì)于每個(gè)文本對(duì)象集合,將文本對(duì)象的文字字號(hào)與預(yù)設(shè)字號(hào)閾值進(jìn)行比較,篩選得到文本對(duì)象的文字字號(hào)大于或等于預(yù)設(shè)字號(hào)閾值的文本對(duì)象集合進(jìn)行后續(xù)處理。

a8.根據(jù)a1-a7任一項(xiàng)所述的方法,其中,在將該文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配之前,所述方法還包括:

依據(jù)文字字號(hào)從大到小的順序?qū)Χ鄠€(gè)文本對(duì)象集合進(jìn)行排序;

所述對(duì)于每個(gè)文本對(duì)象集合,將該文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配進(jìn)一步包括:

依據(jù)排序結(jié)果,依次將每個(gè)文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配。

本發(fā)明還公開(kāi)了:b9.一種文件目錄的生成裝置,包括:

聚類處理模塊,適于對(duì)文件中除目錄頁(yè)以外的其他頁(yè)面中的文本對(duì)象進(jìn)行文字樣式聚類處理,得到多個(gè)具有不同文字樣式的文本對(duì)象集合;

分析模塊,適于對(duì)文件的目錄頁(yè)進(jìn)行分析,得到目錄項(xiàng)文本;

匹配模塊,適于對(duì)于每個(gè)文本對(duì)象集合,將該文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對(duì)象屬于目錄項(xiàng)的文本對(duì)象集合;

生成模塊,適于將文本對(duì)象與該文本對(duì)象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁(yè)。

b10.根據(jù)b9所述的裝置,其中,所述文字樣式包括:文字字號(hào)和文字字體;

所述生成模塊進(jìn)一步包括:確定單元,適于依據(jù)文字字號(hào)確定屬于目錄項(xiàng)的文本對(duì)象集合中文本對(duì)象的目錄級(jí)別;

生成單元,適于依據(jù)目錄級(jí)別,將文本對(duì)象與該文本對(duì)象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁(yè)。

b11.根據(jù)b9所述的裝置,其中,所述生成模塊進(jìn)一步包括:確定單元,適于依據(jù)屬于目錄項(xiàng)的文本對(duì)象集合中文本對(duì)象在文件中出現(xiàn)的初始偏移位置,確定屬于目錄項(xiàng)的文本對(duì)象集合中文本對(duì)象的目錄級(jí)別;

生成單元,適于依據(jù)目錄級(jí)別,將文本對(duì)象與該文本對(duì)象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁(yè)。

b12.根據(jù)b9-b11任一項(xiàng)所述的裝置,其中,所述匹配模塊進(jìn)一步適于:判斷文本對(duì)象集合中與目錄項(xiàng)文本的文字內(nèi)容匹配的文本對(duì)象的項(xiàng)數(shù)與文本對(duì)象集合中文本對(duì)象的總項(xiàng)數(shù)的比率是否大于或等于預(yù)設(shè)比率閾值;若是,則確定文本對(duì)象屬于目錄項(xiàng)的文本對(duì)象集合。

b13.根據(jù)b9-b12任一項(xiàng)所述的裝置,其中,所述裝置還包括:篩選模塊,適于對(duì)于每個(gè)文本對(duì)象集合,將文本對(duì)象的總項(xiàng)數(shù)與預(yù)設(shè)項(xiàng)數(shù)閾值進(jìn)行比較,篩選得到文本對(duì)象的總項(xiàng)數(shù)小于或等于預(yù)設(shè)項(xiàng)數(shù)閾值的文本對(duì)象集合進(jìn)行后續(xù)處理。

b14.根據(jù)b9-b12任一項(xiàng)所述的裝置,其中,所述裝置還包括:篩選模塊,適于對(duì)于每個(gè)文本對(duì)象集合,將文本對(duì)象的平均字?jǐn)?shù)與預(yù)設(shè)字?jǐn)?shù)閾值進(jìn)行比較,篩選得到文本對(duì)象的平均字?jǐn)?shù)小于或等于預(yù)設(shè)字?jǐn)?shù)閾值的文本對(duì)象集合進(jìn)行后續(xù)處理。

b15.根據(jù)b9-b12任一項(xiàng)所述的裝置,其中,所述裝置還包括:篩選模塊,適于對(duì)于每個(gè)文本對(duì)象集合,將文本對(duì)象的文字字號(hào)與預(yù)設(shè)字號(hào)閾值進(jìn)行比較,篩選得到文本對(duì)象的文字字號(hào)大于或等于預(yù)設(shè)字號(hào)閾值的文本對(duì)象集合進(jìn)行后續(xù)處理。

b16.根據(jù)b9-b15任一項(xiàng)所述的裝置,其中,所述裝置還包括:

排序模塊,適于依據(jù)文字字號(hào)從大到小的順序?qū)Χ鄠€(gè)文本對(duì)象集合進(jìn)行排序;

所述匹配模塊進(jìn)一步適于:依據(jù)排序結(jié)果,依次將每個(gè)文本對(duì)象集合中文本對(duì)象分別與目錄項(xiàng)文本進(jìn)行文字內(nèi)容模糊匹配。

本發(fā)明還公開(kāi)了:c17.一種服務(wù)器,包括:處理器、存儲(chǔ)器、通信接口和通信總線,所述處理器、所述存儲(chǔ)器和所述通信接口通過(guò)所述通信總線完成相互間的通信;

所述存儲(chǔ)器用于存放至少一可執(zhí)行指令,所述可執(zhí)行指令使所述處理器執(zhí)行如a1-a8中任一項(xiàng)所述的文件目錄的生成方法對(duì)應(yīng)的操作。

本發(fā)明還公開(kāi)了:d18.一種計(jì)算機(jī)存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一可執(zhí)行指令,所述可執(zhí)行指令使所述處理器執(zhí)行如a1-a8中任一項(xiàng)所述的文件目錄的生成方法對(duì)應(yīng)的操作。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
新邵县| 丰都县| 连云港市| 玉树县| 桐梓县| 宁化县| 康定县| 清水河县| 津市市| 邯郸市| 桦甸市| 平泉县| 建水县| 类乌齐县| 沙雅县| 上饶县| 临西县| 恩施市| 云安县| 丰原市| 辽源市| 扎兰屯市| 福州市| 商河县| 景德镇市| 石柱| 南和县| 海南省| 双峰县| 夹江县| 固始县| 太湖县| 专栏| 衡阳市| 枣阳市| 习水县| 永济市| 申扎县| 紫金县| 黄大仙区| 通山县|