技術(shù)特征:
技術(shù)總結(jié)
本發(fā)明實施例提供了一種PDF文檔標(biāo)題結(jié)構(gòu)樹生成方法、裝置、終端及系統(tǒng),為了解決從PDF文檔中提取文檔的標(biāo)題結(jié)構(gòu)的問題,首先,獲取PDF文檔中所有的字符信息;然后,獲取每個所述字符信息的屬性信息,所述屬性信息包括字符信息的X軸坐標(biāo)、Y軸坐標(biāo)、字符尺寸和字體樣式等;其次,根據(jù)所述屬性信息,將所述字符信息劃分成多個單元行,每個所述單元行順序包含所有位于文檔同一行的所述字符信息;再次,根據(jù)單元行劃分結(jié)果,從所有所述單元行中識別出所有標(biāo)題信息;最后,確定所述標(biāo)題信息的標(biāo)題級別,生成包含所有所述標(biāo)題信息的標(biāo)題結(jié)構(gòu)樹,解決了現(xiàn)有技術(shù)中無法從PDF文檔中提取文檔標(biāo)題結(jié)構(gòu)的問題。
技術(shù)研發(fā)人員:徐龍;王文軍;房平會
受保護的技術(shù)使用者:北京神州泰岳軟件股份有限公司;中科鼎富(北京)科技發(fā)展有限公司
技術(shù)研發(fā)日:2017.07.14
技術(shù)公布日:2017.10.24