專利名稱:一種建立數(shù)字文檔目錄與正文之間鏈接的方法及裝置的制作方法
技術領域:
本發(fā)明涉及文檔處理技術領域,尤其涉及一種建立數(shù)字文檔目錄與正文之 間鏈接的方法及裝置。
背景技術:
文檔的目錄可以用來索引文檔,便于讀者的檢索和閱讀。對于數(shù)字文檔中, 一般讀者希望能夠通過點擊某個目錄項,就可以跳轉到對應該目錄項的正文部 分,從而可以提高讀者查找內容的速度以及閱讀的速度。
紙質文檔中在文檔的前面或者章節(jié)的中間部分會有版4又頁、目錄頁、前言、 序、跋、附錄和參考文檔等非正文部分的內容,在具體的頁碼標記的過程中,
一般都是每個內容都有各自的頁碼排序,例如對于目錄頁共有5頁,按照其自 身的頁碼排序方法分別為第一頁到第五頁,正文部分從第六頁開始,但是按照 其正文部分的排序該頁為正文部分的第一頁,并且 目錄中記錄的該正文部分對 應的頁碼也是第一頁,但是該頁碼并不代表其真正的邏輯頁碼。
在紙質文檔經過光學特征識別(Optical Character Recognition, OCR)轉化 為數(shù)字文檔,或者通過文檔處理軟件,例如Adobe Acrobat或方正飛騰排版軟 件等,直接生成數(shù)字文檔后,數(shù)字文檔記錄的都是每一頁的邏輯頁,即以數(shù)字 文檔為一個整體,每頁在這個整體的位置。因此,數(shù)字文檔的目錄中記錄的每 個目錄條目標記的該內容的自然頁,與數(shù)字文檔的邏輯頁之間不存在對應關 系?,F(xiàn)有技術中建立數(shù)字文檔的目錄頁與正文之間的鏈接, 一般都是通過人工 手動完成,效率低、鏈接建立的速度慢,并且準確率也不高。
發(fā)明內容
有鑒于此,本發(fā)明實施例提供一種建立數(shù)字文檔目錄與正文之間鏈接的方 法及裝置,用以自動建立數(shù)字文檔目錄與正文之間鏈接,提高數(shù)字文檔目錄與 正文之間鏈接建立的效率。
本發(fā)明實施例提供的一種建立數(shù)字文檔目錄與正文之間鏈接的方法,其中 所述數(shù)字文檔目錄包含多個目錄條目,每個目錄條目包含至少一個目錄項信
息,包括
從保存的每個目錄條目中獲取至少一個目錄項信息,根據(jù)所述至少一個目 錄項信息,在數(shù)字文檔中確定每個目錄條目對應的每個邏輯頁;
建立每個目錄條目與對應的每個邏輯頁之間的鏈接。
本發(fā)明實施例提供的一種建立數(shù)字文檔目錄與正文之間鏈接的裝置,其中 所述數(shù)字文檔目錄包含多個目錄條目,每個目錄條目包含至少一個目錄項信 息,包括
邏輯頁識別模塊,用于從保存的每個目錄條目中獲取至少一個目錄項信 息,根據(jù)所述至少一個目錄項信息,在數(shù)字文檔中確定每個目錄條目對應的每 個邏輯頁;
鏈接建立模塊,用于建立每個目錄條目與對應的每個邏輯頁之間的鏈接。 本發(fā)明實施例提供的一種建立數(shù)字文檔目錄與正文之間鏈接的方法,可以 通過根據(jù)保存的目錄條目信息獲取至少一個目錄項信息,將該至少一個目錄項 信息在數(shù)字文檔的頁面進行匹配,根據(jù)匹配的結果確定每個目錄條目對應的每 個邏輯頁,從而建立每個目錄條目與該邏輯頁間的鏈接。采用此自動建立數(shù)字 文檔目錄與正文之間鏈接的方法,可以有效地提高數(shù)字文檔的目錄與正文之間 鏈接的建立效率,進而提高數(shù)字文檔的制作效率。
圖1為本發(fā)明實施例提供的一種自動建立數(shù)字文檔目錄與正文之間鏈接的 方法流程圖2為本發(fā)明實施例提供的一種建立數(shù)字文檔目錄與正文之間鏈接的方法 具體實施流程圖; .日J
目對應的每個邏輯頁的方法流程圖4為本發(fā)明實施例提供的確定字符坐標示意日A :^mwi肝4^的;^攝曰豕常曰卞的杯題日豕,'
目對應的每個邏輯頁的方法流程圖6A為本發(fā)明實施例提供的具體的建立數(shù)字文檔目錄與正文之間鏈接的 方法具體實施流程圖6B為本發(fā)明實施例提供的根據(jù)頁碼目錄項信息和標題目錄項信息確定 邏輯頁的方法流程圖7為本發(fā)明實施例提供的數(shù)字文檔的目錄頁; 圖8為本發(fā)明實施例提供的數(shù)字文檔的正文頁;
圖9為本發(fā)明實施例提供的一種建立數(shù)字文檔目錄與正文之間鏈接的裝置 結構圖。
具體實施例方式
在本發(fā)明實施例中為了實現(xiàn)數(shù)字文檔目錄與正文之間鏈接的自動建立,提 高數(shù)字文檔目錄與正文之間鏈接建立的效率,如圖l所示,提供了一種建立數(shù) 字文檔目錄與正文之間鏈接的方法,其中所述數(shù)字文檔目錄包含多個目錄條 目,每個目錄條目包含至少一個目錄項信息,具體包括以下步驟
S101:從保存的每個目錄條目中獲取至少一個目錄項信息,根據(jù)所述至少 一個目錄項信息,在數(shù)字文檔中確定每個目錄條目對應的每個邏輯頁。
其中,該獲取的至少一個目錄項信息包括頁碼目錄項信息和/或標題目錄 項信息。
S102:建立每個目錄條目與對應的每個邏輯頁之間的鏈接。 下面結合附圖對本發(fā)明實施例進行詳細的說明。
在本發(fā)明實施例中所采用的數(shù)據(jù)文檔,能夠按頁讀取該數(shù)字文檔,并且能 夠獲取數(shù)字文檔每頁的字符,并可以獲得每個字符在每頁的坐標信息,同時能 夠識別出文字的字體信息,即文字的字體類型,字號等信息。
如圖2所示,為本發(fā)明實施例中建立數(shù)字文檔目錄與正文之間鏈接的方法, 具體包括以下步驟
S201:讀入數(shù)字文檔,獲取保存的每個目錄條目信息。 保存的目錄條目為,根據(jù)識別的數(shù)字文檔的目錄的信息,將目錄中的每一 行作為一個目錄條目,該目錄條目中包括章節(jié)序號目錄項,為該目錄行代表 的章節(jié)序號信息,例如,第二章、第十節(jié)等;或標題目錄項,為該目錄行代表 的標題信息,即章節(jié)序號后、頁碼信息前的文字信息;或頁碼目錄項,為該目 錄行中該章節(jié)所在的自然頁。
S202:根據(jù)每個目錄條目中的至少一個目錄項信息,確定每個目錄條目對 應的每個邏輯頁。
其中每個目錄條目中的至少一個目錄項信息包括目錄條目中的頁碼目錄 項信息或根據(jù)目錄條目中的標題目錄項信息,或者兩者的結合。
S203:建立每個目錄條目與對應的每個邏輯頁之間的鏈接。
如圖3所示,為本發(fā)明實施例提供的根據(jù)目錄條目中的頁碼目錄項信息, 確定每個目錄條目對應的每個邏輯頁的方法,具體包括以下步驟
S301:根據(jù)每個目錄條目中的頁碼目錄項中的頁碼信息,確定對應該頁碼 的邏輯頁所在的候選頁。
根據(jù)預置的邏輯頁所在的候選頁與頁碼的關系,確定該頁碼的邏輯頁所在 的候選頁,其中該預置的規(guī)格根據(jù)每個目錄條目的頁碼信息,確定每個目錄條 目的頁碼對應的邏輯頁所在的候選頁包括根據(jù)頁碼目錄項中的頁碼、數(shù)字文 檔目錄頁的總頁數(shù)及設定的范圍閾值參數(shù),確定該目錄條目的頁碼對應的邏輯 頁所在的候選頁,即確定該目錄條目對應的邏輯頁所在的候選頁。
具體為當頁碼目錄項中頁碼為n時,數(shù)字文檔目錄頁的總頁數(shù)為K,同時 設定的范圍閾值參數(shù)為D,則可知該頁碼n對應的邏輯頁所在的候選頁N為
Z^iVS" +《+ ^。在實際的計算過程中可以根據(jù)需要靈活設置范圍閾值參 數(shù)D的大小,采用合適的范圍閾值參數(shù)可以達到提高鏈接建立的效率,同時也 可以滿足準確度的要求。
S302:在每個候選頁中提取有效信息。
具體包括根據(jù)保存的版心范圍的信息,及每個候選頁中每個字符的坐標, 確定位于該版心范圍外的字符,從該版心范圍外的字符中提取數(shù)字字符。即確 定版心范圍外的頁眉頁腳中的字符,從該字符中提取出數(shù)字字符。其中,保存 的版心范圍的信息包括版心范圍的上邊界線、下邊界線、左邊界限和右邊界 線信息,
其中每個字符的坐標包括根據(jù)該字符的最小外接矩形框確定的該字符的 坐標,字符的坐標用其最小外接矩形框的兩個對角的頂點的坐標表示,如圖4, 字符"目"的坐標可以采用頂點1和3的坐標表示,或者采用頂點2和4的坐 標表示,例如采用頂點1和3的坐標表示字符的坐標,該字符的坐標表示為(xj, yi, x2, y2), x!為頂點l的4黃坐標,即頂點1距離坐標軸y的距離,》為頂點 1的縱坐標,即頂點l距離坐標軸x的距離,X2為頂點3的橫坐標,即頂點3 距離坐標軸y的距離,y2為頂點3的縱坐標,即頂點3距離坐標軸x的距離。
S303:合并提取的有效信息。
根據(jù)提取的數(shù)字字符信息,判斷每兩個數(shù)字字符間的距離是否超過設定的 間距閾值,當兩個數(shù)字字符的間距沒有超過設定的間距閾值時,將該兩個數(shù)字 字符合并為一個數(shù)字字符串;否則認為該兩個數(shù)字字符為兩個獨立的數(shù)字字符 串。
其中,判斷每兩個數(shù)字字符的間距是否超過設定的間距閾值時,可以根據(jù) 每兩個數(shù)字字符的坐標判斷,如圖4所示的確定每個字符坐標的方法,首先判 斷兩個字符是否可以認為在同一行,其中具體的判斷過程可以比較兩個字符的
縱坐標,當了兩個數(shù)字字符對應的縱坐標的差值的絕對值小于設定的第一條件 值時,判定該兩個數(shù)字字符在同一行,否則不同行,其中對應的縱坐標,即當
采用一個數(shù)字字符的頂點3的縱坐標時,也應該采用第二個數(shù)字字符頂點3的 縱坐標;然后判斷同行中的兩個數(shù)字字符的水平間距是否滿足設定的第二條件 值,例如比較兩個數(shù)字字符的橫坐標值,當兩個橫坐標對應的橫坐標的差值的 絕對值小于設定的第二條件值時,則判定該兩個字符可以合并為一個數(shù)字字符 串。當然在具體的計算過程中還可以根據(jù)其他采用坐標確定兩個數(shù)字字符是否 合并為一個數(shù)字字符串的方法,這里就不一一贅述。
S304:將目錄條目中頁碼目錄項的頁碼信息與合并的有效信息匹配,根據(jù) 匹配的結果確定該目錄條目中對應的邏輯頁。
具體包括將目錄條目中頁碼目錄項的頁碼與合并后的每個字符串進行大 小的比較,根據(jù)合并后的每個字符串是否與頁碼相同,確定每個候選頁對應該 目錄條目的第 一 目錄條目置信度??梢赃x取第一 目錄條目置信度最高的候選 頁,作為該目錄條目中對應的邏輯頁。
其中具體實施過程中可以包括首先對于目錄條目頁碼目錄項中的頁碼對 應的邏輯頁所在候選頁中的每個候選頁設定一個相同的初始置信度X,將目錄 條目頁碼目錄項中的頁碼與每個候選頁中的合并后的每個數(shù)字字符串匹配,每 找到一個與該目錄條目中的頁碼匹配的數(shù)字字符串時,將該候選頁對應的置信 度加Y,當每找到一個與該目錄條目沖的頁碼不匹配的數(shù)字字符串時,將該候 選頁對應的置信度減E,從而確定該候選頁對應該目錄條目的第一置信度。例 如該候選頁一共合并得到了 5個數(shù)字字符串,該候選頁的初始執(zhí)行度為X,有 一個數(shù)字字符串與目錄條目中的頁碼匹配,4個數(shù)字字符串與目錄條目中的頁 碼不匹配,則可知該候選頁對應的置信度為X+Y-4E。其中,X、 Y和E都為 大于零的正實數(shù)。
目錄條目對應的邏輯頁,如圖5所示,為本發(fā)明實施例提供的根據(jù)目錄條目中
的標題目錄項,確定每個目錄條目對應的每個邏輯頁的方法,具體包括以下步
驟
S501:根據(jù)每頁中的所有字符的坐標,在每頁中將所有的字符排列為若干行。
具體包括每個候選頁的頁面中,將所有字符排序,首先判斷每兩個字符 是否為同一行,以數(shù)字文檔目錄項的排版方向為橫排為例,可以按照判斷兩個 字符的垂直方向的間距是否不超過預置的間距參數(shù)h,其中h為正實數(shù),當兩 個字符在垂直方向的間距間距不大于間距參數(shù)h時,則將兩個字符排列在一行, 否則,不將兩個字符排列在一行;然后在每一行中,按照橫坐標依次遞增的原 則將每行的字符排序。如圖4所示,則排序后得到此行的最小外接矩形框為(Xm, ym, xn, yn),該行中所有字符的最小外接矩形框包括在該行的最小外接矩形框 內,其中Xm為此行中最左端字符1的橫坐標值,該橫坐標可以為該字符的左 上頂點的橫坐標或左下頂點的橫坐標,ym為此行中最上端字符3的縱坐標值,
該縱坐標可以為該字符的左上頂點的縱坐標或右上頂點的縱坐標,Xn為此行中
最右端字符4的橫坐標值,該橫坐標可以為該字符的右上頂點的橫坐標或右下 頂點的橫坐標,y。為此行中最下端字符2的縱坐標值,該縱坐標可以為該字符 的左下頂點的縱坐標或右下頂點的縱坐標。
S502:在每行中將該行的字符,與保存的目錄條目中的標題目錄項中的標 題信息匹配。
具體的匹配過程包括根據(jù)最長公共子串(Longest Common Subsequence, LCS)算法,進行字符串間相似度的匹配,該字符串包括目錄條目中的標題 及每行的字符;同時再根據(jù)設置的至少一個特征信息,確定該行對應標題目錄 項信息的總置信度。
其中,該設置的至少一個特征信息包括該行字符在其所在的數(shù)字文檔頁 面中的位置,或該行字符的平均文字寬度與正文部分的平均文字寬度的大小, 或根據(jù)LCS算法匹配的字符串是否與其他的文字字符同行。根據(jù)上迷至少一 個特征信息與LCS算法可以確定每行字符對應標題目錄項信息的總置信度。
S503:根據(jù)每頁中每行與標題信息的匹配結果,確定該目錄條目中對應的 邏輯頁。
根據(jù)每行字符與標題信息的匹配程度得到總置信度,將每頁中每行對應的 最高總置信度作為該頁對應該目錄條目的第二目錄條目置信度,根據(jù)每頁對應 該目錄條目的第二目錄條目置信度,確定每個目錄條目對應的邏輯頁。
當然通過目錄條目中的標題信息,確定每個目錄條目對應的邏輯頁,其具 體的實現(xiàn)過程可靠性高,但是同時也會影響目錄與正文之間鏈接建立的效率, 因此可以采用頁碼信息和標題信息結合確定每個目錄條目對應的邏輯頁,具體 包括根據(jù)頁碼信息確定該頁碼對應的邏輯頁所在的候選頁,在每個候選頁內 進行頁碼信息的匹配,確定每個候選頁對應該目錄條目的第 一 目錄條目置信 度,同時在每個候選頁中根據(jù)標題信息進行匹配,確定每個候選頁對應該目錄 條目的第二目錄條目置信度,根據(jù)每個候選頁對應該目錄條目的第一目錄條目 置信度,及每個候選頁對應該目錄條目的第二目錄條目置信度,并設定頁碼信 息匹配和標題信息匹配對應的權重系數(shù),確定每個候選頁對應目錄條目的總置 信度,從而確定每個目錄條目對應的邏輯頁。
如圖6A所示,為本發(fā)明實施例中以內蒙古大學出版社2006年出版的《心 理健康教育》為例,具體說明建立數(shù)字文檔目錄和正文之間鏈接的方法,具體 包括以下步驟
步驟601:讀入數(shù)字文檔,獲取保存的目錄條目信息。
該數(shù)字文檔共有236頁,目錄條目59條。其中以圖7所示第二章第一節(jié) 對應的目錄條目為例詳細描述建立該目錄條目與正文之間的鏈接的過程。該目 錄條目中章節(jié)目錄項為"第一節(jié)",標題目錄項為"自我意識概述",頁碼目錄 項為"20"。
步驟602:根據(jù)保存的目錄條目的信息設置的至少一個目錄項信息,確定 每個目錄條目對應的邏輯頁。
步驟603:根據(jù)確定的每個目錄條目對應的邏輯頁,建立每個目錄條目和 對應的每個邏輯頁的鏈接。
如圖6B所示為在本發(fā)明實施例中按照目錄條目中的頁碼目錄項的頁碼信 息和標題目錄項中的標題信息,確定每個目錄條目對應的邏輯頁的方法,具體 確定每個目錄條目對應的邏輯頁的過程包括
步驟602a:根據(jù)目錄條目中的頁碼目錄項中的頁碼信息,確定每個目錄條 目對應的邏輯頁所在的候選頁。
其中該目錄條目的頁碼目錄項中頁碼為20,根據(jù)設置的邏輯頁所在的候選 頁與頁碼的關系"+ K-D^A^" + K + D,其中該數(shù)字文檔的總頁數(shù)K為5,范圍 閾值參數(shù)D為3,則確定該目錄條目對應的邏輯頁所在的候選頁為第22頁到 第28頁。
步驟602b:在每個候選頁內提取有效信息。
在本發(fā)明實施例中保存的該數(shù)字文檔的版心范圍信息為,上邊界線縱坐標 為80.73,左邊界線的橫坐標為O,右邊界線的橫坐標為485,下邊界線的縱坐 標為697.10。在每個候選頁內,根據(jù)每個字符的坐標,確定版心范圍外的字符, 并從版心范圍外的字符中提取數(shù)字字符。在具體的計算過程中,如圖4所示, 每個字符的坐標根據(jù)該字符的最小外接矩形框的頂點1和頂點3的坐標確定, 當字符的頂點1的縱坐標比80.73小,或頂點3的縱坐標比697.10大,或頂點 l的橫坐標比O小,或頂點3的橫坐標比485大時,都認為該字符的位于版心 范圍外。
在位于版心范圍外的字符中提取出數(shù)字字符。將提出的數(shù)字字符進行合 并。例如提取出數(shù)字字符為"7"和"1",其中數(shù)字字符"7"的坐標為(421.05,699.83: 425.76,706.94),數(shù)字字符T的坐標為(416.74, 699.83, 419.47, 706.94)。 將提取出的數(shù)字字符按照其坐標排序。例如數(shù)字字符"1"頂點1的橫坐標大 于數(shù)字字符"7"頂點l的橫坐標,數(shù)字字符"1"頂點3的橫坐標小于數(shù)字字 符"7"頂點3的纟黃坐標,并且數(shù)字字符"1"和"7"對應的縱坐標相同,則
可知兩個數(shù)字字符在同一行,且數(shù)字字符"r在數(shù)字字符"7"的左邊。 同時數(shù)字字符"7"頂點i的橫坐標與數(shù)字字符"r頂點3的橫坐標的差
為1.58,設定的間距閾值為2.37到4.71間的一個凄t值,則可知兩個數(shù)字字符 可以合并為一個數(shù)字字符串,合并后該數(shù)字字符串為"17",且該數(shù)字字符串 的坐標為(416.74, 699.83, 425.76, 706.94)。
步驟602c:將提取的有效信息和保存的目錄條目中的頁碼信息進行匹酉己, 確定每個候選頁對應該目錄條目的第一目錄條目置信度。
將合并后的數(shù)字字符串與目錄條目中的頁碼信息進行比較。該目錄條目中 的頁碼信息為20,并后的數(shù)字字符串為17,此兩個數(shù)字字符不符。因此將候 選頁的置信度減E,本實施例初始置信度X為50, E為6,則可知本候選頁的 置信度為44。
采用上述方法可以得到,對于自然頁數(shù)為第22頁到第28頁中的每個候選 頁進行頁碼匹配后得到的第一目錄條目置信度分別為44, 44, 44, 80, 44, 44, 44。
步驟602d:根據(jù)每頁中的所有的字符的坐標,在每頁中將所有的字符排列 為若干行。
為了保證每一頁中所有字符按照行排列,在排列的過程中字符間的水平中 軸線間的垂直距離需要滿足一定的條件,此字符間的水平中軸線的垂直距離可 以根據(jù)計算字符的上端和下端的兩個頂點的縱坐標的平均值,再計算兩個字符 的對應的縱坐標的平均值的差值確定。在本發(fā)明實施例中判斷兩個字符A和B 是否能夠排在一行的方法為計算字符A的兩個縱坐標的平均值,并計算字符 A的較大的縱坐標與較小的縱坐標的差值,同時計算字符B的兩個縱坐標的平 均值,并計算字符B的較大的縱坐標與較小的縱坐標的差值,判斷字符A、 B 對應的縱坐標的平均值的差值,是否小于兩個字符A、 B中較小的較大的縱坐 標與較小的縱坐標的差值與參數(shù)的乘積,即判斷
<formula>formula see original document page 17</formula>
其中,MIN表示取兩者中較小值,j是小于1的正實數(shù),Y《A)為字符A的較 小的縱坐標值,Y2(A)為字符A的較大的縱坐標值,Yi(B)為字符B的較小的縱 坐標值,Y2(B)為字符B的較大的縱坐標值。當判斷結果為是時,將A和B排 列到一行,否則將A和B排列到不同行,然后依次判斷B和C兩個字符的縱 坐標是否滿足上述條件,判斷B和C是否排列到一行。采用此方法將每一頁 中所有字符進行排列。采用此方法排列后,每一行對應一個最小外接矩形框, 如圖4所示。
步驟602e:將每個候選頁的每行與目錄條目中的標題信息匹配,確定每個 候選頁對應目錄條目的第二目錄條目置信度。
步驟602f:根據(jù)每個候選頁對應每個目錄條目的第一目錄條目置信度以及 對應每個目錄條目的第二置信度,確定每個候選頁對應每個目錄條目的總置信 度,根據(jù)該總置信度確定每個目錄條目對應的邏輯頁。
根據(jù)每個候選頁對應目錄條目的第一目錄條目置信度dPageVeri以及對應 目錄條目的第二目錄條目置信度+dTitleVeri,以及第 一 目錄條目置信度對應的 權重系數(shù)dPageWeight以及第二目錄條目置信度對應的權重系數(shù)dTitleWeight, 確定每個候選頁對應每個目錄條目的總置信度,其中第一目錄條目置信度對應 的權重系數(shù)dPageWeight與第二目錄條目置信度對應的權重系數(shù)dTitleWeight 的和為1,并且都為大于零的正實數(shù),例如dPage Weight為0.4, dPage Weight 為0.6。采用上述確定總置信度的方法得到如圖8所示的自然頁為第25頁的候 選頁的總置信度為94。選^f總置信度最高的候選頁為該目錄條目對應的邏輯 頁。同時也可以設定總置信度閾值,將總置信度超過總置信度閾值的候選頁, 作為該目錄條目對應的邏輯頁。
其中,確定每個候選頁對應目錄條目的第二目錄條目置信度的過程包括
如圖8所示為本發(fā)明實施例提供的排列后的自然頁為第25頁的內容,采
用LCS算法將候選頁中每行的字符與目錄條目中的標題字符進行匹配,根據(jù) 匹配的結果確定候選頁中每行對應該標題目錄項信息的第一目錄項信息置信 度,確定第二目錄項信息置信度的過程包括確定候選頁中每行的字符在每行 中的位置,根據(jù)該位置確定每行的第二置信度,并比較每行字符的平均文字寬 度與正文部分的平均文字寬度大小,確定每行的第三置信度,同時根據(jù)LCS 算法匹配成功的字符串,確定該字符串是否與其他文字字符同行,確定每行對 應的第四置信度,根據(jù)上述條件對應的第二置信度、第三置信度和第四置信度, 及每個條件對應的權重系數(shù),確定每行對應該標題目錄項信息的第二目錄項信 息置信度,根據(jù)該第一目錄項信息置信度和第二目錄項信息置信度,確定每行 的總目錄項信息置信度。根據(jù)每個頁面中每行的總目錄項信息置信度,取其中 總置信度最大的值作為該候選頁對應該目錄條目的第二目錄條目置信度。
其中采用LCS算法將候選頁中每行的字符與目錄條目中的標題進行匹配, 該算法輸入的參數(shù)是兩個字符串,該兩個字符串為目錄條目的標題以及待匹配 行的字符串,經計算后返回這兩個字符串最長的公共子串部分,根據(jù)返回的最 長的公共字符串部分,可以確定兩個字符串的相似度從而確定該行的第一目錄 項信息置信度。例如將第25頁第二行的字符"第一節(jié)自我意識概述"與目 錄條目的標題"自我意識概述"根據(jù)LCS算法進行匹配,經匹配后輸出的結 果為"自我意識概述",匹配后的結果與目錄條目的標題相同,則可以確定該 行的第一目錄項信息置信度為100。第一目錄項信息置信度越高的行,則該行 的字符與目錄條目的標題的相似度越高。
并且進行每行字符位置的判斷。每行字符位置的判斷過程具體包括比較 根據(jù)每行的字符所在行的坐標確定的第一中軸線,與根據(jù)版心范圍的左、右邊 界線確定的第二中軸線的水平距離差的絕對值,根據(jù)該水平距離差的絕對值確 定每行的第二置信度。其中第二置信度越高的行,則該水平距離差的絕對值越 小。
并且在確定每行的字符的位置時,也可以根據(jù)每行的坐標確定每行的字符
的大概位置是否位于根據(jù)版心范圍的左、右邊界線確定的中間位置,當該行的 字符位于該中間位置時,根據(jù)該行的坐標確定該行的長度是否滿足設定的長度 條件,例如該設定的長度條件為小于整個版心范圍右邊界線和左邊界線差值的
80%,根據(jù)該行的長度是否滿足設定的長度條件,確定該行的第二置信度;或 者也可以當該行的字符位于版心的左邊時,根據(jù)該行的坐標確定該行的長度是 否滿足設定的長度條件,例如該設定的長度條件為小于整個版心范圍右邊界線 和左邊界線差值的70%,確定該行的第二置信度。
其中,在根據(jù)每行的坐標確定每行的字符的大概位置時,例如圖4所示的 行坐標,可以比較每行的坐標中Xm與版心范圍的左邊界線的第一差值,以及 版心范圍的右邊界線與Xn的第二差值的大小,當?shù)谝徊钪蹬c第二差值的差大 于設定的差值閾值時,則判斷該行的字符位于整個版心的兩邊,并且當?shù)谝徊?值較第二差值大時,判斷該行的字符位于整個版心的右端,當?shù)谝徊钪递^第二 差值小時,判斷該行的字符位于整個版心的左端。當然在實際的位置判斷過程 中可能還有很多的方法,但是基于本發(fā)明實施例思想根據(jù)坐標差判斷每行字符 位置的方法都應該在本發(fā)明的保護范圍內。
同時判斷每行字符的平均文字寬度與數(shù)字文檔正文的平均文字寬度的大 小,例如圖8中第二行的平均文字寬度為13.77,該數(shù)字文檔中正文的平均文 字寬度為10.29,該第二行的平均文字寬度大于數(shù)字文檔中正文的平均文字寬 度,確定該行對應的第三置信度。其中第三置信度越高的行,該行字符的平均 文字寬度越大。
并且根據(jù)LCS算法匹配成功的字符串,判斷該行中是否還存在其他的文 字字符。具體判斷該行中是否還存在其他的字符的過程中,將與該匹配成功的 字符串的坐標直接相鄰的文字字符,確定為該行中存在其他的文字字符,當有 文字字符與該匹配成功的字符存在間接連接關系時,例如"第二節(jié)自我意識 概述",匹配成功的字符為"自我意識概述",與該字符串在坐標上相連的為空 格,"第二節(jié)"與該字符串存在間接連接關系,可以認為該匹配成功的字符串
所在的行中不存在其他的文字字符,根據(jù)該匹配成功的字符串所在的行中是否 存在其他的文字字符,確定該行的第四置信度。
根據(jù)每行的第一目錄項信息置信度、以及由第二置信度、第三置信度和第 四置信度確定的第二目錄項信息置信度,及每個置信度對應的權重系數(shù),確定 每行的總目錄項信息置信度,取總目錄項信息置信度最高的值作為每個候選頁 對應該目錄條目的第二目錄條目置信度,其中,每個置信度對應的權重系數(shù)為 正實數(shù)。
本發(fā)明實施例提供的一種建立數(shù)字文檔目錄與正文之間鏈接的方法,可以 通過根據(jù)保存的目錄條目信息獲取至少一個目錄項信息,將該至少一個目錄項 信息在數(shù)字文檔的頁面進行匹配,根據(jù)匹配的結果確定每個目錄條目對應的每 個邏輯頁,從而建立每個目錄條目與該邏輯頁間的鏈接。采用此自動建立數(shù)字 文檔目錄與正文之間鏈接的方法,可以有效地提高數(shù)字文檔的目錄與正文之間 鏈接的建立效率,進而提高數(shù)字文檔的制作效率。
同時由于在數(shù)字文檔中,影響目錄條目中的自然頁和實際的邏輯頁不對應 的主要因素為正文之前的版權頁、目錄頁、前言、序附錄等內容,因此只要在 建立數(shù)字文檔的目錄與正文之間的鏈接的過程中,識別出該正文前版權頁、目 錄頁、前言、序附錄等內容的頁數(shù),根據(jù)該頁數(shù)及保存的數(shù)字文檔目錄條目中 的頁碼信息,也可以確定每個目錄條目對應的邏輯頁,從而建立每個目錄條目 和每個邏輯頁之間的鏈接。具體的實現(xiàn)過程中相信本領域的技術人員可以根據(jù) 本發(fā)明實施例提供的方法進行具體的實施,這里就不——贅述。
如圖9所示,為本發(fā)明實施例提供了 一種建立數(shù)字文檔目錄與正文之間鏈 接的裝置,其中所述數(shù)字文檔目錄包含多個目錄條目,每個目錄條目包含至少 一個目錄項信息,包括
邏輯頁識別模塊90,用于從保存的每個目錄條目中獲取至少一個目錄項信 息,根據(jù)所述至少一個目錄項信息,在數(shù)字文檔中確定每個目錄條目對應的每 個邏輯頁;
鏈接建立模塊91,用于建立每個目錄條目與對應的每個邏輯頁之間的鏈接。
所述邏輯頁識別模塊90包括
第一識別單元901,用于當獲得的至少一個目錄項信息為頁碼目錄項信息 時,在數(shù)字文檔中確定每個目錄條目對應的每個邏輯頁。 所述第一識別單元901包括
第一候選頁確定子單元9010,用于按照預置的規(guī)則才艮據(jù)每個目錄條目的頁 碼目錄項信息,確定所述每個目錄條目對應的邏輯頁所在的候選頁;
第一匹配子單元9011,用于在每個候選頁中提取有效信息,比較每個有效 信息與該目錄條目中的頁碼目錄項信息是否相同;
第一計算子單元9012,用于根據(jù)每個有效信息與所述頁碼目錄項信息是否 相同,確定每個候選頁對應該目錄條目的第一置信度;
邏輯頁第一確定子單元9013,用于根據(jù)所述第一置信度確定每個目錄條目 對應的每個邏輯頁。
所述邏輯頁識別模塊卯包括
第二識別單元902,用于當獲取的至少一個目錄項信息為標題目錄項信息 時,在數(shù)字文檔中確定每個目錄條目對應的每個邏輯頁。 所述第二識別單元902包括
行置信度第一確定子單元9020,用于根據(jù)每個目錄條目中的標題目錄項信 息與每頁數(shù)字文檔中每行字符的相似度,確定該頁數(shù)字文檔中每行字符對應該 標題目錄項信息的第一置信度;
行置信度第二確定子單元9021 ,用于根據(jù)該頁數(shù)字文檔中每行字符的至少 一個特征信息,確定該頁數(shù)字文檔中每行字符對應該標題目錄項信息的第二置 信度;
第二計算子單元9022,用于根據(jù)該頁數(shù)字文檔中每行字符對應該標題目錄 項信息的總置信度,確定該頁數(shù)字文檔對應該目錄條目的第二置信度;
邏輯頁第二確定子單元9023,用于根據(jù)所述第二置信度確定每個目錄項信 息對應的每個邏輯頁。
其中行置信度第二確定子單元卯21中的至少一個特征信息包括數(shù)字文 檔中每行字符的位置信息、或數(shù)字文檔中每行字符的平均文字寬度信息,或數(shù) 字文檔與所述標題目錄項目信息完全相似的字符是否與其他文字字符同行。
所述邏輯頁識別模塊90包括
第三識別單元903,用于當所述至少一個目錄項信息為頁碼目錄項信息和 標題目錄項信息時,在數(shù)字文檔中確定每個目錄條目對應的每個邏輯頁。 所述第三識別單元903包括
第二候選頁確定子單元9030,用于根據(jù)每個目錄條目中的頁碼目錄項信 息,確定每個目錄條目對應的邏輯頁所在的候選頁;
第一置信度確定子單元9031,用于確定每個候選頁對應每個目錄條目中的 第一置信度;
第二置信度確定子單元卯32,用于確定每個候選頁對應每個目錄條目中的 第二置信度;
總置信度確定子單元9033,用于根據(jù)所述第一置信度和所述第二置信度確 定每個候選頁對應每個目錄條目的總置信度;
邏輯頁第三確定子單元9034,用于根據(jù)所述總置信度確定每個目錄條目對 應的邏4辱頁。
所述第一置信度確定子單元9031包括
第一匹配子模塊,用于在每個候選頁中提取有效信息,比較每個有效信息 與該目錄條目中的頁碼目錄項信息是否相同;
第一計算子模塊,用于根據(jù)每個有效信息與所述頁碼目錄項信息是否相 同,確定每個候選頁對應該目錄條目的第一目錄條目置信度。
所述第二置信度確定子單元9032包括
行置信度第一確定子模塊,用于根據(jù)每個目錄條目中的標題目錄項信息與
每個候選頁中每行字符的相似度,確定該候選頁中每行字符對應該標題目錄項
信息的第 一錄項信息置信度;
行置信度第二確定子模塊,用于根據(jù)該候選頁中每行字符的至少一個特征 信息,確定該候選頁中每行字符對應該標題目錄項信息的第二目錄項信息置信
度;
第二計算子模塊,用于根據(jù)該候選頁中每行字符對應該標題目錄項信息的 總置信度,確定該候選頁對應該目錄條目的第二目錄條目置信度。
本發(fā)明實施例提供的一種建立數(shù)字文檔目錄與正文之間鏈接的方法,可以 通過根據(jù)保存的目錄條目信息獲取至少一個目錄項信息,將該至少一個目錄項 信息在數(shù)字文檔的頁面進行匹配,根據(jù)匹配的結果確定每個目錄條目對應的每 個邏輯頁,從而建立每個目錄條目與該邏輯頁間的鏈接。采用此自動建立數(shù)字 文檔目錄與正文之間鏈接的方法,可以有效地提高數(shù)字文檔的目錄與正文之間 鏈接的建立效率,進而提高數(shù)字文檔的制作效率。
明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權利要求及 其等同技術的范圍之內,則本發(fā)明也意圖包含這些改動和變型在內。
權利要求
1、一種建立數(shù)字文檔目錄與正文之間鏈接的方法,其中所述數(shù)字文檔目錄包含多個目錄條目,每個目錄條目包含至少一個目錄項信息,其特征在于,包括從保存的每個目錄條目中獲取至少一個目錄項信息,根據(jù)所述至少一個目錄項信息,在數(shù)字文檔中確定每個目錄條目對應的每個邏輯頁;建立每個目錄條目與對應的每個邏輯頁之間的鏈接。
2、 如權利要求1所述的方法,其特征在于,所述獲取至少一個目錄項信 息包括獲取頁碼目錄項信息和/或標題目錄項信息。
3、 如權利要求2所述的方法,其特征在于,當獲得的至少一個目錄項信 息為頁碼目錄項信息時,在數(shù)字文檔中確定每個目錄條目對應的每個邏輯頁包 括按照預置的規(guī)貝'J根據(jù)每個目錄條目的頁碼目錄項信息,確定所述每個目錄 條目對應的邏輯頁所在的候選頁;在每個候選頁中提取有效信息,比較每個有效信息與該目錄條目中的頁碼 目錄項信息是否相同;根據(jù)每個有效信息與所述頁碼目錄項信息比較結果,確定每個候選頁對應 該目錄條目的第一 目錄條目置信度;根據(jù)所述第一目錄條目置信度確定每個目錄條目對應的每個邏輯頁。
4、 如權利要求2所述的方法,其特征在于,當獲取的至少一個目錄項信 息為標題目錄項信息時,在數(shù)字文檔中確定每個目錄條目對應的每個邏輯頁包 括根據(jù)每個目錄條目中的標題目錄項信息與每頁數(shù)字文檔中每行字符的相 似度,確定該頁數(shù)字文檔中每行字符對應該標題目錄項信息的第一目錄項信息 置信度; 根據(jù)該頁數(shù)字文檔中每行字符的至少 一個特征信息,確定該頁數(shù)字文檔中每行字符對應該標題目錄項信息的第二目錄項信息置信度;根據(jù)該頁數(shù)字文檔中每行字符對應該標題目錄項信息的第一目錄項信息 置信度和第二目錄項信息置信度,確定該頁數(shù)字文檔中每行字符對應該標題目 錄項信息的總目錄項信息置信度;根據(jù)該頁數(shù)字文檔中每行字符對應該標題目錄項信息的總目錄項信息置 信度,確定該頁數(shù)字文檔對應該目錄條目的第二目錄條目置信度;根據(jù)所述第二目錄條目置信度確定每個目錄項信息對應的每個邏輯頁。
5、 如權利要求4所述的方法,其特征在于,所述至少一個特征信息包括 數(shù)字文檔中每行字符的位置信息、或數(shù)字文檔中每行字符的平均文字寬度信息,或數(shù)字文檔與所述標題目錄項目信息完全相似的字符是否與其他文字字 符同行信息。
6、 如權利要求2所述的方法,其特征在于,當所述至少一個目錄項信息 為頁碼目錄項信息和標題目錄項信息時,在數(shù)字文檔中確定每個目錄條目對應 的每個邏輯頁包括根據(jù)每個目錄條目中的頁碼目錄項信息,確定每個目錄條目對應的邏輯頁 所在的候選頁;在每個候選頁中提取有效信息,比較每個有效信息與該目錄條目中的頁碼 目錄項信息是否相同,根據(jù)每個有效信息與所述頁碼目錄項信息比較結果,確 定每個候選頁對應該目錄條目的第一目錄條目置信度;并根據(jù)每個目錄條目中的標題目錄項信息與每個候選頁中每行字符的相似 度,確定該候選頁中每行字符對應該標題目錄項信息的第一目錄項信息置信 度;根據(jù)該候選頁中每行字符的至少一個特征信息,確定該候選頁中每行字符 對應該標題目錄項信息的第二目錄項信息置信度;根據(jù)該候選頁中每行字符對 應的所述第一目錄項信息置信度和第二目錄項信息置信度,確定該候選頁中每 行字符對應該標題目錄項信息的總目錄項信息置信度;根據(jù)該頁數(shù)字文檔中每 行字符對應該標題目錄項信息的總目錄項信息置信度,確定該頁數(shù)字文檔對應該目錄條目的第二目錄條目置信度;根據(jù)所述第一目錄條目置信度和第二目錄條目置信度確定每個候選頁對 應每個目錄條目的總置信度;根據(jù)所述總置信度確定每個目錄條目對應的邏輯頁。
7、一種建立數(shù)字文檔目錄與正文之間鏈接的裝置,其中所述數(shù)字文檔目 錄包含多個目錄條目,每個目錄條目包含至少一個目錄項信息,其特征在于, 所述裝置包括邏輯頁識別模塊,用于從保存的每個目錄條目中獲取至少一個目錄項信 息,根據(jù)所述至少一個目錄項信息,在數(shù)字文檔中確定每個目錄條目對應的每 個邏輯頁;鏈接建立模塊,用于建立每個目錄條目與對應的每個邏輯頁之間的鏈接。
8、 如權利要求7所述的裝置,其特征在于,所述邏輯頁識別模塊包括 第一識別單元,用于當獲得的至少一個目錄項信息為頁碼目錄項信息時,在數(shù)字文檔中確定每個目錄條目對應的每個邏輯頁。
9、 如權利要求8所述的裝置,其特征在于,所述第一識別單元包括 第一候選頁確定子單元,用于按照預置的規(guī)則根據(jù)每個目錄條目的頁碼目錄項信息,確定所述每個目錄條目對應的邏輯頁所在的候選頁;第一匹配子單元,用于在每個候選頁中提取有效信息,比較每個有效信息與該目錄條目中的頁碼目錄項信息是否相同;第一計算子單元,用于根據(jù)每個有效信息與所述頁碼目錄項信息是否相同,確定每個候選頁對應該目錄條目的第一目錄條目置信度;邏輯頁第一確定子單元,用于根據(jù)所述第一目錄條目置信度確定每個目錄條目對應的每個邏輯頁。
10、 如權利要求7所述的裝置,其特征在于,所述邏輯頁識別模塊包括 第二識別單元,用于當獲取的至少一個目錄項信息為標題目錄項信息時, 在數(shù)字文檔中確定每個目錄條目對應的每個邏輯頁。
11、 如權利要求IO所述的裝置,其特征在于,所述第二識別單元包括 行置信度第一確定子單元,用于根據(jù)每個目錄條目中的標題目錄項信息與每頁數(shù)字文檔中每行字符的相似度,確定該頁數(shù)字文檔中每行字符對應該標題 目錄項信息的第一錄項信息置信度;行置信度第二確定子單元,用于根據(jù)該頁數(shù)字文檔中每行字符的至少一個 特征信息,確定該頁數(shù)字文檔中每行字符對應該標題目錄項信息的第二目錄項 信息置信度;第二計算子單元,用于根據(jù)該頁數(shù)字文檔中每行字符對應該標題目錄項信 息的總置信度,確定該頁數(shù)字文檔對應該目錄條目的第二目錄條目置信度;邏輯頁第二確定子單元,用于根據(jù)所述第二置信度確定每個目錄項信息對 應的每個邏輯頁。
12、 如權利要求7所述的裝置,其特征在于,所述邏輯頁識別模塊包括 第三識別單元,用于當所述至少一個目錄項信息為頁碼目錄項信息和標題目錄項信息時,在數(shù)字文檔中確定每個目錄條目對應的每個邏輯頁。
13、 如權利要求12所述的裝置,其特征在于,所述第三識別單元包括 第二候選頁確定單元,用于根據(jù)每個目錄條目中的頁碼目錄項信息,確定每個目錄條目對應的邏輯頁所在的候選頁;第一置信度確定子單元,用于確定每個候選頁對應每個目錄條目中的第一 目錄條目置信度;第二置信度確定子單元,用于確定每個候選頁對應每個目錄條目中的第二 目錄條目置信度;總置信度確定子單元,用于根據(jù)所述第一目錄條目置信度和所述第二目錄 條目置信度確定每個候選頁對應每個目錄條目的總置信度;邏輯頁第三確定子單元,用于根據(jù)所述總置信度確定每個目錄條目對應的邏輯頁。
14、 如權利要求13所述的裝置,其特征在于,所述第一置信度確定子單 元包括第一匹配子模塊,用于在每個候選頁中提取有效信息,比較每個有效信息 與該目錄條目中的頁碼目錄項信息是否相同;第一計算子模塊,用于根據(jù)每個有效信息與所述頁碼目錄項信息是否相 同,確定每個候選頁對應該目錄條目的第一目錄條目置信度。
15、 如權利要求13所述的裝置,其特征在于,所述第二置信度確定子單 元包括行置信度第一確定子模塊,用于根據(jù)每個目錄條目中的標題目錄項信息與 每個候選頁中每行字符的相似度,確定該候選頁中每行字符對應該標題目錄項 信息的第一錄項信息置信度;行置信度第二確定子模塊,用于根據(jù)該候選頁中每行字符的至少一個特征 信息,確定該候選頁中每行字符對應該標題目錄項信息的第二目錄項信息置信 度;第二計算子模塊,用于根據(jù)該候選頁中每行字符對應該標題目錄項信息的 總置信度,確定該候選頁對應該目錄條目的第二目錄條目置信度。
全文摘要
本發(fā)明公開了一種建立數(shù)字文檔目錄與正文之間鏈接的方法及裝置,用以提供一種自動建立數(shù)字文檔目錄與正文之間鏈接的方法,提高數(shù)字文檔與正文之間鏈接建立的效率。該方法包括,從保存每個目錄條目信息獲取至少一個目錄項信息,根據(jù)所述至少一個目錄項信息,在數(shù)字文檔中確定每個目錄條目對應的每個邏輯頁;建立每個目錄條目與對應的每個邏輯頁之間的鏈接。如本發(fā)明提出的方案,通過自動建立數(shù)字文檔目錄與正文之間鏈接,可以有效地提高數(shù)字文檔的目錄與正文之間鏈接的建立效率,進而提高數(shù)字文檔的制作速度。
文檔編號G06F17/30GK101354727SQ20081022278
公開日2009年1月28日 申請日期2008年9月24日 優(yōu)先權日2008年9月24日
發(fā)明者幟 湯, 褚一民, 欣 陶, 高良才 申請人:北京大學;北大方正集團有限公司;北京方正阿帕比技術有限公司