欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

準(zhǔn)備顯示文檔用于分析的設(shè)備的制作方法

文檔序號:6478198閱讀:158來源:國知局
專利名稱:準(zhǔn)備顯示文檔用于分析的設(shè)備的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及準(zhǔn)備顯示文檔用于分析的設(shè)備。
背景技術(shù)
在執(zhí)行文本分析之前,從文檔(如,PDF文件)中提取與所述文檔相關(guān)聯(lián)的文本。
理想地,在執(zhí)行文本分析之前,所提取的文本具有邏輯(即,讀)順序。
—些文檔格式,特別是那些用于顯示目的的(如,PDF),以從左到右(LtR)的順序 顯示文本,而不管與所述文本相關(guān)聯(lián)的語言是否具有相關(guān)聯(lián)的LtR邏輯順序(如,英語)或 從右到左(RtL)的邏輯順序(如,阿拉伯語)。 如果文本是與RtL邏輯順序相關(guān)聯(lián)的,且以LtR順序顯示相關(guān)聯(lián)的文檔,則當(dāng)前的 文本提取工具以顯示的順序(如,LtR順序)提取所述文本。因此,所提取的文本不適合于 文本分析,這是因?yàn)?,所述文本處?反轉(zhuǎn)的)LtR順序。

發(fā)明內(nèi)容
根據(jù)第一個方面,提供了準(zhǔn)備顯示文檔用于分析的設(shè)備,其包括提取器,用于從 所述顯示文檔提取字符數(shù)據(jù);順序識別器,用于確定與所述字符數(shù)據(jù)的處理相關(guān)聯(lián)的第一 順序、以及與所述字符數(shù)據(jù)的邏輯順序相關(guān)聯(lián)的第二順序,并確定第一順序與第二順序是 否不同;以及反轉(zhuǎn)組件,用于響應(yīng)于順序識別器確定所述第一順序不同于第二順序,反轉(zhuǎn)所 述字符數(shù)據(jù)。 根據(jù)第二個方面,提供了準(zhǔn)備顯示文檔用于分析的方法,其包括以下步驟從所述 顯示文檔中提取字符數(shù)據(jù);確定與所述字符數(shù)據(jù)的處理相關(guān)聯(lián)的第一順序、以及與所述字 符數(shù)據(jù)的邏輯順序相關(guān)聯(lián)的第二順序;確定所述第一順序是否不同于第二順序;以及響應(yīng) 于確定所述第一順序不同于第二順序,反轉(zhuǎn)所述字符數(shù)據(jù)。 根據(jù)第三個方面,提供了一種計(jì)算機(jī)程序,其包括程序代碼部件,當(dāng)所述程序在計(jì) 算機(jī)上運(yùn)行時,適應(yīng)于執(zhí)行上述方法的所有步驟。


下面將描述本發(fā)明,通過僅僅示例的方法,參考如以下附圖所圖解的其優(yōu)選的實(shí) 施例 圖1是所述優(yōu)選的實(shí)施例的設(shè)備的框圖; 圖2是顯示在用于準(zhǔn)備顯示文檔用于分析的過程中涉及的操作步驟的流程圖;
圖3是顯示在用于顯示確定至少一種語言的過程中涉及的操作步驟的流程圖;
圖4是顯示在用于確定在提取出的文本中的邏輯順序是否是反轉(zhuǎn)的過程中涉及 的操作步驟的流程圖;以及 圖5是顯示在用于響應(yīng)于確定提取出的文本的邏輯順序是反轉(zhuǎn)的、校正文本的過 程中涉及的操作步驟的流程圖。
具體實(shí)施例方式
圖1描述了所述優(yōu)選的實(shí)施例的一種設(shè)備(100)。 在預(yù)處理步驟中,優(yōu)選地,提取器(102)提取與所述文檔(如,其中以PDF文件的
形式存儲所述文檔)相關(guān)聯(lián)的文本。 在此第一個示例中,存儲提取出的文本。 設(shè)備(100)包括可操作用于訪問一個或多個文檔(130)的語言識別器(105)。
在此第一個示例中,處理順序是從文本的開頭到結(jié)尾(有效地,LtR順序)。
優(yōu)選地,處理順序被發(fā)送到順序識別器(110)。 所述順序識別器(110)可操作用于訪問第一存儲組件(120)和反轉(zhuǎn)組件(115)。
下面參考所述附圖描述優(yōu)選實(shí)施例的一個過程。 參考圖2,在步驟200,分析所述提取出的文本,以確定至少一種語言。 步驟200包括在圖3中描繪的多個步驟。在步驟300,優(yōu)選地,語言識別器(105)
調(diào)用分析工具(如,LanguageWare (LanguageWare是IBM公司的注冊商標(biāo)))。 在一個示例中,所述分析工具分析與文檔相關(guān)聯(lián)的提取出的文本(以處理順序,
如,LtR順序),并將所述提取出的文本與一組辭典相比較,其中, 一個辭典與一種語言相
關(guān)。響應(yīng)于所述比較,分析工具確定指示與提取出的文本相關(guān)聯(lián)的至少一種語言的結(jié)果。
優(yōu)選地,如果所述分析工具不能確定一種語言,則反轉(zhuǎn)提取出的文本,并將其輸入到分析工
具。典型地,作為響應(yīng),所述分析工具更有可能確定一種語言(如,阿拉伯語)。 優(yōu)選地,所述分析工具向語言識別器(105)提供與所述結(jié)果相關(guān)聯(lián)的置信度值
(如,利用統(tǒng)計(jì)數(shù)據(jù))。 在步驟305,所述語言識別器(105)確定所提供的置信度值是否滿足可預(yù)配置的 置信度閾值。如果所提供的置信度值滿足所述可預(yù)配置的置信度閾值,則存儲所述結(jié)果。
所述語言識別器(105)將結(jié)果傳遞給順序識別器(110)。圖3的過程結(jié)束,并執(zhí)行 圖2的步驟205。 如果所提供的置信度值不滿足可預(yù)配置的置信度閾值,則優(yōu)選地,所述語言識別 器(105)調(diào)用(步驟310) —個或多個功能。 可以采用諸如ISO 8859或UTF-16 (Unicode)的多種編碼方案之一存儲字符。通 過采用編碼方案,所代表的每種語言的每個字符具有唯一的"代碼",也就是,在所述編碼方 案內(nèi)分配給它的唯一的"編號"。 編碼方案可以具有明確地與它相關(guān)聯(lián)的語言,例如,ISO 8859-6與阿拉伯語相關(guān) 聯(lián)。其他編碼方案(如,Unicode)可以支持多種語言。 在一個示例中,所述語言識別器(105)調(diào)用(步驟310)第一功能,其獲取與所述 提取出的文本相關(guān)聯(lián)的字符編碼集合。第一功能將所述字符編碼集合與將字符編碼與語言 映射的知識庫相比較。響應(yīng)于所述比較,所述第一功能確定指示與提取出的文本相關(guān)聯(lián)的 至少一種語言的結(jié)果。 優(yōu)選地,第一功能提供與所述結(jié)果相關(guān)聯(lián)的置信度值給語言識別器(105)。
優(yōu)選地,如果第一功能確定所確定的語言是至少兩種語言之一,則優(yōu)選地,所述語 言識別器(105)調(diào)用(步驟310)第二功能。
6
在一個示例中,所述第二功能將字符編碼集合與將字符編碼與腳本(script)映 射的知識庫相比較。例如,兩種語言可以具有不同的腳本,因此,所述第二功能可被用于確 定至少兩種語言中的哪種語言與提取出的文本相關(guān)。響應(yīng)于所述比較,所述第二功能確定 指示與提取出的文本相關(guān)聯(lián)的至少一種語言的結(jié)果。 優(yōu)選地,第二功能提供與所述結(jié)果相關(guān)聯(lián)的置信度值給語言識別器(105)。
在一個優(yōu)選的實(shí)施例中,包含由所述分析工具和一個或多個功能所確定的一種或 多種語言的結(jié)果被合并。 可選地,在步驟315,所述語言識別器(105)確定包含由所述分析工具和一個或多 個功能所確定的一種或多種語言的結(jié)果是否應(yīng)該被合并。 在一個示例中,如果從所述分析工具和一個或多個功能接收到的每個置信度值不
滿足可預(yù)配置的置信度閾值,則語言識別器(105)確定所述結(jié)果應(yīng)該被合并。 響應(yīng)于確定所述結(jié)果應(yīng)該被合并,語言識別器(105)合并(步驟320)所述結(jié)果。 所述語言識別器(105)將合并的結(jié)果傳遞給順序識別器(110)。 圖3的過程結(jié)束,并執(zhí)行圖2的步驟205。 響應(yīng)于確定所述結(jié)果不應(yīng)該被合并,存儲由一個或多個功能所確定的結(jié)果。 所述語言識別器(105)將所述結(jié)果傳遞給順序識別器(110)。 圖3的過程結(jié)束,并執(zhí)行圖2的步驟205。 在第一個示例中,所述結(jié)果包括英語和阿拉伯語。 參考圖2,在步驟205,所述順序識別器(110)確定在提取出的文本中,邏輯順序是 否是反轉(zhuǎn)的,也就是,邏輯順序是否關(guān)于所述處理順序是反轉(zhuǎn)的。 在一個示例中,分析工具和一個或多個功能中的至少一個可以能夠確定在提取出 的文本中、邏輯順序是否是反轉(zhuǎn)的。例如,如果具有被反轉(zhuǎn)(如,LtR)的邏輯順序(如,RtL) 的所述提取出的文本被輸入到分析工具,則所述分析工具將不能確定語言。然而,如果反轉(zhuǎn) 提取出的文本(例如,其子集)并將其輸入到分析工具,則所述分析工具更有可能確定語言 (如,阿拉伯語)。 然而,如果不能確定在提取出的文本中的邏輯順序是否是反轉(zhuǎn)的,則優(yōu)選地,可執(zhí) 行圖4的過程。 參考圖4,在步驟400,所述順序識別器(110)分析與提取出的文本相關(guān)聯(lián)的標(biāo)點(diǎn) 符號。 例如,提取出的文本包括以下子集。應(yīng)該理解,提取出的文本包括具有LtR邏輯順 序(如,"cows drink water.,,)的文本禾口具有RtL邏輯順序(如,".doof emos tae stac eht")的文本。應(yīng)該理解,具有RtL邏輯順序的文本在此示例中代表阿拉伯語文本。應(yīng)該 理解,大寫字母未被用在下面的示例中
cows drink water. . doof emos tae stac eht 首先,所述順序識別器(110)以LtR順序處理提取出的文本。作為響應(yīng),所述順序 識別器(110)識別與標(biāo)點(diǎn)符號(如,依賴位置的字符)相關(guān)聯(lián)的字符。 參考上述文本,所述順序識別器(110)識別第一個句號(".")。響應(yīng)于識別出標(biāo) 點(diǎn)符號字符,所述順序識別器(110)識別該標(biāo)點(diǎn)符號字符的任一側(cè)的字符。參考上述文本, 所述順序識別器(110)識別句號的左手側(cè)的字母字符(如,"r")、以及所述句號的右手側(cè)的空格字符。因此,所述順序識別器(110)識別出包括LtR順序的以下類型的字符的集合
[字母字符][標(biāo)點(diǎn)符號字符][空格字符] 參考上述文本,所述順序識別器(110)識別出第二個句號(".")、句號左手側(cè)的 空格字符以及句號右手側(cè)的字母字符(如,"d")。因此,所述順序識別器(110)識別出包 括LtR順序的以下類型的字符的集合
[空格字符][標(biāo)點(diǎn)符號字符][字母字符] 優(yōu)選地,所述順序識別器(110)將所述集合與存儲在第一存儲組件(120)的規(guī)則 的第一集合相比較。優(yōu)選地,規(guī)則將與標(biāo)點(diǎn)符號的使用相關(guān)聯(lián)的數(shù)據(jù)、與邏輯順序及有關(guān)該 邏輯順序在提取出的文本中是否是反轉(zhuǎn)的指示映射。 規(guī)則的一種示例如下所示。所述規(guī)則與格式相關(guān)聯(lián),在該格式中,標(biāo)點(diǎn)符號典型地 出現(xiàn)在詞(word)的邏輯結(jié)尾,而不管文本具有LtR邏輯順序還是RtL邏輯順序
如果[空格字符][標(biāo)點(diǎn)符號字符][字母字符]
則 邏輯順序=RtL ;順序=反轉(zhuǎn)
如果[字母字符][標(biāo)點(diǎn)符號字符][空格字符] 貝U : 邏輯順序=LtR 響應(yīng)于與所述規(guī)則進(jìn)行比較,順序識別器(110)生成結(jié)果,其指示所述文本包括 LtR和RtL的邏輯順序。所述結(jié)果也指示所述RtL邏輯順序在提取出的文本中是反轉(zhuǎn)的。
優(yōu)選地,所述順序識別器(110)也在結(jié)果中提供具有LtR邏輯順序的文本以及具 有RtL邏輯順序的文本出現(xiàn)次數(shù)的指示。在第一個示例中,所述順序識別器(110)指示具 有LtR邏輯順序的文本的一次出現(xiàn)(如,第一個標(biāo)點(diǎn)符號字符)、以及具有RtL邏輯順序的 文本的一次出現(xiàn)(如,第二個標(biāo)點(diǎn)符號字符)。 優(yōu)選地,所述順序識別器(110)確定與結(jié)果相關(guān)聯(lián)的置信度值,并確定(步驟405) 所述置信度值是否滿足可預(yù)配置的置信度閾值。如果所提供的置信度值滿足可預(yù)配置的置 信度閾值,則存儲所述結(jié)果。
圖4的過程結(jié)束。 如果提取出的文本的至少一個子集的邏輯順序是反轉(zhuǎn)的,則順序識別器(110)將 所述結(jié)果傳遞給反轉(zhuǎn)組件(115),并執(zhí)行圖2的步驟210。 如果提取出的文本的至少一個子集的邏輯順序不是反轉(zhuǎn)的,則圖2的過程結(jié)束。
優(yōu)選地,一種規(guī)則可以與一種語言相關(guān)聯(lián)。有利地,所述順序識別器(110)可以使 用遵循以下步驟200獲得的結(jié)果(多個)(即,指示至少一種已確定的語言的結(jié)果),以選擇 比較提取出的文本所針對的規(guī)則(如,與英語相關(guān)聯(lián)的規(guī)則)。因此,有利地,選擇與特定語 言的特征相關(guān)聯(lián)的規(guī)則(其可以提高順序識別器(110)所確定的結(jié)果的準(zhǔn)確度)。
在分析依賴位置的字符的另一個示例中,可以采用與字符相關(guān)聯(lián)的呈現(xiàn) (presentation)數(shù)據(jù)的分析。例如,在例如阿拉伯語的一些語言中的字符除了字符編碼之 外還具有與呈現(xiàn)形式相關(guān)聯(lián)的編碼。
8
這是因?yàn)?,取決于字符在一個詞中如何出現(xiàn),而有所不同地顯示該字符(例如,在 一個詞的中間("中間(medial)");在一個詞的開始("開始(initial)");在一個字的結(jié) 尾("最后(final)")或孤立("孤立(isolated)"))。 例如,順序識別器(110)處理所述提取出的文本,并確定與第一個字符相關(guān)聯(lián)的 呈現(xiàn)數(shù)據(jù)。在一個示例中,所述呈現(xiàn)數(shù)據(jù)包括"開始"。順序識別器(iio)確定所述第一個 字符的任意一側(cè)的字符。在一個示例中,左手側(cè)的字符是字母字符,而右手側(cè)的字符是空格 字符。所述順序識別器(110)將找到的字符的類型(如,[字母字符][開始][空格字符]) 與規(guī)則相比較。 優(yōu)選地,規(guī)則將與呈現(xiàn)數(shù)據(jù)相關(guān)聯(lián)的數(shù)據(jù)、與邏輯順序及有關(guān)該邏輯順序在提取 出的文本中是否是反轉(zhuǎn)的指示映射。 規(guī)則的示例如下所示。所述規(guī)則與一種格式相關(guān)聯(lián),在該格式中,開始的字符典型 地在左手側(cè)具有空格字符,且在右手側(cè)具有字母字符,而不考慮文本具有LtR邏輯順序還 是RtL邏輯順序
如果[字母字符][開始][空格字符]
貝U : 邏輯順序=RtL ;順序=反轉(zhuǎn) 響應(yīng)于基于所述規(guī)則的比較,順序識別器(110)生成結(jié)果,其指示所述文本包括 RtL邏輯順序,且在提取出的文本中,RtL邏輯順序是反轉(zhuǎn)的。 有利地,這個機(jī)制利用了這樣的事實(shí)特定語言(如,阿拉伯語)可具有這樣的字 符,該字符取決于其在詞中出現(xiàn)的位置而被不同地呈現(xiàn)。 如果所提供的置信度值不滿足可預(yù)配置的置信度閾值,則所述順序識別器(110) 分析(步驟420)所提取出的文本中的通常出現(xiàn)的詞。 例如,順序存儲器(110)訪問存儲在第一存儲組件(120)中的通常出現(xiàn)的詞的集 合(如,優(yōu)選地,在多種語言中通常出現(xiàn)的詞)。 優(yōu)選地,諸如"the"等通常出現(xiàn)的詞以LtR邏輯順序(如,"the")以及反轉(zhuǎn)的邏
輯順序(如,"eht")存儲。優(yōu)選地,與邏輯順序相關(guān)聯(lián)的標(biāo)識符(identifier)與通常出現(xiàn)
的詞相關(guān)聯(lián)。優(yōu)選地,與邏輯順序在提取出的文本中是否反轉(zhuǎn)相關(guān)聯(lián)的指示也與通常出現(xiàn)
的詞相關(guān)聯(lián)。 一個示例顯示如下" the ";邏輯順序=LtR "eht";順序二反轉(zhuǎn)的邏輯順序 優(yōu)選地,通常出現(xiàn)的詞與邊界字符的任一側(cè)的空格字符一起存儲。例如,"the"被 存儲為"the"。這保證了順序識別器(110)不會在另一個詞內(nèi)找到通常出現(xiàn)的詞。例如,順 序識別器(110)將不會在"other"內(nèi)找到"the"。 優(yōu)選地,當(dāng)被反轉(zhuǎn)時是不同的第二個詞的第一個詞不被使用(如,"room"當(dāng)被反 轉(zhuǎn)時是"moor")。這是因?yàn)?,順序識別器(110)將不能區(qū)分已經(jīng)被反轉(zhuǎn)的第一個詞的出現(xiàn)、 以及所述不同的第二個詞的出現(xiàn)。然而,如果這樣的詞被使用,則優(yōu)選地,所述順序識別器 (110)調(diào)用語法分析,使得順序識別器(110)可以區(qū)分已經(jīng)被反轉(zhuǎn)的第一個詞的出現(xiàn)以及 所述不同的第二個詞的出現(xiàn)。
所述順序識別器(110)以LtR邏輯順序處理提取出的文本,并向其檢查以LtR邏
輯順序和反轉(zhuǎn)的邏輯順序存儲的一個或多個通常出現(xiàn)的詞。 參考上述文本,順序識別器(110)識別出"eht"。 作為響應(yīng),所述順序識別器(110)使用隨著通常出現(xiàn)的詞的出現(xiàn)而被存儲的數(shù) 據(jù),以便確定結(jié)果,其指示邏輯順序在提取出的文本中是反轉(zhuǎn)的。 優(yōu)選地,所述順序識別器(110)在該結(jié)果中也提供具有LtR邏輯順序的文本和具 有反轉(zhuǎn)的邏輯順序的文本出現(xiàn)次數(shù)的指示。 在第一個示例中,所述順序識別器(110)指示具有反轉(zhuǎn)的邏輯順序的文本的一次 出現(xiàn)(如,通常出現(xiàn)的詞"eht")。 優(yōu)選地,所述順序識別器(110)確定與該結(jié)果相關(guān)聯(lián)的關(guān)聯(lián)置信度值,并確定(步 驟425)所述置信度值是否滿足可預(yù)配置的置信度閾值。如果所提供的置信度值滿足可預(yù) 配置的置信度閾值,則存儲所述結(jié)果。
圖4的過程結(jié)束。 如果提取出的文本的至少一個子集的邏輯順序是反轉(zhuǎn)的,則所述順序識別器 (110)將該結(jié)果傳遞給反轉(zhuǎn)組件(115),并執(zhí)行圖2的步驟210。 如果提取出的文本的至少一個子集的邏輯順序不是反轉(zhuǎn)的,則圖2的過程結(jié)束。
如果提供的置信度值不滿足可預(yù)配置的置信度閾值,則順序識別器(110)調(diào)用 (步驟430) —個或多個辭典的查找(look-up)。 例如,先前的步驟可能沒有產(chǎn)生滿足置信度閾值的結(jié)果,這是因?yàn)?,提取出的文?與特定的領(lǐng)域(如,專利說明書;計(jì)算機(jī)技術(shù)相關(guān)的文檔)相關(guān)聯(lián)。 優(yōu)選地,辭典包括以LtR邏輯順序和反轉(zhuǎn)的邏輯順序存儲的詞、與邏輯順序相關(guān)
聯(lián)的標(biāo)識符、以及與提取出的文本中的邏輯順序是否反轉(zhuǎn)相關(guān)聯(lián)的指示。 可選擇地,與LtR邏輯順序相關(guān)聯(lián)的詞可以被輸入到所述辭典,并且,如果所述辭
典不能確定結(jié)果,則該詞被反轉(zhuǎn),并被輸入到辭典。作為響應(yīng),典型地,所述辭典更有可能確
定結(jié)果。有利地,這使得辭典必須存儲更少的數(shù)據(jù)。 優(yōu)選地,響應(yīng)于步驟430,所述順序識別器(110)確定結(jié)果,其指示是否存在具有 LtR邏輯順序的文本、具有RtL邏輯順序的文本;邏輯順序在提取出的文本中是否是反轉(zhuǎn) 的;以及LtR邏輯順序和RtL邏輯順序出現(xiàn)次數(shù)的指示。
優(yōu)選地,存儲所述結(jié)果。
圖4的過程結(jié)束。 如果提取出的文本的至少一個子集的邏輯順序是反轉(zhuǎn)的,則順序識別器(110)將 結(jié)果傳遞給反轉(zhuǎn)組件(115),并執(zhí)行圖2的步驟210。 如果提取出的文本的至少一個子集的邏輯順序不是反轉(zhuǎn)的,則圖2的過程結(jié)束。
優(yōu)選地,在一個或多個先前的機(jī)制之后使用一個或多個辭典的查找,這是因?yàn)?,?找需要增加的處理和時間。 優(yōu)選地,依照與先前的機(jī)制相關(guān)聯(lián)的置信度值來使用一個或多個辭典的查找。
應(yīng)該理解,可以執(zhí)行任意數(shù)目的其他機(jī)制,以確定結(jié)果,其指示是否存在具有 LtR邏輯順序、具有RtL邏輯順序的文本;邏輯順序在提取出的文本中是否是反轉(zhuǎn)的;以及 LtR邏輯順序和RtL邏輯順序出現(xiàn)次數(shù)的指示。
10
應(yīng)該理解,優(yōu)選地,依照遵循步驟200獲得的結(jié)果(多個)(S卩,指示至少一種已確 定的語言的結(jié)果)來選擇這樣的機(jī)制。因此,有利地,與特定語言的特征相關(guān)聯(lián)的機(jī)制可被 選擇。 在一個示例中,可使用語法分析。 參考圖2,如果在提取出的文本中、邏輯順序是反轉(zhuǎn)的,則執(zhí)行圖2的步驟210,據(jù)
此,反轉(zhuǎn)組件(115)反轉(zhuǎn)與提取出的文本相關(guān)聯(lián)的一個或多個文本部分。 步驟210包括在圖5中描繪的多個步驟。 反轉(zhuǎn)組件(115)使用從順序識別器(110)接收到的結(jié)果。 在此示例中,反轉(zhuǎn)組件(115)使用一個或多個結(jié)果,其指示是否存在具有LtR邏 輯順序的文本、具有RtL邏輯順序的文本;邏輯順序在提取出的文本中是否是反轉(zhuǎn)的;以及 具有LtR邏輯順序的文本和具有RtL邏輯順序的文本的出現(xiàn)次數(shù)的指示。
在步驟500,反轉(zhuǎn)組件(115)利用一個或多個結(jié)果來確定邏輯順序是否主要是 RtL(如,通過使用存在具有RtL邏輯順序的文本的指示、以及具有LtR邏輯順序的文本和具 有RtL邏輯順序的文本的出現(xiàn)次數(shù)的指示)。 在第一個示例中,反轉(zhuǎn)組件(115)確定文本具有RtL邏輯順序、具有LtR邏輯順序 的文本的一次出現(xiàn)(如,第一個標(biāo)點(diǎn)符號字符)、以及具有RtL邏輯順序的文本的兩次出現(xiàn) (如,第二個標(biāo)點(diǎn)符號字符和通常出現(xiàn)的詞"eht")。 在第一個示例中,反轉(zhuǎn)組件(115)確定所述邏輯順序主要是RtL,且優(yōu)選地,反轉(zhuǎn) (步驟505)提取出的文本的一個或多個文本部分。 優(yōu)選地,反轉(zhuǎn)組件(115)使用與提取出的文本相關(guān)聯(lián)的位置數(shù)據(jù)來確定文本部 分。例如,如果所述位置數(shù)據(jù)指明行處于正確的邏輯順序,則反轉(zhuǎn)組件(115)確定所述文本 部分是一行,且作為響應(yīng),一次反轉(zhuǎn)一行。因此,響應(yīng)于所述反轉(zhuǎn),可以從首到尾正確地讀取 文本。 應(yīng)該理解,可出現(xiàn)任意數(shù)目的其他文本部分(如,段落)的確定。
在第一個示例中,反轉(zhuǎn)的結(jié)果顯示如下
the cats eat some food., retaw knird swoc 在步驟510,反轉(zhuǎn)組件(115)使用一個或多個結(jié)果來確定是否存在具有LtR邏輯順 序的文本。 如果反轉(zhuǎn)組件(115)確定不存在具有LtR邏輯順序的任何文本,則圖5的過程結(jié) 束(且圖2的過程結(jié)束)。處理過的文本可以被發(fā)送給一個或多個工具,如用于分析。
如果反轉(zhuǎn)組件(115)確定存在具有LtR邏輯順序的文本,則反轉(zhuǎn)組件(115)確定 一個或多個具有LtR邏輯順序的文本部分。 典型地,除了字符編碼之外,字符還具有與方向(S卩,邏輯順序)相關(guān)聯(lián)的屬性。典 型地,空格字符具有屬性"中性(neutral)",其指示其不具有RtL邏輯順序,也不具有LtR 邏輯順序。 優(yōu)選地,反轉(zhuǎn)組件(115)處理所述提取出的文本,并查找每個字符的屬性,以確定 相關(guān)聯(lián)的邏輯順序。 在第一個示例中,提取出的文本的字符以及相關(guān)聯(lián)的屬性顯示如下,其中,"r"指 示RtL邏輯順序;'T指示LtR邏輯順序;以及"n"指示中性:
11
the cats eat some food., retaw knird swoc 在第一個示例中,反轉(zhuǎn)組件(115)確定存在三個具有LtR邏輯順序的文本部分。
作為響應(yīng),反轉(zhuǎn)組件(115)反轉(zhuǎn)(步驟515)具有LtR邏輯順序的所述文本部分。 優(yōu)選地,包括所述三個文本部分的整個部分是反轉(zhuǎn)的(包括所述三個文本部分內(nèi)的具有中 性屬性的字符)。然而,在整個部分的邊界(如,開頭或結(jié)尾)具有中性屬性的字符不是反 轉(zhuǎn)的。例如,用以下下劃線指示的空格字符不是反轉(zhuǎn)的
food.—.retaw 在第一個示例中,反轉(zhuǎn)的結(jié)果顯示如下
the cats eat some food, cows drink water. 圖5的過程結(jié)束(且圖2的過程結(jié)束)。處理過的文本可以被發(fā)送給一個或多個 工具,如用于分析。 有利地,如果具有RtL邏輯順序的文本在提取出的文本中是主要的,則在步驟505 執(zhí)行文本的批量反轉(zhuǎn)(bulk reversal)校正了在單個執(zhí)行中的大多數(shù)文本的反轉(zhuǎn)。通過在 批量反轉(zhuǎn)之后校正一些(即,大多數(shù))具有LtR邏輯順序的文本部分的反轉(zhuǎn),提高了效率。
如果反轉(zhuǎn)組件(115)確定所述邏輯順序并非主要是RtL,則優(yōu)選地,在步驟520,反 轉(zhuǎn)組件(115)利用一個或多個結(jié)果來確定是否存在具有RtL邏輯順序的任何文本。
如果反轉(zhuǎn)組件(115)確定不存在具有RtL邏輯順序的任何文本,則圖5的過程結(jié) 束(且圖2的過程結(jié)束)。處理過的文本可被發(fā)送給一個或多個工具,如用于分析。
如果反轉(zhuǎn)組件(115)確定存在具有RtL邏輯順序的文本,則反轉(zhuǎn)組件(115)確定 一個或多個具有RtL邏輯順序的文本部分(如,通過分析與字符的方向相關(guān)聯(lián)的屬性)。
作為響應(yīng),所述反轉(zhuǎn)組件(115)反轉(zhuǎn)(步驟515)具有RtL邏輯順序的文本部分。
圖5的過程結(jié)束(且圖2的過程結(jié)束)。處理過的文本可被發(fā)送給一個或多個工 具,如用于分析。 有利地,如果具有RtL邏輯順序的文本在提取出的文本中不是主要的,則執(zhí)行具
有RtL邏輯順序的一些(即,少數(shù)的)文本部分的反轉(zhuǎn),因此提高了效率。 應(yīng)該理解,如果提取出的文本以RtL順序處理,則可以進(jìn)行一個或多個修改。 例如,被用作在上述規(guī)則集合中指定的邏輯順序的規(guī)則的第二集合將是不正確
的。例如,如果以下字符類型被確定,則相關(guān)聯(lián)的邏輯順序是LtR,而不是RtL :[空格字符][標(biāo)點(diǎn)符號字符][字母字符] 還可以做進(jìn)一步的修改,例如,其中,詞以RtL邏輯順序和反轉(zhuǎn)的邏輯順序被存儲 在辭典中。 有利地,本發(fā)明接收輸入包括具有相關(guān)聯(lián)的第一順序的文本的文檔,并處理具有 第二邏輯順序的文本,這樣可以有效地分析所述文本。 有利地,通過使用與啟發(fā)式(heuristics)相關(guān)聯(lián)的多種機(jī)制、以及使用置信度閾 值,可以提高本發(fā)明的設(shè)備所產(chǎn)生的結(jié)果的魯棒性。 有利地,本發(fā)明可以用于任意數(shù)量的顯示文檔。例如,可以使用以LtR順序存儲文 本用于顯示的PDF文檔。在另一個示例中,可以使用包括已使用光學(xué)字符識別(OCR)而被 掃描和處理的文檔的文件。在又一個示例中,可以使用包括不正確地指定或未指定文本的邏輯順序的標(biāo)記(如HTML)的文件。 有利地,本發(fā)明可以用于多種應(yīng)用。例如,用于準(zhǔn)備用于文本分析的文本;準(zhǔn)備由文本處理系統(tǒng)(如word處理系統(tǒng))使用的文本;以及準(zhǔn)備用于文本檢索系統(tǒng)(如數(shù)據(jù)庫或內(nèi)容管理系統(tǒng))的存儲的文本。 有利地,本發(fā)明可操作用于處理包括雙向文本(也就是,具有RtL邏輯順序的文本以及具有LtR邏輯順序的文本)的文檔。 本領(lǐng)域的普通技術(shù)人員應(yīng)該清楚,本發(fā)明所述優(yōu)選的實(shí)施例的所有或部分方法可
以適當(dāng)并有用地體現(xiàn)在一個邏輯設(shè)備中,或多個邏輯設(shè)備中,其包括安排用于執(zhí)行本方法
的所述步驟的邏輯元素,且這些邏輯元素可以包括硬件組件、固件組件或其組合。 本領(lǐng)域的技術(shù)人員也應(yīng)該同樣清楚,根據(jù)本發(fā)明所述優(yōu)選的實(shí)施例的所有或部分
邏輯安排可以適當(dāng)?shù)伢w現(xiàn)在一個邏輯設(shè)備中,其包括執(zhí)行所述方法的步驟的邏輯元素,且
這些邏輯元素可以包括諸如邏輯門等組件,例如,可編程邏輯陣列上或應(yīng)用指定的集成電
路。這樣的邏輯安排可以進(jìn)一步體現(xiàn)在使能暫時或永久地在這些陣列或電路上建立邏輯結(jié)
構(gòu)的元素上,例如,虛擬硬件描述語言,其可以利用固定的或可傳送的承載介質(zhì)來存儲或傳輸。 應(yīng)該意識到,上述方法和安排也可以適當(dāng)?shù)卦谝粋€或多個處理器(圖中未顯示)上運(yùn)行的軟件上全部或部分地施行,且所述軟件可以以在諸如磁或光盤等任意合適的數(shù)據(jù)載體(圖中也未顯示)上攜帶的一個或多個計(jì)算機(jī)程序元素的形式提供。數(shù)據(jù)傳輸?shù)男诺揽梢酝瑯拥匕ǜ黝惔鎯橘|(zhì)以及信號承載介質(zhì),諸如有線或無線信號承載介質(zhì)。
本發(fā)明可以進(jìn)一步適當(dāng)?shù)伢w現(xiàn)為計(jì)算機(jī)系統(tǒng)使用的計(jì)算機(jī)程序產(chǎn)品。這樣的實(shí)現(xiàn)可以包括一系列計(jì)算機(jī)可讀指令,其被固定在有形介質(zhì)(如計(jì)算機(jī)可讀介質(zhì),如磁盤、CD-R0M、R0M或硬盤)上,或可經(jīng)由有形介質(zhì)(包括但不局限于光或模擬傳輸線路)、或無形地利用無線技術(shù)(包括但不局限于微波、紅外或其他傳輸技術(shù)),通過調(diào)制解調(diào)器或其他接口設(shè)備傳輸?shù)接?jì)算機(jī)系統(tǒng)。所述計(jì)算機(jī)可讀指令系列體現(xiàn)了此前描述的所有或部分功能。
本領(lǐng)域的技術(shù)人員應(yīng)該意識到,這些計(jì)算機(jī)可讀指令可以用很多計(jì)算機(jī)架構(gòu)或操作系統(tǒng)使用的多種編程語言書寫。而且,這些指令可以利用任意存儲技術(shù)存儲,當(dāng)前的或?qū)淼?,包括但不局限于半?dǎo)體、磁、或光,或利用當(dāng)前的或?qū)淼娜我鈧鬏敿夹g(shù)傳輸,包括但不局限于光、紅外或微波??紤]到這些計(jì)算機(jī)程序產(chǎn)品也能作為伴隨打印的或電子的文檔的移動介質(zhì)發(fā)布,例如,在系統(tǒng)ROM或固定盤,或從服務(wù)器或電子布告欄通過網(wǎng)絡(luò)發(fā)布,例如,因特網(wǎng)或萬維網(wǎng)。 在另一種情況,本發(fā)明的優(yōu)選實(shí)施例可以以部署服務(wù)的計(jì)算機(jī)實(shí)現(xiàn)的方法的形式
實(shí)現(xiàn),所述服務(wù)包括部署計(jì)算機(jī)程序代碼的步驟,當(dāng)其被部署到計(jì)算機(jī)基礎(chǔ)結(jié)構(gòu)并在其上
執(zhí)行時,所述程序代碼可操作用于使所述計(jì)算機(jī)系統(tǒng)執(zhí)行上述方法的所有步驟。 本領(lǐng)域的技術(shù)人員應(yīng)該清楚,在不脫離本發(fā)明的范圍的情況下,可以對前面提到
的典型實(shí)施例做很多改進(jìn)和修改。
1權(quán)利要求
一種準(zhǔn)備顯示文檔用于分析的設(shè)備,包括提取器,用于從所述顯示文檔提取字符數(shù)據(jù);順序識別器,用于確定與所述字符數(shù)據(jù)的處理相關(guān)聯(lián)的第一順序、以及與所述字符數(shù)據(jù)的邏輯順序相關(guān)聯(lián)的第二順序,并確定第一順序與第二順序是否不同;以及反轉(zhuǎn)組件,用于響應(yīng)于該順序識別器確定所述第一順序不同于所述第二順序,反轉(zhuǎn)所述字符數(shù)據(jù)。
2. 如權(quán)利要求1所述的設(shè)備,其中,所述順序識別器可操作用于 確定依賴位置的字符數(shù)據(jù);將所述依賴位置的字符數(shù)據(jù)與規(guī)則相比較;以及 響應(yīng)于所述比較,確定所述第二順序。
3. 如權(quán)利要求2所述的設(shè)備,其中,所述依賴位置的字符數(shù)據(jù)包括標(biāo)點(diǎn)符號字符和呈 現(xiàn)數(shù)據(jù)中的至少一個。
4. 如權(quán)利要求1所述的設(shè)備,其中,所述順序識別器可操作用于 確定所述字符數(shù)據(jù)中的通常出現(xiàn)的詞; 將所述通常出現(xiàn)的詞與規(guī)則相比較;以及 響應(yīng)于所述比較,確定第二順序。
5. 如權(quán)利要求1所述的設(shè)備,其中,所述順序識別器可操作用于 將所述字符數(shù)據(jù)與辭典集合相比較;以及 響應(yīng)于所述比較,確定第二順序。
6. 如權(quán)利要求1所述的設(shè)備,還包括語言識別器,用于識別與文檔中的所述字符數(shù)據(jù) 相關(guān)聯(lián)的至少一種語言。
7. 如權(quán)利要求6所述的設(shè)備,其中,所述語言識別器可操作用于分析下列的至少一個 與所述字符數(shù)據(jù)相關(guān)聯(lián)的詞匯;與所述字符數(shù)據(jù)相關(guān)聯(lián)的至少一種字符編碼;以及與所述 字符數(shù)據(jù)的腳本相關(guān)聯(lián)的腳本數(shù)據(jù)。
8. 如權(quán)利要求6或權(quán)利要求7所述的設(shè)備,其中,所述順序識別器可操作用于使用所識 別的語言來確定規(guī)則,其中將文檔中的字符數(shù)據(jù)與該規(guī)則相比較,以便確定所述第二順序。
9. 如權(quán)利要求6至8中的任一個所述的設(shè)備,其中,所述語言識別器和所述順序識別器 中的至少一個可操作用于生成分別與所識別的語言和所確定的第二順序中的至少一個相關(guān)聯(lián)的置信度值。
10. 如權(quán)利要求9所述的設(shè)備,還包括用于將所述置信度值與置信度閾值相比較的部件。
11. 如權(quán)利要求1所述的設(shè)備,其中反轉(zhuǎn)組件可操作用于確定文檔中的所述字符數(shù)據(jù) 是否具有主要的第一順序。
12. 如權(quán)利要求11所述的設(shè)備,其中,響應(yīng)于確定文檔中的字符數(shù)據(jù)具有主要的第一 順序,所述反轉(zhuǎn)組件可操作用于確定與第二順序相關(guān)聯(lián)的數(shù)據(jù)的至少一個子集;以及 反轉(zhuǎn)所確定的子集。
13. 如權(quán)利要求11所述的設(shè)備,其中,響應(yīng)于確定文檔中的字符數(shù)據(jù)不具有主要的第 一順序,所述反轉(zhuǎn)組件可操作用于反轉(zhuǎn)所述字符數(shù)據(jù);響應(yīng)于反轉(zhuǎn)所述字符數(shù)據(jù); 確定與第一順序相關(guān)聯(lián)的字符數(shù)據(jù)的至少一個子集;以及 反轉(zhuǎn)所述確定的子集。
14. 如權(quán)利要求l所述的設(shè)備,其中,響應(yīng)于所述反轉(zhuǎn)組件反轉(zhuǎn)文檔中的所述字符數(shù) 據(jù),文本檢索系統(tǒng)、文本分析系統(tǒng)以及文本處理系統(tǒng)中的至少一個可操作用來接收所述字 符數(shù)據(jù)。
15. 如權(quán)利要求1所述的設(shè)備,其中第一順序與所述字符數(shù)據(jù)的檢索相關(guān)聯(lián)。
16. —種準(zhǔn)備顯示文檔用于分析的方法,包括以下步驟 從所述顯示文檔中提取字符數(shù)據(jù);確定與所述字符數(shù)據(jù)的處理相關(guān)聯(lián)的第一順序、以及與所述字符數(shù)據(jù)的邏輯順序相關(guān) 聯(lián)的第二順序;確定所述第一順序是否不同于所述第二順序;以及 響應(yīng)于確定所述第一順序不同于所述第二順序,反轉(zhuǎn)所述字符數(shù)據(jù)。
17. 如權(quán)利要求16所述的方法,還包括以下步驟 確定依賴位置的字符數(shù)據(jù);將所述依賴位置的字符數(shù)據(jù)與規(guī)則相比較;以及 響應(yīng)于所述比較,確定所述第二順序。
18. 如權(quán)利要求17所述的方法,其中,所述依賴位置的字符數(shù)據(jù)包括標(biāo)點(diǎn)符號字符和 呈現(xiàn)數(shù)據(jù)中的至少一個。
19. 如權(quán)利要求16所述的方法,還包括以下步驟 確定所述字符數(shù)據(jù)中的通常出現(xiàn)的詞; 將所述通常出現(xiàn)的詞與規(guī)則相比較;以及 響應(yīng)于所述比較,確定所述第二順序。
20. 如權(quán)利要求16所述的方法,其中,還包括以下步驟 將所述字符數(shù)據(jù)與辭典集合相比較;以及 響應(yīng)于所述比較,確定第二順序。
21. 如權(quán)利要求16所述的方法,還包括以下步驟 識別與文檔中的所述字符數(shù)據(jù)相關(guān)聯(lián)的至少一種語言。
22. 如權(quán)利要求21所述的方法,還包括以下步驟分析下列的至少一個與所述字符數(shù)據(jù)相關(guān)聯(lián)的詞匯;與所述字符數(shù)據(jù)相關(guān)聯(lián)的至少 一種字符編碼;以及與所述字符數(shù)據(jù)的腳本相關(guān)聯(lián)的腳本數(shù)據(jù)。
23. 如權(quán)利要求21或權(quán)利要求22所述的方法,還包括以下步驟使用所識別的語言來確定規(guī)則,其中將文檔中的字符數(shù)據(jù)與該規(guī)則相比較,以便確定 所述第二順序。
24. 如權(quán)利要求21至23中的任一個所述的方法,其中,所述語言識別器和所述順序識 別器中的至少一個可操作用于生成分別與所識別的語言和所確定的第二順序中的至少一 個相關(guān)聯(lián)的置信度值。
25. 如權(quán)利要求24所述的方法,還包括以下步驟將所述置信度值與置信度閾值相比較。
26. 如權(quán)利要求16所述的方法,還包括以下步驟確定文檔中的所述字符數(shù)據(jù)是否具 有主要的第一順序。
27. 如權(quán)利要求26所述的方法,還包括以下步驟響應(yīng)于確定文檔中的字符數(shù)據(jù)具有 主要的第一順序,確定與第二順序相關(guān)聯(lián)的數(shù)據(jù)的至少一個子集;以及 反轉(zhuǎn)所確定的子集。
28. 如權(quán)利要求26所述的方法,還包括以下步驟響應(yīng)于確定文檔中的字符數(shù)據(jù)不具 有主要的第一順序反轉(zhuǎn)所述字符數(shù)據(jù);確定與第一順序相關(guān)聯(lián)的字符數(shù)據(jù)的至少一個子集;以及 反轉(zhuǎn)所述確定的子集。
29. 如權(quán)利要求16所述的方法,其中,響應(yīng)于所述反轉(zhuǎn)組件反轉(zhuǎn)文檔中的所述字符數(shù) 據(jù),文本檢索系統(tǒng)、文本分析系統(tǒng)以及文本處理系統(tǒng)中的至少一個可操作用來接收所述字 符數(shù)據(jù)。
30. 如權(quán)利要求16所述的方法,其中,第一順序與所述字符數(shù)據(jù)的檢索相關(guān)聯(lián)。
31. —種計(jì)算機(jī)程序,包括程序代碼組件,其被適配為當(dāng)在計(jì)算機(jī)上運(yùn)行所述程序時, 執(zhí)行權(quán)利要求16至30中的任一個的全部步驟。
全文摘要
一種準(zhǔn)備顯示文檔用于分析的設(shè)備,包括提取器,用于從所述顯示文檔提取字符數(shù)據(jù);順序識別器,用于確定與所述字符數(shù)據(jù)的處理相關(guān)聯(lián)的第一順序、以及與所述字符數(shù)據(jù)的邏輯順序相關(guān)聯(lián)的第二順序,并確定第一順序與第二順序是否不同;以及反轉(zhuǎn)組件,響應(yīng)于順序識別器確定所述第一順序不同于第二順序,反轉(zhuǎn)所述字符數(shù)據(jù)。
文檔編號G06F17/22GK101796509SQ200880105360
公開日2010年8月4日 申請日期2008年8月6日 優(yōu)先權(quán)日2007年9月3日
發(fā)明者阿德里安·李 申請人:國際商業(yè)機(jī)器公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
惠安县| 滁州市| 道孚县| 涿鹿县| 蒙城县| 昌乐县| 乌海市| 宜良县| 饶河县| 南江县| 梧州市| 阿克| 武川县| 沈阳市| 含山县| 汪清县| 大渡口区| 眉山市| 太仓市| 崇文区| 湘乡市| 积石山| 迁安市| 灵石县| 城口县| 万源市| 开封县| 柘荣县| 兴宁市| 长顺县| 达孜县| 定结县| 梓潼县| 金乡县| 莲花县| 广平县| 宝坻区| 聂拉木县| 会宁县| 明星| 三江|