欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文本搜索方法、裝置、計算機設(shè)備及計算機可讀存儲介質(zhì)與流程

文檔序號:40550187發(fā)布日期:2025-01-03 11:09閱讀:6來源:國知局
文本搜索方法、裝置、計算機設(shè)備及計算機可讀存儲介質(zhì)與流程

本申請涉及數(shù)據(jù)處理,尤其涉及一種文本搜索方法、裝置、計算機設(shè)備及計算機可讀存儲介質(zhì)。


背景技術(shù):

1、目前大多數(shù)公司都實現(xiàn)了辦公電子化,客戶信息及對應(yīng)的產(chǎn)品信息一般通過電子文檔存儲在終端或服務(wù)器中,而在信息較多的情況下,例如保險的保單對應(yīng)的文檔或客戶的投資理財?shù)冉鹑谛畔⑺鶎?yīng)的文檔均需要包含較多信息,通過多頁面的pdf文檔來滿足信息的記錄了需求,但若需要在多頁面的pdf文檔中進行文本搜索定位以實現(xiàn)信息的查詢時,一般是通過文本段查找工具對待搜索的文本實現(xiàn)快速定位,但這些文本段查找工具在文本搜索過程中會受到pdf文檔中的圖像、頁眉或頁腳等信息的影響,從而導(dǎo)致文本段查找工具對pdf文檔的文本搜索精度較低。


技術(shù)實現(xiàn)思路

1、本申請?zhí)峁┮环N文本搜索方法、裝置、計算機設(shè)備及計算機可讀存儲介質(zhì),旨在提升pdf文檔的文本搜索精度。

2、第一方面,本申請?zhí)峁┮环N文本搜索方法,所述文本搜索方法包括以下步驟:

3、獲取目標(biāo)pdf文檔及所述目標(biāo)pdf文檔的文本搜索請求,所述文檔搜索請求包括待搜索文本;

4、基于文檔類型識別規(guī)則,確定所述目標(biāo)pdf文檔的文檔類型;

5、根據(jù)所述目標(biāo)pdf文檔的文檔類型確定文檔轉(zhuǎn)換模型,并基于確定的文檔轉(zhuǎn)換模型對所述目標(biāo)pdf文檔進行文檔轉(zhuǎn)換處理,得到所述目標(biāo)pdf文檔對應(yīng)的第一文本;

6、確定所述第一文本中的頁眉文本和/或頁腳文本,并刪除所述頁眉文本和/或頁腳文本,得到第二文本;

7、在所述第二文本中確定與所述待搜索文本匹配的目標(biāo)文本,輸出所述所述目標(biāo)文本的文本信息及位置信息。

8、第二方面,本申請還提供一種文本搜索裝置,所述文本搜索裝置包括:

9、信息獲取模塊,用于獲取目標(biāo)pdf文檔及所述目標(biāo)pdf文檔的文本搜索請求,所述文檔搜索請求包括待搜索文本;

10、類型確定模塊,用于基于文檔類型識別規(guī)則,確定所述目標(biāo)pdf文檔的文檔類型;

11、文檔轉(zhuǎn)換模塊,用于根據(jù)所述目標(biāo)pdf文檔的文檔類型確定文檔轉(zhuǎn)換模型,并基于確定的文檔轉(zhuǎn)換模型對所述目標(biāo)pdf文檔進行文檔轉(zhuǎn)換處理,得到所述目標(biāo)pdf文檔對應(yīng)的第一文本;

12、文本處理模塊,用于確定所述第一文本中的頁眉文本和/或頁腳文本,并刪除所述頁眉文本和/或頁腳文本,得到第二文本;

13、信息輸出模塊,用于在所述第二文本中確定與所述待搜索文本匹配的目標(biāo)文本,輸出所述所述目標(biāo)文本的文本信息及位置信息。

14、第三方面,本申請還提供一種計算機設(shè)備,所述計算機設(shè)備包括處理器、存儲器、以及存儲在所述存儲器上并可被所述處理器執(zhí)行的計算機程序,其中所述計算機程序被所述處理器執(zhí)行時,實現(xiàn)如上述的文本搜索方法的步驟。

15、第四方面,本申請還提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲有計算機程序,其中所述計算機程序被處理器執(zhí)行時,實現(xiàn)如上述的文本搜索方法的步驟。

16、本申請?zhí)峁┮环N文本搜索方法、裝置、計算機設(shè)備及計算機可讀存儲介質(zhì),本申請通過確定目標(biāo)pdf文檔的文檔類型,以根據(jù)目標(biāo)pdf文檔的文檔類型選擇合適的文檔轉(zhuǎn)換模型對目標(biāo)pdf文檔進行文檔轉(zhuǎn)換處理,以得到第一文本,確定第一文本中的頁眉文本和/或頁腳文本,并刪除頁眉文本和/或頁腳文本,以得到第二文本,從而在第二文本中進行文本搜索,以完成目標(biāo)pdf文檔的文本搜索,通過選用與pdf文檔的文檔類型適配的文檔轉(zhuǎn)換模型進行文檔轉(zhuǎn)換處理,提升了轉(zhuǎn)換得到的文本的精確度,并且避免了頁眉與頁腳的影響,從而提升了pdf文檔的文本搜索精度。



技術(shù)特征:

1.一種文本搜索方法,其特征在于,包括:

2.如權(quán)利要求1所述的文本搜索方法,其特征在于,所述確定所述第一文本中的頁眉文本和/或頁腳文本,并刪除所述頁眉文本和/或頁腳文本,得到第二文本,包括:

3.如權(quán)利要求2所述的文本搜索方法,其特征在于,在刪去所述頁眉文本和/或所述頁腳文本之后,所述方法還包括:

4.如權(quán)利要求1-3任一項所述的文本搜索方法,其特征在于,所述基于文檔類型識別規(guī)則,確定所述目標(biāo)pdf文檔的文檔類型,包括:

5.如權(quán)利要求4所述的文本搜索方法,其特征在于,所述根據(jù)所述頁面文本信息確定所述目標(biāo)pdf文檔的文檔類型,包括:

6.如權(quán)利要求5所述的文本搜索方法,其特征在于,所述根據(jù)所述目標(biāo)pdf文檔的文檔類型確定文檔轉(zhuǎn)換模型,包括:

7.如權(quán)利要求1-3任一項所述的文本搜索方法,其特征在于,所述在所述第二文本中確定與所述待搜索文本匹配的目標(biāo)文本,輸出所述所述目標(biāo)文本的文本信息及位置信息,包括:

8.一種文本搜索裝置,其特征在于,所述文本搜索裝置包括:

9.一種計算機設(shè)備,其特征在于,所述計算機設(shè)備包括處理器、存儲器、以及存儲在所述存儲器上并可被所述處理器執(zhí)行的計算機程序,其中所述計算機程序被所述處理器執(zhí)行時,實現(xiàn)如權(quán)利要求1至7中任一項所述的文本搜索方法的步驟。

10.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)上存儲有計算機程序,其中所述計算機程序被處理器執(zhí)行時,實現(xiàn)如權(quán)利要求1至7中任一項所述的文本搜索方法的步驟。


技術(shù)總結(jié)
本申請?zhí)峁┮环N文本搜索方法、裝置、計算機設(shè)備及計算機可讀存儲介質(zhì),該方法包括:獲取目標(biāo)PDF文檔及目標(biāo)PDF文檔的文本搜索請求,文檔搜索請求包括待搜索文本;基于文檔類型識別規(guī)則,確定目標(biāo)PDF文檔的文檔類型;根據(jù)目標(biāo)PDF文檔的文檔類型確定文檔轉(zhuǎn)換模型,并基于確定的文檔轉(zhuǎn)換模型對目標(biāo)PDF文檔進行文檔轉(zhuǎn)換處理,得到目標(biāo)PDF文檔對應(yīng)的第一文本;確定第一文本中的頁眉文本和/或頁腳文本,并刪除頁眉文本和/或頁腳文本,得到第二文本;在第二文本中確定與待搜索文本匹配的目標(biāo)文本,輸出目標(biāo)文本的文本信息及位置信息。本申請?zhí)嵘藢DF文檔的文本搜索及定位的精度。

技術(shù)研發(fā)人員:高尚彬,王琳婧,蘇志鋒
受保護的技術(shù)使用者:平安銀行股份有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/2
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
化州市| 平武县| 临桂县| 扬州市| 西贡区| 集贤县| 灌阳县| 云和县| 乌拉特前旗| 独山县| 土默特左旗| 夹江县| 九龙坡区| 南澳县| 岢岚县| 东乌珠穆沁旗| 临江市| 手机| 黑龙江省| 阳山县| 西峡县| 曲沃县| 南投市| 新闻| 安新县| 尼木县| 吉木萨尔县| 万安县| 金堂县| 青铜峡市| 江门市| 黄山市| 金湖县| 甘南县| 广西| 荆门市| 工布江达县| 思南县| 乌兰察布市| 同心县| 门源|