本申請涉及數(shù)據(jù)處理,尤其涉及一種文本搜索方法、裝置、計算機設(shè)備及計算機可讀存儲介質(zhì)。
背景技術(shù):
1、目前大多數(shù)公司都實現(xiàn)了辦公電子化,客戶信息及對應(yīng)的產(chǎn)品信息一般通過電子文檔存儲在終端或服務(wù)器中,而在信息較多的情況下,例如保險的保單對應(yīng)的文檔或客戶的投資理財?shù)冉鹑谛畔⑺鶎?yīng)的文檔均需要包含較多信息,通過多頁面的pdf文檔來滿足信息的記錄了需求,但若需要在多頁面的pdf文檔中進行文本搜索定位以實現(xiàn)信息的查詢時,一般是通過文本段查找工具對待搜索的文本實現(xiàn)快速定位,但這些文本段查找工具在文本搜索過程中會受到pdf文檔中的圖像、頁眉或頁腳等信息的影響,從而導(dǎo)致文本段查找工具對pdf文檔的文本搜索精度較低。
技術(shù)實現(xiàn)思路
1、本申請?zhí)峁┮环N文本搜索方法、裝置、計算機設(shè)備及計算機可讀存儲介質(zhì),旨在提升pdf文檔的文本搜索精度。
2、第一方面,本申請?zhí)峁┮环N文本搜索方法,所述文本搜索方法包括以下步驟:
3、獲取目標(biāo)pdf文檔及所述目標(biāo)pdf文檔的文本搜索請求,所述文檔搜索請求包括待搜索文本;
4、基于文檔類型識別規(guī)則,確定所述目標(biāo)pdf文檔的文檔類型;
5、根據(jù)所述目標(biāo)pdf文檔的文檔類型確定文檔轉(zhuǎn)換模型,并基于確定的文檔轉(zhuǎn)換模型對所述目標(biāo)pdf文檔進行文檔轉(zhuǎn)換處理,得到所述目標(biāo)pdf文檔對應(yīng)的第一文本;
6、確定所述第一文本中的頁眉文本和/或頁腳文本,并刪除所述頁眉文本和/或頁腳文本,得到第二文本;
7、在所述第二文本中確定與所述待搜索文本匹配的目標(biāo)文本,輸出所述所述目標(biāo)文本的文本信息及位置信息。
8、第二方面,本申請還提供一種文本搜索裝置,所述文本搜索裝置包括:
9、信息獲取模塊,用于獲取目標(biāo)pdf文檔及所述目標(biāo)pdf文檔的文本搜索請求,所述文檔搜索請求包括待搜索文本;
10、類型確定模塊,用于基于文檔類型識別規(guī)則,確定所述目標(biāo)pdf文檔的文檔類型;
11、文檔轉(zhuǎn)換模塊,用于根據(jù)所述目標(biāo)pdf文檔的文檔類型確定文檔轉(zhuǎn)換模型,并基于確定的文檔轉(zhuǎn)換模型對所述目標(biāo)pdf文檔進行文檔轉(zhuǎn)換處理,得到所述目標(biāo)pdf文檔對應(yīng)的第一文本;
12、文本處理模塊,用于確定所述第一文本中的頁眉文本和/或頁腳文本,并刪除所述頁眉文本和/或頁腳文本,得到第二文本;
13、信息輸出模塊,用于在所述第二文本中確定與所述待搜索文本匹配的目標(biāo)文本,輸出所述所述目標(biāo)文本的文本信息及位置信息。
14、第三方面,本申請還提供一種計算機設(shè)備,所述計算機設(shè)備包括處理器、存儲器、以及存儲在所述存儲器上并可被所述處理器執(zhí)行的計算機程序,其中所述計算機程序被所述處理器執(zhí)行時,實現(xiàn)如上述的文本搜索方法的步驟。
15、第四方面,本申請還提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲有計算機程序,其中所述計算機程序被處理器執(zhí)行時,實現(xiàn)如上述的文本搜索方法的步驟。
16、本申請?zhí)峁┮环N文本搜索方法、裝置、計算機設(shè)備及計算機可讀存儲介質(zhì),本申請通過確定目標(biāo)pdf文檔的文檔類型,以根據(jù)目標(biāo)pdf文檔的文檔類型選擇合適的文檔轉(zhuǎn)換模型對目標(biāo)pdf文檔進行文檔轉(zhuǎn)換處理,以得到第一文本,確定第一文本中的頁眉文本和/或頁腳文本,并刪除頁眉文本和/或頁腳文本,以得到第二文本,從而在第二文本中進行文本搜索,以完成目標(biāo)pdf文檔的文本搜索,通過選用與pdf文檔的文檔類型適配的文檔轉(zhuǎn)換模型進行文檔轉(zhuǎn)換處理,提升了轉(zhuǎn)換得到的文本的精確度,并且避免了頁眉與頁腳的影響,從而提升了pdf文檔的文本搜索精度。
1.一種文本搜索方法,其特征在于,包括:
2.如權(quán)利要求1所述的文本搜索方法,其特征在于,所述確定所述第一文本中的頁眉文本和/或頁腳文本,并刪除所述頁眉文本和/或頁腳文本,得到第二文本,包括:
3.如權(quán)利要求2所述的文本搜索方法,其特征在于,在刪去所述頁眉文本和/或所述頁腳文本之后,所述方法還包括:
4.如權(quán)利要求1-3任一項所述的文本搜索方法,其特征在于,所述基于文檔類型識別規(guī)則,確定所述目標(biāo)pdf文檔的文檔類型,包括:
5.如權(quán)利要求4所述的文本搜索方法,其特征在于,所述根據(jù)所述頁面文本信息確定所述目標(biāo)pdf文檔的文檔類型,包括:
6.如權(quán)利要求5所述的文本搜索方法,其特征在于,所述根據(jù)所述目標(biāo)pdf文檔的文檔類型確定文檔轉(zhuǎn)換模型,包括:
7.如權(quán)利要求1-3任一項所述的文本搜索方法,其特征在于,所述在所述第二文本中確定與所述待搜索文本匹配的目標(biāo)文本,輸出所述所述目標(biāo)文本的文本信息及位置信息,包括:
8.一種文本搜索裝置,其特征在于,所述文本搜索裝置包括:
9.一種計算機設(shè)備,其特征在于,所述計算機設(shè)備包括處理器、存儲器、以及存儲在所述存儲器上并可被所述處理器執(zhí)行的計算機程序,其中所述計算機程序被所述處理器執(zhí)行時,實現(xiàn)如權(quán)利要求1至7中任一項所述的文本搜索方法的步驟。
10.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)上存儲有計算機程序,其中所述計算機程序被處理器執(zhí)行時,實現(xiàn)如權(quán)利要求1至7中任一項所述的文本搜索方法的步驟。