本技術(shù)實(shí)施例涉及人工智能領(lǐng)域,尤其涉及一種版面布局提取模型的訓(xùn)練方法、裝置及相關(guān)設(shè)備。
背景技術(shù):
1、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的高速發(fā)展,電子類文檔逐漸成為承載信息的載體。其中便攜式文檔格式(pdf)是由adobe公司開發(fā)的一種文件格式,廣泛用于文檔的交換和存儲(chǔ)?,F(xiàn)有技術(shù)中,一般通過版面布局提取模型對待檢測pdf文檔進(jìn)行布局檢測,但是用于pdf文檔一般會(huì)出現(xiàn)文本圖片光線明暗分布不均和圖片扭曲的問題,從而導(dǎo)致現(xiàn)有技術(shù)中版面布局提取模型對pdf文檔識(shí)別準(zhǔn)確度較低的問題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例提供一種版面布局提取模型的訓(xùn)練方法、裝置及相關(guān)設(shè)備,以解決現(xiàn)有技術(shù)中版面布局提取模型對版面圖像識(shí)別準(zhǔn)確度較低的問題。
2、為解決上述問題,本技術(shù)是這樣實(shí)現(xiàn)的:
3、第一方面,本技術(shù)實(shí)施例提供了一種版面布局提取模型的訓(xùn)練方法,所述方法包括:
4、獲取第一訓(xùn)練數(shù)據(jù)集,所述第一訓(xùn)練數(shù)據(jù)集包括多張第一圖像和所述多張第一圖像分別對應(yīng)的多個(gè)第一版面布局信息,所述多張第一圖像為無扭曲和均勻光照的版面圖像;
5、對所述多張第一圖像進(jìn)行圖像扭曲處理,得到多張第二圖像和所述多張第二圖像對應(yīng)的多個(gè)第二版面布局信息,以及對所述多張第一圖像進(jìn)行光照分散處理,得到多張第三圖像和所述多張第三圖像對應(yīng)的多個(gè)第三版面布局信息;
6、基于所述多張第二圖像、所述多個(gè)第二版面布局信息、所述多張第三圖像和所述多個(gè)第三版面布局信息,對版面布局提取模型進(jìn)行訓(xùn)練,得到目標(biāo)版面布局提取模型,所述版面布局提取模型用于提取版面圖像中的版面布局信息。
7、可選的,所述基于所述多張第二圖像、所述多個(gè)第二版面布局信息、所述多張第三圖像和所述多個(gè)第三版面布局信息,對版面布局提取模型進(jìn)行訓(xùn)練,得到目標(biāo)版面布局提取模型,包括:
8、生成第二訓(xùn)練數(shù)據(jù)集,所述第二訓(xùn)練數(shù)據(jù)集包括所述多張第一圖像、所述多個(gè)第一版面布局信息、所述多張第二圖像、所述多個(gè)第二版面布局信息、所述多張第三圖像和所述多個(gè)第三版面布局信息;
9、將所述第二訓(xùn)練數(shù)據(jù)集輸入至目標(biāo)圖像扭曲模型中進(jìn)行特征提取,得到多個(gè)圖像扭曲特征,以及將所述第二訓(xùn)練數(shù)據(jù)集輸入至目標(biāo)光照檢測模型中進(jìn)行特征提取,得到多個(gè)圖像光照特征;
10、基于所述多個(gè)圖像扭曲特征和所述多個(gè)圖像光照特征對所述版面布局提取模型進(jìn)行訓(xùn)練,得到所述目標(biāo)版面布局提取模型。
11、可選的,所述方法還包括:
12、基于所述多張第二圖像和所述多個(gè)第二版面布局信息對圖像扭曲模型進(jìn)行訓(xùn)練,得到所述目標(biāo)圖像扭曲模型;和/或
13、基于所述多張第三圖像和所述多個(gè)第三版面布局信息對光照檢測模型進(jìn)行訓(xùn)練,得到所述目標(biāo)光照檢測模型。
14、可選的,所述對所述多張第一圖像進(jìn)行圖像扭曲處理,得到多張第二圖像和所述多張第二圖像對應(yīng)的多個(gè)第二版面布局信息,以及對所述多張第一圖像進(jìn)行光照分散處理,得到多張第三圖像和所述多張第三圖像對應(yīng)的多個(gè)第三版面布局信息,包括:
15、將所述多張第一圖像和所述多個(gè)第一版面布局信息輸入至圖像扭曲模型中進(jìn)行圖像扭曲處理,得到第三訓(xùn)練數(shù)據(jù)集,所述第三訓(xùn)練數(shù)據(jù)集包括所述多張第二圖像和所述多個(gè)第二版面布局信息;
16、將所述多張第一圖像和所述多個(gè)第一版面布局信息輸入至光照分散模型中進(jìn)行光照分散處理,得到第四訓(xùn)練數(shù)據(jù)集,所述第四訓(xùn)練數(shù)據(jù)集包括所述多張第三圖像和所述多個(gè)第三版面布局信息。
17、可選的,所述將所述多張第一圖像和所述多個(gè)第一版面布局信息輸入至圖像扭曲模型中進(jìn)行圖像扭曲處理,得到第三訓(xùn)練數(shù)據(jù)集,包括:
18、將所述多張第一圖像輸入至所述圖像扭曲模型中,對所述多張第一圖像分別進(jìn)行旋轉(zhuǎn)扭曲,得到所述多張第二圖像;
19、根據(jù)所述多個(gè)第一版面布局信息計(jì)算所述多張第二圖像對應(yīng)的多個(gè)第二版面布局信息,所述第二版面布局信息用于指示所對應(yīng)的第二圖像的扭曲角度;
20、基于所述多張第二圖像和所述多個(gè)第二版面布局信息生成所述第三訓(xùn)練數(shù)據(jù)集。
21、可選的,所述將所述多張第一圖像和所述多個(gè)第一版面布局信息輸入至光照分散模型中進(jìn)行光照分散處理,得到第四訓(xùn)練數(shù)據(jù)集,包括:
22、將所述多張第一圖像輸入至光照分散模型中,分別在所述多張第一圖像上生成隨機(jī)遮擋,得到多張第五圖像;
23、分別對所述多張第五圖像進(jìn)行模糊處理和光照度調(diào)整,得到所述多張第三圖像;
24、根據(jù)所述多個(gè)第一版面布局信息計(jì)算所述多張第三圖像對應(yīng)的多個(gè)第三版面布局信息,所述第三版面布局信息用于指示所對應(yīng)的第三圖像的模糊程度和光照度。
25、第二方面,本技術(shù)實(shí)施例提供了一種版面布局的提取方法,所述方法包括:
26、獲取待處理的目標(biāo)圖像;
27、將所述待處理的目標(biāo)圖像輸入至第一方面任一項(xiàng)所述的目標(biāo)版面布局提取模型中進(jìn)行版面布局提取,得到所述待處理的目標(biāo)圖像的版面布局信息。
28、第三方面,本技術(shù)實(shí)施例還提供一種版面布局提取模型的訓(xùn)練裝置,所述裝置包括:
29、第一獲取模塊,用于獲取第一訓(xùn)練數(shù)據(jù)集,所述第一訓(xùn)練數(shù)據(jù)集包括多張第一圖像和所述多張第一圖像分別對應(yīng)的多個(gè)第一版面布局信息,所述多張第一圖像為無扭曲和均勻光照的版面圖像;
30、處理模塊,用于對所述多張第一圖像進(jìn)行圖像扭曲處理,得到多張第二圖像和所述多張第二圖像對應(yīng)的多個(gè)第二版面布局信息,以及對所述多張第一圖像進(jìn)行光照分散處理,得到多張第三圖像和所述多張第三圖像對應(yīng)的多個(gè)第三版面布局信息;
31、訓(xùn)練模塊,用于基于所述多張第二圖像、所述多個(gè)第二版面布局信息、所述多張第三圖像和所述多個(gè)第三版面布局信息,對版面布局提取模型進(jìn)行訓(xùn)練,得到目標(biāo)版面布局提取模型,所述版面布局提取模型用于提取版面圖像中的版面布局信息。
32、第四方面,本技術(shù)實(shí)施例還提供一種版面布局的提取裝置,包括:
33、第二獲取模塊,用于獲取待處理的目標(biāo)圖像;
34、提取模塊,用于將所述待處理的目標(biāo)圖像輸入至上述任一項(xiàng)所述的目標(biāo)版面布局提取模型中進(jìn)行版面布局提取,得到所述待處理的目標(biāo)圖像的版面布局信息。
35、第五方面,本技術(shù)實(shí)施例還提供一種電子設(shè)備,包括:收發(fā)機(jī)、存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的程序;所述處理器,用于讀取存儲(chǔ)器中的程序?qū)崿F(xiàn)如前述第一方面所述方法中的步驟,或,實(shí)現(xiàn)如前述第二方面所述方法中的步驟。
36、第六方面,本技術(shù)實(shí)施例還提供一種可讀存儲(chǔ)介質(zhì),用于存儲(chǔ)程序,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如前述第一方面所述方法中的步驟,或,實(shí)現(xiàn)如前述第二方面所述方法中的步驟。
37、第七方面,本技術(shù)實(shí)施例還提供一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品被存儲(chǔ)在存儲(chǔ)介質(zhì)中,所述計(jì)算機(jī)程序產(chǎn)品被至少一個(gè)處理器執(zhí)行以實(shí)現(xiàn)如第一方面所述方法中的步驟,或,實(shí)現(xiàn)如前述第二方面所述方法中的步驟。
38、本技術(shù)提供一種版面布局提取模型的訓(xùn)練方法、裝置及相關(guān)設(shè)備,所述方法包括:獲取第一訓(xùn)練數(shù)據(jù)集,所述第一訓(xùn)練數(shù)據(jù)集包括多張第一圖像和所述多張第一圖像分別對應(yīng)的多個(gè)第一版面布局信息,所述多張第一圖像為無扭曲和均勻光照的版面圖像;對所述多張第一圖像進(jìn)行圖像扭曲處理,得到多張第二圖像和所述多張第二圖像對應(yīng)的多個(gè)第二版面布局信息,以及對所述多張第一圖像進(jìn)行光照分散處理,得到多張第三圖像和所述多張第三圖像對應(yīng)的多個(gè)第三版面布局信息;基于所述多張第二圖像、所述多個(gè)第二版面布局信息、所述多張第三圖像和所述多個(gè)第三版面布局信息,對版面布局提取模型進(jìn)行訓(xùn)練,得到目標(biāo)版面布局提取模型,所述版面布局提取模型用于提取版面圖像中的版面布局信息。本技術(shù)通過將第一訓(xùn)練數(shù)據(jù)集中的多張第一圖像進(jìn)行圖像扭曲處理和光照分散處理后,分別得到多張第二圖像和多張第三圖像,由此通過更多不同情況的版面圖像對版面布局提取模型進(jìn)行訓(xùn)練,提高了版面布局提取模型對版面圖像的識(shí)別準(zhǔn)確度。