本發(fā)明涉及圖像處理和光學(xué)字符識別(ocr),尤其是涉及一種基于下游任務(wù)驅(qū)動的圖片ocr文字篩選與分類方法。
背景技術(shù):
1、在現(xiàn)有技術(shù)中,圖片ocr(optical?character?recognition)文字識別技術(shù)已被廣泛應(yīng)用于各種圖像處理任務(wù)。然而,傳統(tǒng)的ocr技術(shù)通常僅關(guān)注于從圖片中提取文字信息,并沒有針對不同下游任務(wù)進(jìn)行特定優(yōu)化。這導(dǎo)致在處理復(fù)雜場景時,識別結(jié)果的準(zhǔn)確性和相關(guān)性較低,無法滿足特定應(yīng)用的需求。
2、例如,在敏感信息分類任務(wù)中,現(xiàn)有的ocr系統(tǒng)無法有效區(qū)分背景為橫幅或的文字,從而導(dǎo)致篩選出的文字片段不夠精準(zhǔn),影響了分析的準(zhǔn)確性。傳統(tǒng)的篩選方法主要依賴于簡單的文字大小和顏色篩選規(guī)則,但這些規(guī)則在面對復(fù)雜多變的背景信息時,往往顯得不足,難以過濾掉無關(guān)或噪音信息。
3、為了解決這些問題,通常采用結(jié)合上下文信息和機(jī)器學(xué)習(xí)算法的方法對文字進(jìn)行篩選和分類。然而,這些方法仍存在一定局限性:
4、1、上下文信息不足:傳統(tǒng)方法難以充分利用圖片中的背景信息,例如建筑物、路標(biāo)、商品等,從而導(dǎo)致篩選的文字片段相關(guān)性不足。
5、2、缺乏動態(tài)適應(yīng)性:現(xiàn)有技術(shù)缺乏根據(jù)下游任務(wù)需求動態(tài)調(diào)整篩選標(biāo)準(zhǔn)的能力,導(dǎo)致在面對不同任務(wù)場景時,無法提供最相關(guān)和最精確的文字篩選結(jié)果。
6、3、篩選精度有限:由于多維度信息融合度不足,傳統(tǒng)方法難以在復(fù)雜背景中準(zhǔn)確識別并篩選出最相關(guān)的文字片段,影響了后續(xù)任務(wù)分析的高質(zhì)量數(shù)據(jù)輸入。
7、因此,如何在ocr系統(tǒng)中引入基于下游任務(wù)驅(qū)動的動態(tài)適應(yīng)機(jī)制,以及多維度信息融合的高精度篩選,成了本發(fā)明所要解決的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明解決的技術(shù)問題是針對上述現(xiàn)有技術(shù)中存在的缺陷,提供一種基于下游任務(wù)驅(qū)動的圖片ocr文字篩選與分類方法,以解決上述背景技術(shù)中提出的在復(fù)雜背景下提高文字篩選準(zhǔn)確性和相關(guān)性的問題。
2、為解決上述技術(shù)問題,本發(fā)明采取的技術(shù)方案如下:
3、一種基于下游任務(wù)驅(qū)動的圖片ocr文字篩選與分類方法,包括以下步驟:
4、步驟1,對輸入的圖片進(jìn)行文字檢測,獲取圖片中文字的位置,記錄為位置集合pos,其中每個位置記錄包括文字片段的四個角點坐標(biāo);
5、步驟2,按照文字位置將圖片裁剪成多個小圖片,進(jìn)行文字識別,得到每個位置的文字內(nèi)容;
6、步驟3,判斷每個文字片段的大小和顏色,分別記錄為size和color,其中size為文字片段的高度,color為文字片段的顏色標(biāo)簽;
7、步驟4,對圖片進(jìn)行目標(biāo)檢測,識別出圖片中的背景目標(biāo),包括但不限于建筑物、路標(biāo)、商品、橫幅、服裝;
8、步驟5,將文字位置與背景目標(biāo)位置進(jìn)行比對,計算每個文字片段與背景目標(biāo)的相交面積比例,確定每個文字片段對應(yīng)的背景目標(biāo)種類;
9、步驟6,根據(jù)具體的下游任務(wù),對經(jīng)過上述篩選的文字片段進(jìn)行進(jìn)一步選擇:
10、在敏感信息分類任務(wù)中,選擇背景為橫幅或size較大且color為非黑色的文字;
11、在屬地判斷任務(wù)中,選擇與地理位置相關(guān)的文字信息,并結(jié)合背景信息,如路標(biāo)、建筑物進(jìn)行篩選;
12、在應(yīng)急信息處理任務(wù)中,選擇與緊急情況相關(guān)的文字信息,并結(jié)合背景信息,如、橫幅進(jìn)行篩選;
13、將經(jīng)過任務(wù)特定篩選的文字片段輸入到下游任務(wù)的分類模型中進(jìn)行處理和分析。
14、作為本發(fā)明進(jìn)一步的方案,步驟6中,在敏感信息分類任務(wù)中,通過以下方式進(jìn)行文字選擇:
15、引入任務(wù)適配器模塊,實時分析下游任務(wù)需求,自動調(diào)整文字大小和顏色的篩選標(biāo)準(zhǔn);
16、通過收集和分析過去的處理記錄和上下文信息,提取出相關(guān)的模式和規(guī)則,并根據(jù)這些模式動態(tài)調(diào)整篩選標(biāo)準(zhǔn)。具體操作包括:
17、結(jié)合歷史數(shù)據(jù)反饋的結(jié)果,取出與該任務(wù)相關(guān)性較高的背景目標(biāo)類型和文字片段特征對應(yīng)的文字;
18、根據(jù)分析結(jié)果,實時更新背景信息篩選規(guī)則,以選擇背景為橫幅或size較大且color為非黑色的文字;
19、在屬地判斷任務(wù)中,通過以下方式進(jìn)行文字選擇:
20、通過任務(wù)適配器模塊實時分析下游任務(wù)需求,動態(tài)調(diào)整與地理位置相關(guān)的文字信息篩選標(biāo)準(zhǔn);
21、結(jié)合上下文信息,如歷史數(shù)據(jù)和任務(wù)特定參數(shù),優(yōu)化路標(biāo)和建筑物背景信息的篩選規(guī)則。具體操作包括:
22、從歷史數(shù)據(jù)中提取出與地理位置相關(guān)的文字信息和背景目標(biāo)特征;
23、利用機(jī)器學(xué)習(xí)模型分析上下文信息,識別和提取與地理位置相關(guān)的特征模式;?根據(jù)分析結(jié)果,動態(tài)調(diào)整路標(biāo)和建筑物背景信息的篩選標(biāo)準(zhǔn),提高屬地判斷的準(zhǔn)確性;
24、在應(yīng)急信息處理任務(wù)中,通過以下方式進(jìn)行文字選擇:
25、采用任務(wù)適配器模塊,實時分析下游任務(wù)需求,自動調(diào)整與緊急情況相關(guān)的文字信息篩選標(biāo)準(zhǔn);
26、根據(jù)歷史數(shù)據(jù)的反饋結(jié)果,動態(tài)優(yōu)化應(yīng)急信息處理任務(wù)篩選的文字背景目標(biāo)類型和文字片段特征的篩選規(guī)則,提高應(yīng)急信息處理的效率和準(zhǔn)確性;
27、根據(jù)分析結(jié)果實時更新背景信息篩選規(guī)則,以選擇背景為橫幅或?qū)?yīng)的文字參與到應(yīng)急信息處理任務(wù)中。
28、作為本發(fā)明進(jìn)一步的方案,在步驟3中,進(jìn)一步包括:
29、利用深度學(xué)習(xí)算法對文字片段的顏色進(jìn)行分類,利用閾值對文字片段的大小進(jìn)行分類,并生成分類模型以提高篩選效率和準(zhǔn)確性。
30、作為本發(fā)明進(jìn)一步的方案,在步驟4中,使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測,并通過微調(diào)預(yù)訓(xùn)練模型識別背景目標(biāo)。
31、作為本發(fā)明進(jìn)一步的方案,在步驟5中,進(jìn)一步包括:
32、計算每個文字片段與多個背景目標(biāo)的相交面積比例,選擇相交面積最大的背景目標(biāo)作為該文字片段的背景目標(biāo)種類。
33、作為本發(fā)明進(jìn)一步的方案,引入任務(wù)適配器模塊包括以下步驟:
34、根據(jù)下游任務(wù)需求,實時更新篩選標(biāo)準(zhǔn)參數(shù)庫,并根據(jù)反饋結(jié)果動態(tài)調(diào)整篩選標(biāo)準(zhǔn)。
35、作為本發(fā)明進(jìn)一步的方案,在敏感信息分類任務(wù)中,通過以下方式進(jìn)一步優(yōu)化文字選擇:
36、結(jié)合上下文語義分析,對相似語義的文字片段進(jìn)行聚類,并優(yōu)先選擇與任務(wù)相關(guān)的文字片段。
37、作為本發(fā)明進(jìn)一步的方案,在屬地判斷任務(wù)中,通過以下方式進(jìn)一步優(yōu)化文字選擇:
38、利用地理信息系統(tǒng)gis數(shù)據(jù),結(jié)合路標(biāo)和建筑物背景信息,動態(tài)調(diào)整篩選標(biāo)準(zhǔn),提高屬地判斷的精度。
39、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
40、1、能夠?qū)崟r分析下游任務(wù)的具體需求,動態(tài)調(diào)整文字大小、顏色和背景信息的篩選標(biāo)準(zhǔn)。這種任務(wù)驅(qū)動的動態(tài)適應(yīng)性,使得系統(tǒng)在面對不同任務(wù)場景時,能夠迅速做出調(diào)整,提供最相關(guān)和最精確的文字篩選結(jié)果。
41、2、下游任務(wù)細(xì)化:通過任務(wù)適配器模塊,系統(tǒng)能夠針對敏感分類、屬地判斷和應(yīng)急信息處理等具體任務(wù),實施精細(xì)化的文字篩選策略。例如,在敏感信息分類任務(wù)中,系統(tǒng)會優(yōu)先選擇背景為橫幅或文字大小較大、顏色為非黑色的文字片段。這種精細(xì)化的篩選顯著提高了分析的準(zhǔn)確性和可靠性。
42、3、多維度信息融合帶來的高精度篩選:本發(fā)明通過結(jié)合文字的大小、顏色和背景信息進(jìn)行多維度篩選,能夠有效過濾掉無關(guān)或噪音信息。相比于單一維度的篩選方法,多維度信息融合顯著提高了數(shù)據(jù)篩選的精度和有效性。系統(tǒng)能夠在復(fù)雜背景中準(zhǔn)確識別并篩選出最相關(guān)的文字片段,確保后續(xù)任務(wù)分析的高質(zhì)量數(shù)據(jù)輸入,例如采用智能優(yōu)化和反饋循環(huán)機(jī)制:
43、4、顯著提升應(yīng)急處理效率和準(zhǔn)確性:在應(yīng)急信息處理任務(wù)中,系統(tǒng)能夠快速篩選出與緊急情況相關(guān)的文字信息,結(jié)合橫幅背景信息,進(jìn)行高效處理。相比傳統(tǒng)方法,系統(tǒng)在處理緊急情況時的響應(yīng)速度和準(zhǔn)確性大幅提升,確保及時決策和應(yīng)對。
44、本發(fā)明的附加方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。