本發(fā)明涉及電子技術(shù)領(lǐng)域,尤其涉及一種媒體文件字幕的識(shí)別方法、裝置及電子設(shè)備。
背景技術(shù):
隨著網(wǎng)絡(luò)的發(fā)展,特別是移動(dòng)網(wǎng)絡(luò)的更新?lián)Q代,網(wǎng)絡(luò)寬帶有了極大的提高,視頻的傳輸變得十分便利。根據(jù)著名視頻網(wǎng)站YouTube的統(tǒng)計(jì),平均每月該網(wǎng)站播放視頻時(shí)長(zhǎng)總計(jì)超過(guò)40億小時(shí)。面對(duì)如此龐大的視頻數(shù)據(jù)量和用戶需求,對(duì)視頻字幕的文字信息進(jìn)行功能擴(kuò)展顯得尤為重要,但是有很多視頻的字幕都不是單獨(dú)的關(guān)聯(lián)文件,而是與視頻的每一幀放到了一起,需要將視頻幀中的字幕內(nèi)容識(shí)別為文字信息以便于進(jìn)行功能擴(kuò)展。
現(xiàn)有視頻字幕的識(shí)別技術(shù),大多是獲取視頻中的幀畫面,直接對(duì)幀畫面進(jìn)行識(shí)別得到文字信息,進(jìn)而將識(shí)別的文字信息與視頻的幀畫面時(shí)間戳信息結(jié)合得到字幕信息。
現(xiàn)有技術(shù)直接對(duì)視頻的幀畫面進(jìn)行處理,字幕識(shí)別的效率低。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提出了一種媒體文件字幕的識(shí)別方法、裝置及電子設(shè)備,通過(guò)將多個(gè)幀畫面進(jìn)行比較,不同幀畫面對(duì)應(yīng)同一字幕內(nèi)容時(shí),獲取一個(gè)幀畫面作為該字幕內(nèi)容的唯一幀畫面進(jìn)行識(shí)別,進(jìn)而識(shí)別出該唯一幀畫面的文字信息,生成字幕信息,避免對(duì)同一字幕內(nèi)容識(shí)別多幅幀畫面的情況,提高字幕識(shí)別的效率。
在一個(gè)方面,本發(fā)明實(shí)施例提供了媒體文件字幕的識(shí)別方法,所述方法包括:
篩選出媒體文件幀畫面中有字幕內(nèi)容的待處理幀畫面;
根據(jù)字幕內(nèi)容對(duì)所述待處理幀畫面進(jìn)行去重,獲取同一字幕內(nèi)容對(duì)應(yīng)的唯一幀畫面;
對(duì)所述唯一幀畫面進(jìn)行識(shí)別,得到所述唯一幀畫面對(duì)應(yīng)的文字信息;
對(duì)所述文字信息進(jìn)行處理生成字幕信息。
其中,所述篩選出所述媒體文件幀畫面中有字幕內(nèi)容的待處理幀畫面,具體為:
每隔固定的幀數(shù)來(lái)獲取所述媒體文件的幀畫面;
將所述幀畫面轉(zhuǎn)換成灰度圖像;
統(tǒng)計(jì)所述灰度圖像中各像素點(diǎn)的灰度值,得到所述幀畫面的灰度直方圖;
選取灰度值范圍的第一閾值和第二閾值,計(jì)算所述灰度直方圖的局部信息熵;
篩選出局部信息熵大于第三閾值的幀畫面作為待處理幀畫面。
其中,所述篩選出所述媒體文件幀畫面中有字幕內(nèi)容的待處理幀畫面,具體為:
每隔固定的幀數(shù)獲取所述媒體文件的幀畫面,當(dāng)獲得多幅幀畫面時(shí),對(duì)所述多幅幀畫面進(jìn)行多線程處理,每個(gè)線程的處理步驟包括:
將所述幀畫面轉(zhuǎn)換成灰度圖像;
統(tǒng)計(jì)所述灰度圖像中各像素點(diǎn)的灰度值,得到所述幀畫面的灰度直方圖;
選取灰度值范圍的第一閾值和第二閾值,計(jì)算所述灰度直方圖的局部信息熵;
篩選出局部信息熵大于第三閾值的幀畫面作為待處理幀畫面。
其中,所述根據(jù)字幕內(nèi)容對(duì)所述待處理幀畫面進(jìn)行去重,獲取同一字幕內(nèi)容對(duì)應(yīng)的唯一幀畫面,具體為:
步驟1獲取所述待處理幀畫面中的第一幀畫面作為當(dāng)前幀畫面,第二幀畫面作為對(duì)比幀畫面;
步驟2判斷所述當(dāng)前幀畫面和所述對(duì)比幀畫面的字幕內(nèi)容是否發(fā)生變化,若判斷出發(fā)生變化執(zhí)行步驟3,若判斷出未發(fā)生變化執(zhí)行步驟4;
步驟3提取所述當(dāng)前幀幀畫面作為唯一幀畫面,并將所述對(duì)比幀畫面作為當(dāng)前幀畫面,獲取所述對(duì)比幀畫面的下一幀作為對(duì)比幀畫面,執(zhí)行步驟2;
步驟4將所述當(dāng)前幀畫面和所述對(duì)比幀畫面中的任一幀畫面作為當(dāng)前幀畫面,獲取所述對(duì)比幀畫面的下一幀畫面作為對(duì)比幀畫面,執(zhí)行步驟2。
其中,如果獲取到多個(gè)字幕內(nèi)容對(duì)應(yīng)的唯一幀畫面,則所述對(duì)所述唯一幀畫面進(jìn)行識(shí)別,得到所述唯一幀畫面對(duì)應(yīng)的文字信息,具體為:
對(duì)獲取到的多個(gè)字幕內(nèi)容分別對(duì)應(yīng)的唯一幀畫面進(jìn)行多線程光學(xué)字符識(shí)別,得到每幅唯一幀畫面對(duì)應(yīng)的文字信息。
其中,所述對(duì)所述唯一幀畫面進(jìn)行識(shí)別,得到所述唯一幀畫面對(duì)應(yīng)的文字信息,具體為:
將所述唯一幀畫面進(jìn)行光學(xué)字符識(shí)別,得到所述唯一幀畫面對(duì)應(yīng)的文字信息;或者
將所述唯一幀畫面發(fā)送至遠(yuǎn)程服務(wù)器,接收所述遠(yuǎn)程服務(wù)器識(shí)別返回的文字信息。
其中,所述對(duì)所述文字信息進(jìn)行處理得到字幕信息,具體為:
獲取所述唯一幀畫面的時(shí)間戳信息;
將所述文字依據(jù)所述時(shí)間戳信息生成字幕信息。
優(yōu)選地,所述對(duì)所述文字信息進(jìn)行處理得到字幕信息后,所述方法還包括:
將所述字幕信息導(dǎo)入所述媒體文件中,同步顯示所述字幕信息中的文字。
優(yōu)選地,所述對(duì)所述文字信息進(jìn)行處理得到字幕信息后,所述方法還包括:
將所述字幕信息發(fā)送至遠(yuǎn)程服務(wù)器,使所述遠(yuǎn)程服務(wù)器對(duì)所述字幕信息進(jìn)行審查校準(zhǔn)并保存,再次需要識(shí)別所述媒體文件字幕時(shí),從所述遠(yuǎn)程服務(wù)器調(diào)用校準(zhǔn)后的字幕信息。
在另一個(gè)方面,本發(fā)明實(shí)施例提供了媒體文件字幕的識(shí)別裝置,所述裝置包括:篩選模塊、去重模塊、識(shí)別模塊和字幕生成模塊;
所述篩選模塊,用于篩選出所述媒體文件幀畫面中有字幕內(nèi)容的待處理幀畫面;
所述去重模塊,用于根據(jù)字幕內(nèi)容對(duì)所述待處理幀畫面進(jìn)行去重,獲取同一字幕內(nèi)容對(duì)應(yīng)的唯一幀畫面;
所述識(shí)別模塊,用于對(duì)所述唯一幀畫面進(jìn)行識(shí)別,得到所述唯一幀畫面對(duì)應(yīng)的文字信息;
所述字幕生成模塊,用于對(duì)所述文字信息進(jìn)行處理生成字幕信息。
其中,所述篩選模塊包括第一獲取單元、轉(zhuǎn)換單元、統(tǒng)計(jì)單元、計(jì)算單元和篩選單元,其中:
所述第一獲取單元,用于每隔固定的幀數(shù)來(lái)獲取所述媒體文件的幀畫面;
所述轉(zhuǎn)換單元,用于將所述幀畫面轉(zhuǎn)換成灰度圖像;
所述統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述灰度圖像中各像素點(diǎn)的灰度值,得到所述幀畫面的灰度直方圖;
所述計(jì)算單元,用于選取灰度值范圍的第一閾值和第二閾值,計(jì)算所述灰度直方圖的局部信息熵;
所述篩選單元,用于篩選出局部信息熵大于第三閾值的幀畫面作為待處理幀畫面。
其中,所述篩選模塊包括第一獲取單元和多個(gè)處理模塊,其中:
所述第一獲取單元,用于每隔固定的幀數(shù)獲取所述媒體文件的幀畫面;
每個(gè)所述處理模塊包括轉(zhuǎn)換單元、統(tǒng)計(jì)單元、計(jì)算單元和篩選單元;
所述轉(zhuǎn)換單元,用于將所述幀畫面轉(zhuǎn)換成灰度圖像;
所述統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述灰度圖像中各像素點(diǎn)的灰度值,得到所述幀畫面的灰度直方圖;
所述計(jì)算單元,用于選取灰度值范圍的第一閾值和第二閾值,計(jì)算所述灰度直方圖的局部信息熵;
所述篩選單元,用于篩選出局部信息熵大于第三閾值的幀畫面作為待處理幀畫面。
其中,所述去重模塊包括第二獲取單元、判斷單元、提取單元、第一幀畫面確定單元、第二幀畫面確定單元,其中:
所述第二獲取單元用于獲取所述待處理幀畫面中的第一幀畫面作為當(dāng)前幀畫面,第二幀畫面作為對(duì)比幀畫面;
所述判斷單元,用于判斷所述當(dāng)前幀畫面和所述對(duì)比幀畫面的字幕內(nèi)容是否發(fā)生變化;
所述提取單元,用于當(dāng)所述判斷單元判斷所述當(dāng)前幀畫面和所述對(duì)比幀畫面的字幕內(nèi)容發(fā)生變化時(shí),提取所述當(dāng)前幀幀畫面作為唯一幀畫面;
所述第一幀畫面確定單元,用于當(dāng)所述判斷單元判斷所述當(dāng)前幀畫面和所述對(duì)比幀畫面的字幕內(nèi)容發(fā)生變化時(shí),將所述對(duì)比幀畫面作為當(dāng)前幀畫面,并獲取所述對(duì)比幀畫面的下一幀作為對(duì)比幀畫面;
所述第二幀畫面確定單元,用于當(dāng)所述判斷單元判斷所述當(dāng)前幀畫面和所述對(duì)比幀畫面的字幕內(nèi)容未發(fā)生變化時(shí),將所述當(dāng)前幀畫面和所述對(duì)比幀畫面中的任一幀畫面作為當(dāng)前幀畫面,并獲取所述對(duì)比幀畫面的下一幀畫面作為對(duì)比幀畫面。
其中,所述識(shí)別模塊包括多個(gè)識(shí)別單元,具體用于將多個(gè)字幕內(nèi)容分別對(duì)應(yīng)的唯一幀畫面進(jìn)行多線程光學(xué)字符識(shí)別,得到每幅唯一幀畫面對(duì)應(yīng)的文字信息。
其中,所述識(shí)別模塊,具體用于將所述字幕內(nèi)容識(shí)別為字幕文字;或者
具體用于將所述唯一幀畫面發(fā)送至遠(yuǎn)程服務(wù)器,接收所述遠(yuǎn)程服務(wù)器識(shí)別返回的文字信息。
其中,所述字幕生成模塊包括第三獲取單元和字幕生成單元,其中:
所述第三獲取單元,用于獲取所述唯一幀畫面的時(shí)間戳信息;
所述字幕生成單元,用于將所述文字依據(jù)所述時(shí)間戳信息生成字幕信息。
優(yōu)選地,所述裝置還包括字幕顯示模塊,用于將所述字幕信息導(dǎo)入所述媒體文件中,同步顯示所述字幕信息中的文字。
優(yōu)選地,所述裝置還包括審查模塊,用于將所述字幕信息發(fā)送至遠(yuǎn)程服務(wù)器,再次需要識(shí)別所述媒體文件字幕時(shí),從所述遠(yuǎn)程服務(wù)器調(diào)用校準(zhǔn)后的字幕信息。
在另一個(gè)方面,本發(fā)明實(shí)施例提供了一種終端,包括:如上所述的媒體文件字幕的識(shí)別裝置。
在另一個(gè)方面,本發(fā)明實(shí)施例提供了一種電子設(shè)備,包括:殼體、處理器、存儲(chǔ)器、顯示屏、電路板和電源電路,其中,所述電路板安置在所述殼體圍成的空間內(nèi)部,所述處理器和所述存儲(chǔ)器設(shè)置在所述電路板上,所述顯示屏外嵌于所述殼體上且連接所述電路板;所述電源電路,用于為電子設(shè)備的各個(gè)電路或器件供電;所述存儲(chǔ)器用于存儲(chǔ)可執(zhí)行程序代碼和數(shù)據(jù);所述處理器通過(guò)讀取所述存儲(chǔ)器中存儲(chǔ)的可執(zhí)行程序代碼來(lái)運(yùn)行與可執(zhí)行程序代碼對(duì)應(yīng)的程序,以用于執(zhí)行以下步驟:
篩選出媒體文件幀畫面中有字幕內(nèi)容的待處理幀畫面;
根據(jù)字幕內(nèi)容對(duì)所述待處理幀畫面進(jìn)行去重,獲取同一字幕內(nèi)容對(duì)應(yīng)的唯一幀畫面;
對(duì)所述唯一幀畫面進(jìn)行識(shí)別,得到所述唯一幀畫面對(duì)應(yīng)的文字信息;
對(duì)所述文字信息進(jìn)行處理生成字幕信息。
本發(fā)明的上述方案至少包括以下有益效果:
本發(fā)明對(duì)于同一字幕內(nèi)容,僅對(duì)該字幕內(nèi)容對(duì)應(yīng)的唯一幀畫面進(jìn)行識(shí)別操作,相比于現(xiàn)有技術(shù)的方案,本發(fā)明不需要將同一字幕內(nèi)容對(duì)應(yīng)的多幅幀畫面進(jìn)行多次識(shí)別,同一字幕內(nèi)容只需對(duì)對(duì)應(yīng)的一幅幀畫面進(jìn)行識(shí)別,得到文字信息即可,提高了字幕識(shí)別的效率。
附圖說(shuō)明
下面將參照附圖描述本發(fā)明的具體實(shí)施例,其中:
圖1示出了本發(fā)明實(shí)施例一中媒體文件字幕的識(shí)別方法的示意圖;
圖2示出了本發(fā)明實(shí)施例二中媒體文件字幕的識(shí)別方法的示意圖;
圖3示出了本發(fā)明實(shí)施例二中根據(jù)字幕內(nèi)容對(duì)待處理幀畫面進(jìn)行去重,獲取同一字幕內(nèi)容對(duì)應(yīng)的唯一幀畫面方法的示意圖;
圖4示出了本發(fā)明實(shí)施例三中媒體文件字幕的識(shí)別裝置的結(jié)構(gòu)示意圖;
圖5示出了本發(fā)明實(shí)施例四中媒體文件字幕的識(shí)別裝置的結(jié)構(gòu)示意圖;
圖6示出了本發(fā)明實(shí)施例四中篩選模塊的結(jié)構(gòu)示意圖;
圖7示出了本發(fā)明實(shí)施例四中去重模塊的結(jié)構(gòu)示意圖;
圖8示出了本發(fā)明實(shí)施例四中識(shí)別模塊的結(jié)構(gòu)示意圖;
圖9示出了本發(fā)明實(shí)施例五中電子設(shè)備的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為了使本發(fā)明的技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖對(duì)本發(fā)明的示例性實(shí)施例進(jìn)行進(jìn)一步詳細(xì)的說(shuō)明,顯然,所描述的實(shí)施例僅是本發(fā)明的一部分實(shí)施例,而不是所有實(shí)施例的窮舉。并且在不沖突的情況下,本說(shuō)明中的實(shí)施例及實(shí)施例中的特征可以互相結(jié)合。
本發(fā)明的實(shí)施例提供一種媒體文件字幕的識(shí)別方法、裝置及電子設(shè)備,對(duì)于同一字幕內(nèi)容,僅對(duì)該字幕內(nèi)容對(duì)應(yīng)的唯一幀畫面進(jìn)行識(shí)別操作,相比于現(xiàn)有技術(shù)的方案,本發(fā)明不再需要將同一字幕內(nèi)容對(duì)應(yīng)的多幅幀畫面進(jìn)行多次識(shí)別,同一字幕內(nèi)容只需對(duì)對(duì)應(yīng)的一幅幀畫面進(jìn)行識(shí)別,得到文字信息即可,提高了字幕識(shí)別的效率。
本發(fā)明的實(shí)施例中,媒體文件可以是視頻文件或者視頻流,該視頻文件或者視頻流的來(lái)源包括但不限于:(1)存儲(chǔ)設(shè)備內(nèi)保存的視頻文件;(2)直播視頻流,例如電視直播視頻流、網(wǎng)絡(luò)直播視頻流等等。
實(shí)施例一
圖1為本發(fā)明提供的一種媒體文件字幕的識(shí)別方法的第一實(shí)施例流程示意圖。本發(fā)明實(shí)施例一提供的媒體文件字幕的識(shí)別方法包括:
步驟101、篩選出媒體文件幀畫面中有字幕內(nèi)容的待處理幀畫面;
步驟102、根據(jù)字幕內(nèi)容對(duì)待處理幀畫面進(jìn)行去重,獲取同一字幕內(nèi)容對(duì)應(yīng)的唯一幀畫面;
步驟103、對(duì)唯一幀畫面進(jìn)行識(shí)別,得到唯一幀畫面對(duì)應(yīng)的文字信息;
步驟104、對(duì)文字信息進(jìn)行處理生成字幕信息。
本發(fā)明實(shí)施例對(duì)于同一字幕內(nèi)容,僅對(duì)該字幕內(nèi)容對(duì)應(yīng)的唯一幀畫面進(jìn)行識(shí)別操作,相比于現(xiàn)有技術(shù)的方案,本發(fā)明不再需要將同一字幕內(nèi)容對(duì)應(yīng)的多幅幀畫面進(jìn)行多次識(shí)別,同一字幕內(nèi)容只需對(duì)對(duì)應(yīng)的一幅幀畫面進(jìn)行識(shí)別,得到文字信息即可,提高了字幕識(shí)別的效率。
實(shí)施例二
圖2為本發(fā)明提供的一種媒體文件字幕的識(shí)別方法的第二實(shí)施例流程示意圖。本發(fā)明實(shí)施例二提供的媒體文件字幕的識(shí)別方法包括:
步驟201、篩選出媒體文件幀畫面中有字幕內(nèi)容的待處理幀畫面;
在本實(shí)施例中提供了兩種篩選出媒體文件幀畫面中有字幕內(nèi)容的待處理幀畫面的方法,其中,第一種方法對(duì)多幅有字幕內(nèi)容的幀畫面進(jìn)行字幕內(nèi)容進(jìn)行多線程的處理,使同一字幕內(nèi)容對(duì)應(yīng)唯一幀畫面;第二種方法對(duì)有字幕內(nèi)容的幀畫面進(jìn)行字幕內(nèi)容比較,使同一字幕內(nèi)容對(duì)應(yīng)唯一幀畫面。具體如下:
本實(shí)施例中,篩選出媒體文件幀畫面中有字幕內(nèi)容的待處理幀畫面的第一種方法,每隔固定的幀數(shù)獲取媒體文件的幀畫面,當(dāng)獲得多幅幀畫面時(shí),對(duì)所述多幅幀畫面進(jìn)行多線程處理,每個(gè)線程的處理步驟包括:
將幀畫面轉(zhuǎn)換成灰度圖像;
統(tǒng)計(jì)灰度圖像中各像素點(diǎn)的灰度值,得到幀畫面的灰度直方圖;
選取灰度值范圍的第一閾值和第二閾值,計(jì)算灰度直方圖的局部信息熵;篩選出局部信息熵大于第三閾值的幀畫面作為待處理幀畫面。
本實(shí)施例中,篩選出媒體文件幀畫面中有字幕內(nèi)容的待處理幀畫面的第二種方法,每隔固定的幀數(shù)來(lái)獲取媒體文件的幀畫面;將幀畫面轉(zhuǎn)換成灰度圖像;統(tǒng)計(jì)灰度圖像中各像素點(diǎn)的灰度值,得到幀畫面的灰度直方圖;選取灰度值范圍的第一閾值和第二閾值,計(jì)算灰度直方圖的局部信息熵,第二閾值大于第一閾值;篩選出局部信息熵大于第三閾值的幀畫面,局部信息熵大于第三閾值的幀畫面為有字幕內(nèi)容的待處理幀畫面。
例如,根據(jù)灰度圖像中各像素點(diǎn)的灰度值i(i∈[0,255]),得到幀畫面的灰度直方圖為H[i];選取灰度值的范圍為第一閾值θep1≤i≤第二閾值θep2;
將灰度直方圖進(jìn)行歸一化處理:
得到直方圖局部信息熵:
若ep1≥第三閾值EPL,則認(rèn)為幀畫面有字幕內(nèi)容。
步驟202、根據(jù)字幕內(nèi)容對(duì)待處理幀畫面進(jìn)行去重,獲取同一字幕內(nèi)容對(duì)應(yīng)的唯一幀畫面;
在本實(shí)施例中,對(duì)有字幕內(nèi)容的幀畫面進(jìn)行字幕內(nèi)容比較,使同一字幕內(nèi)容對(duì)應(yīng)唯一幀畫面的方法如圖3所示,包括:
步驟2021獲取待處理幀畫面中的第一幀畫面作為當(dāng)前幀畫面,第二幀畫面作為對(duì)比幀畫面;
步驟2022判斷當(dāng)前幀畫面和對(duì)比幀畫面的字幕內(nèi)容是否發(fā)生變化,若判斷出發(fā)生變化執(zhí)行步驟2023,若判斷出未發(fā)生變化執(zhí)行步驟2024;
步驟2023提取當(dāng)前幀幀畫面作為唯一幀畫面,并將對(duì)比幀畫面作為當(dāng)前幀畫面,獲取對(duì)比幀畫面的下一幀作為對(duì)比幀畫面,執(zhí)行步驟2022;
步驟2024將當(dāng)前幀畫面和對(duì)比幀畫面中的任一幀畫面作為當(dāng)前幀畫面,獲取對(duì)比幀畫面的下一幀畫面作為對(duì)比幀畫面,執(zhí)行步驟2022。
其中,可以利用筆畫方向來(lái)判斷當(dāng)前幀和對(duì)比幀的字幕內(nèi)容是否發(fā)生變化,首先對(duì)幀畫面做邊緣檢測(cè),然后統(tǒng)計(jì)邊緣像素的梯度方向構(gòu)成的直方圖,使用OpenCV函數(shù)compareHist產(chǎn)生一個(gè)表達(dá)當(dāng)前幀畫面及對(duì)比幀畫面的邊緣像素的梯度方向直方圖的相似度的數(shù)值,并確定一個(gè)門限值,若該數(shù)值不低于門限值,則認(rèn)為字幕內(nèi)容未發(fā)生變化。
例如,當(dāng)前幀畫面的邊緣像素的梯度方向直方圖為H1,對(duì)比幀畫面的邊緣像素的梯度方向直方圖為H2,由OpenCV函數(shù)compareHist生成對(duì)比標(biāo)準(zhǔn)d(H1,H2),
其中,i為像素值,i∈[0,255],
若d(H1,H2)≥門限值D(H1,H2),則認(rèn)為字幕內(nèi)容未發(fā)生變化。
步驟203、對(duì)唯一幀畫面進(jìn)行識(shí)別,得到唯一幀畫面對(duì)應(yīng)的文字信息;
在本實(shí)施例提供了三種將唯一幀畫面中的字幕內(nèi)容識(shí)別為字幕文字的方法:
本實(shí)施例中將唯一幀畫面中的字幕內(nèi)容識(shí)別為字幕文字的第一種方法,具體為將多個(gè)字幕內(nèi)容分別對(duì)應(yīng)的唯一幀畫面進(jìn)行多線程光學(xué)字符識(shí)別,得到每幅唯一幀畫面對(duì)應(yīng)的文字信息。
本實(shí)施例中將唯一幀畫面中的字幕內(nèi)容識(shí)別為字幕文字的第二種方法,具體為將唯一幀畫面進(jìn)行光學(xué)字符識(shí)別,得到唯一幀畫面對(duì)應(yīng)的文字信息;
本實(shí)施例中將唯一幀畫面中的字幕內(nèi)容識(shí)別為字幕文字的第三種方法,具體為將唯一幀畫面發(fā)送至遠(yuǎn)程服務(wù)器,接收遠(yuǎn)程服務(wù)器識(shí)別返回的文字信息。
步驟204、對(duì)文字信息進(jìn)行處理生成字幕信息。
在本實(shí)施例中,將字幕文字進(jìn)行處理得到字幕信息具體為:將字幕文字添加至文本文件中,然后根據(jù)文本文件的內(nèi)容和時(shí)間戳,按照一句時(shí)間代碼加一句字幕的格式生成字幕信息,即按照一句時(shí)間代碼加一句字幕的格式向字幕信息中寫入文字。
字幕的種類有多種,現(xiàn)在比較常用的字幕格式有圖形格式和文本格式兩類,相對(duì)于圖形格式字幕而言,文本格式字幕有尺寸小、格式簡(jiǎn)單、便于制作和修改的特點(diǎn),文本格式字幕包括utf、idx、sub、srt、smi、rt、txt、ssa、aq、jss、js、ass,其中srt格式的文本字幕使用最為廣泛,它能兼容各種常見(jiàn)的媒體播放器,暴風(fēng)影音、QQ影音等均可自動(dòng)加載該類型的字幕。因此,在本實(shí)施例中,字幕信息采用srt格式,當(dāng)然本實(shí)施例并不限定字幕信息的格式,只要字幕信息的格式能夠支持所使用的媒體播放器即可。
步驟205、將字幕信息導(dǎo)入媒體文件中,同步顯示字幕信息中的文字。
在本實(shí)施例中,字幕信息存儲(chǔ)在媒體文件所在的文件夾內(nèi),當(dāng)播放媒體文件時(shí),該字幕信息可自動(dòng)導(dǎo)入并同步顯示。
此外,為了優(yōu)化字幕的顯示效果,可以將字幕信息中較長(zhǎng)的句子分行顯示。
步驟206、將字幕信息發(fā)送至遠(yuǎn)程服務(wù)器,使遠(yuǎn)程服務(wù)器對(duì)字幕信息進(jìn)行審查校準(zhǔn)并保存,再次需要識(shí)別媒體文件字幕時(shí),從遠(yuǎn)程服務(wù)器調(diào)用校準(zhǔn)后的字幕信息。
本發(fā)明實(shí)施例對(duì)媒體文件的幀畫面進(jìn)行多線程的篩選得到包含字幕內(nèi)容的幀畫面,通過(guò)去重獲取每個(gè)同一字幕內(nèi)容對(duì)應(yīng)的唯一幀畫面,僅對(duì)多個(gè)字幕內(nèi)容分別對(duì)應(yīng)的唯一幀畫面進(jìn)行多線程識(shí)別操作,并對(duì)字幕信息進(jìn)行審查校準(zhǔn)。相比于現(xiàn)有技術(shù)的方案,本發(fā)明對(duì)媒體文件的幀畫面進(jìn)行多線程的篩選,減少了獲取包含字幕內(nèi)容的幀畫面所需時(shí)間;通過(guò)去重,不再需要將同一字幕內(nèi)容對(duì)應(yīng)的多幅幀畫面進(jìn)行多次識(shí)別,同一字幕內(nèi)容只需對(duì)對(duì)應(yīng)的一幅幀畫面進(jìn)行識(shí)別,得到文字信息即可,提高了字幕識(shí)別的效率;對(duì)多個(gè)字幕內(nèi)容分別對(duì)應(yīng)的唯一幀畫面進(jìn)行多線程的識(shí)別,進(jìn)一步提高了字幕識(shí)別的效率;對(duì)字幕信息進(jìn)行審查校準(zhǔn),提高了再次獲取的媒體文件字幕的速度和準(zhǔn)確度。
基于同一發(fā)明構(gòu)思,本發(fā)明實(shí)施例中還提供了一種媒體文件字幕的識(shí)別裝置,由于這些系統(tǒng)解決問(wèn)題的原理與一種媒體文件字幕的識(shí)別方法相似,因此這些系統(tǒng)的實(shí)施可以參見(jiàn)方法的實(shí)施,重復(fù)之處不再贅述。
如圖4所示,本發(fā)明實(shí)施例中提供了一種媒體文件字幕的識(shí)別裝置,裝置可以包括:
篩選模塊301,用于篩選出媒體文件幀畫面中有字幕內(nèi)容的待處理幀畫面;
去重模塊302,用于根據(jù)字幕內(nèi)容對(duì)待處理幀畫面進(jìn)行去重,獲取同一字幕內(nèi)容對(duì)應(yīng)的唯一幀畫面;
識(shí)別模塊303,用于對(duì)唯一幀畫面進(jìn)行識(shí)別,得到唯一幀畫面對(duì)應(yīng)的文字信息;
字幕生成模塊304,用于對(duì)文字信息進(jìn)行處理生成字幕信息。
本發(fā)明實(shí)施例去重模塊獲取同一字幕內(nèi)容對(duì)應(yīng)的唯一幀畫面,識(shí)別模塊僅對(duì)該字幕內(nèi)容對(duì)應(yīng)的唯一幀畫面進(jìn)行識(shí)別操作,相比于現(xiàn)有技術(shù)的方案,本發(fā)明的字幕識(shí)別裝置不再需要將同一字幕內(nèi)容對(duì)應(yīng)的多幅幀畫面進(jìn)行多次識(shí)別,同一字幕內(nèi)容只需對(duì)對(duì)應(yīng)的一幅幀畫面進(jìn)行識(shí)別,得到文字信息即可,提高了字幕識(shí)別的效率。
如圖5所示,本發(fā)明實(shí)施例中提供了另一種媒體文件字幕的識(shí)別裝置,裝置可以包括:
篩選模塊401,用于篩選出媒體文件幀畫面中有字幕內(nèi)容的待處理幀畫面;
本實(shí)施例中,如圖6所示,篩選模塊401所述篩選模塊包括第一獲取單元和多個(gè)處理模塊,其中:
所述第一獲取單元,用于每隔固定的幀數(shù)獲取所述媒體文件的幀畫面;
每個(gè)所述處理模塊包括轉(zhuǎn)換單元、統(tǒng)計(jì)單元、計(jì)算單元和篩選單元;
所述轉(zhuǎn)換單元,用于將所述幀畫面轉(zhuǎn)換成灰度圖像;
所述統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述灰度圖像中各像素點(diǎn)的灰度值,得到所述幀畫面的灰度直方圖;
所述計(jì)算單元,用于選取灰度值范圍的第一閾值和第二閾值,計(jì)算所述灰度直方圖的局部信息熵;
所述篩選單元,用于篩選出局部信息熵大于第三閾值的幀畫面作為待處理幀畫面。
本實(shí)施例還提供了另一種篩選模塊,可以包括第一獲取單元4011、轉(zhuǎn)換單元4012、統(tǒng)計(jì)單元4013、計(jì)算單元4014和篩選單元4015,其中:
第一獲取單元4011,用于每隔固定的幀數(shù)來(lái)獲取媒體文件的幀畫面;
轉(zhuǎn)換單元4012,用于將幀畫面轉(zhuǎn)換成灰度圖像;
統(tǒng)計(jì)單元4013,用于統(tǒng)計(jì)灰度圖像中各像素點(diǎn)的灰度值,得到幀畫面的灰度直方圖;
計(jì)算單元4014,用于選取灰度值范圍的第一閾值和第二閾值,計(jì)算灰度直方圖的局部信息熵;
篩選單元4015,用于篩選出局部信息熵大于第三閾值的幀畫面。
去重模塊402,用于對(duì)有字幕內(nèi)容的幀畫面進(jìn)行字幕內(nèi)容比較,使同一字幕內(nèi)容對(duì)應(yīng)唯一幀畫面;
本實(shí)施例中,如圖7所示,去重模塊402包括第二獲取單元4021、判斷單元4022、提取單元4023、第一幀畫面確定單元4024、第二幀畫面確定單元4025,其中:
第二獲取單元4021,用于獲取待處理幀畫面中的第一幀畫面作為當(dāng)前幀畫面,第二幀畫面作為對(duì)比幀畫面;
判斷單元4022,用于判斷當(dāng)前幀畫面和對(duì)比幀畫面的字幕內(nèi)容是否發(fā)生變化;
提取單元4023,用于當(dāng)判斷單元4022判斷當(dāng)前幀畫面和對(duì)比幀畫面的字幕內(nèi)容發(fā)生變化時(shí),提取當(dāng)前幀幀畫面作為唯一幀畫面;
第一幀畫面確定單元4024,用于當(dāng)判斷單元4022判斷當(dāng)前幀畫面和對(duì)比幀畫面的字幕內(nèi)容發(fā)生變化時(shí),將對(duì)比幀畫面作為當(dāng)前幀畫面,并獲取對(duì)比幀畫面的下一幀作為對(duì)比幀畫面;
第二幀畫面確定單元4025,用于當(dāng)判斷單元4022判斷當(dāng)前幀畫面和對(duì)比幀畫面的字幕內(nèi)容未發(fā)生變化時(shí),將當(dāng)前幀畫面和對(duì)比幀畫面中的任一幀畫面作為當(dāng)前幀畫面,并獲取對(duì)比幀畫面的下一幀畫面作為對(duì)比幀畫面。
識(shí)別模塊403,將唯一幀畫面中的字幕內(nèi)容識(shí)別為字幕文字;
本實(shí)施例中,如圖8所示識(shí)別模塊403可以包括多個(gè)識(shí)別單元,具體用于將多個(gè)字幕內(nèi)容分別對(duì)應(yīng)的唯一幀畫面進(jìn)行多線程光學(xué)字符識(shí)別,得到每幅唯一幀畫面對(duì)應(yīng)的文字信息。
本實(shí)施例中還提供了另一種識(shí)別模塊403,用于將字幕內(nèi)容識(shí)別為字幕文字;或者用于將唯一幀畫面發(fā)送至遠(yuǎn)程服務(wù)器,接收遠(yuǎn)程服務(wù)器識(shí)別返回的文字信息。
字幕生成模塊404,對(duì)字幕文字進(jìn)行處理得到字幕信息。
本實(shí)施例中,字幕生成模塊404包括第三獲取單元和字幕生成單元,其中:
第三獲取單元,用于獲取唯一幀畫面的時(shí)間戳信息;
字幕生成單元,用于將文字依據(jù)時(shí)間戳信息生成字幕信息。
字幕顯示模塊405,用于將字幕信息導(dǎo)入媒體文件中,同步顯示字幕信息中的文字;
審查模塊406,用于將字幕信息發(fā)送至遠(yuǎn)程服務(wù)器,再次需要識(shí)別媒體文件字幕時(shí),從遠(yuǎn)程服務(wù)器調(diào)用校準(zhǔn)后的字幕信息。
本發(fā)明實(shí)施例篩選模塊對(duì)媒體文件的幀畫面進(jìn)行多線程的篩選得到包含字幕內(nèi)容的幀畫面,去重模塊獲取同一字幕內(nèi)容對(duì)應(yīng)的唯一幀畫面,識(shí)別模塊僅對(duì)多個(gè)字幕內(nèi)容分別對(duì)應(yīng)的唯一幀畫面進(jìn)行多線程識(shí)別操作,審查模塊對(duì)字幕信息進(jìn)行審查校準(zhǔn)。相比于現(xiàn)有技術(shù)的方案,本發(fā)明的字幕識(shí)別裝置對(duì)媒體文件的幀畫面進(jìn)行多線程的篩選,減少了獲取包含字幕內(nèi)容的幀畫面所需時(shí)間;通過(guò)去重,不再需要將同一字幕內(nèi)容對(duì)應(yīng)的多幅幀畫面進(jìn)行多次識(shí)別,同一字幕內(nèi)容只需對(duì)對(duì)應(yīng)的一幅幀畫面進(jìn)行識(shí)別,得到文字信息即可,提高了字幕識(shí)別的效率;對(duì)多個(gè)字幕內(nèi)容分別對(duì)應(yīng)的唯一幀畫面進(jìn)行多線程的識(shí)別,進(jìn)一步提高了字幕識(shí)別的效率;對(duì)字幕信息進(jìn)行審查校準(zhǔn),提高了再次獲取的媒體文件字幕的速度和準(zhǔn)確度。
如圖9所示,本發(fā)明實(shí)施例中還提供了一種電子設(shè)備,包括:殼體501、處理器502、存儲(chǔ)器503、顯示屏(圖中未示出)、電路板504和電源電路505,其中,電路板504安置在殼體501圍成的空間內(nèi)部,處理器502和存儲(chǔ)器503設(shè)置在電路板504上,顯示屏外嵌于殼體501上且連接電路板504;電源電路505,用于為電子設(shè)備的各個(gè)電路或器件供電;存儲(chǔ)器503用于存儲(chǔ)可執(zhí)行程序代碼和數(shù)據(jù);處理器502通過(guò)讀取存儲(chǔ)器503中存儲(chǔ)的可執(zhí)行程序代碼來(lái)運(yùn)行與可執(zhí)行程序代碼對(duì)應(yīng)的程序,以用于執(zhí)行以下步驟:
篩選出媒體文件幀畫面中有字幕內(nèi)容的待處理幀畫面;
根據(jù)字幕內(nèi)容對(duì)所述待處理幀畫面進(jìn)行去重,獲取同一字幕內(nèi)容對(duì)應(yīng)的唯一幀畫面;
對(duì)所述唯一幀畫面進(jìn)行識(shí)別,得到所述唯一幀畫面對(duì)應(yīng)的文字信息;
對(duì)所述文字信息進(jìn)行處理生成字幕信息。
本發(fā)明實(shí)施例中的電子設(shè)備,篩選出有字幕內(nèi)容的幀畫面,獲取同一字幕內(nèi)容對(duì)應(yīng)的唯一幀畫面,僅對(duì)該字幕內(nèi)容對(duì)應(yīng)的唯一幀畫面進(jìn)行識(shí)別操作,相比于現(xiàn)有技術(shù)的方案,本發(fā)明的電子設(shè)備不再需要將同一字幕內(nèi)容對(duì)應(yīng)的多幅幀畫面進(jìn)行多次識(shí)別,同一字幕內(nèi)容只需對(duì)對(duì)應(yīng)的一幅幀畫面進(jìn)行識(shí)別,得到文字信息即可,提高了字幕識(shí)別的效率。
為了描述的方便,以上系統(tǒng)的各部分以功能分為各種模塊或單元分別描述。當(dāng)然,在實(shí)施本發(fā)明時(shí)可以把各模塊或單元的功能在同一個(gè)或多個(gè)軟件或硬件中實(shí)現(xiàn)。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
盡管已描述了本發(fā)明的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。