基于協(xié)同過濾的教學視頻標注方法
【技術領域】
[0001] 本發(fā)明屬于圖像處理技術領域,更進一步涉及模式識別技術領域中的一種視頻標 注方法,可用于網絡教學。
【背景技術】
[0002] 隨著互聯(lián)網技術和多媒體技術的高速發(fā)展,基于在線學習平臺的學習方式逐漸成 為一種可以有效補充傳統(tǒng)課堂學習的重要途徑。然而,每天每時都會有成千上萬的教學視 頻上傳到網絡上,如何在這些海量的教學視頻中高效快速搜索到學習者所需要的視頻,是 一個迫切的研宄課題。最常用的方法是對視頻進行標注,標注的視頻能夠有效地幫助在線 學習的用戶快速高效地找到所需視頻。
[0003] 現(xiàn)有的視頻標注方法一般分為:人工標注、基于規(guī)則的標注、基于機器學習的標注 這三類。其中:
[0004] 人工標注的方法,雖然有很好的標注效果,但是費時費力,不適用于海量的視頻標 注;
[0005] 基于規(guī)則的標注方法,是根據(jù)相關領域里的專家知識建立專門類別的規(guī)則,為專 門類別視頻所使用,而專門領域的規(guī)則對于視頻語義的刻畫能力有限,沒辦法滿足視頻的 實時性和通用性;
[0006] 基于機器學習的標注方法,是目前視頻標注研宄中最為流行的標注方法。但是目 前這種基于機器學習的視頻標注方法都是根據(jù)視頻的視覺特征,如顏色、形狀、紋理等進行 標注,而教學視頻的場景均勻,視覺特征差異不明顯,所以基于機器學習的視頻標注方法對 教學視頻進行標注時,標注準確率不高。
【發(fā)明內容】
[0007] 本發(fā)明的目的在于針對上述已有技術的不足,提出一種基于協(xié)同過濾的教學視頻 標注方法,以全面的描述教學視頻,提高教學視頻標注的準確率。
[0008] 為實現(xiàn)上述目的,本發(fā)明的技術方案包括如下步驟:
[0009] (1)輸入教學視頻,并根據(jù)字幕對教學視頻進行字幕關鍵幀提取,得到D個關鍵 幀;
[0010] (2)使用開源的光學字符Tesseract-OCR軟件對關鍵幀進行字幕提取,并對獲得 的字幕進行文本修改和刪除,得到D個文本文檔,D>0 ;
[0011] (3)使用文本文檔結合Gibbs采樣器對教學視頻進行語義鏡頭分割,把教學視頻 分成M個鏡頭:
[0012] (3a)把D個文本文檔組成集合E= {屯義,…,屯,…,(!山i為文本文檔數(shù),i= 1,2, ? ??,D;
[0013] (3b)對每個文檔下的單詞分別進行統(tǒng)計,獲取所有單詞在對應文檔下的概率分布 A'x,X為單詞數(shù),x>0 ;
[0014] (3c)把概率分布A〖及文本文檔Cli作為Gibbs采樣器的輸入,得到文本文檔下的 單詞概率分布Bi;
[0015] (3d)設定閾值TN為視頻時間的1/50,再計算第i個文本文檔Cli和第j個文本文 檔Clj之間的距離DSu,并將該距離DSi^與閾值TN做比較,如果DSu超過閾值,則不再對之 后的文本文檔進行比較,而把這兩個文本文檔看成是兩個鏡頭的內容,反之,則為一個鏡頭 的內容,i,j= 1,2,. ..,D;
[0016] (3e)在各鏡頭內,計算第i個單詞概率分布Bi與第j個單詞概率分布B#間的 差值Fi;j,i乒j:
【主權項】
1. 一種基于協(xié)同過濾的教學視頻標注方法,其特征在于,包括如下步驟: (1) 輸入教學視頻,并根據(jù)字幕對教學視頻進行字幕關鍵幀提取,得到D個關鍵幀; (2) 使用開源的光學字符Tesseract-OCR軟件對關鍵幀進行字幕提取,并對獲得的字 幕進行文本修改和刪除,得到D個文本文檔,D>0 ; (3) 使用文本文檔結合Gibbs采樣器對教學視頻進行語義鏡頭分割,把教學視頻分成M 個鏡頭: (3a)把D個文本文檔組成集合E= {屯,d2,…,屯,…,dD},i為文本文檔數(shù),i= 1,2, ? ? ?,D; (3b)對每個文檔下的單詞分別進行統(tǒng)計,獲取所有單詞在對應文檔下的概率分布AS x為單詞數(shù),x>0 ; (3c)把概率分布及文本文檔屯作為Gibbs采樣器的輸入,得到文本文檔下的單詞 概率分布Bi; (3d)設定閾值TN為視頻時間的1/50,再計算文本文檔屯與d」之間的距離DSi;」,并將 該距離DSi:j與閾值TN做比較,如果DSy超過閾值,則不再對之后的文本文檔進行比較,而 把這兩個文本文檔看成是兩個鏡頭的內容,反之,則為一個鏡頭的內容,i,j= 1,2,...,D; (3e)在各鏡頭內,計算第i個單詞概率分布&與第j個單詞概率分布^之間的差值 Fi,j,i乒j:
若差值Fu.e[-1,1],則判定第i個文本文檔d,和第j個文本文檔I為同一個鏡頭的 內容,反之,則為兩個鏡頭的內容,由此把教學視頻細分為M個鏡頭,0〈M〈D; (4) 利用協(xié)同過濾方法,對M個鏡頭進行標注: (4a)用每個鏡頭的字幕文本組成一個文檔,得到M個文檔,統(tǒng)計每個文檔中每個單詞 出現(xiàn)的概率Rab,a= 1,2,…,M;b= 1,2,…,N,N彡 20 ; (4b)根據(jù)單詞出現(xiàn)概率Rab抽取出每個鏡頭的文本信息中出現(xiàn)排名的前20個單詞, 組成實驗所需要的詞典庫T,再將M個鏡頭以及其前Top20重要單詞出現(xiàn)的概率表示成鏡 頭-關鍵詞矩陣R(M,1):
(4c)對部分鏡頭s進行標注,禾標注鏡頭為w,并用從R(M,1)中選擇d標注鏡頭子矩 陣a和未標注鏡頭子矩陣0 ; (4d)根據(jù)已標注鏡頭子矩陣a和未標注鏡頭子矩陣0,計算已標注鏡頭s和未標 注鏡頭w的余弦相似度Fsw,通過相似度的大小排序,得到相似度集合H,s+w=M且s,w= 1, 2,. . . ,M; (4e)對相似度集合H中的相似度結果進行從高到低的排序,選擇出前5個候選關鍵詞, 作為未標注鏡頭的關鍵詞,完成對教學視頻的標注。
2. 根據(jù)權利要求1所述的教學視頻標注方法,其特征在于,步驟(1)所述的根據(jù)字幕提 取關鍵幀,按如下步驟進行: (la) 每隔20幀獲取一副教育視頻中的圖像,得到Q幀圖像,Q>0 ; (lb) 選取各圖像幀下方1/4處的子區(qū)域,計算該子區(qū)域各自對應位置上與其他圖像幀 之間像素差的絕對值之和Ya; (lc) 設定閾值Pa為像素個數(shù)的1/10,并與絕對值之和Ya作比較,如果YPa,則合并 圖像幀;如果Ya>Pa,則保留,最終篩選得到D個關鍵幀,0〈D〈Q。
3. 根據(jù)權利要求1所述的教學視頻標注方法,其特征在于,所述步驟(2)中對文本進行 修改和刪除,,按如下步驟進行: (2a)對文檔進行拼寫檢查,確保所有的單詞正確; (2b)把文本文檔中相同或者相似單詞抽取成為同一個語義單詞; (2c)將文本文檔中出現(xiàn)頻率較高但對文本表示無關的單詞濾除,得到校正后的D個文 本文檔。
4. 根據(jù)權利要求1所述的教學視頻標注方法,其特征在于,所述步驟(4)中的選擇已標 注鏡頭子矩陣a和未標注鏡頭子矩陣0,其表示如下:
其中,C為已標注鏡頭s和未標注鏡頭w中相同的單詞,0〈c〈l,e= 1,2, . . .,s,f= 1, 2,. . . ,w?g- 1, 2,. . . ,c〇
5. 根據(jù)權利要求1所述的教學視頻標注方法,其特征在于,步驟(4)中所述的根據(jù)已標 注鏡頭子矩陣a和未標注鏡頭子矩陣0,計算已標注鏡頭s和未標注鏡頭w的余弦相似度 Fsw,其計算公式為:
其中,*為卷積運算,s為已標記鏡頭,w為未標記鏡頭,向量為s,w的矢量形式,Isw 為已標注鏡頭s與未標注鏡頭w內單詞的交集,ceIsw。
【專利摘要】本發(fā)明公開了一種基于協(xié)同過濾的教學視頻標注方法,主要解決現(xiàn)有技術對教學視頻標注準確率低的缺點。其實現(xiàn)步驟為:輸入教學視頻,并根據(jù)字幕對教學視頻進行字幕關鍵幀提取,得到D個關鍵幀;使用光學字符軟件對D個關鍵幀進行字幕提取,并對獲得的字幕進行文本修改和刪除,得到D個文本文檔;使用D個文本文檔結合Gibbs采樣器對教學視頻進行鏡頭分割,把教學視頻分成M個鏡頭;在M個鏡頭中,標記部分鏡頭,再利用協(xié)同過濾法計算已標注鏡頭和未標注鏡頭間的余弦相似度,選取余弦相似度高的前5個單詞對未標注鏡頭進行標注。本發(fā)明由于考慮了教學視頻中的字幕信息,能更有效的描述教學視頻,提高了教學視頻的標注準確率,可用于視頻教學。
【IPC分類】G06F17-30, G06T7-00
【公開號】CN104700410
【申請?zhí)枴緾N201510112309
【發(fā)明人】王斌, 丁海剛, 關欽, 高新波, 牛振興, 王敏, 宗汝, 牛麗軍
【申請人】西安電子科技大學
【公開日】2015年6月10日
【申請日】2015年3月14日