一種視頻描述語(yǔ)句生成方法及系統(tǒng)的制作方法

文檔序號(hào)：10535396閱讀：236來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種視頻描述語(yǔ)句生成方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種視頻描述語(yǔ)句生成方法及系統(tǒng)，對(duì)獲取的視頻流通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行處理，以獲得與所述視頻流的各幀分別對(duì)應(yīng)的特征向量；根據(jù)各所述特征向量，計(jì)算相鄰幀的相關(guān)性，并據(jù)以對(duì)所述視頻流的所有幀進(jìn)行聚類處理，以將所述視頻流對(duì)應(yīng)的所有幀劃分為多個(gè)類；將所述聚類結(jié)果輸入循環(huán)神經(jīng)網(wǎng)絡(luò)，以獲得與所述視頻流對(duì)應(yīng)的描述語(yǔ)句。本發(fā)明創(chuàng)造性加入聚類這一過(guò)程，可以更好地對(duì)不同時(shí)間粒度的局部信息進(jìn)行描述，防止采用等間隔采樣不可避免會(huì)丟失部分局部信息的問(wèn)題，即在減少局部信息丟失的前提下提升處理速度。所以，本發(fā)明有效克服了現(xiàn)有技術(shù)中的種種缺點(diǎn)而具高度產(chǎn)業(yè)利用價(jià)值。
【專利說(shuō)明】
一種視頻描述語(yǔ)句生成方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及一種視頻描述領(lǐng)域，特別是涉及一種視頻描述語(yǔ)句生成方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著存儲(chǔ)設(shè)備和數(shù)字化設(shè)備的使用以及多媒體技術(shù)的發(fā)展，多媒體數(shù)據(jù)呈現(xiàn)幾何級(jí)數(shù)增長(zhǎng)的趨勢(shì)。如何高效組織和檢索這些數(shù)據(jù)成為了當(dāng)前一個(gè)亟待解決的問(wèn)題。一般而言，用戶傾向于用文本查找相關(guān)圖像或視頻，這使得標(biāo)注技術(shù)受到了研究者們的廣泛關(guān)注。視頻標(biāo)注實(shí)質(zhì)是將多個(gè)相關(guān)的語(yǔ)義概念賦予到視頻片段中，可分為基于人工的視頻標(biāo)注和基于機(jī)器學(xué)習(xí)的自動(dòng)視頻標(biāo)注。完全使用人工標(biāo)注是一項(xiàng)費(fèi)時(shí)費(fèi)力的工作，無(wú)法在大規(guī)模的數(shù)據(jù)集和概念集上應(yīng)用。因此，使用機(jī)器學(xué)習(xí)方法來(lái)實(shí)現(xiàn)視頻標(biāo)注成為必然選擇。
[0003]現(xiàn)有對(duì)視頻的描述方式包括對(duì)視頻的每一幀進(jìn)行分析，以獲取描述語(yǔ)句，但是這種方式的效率比較低。現(xiàn)有技術(shù)中，也有通過(guò)采用等間隔采樣的方式，獲取視頻的相關(guān)描述，但是這種方式往往會(huì)不可避免的造成局部信息的丟失。

【發(fā)明內(nèi)容】

[0004]鑒于以上所述現(xiàn)有技術(shù)的缺點(diǎn)，本發(fā)明的目的在于提供一種視頻描述語(yǔ)句生成方法及系統(tǒng)，用于解決現(xiàn)有技術(shù)中不能高效且準(zhǔn)確的對(duì)視頻進(jìn)行描述的問(wèn)題。
[0005]為實(shí)現(xiàn)上述目的及其他相關(guān)目的，本發(fā)明提供一種視頻描述語(yǔ)句生成方法，包括:對(duì)獲取的視頻流通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行處理，以獲得與所述視頻流的各幀分別對(duì)應(yīng)的特征向量;根據(jù)各所述特征向量，計(jì)算相鄰幀的相關(guān)性，并據(jù)以對(duì)所述視頻流的所有幀進(jìn)行聚類處理，以將所述視頻流對(duì)應(yīng)的所有幀劃分為多個(gè)類;將所述聚類結(jié)果輸入循環(huán)神經(jīng)網(wǎng)絡(luò)，以獲得與所述視頻流對(duì)應(yīng)的描述語(yǔ)句。
[0006]于本發(fā)明一具體實(shí)施例中，將所述視頻流對(duì)應(yīng)的所有幀劃分為多個(gè)類的方式包括:根據(jù)各所述特征向量，計(jì)算相鄰幀的相關(guān)系數(shù)，當(dāng)所述相關(guān)系數(shù)大于預(yù)設(shè)系數(shù)閾值時(shí)，相應(yīng)的兩相鄰幀被劃分為一類。
[0007]于本發(fā)明一具體實(shí)施例中，將所述聚類結(jié)果輸入循環(huán)神經(jīng)網(wǎng)絡(luò)后，根據(jù)當(dāng)前單詞與各所述類的相關(guān)性，獲得與各所述類相關(guān)的單詞，并據(jù)以獲得與所述視頻流對(duì)應(yīng)的描述語(yǔ)句。
[0008]于本發(fā)明一具體實(shí)施例中，當(dāng)當(dāng)前單詞與一所述類的相關(guān)性大于預(yù)設(shè)相關(guān)閾值時(shí)，所述單詞為與所述類相關(guān)的單詞。
[0009]于本發(fā)明一具體實(shí)施例中，將所述循環(huán)神經(jīng)網(wǎng)絡(luò)的內(nèi)部狀態(tài)也作為輸入，以輸出相應(yīng)的單詞，并據(jù)以獲得具有時(shí)序特征的單詞輸出。
[0010]為實(shí)現(xiàn)上述目的及其他相關(guān)目的，本發(fā)明還提供一種視頻描述語(yǔ)句生成系統(tǒng)，包括:特征向量生成模塊，用以對(duì)獲取的視頻流通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行處理，以獲得與所述視頻流的各幀分別對(duì)應(yīng)的特征向量;劃分模塊，用以根據(jù)各所述特征向量，計(jì)算相鄰幀的相關(guān)性，并據(jù)以對(duì)所述視頻流的所有幀進(jìn)行聚類處理，以將所述視頻流對(duì)應(yīng)的所有幀劃分為多個(gè)類;描述語(yǔ)句生成模塊，用以將所述聚類結(jié)果輸入循環(huán)神經(jīng)網(wǎng)絡(luò)，以獲得與所述視頻流對(duì)應(yīng)的描述語(yǔ)句。
[0011]于本發(fā)明一具體實(shí)施例中，所述劃分模塊將所述視頻流對(duì)應(yīng)的所有幀劃分為多個(gè)類的方式包括:根據(jù)各所述特征向量，計(jì)算相鄰幀的相關(guān)系數(shù)，當(dāng)所述相關(guān)系數(shù)大于預(yù)設(shè)系數(shù)閾值時(shí)，相應(yīng)的兩相鄰幀被劃分為一類。
[0012]于本發(fā)明一具體實(shí)施例中，所述描述語(yǔ)句生成模塊將所述聚類結(jié)果輸入循環(huán)神經(jīng)網(wǎng)絡(luò)后，還用以根據(jù)當(dāng)前單詞與各所述類的相關(guān)性，獲得與各所述類相關(guān)的單詞，并據(jù)以獲得與所述視頻流對(duì)應(yīng)的描述語(yǔ)句。
[0013]于本發(fā)明一具體實(shí)施例中，當(dāng)當(dāng)前單詞與一所述類的相關(guān)性大于預(yù)設(shè)相關(guān)閾值時(shí)，所述單詞為與所述類相關(guān)的單詞。
[0014]于本發(fā)明一具體實(shí)施例中，所述描述語(yǔ)句生成模塊還用以將所述循環(huán)神經(jīng)網(wǎng)絡(luò)的內(nèi)部狀態(tài)也作為輸入，以輸出相應(yīng)的單詞，并據(jù)以獲得具有時(shí)序特征的單詞輸出。
[0015]如上所述，本發(fā)明的視頻描述語(yǔ)句生成方法及系統(tǒng)，對(duì)獲取的視頻流通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行處理，以獲得與所述視頻流的各幀分別對(duì)應(yīng)的特征向量;根據(jù)各所述特征向量，計(jì)算相鄰幀的相關(guān)性，并據(jù)以對(duì)所述視頻流的所有幀進(jìn)行聚類處理，以將所述視頻流對(duì)應(yīng)的所有幀劃分為多個(gè)類;將所述聚類結(jié)果輸入循環(huán)神經(jīng)網(wǎng)絡(luò)，以獲得與所述視頻流對(duì)應(yīng)的描述語(yǔ)句。本發(fā)明創(chuàng)造性加入聚類這一過(guò)程，可以更好地對(duì)不同時(shí)間粒度的局部信息進(jìn)行描述，防止采用等間隔采樣不可避免會(huì)丟失部分局部信息的問(wèn)題，即在減少局部信息丟失的前提下提升處理速度。
【附圖說(shuō)明】
[0016]圖1顯示為本發(fā)明的視頻描述語(yǔ)句生成方法在一具體實(shí)施例中的流程示意圖。
[0017]圖2顯示為本發(fā)明的視頻描述語(yǔ)句生成方法在一具體實(shí)施例中的應(yīng)用示意圖。
[0018]圖3顯示為本發(fā)明的視頻描述語(yǔ)句生成系統(tǒng)在一具體實(shí)施例中的模塊示意圖。
[0019]元件標(biāo)號(hào)說(shuō)明
[0020]I視頻描述語(yǔ)句生成系統(tǒng)
[0021]11特征向量生成模塊
[0022]12劃分模塊
[0023]13描述語(yǔ)句生成模塊
[0024]Sll?S13 步驟
【具體實(shí)施方式】
[0025]以下通過(guò)特定的具體實(shí)例說(shuō)明本發(fā)明的實(shí)施方式，本領(lǐng)域技術(shù)人員可由本說(shuō)明書所揭露的內(nèi)容輕易地了解本發(fā)明的其他優(yōu)點(diǎn)與功效。本發(fā)明還可以通過(guò)另外不同的【具體實(shí)施方式】加以實(shí)施或應(yīng)用，本說(shuō)明書中的各項(xiàng)細(xì)節(jié)也可以基于不同觀點(diǎn)與應(yīng)用，在沒(méi)有背離本發(fā)明的精神下進(jìn)行各種修飾或改變。需說(shuō)明的是，在不沖突的情況下，以下實(shí)施例及實(shí)施例中的特征可以相互組合。
[0026]需要說(shuō)明的是，以下實(shí)施例中所提供的圖示僅以示意方式說(shuō)明本發(fā)明的基本構(gòu)想，遂圖示中僅顯示與本發(fā)明中有關(guān)的組件而非按照實(shí)際實(shí)施時(shí)的組件數(shù)目、形狀及尺寸繪制，其實(shí)際實(shí)施時(shí)各組件的型態(tài)、數(shù)量及比例可為一種隨意的改變，且其組件布局型態(tài)也可能更為復(fù)雜。
[0027]請(qǐng)參閱圖1，本發(fā)明的視頻描述語(yǔ)句生成方法在一具體實(shí)施例中的流程示意圖。
[0028]所述視頻描述語(yǔ)句生成方法，包括以下步驟:
[0029]Sll:對(duì)獲取的視頻流通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行處理，以獲得與所述視頻流的各幀分別對(duì)應(yīng)的特征向量；
[0030]S12:根據(jù)各所述特征向量，計(jì)算相鄰幀的相關(guān)性，并據(jù)以對(duì)所述視頻流的所有幀進(jìn)行聚類處理，以將所述視頻流對(duì)應(yīng)的所有幀劃分為多個(gè)類;于本發(fā)明一具體實(shí)施例中，將所述視頻流對(duì)應(yīng)的所有幀劃分為多個(gè)類的方式包括:根據(jù)各所述特征向量，計(jì)算相鄰幀的相關(guān)系數(shù)，當(dāng)所述相關(guān)系數(shù)大于預(yù)設(shè)系數(shù)閾值時(shí)，相應(yīng)的兩相鄰幀被劃分為一類。優(yōu)選的，所述相關(guān)系數(shù)與相鄰幀的顏色特征、紋理特征、或者形狀特征中的一者或多者有關(guān)。
[0031]S13:將所述聚類結(jié)果輸入循環(huán)神經(jīng)網(wǎng)絡(luò)，以獲得與所述視頻流對(duì)應(yīng)的描述語(yǔ)句。優(yōu)選的，對(duì)所述聚類結(jié)果再用注意力機(jī)制分別計(jì)算在生成描述語(yǔ)句時(shí)，計(jì)算當(dāng)前生成單詞與視頻各幀聚類結(jié)果的相關(guān)性。所謂注意力機(jī)制，意在模仿人對(duì)圖像的視覺(jué)關(guān)注機(jī)制，在此處則用于衡量哪些幀更為重要，與當(dāng)前單詞聯(lián)系更為緊密。
[0032]于本發(fā)明一具體實(shí)施例中，將所述聚類結(jié)果輸入循環(huán)神經(jīng)網(wǎng)絡(luò)后，根據(jù)當(dāng)前單詞與各所述類的相關(guān)性，獲得與各所述類相關(guān)的單詞，并據(jù)以獲得與所述視頻流對(duì)應(yīng)的描述語(yǔ)句。
[0033]進(jìn)一步的，當(dāng)當(dāng)前單詞與一所述類的相關(guān)性大于預(yù)設(shè)相關(guān)閾值時(shí)，所述單詞為與所述類相關(guān)的單詞。優(yōu)選的，將當(dāng)前單詞與所述類中包含的所有幀的特征向量分別進(jìn)行相關(guān)性計(jì)算，并根據(jù)計(jì)算結(jié)果獲取所述當(dāng)前單詞與所述類的相關(guān)性。
[0034]于本發(fā)明一具體實(shí)施例中，將所述循環(huán)神經(jīng)網(wǎng)絡(luò)的內(nèi)部狀態(tài)也作為輸入，以輸出相應(yīng)的單詞，并據(jù)以獲得具有時(shí)序特征的單詞輸出。且通過(guò)訓(xùn)練，即可得到關(guān)于該視頻的描述語(yǔ)句。
[0035]請(qǐng)參閱圖2，顯示為本發(fā)明的視頻描述語(yǔ)句生成方法在一具體實(shí)施例中的應(yīng)用示意圖。
[0036]其中，大括號(hào)內(nèi)部加上前面的卷積處理整個(gè)構(gòu)成了框架的編碼(encoder)部分，LSTM(Long Short-Term Memory，長(zhǎng)短時(shí)間記憶)則對(duì)應(yīng)于框架的解碼(decoder)部分?！熬幋a”(encoder)部分是對(duì)視頻特征向量處理，“解碼”(decoder)部分則對(duì)詞向量進(jìn)行處理。
[0037]首先將一個(gè)視頻流通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行處理得到附圖中所示的TXC卷積特征矩陣(TXC conv feature)，其中T表示視頻的幀數(shù)，C表示對(duì)應(yīng)每幀特征向量的維度。然后對(duì)此處理結(jié)果進(jìn)行聚類(clustering)，聚類方法可計(jì)算前后兩幀視頻圖像的相關(guān)系數(shù)，超過(guò)一定閾值聚為一類，從而得到ToXC，其中To表示聚類得到的類別數(shù)目。接下來(lái)還需通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)模型(LSTM word decoder)計(jì)算表示當(dāng)前生成單詞與視頻聚出的各類別的相關(guān)性的權(quán)重值，如附圖2中虛線所示。將權(quán)重系數(shù)(weights ToX I)與聚類結(jié)果(ToXC)相乘可得到To X C的向量，如圖中大括號(hào)右側(cè)所示。
[0038]將編碼(encoder)得到的視頻特征整個(gè)輸入LSTM，每次LSTM輸出一個(gè)單詞，將此刻內(nèi)部狀態(tài)也作為輸入，以輸出下一個(gè)單詞，這就是循環(huán)網(wǎng)絡(luò)的由來(lái)。這么做的原因是考慮到完整一句話中各個(gè)單詞之間的時(shí)序相關(guān)。且通過(guò)訓(xùn)練，即可得到關(guān)于該視頻的描述語(yǔ)句。例如，于本實(shí)施例中，得到的與所述視頻流相關(guān)的視頻描述語(yǔ)句為“A woman is cooking”以及“Someone is frying”。
[0039]請(qǐng)參閱圖3，顯示為本發(fā)明的視頻描述語(yǔ)句生成系統(tǒng)在一具體實(shí)施例中的模塊示意圖。所述視頻描述語(yǔ)句生成系統(tǒng)I，包括:
[0040]特征向量生成模塊11，用以對(duì)獲取的視頻流通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行處理，以獲得與所述視頻流的各幀分別對(duì)應(yīng)的特征向量；
[0041]劃分模塊12，用以根據(jù)各所述特征向量，計(jì)算相鄰幀的相關(guān)性，并據(jù)以對(duì)所述視頻流的所有幀進(jìn)行聚類處理，以將所述視頻流對(duì)應(yīng)的所有幀劃分為多個(gè)類;于本發(fā)明一具體實(shí)施例中，所述劃分模塊將所述視頻流對(duì)應(yīng)的所有幀劃分為多個(gè)類的方式包括:根據(jù)各所述特征向量，計(jì)算相鄰幀的相關(guān)系數(shù)，當(dāng)所述相關(guān)系數(shù)大于預(yù)設(shè)系數(shù)閾值時(shí)，相應(yīng)的兩相鄰幀被劃分為一類。優(yōu)選的，所述相關(guān)系數(shù)與相鄰幀的顏色特征、紋理特征、或者形狀特征中的一者或多者有關(guān)。
[0042]描述語(yǔ)句生成模塊13，用以將所述聚類結(jié)果輸入循環(huán)神經(jīng)網(wǎng)絡(luò)，以獲得與所述視頻流對(duì)應(yīng)的描述語(yǔ)句。優(yōu)選的，對(duì)所述聚類結(jié)果再用注意力機(jī)制分別計(jì)算在生成描述語(yǔ)句時(shí)，計(jì)算當(dāng)前生成單詞與視頻各幀聚類結(jié)果的相關(guān)性。所謂注意力機(jī)制，意在模仿人對(duì)圖像的視覺(jué)關(guān)注機(jī)制，在此處則用于衡量哪些幀更為重要，與當(dāng)前單詞聯(lián)系更為緊密。
[0043]于本發(fā)明一具體實(shí)施例中，所述描述語(yǔ)句生成模塊將所述聚類結(jié)果輸入循環(huán)神經(jīng)網(wǎng)絡(luò)后，還用以根據(jù)當(dāng)前單詞與各所述類的相關(guān)性，獲得與各所述類相關(guān)的單詞，并據(jù)以獲得與所述視頻流對(duì)應(yīng)的描述語(yǔ)句。
[0044]進(jìn)一步的，當(dāng)當(dāng)前單詞與一所述類的相關(guān)性大于預(yù)設(shè)相關(guān)閾值時(shí)，所述單詞為與所述類相關(guān)的單詞。優(yōu)選的，將當(dāng)前單詞與所述類中包含的所有幀的特征向量分別進(jìn)行相關(guān)性計(jì)算，并根據(jù)計(jì)算結(jié)果獲取所述當(dāng)前單詞與所述類的相關(guān)性。
[0045]于本發(fā)明一具體實(shí)施例中，所述描述語(yǔ)句生成模塊還用以將所述循環(huán)神經(jīng)網(wǎng)絡(luò)的內(nèi)部狀態(tài)也作為輸入，以輸出相應(yīng)的單詞，并據(jù)以獲得具有時(shí)序特征的單詞輸出。且通過(guò)訓(xùn)練，即可得到關(guān)于該視頻的描述語(yǔ)句。
[0046]所述視頻描述語(yǔ)句生成系統(tǒng)I與如圖1所示的視頻描述語(yǔ)句生成方法的技術(shù)方案一一對(duì)應(yīng)，關(guān)于上述實(shí)施例中對(duì)視頻描述語(yǔ)句生成方法的描述均可應(yīng)用于本實(shí)施例中。
[0047]綜上所述，本發(fā)明的視頻描述語(yǔ)句生成方法及系統(tǒng)，對(duì)獲取的視頻流通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行處理，以獲得與所述視頻流的各幀分別對(duì)應(yīng)的特征向量;根據(jù)各所述特征向量，計(jì)算相鄰幀的相關(guān)性，并據(jù)以對(duì)所述視頻流的所有幀進(jìn)行聚類處理，以將所述視頻流對(duì)應(yīng)的所有幀劃分為多個(gè)類;將所述聚類結(jié)果輸入循環(huán)神經(jīng)網(wǎng)絡(luò)，以獲得與所述視頻流對(duì)應(yīng)的描述語(yǔ)句。本發(fā)明創(chuàng)造性加入聚類這一過(guò)程，可以更好地對(duì)不同時(shí)間粒度的局部信息進(jìn)行描述，防止采用等間隔采樣不可避免會(huì)丟失部分局部信息的問(wèn)題，即在減少局部信息丟失的前提下提升處理速度。所以，本發(fā)明有效克服了現(xiàn)有技術(shù)中的種種缺點(diǎn)而具高度產(chǎn)業(yè)利用價(jià)值。
[0048]上述實(shí)施例僅例示性說(shuō)明本發(fā)明的原理及其功效，而非用于限制本發(fā)明。任何熟悉此技術(shù)的人士皆可在不違背本發(fā)明的精神及范疇下，對(duì)上述實(shí)施例進(jìn)行修飾或改變。因此，舉凡所屬技術(shù)領(lǐng)域中具有通常知識(shí)者在未脫離本發(fā)明所揭示的精神與技術(shù)思想下所完成的一切等效修飾或改變，仍應(yīng)由本發(fā)明的權(quán)利要求所涵蓋。
【主權(quán)項(xiàng)】
1.一種視頻描述語(yǔ)句生成方法，其特征在于，包括: 對(duì)獲取的視頻流通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行處理，以獲得與所述視頻流的各幀分別對(duì)應(yīng)的特征向量；根據(jù)各所述特征向量，計(jì)算相鄰幀的相關(guān)性，并據(jù)以對(duì)所述視頻流的所有幀進(jìn)行聚類處理，以將所述視頻流對(duì)應(yīng)的所有幀劃分為多個(gè)類；將所述聚類結(jié)果輸入循環(huán)神經(jīng)網(wǎng)絡(luò)，以獲得與所述視頻流對(duì)應(yīng)的描述語(yǔ)句。2.根據(jù)權(quán)利要求1所述的視頻描述語(yǔ)句生成方法，其特征在于:將所述視頻流對(duì)應(yīng)的所有幀劃分為多個(gè)類的方式包括: 根據(jù)各所述特征向量，計(jì)算相鄰幀的相關(guān)系數(shù)，當(dāng)所述相關(guān)系數(shù)大于預(yù)設(shè)系數(shù)閾值時(shí)，相應(yīng)的兩相鄰幀被劃分為一類。3.根據(jù)權(quán)利要求1所述的視頻描述語(yǔ)句生成方法，其特征在于:將所述聚類結(jié)果輸入循環(huán)神經(jīng)網(wǎng)絡(luò)后，根據(jù)當(dāng)前單詞與各所述類的相關(guān)性，獲得與各所述類相關(guān)的單詞，并據(jù)以獲得與所述視頻流對(duì)應(yīng)的描述語(yǔ)句。4.根據(jù)權(quán)利要求3所述的視頻描述語(yǔ)句生成方法，其特征在于:當(dāng)當(dāng)前單詞與一所述類的相關(guān)性大于預(yù)設(shè)相關(guān)閾值時(shí)，所述單詞為與所述類相關(guān)的單詞。5.根據(jù)權(quán)利要求1所述的視頻描述語(yǔ)句生成方法，其特征在于:將所述循環(huán)神經(jīng)網(wǎng)絡(luò)的內(nèi)部狀態(tài)也作為輸入，以輸出相應(yīng)的單詞，并據(jù)以獲得具有時(shí)序特征的單詞輸出。6.一種視頻描述語(yǔ)句生成系統(tǒng)，其特征在于，包括: 特征向量生成模塊，用以對(duì)獲取的視頻流通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行處理，以獲得與所述視頻流的各幀分別對(duì)應(yīng)的特征向量；劃分模塊，用以根據(jù)各所述特征向量，計(jì)算相鄰幀的相關(guān)性，并據(jù)以對(duì)所述視頻流的所有幀進(jìn)行聚類處理，以將所述視頻流對(duì)應(yīng)的所有幀劃分為多個(gè)類；描述語(yǔ)句生成模塊，用以將所述聚類結(jié)果輸入循環(huán)神經(jīng)網(wǎng)絡(luò)，以獲得與所述視頻流對(duì)應(yīng)的描述語(yǔ)句。7.根據(jù)權(quán)利要求6所述的視頻描述語(yǔ)句生成系統(tǒng)，其特征在于:所述劃分模塊將所述視頻流對(duì)應(yīng)的所有幀劃分為多個(gè)類的方式包括: 根據(jù)各所述特征向量，計(jì)算相鄰幀的相關(guān)系數(shù)，當(dāng)所述相關(guān)系數(shù)大于預(yù)設(shè)系數(shù)閾值時(shí)，相應(yīng)的兩相鄰幀被劃分為一類。8.根據(jù)權(quán)利要求6所述的視頻描述語(yǔ)句生成系統(tǒng)，其特征在于:所述描述語(yǔ)句生成模塊將所述聚類結(jié)果輸入循環(huán)神經(jīng)網(wǎng)絡(luò)后，還用以根據(jù)當(dāng)前單詞與各所述類的相關(guān)性，獲得與各所述類相關(guān)的單詞，并據(jù)以獲得與所述視頻流對(duì)應(yīng)的描述語(yǔ)句。9.根據(jù)權(quán)利要求8所述的視頻描述語(yǔ)句生成系統(tǒng)，其特征在于:當(dāng)當(dāng)前單詞與一所述類的相關(guān)性大于預(yù)設(shè)相關(guān)閾值時(shí)，所述單詞為與所述類相關(guān)的單詞。10.根據(jù)權(quán)利要求6所述的視頻描述語(yǔ)句生成系統(tǒng)，其特征在于:所述描述語(yǔ)句生成模塊還用以將所述循環(huán)神經(jīng)網(wǎng)絡(luò)的內(nèi)部狀態(tài)也作為輸入，以輸出相應(yīng)的單詞，并據(jù)以獲得具有時(shí)序特征的單詞輸出。
【文檔編號(hào)】G06K9/62GK105894043SQ201610270084
【公開(kāi)日】2016年8月24日
【申請(qǐng)日】2016年4月27日
【發(fā)明人】郭大山, 劉幸偕, 方向忠, 阮志強(qiáng), 徐寧, 張芩, 方大為, 江勤勇, 吳泳江, 吳軼峰, 祝曉清, 孫哲, 孔申勇, 高原, 楊哲峰
【申請(qǐng)人】上海高智科技發(fā)展有限公司, 上海高智特種車有限公司, 上海高智通信研究院有限公司, 上海高智網(wǎng)絡(luò)股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：郭大山;劉幸偕;方向忠;阮志強(qiáng);徐寧;張芩;方大為;江勤勇;吳泳江;吳軼峰;祝曉清;孫哲;孔申勇;高原;楊哲峰;
技術(shù)所有人：上海高智科技發(fā)展有限公司;上海高智特種車有限公司;上海高智通信研究院有限公司;上海高智網(wǎng)絡(luò)股份有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

自動(dòng)生成sql語(yǔ)句相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種視頻描述語(yǔ)句生成方法及系統(tǒng)的制作方法