模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)與流程

文檔序號(hào)：40564788發(fā)布日期：2025-01-03 11:25閱讀：9來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及人工智能技術(shù)、自然語(yǔ)言處理，尤其涉及一種模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)。

背景技術(shù)：

1、通過(guò)幻燈片內(nèi)容生成演講稿對(duì)于正式場(chǎng)合下的個(gè)人發(fā)言具有重要意義?，F(xiàn)有的演講稿生成模型，通過(guò)對(duì)幻燈片的文字內(nèi)容進(jìn)行提取識(shí)別，再通過(guò)對(duì)讀取的內(nèi)容文本生成相關(guān)的演講稿內(nèi)容。然而，受幻燈片中排版布局的影響，演講稿生成模型對(duì)于一些特殊排版的文字理解相對(duì)較差，可能無(wú)法準(zhǔn)確識(shí)別和提取文本內(nèi)容，導(dǎo)致生成的演講稿中遺漏重要的內(nèi)容，影響演講稿的準(zhǔn)確性和完整性。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種模型訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備及介質(zhì)，以解決演講稿生成模型對(duì)于一些特殊排版的文字理解相對(duì)較差，可能無(wú)法準(zhǔn)確識(shí)別和提取文本內(nèi)容，導(dǎo)致生成的演講稿中遺漏重要的內(nèi)容，影響演講稿的準(zhǔn)確性和完整性的技術(shù)問(wèn)題。

2、第一方面，提供了一種模型訓(xùn)練方法，包括：

3、獲取多個(gè)第一圖像數(shù)據(jù)及其對(duì)應(yīng)的多個(gè)第一文本數(shù)據(jù)和多個(gè)第二圖像數(shù)據(jù)；

4、基于多個(gè)第一圖像數(shù)據(jù)和多個(gè)第二圖像數(shù)據(jù)，生成多組第一正樣本對(duì)和多組第一負(fù)樣本對(duì)，且基于多個(gè)第一圖像數(shù)據(jù)和多個(gè)第一文本數(shù)據(jù)，生成多組第二正樣本對(duì)和多組第二負(fù)樣本對(duì)；

5、基于多組第一正樣本對(duì)和多組第一負(fù)樣本對(duì)，對(duì)第一圖像編碼器進(jìn)行訓(xùn)練，得到第二圖像編碼器；

6、基于多組第二正樣本對(duì)和多組第二負(fù)樣本對(duì)，對(duì)第二圖像編碼器和第一大語(yǔ)言模型進(jìn)行訓(xùn)練，得到第三圖像編碼器和第二大語(yǔ)言模型；

7、復(fù)制第二大語(yǔ)言模型，得到第三大語(yǔ)言模型；

8、基于多組第二正樣本對(duì)、多組第二負(fù)樣本對(duì)、第三圖像編碼器和第三大語(yǔ)言模型，對(duì)第二大語(yǔ)言模型進(jìn)行訓(xùn)練，得到演講稿生成模型。

9、第二方面，提供了一種模型訓(xùn)練裝置，包括：

10、獲取模塊，用于獲取多個(gè)第一圖像數(shù)據(jù)及其對(duì)應(yīng)的多個(gè)第一文本數(shù)據(jù)和多個(gè)第二圖像數(shù)據(jù)；

11、第一生成模塊，用于基于多個(gè)第一圖像數(shù)據(jù)和多個(gè)第二圖像數(shù)據(jù)，生成多組第一正樣本對(duì)和多組第一負(fù)樣本對(duì)，且基于多個(gè)第一圖像數(shù)據(jù)和多個(gè)第一文本數(shù)據(jù)，生成多組第二正樣本對(duì)和多組第二負(fù)樣本對(duì)；

12、訓(xùn)練模塊，用于基于多組第一正樣本對(duì)和多組第一負(fù)樣本對(duì)，對(duì)第一圖像編碼器進(jìn)行訓(xùn)練，得到第二圖像編碼器；

13、訓(xùn)練模塊還用于，基于多組第二正樣本對(duì)和多組第二負(fù)樣本對(duì)，對(duì)第二圖像編碼器和第一大語(yǔ)言模型進(jìn)行訓(xùn)練，得到第三圖像編碼器和第二大語(yǔ)言模型；

14、第二生成模塊，用于復(fù)制第二大語(yǔ)言模型，得到第三大語(yǔ)言模型；

15、訓(xùn)練模塊還用于，基于多組第二正樣本對(duì)、多組第二負(fù)樣本對(duì)、第三圖像編碼器和第三大語(yǔ)言模型，對(duì)第二大語(yǔ)言模型進(jìn)行訓(xùn)練，得到演講稿生成模型。

16、第三方面，提供了一種計(jì)算機(jī)設(shè)備，包括存儲(chǔ)器、處理器以及存儲(chǔ)在存儲(chǔ)器中并可在處理器上運(yùn)行的計(jì)算機(jī)程序，處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述模型訓(xùn)練方法的步驟。

17、第四方面，提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序，計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述模型訓(xùn)練方法的步驟。

18、上述模型訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)所實(shí)現(xiàn)的方案中，通過(guò)三個(gè)階段訓(xùn)練講解幻燈片的演講稿生成模型，在第一階段訓(xùn)練圖像編碼器時(shí)，專注于提升視覺特征，避免了語(yǔ)言模型在處理圖像信息時(shí)的干擾，使得模型能夠更專注地學(xué)習(xí)。在第二階段中，將文本特征和圖片特征進(jìn)行特征對(duì)齊，映射到同一表征空間，讓模型可以對(duì)圖片和文本進(jìn)行關(guān)聯(lián)理解。通過(guò)聯(lián)合訓(xùn)練能夠增強(qiáng)圖像編碼器與語(yǔ)言模型之間的協(xié)同作用，促進(jìn)視覺特征與語(yǔ)言上下文的理解。在第三階段，進(jìn)一步細(xì)化語(yǔ)言模型在演講稿生成任務(wù)上的表現(xiàn)，使其能夠根據(jù)已經(jīng)處理好的視覺信息，生成更加自然、邏輯清晰的文本，讓模型可以更好地適應(yīng)不同主題，提高靈活性和準(zhǔn)確性。通過(guò)三個(gè)階段的逐步訓(xùn)練，使得最終生成的演講稿生成模型可以將幻燈片的格式統(tǒng)一以圖片形式進(jìn)行理解，圖片格式保留了幻燈片中視覺內(nèi)容(如圖標(biāo)、插圖和布局)，消除了不同文本格式可能導(dǎo)致的亂碼和排版錯(cuò)誤，保證信息傳遞的一致性，再利用編碼模型理解圖片和用戶意圖，提取關(guān)鍵信息和特征，增強(qiáng)模型對(duì)視覺信息的理解能力，最終通過(guò)理解圖片內(nèi)容與用戶意圖的結(jié)合，生成式模型能夠自動(dòng)生成更具針對(duì)性的演講稿內(nèi)容，使得演講更加專業(yè)和有條理。

技術(shù)特征：

1.一種模型訓(xùn)練方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述獲取多個(gè)第一圖像數(shù)據(jù)及其對(duì)應(yīng)的多個(gè)第一文本數(shù)據(jù)和多個(gè)第二圖像數(shù)據(jù)的步驟，具體包括：

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于所述多個(gè)第一圖像數(shù)據(jù)和所述多個(gè)第二圖像數(shù)據(jù)，生成多組第一正樣本對(duì)和多組第一負(fù)樣本對(duì)，且基于所述多個(gè)第一圖像數(shù)據(jù)和所述多個(gè)第一文本數(shù)據(jù)，生成多組第二正樣本對(duì)和多組第二負(fù)樣本對(duì)的步驟，具體包括：

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述基于預(yù)設(shè)拼接規(guī)則，對(duì)多組第一正樣本對(duì)和多組第一負(fù)樣本對(duì)中包含的圖像數(shù)據(jù)進(jìn)行預(yù)處理，以形成每個(gè)圖像數(shù)據(jù)對(duì)應(yīng)的圖像塊數(shù)據(jù)的步驟，具體包括：

5.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述基于所述多組第一正樣本對(duì)和所述多組第一負(fù)樣本對(duì)，對(duì)第一圖像編碼器進(jìn)行訓(xùn)練，得到第二圖像編碼器的步驟，具體包括：

6.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述基于所述多組第二正樣本對(duì)和所述多組第二負(fù)樣本對(duì)，對(duì)所述第二圖像編碼器和第一大語(yǔ)言模型進(jìn)行訓(xùn)練，得到第三圖像編碼器和第二大語(yǔ)言模型的步驟，具體包括：

7.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述基于所述多組第二正樣本對(duì)、所述多組第二負(fù)樣本對(duì)、所述第三圖像編碼器和所述第三大語(yǔ)言模型，對(duì)所述第二大語(yǔ)言模型進(jìn)行訓(xùn)練，得到演講稿生成模型的步驟，具體包括：

8.一種模型訓(xùn)練裝置，其特征在于，包括：

9.一種計(jì)算機(jī)設(shè)備，包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述模型訓(xùn)練方法的步驟。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述模型訓(xùn)練方法的步驟。

技術(shù)總結(jié)
本發(fā)明涉及人工智能技術(shù)領(lǐng)域，公開了一種模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)，包括：基于多個(gè)第一圖像數(shù)據(jù)和多個(gè)第二圖像數(shù)據(jù)，生成多組第一正負(fù)樣本對(duì)，且基于多個(gè)第一圖像數(shù)據(jù)和多個(gè)第一文本數(shù)據(jù)，生成多組第二正負(fù)樣本對(duì)；基于多組第一正樣本對(duì)和多組第一負(fù)樣本對(duì)，對(duì)第一圖像編碼器進(jìn)行訓(xùn)練，得到第二圖像編碼器；基于多組第二正樣本對(duì)和多組第二負(fù)樣本對(duì)，對(duì)第二圖像編碼器和第一大語(yǔ)言模型進(jìn)行訓(xùn)練，得到第三圖像編碼器和第二大語(yǔ)言模型；基于多組第二正樣本對(duì)、多組第二負(fù)樣本對(duì)、第三圖像編碼器和第三大語(yǔ)言模型，對(duì)第二大語(yǔ)言模型進(jìn)行訓(xùn)練，得到演講稿生成模型。使得最終生成的演講稿生成模型可以將幻燈片的格式統(tǒng)一以圖片形式進(jìn)行理解。

技術(shù)研發(fā)人員：舒暢,陳遠(yuǎn)旭
受保護(hù)的技術(shù)使用者：平安科技（深圳）有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/2

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：舒暢,陳遠(yuǎn)旭
技術(shù)所有人：平安科技（深圳）有限公司
我是此專利的發(fā)明人

上一篇：一種新型電飯鍋的制作方法
上一篇：一種水暖管材的試壓性能檢測(cè)設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)與流程

模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)與流程