欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)與流程

文檔序號(hào):40564788發(fā)布日期:2025-01-03 11:25閱讀:9來(lái)源:國(guó)知局
模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)與流程

本發(fā)明涉及人工智能技術(shù)、自然語(yǔ)言處理,尤其涉及一種模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)。


背景技術(shù):

1、通過(guò)幻燈片內(nèi)容生成演講稿對(duì)于正式場(chǎng)合下的個(gè)人發(fā)言具有重要意義?,F(xiàn)有的演講稿生成模型,通過(guò)對(duì)幻燈片的文字內(nèi)容進(jìn)行提取識(shí)別,再通過(guò)對(duì)讀取的內(nèi)容文本生成相關(guān)的演講稿內(nèi)容。然而,受幻燈片中排版布局的影響,演講稿生成模型對(duì)于一些特殊排版的文字理解相對(duì)較差,可能無(wú)法準(zhǔn)確識(shí)別和提取文本內(nèi)容,導(dǎo)致生成的演講稿中遺漏重要的內(nèi)容,影響演講稿的準(zhǔn)確性和完整性。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種模型訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備及介質(zhì),以解決演講稿生成模型對(duì)于一些特殊排版的文字理解相對(duì)較差,可能無(wú)法準(zhǔn)確識(shí)別和提取文本內(nèi)容,導(dǎo)致生成的演講稿中遺漏重要的內(nèi)容,影響演講稿的準(zhǔn)確性和完整性的技術(shù)問(wèn)題。

2、第一方面,提供了一種模型訓(xùn)練方法,包括:

3、獲取多個(gè)第一圖像數(shù)據(jù)及其對(duì)應(yīng)的多個(gè)第一文本數(shù)據(jù)和多個(gè)第二圖像數(shù)據(jù);

4、基于多個(gè)第一圖像數(shù)據(jù)和多個(gè)第二圖像數(shù)據(jù),生成多組第一正樣本對(duì)和多組第一負(fù)樣本對(duì),且基于多個(gè)第一圖像數(shù)據(jù)和多個(gè)第一文本數(shù)據(jù),生成多組第二正樣本對(duì)和多組第二負(fù)樣本對(duì);

5、基于多組第一正樣本對(duì)和多組第一負(fù)樣本對(duì),對(duì)第一圖像編碼器進(jìn)行訓(xùn)練,得到第二圖像編碼器;

6、基于多組第二正樣本對(duì)和多組第二負(fù)樣本對(duì),對(duì)第二圖像編碼器和第一大語(yǔ)言模型進(jìn)行訓(xùn)練,得到第三圖像編碼器和第二大語(yǔ)言模型;

7、復(fù)制第二大語(yǔ)言模型,得到第三大語(yǔ)言模型;

8、基于多組第二正樣本對(duì)、多組第二負(fù)樣本對(duì)、第三圖像編碼器和第三大語(yǔ)言模型,對(duì)第二大語(yǔ)言模型進(jìn)行訓(xùn)練,得到演講稿生成模型。

9、第二方面,提供了一種模型訓(xùn)練裝置,包括:

10、獲取模塊,用于獲取多個(gè)第一圖像數(shù)據(jù)及其對(duì)應(yīng)的多個(gè)第一文本數(shù)據(jù)和多個(gè)第二圖像數(shù)據(jù);

11、第一生成模塊,用于基于多個(gè)第一圖像數(shù)據(jù)和多個(gè)第二圖像數(shù)據(jù),生成多組第一正樣本對(duì)和多組第一負(fù)樣本對(duì),且基于多個(gè)第一圖像數(shù)據(jù)和多個(gè)第一文本數(shù)據(jù),生成多組第二正樣本對(duì)和多組第二負(fù)樣本對(duì);

12、訓(xùn)練模塊,用于基于多組第一正樣本對(duì)和多組第一負(fù)樣本對(duì),對(duì)第一圖像編碼器進(jìn)行訓(xùn)練,得到第二圖像編碼器;

13、訓(xùn)練模塊還用于,基于多組第二正樣本對(duì)和多組第二負(fù)樣本對(duì),對(duì)第二圖像編碼器和第一大語(yǔ)言模型進(jìn)行訓(xùn)練,得到第三圖像編碼器和第二大語(yǔ)言模型;

14、第二生成模塊,用于復(fù)制第二大語(yǔ)言模型,得到第三大語(yǔ)言模型;

15、訓(xùn)練模塊還用于,基于多組第二正樣本對(duì)、多組第二負(fù)樣本對(duì)、第三圖像編碼器和第三大語(yǔ)言模型,對(duì)第二大語(yǔ)言模型進(jìn)行訓(xùn)練,得到演講稿生成模型。

16、第三方面,提供了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在存儲(chǔ)器中并可在處理器上運(yùn)行的計(jì)算機(jī)程序,處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述模型訓(xùn)練方法的步驟。

17、第四方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述模型訓(xùn)練方法的步驟。

18、上述模型訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)所實(shí)現(xiàn)的方案中,通過(guò)三個(gè)階段訓(xùn)練講解幻燈片的演講稿生成模型,在第一階段訓(xùn)練圖像編碼器時(shí),專注于提升視覺特征,避免了語(yǔ)言模型在處理圖像信息時(shí)的干擾,使得模型能夠更專注地學(xué)習(xí)。在第二階段中,將文本特征和圖片特征進(jìn)行特征對(duì)齊,映射到同一表征空間,讓模型可以對(duì)圖片和文本進(jìn)行關(guān)聯(lián)理解。通過(guò)聯(lián)合訓(xùn)練能夠增強(qiáng)圖像編碼器與語(yǔ)言模型之間的協(xié)同作用,促進(jìn)視覺特征與語(yǔ)言上下文的理解。在第三階段,進(jìn)一步細(xì)化語(yǔ)言模型在演講稿生成任務(wù)上的表現(xiàn),使其能夠根據(jù)已經(jīng)處理好的視覺信息,生成更加自然、邏輯清晰的文本,讓模型可以更好地適應(yīng)不同主題,提高靈活性和準(zhǔn)確性。通過(guò)三個(gè)階段的逐步訓(xùn)練,使得最終生成的演講稿生成模型可以將幻燈片的格式統(tǒng)一以圖片形式進(jìn)行理解,圖片格式保留了幻燈片中視覺內(nèi)容(如圖標(biāo)、插圖和布局),消除了不同文本格式可能導(dǎo)致的亂碼和排版錯(cuò)誤,保證信息傳遞的一致性,再利用編碼模型理解圖片和用戶意圖,提取關(guān)鍵信息和特征,增強(qiáng)模型對(duì)視覺信息的理解能力,最終通過(guò)理解圖片內(nèi)容與用戶意圖的結(jié)合,生成式模型能夠自動(dòng)生成更具針對(duì)性的演講稿內(nèi)容,使得演講更加專業(yè)和有條理。



技術(shù)特征:

1.一種模型訓(xùn)練方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取多個(gè)第一圖像數(shù)據(jù)及其對(duì)應(yīng)的多個(gè)第一文本數(shù)據(jù)和多個(gè)第二圖像數(shù)據(jù)的步驟,具體包括:

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述多個(gè)第一圖像數(shù)據(jù)和所述多個(gè)第二圖像數(shù)據(jù),生成多組第一正樣本對(duì)和多組第一負(fù)樣本對(duì),且基于所述多個(gè)第一圖像數(shù)據(jù)和所述多個(gè)第一文本數(shù)據(jù),生成多組第二正樣本對(duì)和多組第二負(fù)樣本對(duì)的步驟,具體包括:

4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于預(yù)設(shè)拼接規(guī)則,對(duì)多組第一正樣本對(duì)和多組第一負(fù)樣本對(duì)中包含的圖像數(shù)據(jù)進(jìn)行預(yù)處理,以形成每個(gè)圖像數(shù)據(jù)對(duì)應(yīng)的圖像塊數(shù)據(jù)的步驟,具體包括:

5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于所述多組第一正樣本對(duì)和所述多組第一負(fù)樣本對(duì),對(duì)第一圖像編碼器進(jìn)行訓(xùn)練,得到第二圖像編碼器的步驟,具體包括:

6.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于所述多組第二正樣本對(duì)和所述多組第二負(fù)樣本對(duì),對(duì)所述第二圖像編碼器和第一大語(yǔ)言模型進(jìn)行訓(xùn)練,得到第三圖像編碼器和第二大語(yǔ)言模型的步驟,具體包括:

7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述基于所述多組第二正樣本對(duì)、所述多組第二負(fù)樣本對(duì)、所述第三圖像編碼器和所述第三大語(yǔ)言模型,對(duì)所述第二大語(yǔ)言模型進(jìn)行訓(xùn)練,得到演講稿生成模型的步驟,具體包括:

8.一種模型訓(xùn)練裝置,其特征在于,包括:

9.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述模型訓(xùn)練方法的步驟。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述模型訓(xùn)練方法的步驟。


技術(shù)總結(jié)
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,公開了一種模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì),包括:基于多個(gè)第一圖像數(shù)據(jù)和多個(gè)第二圖像數(shù)據(jù),生成多組第一正負(fù)樣本對(duì),且基于多個(gè)第一圖像數(shù)據(jù)和多個(gè)第一文本數(shù)據(jù),生成多組第二正負(fù)樣本對(duì);基于多組第一正樣本對(duì)和多組第一負(fù)樣本對(duì),對(duì)第一圖像編碼器進(jìn)行訓(xùn)練,得到第二圖像編碼器;基于多組第二正樣本對(duì)和多組第二負(fù)樣本對(duì),對(duì)第二圖像編碼器和第一大語(yǔ)言模型進(jìn)行訓(xùn)練,得到第三圖像編碼器和第二大語(yǔ)言模型;基于多組第二正樣本對(duì)、多組第二負(fù)樣本對(duì)、第三圖像編碼器和第三大語(yǔ)言模型,對(duì)第二大語(yǔ)言模型進(jìn)行訓(xùn)練,得到演講稿生成模型。使得最終生成的演講稿生成模型可以將幻燈片的格式統(tǒng)一以圖片形式進(jìn)行理解。

技術(shù)研發(fā)人員:舒暢,陳遠(yuǎn)旭
受保護(hù)的技術(shù)使用者:平安科技(深圳)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/2
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
长葛市| 德安县| 曲水县| 霍林郭勒市| 寿宁县| 高陵县| 钦州市| 临西县| 北海市| 龙胜| 维西| 灵丘县| 克拉玛依市| 天峻县| 花莲县| 洛川县| 新河县| 武穴市| 龙江县| 金坛市| 玛曲县| 濮阳县| 永兴县| 贵德县| 交城县| 分宜县| 濉溪县| 泰顺县| 高要市| 武安市| 山东| 台东县| 中山市| 文昌市| 县级市| 朔州市| 玉环县| 开远市| 屏东县| 海城市| 安陆市|