本發(fā)明涉及人工智能技術(shù)、自然語(yǔ)言處理,尤其涉及一種模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù):
1、通過(guò)幻燈片內(nèi)容生成演講稿對(duì)于正式場(chǎng)合下的個(gè)人發(fā)言具有重要意義?,F(xiàn)有的演講稿生成模型,通過(guò)對(duì)幻燈片的文字內(nèi)容進(jìn)行提取識(shí)別,再通過(guò)對(duì)讀取的內(nèi)容文本生成相關(guān)的演講稿內(nèi)容。然而,受幻燈片中排版布局的影響,演講稿生成模型對(duì)于一些特殊排版的文字理解相對(duì)較差,可能無(wú)法準(zhǔn)確識(shí)別和提取文本內(nèi)容,導(dǎo)致生成的演講稿中遺漏重要的內(nèi)容,影響演講稿的準(zhǔn)確性和完整性。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種模型訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備及介質(zhì),以解決演講稿生成模型對(duì)于一些特殊排版的文字理解相對(duì)較差,可能無(wú)法準(zhǔn)確識(shí)別和提取文本內(nèi)容,導(dǎo)致生成的演講稿中遺漏重要的內(nèi)容,影響演講稿的準(zhǔn)確性和完整性的技術(shù)問(wèn)題。
2、第一方面,提供了一種模型訓(xùn)練方法,包括:
3、獲取多個(gè)第一圖像數(shù)據(jù)及其對(duì)應(yīng)的多個(gè)第一文本數(shù)據(jù)和多個(gè)第二圖像數(shù)據(jù);
4、基于多個(gè)第一圖像數(shù)據(jù)和多個(gè)第二圖像數(shù)據(jù),生成多組第一正樣本對(duì)和多組第一負(fù)樣本對(duì),且基于多個(gè)第一圖像數(shù)據(jù)和多個(gè)第一文本數(shù)據(jù),生成多組第二正樣本對(duì)和多組第二負(fù)樣本對(duì);
5、基于多組第一正樣本對(duì)和多組第一負(fù)樣本對(duì),對(duì)第一圖像編碼器進(jìn)行訓(xùn)練,得到第二圖像編碼器;
6、基于多組第二正樣本對(duì)和多組第二負(fù)樣本對(duì),對(duì)第二圖像編碼器和第一大語(yǔ)言模型進(jìn)行訓(xùn)練,得到第三圖像編碼器和第二大語(yǔ)言模型;
7、復(fù)制第二大語(yǔ)言模型,得到第三大語(yǔ)言模型;
8、基于多組第二正樣本對(duì)、多組第二負(fù)樣本對(duì)、第三圖像編碼器和第三大語(yǔ)言模型,對(duì)第二大語(yǔ)言模型進(jìn)行訓(xùn)練,得到演講稿生成模型。
9、第二方面,提供了一種模型訓(xùn)練裝置,包括:
10、獲取模塊,用于獲取多個(gè)第一圖像數(shù)據(jù)及其對(duì)應(yīng)的多個(gè)第一文本數(shù)據(jù)和多個(gè)第二圖像數(shù)據(jù);
11、第一生成模塊,用于基于多個(gè)第一圖像數(shù)據(jù)和多個(gè)第二圖像數(shù)據(jù),生成多組第一正樣本對(duì)和多組第一負(fù)樣本對(duì),且基于多個(gè)第一圖像數(shù)據(jù)和多個(gè)第一文本數(shù)據(jù),生成多組第二正樣本對(duì)和多組第二負(fù)樣本對(duì);
12、訓(xùn)練模塊,用于基于多組第一正樣本對(duì)和多組第一負(fù)樣本對(duì),對(duì)第一圖像編碼器進(jìn)行訓(xùn)練,得到第二圖像編碼器;
13、訓(xùn)練模塊還用于,基于多組第二正樣本對(duì)和多組第二負(fù)樣本對(duì),對(duì)第二圖像編碼器和第一大語(yǔ)言模型進(jìn)行訓(xùn)練,得到第三圖像編碼器和第二大語(yǔ)言模型;
14、第二生成模塊,用于復(fù)制第二大語(yǔ)言模型,得到第三大語(yǔ)言模型;
15、訓(xùn)練模塊還用于,基于多組第二正樣本對(duì)、多組第二負(fù)樣本對(duì)、第三圖像編碼器和第三大語(yǔ)言模型,對(duì)第二大語(yǔ)言模型進(jìn)行訓(xùn)練,得到演講稿生成模型。
16、第三方面,提供了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在存儲(chǔ)器中并可在處理器上運(yùn)行的計(jì)算機(jī)程序,處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述模型訓(xùn)練方法的步驟。
17、第四方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述模型訓(xùn)練方法的步驟。
18、上述模型訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)所實(shí)現(xiàn)的方案中,通過(guò)三個(gè)階段訓(xùn)練講解幻燈片的演講稿生成模型,在第一階段訓(xùn)練圖像編碼器時(shí),專注于提升視覺特征,避免了語(yǔ)言模型在處理圖像信息時(shí)的干擾,使得模型能夠更專注地學(xué)習(xí)。在第二階段中,將文本特征和圖片特征進(jìn)行特征對(duì)齊,映射到同一表征空間,讓模型可以對(duì)圖片和文本進(jìn)行關(guān)聯(lián)理解。通過(guò)聯(lián)合訓(xùn)練能夠增強(qiáng)圖像編碼器與語(yǔ)言模型之間的協(xié)同作用,促進(jìn)視覺特征與語(yǔ)言上下文的理解。在第三階段,進(jìn)一步細(xì)化語(yǔ)言模型在演講稿生成任務(wù)上的表現(xiàn),使其能夠根據(jù)已經(jīng)處理好的視覺信息,生成更加自然、邏輯清晰的文本,讓模型可以更好地適應(yīng)不同主題,提高靈活性和準(zhǔn)確性。通過(guò)三個(gè)階段的逐步訓(xùn)練,使得最終生成的演講稿生成模型可以將幻燈片的格式統(tǒng)一以圖片形式進(jìn)行理解,圖片格式保留了幻燈片中視覺內(nèi)容(如圖標(biāo)、插圖和布局),消除了不同文本格式可能導(dǎo)致的亂碼和排版錯(cuò)誤,保證信息傳遞的一致性,再利用編碼模型理解圖片和用戶意圖,提取關(guān)鍵信息和特征,增強(qiáng)模型對(duì)視覺信息的理解能力,最終通過(guò)理解圖片內(nèi)容與用戶意圖的結(jié)合,生成式模型能夠自動(dòng)生成更具針對(duì)性的演講稿內(nèi)容,使得演講更加專業(yè)和有條理。
1.一種模型訓(xùn)練方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取多個(gè)第一圖像數(shù)據(jù)及其對(duì)應(yīng)的多個(gè)第一文本數(shù)據(jù)和多個(gè)第二圖像數(shù)據(jù)的步驟,具體包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述多個(gè)第一圖像數(shù)據(jù)和所述多個(gè)第二圖像數(shù)據(jù),生成多組第一正樣本對(duì)和多組第一負(fù)樣本對(duì),且基于所述多個(gè)第一圖像數(shù)據(jù)和所述多個(gè)第一文本數(shù)據(jù),生成多組第二正樣本對(duì)和多組第二負(fù)樣本對(duì)的步驟,具體包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于預(yù)設(shè)拼接規(guī)則,對(duì)多組第一正樣本對(duì)和多組第一負(fù)樣本對(duì)中包含的圖像數(shù)據(jù)進(jìn)行預(yù)處理,以形成每個(gè)圖像數(shù)據(jù)對(duì)應(yīng)的圖像塊數(shù)據(jù)的步驟,具體包括:
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于所述多組第一正樣本對(duì)和所述多組第一負(fù)樣本對(duì),對(duì)第一圖像編碼器進(jìn)行訓(xùn)練,得到第二圖像編碼器的步驟,具體包括:
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于所述多組第二正樣本對(duì)和所述多組第二負(fù)樣本對(duì),對(duì)所述第二圖像編碼器和第一大語(yǔ)言模型進(jìn)行訓(xùn)練,得到第三圖像編碼器和第二大語(yǔ)言模型的步驟,具體包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述基于所述多組第二正樣本對(duì)、所述多組第二負(fù)樣本對(duì)、所述第三圖像編碼器和所述第三大語(yǔ)言模型,對(duì)所述第二大語(yǔ)言模型進(jìn)行訓(xùn)練,得到演講稿生成模型的步驟,具體包括:
8.一種模型訓(xùn)練裝置,其特征在于,包括:
9.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述模型訓(xùn)練方法的步驟。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述模型訓(xùn)練方法的步驟。