本公開涉及提示工程,其包括利用語言模型(諸如大型語言模型(llm))的提示工程。
背景技術(shù):
1、自監(jiān)督視覺語言模型(vlm),如對(duì)比語言圖像預(yù)訓(xùn)練(clip),可以經(jīng)由對(duì)比訓(xùn)練創(chuàng)建對(duì)齊的圖像編碼器和文本編碼器。與傳統(tǒng)訓(xùn)練的分類網(wǎng)絡(luò)不同,這樣的對(duì)齊通過向文本編碼器提示如“{}的照片”的手工輸入,然后經(jīng)由嵌入輸入圖像的最大內(nèi)積來預(yù)測(cè)目標(biāo),從而實(shí)現(xiàn)零樣本圖像分類。然而,為零樣本學(xué)習(xí)選擇有效的提示在很大程度上仍然是一個(gè)臨時(shí)(ad-hoc)的過程:一些系統(tǒng)已經(jīng)添加了若干個(gè)提示,如“卡通{}”或“{}的藝術(shù)”,其旨在改進(jìn)imagenet-r的性能和準(zhǔn)確度。
技術(shù)實(shí)現(xiàn)思路
1、第一說明性實(shí)施例說明了用于調(diào)整預(yù)訓(xùn)練的機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的計(jì)算機(jī)實(shí)現(xiàn)的方法。該方法包括:接收包括多個(gè)像素的多個(gè)輸入圖像;利用多個(gè)輸入圖像和機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的圖像編碼器生成視覺矩陣,其中視覺矩陣包括編碼圖像的列表;接收多個(gè)文本提示;從多個(gè)文本提示中選擇文本提示中的第一個(gè);將文本提示中的第一個(gè)發(fā)送到大型語言模型(llm)以生成候選詞元(token)列表,其中候選詞元列表是通過從與文本提示中的第一個(gè)相關(guān)聯(lián)的每一個(gè)詞元中選擇子集來生成的,其中子集包括與文本提示中的第一個(gè)相關(guān)聯(lián)的最可能的詞元,其中最可能的詞元是響應(yīng)于llm的輸出而計(jì)算的;從候選列表中選擇一個(gè)或多個(gè)詞元;經(jīng)由附加與多個(gè)文本提示相關(guān)聯(lián)的一個(gè)或多個(gè)選擇的詞元將文本提示之一轉(zhuǎn)換成更新的文本提示;利用包括一個(gè)或多個(gè)詞元的更新的文本提示和機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的文本編碼器生成文本矩陣,其中文本矩陣包括編碼的視覺描述符的列表,所述列表包括具有一個(gè)或多個(gè)詞元的更新的文本提示;將文本矩陣和視覺矩陣相乘以生成圖像-文本相似性矩陣,其中圖像-文本相似性矩陣分配指示每個(gè)編碼的視覺描述符和每個(gè)編碼的圖像之間的相似性的數(shù)值,其中相似性由具有數(shù)值的圖像-文本相似性矩陣的條目指示;利用在圖像-文本相似性矩陣處分配的數(shù)值,確定與圖像-文本相似性矩陣相關(guān)聯(lián)的分?jǐn)?shù);并且當(dāng)分?jǐn)?shù)下降到低于閾值時(shí),對(duì)文本提示中的第一個(gè)的第二詞元重復(fù)步驟(vi-xi),并且當(dāng)分?jǐn)?shù)超過閾值時(shí),將一個(gè)或多個(gè)詞元添加到更新的文本提示,并且對(duì)多個(gè)文本提示中的每一個(gè)的剩余部分重復(fù)步驟(iv-xi);以及在評(píng)估多個(gè)文本提示中的每一個(gè)之后,響應(yīng)于標(biāo)識(shí)出與最終詞元相關(guān)聯(lián)的最高分?jǐn)?shù),向更新的文本提示輸出最終詞元。
2、第二說明性實(shí)施例說明了一種包括處理器的系統(tǒng),該處理器被編程為:接收多個(gè)輸入圖像;利用多個(gè)輸入圖像和機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的圖像編碼器生成視覺矩陣,其中視覺矩陣包括編碼圖像列表;接收多個(gè)文本提示;從多個(gè)文本提示中選擇文本提示中的第一個(gè);將文本提示中的第一個(gè)發(fā)送到大型語言模型(llm)以生成候選詞元列表,其中候選詞元列表是通過從與文本提示中的第一個(gè)相關(guān)聯(lián)的每一個(gè)詞元中選擇詞元子集來生成的,其中子集包括與文本提示中的第一個(gè)相關(guān)聯(lián)的最可能的詞元,其中最可能的詞元是響應(yīng)于llm的輸出而計(jì)算的;從候選列表中選擇一個(gè)或多個(gè)詞元;經(jīng)由附加與多個(gè)文本提示相關(guān)聯(lián)的一個(gè)或多個(gè)選擇的詞元將文本提示之一轉(zhuǎn)換成更新的文本提示;利用包括一個(gè)或多個(gè)詞元的更新的文本提示和機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的文本編碼器生成文本矩陣,其中文本矩陣包括編碼的視覺描述符的列表,所述列表包括具有一個(gè)或多個(gè)詞元的更新的文本提示;將文本矩陣和視覺矩陣相乘以生成圖像-文本相似性矩陣,其中圖像-文本相似性矩陣分配指示每個(gè)編碼的視覺描述符和每個(gè)編碼的圖像之間的相似性的數(shù)值,其中相似性由具有數(shù)值的圖像-文本相似性矩陣的條目指示;利用在圖像-文本相似性矩陣處分配的數(shù)值,確定與圖像-文本相似性矩陣相關(guān)聯(lián)的分?jǐn)?shù);當(dāng)分?jǐn)?shù)下降到低于閾值時(shí),對(duì)文本提示中的第一個(gè)的第二詞元重復(fù)某些步驟,并且當(dāng)分?jǐn)?shù)超過閾值時(shí),將一個(gè)或多個(gè)詞元添加到更新的文本提示,并且對(duì)多個(gè)文本提示中的每一個(gè)的剩余部分重復(fù)某些步驟;以及在評(píng)估多個(gè)文本提示中的每一個(gè)之后,響應(yīng)于標(biāo)識(shí)出與最終詞元相關(guān)聯(lián)的最高分?jǐn)?shù),向更新的文本提示輸出最終詞元。
3、第三說明性實(shí)施例說明了一種計(jì)算機(jī)實(shí)現(xiàn)的方法,其包括:接收多個(gè)輸入圖像;利用多個(gè)輸入圖像和機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的圖像編碼器生成視覺矩陣,其中視覺矩陣包括編碼圖像列表;接收多個(gè)文本提示;從多個(gè)文本提示中選擇文本提示中的第一個(gè);將文本提示中的第一個(gè)發(fā)送到語言模型(lm)以生成候選詞元列表,其中在候選詞元列表中的是小于與文本提示中的第一個(gè)相關(guān)聯(lián)的所有詞元的子集;從候選列表中選擇一個(gè)或多個(gè)詞元;經(jīng)由附加與多個(gè)文本提示相關(guān)聯(lián)的一個(gè)或多個(gè)選擇的詞元將文本提示之一轉(zhuǎn)換成更新的文本提示;利用包括一個(gè)或多個(gè)詞元的更新的文本提示和機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的文本編碼器生成文本矩陣,其中文本矩陣包括編碼的視覺描述符的列表,該列表包括具有一個(gè)或多個(gè)詞元的更新的文本提示;將文本矩陣和視覺矩陣相乘以生成圖像-文本相似性矩陣,其中圖像-文本相似性矩陣分配指示每個(gè)編碼的視覺描述符和每個(gè)編碼的圖像之間的相似性的數(shù)值,其中相似性由具有數(shù)值的圖像-文本相似性矩陣的條目來指示;利用在圖像-文本相似性矩陣分配的數(shù)值,確定與圖像-文本相似性矩陣相關(guān)聯(lián)的分?jǐn)?shù);并且當(dāng)分?jǐn)?shù)下降到低于閾值時(shí),對(duì)文本提示中的第一個(gè)的第二詞元重復(fù)某些步驟,以及當(dāng)分?jǐn)?shù)超過閾值時(shí),將一個(gè)或多個(gè)詞元添加到更新的文本提示,并對(duì)多個(gè)文本提示中的每一個(gè)的剩余部分重復(fù)某些步驟。
1.一種用于預(yù)訓(xùn)練的機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的計(jì)算機(jī)實(shí)現(xiàn)的方法,所述計(jì)算機(jī)實(shí)現(xiàn)的方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的方法,其中確定與圖像-文本相似性矩陣相關(guān)聯(lián)的分?jǐn)?shù)包括利用kl-散度。
3.根據(jù)權(quán)利要求1所述的方法,其中所述圖像-文本相似性矩陣是每個(gè)圖像的獨(dú)熱編碼的矩陣。
4.根據(jù)權(quán)利要求1所述的方法,其中所述文本編碼器是對(duì)比語言-圖像預(yù)訓(xùn)練(clip)文本編碼器,并且所述圖像編碼器是clip圖像編碼器。
5.根據(jù)權(quán)利要求1所述的方法,其中不修改與圖像編碼器和文本編碼器相關(guān)聯(lián)的參數(shù)。
6.根據(jù)權(quán)利要求1所述的方法,其中所述閾值是迭代次數(shù)。
7.根據(jù)權(quán)利要求1所述的方法,其中所述閾值包括與所述多個(gè)文本提示相關(guān)聯(lián)的長(zhǎng)度。
8.根據(jù)權(quán)利要求1所述的方法,其中所述閾值是收斂閾值。
9.根據(jù)權(quán)利要求1所述的方法,其中文本提示之一與代表所述多個(gè)輸入圖像之一的類別相關(guān)聯(lián)。
10.根據(jù)權(quán)利要求1所述的方法,其中所述一個(gè)或多個(gè)詞元包括詞語。
11.一種系統(tǒng),包括:
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其中所述一個(gè)或多個(gè)詞元包括詞語。
13.根據(jù)權(quán)利要求11所述的系統(tǒng),其中將所述一個(gè)或多個(gè)詞元添加到更新的文本提示包括用較低分?jǐn)?shù)替換先前的詞元。
14.根據(jù)權(quán)利要求11所述的系統(tǒng),其中與圖像編碼器和文本編碼器相關(guān)聯(lián)的參數(shù)保持固定。
15.一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括:
16.根據(jù)權(quán)利要求15所述的方法,其中將所述一個(gè)或多個(gè)詞元添加到更新的文本提示包括替換先前的詞元。
17.根據(jù)權(quán)利要求15所述的方法,其中通過從與文本提示中的第一個(gè)相關(guān)聯(lián)的每一個(gè)詞元中選擇詞元子集來生成候選詞元列表,其中所述子集包括與文本提示中的第一個(gè)相關(guān)聯(lián)的最可能的詞元,其中響應(yīng)于llm的輸出來計(jì)算最可能的詞元。
18.根據(jù)權(quán)利要求15所述的方法,其中所述方法包括在評(píng)估所述多個(gè)文本提示中的每一個(gè)之后,響應(yīng)于標(biāo)識(shí)出與最終詞元相關(guān)聯(lián)的最高分?jǐn)?shù),向更新的文本提示輸出最終詞元。
19.根據(jù)權(quán)利要求15所述的方法,其中所述一個(gè)或多個(gè)詞元包括詞語。
20.根據(jù)權(quán)利要求15所述的方法,其中將所述一個(gè)或多個(gè)詞元添加到更新的文本提示包括用較低分?jǐn)?shù)替換先前的詞元。