欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于提示搜索的系統(tǒng)和方法與流程

文檔序號(hào):40571773發(fā)布日期:2025-01-03 11:32閱讀:19來源:國(guó)知局
用于提示搜索的系統(tǒng)和方法與流程

本公開涉及提示工程,其包括利用語言模型(諸如大型語言模型(llm))的提示工程。


背景技術(shù):

1、自監(jiān)督視覺語言模型(vlm),如對(duì)比語言圖像預(yù)訓(xùn)練(clip),可以經(jīng)由對(duì)比訓(xùn)練創(chuàng)建對(duì)齊的圖像編碼器和文本編碼器。與傳統(tǒng)訓(xùn)練的分類網(wǎng)絡(luò)不同,這樣的對(duì)齊通過向文本編碼器提示如“{}的照片”的手工輸入,然后經(jīng)由嵌入輸入圖像的最大內(nèi)積來預(yù)測(cè)目標(biāo),從而實(shí)現(xiàn)零樣本圖像分類。然而,為零樣本學(xué)習(xí)選擇有效的提示在很大程度上仍然是一個(gè)臨時(shí)(ad-hoc)的過程:一些系統(tǒng)已經(jīng)添加了若干個(gè)提示,如“卡通{}”或“{}的藝術(shù)”,其旨在改進(jìn)imagenet-r的性能和準(zhǔn)確度。


技術(shù)實(shí)現(xiàn)思路

1、第一說明性實(shí)施例說明了用于調(diào)整預(yù)訓(xùn)練的機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的計(jì)算機(jī)實(shí)現(xiàn)的方法。該方法包括:接收包括多個(gè)像素的多個(gè)輸入圖像;利用多個(gè)輸入圖像和機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的圖像編碼器生成視覺矩陣,其中視覺矩陣包括編碼圖像的列表;接收多個(gè)文本提示;從多個(gè)文本提示中選擇文本提示中的第一個(gè);將文本提示中的第一個(gè)發(fā)送到大型語言模型(llm)以生成候選詞元(token)列表,其中候選詞元列表是通過從與文本提示中的第一個(gè)相關(guān)聯(lián)的每一個(gè)詞元中選擇子集來生成的,其中子集包括與文本提示中的第一個(gè)相關(guān)聯(lián)的最可能的詞元,其中最可能的詞元是響應(yīng)于llm的輸出而計(jì)算的;從候選列表中選擇一個(gè)或多個(gè)詞元;經(jīng)由附加與多個(gè)文本提示相關(guān)聯(lián)的一個(gè)或多個(gè)選擇的詞元將文本提示之一轉(zhuǎn)換成更新的文本提示;利用包括一個(gè)或多個(gè)詞元的更新的文本提示和機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的文本編碼器生成文本矩陣,其中文本矩陣包括編碼的視覺描述符的列表,所述列表包括具有一個(gè)或多個(gè)詞元的更新的文本提示;將文本矩陣和視覺矩陣相乘以生成圖像-文本相似性矩陣,其中圖像-文本相似性矩陣分配指示每個(gè)編碼的視覺描述符和每個(gè)編碼的圖像之間的相似性的數(shù)值,其中相似性由具有數(shù)值的圖像-文本相似性矩陣的條目指示;利用在圖像-文本相似性矩陣處分配的數(shù)值,確定與圖像-文本相似性矩陣相關(guān)聯(lián)的分?jǐn)?shù);并且當(dāng)分?jǐn)?shù)下降到低于閾值時(shí),對(duì)文本提示中的第一個(gè)的第二詞元重復(fù)步驟(vi-xi),并且當(dāng)分?jǐn)?shù)超過閾值時(shí),將一個(gè)或多個(gè)詞元添加到更新的文本提示,并且對(duì)多個(gè)文本提示中的每一個(gè)的剩余部分重復(fù)步驟(iv-xi);以及在評(píng)估多個(gè)文本提示中的每一個(gè)之后,響應(yīng)于標(biāo)識(shí)出與最終詞元相關(guān)聯(lián)的最高分?jǐn)?shù),向更新的文本提示輸出最終詞元。

2、第二說明性實(shí)施例說明了一種包括處理器的系統(tǒng),該處理器被編程為:接收多個(gè)輸入圖像;利用多個(gè)輸入圖像和機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的圖像編碼器生成視覺矩陣,其中視覺矩陣包括編碼圖像列表;接收多個(gè)文本提示;從多個(gè)文本提示中選擇文本提示中的第一個(gè);將文本提示中的第一個(gè)發(fā)送到大型語言模型(llm)以生成候選詞元列表,其中候選詞元列表是通過從與文本提示中的第一個(gè)相關(guān)聯(lián)的每一個(gè)詞元中選擇詞元子集來生成的,其中子集包括與文本提示中的第一個(gè)相關(guān)聯(lián)的最可能的詞元,其中最可能的詞元是響應(yīng)于llm的輸出而計(jì)算的;從候選列表中選擇一個(gè)或多個(gè)詞元;經(jīng)由附加與多個(gè)文本提示相關(guān)聯(lián)的一個(gè)或多個(gè)選擇的詞元將文本提示之一轉(zhuǎn)換成更新的文本提示;利用包括一個(gè)或多個(gè)詞元的更新的文本提示和機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的文本編碼器生成文本矩陣,其中文本矩陣包括編碼的視覺描述符的列表,所述列表包括具有一個(gè)或多個(gè)詞元的更新的文本提示;將文本矩陣和視覺矩陣相乘以生成圖像-文本相似性矩陣,其中圖像-文本相似性矩陣分配指示每個(gè)編碼的視覺描述符和每個(gè)編碼的圖像之間的相似性的數(shù)值,其中相似性由具有數(shù)值的圖像-文本相似性矩陣的條目指示;利用在圖像-文本相似性矩陣處分配的數(shù)值,確定與圖像-文本相似性矩陣相關(guān)聯(lián)的分?jǐn)?shù);當(dāng)分?jǐn)?shù)下降到低于閾值時(shí),對(duì)文本提示中的第一個(gè)的第二詞元重復(fù)某些步驟,并且當(dāng)分?jǐn)?shù)超過閾值時(shí),將一個(gè)或多個(gè)詞元添加到更新的文本提示,并且對(duì)多個(gè)文本提示中的每一個(gè)的剩余部分重復(fù)某些步驟;以及在評(píng)估多個(gè)文本提示中的每一個(gè)之后,響應(yīng)于標(biāo)識(shí)出與最終詞元相關(guān)聯(lián)的最高分?jǐn)?shù),向更新的文本提示輸出最終詞元。

3、第三說明性實(shí)施例說明了一種計(jì)算機(jī)實(shí)現(xiàn)的方法,其包括:接收多個(gè)輸入圖像;利用多個(gè)輸入圖像和機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的圖像編碼器生成視覺矩陣,其中視覺矩陣包括編碼圖像列表;接收多個(gè)文本提示;從多個(gè)文本提示中選擇文本提示中的第一個(gè);將文本提示中的第一個(gè)發(fā)送到語言模型(lm)以生成候選詞元列表,其中在候選詞元列表中的是小于與文本提示中的第一個(gè)相關(guān)聯(lián)的所有詞元的子集;從候選列表中選擇一個(gè)或多個(gè)詞元;經(jīng)由附加與多個(gè)文本提示相關(guān)聯(lián)的一個(gè)或多個(gè)選擇的詞元將文本提示之一轉(zhuǎn)換成更新的文本提示;利用包括一個(gè)或多個(gè)詞元的更新的文本提示和機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的文本編碼器生成文本矩陣,其中文本矩陣包括編碼的視覺描述符的列表,該列表包括具有一個(gè)或多個(gè)詞元的更新的文本提示;將文本矩陣和視覺矩陣相乘以生成圖像-文本相似性矩陣,其中圖像-文本相似性矩陣分配指示每個(gè)編碼的視覺描述符和每個(gè)編碼的圖像之間的相似性的數(shù)值,其中相似性由具有數(shù)值的圖像-文本相似性矩陣的條目來指示;利用在圖像-文本相似性矩陣分配的數(shù)值,確定與圖像-文本相似性矩陣相關(guān)聯(lián)的分?jǐn)?shù);并且當(dāng)分?jǐn)?shù)下降到低于閾值時(shí),對(duì)文本提示中的第一個(gè)的第二詞元重復(fù)某些步驟,以及當(dāng)分?jǐn)?shù)超過閾值時(shí),將一個(gè)或多個(gè)詞元添加到更新的文本提示,并對(duì)多個(gè)文本提示中的每一個(gè)的剩余部分重復(fù)某些步驟。



技術(shù)特征:

1.一種用于預(yù)訓(xùn)練的機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的計(jì)算機(jī)實(shí)現(xiàn)的方法,所述計(jì)算機(jī)實(shí)現(xiàn)的方法包括以下步驟:

2.根據(jù)權(quán)利要求1所述的方法,其中確定與圖像-文本相似性矩陣相關(guān)聯(lián)的分?jǐn)?shù)包括利用kl-散度。

3.根據(jù)權(quán)利要求1所述的方法,其中所述圖像-文本相似性矩陣是每個(gè)圖像的獨(dú)熱編碼的矩陣。

4.根據(jù)權(quán)利要求1所述的方法,其中所述文本編碼器是對(duì)比語言-圖像預(yù)訓(xùn)練(clip)文本編碼器,并且所述圖像編碼器是clip圖像編碼器。

5.根據(jù)權(quán)利要求1所述的方法,其中不修改與圖像編碼器和文本編碼器相關(guān)聯(lián)的參數(shù)。

6.根據(jù)權(quán)利要求1所述的方法,其中所述閾值是迭代次數(shù)。

7.根據(jù)權(quán)利要求1所述的方法,其中所述閾值包括與所述多個(gè)文本提示相關(guān)聯(lián)的長(zhǎng)度。

8.根據(jù)權(quán)利要求1所述的方法,其中所述閾值是收斂閾值。

9.根據(jù)權(quán)利要求1所述的方法,其中文本提示之一與代表所述多個(gè)輸入圖像之一的類別相關(guān)聯(lián)。

10.根據(jù)權(quán)利要求1所述的方法,其中所述一個(gè)或多個(gè)詞元包括詞語。

11.一種系統(tǒng),包括:

12.根據(jù)權(quán)利要求11所述的系統(tǒng),其中所述一個(gè)或多個(gè)詞元包括詞語。

13.根據(jù)權(quán)利要求11所述的系統(tǒng),其中將所述一個(gè)或多個(gè)詞元添加到更新的文本提示包括用較低分?jǐn)?shù)替換先前的詞元。

14.根據(jù)權(quán)利要求11所述的系統(tǒng),其中與圖像編碼器和文本編碼器相關(guān)聯(lián)的參數(shù)保持固定。

15.一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括:

16.根據(jù)權(quán)利要求15所述的方法,其中將所述一個(gè)或多個(gè)詞元添加到更新的文本提示包括替換先前的詞元。

17.根據(jù)權(quán)利要求15所述的方法,其中通過從與文本提示中的第一個(gè)相關(guān)聯(lián)的每一個(gè)詞元中選擇詞元子集來生成候選詞元列表,其中所述子集包括與文本提示中的第一個(gè)相關(guān)聯(lián)的最可能的詞元,其中響應(yīng)于llm的輸出來計(jì)算最可能的詞元。

18.根據(jù)權(quán)利要求15所述的方法,其中所述方法包括在評(píng)估所述多個(gè)文本提示中的每一個(gè)之后,響應(yīng)于標(biāo)識(shí)出與最終詞元相關(guān)聯(lián)的最高分?jǐn)?shù),向更新的文本提示輸出最終詞元。

19.根據(jù)權(quán)利要求15所述的方法,其中所述一個(gè)或多個(gè)詞元包括詞語。

20.根據(jù)權(quán)利要求15所述的方法,其中將所述一個(gè)或多個(gè)詞元添加到更新的文本提示包括用較低分?jǐn)?shù)替換先前的詞元。


技術(shù)總結(jié)
用于提示搜索的系統(tǒng)和方法。一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括:接收多個(gè)輸入圖像;利用多個(gè)圖像和圖像編碼器生成視覺矩陣,其中視覺矩陣包括編碼圖像的列表;接收多個(gè)文本提示;從多個(gè)文本提示中選擇文本提示;將文本提示中的第一個(gè)發(fā)送到語言模型以生成候選詞元列表;選擇詞元;經(jīng)由附加詞元將文本提示轉(zhuǎn)換成更新的文本提示;利用文本提示和文本編碼器生成文本矩陣;以及利用在圖像?文本相似性矩陣處分配的數(shù)值,確定與圖像?文本相似性矩陣相關(guān)聯(lián)的分?jǐn)?shù);以及在評(píng)估多個(gè)文本提示中的每一個(gè)之后,響應(yīng)于標(biāo)識(shí)出與最終詞元相關(guān)聯(lián)的最高分?jǐn)?shù),評(píng)估準(zhǔn)則并向更新的文本提示輸出最終詞元。

技術(shù)研發(fā)人員:D·維爾莫特,J·Z·柯爾特,S·迪倫,V·阿金韋德,Y·姜
受保護(hù)的技術(shù)使用者:羅伯特·博世有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/2
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
赫章县| 黎平县| 乐都县| 徐水县| 将乐县| 仁怀市| 河池市| 三穗县| 新蔡县| 固阳县| 长春市| 米易县| 徐汇区| 色达县| 福州市| 云和县| 鄄城县| 镇远县| 临潭县| 民县| 偏关县| 吉林省| 武隆县| 田阳县| 康乐县| 靖宇县| 平和县| 恩平市| 衡东县| 庆元县| 和静县| 常宁市| 凌海市| 丰台区| 巴里| 伊春市| 仁化县| 清镇市| 南岸区| 宣汉县| 茌平县|