用于提示搜索的系統(tǒng)和方法與流程

文檔序號(hào)：40571773發(fā)布日期：2025-01-03 11:32閱讀：19來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本公開涉及提示工程，其包括利用語言模型(諸如大型語言模型(llm))的提示工程。

背景技術(shù)：

1、自監(jiān)督視覺語言模型(vlm)，如對(duì)比語言圖像預(yù)訓(xùn)練(clip)，可以經(jīng)由對(duì)比訓(xùn)練創(chuàng)建對(duì)齊的圖像編碼器和文本編碼器。與傳統(tǒng)訓(xùn)練的分類網(wǎng)絡(luò)不同，這樣的對(duì)齊通過向文本編碼器提示如“{}的照片”的手工輸入，然后經(jīng)由嵌入輸入圖像的最大內(nèi)積來預(yù)測(cè)目標(biāo)，從而實(shí)現(xiàn)零樣本圖像分類。然而，為零樣本學(xué)習(xí)選擇有效的提示在很大程度上仍然是一個(gè)臨時(shí)(ad-hoc)的過程：一些系統(tǒng)已經(jīng)添加了若干個(gè)提示，如“卡通{}”或“{}的藝術(shù)”，其旨在改進(jìn)imagenet-r的性能和準(zhǔn)確度。

技術(shù)實(shí)現(xiàn)思路

1、第一說明性實(shí)施例說明了用于調(diào)整預(yù)訓(xùn)練的機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的計(jì)算機(jī)實(shí)現(xiàn)的方法。該方法包括：接收包括多個(gè)像素的多個(gè)輸入圖像；利用多個(gè)輸入圖像和機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的圖像編碼器生成視覺矩陣，其中視覺矩陣包括編碼圖像的列表；接收多個(gè)文本提示；從多個(gè)文本提示中選擇文本提示中的第一個(gè)；將文本提示中的第一個(gè)發(fā)送到大型語言模型(llm)以生成候選詞元(token)列表，其中候選詞元列表是通過從與文本提示中的第一個(gè)相關(guān)聯(lián)的每一個(gè)詞元中選擇子集來生成的，其中子集包括與文本提示中的第一個(gè)相關(guān)聯(lián)的最可能的詞元，其中最可能的詞元是響應(yīng)于llm的輸出而計(jì)算的；從候選列表中選擇一個(gè)或多個(gè)詞元；經(jīng)由附加與多個(gè)文本提示相關(guān)聯(lián)的一個(gè)或多個(gè)選擇的詞元將文本提示之一轉(zhuǎn)換成更新的文本提示；利用包括一個(gè)或多個(gè)詞元的更新的文本提示和機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的文本編碼器生成文本矩陣，其中文本矩陣包括編碼的視覺描述符的列表，所述列表包括具有一個(gè)或多個(gè)詞元的更新的文本提示；將文本矩陣和視覺矩陣相乘以生成圖像-文本相似性矩陣，其中圖像-文本相似性矩陣分配指示每個(gè)編碼的視覺描述符和每個(gè)編碼的圖像之間的相似性的數(shù)值，其中相似性由具有數(shù)值的圖像-文本相似性矩陣的條目指示；利用在圖像-文本相似性矩陣處分配的數(shù)值，確定與圖像-文本相似性矩陣相關(guān)聯(lián)的分?jǐn)?shù)；并且當(dāng)分?jǐn)?shù)下降到低于閾值時(shí)，對(duì)文本提示中的第一個(gè)的第二詞元重復(fù)步驟(vi-xi)，并且當(dāng)分?jǐn)?shù)超過閾值時(shí)，將一個(gè)或多個(gè)詞元添加到更新的文本提示，并且對(duì)多個(gè)文本提示中的每一個(gè)的剩余部分重復(fù)步驟(iv-xi)；以及在評(píng)估多個(gè)文本提示中的每一個(gè)之后，響應(yīng)于標(biāo)識(shí)出與最終詞元相關(guān)聯(lián)的最高分?jǐn)?shù)，向更新的文本提示輸出最終詞元。

2、第二說明性實(shí)施例說明了一種包括處理器的系統(tǒng)，該處理器被編程為：接收多個(gè)輸入圖像；利用多個(gè)輸入圖像和機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的圖像編碼器生成視覺矩陣，其中視覺矩陣包括編碼圖像列表；接收多個(gè)文本提示；從多個(gè)文本提示中選擇文本提示中的第一個(gè)；將文本提示中的第一個(gè)發(fā)送到大型語言模型(llm)以生成候選詞元列表，其中候選詞元列表是通過從與文本提示中的第一個(gè)相關(guān)聯(lián)的每一個(gè)詞元中選擇詞元子集來生成的，其中子集包括與文本提示中的第一個(gè)相關(guān)聯(lián)的最可能的詞元，其中最可能的詞元是響應(yīng)于llm的輸出而計(jì)算的；從候選列表中選擇一個(gè)或多個(gè)詞元；經(jīng)由附加與多個(gè)文本提示相關(guān)聯(lián)的一個(gè)或多個(gè)選擇的詞元將文本提示之一轉(zhuǎn)換成更新的文本提示；利用包括一個(gè)或多個(gè)詞元的更新的文本提示和機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的文本編碼器生成文本矩陣，其中文本矩陣包括編碼的視覺描述符的列表，所述列表包括具有一個(gè)或多個(gè)詞元的更新的文本提示；將文本矩陣和視覺矩陣相乘以生成圖像-文本相似性矩陣，其中圖像-文本相似性矩陣分配指示每個(gè)編碼的視覺描述符和每個(gè)編碼的圖像之間的相似性的數(shù)值，其中相似性由具有數(shù)值的圖像-文本相似性矩陣的條目指示；利用在圖像-文本相似性矩陣處分配的數(shù)值，確定與圖像-文本相似性矩陣相關(guān)聯(lián)的分?jǐn)?shù)；當(dāng)分?jǐn)?shù)下降到低于閾值時(shí)，對(duì)文本提示中的第一個(gè)的第二詞元重復(fù)某些步驟，并且當(dāng)分?jǐn)?shù)超過閾值時(shí)，將一個(gè)或多個(gè)詞元添加到更新的文本提示，并且對(duì)多個(gè)文本提示中的每一個(gè)的剩余部分重復(fù)某些步驟；以及在評(píng)估多個(gè)文本提示中的每一個(gè)之后，響應(yīng)于標(biāo)識(shí)出與最終詞元相關(guān)聯(lián)的最高分?jǐn)?shù)，向更新的文本提示輸出最終詞元。

3、第三說明性實(shí)施例說明了一種計(jì)算機(jī)實(shí)現(xiàn)的方法，其包括：接收多個(gè)輸入圖像；利用多個(gè)輸入圖像和機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的圖像編碼器生成視覺矩陣，其中視覺矩陣包括編碼圖像列表；接收多個(gè)文本提示；從多個(gè)文本提示中選擇文本提示中的第一個(gè)；將文本提示中的第一個(gè)發(fā)送到語言模型(lm)以生成候選詞元列表，其中在候選詞元列表中的是小于與文本提示中的第一個(gè)相關(guān)聯(lián)的所有詞元的子集；從候選列表中選擇一個(gè)或多個(gè)詞元；經(jīng)由附加與多個(gè)文本提示相關(guān)聯(lián)的一個(gè)或多個(gè)選擇的詞元將文本提示之一轉(zhuǎn)換成更新的文本提示；利用包括一個(gè)或多個(gè)詞元的更新的文本提示和機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的文本編碼器生成文本矩陣，其中文本矩陣包括編碼的視覺描述符的列表，該列表包括具有一個(gè)或多個(gè)詞元的更新的文本提示；將文本矩陣和視覺矩陣相乘以生成圖像-文本相似性矩陣，其中圖像-文本相似性矩陣分配指示每個(gè)編碼的視覺描述符和每個(gè)編碼的圖像之間的相似性的數(shù)值，其中相似性由具有數(shù)值的圖像-文本相似性矩陣的條目來指示；利用在圖像-文本相似性矩陣分配的數(shù)值，確定與圖像-文本相似性矩陣相關(guān)聯(lián)的分?jǐn)?shù)；并且當(dāng)分?jǐn)?shù)下降到低于閾值時(shí)，對(duì)文本提示中的第一個(gè)的第二詞元重復(fù)某些步驟，以及當(dāng)分?jǐn)?shù)超過閾值時(shí)，將一個(gè)或多個(gè)詞元添加到更新的文本提示，并對(duì)多個(gè)文本提示中的每一個(gè)的剩余部分重復(fù)某些步驟。

技術(shù)特征：

1.一種用于預(yù)訓(xùn)練的機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的計(jì)算機(jī)實(shí)現(xiàn)的方法，所述計(jì)算機(jī)實(shí)現(xiàn)的方法包括以下步驟：

2.根據(jù)權(quán)利要求1所述的方法，其中確定與圖像-文本相似性矩陣相關(guān)聯(lián)的分?jǐn)?shù)包括利用kl-散度。

3.根據(jù)權(quán)利要求1所述的方法，其中所述圖像-文本相似性矩陣是每個(gè)圖像的獨(dú)熱編碼的矩陣。

4.根據(jù)權(quán)利要求1所述的方法，其中所述文本編碼器是對(duì)比語言-圖像預(yù)訓(xùn)練(clip)文本編碼器，并且所述圖像編碼器是clip圖像編碼器。

5.根據(jù)權(quán)利要求1所述的方法，其中不修改與圖像編碼器和文本編碼器相關(guān)聯(lián)的參數(shù)。

6.根據(jù)權(quán)利要求1所述的方法，其中所述閾值是迭代次數(shù)。

7.根據(jù)權(quán)利要求1所述的方法，其中所述閾值包括與所述多個(gè)文本提示相關(guān)聯(lián)的長(zhǎng)度。

8.根據(jù)權(quán)利要求1所述的方法，其中所述閾值是收斂閾值。

9.根據(jù)權(quán)利要求1所述的方法，其中文本提示之一與代表所述多個(gè)輸入圖像之一的類別相關(guān)聯(lián)。

10.根據(jù)權(quán)利要求1所述的方法，其中所述一個(gè)或多個(gè)詞元包括詞語。

11.一種系統(tǒng)，包括：

12.根據(jù)權(quán)利要求11所述的系統(tǒng)，其中所述一個(gè)或多個(gè)詞元包括詞語。

13.根據(jù)權(quán)利要求11所述的系統(tǒng)，其中將所述一個(gè)或多個(gè)詞元添加到更新的文本提示包括用較低分?jǐn)?shù)替換先前的詞元。

14.根據(jù)權(quán)利要求11所述的系統(tǒng)，其中與圖像編碼器和文本編碼器相關(guān)聯(lián)的參數(shù)保持固定。

15.一種計(jì)算機(jī)實(shí)現(xiàn)的方法，包括：

16.根據(jù)權(quán)利要求15所述的方法，其中將所述一個(gè)或多個(gè)詞元添加到更新的文本提示包括替換先前的詞元。

17.根據(jù)權(quán)利要求15所述的方法，其中通過從與文本提示中的第一個(gè)相關(guān)聯(lián)的每一個(gè)詞元中選擇詞元子集來生成候選詞元列表，其中所述子集包括與文本提示中的第一個(gè)相關(guān)聯(lián)的最可能的詞元，其中響應(yīng)于llm的輸出來計(jì)算最可能的詞元。

18.根據(jù)權(quán)利要求15所述的方法，其中所述方法包括在評(píng)估所述多個(gè)文本提示中的每一個(gè)之后，響應(yīng)于標(biāo)識(shí)出與最終詞元相關(guān)聯(lián)的最高分?jǐn)?shù)，向更新的文本提示輸出最終詞元。

19.根據(jù)權(quán)利要求15所述的方法，其中所述一個(gè)或多個(gè)詞元包括詞語。

20.根據(jù)權(quán)利要求15所述的方法，其中將所述一個(gè)或多個(gè)詞元添加到更新的文本提示包括用較低分?jǐn)?shù)替換先前的詞元。

技術(shù)總結(jié)
用于提示搜索的系統(tǒng)和方法。一種計(jì)算機(jī)實(shí)現(xiàn)的方法，包括：接收多個(gè)輸入圖像；利用多個(gè)圖像和圖像編碼器生成視覺矩陣，其中視覺矩陣包括編碼圖像的列表；接收多個(gè)文本提示；從多個(gè)文本提示中選擇文本提示；將文本提示中的第一個(gè)發(fā)送到語言模型以生成候選詞元列表；選擇詞元；經(jīng)由附加詞元將文本提示轉(zhuǎn)換成更新的文本提示；利用文本提示和文本編碼器生成文本矩陣；以及利用在圖像?文本相似性矩陣處分配的數(shù)值，確定與圖像?文本相似性矩陣相關(guān)聯(lián)的分?jǐn)?shù)；以及在評(píng)估多個(gè)文本提示中的每一個(gè)之后，響應(yīng)于標(biāo)識(shí)出與最終詞元相關(guān)聯(lián)的最高分?jǐn)?shù)，評(píng)估準(zhǔn)則并向更新的文本提示輸出最終詞元。

技術(shù)研發(fā)人員：D·維爾莫特,J·Z·柯爾特,S·迪倫,V·阿金韋德,Y·姜
受保護(hù)的技術(shù)使用者：羅伯特·博世有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/2

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：D·維爾莫特,J·Z·柯爾特,S·迪倫,V·阿金韋德,Y·姜
技術(shù)所有人：羅伯特·博世有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于提示搜索的系統(tǒng)和方法與流程