一種基于大語言模型的二進(jìn)制組件漏洞識別方法

文檔序號：40625061發(fā)布日期：2025-01-10 18:30閱讀：2來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于計(jì)算機(jī)系統(tǒng)安全，具體是一種基于大語言模型的二進(jìn)制組件漏洞識別方法。

背景技術(shù)：

1、目前，由于組件的普及性和易用性，物聯(lián)網(wǎng)廠商在集成和使用這些組件開發(fā)固件時往往忽略對組件的漏洞檢測，致使在物聯(lián)網(wǎng)軟件供應(yīng)鏈中，惡意攻擊者可以通過污染組件的方式來攻擊物聯(lián)網(wǎng)設(shè)備，因此物聯(lián)網(wǎng)固件中二進(jìn)制組件漏洞識別研究成為物聯(lián)網(wǎng)固件安全防護(hù)中的重要環(huán)節(jié)。二進(jìn)制代碼相似性是漏洞識別研究的主要方法，chandramohan等人應(yīng)用選擇性內(nèi)聯(lián)技術(shù)捕獲函數(shù)的完整語義和引入長度可變的部分跟蹤對二進(jìn)制函數(shù)進(jìn)行建模，完成跨架構(gòu)、跨平臺的二進(jìn)制函數(shù)搜索任務(wù)。xu等人于2017年提出了第一種基于神經(jīng)網(wǎng)絡(luò)生成二進(jìn)制函數(shù)cfg嵌入的方法，其在名為gemini的系統(tǒng)中，利用改進(jìn)的structure2vec模型來構(gòu)成siamese網(wǎng)絡(luò)，將函數(shù)的cfg嵌入高維向量，通過計(jì)算向量的余弦距離來度量函數(shù)間的相似性。liu等人采用三個語義特征來解決跨版本二進(jìn)制代碼相似性挑戰(zhàn)，首先使用深度神經(jīng)網(wǎng)絡(luò)（dnn）提取每個二進(jìn)制函數(shù)的函數(shù)內(nèi)特征，進(jìn)一步分析了跨版本二進(jìn)制文件中相對穩(wěn)定的每個二進(jìn)制文件的函數(shù)調(diào)用圖，并從中提取了函數(shù)間和模塊間特征。然后，根據(jù)這三個特征計(jì)算的距離被用于二進(jìn)制代碼相似性檢測。ding等人實(shí)現(xiàn)了一種名為asm2vec的表示學(xué)習(xí)模型，不需要輸入額外的信息，僅通過匯編代碼作為輸入來實(shí)現(xiàn)檢測任務(wù)，模型在訓(xùn)練完成后可將以函數(shù)為單位的匯編指令表示成特征向量。luo等人提出了一種跨架構(gòu)二進(jìn)制代碼搜索模型vulhawk，使用熵適配器將不同文件環(huán)境傳輸?shù)较嗤h(huán)境進(jìn)行二進(jìn)制函數(shù)嵌入，實(shí)現(xiàn)跨架構(gòu)的二進(jìn)制漏洞函數(shù)搜索。上述工作應(yīng)用于物聯(lián)網(wǎng)組件的漏洞識別時，由于不同架構(gòu)、不同編譯器及不同優(yōu)化等級下的二進(jìn)制組件存在較大差異，這會對檢測結(jié)果的準(zhǔn)確性產(chǎn)生干擾，需要研究適用于物聯(lián)網(wǎng)組件的漏洞識別技術(shù)。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明為了解決目前物聯(lián)網(wǎng)二進(jìn)制組件漏洞識別中設(shè)備種類繁多、指令集架構(gòu)多樣、編譯器和編譯優(yōu)化級別各不相同等問題，提供一種基于大語言模型的二進(jìn)制組件漏洞識別方法。

2、本發(fā)明采取以下技術(shù)方案：一種基于大語言模型的二進(jìn)制組件漏洞識別方法，包括：

3、s100：從收集物聯(lián)網(wǎng)組件的各類漏洞描述信息，從中提取數(shù)據(jù)并構(gòu)建文本信息數(shù)據(jù)集；

4、s200：對文本信息數(shù)據(jù)集中的長文本文本分割處理；

5、s300：將構(gòu)建的文本信息數(shù)據(jù)集輸入大語言模型中進(jìn)行訓(xùn)練及優(yōu)化；

6、s400：利用訓(xùn)練好的漏洞識別大模型檢測二進(jìn)制組件，得到二進(jìn)制組件漏洞檢測結(jié)果報告。

7、在一些實(shí)施例中，步驟s100包括：

8、s101：獲取物聯(lián)網(wǎng)組件的二進(jìn)制組件、開源組件和漏洞文本信息；

9、s102：對于二進(jìn)制組件進(jìn)行反編譯為中間代碼；

10、對于開源組件編譯后再反編譯生成中間代碼；

11、對于對漏洞文本信息進(jìn)行預(yù)處理，包括去重、標(biāo)準(zhǔn)化后與組件相關(guān)聯(lián)；

12、s103：將每個段落的表示向量以及全局上下文向量輸入全局注意力機(jī)制，輸出整合了全局信息的段落表示。

13、在一些實(shí)施例中，步驟s103包括：

14、進(jìn)行段落編碼：使用預(yù)訓(xùn)練語言模型對每個段落進(jìn)行編碼，將其轉(zhuǎn)化為一組表示向量，為每個段落的關(guān)鍵位置分配全局向量，這些向量與段落的表示向量共同用于后續(xù)的注意力計(jì)算；

15、計(jì)算跨段落注意力：從當(dāng)前段落和其他段落的表示向量中提取query、key和value向量；隨后計(jì)算跨段落注意力權(quán)重，通過計(jì)算當(dāng)前段落的query與其他段落的key向量之間的相似性，得到跨段落注意力權(quán)重；

16、整合全局信息：使用這些注意力權(quán)重對全局上下文向量和其他段落的value向量進(jìn)行加權(quán)求和，從而獲得整合了全局信息的段落表示；

17、信息融合與更新：

18、將獲得的全局上下文表示與當(dāng)前段落的局部表示進(jìn)行融合（通常通過拼接或加法操作），得到更新后的段落表示；

19、該融合后的表示既包含了當(dāng)前段落的細(xì)節(jié)信息，也反映了文本的全局結(jié)構(gòu)和跨段落的語義關(guān)聯(lián)。

20、在一些實(shí)施例中，步驟s300包括：

21、s301：對訓(xùn)練樣本集中的文本信息進(jìn)行預(yù)處理；

22、s302：使用訓(xùn)練樣本集對大語言模型進(jìn)行訓(xùn)練，得到二進(jìn)制組件漏洞識別模型，模型會根據(jù)輸入的特征判斷是否含有漏洞以及漏洞的類型；

23、s303：利用專家評審系統(tǒng)進(jìn)行人工評審，根據(jù)評估結(jié)果對模型進(jìn)行優(yōu)化，進(jìn)一步提高模型的準(zhǔn)確性與性能。

24、在一些實(shí)施例中，步驟s301包括：

25、將輸入的文本信息經(jīng)過自然語言處理工具預(yù)處理文本；

26、將預(yù)處理后的文本連續(xù)的詞嵌入向量表示；

27、對于每個單詞將詞的位置信息嵌入到詞嵌入向量當(dāng)中，根據(jù)詞在文本序列中的位置信息計(jì)算位置編碼并與詞嵌入向量相加，作為模型的輸入。

28、在一些實(shí)施例中，步驟s302中，大語言模型包括：

29、位置編碼層，所述位置編碼層將輸入文本的位置信息添加到嵌入向量中，幫助模型識別序列順序；

30、多個串聯(lián)的編碼器層，每個所述編碼器層包括依次串聯(lián)的多頭注意力機(jī)制層、層歸一化和殘差連接層、前饋神經(jīng)網(wǎng)絡(luò)以及層歸一化和殘差連接層；

31、多個串聯(lián)的解碼器層，每個所述解碼器層包括依次串聯(lián)的多頭注意力機(jī)制層、層歸一化和殘差連接層、前饋神經(jīng)網(wǎng)絡(luò)以及層歸一化和殘差連接層；

32、所述多頭自注意力機(jī)制通過不同的注意力頭捕捉輸入文本中不同部分的依賴關(guān)系；

33、所述前饋神經(jīng)網(wǎng)絡(luò)用于對隱藏向量進(jìn)行非線性變換；

34、所述層歸一化和殘差連接層用于加速模型訓(xùn)練并提高模型穩(wěn)定性。

35、在一些實(shí)施例中，步驟s303包括：

36、錯誤分類與統(tǒng)計(jì)；

37、基于錯誤分類的進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化。

38、在一些實(shí)施例中，錯誤分類與統(tǒng)計(jì)具體包括：

39、步驟1:?收集錯誤數(shù)據(jù)：

40、在對大語言模型進(jìn)行評估后，收集大語言模型輸出中的錯誤數(shù)據(jù)；

41、步驟2:?人工分類：

42、專家團(tuán)隊(duì)對大語言模型的錯誤輸出進(jìn)行人工審核，按錯誤類型進(jìn)行分類；

43、步驟3:?統(tǒng)計(jì)與分析：

44、對每種錯誤類型進(jìn)行統(tǒng)計(jì)錯誤頻率和錯誤分布。

45、在一些實(shí)施例中，基于錯誤分類的進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化包括：

46、步驟1:?識別大語言模型結(jié)構(gòu)中的瓶頸：

47、根據(jù)錯誤分類的統(tǒng)計(jì)結(jié)果，識別大語言模型結(jié)構(gòu)中的瓶頸或薄弱環(huán)節(jié)；

48、步驟2:?優(yōu)化模型：

49、針對識別出的瓶頸，對大語言模型進(jìn)行優(yōu)化；

50、步驟?3:?迭代優(yōu)化與驗(yàn)證：

51、反復(fù)調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)并在新的數(shù)據(jù)集上進(jìn)行驗(yàn)證，觀察優(yōu)化后的效果是否提升。

52、在一些實(shí)施例中，步驟s200包括：

53、根據(jù)模型最大長度限制，設(shè)置初始窗口大小，根據(jù)文本長度動態(tài)調(diào)整窗口大小和滑動步長；

54、如果文本較長，選擇較大的窗口來捕捉更多上下文；

55、如果文本較短，則減小窗口來減少計(jì)算量；

56、將文本分割成多個較小的窗口，每個窗口的內(nèi)容包括模型能夠處理的最大token數(shù)，并根據(jù)設(shè)置的滑動步長進(jìn)行滑動，覆蓋整個文本。

57、與現(xiàn)有技術(shù)相比，本發(fā)明具有以下有益效果：

58、1、本發(fā)明引入了大語言模型，在訓(xùn)練的過程中學(xué)習(xí)了大量的相關(guān)知識，能夠更好的理解文本內(nèi)容，包括漏洞描述和代碼等，從而更準(zhǔn)確的理解文本中的語義和上下文信息，提高漏洞識別的準(zhǔn)確性。

59、2、本發(fā)明利用大語言模型，通過學(xué)習(xí)文本中的語言模式和結(jié)構(gòu)，從而實(shí)現(xiàn)對漏洞特征的自動提取和學(xué)習(xí)，減少了人工干預(yù)；

60、3、本發(fā)明通過生成漏洞相關(guān)的解釋性文本，并為用戶生成漏洞修復(fù)建議，提高漏洞識別結(jié)果可信度和修復(fù)效率。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳永樂,于丹,韓凡宇,武淑紅,馬垚,楊玉麗
技術(shù)所有人：太原理工大學(xué)
我是此專利的發(fā)明人

上一篇：玻璃生產(chǎn)的轉(zhuǎn)向裝置的制作方法
上一篇：一種用于茶葉加工的烘干篩選裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于大語言模型的二進(jìn)制組件漏洞識別方法