本發(fā)明屬于計(jì)算機(jī)系統(tǒng)安全,具體是一種基于大語言模型的二進(jìn)制組件漏洞識別方法。
背景技術(shù):
1、目前,由于組件的普及性和易用性,物聯(lián)網(wǎng)廠商在集成和使用這些組件開發(fā)固件時往往忽略對組件的漏洞檢測,致使在物聯(lián)網(wǎng)軟件供應(yīng)鏈中,惡意攻擊者可以通過污染組件的方式來攻擊物聯(lián)網(wǎng)設(shè)備,因此物聯(lián)網(wǎng)固件中二進(jìn)制組件漏洞識別研究成為物聯(lián)網(wǎng)固件安全防護(hù)中的重要環(huán)節(jié)。二進(jìn)制代碼相似性是漏洞識別研究的主要方法,chandramohan等人應(yīng)用選擇性內(nèi)聯(lián)技術(shù)捕獲函數(shù)的完整語義和引入長度可變的部分跟蹤對二進(jìn)制函數(shù)進(jìn)行建模,完成跨架構(gòu)、跨平臺的二進(jìn)制函數(shù)搜索任務(wù)。xu等人于2017年提出了第一種基于神經(jīng)網(wǎng)絡(luò)生成二進(jìn)制函數(shù)cfg嵌入的方法,其在名為gemini的系統(tǒng)中,利用改進(jìn)的structure2vec模型來構(gòu)成siamese網(wǎng)絡(luò),將函數(shù)的cfg嵌入高維向量,通過計(jì)算向量的余弦距離來度量函數(shù)間的相似性。liu等人采用三個語義特征來解決跨版本二進(jìn)制代碼相似性挑戰(zhàn),首先使用深度神經(jīng)網(wǎng)絡(luò)(dnn)提取每個二進(jìn)制函數(shù)的函數(shù)內(nèi)特征,進(jìn)一步分析了跨版本二進(jìn)制文件中相對穩(wěn)定的每個二進(jìn)制文件的函數(shù)調(diào)用圖,并從中提取了函數(shù)間和模塊間特征。然后,根據(jù)這三個特征計(jì)算的距離被用于二進(jìn)制代碼相似性檢測。ding等人實(shí)現(xiàn)了一種名為asm2vec的表示學(xué)習(xí)模型,不需要輸入額外的信息,僅通過匯編代碼作為輸入來實(shí)現(xiàn)檢測任務(wù),模型在訓(xùn)練完成后可將以函數(shù)為單位的匯編指令表示成特征向量。luo等人提出了一種跨架構(gòu)二進(jìn)制代碼搜索模型vulhawk,使用熵適配器將不同文件環(huán)境傳輸?shù)较嗤h(huán)境進(jìn)行二進(jìn)制函數(shù)嵌入,實(shí)現(xiàn)跨架構(gòu)的二進(jìn)制漏洞函數(shù)搜索。上述工作應(yīng)用于物聯(lián)網(wǎng)組件的漏洞識別時,由于不同架構(gòu)、不同編譯器及不同優(yōu)化等級下的二進(jìn)制組件存在較大差異,這會對檢測結(jié)果的準(zhǔn)確性產(chǎn)生干擾,需要研究適用于物聯(lián)網(wǎng)組件的漏洞識別技術(shù)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明為了解決目前物聯(lián)網(wǎng)二進(jìn)制組件漏洞識別中設(shè)備種類繁多、指令集架構(gòu)多樣、編譯器和編譯優(yōu)化級別各不相同等問題,提供一種基于大語言模型的二進(jìn)制組件漏洞識別方法。
2、本發(fā)明采取以下技術(shù)方案:一種基于大語言模型的二進(jìn)制組件漏洞識別方法,包括:
3、s100:從收集物聯(lián)網(wǎng)組件的各類漏洞描述信息,從中提取數(shù)據(jù)并構(gòu)建文本信息數(shù)據(jù)集;
4、s200:對文本信息數(shù)據(jù)集中的長文本文本分割處理;
5、s300:將構(gòu)建的文本信息數(shù)據(jù)集輸入大語言模型中進(jìn)行訓(xùn)練及優(yōu)化;
6、s400:利用訓(xùn)練好的漏洞識別大模型檢測二進(jìn)制組件,得到二進(jìn)制組件漏洞檢測結(jié)果報告。
7、在一些實(shí)施例中,步驟s100包括:
8、s101:獲取物聯(lián)網(wǎng)組件的二進(jìn)制組件、開源組件和漏洞文本信息;
9、s102:對于二進(jìn)制組件進(jìn)行反編譯為中間代碼;
10、對于開源組件編譯后再反編譯生成中間代碼;
11、對于對漏洞文本信息進(jìn)行預(yù)處理,包括去重、標(biāo)準(zhǔn)化后與組件相關(guān)聯(lián);
12、s103:將每個段落的表示向量以及全局上下文向量輸入全局注意力機(jī)制,輸出整合了全局信息的段落表示。
13、在一些實(shí)施例中,步驟s103包括:
14、進(jìn)行段落編碼:使用預(yù)訓(xùn)練語言模型對每個段落進(jìn)行編碼,將其轉(zhuǎn)化為一組表示向量,為每個段落的關(guān)鍵位置分配全局向量,這些向量與段落的表示向量共同用于后續(xù)的注意力計(jì)算;
15、計(jì)算跨段落注意力:從當(dāng)前段落和其他段落的表示向量中提取query、key和value向量;隨后計(jì)算跨段落注意力權(quán)重,通過計(jì)算當(dāng)前段落的query與其他段落的key向量之間的相似性,得到跨段落注意力權(quán)重;
16、整合全局信息:使用這些注意力權(quán)重對全局上下文向量和其他段落的value向量進(jìn)行加權(quán)求和,從而獲得整合了全局信息的段落表示;
17、信息融合與更新:
18、將獲得的全局上下文表示與當(dāng)前段落的局部表示進(jìn)行融合(通常通過拼接或加法操作),得到更新后的段落表示;
19、該融合后的表示既包含了當(dāng)前段落的細(xì)節(jié)信息,也反映了文本的全局結(jié)構(gòu)和跨段落的語義關(guān)聯(lián)。
20、在一些實(shí)施例中,步驟s300包括:
21、s301:對訓(xùn)練樣本集中的文本信息進(jìn)行預(yù)處理;
22、s302:使用訓(xùn)練樣本集對大語言模型進(jìn)行訓(xùn)練,得到二進(jìn)制組件漏洞識別模型,模型會根據(jù)輸入的特征判斷是否含有漏洞以及漏洞的類型;
23、s303:利用專家評審系統(tǒng)進(jìn)行人工評審,根據(jù)評估結(jié)果對模型進(jìn)行優(yōu)化,進(jìn)一步提高模型的準(zhǔn)確性與性能。
24、在一些實(shí)施例中,步驟s301包括:
25、將輸入的文本信息經(jīng)過自然語言處理工具預(yù)處理文本;
26、將預(yù)處理后的文本連續(xù)的詞嵌入向量表示;
27、對于每個單詞將詞的位置信息嵌入到詞嵌入向量當(dāng)中,根據(jù)詞在文本序列中的位置信息計(jì)算位置編碼并與詞嵌入向量相加,作為模型的輸入。
28、在一些實(shí)施例中,步驟s302中,大語言模型包括:
29、位置編碼層,所述位置編碼層將輸入文本的位置信息添加到嵌入向量中,幫助模型識別序列順序;
30、多個串聯(lián)的編碼器層,每個所述編碼器層包括依次串聯(lián)的多頭注意力機(jī)制層、層歸一化和殘差連接層、前饋神經(jīng)網(wǎng)絡(luò)以及層歸一化和殘差連接層;
31、多個串聯(lián)的解碼器層,每個所述解碼器層包括依次串聯(lián)的多頭注意力機(jī)制層、層歸一化和殘差連接層、前饋神經(jīng)網(wǎng)絡(luò)以及層歸一化和殘差連接層;
32、所述多頭自注意力機(jī)制通過不同的注意力頭捕捉輸入文本中不同部分的依賴關(guān)系;
33、所述前饋神經(jīng)網(wǎng)絡(luò)用于對隱藏向量進(jìn)行非線性變換;
34、所述層歸一化和殘差連接層用于加速模型訓(xùn)練并提高模型穩(wěn)定性。
35、在一些實(shí)施例中,步驟s303包括:
36、錯誤分類與統(tǒng)計(jì);
37、基于錯誤分類的進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化。
38、在一些實(shí)施例中,錯誤分類與統(tǒng)計(jì)具體包括:
39、步驟1:?收集錯誤數(shù)據(jù):
40、在對大語言模型進(jìn)行評估后,收集大語言模型輸出中的錯誤數(shù)據(jù);
41、步驟2:?人工分類:
42、專家團(tuán)隊(duì)對大語言模型的錯誤輸出進(jìn)行人工審核,按錯誤類型進(jìn)行分類;
43、步驟3:?統(tǒng)計(jì)與分析:
44、對每種錯誤類型進(jìn)行統(tǒng)計(jì)錯誤頻率和錯誤分布。
45、在一些實(shí)施例中,基于錯誤分類的進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化包括:
46、步驟1:?識別大語言模型結(jié)構(gòu)中的瓶頸:
47、根據(jù)錯誤分類的統(tǒng)計(jì)結(jié)果,識別大語言模型結(jié)構(gòu)中的瓶頸或薄弱環(huán)節(jié);
48、步驟2:?優(yōu)化模型:
49、針對識別出的瓶頸,對大語言模型進(jìn)行優(yōu)化;
50、步驟?3:?迭代優(yōu)化與驗(yàn)證:
51、反復(fù)調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)并在新的數(shù)據(jù)集上進(jìn)行驗(yàn)證,觀察優(yōu)化后的效果是否提升。
52、在一些實(shí)施例中,步驟s200包括:
53、根據(jù)模型最大長度限制,設(shè)置初始窗口大小,根據(jù)文本長度動態(tài)調(diào)整窗口大小和滑動步長;
54、如果文本較長,選擇較大的窗口來捕捉更多上下文;
55、如果文本較短,則減小窗口來減少計(jì)算量;
56、將文本分割成多個較小的窗口,每個窗口的內(nèi)容包括模型能夠處理的最大token數(shù),并根據(jù)設(shè)置的滑動步長進(jìn)行滑動,覆蓋整個文本。
57、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
58、1、本發(fā)明引入了大語言模型,在訓(xùn)練的過程中學(xué)習(xí)了大量的相關(guān)知識,能夠更好的理解文本內(nèi)容,包括漏洞描述和代碼等,從而更準(zhǔn)確的理解文本中的語義和上下文信息,提高漏洞識別的準(zhǔn)確性。
59、2、本發(fā)明利用大語言模型,通過學(xué)習(xí)文本中的語言模式和結(jié)構(gòu),從而實(shí)現(xiàn)對漏洞特征的自動提取和學(xué)習(xí),減少了人工干預(yù);
60、3、本發(fā)明通過生成漏洞相關(guān)的解釋性文本,并為用戶生成漏洞修復(fù)建議,提高漏洞識別結(jié)果可信度和修復(fù)效率。