本發(fā)明涉及自動(dòng)駕駛危害識(shí)別,特別是涉及一種基于llms(英文全稱為large?language?models,中文全稱為大語(yǔ)言模型)的事故觸發(fā)源分析與odc(英文全稱為operational?design?condition,中文全稱為設(shè)計(jì)運(yùn)行條件)元素提取、分類方法及系統(tǒng)。
背景技術(shù):
1、隨著自動(dòng)駕駛技術(shù)的快速發(fā)展和應(yīng)用,其在復(fù)雜交通場(chǎng)景下的安全性問(wèn)題逐漸成為研究的焦點(diǎn)。特別是在無(wú)保護(hù)左轉(zhuǎn)、行人突然橫穿等高風(fēng)險(xiǎn)交通交互情境中,自動(dòng)駕駛系統(tǒng)可能面臨難以預(yù)測(cè)的事故風(fēng)險(xiǎn)。在此背景下,如何有效識(shí)別和應(yīng)對(duì)這些潛在的事故觸發(fā)源,對(duì)于確保自動(dòng)駕駛車輛的安全性至關(guān)重要。
2、目前,自動(dòng)駕駛危害識(shí)別主要依賴于事故分析、測(cè)試評(píng)價(jià)和理論分析等方法。盡管這些方法能夠在一定程度上識(shí)別潛在的事故觸發(fā)源,但由于交通環(huán)境的復(fù)雜性和多變性,傳統(tǒng)方法往往難以全面、精確地提取所有可能的風(fēng)險(xiǎn)場(chǎng)景中的事故觸發(fā)源。此外,人工分析大規(guī)模交通事故數(shù)據(jù)不僅效率低下,而且容易遺漏關(guān)鍵的觸發(fā)因素。近年來(lái),人工智能和llms的快速發(fā)展,為自動(dòng)駕駛領(lǐng)域的事故觸發(fā)源識(shí)別提供了新的技術(shù)手段。基于llms的強(qiáng)大語(yǔ)言處理和數(shù)據(jù)分析能力,可以自動(dòng)從海量交通事故數(shù)據(jù)中提取與事故相關(guān)的觸發(fā)源信息。然而,目前的研究多集中于觸發(fā)源的識(shí)別與提取,對(duì)于如何將這些觸發(fā)源系統(tǒng)化歸類,并構(gòu)建成odc元素框架的研究尚顯不足。
3、構(gòu)建odc元素框架是確保自動(dòng)駕駛系統(tǒng)安全性的關(guān)鍵環(huán)節(jié)。通過(guò)明確外部環(huán)境條件與系統(tǒng)內(nèi)部狀態(tài)之間的關(guān)系,該框架能夠?yàn)樽詣?dòng)駕駛系統(tǒng)在不同場(chǎng)景下的安全運(yùn)行提供堅(jiān)實(shí)的基礎(chǔ)。目前,盡管觸發(fā)源的提取技術(shù)已逐漸成熟,但如何將這些提取到的觸發(fā)源進(jìn)一步系統(tǒng)化,形成odc元素框架并進(jìn)行有效分級(jí)分類,仍是自動(dòng)駕駛安全領(lǐng)域亟待解決的關(guān)鍵問(wèn)題。缺乏這一框架的支持,自動(dòng)駕駛系統(tǒng)在處理復(fù)雜交通場(chǎng)景時(shí)可能難以準(zhǔn)確評(píng)估特定環(huán)境條件下的風(fēng)險(xiǎn),進(jìn)而影響系統(tǒng)的安全決策能力。
4、現(xiàn)有技術(shù)一提出了一種使用stpa(英文全稱為system?theoretic?processanalysis,中文全稱為系統(tǒng)理論過(guò)程分析方法),用于識(shí)別lkas(英文全稱為lane?keepingassist?system,中文全稱為車道保持輔助系統(tǒng))的潛在事故觸發(fā)源。該方法首先對(duì)lkas進(jìn)行詳盡的功能分解和控制結(jié)構(gòu)建模,隨后通過(guò)識(shí)別系統(tǒng)中潛在的不安全控制行為并深入分析其原因,從而提取出相應(yīng)的事故觸發(fā)源。通過(guò)stpa分析方法能夠系統(tǒng)性地分析車道保持輔助系統(tǒng)中的潛在危險(xiǎn)因素與觸發(fā)源。但是,這種基于stpa的事故觸發(fā)源提取方法,自動(dòng)化程度較低,嚴(yán)重依賴專家的手動(dòng)分析,處理復(fù)雜場(chǎng)景時(shí)效率不高。此外,stpa需要大量詳細(xì)的數(shù)據(jù)輸入,并需要構(gòu)建復(fù)雜的系統(tǒng)控制結(jié)構(gòu)模型,難以適應(yīng)動(dòng)態(tài)變化的交通事故分析任務(wù)場(chǎng)景,缺乏靈活性。同時(shí),其分析結(jié)果無(wú)法直接輸出為結(jié)構(gòu)化格式,需進(jìn)一步整理才能用于后續(xù)步驟。
5、現(xiàn)有技術(shù)二設(shè)計(jì)了一個(gè)統(tǒng)一的odd(英文全稱為operational?design?domain,中文全稱為操作設(shè)計(jì)域)監(jiān)測(cè)框架,以應(yīng)對(duì)復(fù)雜交通場(chǎng)景中車輛超出odd邊界時(shí)可能引發(fā)的預(yù)期功能安全風(fēng)險(xiǎn)。該框架由三個(gè)模塊組成:天氣狀況監(jiān)測(cè)(如雨、雪、霧等異常天氣)、車輛行為監(jiān)測(cè)(如交通規(guī)則違規(guī)等異常行為)、以及路況監(jiān)測(cè)(如路面缺陷、意外障礙物、濕滑路面等異常路況),并對(duì)各個(gè)模塊的觸發(fā)源進(jìn)行分析,監(jiān)測(cè)其中涉及到的odd元素。最后在應(yīng)用中驗(yàn)證了該odd監(jiān)控框架在緩解功能安全風(fēng)險(xiǎn)方面的實(shí)用性和有效性。但是,通過(guò)分析天氣狀況、車輛行為和異常路況三個(gè)模塊的觸發(fā)源,并將其結(jié)果直接作為odd的界定,以期通過(guò)odd監(jiān)測(cè)來(lái)減輕預(yù)期的功能安全風(fēng)險(xiǎn),但該方法在實(shí)施過(guò)程中存在明顯的不足。主要問(wèn)題在于,該方法未能包含從觸發(fā)源中系統(tǒng)地提取關(guān)鍵odd元素的步驟。這一缺失導(dǎo)致在面對(duì)觸發(fā)源細(xì)、多、碎時(shí),難以進(jìn)行有效的篩選和識(shí)別,因此需要從系統(tǒng)的角度來(lái)建立odd元素框架,以充分覆蓋危害觸發(fā)源。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于llms的事故觸發(fā)源分析與odc元素提取、分類方法及系統(tǒng)來(lái)克服或至少減輕現(xiàn)有技術(shù)的上述缺陷中的至少一個(gè)。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供一種基于llms的事故觸發(fā)源分析與odc元素提取、分類方法,其包括:
3、根據(jù)交通事故分析任務(wù)中國(guó)標(biāo)文件和事故數(shù)據(jù)文件,將prompt工程的框架與fs(英文全稱為few-shot,中文全稱為少樣本提示)示例結(jié)合獲得prompt模塊,利用prompt模塊提供的prompt引導(dǎo)詞,引導(dǎo)llms學(xué)習(xí)事故數(shù)據(jù)文件的觸發(fā)源提取方法以及國(guó)標(biāo)文件的odc元素分級(jí)分類原則;
4、將原始事故數(shù)據(jù)預(yù)處理后,得到待處理交通事故分析任務(wù)的事故數(shù)據(jù),輸入經(jīng)由prompt模塊引導(dǎo)學(xué)習(xí)后的llms中,llms利用學(xué)習(xí)到的觸發(fā)源提取方法對(duì)待處理的事故數(shù)據(jù)中的觸發(fā)源進(jìn)行提取,以及利用學(xué)習(xí)到的odc元素分級(jí)分類原則將提取出的觸發(fā)源與國(guó)標(biāo)文件結(jié)合,形成滿足國(guó)標(biāo)要求的odc元素分類框架;
5、其中,“將提取出的觸發(fā)源與國(guó)標(biāo)文件結(jié)合,形成滿足國(guó)標(biāo)要求的odc元素分類框架”的方法具體包括:
6、將提取出的觸發(fā)源進(jìn)行詞向量化,構(gòu)造觸發(fā)源詞向量空間;對(duì)觸發(fā)源詞向量空間中的觸發(fā)源詞向量進(jìn)行聚類,使用搜索算法檢索觸發(fā)源文本嵌入數(shù)據(jù)庫(kù),找到與觸發(fā)源詞向量最接近的觸發(fā)源文本,以從觸發(fā)源詞向量中提取出odc元素三級(jí)分類,將odc元素三級(jí)分類整理到國(guó)標(biāo)文件的二級(jí)分類框架下,形成滿足國(guó)標(biāo)要求的odc元素二級(jí)分類框架。
7、進(jìn)一步地,promot模塊包括:
8、角色定義單元,其用于根據(jù)交通事故分析任務(wù),為llms預(yù)先設(shè)定一個(gè)角色,以確保llms在提取過(guò)程中具有與角色對(duì)應(yīng)的背景和視角,并能夠根據(jù)預(yù)設(shè)角色完成交通事故分析任務(wù);
9、任務(wù)提示單元,其用于為llms提供任務(wù)提示,以引導(dǎo)llms專注于交通事故分析任務(wù)的關(guān)鍵的觸發(fā)源元素,進(jìn)而高效地提取所需信息,并按照要求輸出對(duì)應(yīng)格式;
10、上下文信息單元,其包含與交通事故分析任務(wù)相關(guān)的上下文信息,使llms能夠依據(jù)上下文信息進(jìn)行判斷與學(xué)習(xí);
11、fs示例單元,其用于在fs提示中,通過(guò)提供少量但具有代表性的示例,指導(dǎo)llms執(zhí)行交通事故分析任務(wù),使llms能夠在新交通事故分析任務(wù)中提取出觸發(fā)源;
12、輸入信息單元,其用于接收l(shuí)lms需要處理的實(shí)際數(shù)據(jù),通過(guò)結(jié)合角色、任務(wù)提示及上下文,從處理實(shí)際數(shù)據(jù)時(shí)提取出關(guān)鍵的觸發(fā)源;
13、輸出格式單元,其用于將關(guān)鍵的觸發(fā)源轉(zhuǎn)換成與llms適配格式的觸發(fā)源,并輸出。
14、進(jìn)一步地,“形成滿足國(guó)標(biāo)要求的odc元素分類框架”具體包括:
15、依據(jù)國(guó)標(biāo)文件下的odc元素一級(jí)分類和odc元素二級(jí)分類,加入odc元素三級(jí)分類,整理得到完整的odc元素分級(jí)分類框架,示例如下表1所示:
16、表1
17、
18、
19、進(jìn)一步地,數(shù)據(jù)預(yù)處理包括:
20、數(shù)據(jù)清洗:1a.將原始事故數(shù)據(jù)中的重復(fù)數(shù)據(jù)、無(wú)關(guān)數(shù)據(jù)與噪音數(shù)據(jù)進(jìn)行去除;1b.將原始事故數(shù)據(jù)匯總到單獨(dú)字段中描述,簡(jiǎn)化數(shù)據(jù)內(nèi)容;1c.將原始事故數(shù)據(jù)中的無(wú)效數(shù)據(jù)進(jìn)行識(shí)別與刪除;1d.將原始事故數(shù)據(jù)中核心部分?jǐn)?shù)據(jù)缺失的數(shù)據(jù)進(jìn)行刪除;
21、數(shù)據(jù)格式化:1e.將經(jīng)過(guò)數(shù)據(jù)清洗后的事故數(shù)據(jù)進(jìn)行合并。
22、進(jìn)一步地,通過(guò)chatgpt中的text-embedding-3-large文本嵌入模型將提取出的觸發(fā)源進(jìn)行詞向量化具體包括:
23、31a.將提取出的每個(gè)觸發(fā)源對(duì)應(yīng)的詞映射為一個(gè)初始的嵌入向量,獲得詞向量;
24、31b.通過(guò)自注意力機(jī)制同時(shí)關(guān)注所有31a獲得的詞向量,并計(jì)算兩個(gè)詞向量之間的影響,以使text-embedding-3-large文本嵌入模型生成的觸發(fā)源詞向量不僅包含局部上下文的信息,還能夠捕捉兩個(gè)詞向量之間的語(yǔ)義關(guān)系;
25、31c.通過(guò)多層的transformer編碼器,逐步聚合詞向量的上下文信息,生成包含全局語(yǔ)義的向量,全局語(yǔ)義的向量用于綜合單詞的詞義、句法結(jié)構(gòu)和上下文信息;
26、31d.生成高維度的觸發(fā)源詞向量,并輸出。
27、本發(fā)明還提供一種基于llms的事故觸發(fā)源分析與odc元素提取、分類系統(tǒng),其包括:
28、prompt模塊,其用于根據(jù)交通事故分析任務(wù)中國(guó)標(biāo)文件和事故數(shù)據(jù)文件,將prompt工程的框架與fs示例結(jié)合獲得,并利用prompt引導(dǎo)詞,引導(dǎo)llms學(xué)習(xí)事故數(shù)據(jù)文件的觸發(fā)源提取方法以及國(guó)標(biāo)文件的odc元素分級(jí)分類原則;
29、llms,其在經(jīng)由prompt模塊引導(dǎo)學(xué)習(xí)后,用于接收待處理交通事故分析任務(wù)的事故數(shù)據(jù),并利用學(xué)習(xí)到的觸發(fā)源提取方法對(duì)待處理的事故數(shù)據(jù)中的觸發(fā)源進(jìn)行提取,以及利用學(xué)習(xí)到的odc元素分級(jí)分類原則將提取出的觸發(fā)源與國(guó)標(biāo)文件結(jié)合,形成滿足國(guó)標(biāo)要求的odc元素分類框架;
30、其中,“將提取出的觸發(fā)源與國(guó)標(biāo)文件結(jié)合,形成滿足國(guó)標(biāo)要求的odc元素分類框架”的方法具體包括:
31、將提取出的觸發(fā)源進(jìn)行詞向量化,構(gòu)造觸發(fā)源詞向量空間;對(duì)觸發(fā)源詞向量空間中的觸發(fā)源詞向量進(jìn)行聚類,使用搜索算法檢索觸發(fā)源文本嵌入數(shù)據(jù)庫(kù),找到與觸發(fā)源詞向量最接近的觸發(fā)源文本,以從觸發(fā)源詞向量中提取出odc元素三級(jí)分類,將odc元素三級(jí)分類整理到國(guó)標(biāo)文件的二級(jí)分類框架下,形成滿足國(guó)標(biāo)要求的odc元素二級(jí)分類框架。
32、進(jìn)一步地,promot模塊包括:
33、角色定義單元,其用于根據(jù)交通事故分析任務(wù),為llms預(yù)先設(shè)定一個(gè)角色,以確保llms在提取過(guò)程中具有與角色對(duì)應(yīng)的背景和視角,并能夠根據(jù)預(yù)設(shè)角色完成交通事故分析任務(wù);
34、任務(wù)提示單元,其用于為llms提供任務(wù)提示,以引導(dǎo)llms專注于交通事故分析任務(wù)的關(guān)鍵的觸發(fā)源元素,進(jìn)而高效地提取所需信息,并按照要求輸出對(duì)應(yīng)格式;
35、上下文信息單元,其包含與交通事故分析任務(wù)相關(guān)的上下文信息,使llms能夠依據(jù)上下文信息進(jìn)行判斷與學(xué)習(xí);
36、fs示例單元,其用于在fs提示中,通過(guò)提供少量但具有代表性的示例,指導(dǎo)llms執(zhí)行交通事故分析任務(wù),使llms能夠在新交通事故分析任務(wù)中提取出觸發(fā)源;
37、輸入信息單元,其用于接收l(shuí)lms需要處理的實(shí)際數(shù)據(jù),通過(guò)結(jié)合角色、任務(wù)提示及上下文,從處理實(shí)際數(shù)據(jù)時(shí)提取出關(guān)鍵的觸發(fā)源;
38、輸出格式單元,其用于將關(guān)鍵的觸發(fā)源轉(zhuǎn)換成與llms適配格式的觸發(fā)源,并輸出。
39、進(jìn)一步地,“形成滿足國(guó)標(biāo)要求的odc元素分類框架”具體包括:
40、依據(jù)國(guó)標(biāo)文件下的odc元素一級(jí)分類和odc元素二級(jí)分類,加入odc元素三級(jí)分類,整理得到完整的odc元素分級(jí)分類框架,示例如下表1所示:
41、表1
42、
43、
44、進(jìn)一步地基于llms的事故觸發(fā)源分析與odc元素提取、分類系統(tǒng),其還包括:數(shù)據(jù)預(yù)處理單元,其用于將輸入llms的原始事故數(shù)據(jù)預(yù)處理后,得到待處理交通事故分析任務(wù)的事故數(shù)據(jù);
45、其中,數(shù)據(jù)預(yù)處理程序包括:
46、數(shù)據(jù)清洗:1a.將原始事故數(shù)據(jù)中的重復(fù)數(shù)據(jù)、無(wú)關(guān)數(shù)據(jù)與噪音數(shù)據(jù)進(jìn)行去除;1b.將原始事故數(shù)據(jù)匯總到單獨(dú)字段中描述,簡(jiǎn)化數(shù)據(jù)內(nèi)容;1c.將原始事故數(shù)據(jù)中的無(wú)效數(shù)據(jù)進(jìn)行識(shí)別與刪除;1d.將原始事故數(shù)據(jù)中核心部分?jǐn)?shù)據(jù)缺失的數(shù)據(jù)進(jìn)行刪除;
47、數(shù)據(jù)格式化:1e.將經(jīng)過(guò)數(shù)據(jù)清洗后的事故數(shù)據(jù)進(jìn)行合并。
48、進(jìn)一步地,通過(guò)chatgpt中的text-embedding-3-large文本嵌入模型將提取出的觸發(fā)源進(jìn)行詞向量化具體包括:
49、31a.將提取出的每個(gè)觸發(fā)源對(duì)應(yīng)的詞映射為一個(gè)初始的嵌入向量,獲得詞向量;
50、31b.通過(guò)自注意力機(jī)制同時(shí)關(guān)注所有31a獲得的詞向量,并計(jì)算兩個(gè)詞向量之間的影響,以使text-embedding-3-large文本嵌入模型生成的觸發(fā)源詞向量不僅包含局部上下文的信息,還能夠捕捉兩個(gè)詞向量之間的語(yǔ)義關(guān)系;
51、31c.通過(guò)多層的transformer編碼器,逐步聚合詞向量的上下文信息,生成包含全局語(yǔ)義的向量,全局語(yǔ)義的向量用于綜合單詞的詞義、句法結(jié)構(gòu)和上下文信息;
52、31d.生成高維度的觸發(fā)源詞向量,并輸出。
53、本發(fā)明由于采取以上技術(shù)方案,具有以下優(yōu)點(diǎn):
54、1、通過(guò)精心設(shè)計(jì)的prompt,llms能夠在特定角色和交通事故分析任務(wù)背景下進(jìn)行推理和判斷,有效減少了誤判和偏差,提升了提取觸發(fā)源的準(zhǔn)確性;在prompt中引入fs提示技術(shù),減少了對(duì)大規(guī)模數(shù)據(jù)集的依賴,提升了模型的泛化能力;利用prompt引導(dǎo)llms提取事故觸發(fā)源,實(shí)現(xiàn)了對(duì)事故觸發(fā)源的自動(dòng)化提取,減少了人工干預(yù),并有效提升了系統(tǒng)的整體效率。
55、2、通過(guò)采用chatgpt中的text-embedding-3-large文本嵌入模型,將llms初步提取出的觸發(fā)源詞向量化,相較于靜態(tài)詞嵌入方法,提升了詞向量的上下文敏感性,并且在處理詞向量多義性與歧義性上具有明顯的優(yōu)勢(shì)和更強(qiáng)的泛化能力。
56、3、通過(guò)采用基于密度canopy的改進(jìn)k-means算法來(lái)聚類觸發(fā)源詞向量,相較于傳統(tǒng)k-means算法,降低了傳統(tǒng)k-means對(duì)初始類簇中心、噪聲和異常值敏感性,避免了隨機(jī)選擇初始中心可能導(dǎo)致算法陷入局部最優(yōu)解的問(wèn)題,同時(shí)使得計(jì)算量大大減少;將聚類形成的odc元素三級(jí)分類整理到國(guó)標(biāo)的二級(jí)分類框架下,形成完整的odc元素分級(jí)分類框架,有效提升了元素分級(jí)分類的準(zhǔn)確性和效率。