欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種大模型優(yōu)化農(nóng)業(yè)知識(shí)領(lǐng)域問(wèn)答應(yīng)用方法與流程

文檔序號(hào):40569406發(fā)布日期:2025-01-03 11:29閱讀:16來(lái)源:國(guó)知局

本發(fā)明涉及ai文本處理,特別是一種大模型優(yōu)化農(nóng)業(yè)知識(shí)領(lǐng)域問(wèn)答應(yīng)用方法。


背景技術(shù):

1、近年大語(yǔ)言模型已經(jīng)正式開(kāi)啟業(yè)界的廣泛落地應(yīng)用,大語(yǔ)言模型優(yōu)秀的通用問(wèn)答能力使得業(yè)界公司相關(guān)研發(fā)人員相繼投入研究,大語(yǔ)言模型落地應(yīng)用中的一項(xiàng)關(guān)鍵技術(shù)rag可以使得用戶在不訓(xùn)練模型的基礎(chǔ)上即可以實(shí)現(xiàn)領(lǐng)域知識(shí)問(wèn)答能力,成本低,同時(shí)不會(huì)出現(xiàn)大模型災(zāi)難性遺忘,受到大多數(shù)中小企業(yè)的熱愛(ài),rag即先將用戶的文本內(nèi)容切分成知識(shí)點(diǎn),然后將用戶的問(wèn)題向量化,通過(guò)語(yǔ)義檢索模型檢索相關(guān)的知識(shí)點(diǎn),然后采用prompt工程輸入大模型,因?yàn)檩斎氪竽P偷膬?nèi)容包含了用戶內(nèi)容,因而相當(dāng)于一個(gè)帶著參考內(nèi)容的學(xué)生參加考試,從而使得大語(yǔ)言模型在不訓(xùn)練的情況下可以回答領(lǐng)域相關(guān)的問(wèn)題。然而由于知識(shí)點(diǎn)不規(guī)范性、語(yǔ)義檢索模型的不準(zhǔn)確性、知識(shí)內(nèi)容中的噪聲、知識(shí)點(diǎn)的復(fù)雜性、知識(shí)點(diǎn)內(nèi)容過(guò)于長(zhǎng)等種種原因,大語(yǔ)言模型通常會(huì)出現(xiàn)幻覺(jué)問(wèn)題,為了解決這一問(wèn)題,本專利提出了一種大模型優(yōu)化大模型,來(lái)解決大模型幻覺(jué)問(wèn)題的一套完整的解決方案,我們?cè)谏褶r(nóng)一號(hào)農(nóng)業(yè)大模型開(kāi)發(fā)過(guò)程中進(jìn)行了實(shí)踐,提出了一套完整的解決大模型幻覺(jué)的技術(shù)方案。rag的價(jià)值在于領(lǐng)域知識(shí)問(wèn)答,如果領(lǐng)域知識(shí)沒(méi)有開(kāi)放模型的知識(shí)有價(jià)值,rag將失去意義,本專利提出了一種構(gòu)造領(lǐng)域知識(shí),同時(shí)解決大模型幻覺(jué)的解決方案。


技術(shù)實(shí)現(xiàn)思路

1、神農(nóng)一號(hào)大模型開(kāi)發(fā)農(nóng)業(yè)知識(shí)問(wèn)答過(guò)程中,基于開(kāi)源的大語(yǔ)言模型chatglm3-6b、使用基于langchain框架作為rag引擎技術(shù)做領(lǐng)域知識(shí)問(wèn)答過(guò)程中,經(jīng)常出現(xiàn)幻覺(jué),例如對(duì)農(nóng)業(yè)某蟲(chóng)害特征進(jìn)行描述時(shí)會(huì)把體長(zhǎng)等數(shù)值描述為其他蟲(chóng)害。本專利通過(guò)分析,提出用大模型優(yōu)化大模型解決大模型幻覺(jué)的解決方案。更專業(yè)的農(nóng)業(yè)知識(shí)在rag中才更有價(jià)值,本專利提出了一種構(gòu)造適用于rag的農(nóng)業(yè)知識(shí)構(gòu)造方法,只需要簡(jiǎn)單的prompt設(shè)計(jì),即可以構(gòu)造更專業(yè)的農(nóng)業(yè)知識(shí),從而真正實(shí)現(xiàn)rag的價(jià)值。

2、本發(fā)明解決現(xiàn)有技術(shù)不足提供一種大模型優(yōu)化農(nóng)業(yè)知識(shí)領(lǐng)域問(wèn)答應(yīng)用方法,包括如下步驟:

3、s1.收集數(shù)據(jù)源

4、通過(guò)開(kāi)源的數(shù)據(jù)集收集數(shù)據(jù);

5、s2.農(nóng)業(yè)pdf收集處理:

6、首先通過(guò)python中pypdf2工具包從pdf文件中提取文字,其次對(duì)文字進(jìn)行切分;

7、第一步:判斷一行文字的末尾是否為“句號(hào)”或者“感嘆號(hào)”或者末尾不是標(biāo)點(diǎn)符號(hào);第二步:判斷該行文本長(zhǎng)度是否與前幾行文本長(zhǎng)度一致;第三步:如果滿足以上兩步要求,則表示該段文本內(nèi)容是一個(gè)初步完整語(yǔ)義內(nèi)容塊,切分組成語(yǔ)料塊;重復(fù)以上步驟,直到把整個(gè)文檔切分完畢;

8、其次使用基于開(kāi)源的qwen1.5-14b-chat模型針對(duì)語(yǔ)料塊細(xì)切分,每個(gè) 知識(shí)點(diǎn)在30 到50字,通過(guò)開(kāi)源的大模型從而細(xì)切分知識(shí)點(diǎn);

9、s3.農(nóng)業(yè)excel表格數(shù)據(jù):

10、知識(shí)點(diǎn)通過(guò)prompt替換為表格數(shù)據(jù);用字母段拼接組成知識(shí)點(diǎn),aaa代表【農(nóng)作物】、bbb代表【農(nóng)作物品種】、ccc代表【土壤條件】、ddd代表【種植技術(shù)】、eee代表【病蟲(chóng)害】、fff代表【存儲(chǔ)方法】,通過(guò)prompt技術(shù)構(gòu)建農(nóng)業(yè)知識(shí)點(diǎn);通過(guò)對(duì)excel中不同列進(jìn)行組合構(gòu)建prompt,從而形成字母段拼接的不同知識(shí)點(diǎn),進(jìn)而形成農(nóng)業(yè)詞典;

11、s4.開(kāi)源數(shù)據(jù)集處理:

12、農(nóng)業(yè)詞典針對(duì)開(kāi)源的數(shù)據(jù)集進(jìn)行粗過(guò)濾,選取農(nóng)業(yè)詞典相關(guān)的數(shù)據(jù)。

13、所述s1中通過(guò)開(kāi)源的數(shù)據(jù)集收集數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行處理,包括數(shù)據(jù)清洗、特征縮放、特征編碼、特征選擇、?數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)歸一化、異常值處理、數(shù)據(jù)平衡、降維、時(shí)間序列處理步驟。

14、還包括如下步驟:

15、s5.農(nóng)業(yè)問(wèn)答數(shù)據(jù)集處理:

16、通過(guò)農(nóng)業(yè)問(wèn)答機(jī)器人積累農(nóng)業(yè)問(wèn)答數(shù)據(jù)集,補(bǔ)充數(shù)據(jù)源收集,擴(kuò)充數(shù)據(jù)源庫(kù);

17、s6.知識(shí)點(diǎn)總處理:

18、第一步:把農(nóng)業(yè)問(wèn)答數(shù)據(jù)集向量化;第二步:通過(guò)語(yǔ)義向量相似度檢索相關(guān)的知識(shí)點(diǎn);第三步:根據(jù)相似度得分閾值篩選知識(shí)點(diǎn)。

19、本發(fā)明有益效果:本專利提出了一種大模型優(yōu)化大模型的技術(shù)解決大模型在農(nóng)業(yè)知識(shí)問(wèn)答的技術(shù)解決方案,這種方案核心不在于一個(gè)prompt技術(shù)點(diǎn)的應(yīng)用,而是在于一種方法論,通過(guò)本專利提出的農(nóng)業(yè)知識(shí)建設(shè)方法,可以大幅提高大模型外掛知識(shí)庫(kù)做農(nóng)業(yè)知識(shí)問(wèn)答的準(zhǔn)確性,具體地為:pdf書(shū)籍知識(shí)粗切分、prompt農(nóng)業(yè)粗知識(shí)點(diǎn)輸入大模型語(yǔ)義精切分農(nóng)業(yè)知識(shí),完成了農(nóng)業(yè)書(shū)籍的知識(shí)建設(shè),有利于提高農(nóng)業(yè)知識(shí)回答的專業(yè)性;農(nóng)業(yè)excel數(shù)據(jù)和prompt模板形成excel數(shù)據(jù),為excel數(shù)據(jù)賦予意圖,解決用戶問(wèn)題和excel的語(yǔ)義鴻溝,提高回答的精準(zhǔn)性;開(kāi)源數(shù)據(jù)集詞典過(guò)濾處理、大模型行業(yè)分類過(guò)濾收集更廣泛農(nóng)業(yè)數(shù)據(jù)集,提高農(nóng)業(yè)知識(shí)問(wèn)答的覆蓋度;知識(shí)點(diǎn)總處理,將所有知識(shí)點(diǎn)長(zhǎng)的內(nèi)容通過(guò)大模型語(yǔ)義理解進(jìn)行知識(shí)壓縮,短的知識(shí)點(diǎn)通過(guò)大模型語(yǔ)義理解進(jìn)行文字?jǐn)U展。這樣避免語(yǔ)義檢索模型過(guò)多出現(xiàn)短文本搜索長(zhǎng)文本,長(zhǎng)文本搜索短文本出現(xiàn)的準(zhǔn)確率問(wèn)題。通過(guò)上述多種操作的組合,可以大幅提高大模型在農(nóng)業(yè)知識(shí)問(wèn)答的準(zhǔn)確性,且本專利提出的方法論在任何行業(yè),任何領(lǐng)域的知識(shí)問(wèn)答都具有很廣泛的借鑒意義。因?yàn)楸緦@岢龅募夹g(shù)方案大多數(shù)是通過(guò)大模型技術(shù)解決大模型準(zhǔn)確率的問(wèn)題,且在農(nóng)業(yè)大模型開(kāi)發(fā)過(guò)程中進(jìn)行了實(shí)操,因而本專利命名為:一種大模型優(yōu)化大模型解決大模型在農(nóng)業(yè)知識(shí)問(wèn)答領(lǐng)域應(yīng)用方法。



技術(shù)特征:

1.一種大模型優(yōu)化農(nóng)業(yè)知識(shí)領(lǐng)域問(wèn)答應(yīng)用方法,其特征在于包括如下步驟:

2.根據(jù)權(quán)利要求1所述一種大模型優(yōu)化農(nóng)業(yè)知識(shí)領(lǐng)域問(wèn)答應(yīng)用方法,其特征在于所述s1中通過(guò)開(kāi)源的數(shù)據(jù)集收集數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行處理,包括數(shù)據(jù)清洗、特征縮放、特征編碼、特征選擇、?數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)歸一化、異常值處理、數(shù)據(jù)平衡、降維、時(shí)間序列處理步驟。

3.根據(jù)權(quán)利要求1所述一種大模型優(yōu)化農(nóng)業(yè)知識(shí)領(lǐng)域問(wèn)答應(yīng)用方法,其特征在于還包括如下步驟:


技術(shù)總結(jié)
本發(fā)明涉及AI文本處理技術(shù)領(lǐng)域,特別是一種大模型優(yōu)化農(nóng)業(yè)知識(shí)領(lǐng)域問(wèn)答應(yīng)用方法。本專利提出了一種構(gòu)造適用于RAG的農(nóng)業(yè)知識(shí)構(gòu)造方法,只需要簡(jiǎn)單的prompt設(shè)計(jì),即可以構(gòu)造更專業(yè)的農(nóng)業(yè)知識(shí),從而真正實(shí)現(xiàn)RAG的價(jià)值。通過(guò)本專利提出的農(nóng)業(yè)知識(shí)建設(shè)方法,可以大幅提高大模型外掛知識(shí)庫(kù)做農(nóng)業(yè)知識(shí)問(wèn)答的準(zhǔn)確性,具體地為:PDF書(shū)籍知識(shí)粗切分、prompt農(nóng)業(yè)粗知識(shí)點(diǎn)輸入大模型語(yǔ)義精切分農(nóng)業(yè)知識(shí),完成了農(nóng)業(yè)書(shū)籍的知識(shí)建設(shè),有利于提高農(nóng)業(yè)知識(shí)回答的專業(yè)性;農(nóng)業(yè)Excel數(shù)據(jù)和prompt模板形成Excel數(shù)據(jù),為Excel數(shù)據(jù)賦予意圖,解決用戶問(wèn)題和Excel的語(yǔ)義鴻溝,提高回答的精準(zhǔn)性。

技術(shù)研發(fā)人員:楊毅,萇浩,王建立,王榮杰,曹肖攀,張少杰,張懷鍵,高浩,蔣嘉鵬
受保護(hù)的技術(shù)使用者:中電萬(wàn)維信息技術(shù)有限責(zé)任公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/2
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
犍为县| 克拉玛依市| 上杭县| 宜兰市| 天津市| 八宿县| 巢湖市| 海伦市| 徐州市| 东兴市| 泽普县| 方城县| 得荣县| 弋阳县| 通道| 永靖县| 开封县| 易门县| 繁昌县| 福鼎市| 宣城市| 全州县| 西林县| 南岸区| 乌苏市| 大埔区| 雷山县| 会同县| 神木县| 新兴县| 林甸县| 镇赉县| 册亨县| 武邑县| 手游| 富锦市| 申扎县| 绵竹市| 胶南市| 大竹县| 宁武县|