欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于知識(shí)圖譜和大模型的腸道微生物智能問答系統(tǒng)的制作方法

文檔序號(hào):40561568發(fā)布日期:2025-01-03 11:21閱讀:12來源:國(guó)知局
一種基于知識(shí)圖譜和大模型的腸道微生物智能問答系統(tǒng)的制作方法

本發(fā)明涉及自然語言處理,尤其涉及一種基于腸道微生物知識(shí)圖譜的rag問答系統(tǒng)。


背景技術(shù):

1、腸道菌群是居住在我們腸道內(nèi)的數(shù)萬億微生物的集合,包括細(xì)菌、病毒、真菌和原生動(dòng)物等,它們與我們的身體形成了一種復(fù)雜的共生關(guān)系,保持腸道菌群的平衡和多樣性對(duì)于我們的健康至關(guān)重要。首先,腸道菌群在食物的消化和營(yíng)養(yǎng)吸收過程中起著至關(guān)重要的作用,它們幫助分解我們無法消化的復(fù)雜碳水化合物,產(chǎn)生短鏈脂肪酸等有益物質(zhì),這些物質(zhì)可以被我們的身體吸收利用。其次,腸道菌群與我們的免疫系統(tǒng)密切相關(guān),它們幫助訓(xùn)練和調(diào)節(jié)免疫細(xì)胞,增強(qiáng)我們的免疫力,預(yù)防感染和炎癥性疾病。此外,腸道菌群還與我們的大腦和神經(jīng)系統(tǒng)有著密切的聯(lián)系,它們通過產(chǎn)生神經(jīng)遞質(zhì)和代謝產(chǎn)物來影響我們的情緒、認(rèn)知和行為。最后,腸道菌群還與我們的體重管理、心血管健康和癌癥預(yù)防等方面有關(guān)。

2、隨著高通量測(cè)序技術(shù)的興起和廣泛應(yīng)用,人類微生物組研究的壁壘被大大打破,腸道微生物的多組學(xué)和臨床研究如今炙手可熱。眾多研究已對(duì)各種關(guān)聯(lián)展開了詳盡的實(shí)驗(yàn)驗(yàn)證和深入分析。然而,當(dāng)前的發(fā)現(xiàn)還非常有限,更多關(guān)于腸道微生物對(duì)人類宿主的具體功能特征及其作用機(jī)制的奧秘,仍有待我們進(jìn)一步探索和揭示。為了深入洞察腸道微生物對(duì)人類健康與疾病的影響,研究者們不僅應(yīng)倚重于傳統(tǒng)但耗時(shí)耗力的實(shí)驗(yàn)手段,以及高效卻存在諸多限制的微生物組學(xué)方法,還需更多地聚焦于生物醫(yī)學(xué)大數(shù)據(jù)的挖掘與應(yīng)用。通過整合和分析海量的生物醫(yī)學(xué)數(shù)據(jù),我們有望揭示腸道微生物與人體健康之間更為復(fù)雜和精細(xì)的關(guān)聯(lián),從而為疾病的預(yù)防、診斷和治療提供新的思路和策略。

3、通過構(gòu)建腸道微生物知識(shí)庫(kù),我們能夠更高效、更精準(zhǔn)地獲取與腸道微生物相關(guān)的知識(shí),從而推動(dòng)腸道微生物資源的深度開發(fā)與利用,提升研究效率,促進(jìn)跨機(jī)構(gòu)的合作與資源共享,并加強(qiáng)研究的標(biāo)準(zhǔn)化與規(guī)范化。然而,傳統(tǒng)基于數(shù)據(jù)庫(kù)的知識(shí)查詢方式存在一定的局限性,其形式較為固定,通常只能按照特定的格式進(jìn)行檢索。為了克服這一限制,我們需要將知識(shí)庫(kù)與大語言模型(large?language?model,llm)相結(jié)合,以實(shí)現(xiàn)更靈活、更自然的語言交互,從而在腸道微生物領(lǐng)域提供智能化的問答服務(wù)。這種結(jié)合將使研究人員能夠以更直觀、更便捷的方式獲取所需信息,進(jìn)一步加速腸道微生物研究的進(jìn)展。

4、生成式llm近年來取得了顯著的進(jìn)展。openai和anthropic等公司最新推出的gpt-4o、openai?o1和claude?3.5等模型已展現(xiàn)出卓越的性能。國(guó)內(nèi)公司如百度、華為和科大訊飛也紛紛推出了各自的llm。meta公司通過推出llama系列,引領(lǐng)了開源llm的發(fā)展,目前已更新到3.2版。阿里也積極投身于開源llm,最新推出了qwen2.5模型,為中文自然語言處理領(lǐng)域帶來了新的突破。

5、大語言模型的檢索增強(qiáng)生成(retrieval?augmented?generation,rag)是一種結(jié)合了檢索和生成技術(shù)的方法,旨在提升llm在處理特定任務(wù)時(shí)的性能。rag在生成回答之前,先從一個(gè)大規(guī)模的知識(shí)庫(kù)中檢索與問題相關(guān)的信息,然后將這些信息與問題一起輸入到llm中,以生成更準(zhǔn)確和可解釋的回答。

6、一般的rag是基于自然語言文本段落的,而graph?rag(graph?retrievalaugmented?generation)則基于知識(shí)圖譜已整理的結(jié)構(gòu)化知識(shí),實(shí)現(xiàn)rag技術(shù)的升級(jí)。首先,graph?rag可以更準(zhǔn)確地表示實(shí)體之間的聯(lián)系和上下文信息,從而增強(qiáng)檢索信息的深度和上下文關(guān)聯(lián)性,能夠處理更復(fù)雜的多跳查詢;其次,graph?rag基于知識(shí)圖譜的明確結(jié)構(gòu)和關(guān)系,可以提供更具有可解釋性的回答,其推理過程是可溯源的。


技術(shù)實(shí)現(xiàn)思路

1、一種基于知識(shí)圖譜和大模型的腸道微生物智能問答系統(tǒng),基于申請(qǐng)人前期已構(gòu)建的腸道微生物知識(shí)庫(kù)(參見cn118506887a),調(diào)用可用的llm,基于graph?rag技術(shù),實(shí)現(xiàn)腸道微生物領(lǐng)域的智能問答。

2、根據(jù)cn118506887a的記載,發(fā)明人提供了一種腸道微生物知識(shí)圖譜系統(tǒng),包括腸道微生物知識(shí)庫(kù)、腸道微生物小分子藥物治療關(guān)聯(lián)知識(shí)庫(kù)、臨床醫(yī)學(xué)數(shù)據(jù)庫(kù)構(gòu)建組成的腸道微生物知識(shí)圖譜,以及利用腸道微生物知識(shí)圖譜的知識(shí)圖譜多模態(tài)不確定推理系統(tǒng);將“腸道微生物知識(shí)庫(kù)”、“腸道微生物小分子藥物治療關(guān)聯(lián)知識(shí)庫(kù)”、“臨床醫(yī)學(xué)數(shù)據(jù)庫(kù)”三個(gè)知識(shí)庫(kù),進(jìn)行組合構(gòu)建對(duì)接,對(duì)齊小分子、藥物和疾病實(shí)體,獲得最終的腸道微生物知識(shí)圖譜,利用“腸道微生物知識(shí)圖譜”的知識(shí)圖譜多模態(tài)不確定推理系統(tǒng),為腸道微生物預(yù)測(cè)潛在的關(guān)聯(lián)疾病、藥物、基因等。本發(fā)明即在上述腸道微生物知識(shí)圖譜系統(tǒng)基礎(chǔ)上,建立基于知識(shí)圖譜和大模型的腸道微生物智能問答系統(tǒng)。

3、rag在生成回答之前,先從一個(gè)大規(guī)模的知識(shí)庫(kù)中檢索與問題相關(guān)的信息,然后將這些信息與問題一起輸入到llm中,以生成更準(zhǔn)確和可解釋的回答,大規(guī)模的知識(shí)庫(kù)即可以為發(fā)明人在cn118506887a提供的微生物知識(shí)圖譜。本發(fā)明通過結(jié)合知識(shí)圖譜和大語言模型(llm),基于graph?rag技術(shù)實(shí)現(xiàn)了腸道微生物領(lǐng)域的智能問答系統(tǒng)。

4、具體包括如下步驟:

5、(1)接受用戶的查詢后通過對(duì)話上下文調(diào)取用戶近期對(duì)話記錄進(jìn)行重寫查詢并分析,返回一個(gè)重寫后的查詢字符串;

6、(2)接收重寫后的查詢字符串,調(diào)用大型語言模型(llm)分析重寫后的查詢的復(fù)雜性,按需拆解查詢,返回包含查詢問題的列表,每個(gè)問題作為列表的一個(gè)項(xiàng);

7、(3)提取頭實(shí)體和尾實(shí)體,?接收生成的問題列表,對(duì)每個(gè)問題識(shí)別并提取其中的頭實(shí)體和尾實(shí)體,進(jìn)行實(shí)體識(shí)別、檢查實(shí)體完整性、匯總實(shí)體對(duì),返回一個(gè)嵌套列表;

8、(4)判斷實(shí)體分類,對(duì)提取到的頭實(shí)體和尾實(shí)體列表,基于預(yù)定義的知識(shí)圖譜分類值進(jìn)行分類映射、標(biāo)記特殊實(shí)體后,返回嵌套列表;

9、(5)搜索:針對(duì)上一步生成的頭尾實(shí)體對(duì),對(duì)起進(jìn)行關(guān)鍵詞和/或嵌入搜索,以找到與該實(shí)體匹配或相似匹配的實(shí)體;

10、(6)分類與生成cypher查詢:根據(jù)找到的匹配頭尾實(shí)體對(duì)和分類信息,使用llm生成相應(yīng)的查詢語句;根據(jù)不同的實(shí)體分類定義查詢參數(shù),并將這些參數(shù)傳遞給llm,以生成適合的查詢,最終返回包含各個(gè)實(shí)體對(duì)生成的cypher查詢語句的列表;

11、(7)執(zhí)行查詢并整合結(jié)果:通過neo4j庫(kù)的graphdatabase類連接到知識(shí)圖譜,逐一執(zhí)行上一步生成的cypher查詢語句,將每個(gè)查詢?cè)趎eo4j中的查詢結(jié)果整合為統(tǒng)一的結(jié)構(gòu),以便后續(xù)生成最終的回答;

12、(8)將整合的查詢結(jié)果和用戶的原始查詢作為上下文,傳遞給llm通過langchain的stroutputparser模塊,生成最終的查詢回答。

13、在一個(gè)具體的實(shí)施方式中

14、所述重寫查詢是使用langchain框架中的chatollama接口實(shí)現(xiàn)的。

15、所述按需拆解進(jìn)一步是指如果查詢是一個(gè)復(fù)雜問題,將其拆解為多個(gè)簡(jiǎn)單問題;如果是一個(gè)簡(jiǎn)單問題,則直接返回該問題。

16、所述檢查實(shí)體完整性,是指如果某個(gè)簡(jiǎn)單問題的頭實(shí)體或尾實(shí)體無法識(shí)別,調(diào)用網(wǎng)絡(luò)搜索工具對(duì)該問題進(jìn)行搜索,并將搜索結(jié)果作為補(bǔ)充上下文傳遞給llm重新生成頭尾實(shí)體。

17、優(yōu)選的,可以通過調(diào)用langchain?community庫(kù)的網(wǎng)絡(luò)搜索工具tavilysearchresults對(duì)原始查詢進(jìn)行搜索,并將搜索結(jié)果作為補(bǔ)充上下文傳遞給llm;

18、所述分類映射,是指使用預(yù)定義的知識(shí)圖譜分類,用由chatollama調(diào)用的llm對(duì)每對(duì)頭尾實(shí)體進(jìn)行分類。例如可以依據(jù)微生物種類、疾病種類、對(duì)應(yīng)藥物種類、中間體、藥物結(jié)構(gòu)、適應(yīng)癥、靶基因、靶蛋白、生物標(biāo)志物、代謝物等維度進(jìn)行分類,但并不限于上述分類。

19、所述標(biāo)記特殊實(shí)體,是指對(duì)于每個(gè)頭尾實(shí)體對(duì),如果其中一個(gè)實(shí)體是一個(gè)類別或者語義上表達(dá)的某個(gè)類別,采用對(duì)應(yīng)不同的方法進(jìn)行標(biāo)記,從而能夠區(qū)分出類別實(shí)體和具體實(shí)體。

20、所述返回的嵌套列表,包括頭尾實(shí)體對(duì)的列表,和每對(duì)實(shí)體的分類列表至少兩個(gè)嵌套列表。

21、所述搜索,優(yōu)選針對(duì)具體實(shí)體進(jìn)行關(guān)鍵詞搜索和/或嵌入搜索,在一個(gè)具體的實(shí)施方式中,搜索步驟使用關(guān)鍵詞匹配在知識(shí)圖譜中查找,若關(guān)鍵詞匹配成功則保留該實(shí)體跳過嵌入搜索,若匹配失敗則執(zhí)行嵌入搜索,嵌入搜索采用模型進(jìn)行相似實(shí)體匹配;在一個(gè)具體的實(shí)施方式中,針對(duì)類別實(shí)體優(yōu)選跳過關(guān)鍵詞搜索和嵌入搜索,僅保留原實(shí)體;在一個(gè)具體的實(shí)施方式中,若嵌入搜索未找到匹配項(xiàng),可按需啟動(dòng)網(wǎng)絡(luò)搜索工具對(duì)原始查詢進(jìn)行搜索并將結(jié)果傳遞給llm。

22、所述查詢參數(shù),是指根據(jù)每對(duì)實(shí)體的分類,設(shè)置特定的最大跳數(shù)?和/或?路徑數(shù)。

23、所述查詢語句,優(yōu)選為使用llm生成相應(yīng)的neo4j?cypher查詢語句,進(jìn)一步的,通過預(yù)編寫的提示詞(prompt)調(diào)用llm生成cypher查詢。

24、所述整合,是指將所有查詢的結(jié)果整合為一個(gè)統(tǒng)一的字符串或結(jié)構(gòu)化數(shù)據(jù),在一個(gè)具體的實(shí)施方式中,如果查詢結(jié)果較為復(fù)雜,可按需選擇按實(shí)體對(duì)或分類分塊整合。整合的結(jié)果可以為json格式、xml格式、tsv格式等

25、最終的查詢回答可以為文本、列表、段落、鏈接等;進(jìn)一步的,對(duì)所述的回答進(jìn)行格式化輸出,最終以自然語言呈現(xiàn)。

26、有益效果

27、在腸道微生物智能問答系統(tǒng)中,問答的知識(shí)豐富程度得到了顯著提升。通過結(jié)合知識(shí)圖譜和大語言模型(llm),系統(tǒng)不僅能提供直接的知識(shí)點(diǎn),還能補(bǔ)充上下文、背景信息和多層次的科學(xué)解釋,使得答案內(nèi)容更為豐富和全面。得益于graph?rag技術(shù)的使用,系統(tǒng)在回答時(shí)可以引用與用戶問題相關(guān)的結(jié)構(gòu)化知識(shí),并結(jié)合模型生成的文本回答,為用戶提供更詳盡的信息支持。

28、內(nèi)部測(cè)試表明,在100個(gè)典型問題中,系統(tǒng)生成的回答在知識(shí)覆蓋率和信息密度上較傳統(tǒng)方法提升了40%以上。這種知識(shí)豐富度的增加極大地增強(qiáng)了用戶的知識(shí)獲取體驗(yàn),使得系統(tǒng)不僅能解答簡(jiǎn)單的問題,還能對(duì)復(fù)雜的多學(xué)科問題提供深入、細(xì)致的解答。系統(tǒng)使用llm分解復(fù)雜問題,并迭代檢索各子問題的答案,直至達(dá)到終止條件。這種分解推理過程能夠減少?gòu)?fù)雜性,支持多跳查詢,使系統(tǒng)能夠更好地處理疾病-菌群、菌群-代謝物、代謝物-癥狀等關(guān)聯(lián)性強(qiáng)、層次較多的復(fù)雜問題。為了提升查詢時(shí)效性,系統(tǒng)通過關(guān)鍵詞檢索和嵌入搜索的組合,快速匹配知識(shí)圖譜中的相關(guān)實(shí)體,避免因文檔結(jié)構(gòu)復(fù)雜帶來的檢索延遲。graphrag技術(shù)結(jié)合知識(shí)圖譜的結(jié)構(gòu)化信息,使得推理路徑和答案來源清晰可見。

29、例如,系統(tǒng)能夠在輸出中標(biāo)注每一步查詢涉及的頭尾實(shí)體和對(duì)應(yīng)關(guān)系,保證每個(gè)步驟都有據(jù)可查,用戶可以直觀地追溯推理路徑,進(jìn)一步增強(qiáng)了系統(tǒng)在科研環(huán)境中的適用性。系統(tǒng)通過引入多種實(shí)體分類方法,支持腸道微生物領(lǐng)域多維信息的結(jié)構(gòu)化管理。

30、例如,系統(tǒng)能將“藥物”類別標(biāo)記為drug*,并通過cypher查詢針對(duì)該類別標(biāo)簽靈活匹配多種藥物子集,在復(fù)雜查詢中更具適應(yīng)性,避免了對(duì)每個(gè)具體實(shí)體進(jìn)行手動(dòng)配置的需求,從而提升了查詢效率。如果知識(shí)庫(kù)無法完全回答用戶的問題,系統(tǒng)可通過網(wǎng)絡(luò)搜索(如tavilysearchresults)補(bǔ)充信息,將網(wǎng)絡(luò)數(shù)據(jù)作為上下文傳遞給llm,為用戶提供全面的答案。這一策略保證了系統(tǒng)的覆蓋面,并有效減少因知識(shí)庫(kù)數(shù)據(jù)有限導(dǎo)致的問答盲區(qū)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
凤山市| 东港市| 阿荣旗| 临高县| 大厂| 沈丘县| 沾化县| 城市| 商河县| 邹城市| 清镇市| 正蓝旗| 辽阳市| 石屏县| 甘德县| 仙游县| 宁城县| 金川县| 顺昌县| 尼玛县| 天镇县| 阳江市| 苗栗市| 奉贤区| 曲周县| 台南县| 邯郸市| 灵武市| 洛浦县| 延安市| 寿光市| 社旗县| 高阳县| 大渡口区| 广东省| 宜都市| 宜宾市| 贞丰县| 洮南市| 呈贡县| 双城市|