欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于段落拆分的問(wèn)答方法、系統(tǒng)及知識(shí)引擎平臺(tái)與流程

文檔序號(hào):40625379發(fā)布日期:2025-01-10 18:31閱讀:2來(lái)源:國(guó)知局
一種基于段落拆分的問(wèn)答方法、系統(tǒng)及知識(shí)引擎平臺(tái)與流程

本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種基于段落拆分的問(wèn)答方法、系統(tǒng)及知識(shí)引擎平臺(tái)。


背景技術(shù):

1、本部分的陳述僅僅是提供了與本發(fā)明相關(guān)的背景技術(shù)信息,不必然構(gòu)成在先技術(shù)。

2、在單位內(nèi)部,通常會(huì)存儲(chǔ)大量的非結(jié)構(gòu)化文檔數(shù)據(jù),例如word和pdf格式的文件。然而,這些數(shù)據(jù)往往無(wú)法得到充分利用,數(shù)據(jù)的潛在價(jià)值沒(méi)有被充分發(fā)揮。原因主要為:

3、1、知識(shí)的檢索效率低。對(duì)現(xiàn)有文檔中的知識(shí)進(jìn)行檢索時(shí),系統(tǒng)通常只返回一篇完整的文檔,員工需要在其中手動(dòng)查找相應(yīng)的知識(shí)點(diǎn)。這種方式不僅復(fù)雜,而且耗時(shí),嚴(yán)重影響了工作效率。

4、2、知識(shí)比較分散。企業(yè)內(nèi)部存在信息孤島的情況,不同部門(mén)之間都有不同的管理方式,就有不同的存儲(chǔ)文檔的方式,相互之間無(wú)法打通,知識(shí)管理相對(duì)來(lái)說(shuō)會(huì)比較分散,這阻礙了數(shù)據(jù)的有效利用。

5、3、知識(shí)的可用性較差?,F(xiàn)階段,企業(yè)單位針對(duì)文檔的存儲(chǔ)形式可能只是一個(gè)簡(jiǎn)單的文檔管理平臺(tái)或者是一個(gè)文庫(kù),在搜索、使用階段,數(shù)據(jù)直接以文檔的形式存在,對(duì)文檔中的內(nèi)容查找或者是對(duì)其中的數(shù)據(jù)進(jìn)行分析,都會(huì)有較大的問(wèn)題,使得數(shù)據(jù)的利用率大大降低,無(wú)法充分發(fā)揮數(shù)據(jù)的價(jià)值。


技術(shù)實(shí)現(xiàn)思路

1、為了解決上述背景技術(shù)中存在的技術(shù)問(wèn)題,本發(fā)明提供一種基于段落拆分的問(wèn)答方法、系統(tǒng)及知識(shí)引擎平臺(tái),提升了知識(shí)庫(kù)問(wèn)答的準(zhǔn)確率。

2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:

3、本發(fā)明的第一個(gè)方面提供一種基于段落拆分的問(wèn)答方法。

4、一種基于段落拆分的問(wèn)答方法,包括:

5、對(duì)上傳的文檔進(jìn)行目錄及標(biāo)題識(shí)別,生成文檔的帶有層級(jí)關(guān)系的段落框架結(jié)構(gòu);

6、根據(jù)段落框架結(jié)構(gòu)對(duì)文檔正文內(nèi)容進(jìn)行拆分,得到包含對(duì)應(yīng)文本內(nèi)容的文檔段落結(jié)構(gòu)字典;

7、根據(jù)文檔段落結(jié)構(gòu)字典,生成文本塊,構(gòu)建知識(shí)庫(kù);

8、采用文本向量化模型對(duì)文本塊進(jìn)行文本塊向量化,生成稀疏向量和稠密向量,并存儲(chǔ)在知識(shí)庫(kù)中;

9、對(duì)獲取的問(wèn)題進(jìn)行關(guān)鍵詞提取和文本向量化處理,得到問(wèn)題的關(guān)鍵詞列表、稀疏向量和稠密向量;分別基于問(wèn)題的關(guān)鍵詞列表、稀疏向量和稠密向量對(duì)知識(shí)庫(kù)進(jìn)行檢索,選取與問(wèn)題最相似的若干文本塊;

10、基于待查詢(xún)問(wèn)題、預(yù)設(shè)的提示詞和與問(wèn)題最相似的若干文本塊,采用大模型,得到問(wèn)題答案。

11、進(jìn)一步地,對(duì)上傳的文檔進(jìn)行目錄及標(biāo)題識(shí)別,生成文檔的帶有層級(jí)關(guān)系的段落框架結(jié)構(gòu);方法包括:

12、對(duì)上傳的文檔進(jìn)行信息提取,得到第一文本信息;

13、基于第一文本信息,采用目錄識(shí)別模型,得到目錄結(jié)構(gòu)信息或輸出無(wú)目錄結(jié)構(gòu)信息;

14、基于目錄結(jié)構(gòu)信息,對(duì)文檔正文信息進(jìn)行拆分,獲取目錄中每章節(jié)末級(jí)標(biāo)題對(duì)應(yīng)的第二文本信息;

15、對(duì)第一文本信息或第二文本信息按照換行字符進(jìn)行拆分,得到若干段落文本,從上至下將段落文本進(jìn)行合并,合并后文本的長(zhǎng)度不超過(guò)設(shè)定的閾值,得到若干第三文本信息;

16、基于第三文本信息,采用標(biāo)題識(shí)別模型,得到標(biāo)題;并將標(biāo)題按照第三文本信息的順序進(jìn)行拼接,得到第三文本信息的標(biāo)題結(jié)構(gòu)信息;

17、對(duì)于無(wú)目錄結(jié)構(gòu)信息的文檔,基于標(biāo)題結(jié)構(gòu)信息和預(yù)設(shè)的提示詞,采用大模型,得到有標(biāo)題層級(jí)結(jié)構(gòu)的段落框架結(jié)構(gòu);

18、對(duì)于有目錄結(jié)構(gòu)信息的文檔,基于目錄結(jié)構(gòu)信息、及其下的標(biāo)題結(jié)構(gòu)信息和預(yù)設(shè)的提示詞,采用大模型,得到有標(biāo)題層級(jí)結(jié)構(gòu)的段落框架結(jié)構(gòu)。

19、進(jìn)一步地,基于目錄結(jié)構(gòu)信息,對(duì)文檔正文信息進(jìn)行拆分,獲取目錄中每章節(jié)末級(jí)標(biāo)題對(duì)應(yīng)的第二文本信息;方法包括:

20、從第一文本信息中去除目錄結(jié)構(gòu)信息,得到文檔的正文部分信息;

21、對(duì)正文部分信息按照換行字符進(jìn)行拆分,并對(duì)拆分后的每行文本信息進(jìn)行文本向量化處理,文本信息嵌入;

22、對(duì)目錄結(jié)構(gòu)信息中的每個(gè)標(biāo)題信息進(jìn)行文本向量化處理,得到標(biāo)題信息嵌入;

23、基于標(biāo)題信息嵌入,在知識(shí)庫(kù)中查詢(xún)最相似的文本信息嵌入,作為該標(biāo)題在文檔中對(duì)應(yīng)的標(biāo)題信息,并更新目錄信息,得到新目錄信息;

24、根據(jù)新目錄信息對(duì)正文部分信息進(jìn)行匹配與拆分,得到目錄中每章節(jié)末級(jí)標(biāo)題對(duì)應(yīng)的第二文本信息。

25、進(jìn)一步地,根據(jù)段落框架結(jié)構(gòu)對(duì)文檔正文內(nèi)容進(jìn)行拆分,得到包含對(duì)應(yīng)文本內(nèi)容的文檔段落結(jié)構(gòu)字典;方法包括:將段落框架結(jié)構(gòu)轉(zhuǎn)為無(wú)層級(jí)結(jié)構(gòu)的有序列表;根據(jù)有序列表將文檔的正文部分信息進(jìn)行拆分,得到標(biāo)題對(duì)應(yīng)的文本內(nèi)容;構(gòu)建文檔段落結(jié)構(gòu)字典。

26、進(jìn)一步地,根據(jù)文檔段落結(jié)構(gòu)字典,生成文本塊;方法包括:遍歷文檔段落結(jié)構(gòu)字典,將段落結(jié)構(gòu)中的標(biāo)題逐級(jí)進(jìn)行拼接直至末級(jí)節(jié)點(diǎn)及末級(jí)節(jié)點(diǎn)對(duì)應(yīng)的文本內(nèi)容,同時(shí),判斷末級(jí)節(jié)點(diǎn)與其兄弟節(jié)點(diǎn)的主題相似性,如果其主題與兄弟節(jié)點(diǎn)的主題相似,則將兄弟節(jié)點(diǎn)及其對(duì)應(yīng)的文本內(nèi)容與其進(jìn)行進(jìn)一步拼接。

27、進(jìn)一步地,對(duì)獲取的問(wèn)題進(jìn)行關(guān)鍵詞提取和文本向量化處理,得到問(wèn)題的關(guān)鍵詞列表、稀疏向量和稠密向量;分別基于問(wèn)題的關(guān)鍵詞列表、稀疏向量和稠密向量對(duì)知識(shí)庫(kù)進(jìn)行檢索,選取與問(wèn)題最相似的若干文本塊;方法包括:

28、對(duì)獲取的問(wèn)題進(jìn)行關(guān)鍵詞提取,得到問(wèn)題的關(guān)鍵詞列表;

29、對(duì)獲取的問(wèn)題進(jìn)行文本向量化處理,得到問(wèn)題的稀疏向量和稠密向量;

30、基于問(wèn)題的關(guān)鍵詞列表對(duì)知識(shí)庫(kù)進(jìn)行檢索,得到包含關(guān)鍵詞的第一文本塊列表;

31、基于問(wèn)題的稀疏向量對(duì)知識(shí)庫(kù)進(jìn)行檢索,得到與問(wèn)題最相似的第二文本塊列表;

32、基于問(wèn)題的稠密向量對(duì)知識(shí)庫(kù)進(jìn)行檢索,得到與問(wèn)題最相似的第三文本塊列表;

33、將第一文本塊列表、第二文本塊列表和第三文本塊列表中的文本塊進(jìn)行排序,選取與問(wèn)題最相似的若干文本塊。

34、本發(fā)明的第二個(gè)方面提供一種基于段落拆分的問(wèn)答系統(tǒng)。

35、一種基于段落拆分的問(wèn)答系統(tǒng),包括:

36、段落框架結(jié)構(gòu)生成模塊,其被配置為:對(duì)上傳的文檔進(jìn)行目錄及標(biāo)題識(shí)別,生成文檔的帶有層級(jí)關(guān)系的段落框架結(jié)構(gòu);

37、拆分模塊,其被配置為:根據(jù)段落框架結(jié)構(gòu)對(duì)文檔正文內(nèi)容進(jìn)行拆分,得到包含對(duì)應(yīng)文本內(nèi)容的文檔段落結(jié)構(gòu)字典;

38、文本塊生成模塊,其被配置為:根據(jù)文檔段落結(jié)構(gòu)字典,生成文本塊,構(gòu)建知識(shí)庫(kù);

39、文本向量化處理模塊,其被配置為:采用文本向量化模型對(duì)文本塊進(jìn)行文本塊向量化,生成稀疏向量和稠密向量,并存儲(chǔ)在知識(shí)庫(kù)中;

40、問(wèn)題處理模塊,其被配置為:對(duì)獲取的問(wèn)題進(jìn)行關(guān)鍵詞提取和文本向量化處理,得到問(wèn)題的關(guān)鍵詞列表、稀疏向量和稠密向量;分別基于問(wèn)題的關(guān)鍵詞列表、稀疏向量和稠密向量對(duì)知識(shí)庫(kù)進(jìn)行檢索,選取與問(wèn)題最相似的若干文本塊;

41、答案生成模塊,其被配置為:基于待查詢(xún)問(wèn)題、預(yù)設(shè)的提示詞和與問(wèn)題最相似的若干文本塊,采用大模型,得到問(wèn)題答案。

42、本發(fā)明的第三個(gè)方面提供一種知識(shí)引擎平臺(tái)。

43、一種知識(shí)引擎平臺(tái),包括:

44、數(shù)據(jù)層,位于知識(shí)引擎平臺(tái)的最底層,用于為數(shù)智算子能力層提供數(shù)據(jù)支撐;

45、數(shù)智算子能力層,用于根據(jù)業(yè)務(wù)需求選擇數(shù)據(jù)處理方式,并將處理結(jié)果上傳至平臺(tái)層;

46、平臺(tái)功能層,包括知識(shí)生產(chǎn)模塊、知識(shí)庫(kù)構(gòu)建模塊和知識(shí)服務(wù)模塊,知識(shí)生產(chǎn)模塊用于對(duì)文檔進(jìn)行拆分和分析,提取文檔的相關(guān)知識(shí);知識(shí)庫(kù)構(gòu)建模塊用于存儲(chǔ)數(shù)據(jù);知識(shí)服務(wù)模塊用于支持智能檢索、知識(shí)庫(kù)問(wèn)答、智能問(wèn)數(shù)及圖譜問(wèn)答服務(wù);

47、應(yīng)用層,根據(jù)用戶(hù)輸入,調(diào)用平臺(tái)層的知識(shí)生產(chǎn)模塊、知識(shí)庫(kù)構(gòu)建模塊和/或知識(shí)服務(wù)模塊,進(jìn)行包括智能檢索、智能填報(bào)、文本解析、智能問(wèn)數(shù)、知識(shí)庫(kù)問(wèn)答和圖譜問(wèn)答;其中,知識(shí)庫(kù)問(wèn)答的過(guò)程采用第一個(gè)方面所述的基于段落拆分的問(wèn)答方法。

48、本發(fā)明的第四個(gè)方面提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。

49、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一個(gè)方面所述的基于段落拆分的問(wèn)答方法中的步驟。

50、本發(fā)明的第五個(gè)方面提供一種計(jì)算機(jī)設(shè)備。

51、一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述第一個(gè)方面所述的基于段落拆分的問(wèn)答方法中的步驟。

52、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:

53、在實(shí)際應(yīng)用中,檢索所需的知識(shí)時(shí),通常先定位到文檔,然后再?gòu)奈臋n中檢索所需的知識(shí),這將導(dǎo)致知識(shí)獲取效率低下。為了解決該問(wèn)題,本發(fā)明提出一種基于段落拆分的問(wèn)答方法及系統(tǒng),平臺(tái)中基于知識(shí)庫(kù)問(wèn)答服務(wù)可使用戶(hù)以自然語(yǔ)言交互式的形式快速獲取所需的知識(shí),解決了用戶(hù)獲取所需知識(shí)效率低的問(wèn)題;另一方面,平臺(tái)中實(shí)現(xiàn)知識(shí)庫(kù)問(wèn)答功能時(shí),采用了段落拆分的分塊方式,解決了現(xiàn)有知識(shí)庫(kù)問(wèn)答文本分塊方法中基于字符長(zhǎng)度對(duì)文本進(jìn)行分塊導(dǎo)致的將同一段落文本信息拆散、知識(shí)獲取準(zhǔn)確率不高的問(wèn)題;此外,知識(shí)庫(kù)問(wèn)答實(shí)現(xiàn)過(guò)程中,采用混合檢索的知識(shí)召回方法,解決了采用單一檢索方法時(shí)問(wèn)題相關(guān)背景知識(shí)獲取不全的問(wèn)題,進(jìn)一步提升了知識(shí)庫(kù)問(wèn)答的準(zhǔn)確率。

54、平臺(tái)提供知識(shí)生產(chǎn)、知識(shí)庫(kù)構(gòu)建、知識(shí)服務(wù)三個(gè)階段的組件化的能力,為業(yè)務(wù)人員提供高效的非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)抽取與處理,大幅度提升數(shù)據(jù)處理的效率;同時(shí)業(yè)務(wù)人員可快速構(gòu)建面向業(yè)務(wù)場(chǎng)景的知識(shí)庫(kù),幫助客戶(hù)快速打造內(nèi)部知識(shí)管理系統(tǒng),確保知識(shí)的集中管理與規(guī)范化更新,有效解決知識(shí)分散與可用性差的問(wèn)題;此外,平臺(tái)提供通用的搜索、問(wèn)答、推理和生成能力,使用戶(hù)通過(guò)配置快速生成結(jié)合具體業(yè)務(wù)場(chǎng)景的知識(shí)服務(wù)api,便于開(kāi)發(fā)人員迅速構(gòu)建面向特定業(yè)務(wù)的知識(shí)應(yīng)用。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
香格里拉县| 孝感市| 长顺县| 准格尔旗| 海南省| 祁东县| 平潭县| 辽源市| 雷州市| 孝义市| 乐平市| 常州市| 永嘉县| 武安市| 五常市| 容城县| 手机| 玉龙| 上饶县| 昌都县| 永春县| 汉川市| 寿阳县| 恭城| 本溪| 资阳市| 攀枝花市| 清镇市| 珲春市| 辰溪县| 仁化县| 莆田市| 青岛市| 巴东县| 客服| 集贤县| 霸州市| 宝坻区| 通山县| 房产| 池州市|