本申請涉及數(shù)據(jù)處理,特別是涉及一種農(nóng)藥數(shù)據(jù)補償費識別方法、系統(tǒng)、設備和介質(zhì)。
背景技術:
1、農(nóng)藥作為一種受嚴格監(jiān)管的產(chǎn)品,在農(nóng)藥登記流程中,為保護登記申請人的權益,對于新登記、變更登記、再評審登記、試驗使用許可或維持現(xiàn)有登記所提交的首次數(shù)據(jù),給予補償保護。數(shù)據(jù)持有人享有數(shù)據(jù)保護期,在此期間,其他登記申請人若要引用該數(shù)據(jù),則必須向數(shù)據(jù)持有人支付數(shù)據(jù)補償費用,以便能夠使用這些可補償數(shù)據(jù)完成登記。
2、目前,在農(nóng)藥登記過程中,數(shù)據(jù)補償費用通常是最大的支出項,識別工作不僅工作量巨大,而且具有較高的技術難度,導致數(shù)據(jù)補償費用識別效率低。因此,相關技術中數(shù)據(jù)補償費用識別存在效率低的問題。
技術實現(xiàn)思路
1、本申請實施例提供了一種農(nóng)藥數(shù)據(jù)補償費識別方法、系統(tǒng)、設備和介質(zhì),以至少解決相關技術中數(shù)據(jù)補償費用識別存在效率低的問題。
2、第一方面,本申請實施例提供了一種農(nóng)藥數(shù)據(jù)補償費識別方法,根據(jù)農(nóng)藥登記過程中的所述補償數(shù)據(jù)項構建訓練集,其中,所述訓練集中的每個補償數(shù)據(jù)項通過預處理確定對應的唯一標識;
3、通過提取所述訓練集中的關鍵特征構建特征集,其中,所述關鍵特征與所述唯一標識對應的補償數(shù)據(jù)項具有高度相似性;
4、根據(jù)向量化后的訓練集與所述向量化后的特征集之間的相似度,確定每個唯一標識對應的訓練集數(shù)據(jù)滿足最小相似度;
5、獲取向量化后的輸入數(shù)據(jù)與所述向量化后的特征集的輸入數(shù)據(jù)相似度,比較所述輸入數(shù)據(jù)相似度和最小相似度的大小,在大小符合要求的情況下,確定所述輸入數(shù)據(jù)對應的唯一標識,基于所述唯一標識,確定實驗項目相對應的補償費用。
6、在一實施例中,在根據(jù)農(nóng)藥登記過程中的所述補償數(shù)據(jù)項構建訓練集,其中,所述訓練集中的每個補償數(shù)據(jù)項通過預處理分別獲取對應的唯一標識之前,所述方法包括:
7、將補償數(shù)據(jù)項與實驗項目建立唯一標識,其中,所述唯一標識,用于確定所述補償數(shù)據(jù)項與所述實驗項目相對應的補償費用,所述唯一標識包括唯一編號和唯一標識符。
8、在一實施例中,所述訓練集中的每個補償數(shù)據(jù)項通過預處理確定對應的唯一標識,包括:
9、通過類別分類,將所述訓練集中的每個補償數(shù)據(jù)項歸類至對應的唯一標識類別中,確定每個所述補償數(shù)據(jù)項對應的唯一標識;其中,
10、當所述唯一標識類別中的補償數(shù)據(jù)項數(shù)量未符合預設數(shù)量時,通過生成合成數(shù)據(jù),獲取補償數(shù)據(jù)項。
11、在一實施例中,在所述根據(jù)向量化后的訓練集與所述向量化后的特征集之間的相似度,確定每個唯一標識對應的訓練集數(shù)據(jù)滿足最小相似度之前,所述方法包括:
12、對所述訓練集、所述特征集和輸入數(shù)據(jù)進行預處理,其中,所述預處理包括數(shù)據(jù)清洗、格式化和標準化;
13、將經(jīng)過預處理后的所述訓練集、所述特征集和所述輸入數(shù)據(jù)進行向量化處理,獲取向量化后的訓練集、向量化后的特征集和向量化后的輸入數(shù)據(jù)。
14、在一實施例中,在根據(jù)向量化后的訓練集與所述向量化后的特征集之間的相似度之前,所述方法還包括:
15、通過余弦相似度、歐氏距離或jaccard相似度,計算向量化后的訓練集與所述向量化后的特征集之間的相似度。
16、在一實施例中,所述比較所述輸入數(shù)據(jù)相似度和最小相似度之間的大小,在大小符合要求的情況下,確定所述輸入數(shù)據(jù)對應的唯一標識,包括:
17、將所述輸入數(shù)據(jù)相似度和最小相似度進行比較;
18、當所述輸入數(shù)據(jù)相似度大于或等于所述最小相似度時,符合要求,確定所述輸入數(shù)據(jù)對應的唯一標識;
19、當所述輸入數(shù)據(jù)相似度小于所述最小相似度時,未符合要求,所述輸入數(shù)據(jù)未有對應的唯一標識。
20、在一實施例中,在通過提取所述訓練集中的關鍵特征構建特征集之后,所述方法還包括:
21、更新訓練集和特征集,其中所述更新包括自動更新和定時更新。
22、第二方面,本申請實施例提供了一種農(nóng)藥數(shù)據(jù)補償費識別系統(tǒng),所述系統(tǒng)包括構建訓練集模塊、構建特征集模塊、最小相似度模塊和確定補償費用模塊,其中:
23、所述構建訓練集模塊,用于根據(jù)農(nóng)藥登記過程中的所述補償數(shù)據(jù)項構建訓練集,其中,所述訓練集中的每個補償數(shù)據(jù)項通過預處理確定對應的唯一標識;
24、所述構建特征集模塊,用于通過提取所述訓練集中的關鍵特征構建特征集,其中,所述關鍵特征與所述唯一標識對應的補償數(shù)據(jù)項具有高度相似性;
25、所述最小相似度模塊,用于根據(jù)向量化后的訓練集與所述向量化后的特征集之間的相似度,確定每個唯一標識對應的訓練集數(shù)據(jù)滿足最小相似度;
26、所述確定補償費用模塊,用于獲取向量化后的輸入數(shù)據(jù)與所述向量化后的特征集的輸入數(shù)據(jù)相似度,比較所述輸入數(shù)據(jù)相似度和最小相似度的大小,在大小符合要求的情況下,確定所述輸入數(shù)據(jù)對應的唯一標識,基于所述唯一標識,確定實驗項目相對應的補償費用。
27、第三方面,本申請實施例提供了一種計算機設備,包括存儲器、處理器以及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如上述第一方面所述的一種農(nóng)藥數(shù)據(jù)補償費識別方法。
28、第四方面,本申請實施例提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)如上述第一方面所述的一種農(nóng)藥數(shù)據(jù)補償費識別方法。
29、本申請實施例提供的一種農(nóng)藥數(shù)據(jù)補償費識別方法、系統(tǒng)、設備和介質(zhì)至少具有以下技術效果。
30、通過根據(jù)農(nóng)藥登記過程中的補償數(shù)據(jù)項構建訓練集,其中,訓練集中的每個補償數(shù)據(jù)項通過預處理確定對應的唯一標識。通過提取訓練集中的關鍵特征構建特征集,其中,關鍵特征與唯一標識對應的補償數(shù)據(jù)項具有高度相似性。根據(jù)向量化后的訓練集與向量化后的特征集之間的相似度,確定每個唯一標識對應的訓練集數(shù)據(jù)滿足最小相似度。獲取向量化后的輸入數(shù)據(jù)與向量化后的特征集的輸入數(shù)據(jù)相似度,比較輸入數(shù)據(jù)相似度和最小相似度的大小,在大小符合要求的情況下,確定輸入數(shù)據(jù)對應的唯一標識,基于唯一標識,確定實驗項目相對應的補償費用。通過輸入數(shù)據(jù)相似度與向量化后的訓練集和特征集的相似度進行比對,識別出與輸入數(shù)據(jù)對應的唯一標識,進而通過唯一標識確定實驗項目相對應的補償費用,提高了數(shù)據(jù)補償費用識別的精確度,解決相關技術中數(shù)據(jù)補償費用識別存在效率低的問題。
31、本申請的一個或多個實施例的細節(jié)在以下附圖和描述中提出,以使本申請的其他特征、目的和優(yōu)點更加簡明易懂。
1.一種農(nóng)藥數(shù)據(jù)補償費識別方法,其特征在于,所述方法包括:
2.根據(jù)權利要求1所述方法,其特征在于,所述比較所述輸入數(shù)據(jù)相似度和最小相似度之間的大小,在大小符合要求的情況下,確定所述輸入數(shù)據(jù)對應的唯一標識,包括:
3.根據(jù)權利要求1所述的方法,其特征在于,在根據(jù)農(nóng)藥登記過程中的所述補償數(shù)據(jù)項構建訓練集,其中,所述訓練集中的每個補償數(shù)據(jù)項通過預處理分別獲取對應的唯一標識之前,所述方法還包括:
4.根據(jù)權利要求1所述的方法,其特征在于,所述訓練集中的每個補償數(shù)據(jù)項通過預處理確定對應的唯一標識,包括:
5.根據(jù)權利要求1所述方法,其特征在于,在所述根據(jù)向量化后的訓練集與所述向量化后的特征集之間的相似度,確定每個唯一標識對應的訓練集數(shù)據(jù)滿足最小相似度之前,所述方法還包括:
6.根據(jù)權利要求1所述方法,其特征在于,在根據(jù)向量化后的訓練集與所述向量化后的特征集之間的相似度之前,所述方法還包括:
7.根據(jù)權利要求1所述方法,其特征在于,在通過提取所述訓練集中的關鍵特征構建特征集之后,所述方法還包括:
8.一種農(nóng)藥數(shù)據(jù)補償費識別系統(tǒng),其特征在于,所述系統(tǒng)包括構建訓練集模塊、構建特征集模塊、最小相似度模塊和確定補償費用模塊,其中:
9.一種電子設備,其特征在于,包括存儲器和處理器,存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權利要求1至7中任一項所述的一種農(nóng)藥數(shù)據(jù)補償費識別方法。
10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述程序被處理器執(zhí)行時實現(xiàn)如權利要求1至7中任一項所述的一種農(nóng)藥數(shù)據(jù)補償費識別方法。