本發(fā)明涉及人工智能,具體涉及一種基于區(qū)塊鏈技術的數(shù)據(jù)標注管理系統(tǒng)、方法、電子設備及存儲介質(zhì)。
背景技術:
1、數(shù)據(jù)標注工單是指對圖片、語音、文本、視頻等數(shù)據(jù)進行處理,標記對象的特征,生成滿足機器學習訓練要求的可讀數(shù)據(jù)編碼的任務或請求。這個過程涉及到將原始數(shù)據(jù)轉(zhuǎn)化為機器學習算法可以理解的形式,通過標注后的數(shù)據(jù),機器可以學習到各種任務,如分類、回歸、目標檢測等;當前數(shù)據(jù)標注市場巨大,但是數(shù)據(jù)標注業(yè)務存在數(shù)據(jù)泄露、數(shù)據(jù)標注結果存在糾紛、數(shù)據(jù)標注質(zhì)量判斷不公平、數(shù)據(jù)標注欠款嚴重等情況。
2、因此,目前亟需一種能夠保障標注過程數(shù)據(jù)安全且能夠公平嚴謹?shù)膶崿F(xiàn)發(fā)起、分派、驗收、結果評估和貨款結算的方法。
技術實現(xiàn)思路
1、本發(fā)明實施例的目的在于提供一種基于區(qū)塊鏈技術的數(shù)據(jù)標注管理系統(tǒng)、方法、電子設備及存儲介質(zhì),用以解決現(xiàn)有技術中無法保障標注過程數(shù)據(jù)安全且數(shù)據(jù)標注業(yè)務不夠公平嚴謹?shù)膯栴}。
2、為實現(xiàn)上述目的,本發(fā)明實施例提供一種基于區(qū)塊鏈技術的數(shù)據(jù)標注管理方法,所述方法具體包括:
3、構建聯(lián)盟鏈體系,其中,所述聯(lián)盟鏈體系上的聯(lián)盟鏈角色包括平臺運營節(jié)點、數(shù)據(jù)標注需求方和數(shù)據(jù)標注作業(yè)方;
4、基于聯(lián)盟鏈系統(tǒng)構建的數(shù)據(jù)安全性規(guī)則為聯(lián)盟鏈角色類型自動分配各個節(jié)點的數(shù)據(jù)下載權限;
5、通過數(shù)據(jù)標注需求方節(jié)點提交待標注數(shù)據(jù)源和所述待標注數(shù)據(jù)源對應的數(shù)據(jù)標注需求,為所述待標注數(shù)據(jù)源生成工單編號,基于工單的數(shù)據(jù)標注需求生成工單的智能合約;將一定數(shù)量的待標注數(shù)據(jù)源轉(zhuǎn)化為隨機格式的第一數(shù)據(jù)文件,將所述待標注數(shù)據(jù)源轉(zhuǎn)化為隨機格式的第二數(shù)據(jù)文件,為第一數(shù)據(jù)文件和第二數(shù)據(jù)文件分別生成第一密鑰對和第二密鑰對;基于第一密鑰對的第一加密密鑰對第一數(shù)據(jù)文件進行加密處理,形成加密后的第一數(shù)據(jù)文件,將加密后的第一數(shù)據(jù)文件與第一解密密鑰進行關聯(lián);基于第二密鑰對的第二加密密鑰對第二數(shù)據(jù)文件進行加密處理,形成加密后的第二數(shù)據(jù)文件,將加密后的第二數(shù)據(jù)文件與第二解密密鑰進行關聯(lián);為所述工單生成第三密鑰對,基于第三密鑰對的第三加密密鑰對第一數(shù)據(jù)文件、第二數(shù)據(jù)文件、智能合約和數(shù)據(jù)標注需求進行加密,連同第三解密密鑰一起上傳至數(shù)據(jù)標注工單區(qū)塊;
6、通過平臺運營節(jié)點下載數(shù)據(jù)標注工單區(qū)塊并進行解密,獲取第一數(shù)據(jù)文件、第一解密密鑰和數(shù)據(jù)標注需求,基于所述第一數(shù)據(jù)文件、第一解密密鑰和數(shù)據(jù)標注需求生成工單分派數(shù)據(jù),通過加解密裝置生成工單分派數(shù)據(jù)的第四密鑰對,基于第四密鑰對的第四加密密鑰對工單分派數(shù)據(jù)進行加密處理,連同第四解密密鑰一起上傳到工單分派區(qū)塊;
7、通過數(shù)據(jù)標注作業(yè)方節(jié)點下載工單分派區(qū)塊,將第二數(shù)據(jù)文件進行解密,通過加解密裝置生成第五密鑰對,基于第五密鑰對的加密密鑰再對解密后的數(shù)據(jù)源進行逐一加密,在數(shù)據(jù)標注人員作業(yè)進行數(shù)據(jù)標注作業(yè)時,對數(shù)據(jù)源進行逐一解密,供數(shù)據(jù)標注人員作業(yè),以得到數(shù)據(jù)標注結果,基于第五密鑰對的第五加密密鑰對每一條數(shù)據(jù)源和所述數(shù)據(jù)源對應的數(shù)據(jù)標注結果進行加密處理;
8、判斷當前工單是否達到工單提交時間節(jié)點,若是,提交工單,通過加解密裝置生成數(shù)據(jù)標注結果的第六密鑰對,基于第六密鑰對的第六加密密鑰對數(shù)據(jù)標注結果文件進行加密處理,連同第六解密密鑰一起上傳到工單數(shù)據(jù)標注結果區(qū)塊;
9、通過數(shù)據(jù)標注需求方節(jié)點自動下載工單數(shù)據(jù)標注結果區(qū)塊和數(shù)據(jù)標注工單區(qū)塊,判斷當前工單是否為當前節(jié)點提交的工單,若是,基于第六解密密鑰對數(shù)據(jù)標注結果文件解密,基于第五解密密鑰對數(shù)據(jù)標注結果進行逐一解密,通過數(shù)據(jù)需求方對數(shù)據(jù)標注結果進行進行逐一標記處理,其中,所述標記處理包括確認、修改和刪除;再通過加解密裝置生成第七密鑰對,對數(shù)據(jù)標注結果和標記處理后數(shù)據(jù)標注結果進行逐一加密,基于第八密鑰對的第八加密密鑰對數(shù)據(jù)標注結果進行加密處理;
10、在數(shù)據(jù)需求方完成驗收之后,基于工單數(shù)據(jù)標注結果質(zhì)量評估智能合約智能生成驗收報告;
11、基于所述驗收報告對工單對應的每位數(shù)據(jù)標注人員進行收益結算,收益結算完成后,向數(shù)據(jù)需求方開放最終數(shù)據(jù)標注結果的查看權限。
12、在上述技術方案的基礎上,本發(fā)明還可以做如下改進:
13、進一步地,所述數(shù)據(jù)標注需求包括數(shù)據(jù)標注要求完成時間、標注提取的字段信息以及相應的字段信息標注提取的相關要求、準確率要求、驗收標準和付款規(guī)則:
14、所述智能合約包括工單完成時間智能合約、工單提取字段智能合約、工單數(shù)據(jù)標注結果質(zhì)量評估智能合約和工單費用凍結與支付智能合約;
15、基于所述數(shù)據(jù)標注要求完成時間生成工單完成時間智能合約,基于所述標注提取的字段信息以及相應的字段信息標注提取的相關要求生成工單提取字段智能合約,基于所述準確率要求和驗收標準生成工單數(shù)據(jù)標注結果質(zhì)量評估智能合約,基于所述付款規(guī)則生成工單費用凍結與支付智能合約。
16、進一步地,所述基于所述第一數(shù)據(jù)文件、第一解密密鑰和數(shù)據(jù)標注需求生成工單分派數(shù)據(jù),包括:
17、對所述第一數(shù)據(jù)文件進行計算,得到所述第一數(shù)據(jù)文件的復雜度;
18、將所述第一數(shù)據(jù)文件的復雜度輸入最優(yōu)工單標注時間預測模型,得到所述第二數(shù)據(jù)文件完成工單預期時間范圍;
19、通過標注人員確定模型,確定所述第二數(shù)據(jù)文件的工單類型,獲取所述工單類型對應的歷史工單,獲取所述歷史工單對應的數(shù)據(jù)標注人員,基于所述數(shù)據(jù)標注人員選取工單待分配人員。
20、進一步地,所述基于所述第一數(shù)據(jù)文件、第一解密密鑰和數(shù)據(jù)標注需求生成工單分派數(shù)據(jù),還包括:
21、獲取待標注數(shù)據(jù)源的總行數(shù)n,并確定待標注數(shù)據(jù)源的行數(shù)序號,基于行數(shù)序號將所述待標注數(shù)據(jù)源隨機分派給m個數(shù)據(jù)標注人員,對于每一個被分派到該工單任務的數(shù)據(jù)標注數(shù)據(jù)生成任務數(shù)據(jù)行序列h,并記錄到工單分派數(shù)據(jù)中。
22、進一步地,所述通過數(shù)據(jù)標注作業(yè)方節(jié)點下載工單分派區(qū)塊,將第二數(shù)據(jù)文件進行解密,通過加解密裝置生成第五密鑰對,基于第五密鑰對的加密密鑰再對解密后的數(shù)據(jù)源進行逐一加密,在數(shù)據(jù)標注人員作業(yè)進行數(shù)據(jù)標注作業(yè)時,對數(shù)據(jù)源進行逐一解密,供數(shù)據(jù)標注人員作業(yè),以得到數(shù)據(jù)標注結果,基于第五密鑰對的第五加密密鑰對每一條數(shù)據(jù)源和所述數(shù)據(jù)源對應的數(shù)據(jù)標注結果進行加密處理,包括:
23、數(shù)據(jù)標注人員在作業(yè)過程中,基于第四密鑰對的第四解密密鑰對工單分配數(shù)據(jù)進行解密,對第二數(shù)據(jù)文件進行解密處理,基于加解密裝置生成通過加解密裝置生成第五密鑰對,基于第五密鑰對的加密密鑰再對解密后的第二數(shù)據(jù)文件的數(shù)據(jù)源進行逐一加密,再對分配到當前數(shù)據(jù)標注人員的數(shù)據(jù)行序列h進行逐一行的解密,數(shù)據(jù)標注人員完成這一行數(shù)據(jù)源的標注時,基于第五密鑰對的第五加密密鑰對每一條數(shù)據(jù)標注結果進行加密處理,基于第五密鑰對的第五加密密鑰對這一行數(shù)據(jù)源再次加密,并自動基于第五密鑰對的第四解密密鑰解密下一行的數(shù)據(jù)源展示。
24、進一步地,所述驗收報告包括工單數(shù)據(jù)標注結果質(zhì)量評估等級和數(shù)據(jù)標注人員評分:
25、其中,所述工單數(shù)據(jù)標注結果質(zhì)量評估等級分為0級、1級、2級、3級、4級和5級;
26、當解密后的數(shù)據(jù)標注結果全部不合格時,將所述工單數(shù)據(jù)標注結果質(zhì)量評估等級判定為0級或?qū)?shù)據(jù)標注結果對應的數(shù)據(jù)標注人員評分判定為0分,基于工單數(shù)據(jù)標注結果質(zhì)量評估智能合約在數(shù)據(jù)標注需求方銷毀數(shù)據(jù)。
27、進一步地,所述在數(shù)據(jù)需求方完成驗收之后,基于工單數(shù)據(jù)標注結果質(zhì)量評估智能合約智能生成驗收報告,包括:
28、通過公式(1)計算當前數(shù)據(jù)標注用戶最終獲得收益;
29、當前數(shù)據(jù)標注用戶最終獲得收益=(h/n)*m*工單費用公式(1);
30、式中,h為當前工單數(shù)據(jù)標注結果對應的數(shù)據(jù)標注用戶對應分派到的數(shù)據(jù)源行數(shù),n為工單數(shù)據(jù)源總行數(shù),m為工單數(shù)據(jù)標注結果收益比例,所述工單數(shù)據(jù)標注結果收益比例與工單數(shù)據(jù)標注結果質(zhì)量評估等級相對應。
31、一種基于區(qū)塊鏈技術的數(shù)據(jù)標注管理系統(tǒng),包括:
32、構建模塊,用于構建聯(lián)盟鏈體系,其中,所述聯(lián)盟鏈體系上的聯(lián)盟鏈角色包括平臺運營節(jié)點、數(shù)據(jù)標注需求方和數(shù)據(jù)標注作業(yè)方;
33、權限分配模塊,用于基于聯(lián)盟鏈系統(tǒng)構建的數(shù)據(jù)安全性規(guī)則為聯(lián)盟鏈角色類型自動分配各個節(jié)點的數(shù)據(jù)下載權限;
34、數(shù)據(jù)標注工單提交模塊,用于通過數(shù)據(jù)標注需求方節(jié)點提交待標注數(shù)據(jù)源和所述待標注數(shù)據(jù)源對應的數(shù)據(jù)標注需求,為所述待標注數(shù)據(jù)源生成工單編號,基于工單的數(shù)據(jù)標注需求生成工單的智能合約;將一定數(shù)量的待標注數(shù)據(jù)源轉(zhuǎn)化為隨機格式的第一數(shù)據(jù)文件,將所述待標注數(shù)據(jù)源轉(zhuǎn)化為隨機格式的第二數(shù)據(jù)文件,為第一數(shù)據(jù)文件和第二數(shù)據(jù)文件分別生成第一密鑰對和第二密鑰對;基于第一密鑰對的第一加密密鑰對第一數(shù)據(jù)文件進行加密處理,形成加密后的第一數(shù)據(jù)文件,將加密后的第一數(shù)據(jù)文件與第一解密密鑰進行關聯(lián);基于第二密鑰對的第二加密密鑰對第二數(shù)據(jù)文件進行加密處理,形成加密后的第二數(shù)據(jù)文件,將加密后的第二數(shù)據(jù)文件與第二解密密鑰進行關聯(lián);為所述工單生成第三密鑰對,基于第三密鑰對的第三加密密鑰對第一數(shù)據(jù)文件、第二數(shù)據(jù)文件、智能合約和數(shù)據(jù)標注需求進行加密,連同第三解密密鑰一起上傳至數(shù)據(jù)標注工單區(qū)塊;
35、工單分配模塊,用于通過平臺運營節(jié)點下載數(shù)據(jù)標注工單區(qū)塊并進行解密,獲取第一數(shù)據(jù)文件、第一解密密鑰和數(shù)據(jù)標注需求,基于所述第一數(shù)據(jù)文件、第一解密密鑰和數(shù)據(jù)標注需求生成工單分派數(shù)據(jù),通過加解密裝置生成工單分派數(shù)據(jù)的第四密鑰對,基于第四密鑰對的第四加密密鑰對工單分派數(shù)據(jù)進行加密處理,連同第四解密密鑰一起上傳到工單分派區(qū)塊;
36、數(shù)據(jù)標注作業(yè)模塊,用于通過數(shù)據(jù)標注作業(yè)方節(jié)點下載工單分派區(qū)塊,將第二數(shù)據(jù)文件進行解密,通過加解密裝置生成第五密鑰對,基于第五密鑰對的加密密鑰再對解密后的數(shù)據(jù)源進行逐一加密,在數(shù)據(jù)標注人員作業(yè)進行數(shù)據(jù)標注作業(yè)時,對數(shù)據(jù)源進行逐一解密,供數(shù)據(jù)標注人員作業(yè),以得到數(shù)據(jù)標注結果,基于第五密鑰對的第五加密密鑰對每一條數(shù)據(jù)源和所述數(shù)據(jù)源對應的數(shù)據(jù)標注結果進行加密處理;
37、數(shù)據(jù)標注結果提交模塊,用于判斷當前工單是否達到工單提交時間節(jié)點,若是,提交工單,通過加解密裝置生成數(shù)據(jù)標注結果的第六密鑰對,基于第六密鑰對的第六加密密鑰對數(shù)據(jù)標注結果文件進行加密處理,連同第六解密密鑰一起上傳到工單數(shù)據(jù)標注結果區(qū)塊;
38、數(shù)據(jù)標注結果驗收模塊,用于通過數(shù)據(jù)標注需求方節(jié)點自動下載工單數(shù)據(jù)標注結果區(qū)塊和數(shù)據(jù)標注工單區(qū)塊,判斷當前工單是否為當前節(jié)點提交的工單,若是,基于第六解密密鑰對數(shù)據(jù)標注結果文件解密,基于第五解密密鑰對數(shù)據(jù)標注結果進行逐一解密,通過數(shù)據(jù)需求方對數(shù)據(jù)標注結果進行進行逐一標記處理,其中,所述標記處理包括確認、修改和刪除;再通過加解密裝置生成第七密鑰對,對數(shù)據(jù)標注結果和標記處理后數(shù)據(jù)標注結果進行逐一加密,基于第八密鑰對的第八加密密鑰對數(shù)據(jù)標注結果進行加密處理;;
39、數(shù)據(jù)標注質(zhì)量評分模塊,用于在數(shù)據(jù)需求方完成驗收之后,基于工單數(shù)據(jù)標注結果質(zhì)量評估智能合約智能生成驗收報告;
40、數(shù)據(jù)標注工單支付模塊,用于基于所述驗收報告對工單對應的每位數(shù)據(jù)標注人員進行收益結算,收益結算完成后,向數(shù)據(jù)需求方開放最終數(shù)據(jù)標注結果的查看權限。
41、一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如所述方法的步驟。
42、一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)所述方法的步驟。
43、本發(fā)明實施例具有如下優(yōu)點:
44、本發(fā)明中基于區(qū)塊鏈技術的數(shù)據(jù)標注管理方法,構基于區(qū)塊鏈底層技術,將數(shù)據(jù)標注業(yè)務生態(tài)的各操作方形成聯(lián)盟鏈體系,數(shù)據(jù)標注業(yè)務的各參與方均為聯(lián)盟鏈的用戶節(jié)點,數(shù)據(jù)標注管理平臺運營用戶節(jié)點,依據(jù)數(shù)據(jù)安全性規(guī)則以及聯(lián)盟鏈節(jié)點類型,分配區(qū)塊數(shù)據(jù)下載權限,例如對于數(shù)據(jù)中臺服務器節(jié)點,由于平臺運營需要,對其分配數(shù)據(jù)標注工單區(qū)塊數(shù)據(jù)、工單質(zhì)量評分區(qū)塊數(shù)據(jù)、工單復雜度分析區(qū)塊數(shù)據(jù)、工單完成所需時間區(qū)塊數(shù)據(jù)、工單分派區(qū)塊數(shù)據(jù)等數(shù)據(jù)權限,數(shù)據(jù)標注管理系統(tǒng)服務器節(jié)點會自動下載相應區(qū)塊數(shù)據(jù),并基于相應的解密密鑰進行解密處理,解決了現(xiàn)有技術中無法保障標注過程數(shù)據(jù)安全且數(shù)據(jù)標注業(yè)務不夠公平嚴謹?shù)膯栴}。