本技術涉及神經(jīng)網(wǎng)絡訓練,尤其涉及多尾神經(jīng)網(wǎng)絡的預訓練與分階段訓練結(jié)合的綜合訓練方法。
背景技術:
1、隨著人工智能技術的發(fā)展,科學家提出了各種神經(jīng)網(wǎng)絡,比較經(jīng)典的有l(wèi)enet、alexnet、vgg、resnet以及googlenet等。這些神經(jīng)網(wǎng)絡一項經(jīng)典任務是處理分類問題,用于識別人、貓、狗等物品,根據(jù)網(wǎng)絡的寬度可以是二分類問題或多分類問題。隨著人工智能向各個行業(yè)滲透,越來越多的行業(yè)通過智能技術賦能實現(xiàn)了行業(yè)的數(shù)智化轉(zhuǎn)型,目前最大的困難是通過智能技術解決實際的行業(yè)業(yè)務,現(xiàn)有的神經(jīng)網(wǎng)絡還無法完全解決在行業(yè)落地過程中實際問題,如數(shù)據(jù)樣本集小甚至缺失樣本集的冷啟動問題、業(yè)務邏輯復雜等。
2、以勘察設計行業(yè)為例,目前缺少共用的數(shù)據(jù)樣本集,各個企業(yè)根據(jù)自己的需要構(gòu)建一些樣本集,缺乏標準化,也沒有對外公開。企業(yè)內(nèi)部各種構(gòu)建的樣本集合一般規(guī)模較小,處理復雜的業(yè)務流程,神經(jīng)網(wǎng)絡實現(xiàn)的分類預測準確率較低。以高速鐵路橋梁群樁基礎設計為例,群樁基礎由基樁直徑和基樁個數(shù)進行組合排列形成不同類型的樁基配置類型,如8-1.0m、10-1.25m分別表示8根的樁基礎和10根的群樁基礎。常用的基樁直徑有1.0m、1.25m、1.5m、1.8m、2.0m、2.2m、2.5m、3.0m等10多種,每種直徑的群樁基樁個數(shù)有8根、9根、10根、11根、12根、15根、16根18根等10多種。如果采用神經(jīng)網(wǎng)絡解決群樁基礎分類問題,會出現(xiàn)“組合爆炸”問題,其分類的結(jié)果有100多種,而目前積累的數(shù)據(jù)樣本規(guī)模有限,導致群樁基礎神經(jīng)網(wǎng)絡的準確率不是很理想,需要提出新的神經(jīng)網(wǎng)絡結(jié)構(gòu)解決分類“組合爆炸”問題,例如,多尾神經(jīng)網(wǎng)絡。然而對于多尾神經(jīng)網(wǎng)絡,目前還沒有明確模型訓練方案,通過傳統(tǒng)的模型訓練方法對多尾神經(jīng)網(wǎng)絡進行訓練,效率低且訓練出的模型性能差。
3、因此,如何有效提高模型的訓練效率和模型性能是目前亟需解決的一個問題。
4、上述內(nèi)容僅用于輔助理解本技術的技術方案,并不代表承認上述內(nèi)容是現(xiàn)有技術。
技術實現(xiàn)思路
1、本技術的主要目的在于提供一種多尾神經(jīng)網(wǎng)絡的預訓練與分階段訓練結(jié)合的綜合訓練方法,旨在解決如何有效提高模型的訓練效率和模型性能的技術問題。
2、為實現(xiàn)上述目的,本技術提出一種多尾神經(jīng)網(wǎng)絡的預訓練與分階段訓練結(jié)合的綜合訓練方法,所述的方法包括:
3、構(gòu)建樣本集合;
4、通過所述樣本集合對全連接網(wǎng)絡模型的公共隱藏層進行預訓練,得到目標權重參數(shù);
5、將所述目標權重參數(shù)遷移至多尾神經(jīng)網(wǎng)絡模型,得到初始決策模型;
6、通過所述樣本集合對所述初始決策模型進行分階段訓練,得到設計方案決策模型。
7、在一實施例中,所述將所述權重參數(shù)遷移至多尾神經(jīng)網(wǎng)絡模型,得到初始決策模型,包括:
8、獲取多尾神經(jīng)網(wǎng)絡模型中公共隱藏層的原始權重參數(shù);
9、根據(jù)所述目標權重參數(shù)替換所述原始權重參數(shù),得到初始決策模型。
10、在一實施例中,所述構(gòu)建樣本集合,包括:
11、獲取影響設計方案的方案要素;
12、根據(jù)所述方案要素確定樣本格式;
13、采集所述樣本格式要求的特征參數(shù)以及對應的實際設計方案;
14、根據(jù)所述樣本格式要求的特征參數(shù)以及對應的實際設計方案構(gòu)建樣本集合。
15、在一實施例中,所述通過所述樣本集合對全連接網(wǎng)絡模型的公共隱藏層進行預訓練,得到目標權重參數(shù),包括:
16、構(gòu)建多尾神經(jīng)網(wǎng)絡模型,其中,所述多尾神經(jīng)網(wǎng)絡模型包括輸入層、公共隱藏層和輸出層,所述輸出層由多個并列的softmax層組成;
17、將所述多尾神經(jīng)網(wǎng)絡模型的輸出層中的多個并列的softmax層替換為全連接softmax層,得到全連接網(wǎng)絡模型;
18、根據(jù)所述樣本集合中的各個樣本對所述全連接網(wǎng)絡模型的公共隱藏層進行預訓練,得到評估指標;
19、在所述評估指標達到預設指標閾值時,停止訓練并獲取所述全連接網(wǎng)絡模型的權重文件,并根據(jù)所述權重文件確定目標權重參數(shù)。
20、在一實施例中,所述將所述權重參數(shù)遷移至多尾神經(jīng)網(wǎng)絡模型,得到初始決策模型,包括:
21、獲取多尾神經(jīng)網(wǎng)絡模型中公共隱藏層的原始權重參數(shù);
22、根據(jù)所述目標權重參數(shù)替換所述原始權重參數(shù),得到初始決策模型。
23、在一實施例中,所述通過所述樣本集合對所述初始決策模型進行分階段訓練,得到設計方案決策模型,包括:
24、凍結(jié)所述初始決策模型中公共隱藏層部分的權重參數(shù),并對所述初始決策模型中的softmax層進行權重隨機初始化,得到不同初始權重的softmax層;
25、通過所述樣本集合中的各個樣本對不同初始權重的softmax層進行分階段訓練,得到設計方案決策模型。
26、在一實施例中,所述通過所述樣本集合中的各個樣本對不同初始權重的softmax層進行分階段訓練,得到設計方案決策模型,包括:
27、對所述對不同初始權重的softmax層進行優(yōu)先級排序,得到各softmax層的優(yōu)先級;
28、通過樣本集合中的各個樣本根據(jù)所述各softmax層的優(yōu)先級對所述不同初始權重的softmax層進行分階段訓練,得到設計方案決策模型。
29、在一實施例中,所述通過樣本集合中的各個樣本根據(jù)所述各softmax層的優(yōu)先級對所述不同初始權重的softmax層進行分階段訓練,得到設計方案決策模型,包括:
30、根據(jù)所述各softmax層的優(yōu)先級確定所述不同初始權重的softmax層中第一優(yōu)先級對應的softmax層;
31、將所述第一優(yōu)先級對應的softmax層作為待訓練層,并將不同初始權重的softmax層中的剩余softmax層作為凍結(jié)層;
32、凍結(jié)所述凍結(jié)層的權重,通過所述樣本集合中的各個樣本對所述待訓練層進行訓練并更新所述待訓練層的權重,直至不同初始權重的softmax層均訓練完成,得到設計方案決策模型。
33、此外,為實現(xiàn)上述目的,本技術還提出一種多尾神經(jīng)網(wǎng)絡的預訓練與分階段訓練結(jié)合的綜合訓練裝置,所述多尾神經(jīng)網(wǎng)絡的預訓練與分階段訓練結(jié)合的綜合訓練裝置包括:
34、構(gòu)建模塊,用于構(gòu)建樣本集合;
35、訓練模塊,用于通過所述樣本集合對全連接網(wǎng)絡模型的公共隱藏層進行預訓練,得到目標權重參數(shù);
36、遷移模塊,用于將所述目標權重參數(shù)遷移至多尾神經(jīng)網(wǎng)絡模型,得到初始決策模型;
37、所述訓練模塊,還用于通過所述樣本集合對所述初始決策模型進行分階段訓練,得到設計方案決策模型。
38、此外,為實現(xiàn)上述目的,本技術還提出一種多尾神經(jīng)網(wǎng)絡的預訓練與分階段訓練結(jié)合的綜合訓練設備,所述設備包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述計算機程序配置為實現(xiàn)如上文所述的多尾神經(jīng)網(wǎng)絡的預訓練與分階段訓練結(jié)合的綜合訓練方法的步驟。
39、此外,為實現(xiàn)上述目的,本技術還提出一種存儲介質(zhì),所述存儲介質(zhì)為計算機可讀存儲介質(zhì),所述存儲介質(zhì)上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上文所述的多尾神經(jīng)網(wǎng)絡的預訓練與分階段訓練結(jié)合的綜合訓練方法的步驟。
40、此外,為實現(xiàn)上述目的,本技術還提供一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上文所述的多尾神經(jīng)網(wǎng)絡的預訓練與分階段訓練結(jié)合的綜合訓練方法的步驟。
41、本技術提供了一種多尾神經(jīng)網(wǎng)絡的預訓練與分階段訓練結(jié)合的綜合訓練方法,本技術通過首先構(gòu)建樣本集合;通過所述樣本集合對全連接網(wǎng)絡模型的公共隱藏層進行預訓練,得到目標權重參數(shù);將所述目標權重參數(shù)遷移至多尾神經(jīng)網(wǎng)絡模型,得到初始決策模型;通過所述樣本集合對所述初始決策模型進行分階段訓練,得到設計方案決策模型,能夠有效提高模型的訓練效率和模型性能。
42、綜上可知,本技術通過對全連接網(wǎng)絡模型的公共隱藏層進行預訓練后,將得到的目標權重參數(shù)遷移至多尾神經(jīng)網(wǎng)絡模型,進一步對模型進行分階段訓練,得到設計方案決策模型,克服了通過傳統(tǒng)的模型訓練方法對多尾神經(jīng)網(wǎng)絡進行訓練,效率低且訓練出的模型性能差的技術缺陷,能夠有效提高模型的訓練效率和模型性能。