本發(fā)明實(shí)施例涉及數(shù)據(jù)處理,尤其涉及一種面向行為學(xué)習(xí)的智能操作模型構(gòu)建方法、裝置及系統(tǒng)。
背景技術(shù):
1、隨著科技不斷發(fā)展,越來(lái)越多的設(shè)備開(kāi)始在人們生活中進(jìn)行應(yīng)用,為了提升生產(chǎn)效率,如何讓這些設(shè)備能夠自動(dòng)執(zhí)行特定任務(wù)成為了亟待解決的問(wèn)題。
2、相關(guān)技術(shù)中,技術(shù)人員通常會(huì)研究需要自動(dòng)化處理的任務(wù)的執(zhí)行方式,通過(guò)經(jīng)驗(yàn)編寫(xiě)任務(wù)執(zhí)行步驟的方式,將任務(wù)分解為多個(gè)步驟并編寫(xiě)對(duì)應(yīng)的執(zhí)行代碼,得到任務(wù)執(zhí)行程序,通過(guò)在設(shè)備上運(yùn)行任務(wù)執(zhí)行程序,自動(dòng)執(zhí)行這些任務(wù)。
3、但是,上述分解任務(wù)執(zhí)行步驟的方式效率較差,造成目前依然存在大量的任務(wù)無(wú)法在設(shè)備上實(shí)現(xiàn)自動(dòng)化處理,導(dǎo)致用戶通過(guò)設(shè)備執(zhí)行任務(wù)的效率較差。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明實(shí)施例提供一種面向行為學(xué)習(xí)的智能操作模型構(gòu)建方法、裝置及系統(tǒng),以解決相關(guān)技術(shù)中用戶通過(guò)設(shè)備執(zhí)行任務(wù)的效率較差的問(wèn)題。
2、第一方面,本發(fā)明實(shí)施例提供了一種面向行為學(xué)習(xí)的智能操作模型構(gòu)建方法,所述方法包括:
3、獲取樣本用戶操作目標(biāo)設(shè)備實(shí)現(xiàn)樣本任務(wù)期間產(chǎn)生的操作影像,以及所述目標(biāo)設(shè)備執(zhí)行所述樣本任務(wù)期間產(chǎn)生的操作日志;
4、基于所述操作影像和所述操作日志,生成用于在所述目標(biāo)設(shè)備實(shí)現(xiàn)所述樣本任務(wù)的樣本用戶操作信息序列;其中,所述樣本用戶操作信息序列中的樣本用戶操作信息,包括基于所述操作日志確定的操作指令和基于所述操作影像確定的操作目標(biāo);
5、將所述樣本任務(wù)對(duì)應(yīng)的樣本自然語(yǔ)言指令信息輸入第一語(yǔ)言模型,得到所述第一語(yǔ)言模型輸出的第一操作信息序列;
6、基于所述樣本任務(wù)對(duì)應(yīng)的所述第一操作信息序列,與所述樣本任務(wù)的樣本用戶操作信息序列之間的損失值,調(diào)整所述第一語(yǔ)言模型的模型參數(shù),得到智能操作模型;其中,所述智能操作模型用于根據(jù)目標(biāo)自然語(yǔ)言指令信息輸出對(duì)應(yīng)的目標(biāo)操作信息序列,所述目標(biāo)操作信息序列用于在目標(biāo)設(shè)備應(yīng)用,以使所述目標(biāo)設(shè)備實(shí)現(xiàn)所述目標(biāo)自然語(yǔ)言指令信息對(duì)應(yīng)的目標(biāo)任務(wù)。
7、可選地,所述基于所述操作影像和所述操作日志,生成用于在所述目標(biāo)設(shè)備實(shí)現(xiàn)所述樣本任務(wù)的樣本用戶操作信息序列,包括:
8、基于所述操作影像,提取所述樣本用戶的用戶交互對(duì)象,以及各個(gè)用戶交互對(duì)象對(duì)應(yīng)的交互時(shí)間;
9、基于所述操作日志,提取所述樣本用戶的操作指令,以及各個(gè)操作指令對(duì)應(yīng)的操作時(shí)間;
10、將所述交互時(shí)間與所述操作指令的操作時(shí)間重疊的用戶交互對(duì)象,確定為所述操作指令對(duì)應(yīng)的操作對(duì)象;
11、基于所述操作指令和所述操作指令對(duì)應(yīng)的操作對(duì)象,構(gòu)建所述操作指令對(duì)應(yīng)的樣本用戶操作信息,并根據(jù)所述操作時(shí)間排列各個(gè)所述操作指令對(duì)應(yīng)的樣本用戶操作信息,得到所述樣本用戶操作信息序列。
12、可選地,所述操作影像包括操作場(chǎng)景影像和操作屏幕影像,所述基于所述操作影像,提取所述樣本用戶的用戶交互對(duì)象,包括:
13、在所述操作影像包括所述操作場(chǎng)景影像的情況下,基于所述操作場(chǎng)景影像確定所述目標(biāo)設(shè)備在場(chǎng)景中的第一交互對(duì)象,將所述第一交互對(duì)象作為所述用戶交互對(duì)象;
14、在所述操作影像包括所述操作屏幕影像的情況下,基于所述樣本用戶的用戶輸入在所述操作屏幕影像中的輸入位置,從所述操作屏幕影像中確定第二交互對(duì)象,將所述第二交互對(duì)象作為所述用戶交互對(duì)象。
15、可選地,所述基于所述操作場(chǎng)景影像確定所述目標(biāo)設(shè)備在場(chǎng)景中的第一交互對(duì)象,包括:
16、將包含所述目標(biāo)設(shè)備的所述操作場(chǎng)景影像,輸入目標(biāo)檢測(cè)模型,得到所述目標(biāo)檢測(cè)模型輸出的所述目標(biāo)設(shè)備對(duì)應(yīng)的可交互目標(biāo)物體的第一目標(biāo)檢測(cè)結(jié)果,以及所述目標(biāo)設(shè)備對(duì)應(yīng)的第二目標(biāo)檢測(cè)結(jié)果;
17、將所述第一目標(biāo)檢測(cè)結(jié)果、所述第二目標(biāo)檢測(cè)結(jié)果和所述樣本任務(wù)輸入意圖識(shí)別模型,得到所述意圖識(shí)別模型輸出的各個(gè)所述可交互目標(biāo)物體分別對(duì)應(yīng)的交互概率;
18、將所述交互概率最大的可交互目標(biāo)物體確定為所述第一交互對(duì)象。
19、可選地,所述獲取樣本用戶操作目標(biāo)設(shè)備實(shí)現(xiàn)樣本任務(wù)期間產(chǎn)生的操作影像,包括:
20、檢測(cè)所述樣本用戶針對(duì)所述目標(biāo)設(shè)備的操作指令的操作類型;
21、在所述操作指令的操作類型為執(zhí)行機(jī)構(gòu)操作的情況下,通過(guò)所述目標(biāo)設(shè)備的外部相機(jī)拍攝所述操作場(chǎng)景影像;
22、在所述操作指令的操作類型為界面操作的情況下,獲取所述操作指令對(duì)應(yīng)的操作屏幕影像。
23、可選地,所述將所述樣本任務(wù)對(duì)應(yīng)的樣本自然語(yǔ)言指令信息輸入第一語(yǔ)言模型,得到所述第一語(yǔ)言模型輸出的第一操作信息序列,包括:
24、獲取所述樣本用戶操作所述目標(biāo)設(shè)備實(shí)現(xiàn)所述樣本任務(wù)期間,所述目標(biāo)設(shè)備所處的樣本環(huán)境信息;
25、將所述樣本自然語(yǔ)言指令信息和所述樣本環(huán)境信息輸入所述第一語(yǔ)言模型,得到所述第一語(yǔ)言模型輸出的所述第一操作信息序列。
26、可選地,所述方法還包括:
27、獲取針對(duì)目標(biāo)操作信息序列的問(wèn)題返饋信息;
28、基于所述問(wèn)題返饋信息、所述目標(biāo)操作信息序列和所述目標(biāo)操作信息序列對(duì)應(yīng)的目標(biāo)自然語(yǔ)言指令信息,生成模型調(diào)整提示詞信息;
29、將所述模型調(diào)整提示詞信息輸入所述智能操作模型。
30、第二方面,本發(fā)明實(shí)施例提供了一種面向行為學(xué)習(xí)的智能操作模型構(gòu)建裝置,所述裝置包括:
31、獲取模塊,用于獲取樣本用戶操作目標(biāo)設(shè)備實(shí)現(xiàn)樣本任務(wù)期間產(chǎn)生的操作影像,以及所述目標(biāo)設(shè)備執(zhí)行所述樣本任務(wù)期間產(chǎn)生的操作日志;
32、序列模塊,用于基于所述操作影像和所述操作日志,生成用于在所述目標(biāo)設(shè)備實(shí)現(xiàn)所述樣本任務(wù)的樣本用戶操作信息序列;其中,所述樣本用戶操作信息序列中的樣本用戶操作信息,包括基于所述操作日志確定的操作指令和基于所述操作影像確定的操作目標(biāo);
33、輸入模塊,用于將所述樣本任務(wù)對(duì)應(yīng)的樣本自然語(yǔ)言指令信息輸入第一語(yǔ)言模型,得到所述第一語(yǔ)言模型輸出的第一操作信息序列;
34、訓(xùn)練模塊,用于基于所述樣本任務(wù)對(duì)應(yīng)的所述第一操作信息序列,與所述樣本任務(wù)的樣本用戶操作信息序列之間的損失值,調(diào)整所述第一語(yǔ)言模型的模型參數(shù),得到智能操作模型;其中,所述智能操作模型用于根據(jù)目標(biāo)自然語(yǔ)言指令信息輸出對(duì)應(yīng)的目標(biāo)操作信息序列,所述目標(biāo)操作信息序列用于在目標(biāo)設(shè)備應(yīng)用,以使所述目標(biāo)設(shè)備實(shí)現(xiàn)所述目標(biāo)自然語(yǔ)言指令信息對(duì)應(yīng)的目標(biāo)任務(wù)。
35、可選地,所述序列模塊包括:
36、第一提取子模塊,用于基于所述操作影像,提取所述樣本用戶的用戶交互對(duì)象,以及各個(gè)用戶交互對(duì)象對(duì)應(yīng)的交互時(shí)間;
37、第二提取子模塊,用于基于所述操作日志,提取所述樣本用戶的操作指令,以及各個(gè)操作指令對(duì)應(yīng)的操作時(shí)間;
38、操作對(duì)象子模塊,用于將所述交互時(shí)間與所述操作指令的操作時(shí)間重疊的用戶交互對(duì)象,確定為所述操作指令對(duì)應(yīng)的操作對(duì)象;
39、序列構(gòu)建子模塊,用于基于所述操作指令和所述操作指令對(duì)應(yīng)的操作對(duì)象,構(gòu)建所述操作指令對(duì)應(yīng)的樣本用戶操作信息,并根據(jù)所述操作時(shí)間排列各個(gè)所述操作指令對(duì)應(yīng)的樣本用戶操作信息,得到所述樣本用戶操作信息序列。
40、可選地,所述操作影像包括操作場(chǎng)景影像和操作屏幕影像,所述第一提取子模塊包括:
41、第一交互對(duì)象提取單元,用于在所述操作影像包括所述操作場(chǎng)景影像的情況下,基于所述操作場(chǎng)景影像確定所述目標(biāo)設(shè)備在場(chǎng)景中的第一交互對(duì)象,將所述第一交互對(duì)象作為所述用戶交互對(duì)象;
42、第二交互對(duì)象提取單元,用于在所述操作影像包括所述操作屏幕影像的情況下,基于所述樣本用戶的用戶輸入在所述操作屏幕影像中的輸入位置,從所述操作屏幕影像中確定第二交互對(duì)象,將所述第二交互對(duì)象作為所述用戶交互對(duì)象。
43、可選地,所述第一交互對(duì)象提取單元包括:
44、檢測(cè)結(jié)果子單元,用于將包含所述目標(biāo)設(shè)備的所述操作場(chǎng)景影像,輸入目標(biāo)檢測(cè)模型,得到所述目標(biāo)檢測(cè)模型輸出的所述目標(biāo)設(shè)備對(duì)應(yīng)的可交互目標(biāo)物體的第一目標(biāo)檢測(cè)結(jié)果,以及所述目標(biāo)設(shè)備對(duì)應(yīng)的第二目標(biāo)檢測(cè)結(jié)果;
45、交互概率子單元,用于將所述第一目標(biāo)檢測(cè)結(jié)果、所述第二目標(biāo)檢測(cè)結(jié)果和所述樣本任務(wù)輸入意圖識(shí)別模型,得到所述意圖識(shí)別模型輸出的各個(gè)所述可交互目標(biāo)物體分別對(duì)應(yīng)的交互概率;
46、第一交互對(duì)象確定子單元,用于將所述交互概率最大的可交互目標(biāo)物體確定為所述第一交互對(duì)象。
47、可選地,所述獲取模塊包括:
48、操作類型子模塊,用于檢測(cè)所述樣本用戶針對(duì)所述目標(biāo)設(shè)備的操作指令的操作類型;
49、操作場(chǎng)景影像子模塊,用于在所述操作指令的操作類型為執(zhí)行機(jī)構(gòu)操作的情況下,通過(guò)所述目標(biāo)設(shè)備的外部相機(jī)拍攝所述操作場(chǎng)景影像;
50、操作屏幕影像子模塊,用于在所述操作指令的操作類型為界面操作的情況下,獲取所述操作指令對(duì)應(yīng)的操作屏幕影像。
51、可選地,所述輸入模塊包括:
52、樣本環(huán)境信息子模塊,用于獲取所述樣本用戶操作所述目標(biāo)設(shè)備實(shí)現(xiàn)所述樣本任務(wù)期間,所述目標(biāo)設(shè)備所處的樣本環(huán)境信息;
53、環(huán)境信息輸入子模塊,用于將所述樣本自然語(yǔ)言指令信息和所述樣本環(huán)境信息輸入所述第一語(yǔ)言模型,得到所述第一語(yǔ)言模型輸出的所述第一操作信息序列。
54、可選地,所述裝置還包括:
55、問(wèn)題返饋信息獲取模塊,用于獲取針對(duì)目標(biāo)操作信息序列的問(wèn)題返饋信息;
56、調(diào)整提示詞信息模塊,用于基于所述問(wèn)題返饋信息、所述目標(biāo)操作信息序列和所述目標(biāo)操作信息序列對(duì)應(yīng)的目標(biāo)自然語(yǔ)言指令信息,生成模型調(diào)整提示詞信息;
57、調(diào)整提示詞信息輸入模塊,用于將所述模型調(diào)整提示詞信息輸入所述智能操作模型。
58、第三方面,本發(fā)明實(shí)施例提供了一種智能操作系統(tǒng),所述智能操作系統(tǒng)包括指令獲取單元、推理單元和執(zhí)行單元;
59、所述指令獲取單元,用于獲取目標(biāo)用戶輸入的目標(biāo)自然語(yǔ)言指令信息;
60、所述推理單元,用于將所述目標(biāo)自然語(yǔ)言指令信息輸入智能操作模型,以使所述智能操作模型輸出目標(biāo)操作信息序列;其中,所述智能操作模型基于如權(quán)利要求1至7所述的面向行為學(xué)習(xí)的智能操作模型構(gòu)建方法生成;
61、所述執(zhí)行單元,用于基于所述目標(biāo)操作信息序列控制目標(biāo)設(shè)備實(shí)現(xiàn)所述目標(biāo)自然語(yǔ)言指令信息對(duì)應(yīng)的目標(biāo)任務(wù)。
62、可選地,所述智能操作系統(tǒng)還包括環(huán)境信息獲取單元;
63、所述環(huán)境信息獲取單元,用于獲取所述目標(biāo)設(shè)備所處的目標(biāo)環(huán)境信息;
64、所述推理單元,還用于將所述目標(biāo)自然語(yǔ)言指令信息和所述目標(biāo)環(huán)境信息輸入智能操作模型,以使所述智能操作模型輸出目標(biāo)操作信息序列。
65、第四方面,本發(fā)明實(shí)施例還提供了一種電子設(shè)備,包括:處理器;用于存儲(chǔ)所述處理器可執(zhí)行指令的存儲(chǔ)器;其中,所述處理器被配置為執(zhí)行所述指令,以實(shí)現(xiàn)如第一方面的面向行為學(xué)習(xí)的智能操作模型構(gòu)建方法。
66、第五方面,本發(fā)明實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),當(dāng)所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中的指令由電子設(shè)備的處理器執(zhí)行時(shí),使得電子設(shè)備能夠執(zhí)行如第一方面的面向行為學(xué)習(xí)的智能操作模型構(gòu)建方法。
67、在本發(fā)明實(shí)施例中,包括:獲取樣本用戶操作目標(biāo)設(shè)備實(shí)現(xiàn)樣本任務(wù)期間產(chǎn)生的操作影像,以及目標(biāo)設(shè)備執(zhí)行樣本任務(wù)期間產(chǎn)生的操作日志;基于操作影像和操作日志,生成用于在目標(biāo)設(shè)備實(shí)現(xiàn)樣本任務(wù)的樣本用戶操作信息序列;其中,樣本用戶操作信息序列中的樣本用戶操作信息,包括基于操作日志確定的操作指令和基于操作影像確定的操作目標(biāo);將樣本任務(wù)對(duì)應(yīng)的樣本自然語(yǔ)言指令信息輸入第一語(yǔ)言模型,得到第一語(yǔ)言模型輸出的第一操作信息序列;基于樣本任務(wù)對(duì)應(yīng)的第一操作信息序列,與樣本任務(wù)的樣本用戶操作信息序列之間的損失值,調(diào)整第一語(yǔ)言模型的模型參數(shù),得到智能操作模型;其中,智能操作模型用于根據(jù)目標(biāo)自然語(yǔ)言指令信息輸出對(duì)應(yīng)的目標(biāo)操作信息序列,目標(biāo)操作信息序列用于在目標(biāo)設(shè)備應(yīng)用,以使目標(biāo)設(shè)備實(shí)現(xiàn)目標(biāo)自然語(yǔ)言指令信息對(duì)應(yīng)的目標(biāo)任務(wù)。能夠提取用戶在執(zhí)行任務(wù)過(guò)程中的操作指令和操作目標(biāo),生成描述用戶行為的樣本用戶操作信息,并通過(guò)樣本用戶操作信息訓(xùn)練語(yǔ)言模型,得到能夠根據(jù)用戶的自然語(yǔ)言指令輸出目標(biāo)操作信息序列的智能操作模型,通過(guò)目標(biāo)操作信息序列可以使目標(biāo)設(shè)備自動(dòng)化實(shí)現(xiàn)用戶需要完成的目標(biāo)任務(wù),不僅提升了獲取任務(wù)實(shí)現(xiàn)步驟的效率,有助于提升在目標(biāo)設(shè)備上實(shí)現(xiàn)自動(dòng)化處理目標(biāo)任務(wù)的效率,還使用戶能夠通過(guò)自然語(yǔ)言實(shí)現(xiàn)目標(biāo)任務(wù)的自動(dòng)化處理,提高了用戶通過(guò)目標(biāo)設(shè)備執(zhí)行目標(biāo)任務(wù)的效率。
68、上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。