本技術涉及計算機,尤其涉及一種接待行為識別方法、裝置及設備。
背景技術:
1、隨著互聯(lián)網(wǎng)以及人工智能技術的不斷發(fā)展,線下零售場景中商家(或者門店、店鋪、經(jīng)營者等)通常需要獲取接待行為數(shù)據(jù)等客流相關數(shù)據(jù)來輔助進行運營決策。
2、在相關技術中,電子設備通常是基于人臉識別以及室內(nèi)定位等技術來識別并獲取工作人員的接待行為數(shù)據(jù),或者通過工作人員人工登記確認的方式來識別并獲取接待行為數(shù)據(jù),這種接待行為識別方式在線下復雜的場景中識別的準確性不高,并且人工登記的方式成本較高。
技術實現(xiàn)思路
1、本技術的多個方面提供一種接待行為識別方法、裝置及設備,能夠降低人工成本,提高接待行為識別的準確性。
2、第一方面,本技術實施例提供一種接待行為識別方法,包括:
3、獲取拍攝設備發(fā)送的視頻流以及音頻采集設備發(fā)送的音頻流;所述音頻采集設備的設備標識與第一用戶標識相關聯(lián);
4、確定所述視頻流中的第一接待片段,并提取所述第一接待片段對應的第一接待特征;
5、確定所述音頻流中的第二接待片段,并提取所述第二接待片段對應的第二接待特征;
6、根據(jù)所述第一接待特征以及所述第二接待特征之間的目標相關度,對所述第一接待片段以及所述第二接待片段進行匹配,確定各個目標接待行為對應的目標接待片段以及目標用戶標識。
7、在一種可能的實施方式中,所述確定所述視頻流中的第一接待片段,包括:
8、確定所述視頻流中所述第一用戶的第一移動軌跡以及第二用戶的第二移動軌跡;
9、根據(jù)所述第一移動軌跡以及所述第二移動軌跡之間的距離,確定目標用戶對;
10、針對所述目標用戶對所對應的各個圖像幀,若在所述圖像幀中,所述目標用戶對中第一用戶的第一朝向角度與第二用戶的第二朝向角度滿足預設角度條件,則確定所述圖像幀為包括接待行為的接待圖像幀;
11、對同一個目標用戶對的接待圖像幀進行聚合處理,得到所述第一接待片段。
12、在一種可能的實施方式中,所述提取所述第一接待片段對應的第一接待特征,包括:
13、確定所述第一接待片段對應的第一接待起止時刻;和/或,
14、根據(jù)預設動作檢測模型,確定所述第一接待片段對應的第一動作類型以及第一動作時刻;和/或,
15、根據(jù)所述第一接待片段中第二用戶的人體特征,確定所述第一接待片段對應的第一顧客屬性;和/或,
16、根據(jù)預設物品檢測模型,確定所述第一接待片段對應的第一物品屬性以及第一物品交互時刻;和/或,
17、根據(jù)預設人體檢測模型,確定所述第一接待片段對應的第一店員特征。
18、在一種可能的實施方式中,所述確定所述音頻流中的第二接待片段,包括:
19、對所述音頻流進行文本轉(zhuǎn)換處理,得到所述音頻流對應的文本序列數(shù)據(jù);
20、將所述文本序列數(shù)據(jù)輸入至預設文本識別模型中,確定所述文本序列數(shù)據(jù)對應的接待行為以及接待行為起止時刻;
21、根據(jù)所述接待行為起止時刻,確定所述音頻流中各個第一用戶對應的第二接待片段。
22、在一種可能的實施方式中,所述提取所述第二接待片段對應的第二接待特征,包括:
23、確定所述第二接待片段對應的第二接待起止時刻;和/或,
24、根據(jù)預設文本識別模型,確定所述第二接待片段對應的第二動作類型以及第二動作時刻;和/或,
25、根據(jù)所述第二接待片段對應的原始音頻信號以及預設聲音識別模型,確定所述第二接待片段對應的第二顧客屬性;和/或,
26、根據(jù)所述預設文本識別模型,確定所述第二接待片段對應的第二物品屬性以及第二物品交互時刻。
27、在一種可能的實施方式中,所述方法還包括:
28、確定第一接待起止時刻以及第二接待起止時刻的起止時刻相關度;和/或,
29、根據(jù)第一動作類型與第二動作類型的匹配結(jié)果、第一動作時刻以及第二動作時刻,確定動作相關度;和/或,
30、根據(jù)第一顧客屬性以及第二顧客屬性的匹配結(jié)果,確定顧客屬性相關度;和/或,
31、根據(jù)第一物品屬性與第二物品屬性的匹配結(jié)果、第一物品交互時刻以及第二物品交互時刻,確定物品相關度;和/或,
32、根據(jù)第一店員特征與預設數(shù)據(jù)庫中預設店員特征的相似度,確定店員相關度;
33、根據(jù)所述起止時刻相關度、動作相關度、顧客屬性相關度、物品相關度以及店員相關度其中至少一種,確定所述第一接待特征以及所述第二接待特征之間的目標相關度。
34、在一種可能的實施方式中,所述對所述第一接待片段以及所述第二接待片段進行匹配,確定各個目標接待行為對應的目標接待片段以及目標用戶標識,包括:
35、根據(jù)第一接待特征與第二接待特征之間的目標相關度,將第一接待片段以及與所述第一接待片段之間目標相關度最大的第二接待片段,確定為所述目標接待行為對應的目標接待片段;
36、將所述目標接待片段中第二接待片段對應的第一用戶標識確定為所述目標用戶標識。
37、在一種可能的實施方式中,所述對所述第一接待片段以及所述第二接待片段進行匹配,確定各個目標接待行為對應的目標接待片段以及目標用戶標識,包括:
38、根據(jù)所述第一接待特征以及所述第二接待特征之間的目標相關度,確定所述第一接待片段與所述第二接待片段對應的相關度矩陣;所述相關度矩陣中的元素為所述目標相關度;
39、從所述相關度矩陣中刪除所述目標相關度小于預設相關度閾值的元素,得到更新后的相關度矩陣;
40、針對所述更新后的相關度矩陣,根據(jù)預設規(guī)劃模型對第一接待片段以及第二接待片段進行匹配,確定各個目標接待行為對應的目標接待片段以及目標用戶標識。
41、在一種可能的實施方式中,所述根據(jù)預設規(guī)劃模型對第一接待片段以及第二接待片段進行匹配,確定各個目標接待行為對應的目標接待片段以及目標用戶標識,包括:
42、確定所述更新后的相關度矩陣中各個非零元素對應的決策變量;
43、根據(jù)各個所述決策變量以及所述決策變量對應的非零元素,確定目標函數(shù)以及所述目標函數(shù)對應的目標約束條件;
44、根據(jù)所述目標約束條件對所述目標函數(shù)進行計算,得到各個所述決策變量對應的目標數(shù)值;
45、根據(jù)所述目標數(shù)值,確定各個目標接待行為對應的目標接待片段以及目標用戶標識。
46、第二方面,本技術實施例提供一種接待行為識別裝置,包括:
47、獲取模塊,用于獲取拍攝設備發(fā)送的視頻流以及音頻采集設備發(fā)送的音頻流;所述音頻采集設備的設備標識與第一用戶標識相關聯(lián);
48、第一確定模塊,用于確定所述視頻流中的第一接待片段,并提取所述第一接待片段對應的第一接待特征;
49、第二確定模塊,用于確定所述音頻流中的第二接待片段,并提取所述第二接待片段對應的第二接待特征;
50、匹配模塊,用于根據(jù)所述第一接待特征以及所述第二接待特征之間的目標相關度,對所述第一接待片段以及所述第二接待片段進行匹配,確定各個目標接待行為對應的目標接待片段以及目標用戶標識。
51、在一種可能的實施方式中,所述第一確定模塊,具體用于:
52、確定所述視頻流中所述第一用戶的第一移動軌跡以及第二用戶的第二移動軌跡;
53、根據(jù)所述第一移動軌跡以及所述第二移動軌跡之間的距離,確定目標用戶對;
54、針對所述目標用戶對所對應的各個圖像幀,若在所述圖像幀中,所述目標用戶對中第一用戶的第一朝向角度與第二用戶的第二朝向角度滿足預設角度條件,則確定所述圖像幀為包括接待行為的接待圖像幀;
55、對同一個目標用戶對的接待圖像幀進行聚合處理,得到所述第一接待片段。
56、在一種可能的實施方式中,所述第一確定模塊,具體用于:
57、確定所述第一接待片段對應的第一接待起止時刻;和/或,
58、根據(jù)預設動作檢測模型,確定所述第一接待片段對應的第一動作類型以及第一動作時刻;和/或,
59、根據(jù)所述第一接待片段中第二用戶的人體特征,確定所述第一接待片段對應的第一顧客屬性;和/或,
60、根據(jù)預設物品檢測模型,確定所述第一接待片段對應的第一物品屬性以及第一物品交互時刻;和/或,
61、根據(jù)預設人體檢測模型,確定所述第一接待片段對應的第一店員特征。
62、在一種可能的實施方式中,所述第二確定模塊,具體用于:
63、對所述音頻流進行文本轉(zhuǎn)換處理,得到所述音頻流對應的文本序列數(shù)據(jù);
64、將所述文本序列數(shù)據(jù)輸入至預設文本識別模型中,確定所述文本序列數(shù)據(jù)對應的接待行為以及接待行為起止時刻;
65、根據(jù)所述接待行為起止時刻,確定所述音頻流中各個第一用戶對應的第二接待片段。
66、在一種可能的實施方式中,所述第二確定模塊,具體用于:
67、確定所述第二接待片段對應的第二接待起止時刻;和/或,
68、根據(jù)預設文本識別模型,確定所述第二接待片段對應的第二動作類型以及第二動作時刻;和/或,
69、根據(jù)所述第二接待片段對應的原始音頻信號以及預設聲音識別模型,確定所述第二接待片段對應的第二顧客屬性;和/或,
70、根據(jù)所述預設文本識別模型,確定所述第二接待片段對應的第二物品屬性以及第二物品交互時刻。
71、在一種可能的實施方式中,所述裝置還用于:
72、確定第一接待起止時刻以及第二接待起止時刻的起止時刻相關度;和/或,
73、根據(jù)第一動作類型與第二動作類型的匹配結(jié)果、第一動作時刻以及第二動作時刻,確定動作相關度;和/或,
74、根據(jù)第一顧客屬性以及第二顧客屬性的匹配結(jié)果,確定顧客屬性相關度;和/或,
75、根據(jù)第一物品屬性與第二物品屬性的匹配結(jié)果、第一物品交互時刻以及第二物品交互時刻,確定物品相關度;和/或,
76、根據(jù)第一店員特征與預設數(shù)據(jù)庫中預設店員特征的相似度,確定店員相關度;
77、根據(jù)所述起止時刻相關度、動作相關度、顧客屬性相關度、物品相關度以及店員相關度其中至少一種,確定所述第一接待特征以及所述第二接待特征之間的目標相關度。
78、在一種可能的實施方式中,所述匹配模塊,具體用于:
79、根據(jù)第一接待特征與第二接待特征之間的目標相關度,將第一接待片段以及與所述第一接待片段之間目標相關度最大的第二接待片段,確定為所述目標接待行為對應的目標接待片段;
80、將所述目標接待片段中第二接待片段對應的第一用戶標識確定為所述目標用戶標識。
81、在一種可能的實施方式中,所述匹配模塊,具體用于:
82、根據(jù)所述第一接待特征以及所述第二接待特征之間的目標相關度,確定所述第一接待片段與所述第二接待片段對應的相關度矩陣;所述相關度矩陣中的元素為所述目標相關度;
83、從所述相關度矩陣中刪除所述目標相關度小于預設相關度閾值的元素,得到更新后的相關度矩陣;
84、針對所述更新后的相關度矩陣,根據(jù)預設規(guī)劃模型對第一接待片段以及第二接待片段進行匹配,確定各個目標接待行為對應的目標接待片段以及目標用戶標識。
85、在一種可能的實施方式中,所述匹配模塊,具體用于:
86、確定所述更新后的相關度矩陣中各個非零元素對應的決策變量;
87、根據(jù)各個所述決策變量以及所述決策變量對應的非零元素,確定目標函數(shù)以及所述目標函數(shù)對應的目標約束條件;
88、根據(jù)所述目標約束條件對所述目標函數(shù)進行計算,得到各個所述決策變量對應的目標數(shù)值;
89、根據(jù)所述目標數(shù)值,確定各個目標接待行為對應的目標接待片段以及目標用戶標識。
90、第三方面,本技術實施例提供一種電子設備,包括:存儲器和處理器;
91、所述存儲器存儲計算機執(zhí)行指令;
92、所述處理器執(zhí)行所述存儲器存儲的計算機執(zhí)行指令,使得所述處理器執(zhí)行第一方面任一項所述的接待行為識別方法。
93、第四方面,本技術實施例提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)中存儲有計算機執(zhí)行指令,當所述計算機執(zhí)行指令被處理器執(zhí)行時用于實現(xiàn)第一方面任一項所述的接待行為識別方法。
94、第五方面,本技術實施例提供一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)第一方面任一項所示的接待行為識別方法。
95、在本技術實施例中,獲取拍攝設備發(fā)送的視頻流以及音頻采集設備發(fā)送的音頻流;音頻采集設備的設備標識與第一用戶標識相關聯(lián);確定視頻流中的第一接待片段,并提取第一接待片段對應的第一接待特征;確定音頻流中的第二接待片段,并提取第二接待片段對應的第二接待特征;根據(jù)第一接待特征以及第二接待特征之間的目標相關度,對第一接待片段以及第二接待片段進行匹配,確定各個目標接待行為對應的目標接待片段以及目標用戶標識。本技術中電子設備獲取視頻流以及音頻流,并從視頻流中提取出第一接待片段并確定第一接待特征,從音頻流中提取出第二接待片段并確定第二接待特征,之后根據(jù)接待特征之間的目標相關度對第一接待片段以及第二接待片段進行匹配,最終確定出同一個目標接待行為對應的目標接待片段以及目標用戶標識。這樣,電子設備能夠基于視頻流和音頻流實現(xiàn)目標接待行為的自動識別,無需人工進行登記確認,同時基于接待特征的目標相關度進行接待片段的匹配,可以提高接待行為識別的準確性。