本申請涉及文本處理,具體涉及一種標簽生成方法、裝置、計算機設備和存儲介質。
背景技術:
1、隨著社交媒體的發(fā)展,很多人都喜歡在各大網站上用文字記錄自己觀看每一部影視作品后的感受和評述。通常情況下,這些評論包含了對該作品本身質量的直觀評述,可供他人參考。因此,利用這些評論所提取出影視作品的標簽也會影響到后續(xù)對視頻作品的推薦效果。
2、目前,現(xiàn)有技術從眾多評論進行標簽提取通常是針對整段評論文本之間的相似度,對評述文本進行聚類處理得到。然而,上述方案容易在最終結果中引入噪聲,也會損失部分評論語義,從而影響到最終生成的標簽的準確度。
技術實現(xiàn)思路
1、基于此,有必要針對上述技術問題,提供一種標簽生成方法、裝置、計算機設備和存儲介質,用以解決現(xiàn)有的標簽生成方法存在的容易引入噪聲,損失部分評論語義,從而導致最終生成的標簽的準確度不夠的問題。
2、第一方面,本申請?zhí)峁┮环N標簽生成方法,包括:
3、獲取目標對象的評述信息;
4、對所述評述信息進行信息抽取,得到所述評述信息中的特征信息;
5、根據(jù)所述特征信息生成所述目標對象的評述標簽。
6、作為本申請的一種可行實施例,所述根據(jù)所述特征信息生成所述目標對象的評述標簽,包括:
7、對所述特征信息進行聚類處理,得到所述目標對象的特征信息集合;
8、根據(jù)各所述特征信息集合中特征信息的數(shù)量,從所述特征信息集合中篩選出目標特征信息集合;
9、根據(jù)所述目標特征信息集合生成所述目標對象的評述標簽。
10、作為本申請的一種可行實施例,所述對所述特征信息進行聚類處理,得到所述目標對象的特征信息集合,包括:
11、基于第一語言模型對所述特征信息進行處理,得到各所述特征信息對應的特征編碼;
12、對各所述特征編碼進行歸一化處理,得到各所述特征信息對應的歸一化特征編碼;
13、根據(jù)所述歸一化特征編碼之間的相似度,對各所述特征信息進行聚類,得到所述目標對象的特征信息集合。
14、作為本申請的一種可行實施例,所述根據(jù)所述目標特征信息集合生成所述目標對象的評述標簽,包括:
15、針對每一所述目標特征信息集合,將該目標特征信息集合中的特征信息輸入至第二言模型,生成所述目標特征信息集合對應的描述文本;
16、對各所述目標特征信息集合對應的描述文本融合,得到所述目標對象的評述標簽。
17、作為本申請的一種可行實施例,所述將該目標特征信息集合中的特征信息輸入至第二語言模型,生成所述目標特征信息集合對應的描述文本,包括:
18、獲取所述目標特征信息集合中各特征信息對應的相關性概率;所述特征信息對應的相關性概率是通過預先訓練得到的相關性檢測模型對所述特征信息處理得到;
19、基于各所述特征信息對應的相關性概率的大小關系,將所述特征信息順序輸入至第二語言模型,生成所述目標特征信息集合對應的描述文本。
20、作為本申請的一種可行實施例,所述根據(jù)所述特征信息生成所述目標對象的評述標簽的步驟之前,所述方法還包括:
21、根據(jù)相關性檢測模型對所述特征信息處理,得到所述特征信息對應所述目標對象的相關性概率;
22、根據(jù)所述相關性概率的大小關系,從所述特征信息中篩選出目標特征信息;
23、所述根據(jù)所述特征信息生成所述目標對象的評述標簽,包括:
24、根據(jù)所述目標特征信息生成所述目標對象的評述標簽。
25、作為本申請的一種可行實施例,所述對所述評述信息進行信息抽取,得到所述評述信息中的特征信息,包括:
26、根據(jù)所述評述信息中各字詞的詞性信息,對所述評述信息進行分詞處理,得到所述評述信息中的目標字詞以及所述目標字詞之間的關聯(lián)關系;
27、根據(jù)所述目標字詞之間的關聯(lián)關系,對所述目標字詞進行拼接組合,得到所述評述信息的特征信息。
28、作為本申請的一種可行實施例,所述根據(jù)所述特征信息生成所述目標對象的評述標簽的步驟之后,所述方法還包括:
29、獲取目標用戶的檢索信息;
30、根據(jù)所述檢索信息與所述評述標簽,確定所述目標對象與所述檢索信息之間的匹配度;
31、根據(jù)所述匹配度將所述目標對象推薦給所述目標用戶。
32、第二方面,本申請?zhí)峁┮环N標簽生成裝置,包括:
33、獲取模塊,用于獲取目標對象的評述信息;
34、抽取模塊,用于對所述評述信息進行信息抽取,得到所述評述信息中的特征信息;
35、生成模塊,用于根據(jù)所述特征信息生成所述目標對象的評述標簽。
36、第三方面,本申請還提供一種計算機設備,所述計算機設備包括:
37、一個或多個處理器;
38、存儲器;以及
39、一個或多個應用程序,其中所述一個或多個應用程序被存儲于所述存儲器中,并配置為由所述處理器執(zhí)行上述任一項提供的標簽生成方法。
40、第四方面,本申請還提供一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器進行加載,以執(zhí)行上述任一項所述的標簽生成方法。
41、本申請實施例提供的標簽生成方法,在獲取到目標對象的評述信息后,通過對這些評述信息進行信息抽取處理,可以從包含復雜語義的評述信息中抽取得到若干簡單語義的特征信息,因此,相比與對復雜語義的整段評述文本進行處理,在利用這些特征信息生成目標對象的評述標簽的過程中,能夠有效避免引入噪聲或是損失評述文本的語義信息,從而提高了最終所生成的評述標簽的精度。
1.一種標簽生成方法,其特征在于,包括:
2.根據(jù)權利要求1所述的標簽生成方法,其特征在于,所述根據(jù)所述特征信息生成所述目標對象的評述標簽,包括:
3.根據(jù)權利要求2所述的標簽生成方法,其特征在于,所述對所述特征信息進行聚類處理,得到所述目標對象的特征信息集合,包括:
4.根據(jù)權利要求2所述的標簽生成方法,其特征在于,所述根據(jù)所述目標特征信息集合生成所述目標對象的評述標簽,包括:
5.根據(jù)權利要求4所述的標簽生成方法,其特征在于,所述將該目標特征信息集合中的特征信息輸入至第二語言模型,生成所述目標特征信息集合對應的描述文本,包括:
6.根據(jù)權利要求1所述的標簽生成方法,其特征在于,所述根據(jù)所述特征信息生成所述目標對象的評述標簽的步驟之前,所述方法還包括:
7.根據(jù)權利要求1所述的標簽生成方法,其特征在于,所述對所述評述信息進行信息抽取,得到所述評述信息中的特征信息,包括:
8.根據(jù)權利要求1~7任一項所述的標簽生成方法,其特征在于,所述根據(jù)所述特征信息生成所述目標對象的評述標簽的步驟之后,所述方法還包括:
9.一種標簽生成裝置,其特征在于,包括:
10.一種計算機設備,其特征在于,所述計算機設備包括:
11.一種計算機可讀存儲介質,其特征在于,其上存儲有計算機程序,所述計算機程序被處理器進行加載,以執(zhí)行權利要求1至8任一項所述的標簽生成方法。