本發(fā)明涉及數(shù)據(jù)處理,特別是涉及一種商品介紹信息的生成方法、系統(tǒng)、設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、目前,越來越多的人會通過網(wǎng)絡(luò)選購商品。無論是電商平臺的商品詳情頁,還是社交軟件、公眾號的宣傳頁面,其制作都是由美工、編輯完成,美工將拍攝的圖片套在對應(yīng)模板內(nèi),編輯負(fù)責(zé)撰寫對應(yīng)文本,工作內(nèi)容簡單且重復(fù),但需要花費(fèi)的時間較長,人力成本較高。并且,現(xiàn)在新商品的節(jié)奏很快,尤其是快時尚服裝之類的企業(yè),每周都要更新少則數(shù)十款、多則上百款商品,商品詳情頁的內(nèi)容設(shè)計(jì)是商品轉(zhuǎn)化率的重要因素,如果制作不好或更新緩慢,則達(dá)不到預(yù)期的宣傳展示效果,延長商家的上貨周期。如果要滿足較快的更新速度,則需要的人力成本就更高。
2、目前,也有利用人工智能算法來提高商品介紹信息生成的質(zhì)量和效率的方案。通常是在操作界面上的錄入頁面中錄入商品對象的商品數(shù)據(jù)。商品數(shù)據(jù)為圖像時,采用人工智能識別算法來識別圖像內(nèi)容,生成商品對象的商品介紹信息,例如通過ann(artificialneural?network,人工神經(jīng)網(wǎng)絡(luò))這種人工智能識別算法進(jìn)行圖像識別,識別出圖像內(nèi)容為褲子,即生成的商品介紹信息便是“褲子”。在商品數(shù)據(jù)為文本時,也可以采用人工智能識別算法直接提取相關(guān)信息,生成商品對象的商品介紹信息。
3、這樣的方案針對文本輸入和圖像輸入分別進(jìn)行處理,容易導(dǎo)致輸出信息不全面,并且會高度依賴輸入的數(shù)據(jù)質(zhì)量,此外,也會出現(xiàn)商品介紹信息中的描述文本和圖像的相關(guān)性低的問題。而且,這樣的方案只是提取并生成識別到的文本信息,不能補(bǔ)充更多的描述信息,不利于豐富用戶的瀏覽體驗(yàn)。
4、綜上所述,如何提高商品介紹信息的生成效率和質(zhì)量,是目前本領(lǐng)域技術(shù)人員急需解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是提供一種商品介紹信息的生成方法、系統(tǒng)、設(shè)備及存儲介質(zhì),以有效提高商品介紹信息的生成效率和質(zhì)量。
2、為解決上述技術(shù)問題,本發(fā)明提供如下技術(shù)方案:
3、第一方面,本發(fā)明提供了一種商品介紹信息的生成方法,包括:
4、接收商品圖像,并確定用于引導(dǎo)多模態(tài)模型對所述商品圖像進(jìn)行描述的提示文本;
5、將所述商品圖像和所述提示文本輸入所述多模態(tài)模型之后,得到所述多模態(tài)模型輸出的用于描述所述商品圖像的文本信息;
6、將所述文本信息和所述商品圖像輸入至圖像生成模型,得到所述圖像生成模型輸出的與所述商品圖像相關(guān)的多張擴(kuò)展圖像,并將各張所述擴(kuò)展圖像以及所述文本信息,作為所生成的對應(yīng)于所述商品圖像的商品介紹信息。
7、另一方面,還包括:
8、接收針對所述商品圖像的輔助說明文本;
9、將所述輔助說明文本添加至所述提示文本當(dāng)中。
10、另一方面,所述多模態(tài)模型為預(yù)先經(jīng)過訓(xùn)練的,基于大型語言和視覺助手架構(gòu)的多模態(tài)模型,且所述多模態(tài)模型包括視覺編碼器,大規(guī)模語言模型以及用于連接所述視覺編碼器和所述大規(guī)模語言模型的多層感知機(jī)。
11、另一方面,確定用于引導(dǎo)多模態(tài)模型對所述商品圖像進(jìn)行描述的提示文本,包括:
12、根據(jù)所述商品圖像中的商品類型,從提示文本庫中選取出對應(yīng)于所述商品類型的提示文本,作為所確定出的用于引導(dǎo)多模態(tài)模型對所述商品圖像進(jìn)行描述的提示文本。
13、另一方面,還包括:
14、針對每一種商品類型,預(yù)先構(gòu)建出對應(yīng)于所述商品類型的k個候選提示文本;
15、其中,k為預(yù)設(shè)的不小于2的正整數(shù);
16、將所述商品類型的測試商品圖像和所述商品類型的第i個候選提示文本輸入所述多模態(tài)模型之后,得到所述多模態(tài)模型輸出的用于描述所述測試商品圖像的第i文本信息;
17、其中,i為正整數(shù)且i從1依次取值至k;
18、得到了用于描述所述測試商品圖像的的第1文本信息至第k文本信息之后,依次確定出所述第1文本信息至所述第k文本信息各自與參考文本信息之間的相似程度;
19、從k個相似程度中選取出相似程度的最大值,并且將對應(yīng)的候選提示文本作為對應(yīng)于所述商品類型的最優(yōu)提示文本;
20、將所述最優(yōu)提示文本置入所述提示文本庫中,并建立所述最優(yōu)提示文本與所述商品類型之間的對應(yīng)關(guān)系,以將所述最優(yōu)提示文本作為所述提示文本庫中對應(yīng)于所述商品類型的提示文本。
21、另一方面,依次確定出所述第1文本信息至所述第k文本信息各自與參考文本信息之間的相似程度,包括:
22、將所述第1文本信息至所述第k文本信息以及所述參考文本信息均轉(zhuǎn)換成向量,并且通過向量之間的余弦相似度的計(jì)算,依次確定出所述第1文本信息至所述第k文本信息各自與參考文本信息之間的相似程度。
23、另一方面,還包括:
24、當(dāng)接收到提示文本調(diào)整指令時,從備用文本庫中選取出對應(yīng)于所述商品類型的提示文本,作為所確定出的用于引導(dǎo)多模態(tài)模型對所述商品圖像進(jìn)行描述的提示文本,并返回執(zhí)行將所述商品圖像和所述提示文本輸入所述多模態(tài)模型的操作,以重新生成對應(yīng)于所述商品圖像的商品介紹信息。
25、第二方面,本發(fā)明提供了一種商品介紹信息的生成系統(tǒng),包括:
26、提示文本確定模塊,用于接收商品圖像,并確定用于引導(dǎo)多模態(tài)模型對所述商品圖像進(jìn)行描述的提示文本;
27、文本信息生成模塊,用于將所述商品圖像和所述提示文本輸入所述多模態(tài)模型之后,得到所述多模態(tài)模型輸出的用于描述所述商品圖像的文本信息;
28、商品介紹信息確定模塊,用于將所述文本信息和所述商品圖像輸入至圖像生成模型,得到所述圖像生成模型輸出的與所述商品圖像相關(guān)的多張擴(kuò)展圖像,并將各張所述擴(kuò)展圖像以及所述文本信息,作為所生成的對應(yīng)于所述商品圖像的商品介紹信息。
29、第三方面,本發(fā)明提供了一種商品介紹信息的生成設(shè)備,包括:
30、存儲器,用于存儲計(jì)算機(jī)程序;
31、處理器,用于執(zhí)行所述計(jì)算機(jī)程序以實(shí)現(xiàn)如上述所述的商品介紹信息的生成方法的步驟。
32、第四方面,本發(fā)明提供了一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)上存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)如上述所述的商品介紹信息的生成方法的步驟。
33、應(yīng)用本發(fā)明實(shí)施例所提供的技術(shù)方案,考慮到基于多模態(tài)模型和圖像生成模型來生成商品介紹信息,可以有效提高商品介紹信息的生成效率和質(zhì)量。具體的,多模態(tài)模型支持文本和圖像的輸入,因此,接收商品圖像之后,還需要確定用于引導(dǎo)多模態(tài)模型對商品圖像進(jìn)行描述的提示文本,之后便可以將商品圖像和提示文本輸入多模態(tài)模型,多模態(tài)模型便會按照提示文本的要求,對商品圖像進(jìn)行描述,從而可以得到多模態(tài)模型輸出的用于描述商品圖像的文本信息。多模態(tài)模型所輸出的文本信息,會對商品圖像進(jìn)行擴(kuò)展性的補(bǔ)充描述,也就有利于豐富用戶的瀏覽體驗(yàn)。之后,再將文本信息和商品圖像輸入至圖像生成模型,圖像生成模型可以進(jìn)行圖像的擴(kuò)充,而且由于文本信息對商品圖像進(jìn)行了描述,使得圖像生成模型能夠更準(zhǔn)確地理解商品圖像,從而有利于保障所得到的擴(kuò)展圖像的質(zhì)量,即得到的多張擴(kuò)展圖像能夠與文本信息有較大的關(guān)聯(lián)性。并且可以看出,本技術(shù)方案無需人工進(jìn)行商品介紹信息的生成,因此可以保障效率。
34、綜上所述,本技術(shù)方案有效地提高了商品介紹信息的生成效率和質(zhì)量。