欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于多模態(tài)大模型的UI效果圖識(shí)別方法、系統(tǒng)及介質(zhì)與流程

文檔序號(hào):40480195發(fā)布日期:2024-12-31 12:47閱讀:11來源:國知局
基于多模態(tài)大模型的UI效果圖識(shí)別方法、系統(tǒng)及介質(zhì)與流程

本技術(shù)涉及圖像識(shí)別生成,尤其涉及基于多模態(tài)大模型的ui效果圖識(shí)別方法、系統(tǒng)及介質(zhì)。


背景技術(shù):

1、?ui效果圖識(shí)別與生成流程的復(fù)雜性主要來源于設(shè)計(jì)元素的多樣性、布局和渲染的復(fù)雜度,以及交互的復(fù)雜度。這些復(fù)雜性增加了識(shí)別與生成的難度,使得流程變得繁瑣。

2、相關(guān)技術(shù)中通常采用模型訓(xùn)練的形式進(jìn)行ui效果圖的識(shí)別與生產(chǎn),然而模型泛化能力不足是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域常見的挑戰(zhàn)。對于ui效果圖識(shí)別與生成任務(wù)來說,模型泛化能力不足可能導(dǎo)致模型在新數(shù)據(jù)或新場景下的表現(xiàn)不佳。

3、同時(shí)由于組件數(shù)量眾多且功能復(fù)雜,開發(fā)者往往難以全面理解和應(yīng)用這些組件,導(dǎo)致最終生成的ui效果圖無法保持一致,降低用戶使用體驗(yàn)。

4、?專利《基于生成對抗和卷積神經(jīng)網(wǎng)絡(luò)的ui生成web代碼的方法》,公開號(hào):cn110377282a,公開日:2019年10月25日,具體公開了包括:構(gòu)建html元素顯示效果與其源代碼的映射關(guān)系;識(shí)別圖片i中html元素的位置;生成i完整的html代碼;求取人工編寫的html代碼與生成的html代碼的相似度sim1;求取圖片i與經(jīng)生成的html代碼生成的圖片i1的相似度sim2;將sim1和sim2平衡為sim0,判別sim0與閾值t的關(guān)系,若sim0小于t,重復(fù)上述過程,反之,執(zhí)行下一步;經(jīng)過上一步訓(xùn)練,獲得圖片到html代碼的生成模型m,將待處理的ui圖片輸入模型m即得到相應(yīng)的html代碼。該方案依賴于多步深度學(xué)習(xí)模型,不僅需要大量的訓(xùn)練數(shù)據(jù),還涉及復(fù)雜的預(yù)處理和后處理步驟,增加了開發(fā)成本,并且難以保證生成效果的一致性。其次,現(xiàn)有的深度學(xué)習(xí)模型在處理ui效果圖時(shí),容易受到訓(xùn)練數(shù)據(jù)的限制,導(dǎo)致模型的泛化能力較差,難以在不同的應(yīng)用場景中保持穩(wěn)定的性能。

5、專利《一種基于多模態(tài)ai的ui生成方法》,公開號(hào):cn115756455a,公開日:2023年03月07日,具體公開了獲取目標(biāo)網(wǎng)站官網(wǎng)的需求文檔,并根據(jù)需求文檔將需求細(xì)化為對照具體ui界面的不同功能形成功能切面,針對不同的功能切面進(jìn)行不同維度特征提取形成特征切面;針對不同功能切面提供的特征集合進(jìn)行融合操作建立特征之間的聯(lián)系形成需求全面覆蓋,并根據(jù)融合的特征集結(jié)果封裝成神經(jīng)網(wǎng)絡(luò)預(yù)測模型所需特征向量;將特征向量錄入到核心為多模態(tài)ai技術(shù)為驅(qū)動(dòng)的ui自動(dòng)生成工具中執(zhí)行ui圖像生成功能,預(yù)測生成功能需求對應(yīng)ui圖像;對生成的不同功能需求的ui圖像進(jìn)行評審,不足之處參照入?yún)⑻卣鬟M(jìn)行局部優(yōu)化以進(jìn)行二次生成,最后將生成的不同ui交付使用。在ui效果圖的生成過程中,不同設(shè)計(jì)師或開發(fā)者使用不同的組件和樣式,該方案無法確保生成的ui設(shè)計(jì)一致,影響用戶體驗(yàn)和界面美觀度。


技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)針對現(xiàn)有技術(shù)中對ui圖識(shí)別與生成存在無法兼顧效率與一致性的問題,提供基于多模態(tài)大模型的ui效果圖識(shí)別方法、系統(tǒng)及介質(zhì),通過基于圖像編碼、多模態(tài)投影以及文本編碼構(gòu)建的多模態(tài)預(yù)訓(xùn)練模型,并結(jié)合歷史圖像數(shù)據(jù)進(jìn)行微調(diào)訓(xùn)練得到的多模態(tài)大模型,在實(shí)現(xiàn)ui效果圖中圖表、組件以及文本內(nèi)容全面識(shí)別的同時(shí)提高了識(shí)別準(zhǔn)確性以及效率,并利用檢索算法針對第一識(shí)別數(shù)據(jù)搜尋基于內(nèi)置組件數(shù)據(jù)結(jié)構(gòu)構(gòu)建的向量數(shù)據(jù)庫,快速找到與第一識(shí)別數(shù)據(jù)相匹配的組件向量,并基于這些向量獲取對應(yīng)待識(shí)別ui效果圖的生成信息,確保ui效果圖生成一致性以及高效性。

2、為實(shí)現(xiàn)上述技術(shù)目的,本技術(shù)提供的一種技術(shù)方案是,基于多模態(tài)大模型的ui效果圖識(shí)別方法,包括如下步驟:基于圖像編碼、多模態(tài)投影以及文本編碼構(gòu)建多模態(tài)預(yù)訓(xùn)練模型;根據(jù)歷史圖像數(shù)據(jù)以及多模態(tài)預(yù)訓(xùn)練模型執(zhí)行微調(diào)訓(xùn)練,獲取多模態(tài)大模型;基于內(nèi)置組件數(shù)據(jù)結(jié)構(gòu)構(gòu)建向量數(shù)據(jù)庫;獲取待識(shí)別ui效果圖,基于多模態(tài)大模型以及待識(shí)別ui效果圖輸出第一識(shí)別數(shù)據(jù);利用檢索算法針對第一識(shí)別數(shù)據(jù)搜尋向量數(shù)據(jù)庫,輸出對應(yīng)待識(shí)別ui效果圖的生成信息。

3、進(jìn)一步的,所述根據(jù)歷史圖像數(shù)據(jù)以及多模態(tài)預(yù)訓(xùn)練模型執(zhí)行微調(diào)訓(xùn)練,獲取多模態(tài)大模型包括:獲取歷史圖像數(shù)據(jù),對歷史圖像數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理;利用lora調(diào)整多模態(tài)預(yù)訓(xùn)練模型的權(quán)重矩陣;將數(shù)據(jù)預(yù)處理后的歷史圖像數(shù)據(jù)輸入至調(diào)整后的多模態(tài)預(yù)訓(xùn)練模型中,執(zhí)行微調(diào)訓(xùn)練,得到多模態(tài)大模型。

4、進(jìn)一步的,所述利用檢索算法針對第一識(shí)別數(shù)據(jù)搜尋向量數(shù)據(jù)庫,輸出對應(yīng)待識(shí)別ui效果圖的生成信息還包括:利用rag基于預(yù)設(shè)prompt模板針對第一識(shí)別數(shù)據(jù)搜尋向量數(shù)據(jù)庫,獲取匹配相似度最高的組件數(shù)據(jù);獲取待識(shí)別ui效果圖的結(jié)構(gòu)內(nèi)容數(shù)據(jù),整合組件數(shù)據(jù)以及結(jié)構(gòu)內(nèi)容數(shù)據(jù)獲取對應(yīng)待識(shí)別ui效果圖的生成信息。

5、進(jìn)一步的,所述根據(jù)歷史圖像數(shù)據(jù)以及多模態(tài)預(yù)訓(xùn)練模型執(zhí)行微調(diào)訓(xùn)練,獲取多模態(tài)大模型還包括:構(gòu)建包含圖表、與之對應(yīng)的文本描述以及相關(guān)問題的三聯(lián)體;基于評估模型比較候選模型以及多模態(tài)大模型對應(yīng)于三聯(lián)體的輸出結(jié)果,輸出多模態(tài)大模型評估結(jié)果;根據(jù)評估結(jié)果判斷多模態(tài)大模型是否需要迭代訓(xùn)練。

6、進(jìn)一步的,所述基于內(nèi)置組件數(shù)據(jù)結(jié)構(gòu)構(gòu)建向量數(shù)據(jù)庫包括:獲取圖表元素關(guān)系構(gòu)建知識(shí)圖譜;獲取內(nèi)置組件數(shù)據(jù)結(jié)構(gòu),根據(jù)知識(shí)圖譜以及內(nèi)置組件數(shù)據(jù)結(jié)構(gòu)構(gòu)建向量數(shù)據(jù)庫。

7、進(jìn)一步的,所述根據(jù)知識(shí)圖譜以及內(nèi)置組件數(shù)據(jù)結(jié)構(gòu)構(gòu)建向量數(shù)據(jù)庫還包括:將內(nèi)置組件數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換為json對象數(shù)據(jù);從每個(gè)json對象數(shù)據(jù)中提取關(guān)鍵屬性,并轉(zhuǎn)換為特征向量;對特征向量進(jìn)行標(biāo)準(zhǔn)化處理;將標(biāo)準(zhǔn)化處理后的特征向量根據(jù)知識(shí)圖譜構(gòu)建關(guān)聯(lián)性,得到向量數(shù)據(jù)庫。

8、進(jìn)一步的,所述根據(jù)歷史圖像數(shù)據(jù)以及多模態(tài)預(yù)訓(xùn)練模型執(zhí)行微調(diào)訓(xùn)練還包括:獲取歷史圖像數(shù)據(jù)的關(guān)鍵特征,基于歷史圖像數(shù)據(jù)關(guān)鍵特征匹配微調(diào)層次;利用lora根據(jù)微調(diào)層次以及歷史圖像數(shù)據(jù)對多模態(tài)預(yù)訓(xùn)練模型執(zhí)行微調(diào)訓(xùn)練。

9、進(jìn)一步的,所述獲取歷史圖像數(shù)據(jù)的關(guān)鍵特征,基于歷史圖像數(shù)據(jù)關(guān)鍵特征匹配微調(diào)層次包括:獲取歷史圖像數(shù)據(jù),識(shí)別歷史圖像數(shù)據(jù)的關(guān)鍵特征;若關(guān)鍵特征為基本視覺特征,則以圖像編碼的初始卷積層作為微調(diào)層次;若關(guān)鍵特征為復(fù)雜結(jié)構(gòu)特征,則以圖像編碼的中間卷積層作為微調(diào)層次;若關(guān)鍵特征為全局語義特征,則以圖像編碼的頂層卷積層或全連接層作為微調(diào)層次。

10、進(jìn)一步的,所述利用lora根據(jù)微調(diào)層次以及歷史圖像數(shù)據(jù)對多模態(tài)預(yù)訓(xùn)練模型執(zhí)行微調(diào)訓(xùn)練還包括:利用lora根據(jù)微調(diào)層次調(diào)整多模態(tài)預(yù)訓(xùn)練模型的權(quán)重矩陣;對歷史圖像數(shù)據(jù)進(jìn)行圖像編碼和文本編碼,獲取視覺特征與語言特征;基于交叉注意力模塊映射視覺特征與語言特征,計(jì)算注意力權(quán)重;基于注意力權(quán)重以及門控融合機(jī)制獲得融合視覺特征;基于損失函數(shù)以及融合視覺特征更新微調(diào)參數(shù),執(zhí)行微調(diào)訓(xùn)練。

11、進(jìn)一步的,所述獲取歷史圖像數(shù)據(jù),對歷史圖像數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理包括:對歷史圖像數(shù)據(jù)中的圖片數(shù)據(jù)執(zhí)行圖像歸一化處理以及尺寸調(diào)整;對歷史圖像數(shù)據(jù)中的結(jié)構(gòu)內(nèi)容數(shù)據(jù)執(zhí)行信息解析以及格式轉(zhuǎn)換。

12、進(jìn)一步的,所述對歷史圖像數(shù)據(jù)中的圖片數(shù)據(jù)執(zhí)行尺寸調(diào)整包括:獲取多模態(tài)預(yù)訓(xùn)練模型的分辨率,根據(jù)多模態(tài)預(yù)訓(xùn)練模型的分辨率以及圖片數(shù)據(jù)的原始分辨率得到調(diào)整值;當(dāng)調(diào)整值為負(fù)值時(shí),調(diào)用最近鄰插值對圖片數(shù)據(jù)執(zhí)行尺寸調(diào)整;當(dāng)調(diào)整值為正值時(shí),計(jì)算圖片量,根據(jù)圖片量梯度調(diào)用對應(yīng)階次插值方法。

13、本技術(shù)提供的另一種技術(shù)方案是,基于多模態(tài)大模型的ui效果圖識(shí)別系統(tǒng),用于實(shí)現(xiàn)如上述的基于多模態(tài)大模型的ui效果圖識(shí)別方法,包括:問答標(biāo)注模塊,基于用戶標(biāo)注以及問答獲取歷史圖像數(shù)據(jù);微調(diào)訓(xùn)練模塊,基于歷史圖像數(shù)據(jù)以及多模態(tài)預(yù)訓(xùn)練模型執(zhí)行微調(diào)訓(xùn)練,獲取多模態(tài)大模型;向量數(shù)據(jù)庫,預(yù)存內(nèi)置組件數(shù)據(jù)結(jié)構(gòu);識(shí)別生成模塊,獲取待識(shí)別ui效果圖,基于多模態(tài)大模型以及待識(shí)別ui效果圖輸出第一識(shí)別數(shù)據(jù),利用檢索算法針對第一識(shí)別數(shù)據(jù)搜尋向量數(shù)據(jù)庫,輸出對應(yīng)待識(shí)別ui效果圖的生成信息。

14、本技術(shù)提供的又一種技術(shù)方案是,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)程序或指令,當(dāng)所述計(jì)算機(jī)程序或指令被處理設(shè)備執(zhí)行時(shí),實(shí)現(xiàn)如上述的基于多模態(tài)大模型的ui效果圖識(shí)別方法。

15、本技術(shù)的有益效果:1.隨著歷史設(shè)計(jì)圖數(shù)據(jù)的不斷增加和組件庫的豐富,可以不斷微調(diào)模型,提高識(shí)別的準(zhǔn)確性和效率,同時(shí)適應(yīng)性調(diào)整向量數(shù)據(jù)庫,無需變動(dòng)訓(xùn)練好的多模態(tài)大數(shù)據(jù),即可適應(yīng)不同的應(yīng)用場景和需求,實(shí)用性更強(qiáng)。

16、?2.針對不同歷史圖像數(shù)據(jù),選用不同的微調(diào)形式,同時(shí)凍結(jié)其余層,減少訓(xùn)練計(jì)算量的同時(shí)針對性更強(qiáng),實(shí)現(xiàn)效率和準(zhǔn)確性的同步提高。

17、?3.通過部分微調(diào)圖像編碼的特定層,可以使得模型更加專注于學(xué)習(xí)這些與圖表識(shí)別密切相關(guān)的特征,提高模型對圖表細(xì)節(jié)的理解能力,從而提升識(shí)別準(zhǔn)確性。同時(shí)避免了對整個(gè)圖像編碼的全面微調(diào),減少了計(jì)算資源的消耗和訓(xùn)練時(shí)間,實(shí)現(xiàn)高效的微調(diào)。

18、?4.通過在投影層實(shí)現(xiàn)視覺和語言信息的深層次融合,使得模型能夠同時(shí)理解和處理圖表中的視覺特征和文本信息。通過跨模態(tài)注意力和門控機(jī)制,模型能夠捕捉到視覺和語言之間的復(fù)雜關(guān)聯(lián),從而生成更加準(zhǔn)確和豐富的圖表描述,提升模型對圖表的理解能力,擴(kuò)展模型的應(yīng)用范圍,使得模型能夠處理更多種類的圖表和更復(fù)雜的文本描述,提高了模型的泛化能力和實(shí)用性。

19、?5.通過微調(diào)少量前綴參數(shù)來適應(yīng)下游任務(wù),使得模型能夠快速地適應(yīng)不同的圖表識(shí)別任務(wù),而無需對整個(gè)模型進(jìn)行大規(guī)模調(diào)整,避免了因過度微調(diào)而導(dǎo)致的模型性能下降或過擬合問題,還減少了計(jì)算資源的消耗,使得模型微調(diào)更加高效。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
通辽市| 四平市| 彰化县| 元氏县| 新竹县| 桂东县| 呼图壁县| 大冶市| 武清区| 昌邑市| 正镶白旗| 自贡市| 商丘市| 鹿邑县| 清水河县| 新余市| 滕州市| 巴彦县| 双城市| 星子县| 集贤县| 华宁县| 左云县| 英山县| 特克斯县| 贵南县| 延长县| 威宁| 青神县| 广南县| 宣汉县| 即墨市| 噶尔县| 浮梁县| 翁源县| 东明县| 扶沟县| 建平县| 河西区| 方山县| 柞水县|