一種基于聯(lián)合矩陣分解模型的電力用戶細(xì)分方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計(jì)算機(jī)應(yīng)用技術(shù),數(shù)據(jù)挖掘,電力數(shù)據(jù)分析技術(shù)領(lǐng)域,特別是設(shè)及一種 基于聯(lián)合矩陣分解模型的電力用戶細(xì)分方法。
【背景技術(shù)】
[0002] 隨著電網(wǎng)信息化水平的提高,電力系統(tǒng)中產(chǎn)生了大量的數(shù)據(jù),同時(shí)也給電力數(shù)據(jù) 的分析帶來了新的挑戰(zhàn)。傳統(tǒng)的電力數(shù)據(jù)分析側(cè)重于對(duì)生產(chǎn)和供電環(huán)節(jié)中產(chǎn)生數(shù)據(jù)的研 究,對(duì)用戶數(shù)據(jù)的分析往往是針對(duì)所有用戶的,從而忽略了用戶本身的特點(diǎn)及用戶之間的 關(guān)聯(lián)關(guān)系。用戶數(shù)據(jù)中通常包含用戶的用電行為、地理位置、時(shí)間、日期等信息,而目前的用 戶數(shù)據(jù)分析,比較普遍的作法是使用聚類算法根據(jù)用電記錄對(duì)用戶進(jìn)行劃分,缺少對(duì)其他 信息的綜合分析,而運(yùn)些信息中往往包含影響用戶用電行為的重要因素。
[0003] 例如,王雷分析了電力行業(yè)客戶行為特征,采用k-means算法根據(jù)用戶的用電行 為,對(duì)用戶行為進(jìn)行聚類。而吳玲等采用終身價(jià)值理論,通過廣泛調(diào)研和專家咨詢,構(gòu)建了 電力用戶價(jià)值評(píng)估體系,并運(yùn)用層次分析法來評(píng)估用戶價(jià)值。宋才華等運(yùn)用客戶綜合價(jià)值 評(píng)估方法建立了客戶細(xì)分模型,構(gòu)建了基于客戶綜合價(jià)值的細(xì)分指標(biāo)體系,運(yùn)用賭權(quán)法和 專家經(jīng)驗(yàn)相結(jié)合的方式進(jìn)行用戶細(xì)分。有些研究人員從用戶可靠性要求、用戶價(jià)值和用戶 行為Ξ個(gè)維度,建立細(xì)分指標(biāo)體系,利用k-means算法對(duì)用戶進(jìn)行聚類。還有些研究人員通 過構(gòu)建電力大客戶行為和價(jià)值評(píng)估指標(biāo)體系,得到電力大客戶的需求特征和經(jīng)濟(jì)價(jià)值評(píng) 估,并設(shè)計(jì)大客戶信用綜合測(cè)評(píng)體系,實(shí)現(xiàn)對(duì)電力大客戶較全面準(zhǔn)確的精細(xì)化分類。
[0004] 矩陣分解模型是近年來較為流行的多變量分析模型,因其在文本和圖像等數(shù)據(jù)上 具有良好的可解釋性,在數(shù)據(jù)挖掘領(lǐng)域有著十分廣泛的應(yīng)用。矩陣分解模型將數(shù)據(jù)矩陣分 解為隱藏特征矩陣和系數(shù)矩陣的乘積,得到原始輸入數(shù)據(jù)在低維隱藏特征空間中的表示。 Lee和Seung等人提出一種非負(fù)矩陣分解模型,通過對(duì)輸入數(shù)據(jù)矩陣和輸出隱藏特征矩陣W 及系數(shù)矩陣采用非負(fù)約束,得到文本和圖像的表示,并進(jìn)行文本聚類和圖像恢復(fù)。而化i和 化等人在此基礎(chǔ)上,采用關(guān)系圖來約束數(shù)據(jù)在隱含空間中的表示,提高了非負(fù)矩陣分解模 型在文本聚類中的性能。而有些研究人員提出一種關(guān)系約束的矩陣分解模型,融合數(shù)據(jù)間 關(guān)聯(lián)關(guān)系和數(shù)據(jù)內(nèi)容,抽取隱含特征,并在文本分類數(shù)據(jù)中取得良好效果。Takeuchi等人則 將多個(gè)非負(fù)矩陣共同分解,融合用戶記錄、用戶社交關(guān)系和歌曲標(biāo)簽,得到用戶和歌曲在的 統(tǒng)一表示,并進(jìn)行歌曲推薦。
【發(fā)明內(nèi)容】
[000引為了解決上述問題,本發(fā)明的目的在于提供一種基于聯(lián)合矩陣分解模型的電力用 戶細(xì)分方法。
[0006] 為了達(dá)到上述目的,本發(fā)明提供的基于聯(lián)合矩陣分解模型的電力用戶細(xì)分方法包 括按順序執(zhí)行的下列步驟:
[0007] 步驟1)輸入用戶的用電記錄數(shù)據(jù),根據(jù)用電記錄數(shù)據(jù)構(gòu)建用戶的用電記錄矩陣; 輸入用戶的地理位置信息,將用戶的地理位置信息用層級(jí)表示,構(gòu)建用戶的地理位置信息 相似度矩陣,并調(diào)節(jié)不同層級(jí)的地理位置信息中不同組成部分的權(quán)重;
[0008] 步驟2)根據(jù)步驟1)獲得的用戶的用電記錄矩陣構(gòu)建聯(lián)合矩陣分解模型的目標(biāo)函 數(shù),分析影響用戶用電行為的時(shí)間因素與日期因素,并選擇合理的目標(biāo)函數(shù)求解算法進(jìn)行 求解,W得到用戶用電需求;
[0009] 步驟3)根據(jù)上述用戶用電需求對(duì)用戶進(jìn)行細(xì)分:
[0010] 在用戶細(xì)分過程中,需要計(jì)算兩個(gè)基本指標(biāo):1)不同用戶的用電需求矩陣的相似 度的衡量指標(biāo),2) -個(gè)用戶分組中,所有用戶的整體用電需求矩陣的計(jì)算。
[0011] 在步驟1)中,所述的輸入用戶的用電記錄數(shù)據(jù),根據(jù)用戶的用電記錄數(shù)據(jù)構(gòu)建用 電記錄矩陣的方法為:
[0012] 所輸入的用戶用電記錄數(shù)據(jù)中的所有用戶被表示為集合:
[0013] U={ui,U2,...,un}
[0014] 其中N表示數(shù)據(jù)中包含的用戶個(gè)數(shù),ui表示第i個(gè)用戶。
[0015] 第i個(gè)用戶的用電記錄數(shù)據(jù)被構(gòu)建為用電記錄矩陣:
[0016] U, e 吸嚴(yán)
[0017] 其中D表示數(shù)據(jù)中用電記錄包含的天數(shù),T表示每個(gè)用戶每天的用電記錄包含的均 勻采樣點(diǎn)的個(gè)數(shù),嶺?表示T行D列的非負(fù)實(shí)數(shù)矩陣。同時(shí),用巧和貨分別表示矩陣化的第t 行和第d列,即用戶Ui在每天第t個(gè)時(shí)間點(diǎn)上的所有用電記錄和在第d天的用電記錄,并用Mf 表示矩陣化的第t行第d列上的元素;
[0018] 最終,輸出所有用戶的用電記錄矩陣:
[0019]
Q
[0020] 在步驟1)中,所述的輸入用戶的地理位置信息,將用戶的地理位置信息用層級(jí)表 示,構(gòu)建用戶的地理位置信息相似度矩陣,并調(diào)節(jié)不同層級(jí)的地理位置信息中不同組成部 分的權(quán)重的方法為:
[0021] 第i個(gè)用戶的地理位置信息被表示為結(jié)構(gòu)體:
[0022]
[0023] 其中妊為居住地點(diǎn)中某個(gè)組成部分的字符串表示,貧按行政單位,即省、城市、區(qū) 縣、鄉(xiāng)鎮(zhèn)、街道、小區(qū)等,從大到小的順序排列;
[0024] 第i個(gè)用戶和第j個(gè)用戶的地理位置信息相似度計(jì)算公式為:
[0025]
[0026] 其中el嗦示兩個(gè)用戶地理位置信息的相似度值,δ(.,.)為邏輯函數(shù),當(dāng)兩個(gè)字 符串相同時(shí)取值1,否則為〇,λι^Ε(〇, 1)為平衡參數(shù),用于調(diào)節(jié)地理位置信息中不同組成部 分的權(quán)重,通過系統(tǒng)在驗(yàn)證數(shù)據(jù)集上的結(jié)果來調(diào)節(jié)平衡參數(shù)的選擇;
[0027] 最終,輸出所有用戶的地理位置信息相似度矩陣:
[0028] Ee 吸;XW 田
[0029] 在步驟2)中,所述的構(gòu)建用電記錄矩陣聯(lián)合分解的目標(biāo)函數(shù)的方法為:
[0030] (1)最大可能地降低每個(gè)用戶的用電記錄矩陣在分解為時(shí)間因素矩陣和日期因素 矩陣過程中的損失公式為:
[0031 ] min h= ||Ui-ViSiT| |2
[0032] 其中Vi表示影響第i個(gè)用戶用電行為的時(shí)間因素矩陣,Si表示影響第i個(gè)用戶用電 行為的日期因素矩陣;
[0033] (2)保持不同用戶的用電記錄矩陣分解得到的日期因素矩陣的一致性:
[0034]
[0035] 在此,所有N個(gè)用戶的分解目標(biāo)函數(shù)被融合到一起,并共享日期因素矩陣;
[0036] (3)最大可能地降低在地理位置上相鄰的用戶的時(shí)間因素矩陣的差異:
[0037]
[0038] (4)最大可能地保持時(shí)間因素矩陣的平滑:
[0039]
[0040] (5)最大可能地保持日期因素矩陣的平滑:
[0041 ] minl5=||S||2
[0042] 在此,采用矩陣的L2范式的平方II · II2來使矩陣保持平滑。
[0043] 最終,通過融合步驟(2)、(3)、(4)、(5)中的各項(xiàng)目標(biāo)函數(shù)得到聯(lián)合矩陣分解模型 的目標(biāo)函數(shù):
[0044]
[004引其中α、β和丫為平衡參數(shù),用于調(diào)節(jié)各項(xiàng)目標(biāo)函數(shù)之間的權(quán)重,可通過系統(tǒng)在驗(yàn)證 數(shù)據(jù)集上的結(jié)果來調(diào)節(jié)平衡參數(shù)的選擇。
[0046] 在步驟2)中,所述的選擇合理的目標(biāo)函數(shù)求解算法進(jìn)行求解的方法包括如下步 驟:
[0047] 步驟2.1)初始化矩陣Vi,V2,....Vw €齡《和S6 的S2.1階段:
[0048] K表示隱藏空間中用戶需求變量的個(gè)數(shù),矩陣Vi,V2,…Vn和S中的每個(gè)元素被隨機(jī) 初始化為0到1之間的實(shí)數(shù);
[0049 ]步驟2.2)對(duì)矩陣Vi中每個(gè)元素進(jìn)行求導(dǎo)的S2.2階段:
[0050] 根據(jù)最終目標(biāo)函數(shù)對(duì)Vi中每個(gè)元素求導(dǎo),具體公式為:
[0051]
[0052] 步驟2.3)對(duì)矩陣Vi中每個(gè)元素進(jìn)行更新的S2.3階段:
[0053] 每個(gè)皆分別減去步長(zhǎng)乘W梯度,具體的更新公式為療^皆-巧是人工設(shè)定的 步長(zhǎng);
[0054] 步驟2.4)判斷所有Vi矩陣是否更新完畢的S2.4階段:
[0055] 若所有的矩陣Vi均更新完畢,則進(jìn)行步驟2.5)階段,否則返回步驟2.2)對(duì)下一個(gè)Vi 進(jìn)行更新;
[0056] 步驟2.5)對(duì)矩陣S中每個(gè)元素進(jìn)行求導(dǎo)的S2