本發(fā)明涉及綠色出行,特別涉及一種基于機(jī)器學(xué)習(xí)的綠色出行影響因素挖掘及意愿程度衡量方法。
背景技術(shù):
1、中國碳核算數(shù)據(jù)庫(ceads)統(tǒng)計(jì)數(shù)據(jù)顯示,1995-2021年,我國交通領(lǐng)域碳排放量從130.21百萬噸增至727.9百萬噸左右,增長6倍。近年來居民對私家車出行的過度依賴導(dǎo)致私家車保有量的迅速增加,給城市的交通系統(tǒng)帶來了很大的壓力,使得交通擁堵等事件常態(tài)化。同時(shí)汽車尾氣排放造成的空氣污染和氣候變化等一系列問題,對健康和環(huán)境帶來了極大危害。因此,交通出行領(lǐng)域降碳問題的解決尤為迫切。
2、綠色出行是指出行個(gè)體主動(dòng)采用降低二氧化碳排放量的交通出行方式,包括多乘坐城市軌道交通、公共汽電車、合作乘車、環(huán)保駕車、自行車和步行等方式,又稱低碳出行或環(huán)保出行。作為一種節(jié)約能源、提高能效、減少污染、有益于健康、兼顧效率的出行方式,綠色出行能夠顯著地緩解城市交通擁堵,提升整體出行效率,減少碳排放以及改善空氣質(zhì)量,實(shí)現(xiàn)環(huán)境資源的可持續(xù)利用和交通的可持續(xù)發(fā)展。近年來,各個(gè)國家都在積極廣泛倡導(dǎo)綠色出行,促進(jìn)綠色出行的發(fā)展逐漸被視為一項(xiàng)重要的交通規(guī)劃目標(biāo)。
3、綠色出行會(huì)受到各種因素的影響,包括內(nèi)部心理因素和外部情境因素、個(gè)體的異質(zhì)性等。居民個(gè)體固有的內(nèi)部心理因素包括態(tài)度、價(jià)值觀、主觀規(guī)范及行為意向等。外部情境因素也會(huì)影響居民綠色出行,例如基礎(chǔ)設(shè)施建設(shè)與政策保障、社會(huì)關(guān)系,低碳氛圍、街道的綠化程度、城市綠化指數(shù)和建筑環(huán)境等。此外,不同因素間還存在交互影響作用。
4、關(guān)于綠色出行行為影響因素的研究較多,但大多采用文獻(xiàn)回顧、扎根理論等主觀方法進(jìn)行因素提取,然后基于問卷調(diào)查獲取高度結(jié)構(gòu)化數(shù)據(jù)進(jìn)行機(jī)制分析。而這種機(jī)制分析也多采用傳統(tǒng)計(jì)量模型,忽略了大數(shù)據(jù)時(shí)代影響因素間錯(cuò)綜復(fù)雜、相互疊加的關(guān)聯(lián)關(guān)系和因果關(guān)系。隨著網(wǎng)絡(luò)時(shí)代社交媒體的興起和大數(shù)據(jù)技術(shù)的發(fā)展,部分學(xué)者開始采用包含非結(jié)構(gòu)化數(shù)據(jù)的多源數(shù)據(jù)和機(jī)器學(xué)習(xí)方法分析綠色消費(fèi)等環(huán)保行為的影響因素和影響機(jī)理,由于社交媒體中大量的用戶文本數(shù)據(jù)可以被視為居民自愿提供的有關(guān)于綠色生活方式的有效信息。
5、盡管已有研究應(yīng)用社交媒體數(shù)據(jù)來挖掘行為意愿或者識別其影響因素,但大多數(shù)研究并未從非結(jié)構(gòu)化的帖子中直接提取到行動(dòng)意愿級別的相關(guān)信息,還停留在利用在線評論的打分?jǐn)?shù)據(jù)或者再次借助問卷等方法得到結(jié)構(gòu)化數(shù)據(jù)以進(jìn)行后續(xù)驗(yàn)證分析,非結(jié)構(gòu)化數(shù)據(jù)的篩選提取不夠全面,且對于影響因素的評斷方式過于單一,難以反映影響因素之間的關(guān)聯(lián)作用。
6、需要說明的是,公開于該發(fā)明背景技術(shù)部分的信息僅僅旨在加深對本發(fā)明一般背景技術(shù)的理解,而不應(yīng)當(dāng)被視為承認(rèn)或以任何形式暗示該信息構(gòu)成已為本領(lǐng)域技術(shù)人員所公知的現(xiàn)有技術(shù)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于機(jī)器學(xué)習(xí)的綠色出行影響因素挖掘及意愿程度衡量方法,以解決非結(jié)構(gòu)化數(shù)據(jù)的篩選提取不夠全面的問題。
2、為解決上述技術(shù)問題,本發(fā)明提供一種基于機(jī)器學(xué)習(xí)的綠色出行影響因素挖掘及意愿程度衡量方法,包括以下步驟:
3、根據(jù)設(shè)定詞收集若干條有效數(shù)據(jù),并利用word2vec算法進(jìn)行篩選;
4、利用bert模型對所述有效數(shù)據(jù)進(jìn)行綠色出行意愿挖掘,并對每條所述有效數(shù)據(jù)的綠色出行意愿的等級進(jìn)行標(biāo)注;
5、基于lda和umap對所述有效數(shù)據(jù)進(jìn)行綠色出行影響因素提??;
6、對綠色出行意愿和影響因素進(jìn)行關(guān)聯(lián)分析。
7、優(yōu)選地,在利用word2vec算法進(jìn)行篩選前,還對所述有效數(shù)據(jù)進(jìn)行預(yù)處理。
8、優(yōu)選地,使用word2vec算法進(jìn)行篩選包括:構(gòu)建skip-gram模型,使用所述有效數(shù)據(jù)訓(xùn)練所述skip-gram模型,將窗口設(shè)置為10,使用所述skip-gram模型計(jì)算出與中心詞“綠色出行”相似的50個(gè)詞,基于所述50個(gè)詞使用預(yù)設(shè)篩選規(guī)則對所述有效數(shù)據(jù)進(jìn)行篩選。
9、優(yōu)選地,所述預(yù)設(shè)篩選規(guī)則包括:在當(dāng)前有效數(shù)據(jù)的文本中,所包含的所述50個(gè)詞的余弦相似度之和大于等于1,則保留當(dāng)前有效數(shù)據(jù),否則,刪除當(dāng)前有效數(shù)據(jù)。
10、優(yōu)選地,所述bert模型的搭建包括:
11、提供若干條與綠色出行意愿有關(guān)的訓(xùn)練數(shù)據(jù);
12、將所述訓(xùn)練數(shù)據(jù)按照綠色出行意愿程度由低到高劃分為5個(gè)等級,并進(jìn)行標(biāo)注;
13、將部分的所述訓(xùn)練數(shù)據(jù)作為訓(xùn)練集,剩余的所述訓(xùn)練數(shù)據(jù)作為驗(yàn)證集;
14、使用所述訓(xùn)練集和所述驗(yàn)證集對所述bert模型進(jìn)行訓(xùn)練驗(yàn)證;
15、使用所述bert模型外層的adam優(yōu)化器進(jìn)行微調(diào)。
16、優(yōu)選地,基于lda和umap提取綠色出行影響因素包括:
17、利用lda對所述有效數(shù)據(jù)進(jìn)行聚類處理,同時(shí),向每條所述有效數(shù)據(jù)提供其從屬于每一影響因素主題的統(tǒng)計(jì)概率;
18、使用困惑度曲線來確定主題數(shù)量,核對每個(gè)聚類中的關(guān)鍵詞列表并進(jìn)行優(yōu)化;
19、將聚類結(jié)果通過umap模型進(jìn)行可視化處理。
20、優(yōu)選地,對綠色出行意愿和影響因素進(jìn)行關(guān)聯(lián)分析包括:將所述有效數(shù)據(jù)提供其從屬于每一影響因素主題的統(tǒng)計(jì)概率作為自變量,將所述有效數(shù)據(jù)的綠色出行意愿的等級作為因變量使用多元線性回歸模型分析。
21、優(yōu)選地,對綠色出行意愿和影響因素進(jìn)行關(guān)聯(lián)分析包括:
22、使用arm算法從所述有效數(shù)據(jù)中提取綠色出行意愿等級為所需值的影響因素組合;
23、使用每條所述有效數(shù)據(jù)從屬于每一影響因素主題的統(tǒng)計(jì)概率建立布爾數(shù)據(jù)集;
24、所述有效數(shù)據(jù)從屬于當(dāng)前影響因素主題的統(tǒng)計(jì)概率大于等于設(shè)定值,則認(rèn)為所述有效數(shù)據(jù)存在對應(yīng)的影響因素主題,否則,不存在。
25、一種基于機(jī)器學(xué)習(xí)的綠色出行影響因素挖掘及意愿程度衡量裝置,包括:
26、數(shù)據(jù)獲取模塊,用于根據(jù)設(shè)定關(guān)鍵詞收集若干條有效數(shù)據(jù),并利用word2vec算法進(jìn)行篩選;
27、數(shù)據(jù)處理模塊,用于利用bert模型對所述有效數(shù)據(jù)進(jìn)行綠色出行意愿挖掘,并對每條所述有效數(shù)據(jù)的綠色出行意愿的等級進(jìn)行標(biāo)注,所述數(shù)據(jù)處理模塊還基于lda和umap對所述有效數(shù)據(jù)進(jìn)行綠色出行影響因素提??;
28、數(shù)據(jù)分析模塊,用于對綠色出行意愿和影響因素進(jìn)行關(guān)聯(lián)分析
29、一種可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)運(yùn)行如上述的方法。
30、在本發(fā)明提供的基于機(jī)器學(xué)習(xí)的綠色出行影響因素挖掘及意愿程度衡量方法,通過爬取與綠色出行相關(guān)的文本數(shù)據(jù),使用word2vec算法等文本挖掘技術(shù)處理非結(jié)構(gòu)化數(shù)據(jù),并對篩選后的數(shù)據(jù)進(jìn)行分析,篩選相關(guān)有效數(shù)據(jù),在一定程度能夠上客觀、真實(shí)且全面地提取居民綠色出行意愿的影響因素體系;先使用bert模型來挖掘居民綠色出行的行為意愿,通過bert的文本分類方法來從有效數(shù)據(jù)中挖掘居民的gtbi(綠色出行意愿),避免了以往研究需要再次設(shè)計(jì)數(shù)據(jù)收集工具來衡量相關(guān)變量,在一定程度上保證了因變量與自變量的測量一致性;其次構(gòu)建lda主題模型來提取影響居民綠色出行的因素,并且使用umap將不同因素可視化在二維平面上。
31、本發(fā)明提供的基于機(jī)器學(xué)習(xí)的綠色出行影響因素挖掘及意愿程度衡量裝置與本發(fā)明提供的基于機(jī)器學(xué)習(xí)的綠色出行影響因素挖掘及意愿程度衡量方法屬于同一發(fā)明構(gòu)思,因此,本發(fā)明提供的基于機(jī)器學(xué)習(xí)的綠色出行影響因素挖掘及意愿程度衡量裝置至少具有本發(fā)明提供的基于機(jī)器學(xué)習(xí)的綠色出行影響因素挖掘及意愿程度衡量方法的所有優(yōu)點(diǎn),在此不再贅述。
32、本發(fā)明提供的可讀存儲(chǔ)介質(zhì)與本發(fā)明提供的基于機(jī)器學(xué)習(xí)的綠色出行影響因素挖掘及意愿程度衡量方法屬于同一發(fā)明構(gòu)思,因此,本發(fā)明提供的可讀存儲(chǔ)介質(zhì)至少具有本發(fā)明提供的基于機(jī)器學(xué)習(xí)的綠色出行影響因素挖掘及意愿程度衡量方法的所有優(yōu)點(diǎn),在此不再贅述。