一種電商虛假評(píng)價(jià)的判斷識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及互聯(lián)網(wǎng)領(lǐng)域,特別設(shè)及一種電商虛假評(píng)價(jià)的判斷識(shí)別方法。
【背景技術(shù)】
[0002] 在當(dāng)代,隨著互聯(lián)網(wǎng)的普及,電子商務(wù)已經(jīng)成為一種被廣泛利用的商業(yè)貿(mào)易方式。 買(mǎi)賣雙方主要是通過(guò)電商的網(wǎng)頁(yè)或者是軟件進(jìn)行交易活動(dòng)。由于電子商務(wù)沒(méi)有傳統(tǒng)的實(shí)體 店面,對(duì)銷售人員的數(shù)量要求也不高,所W相比傳統(tǒng)交易模式更能夠控制運(yùn)營(yíng)成本,因而有 著更大的價(jià)格優(yōu)勢(shì)。但是,有很多不法商家為了提高自己的銷量從而雇傭?qū)I(yè)刷評(píng)價(jià)團(tuán)隊(duì) 制造大量的虛假評(píng)價(jià)來(lái)對(duì)自己的商品進(jìn)行虛假的宣傳,從而欺騙消費(fèi)者來(lái)提高自己的真實(shí) 銷量。
[0003] 為了判別現(xiàn)在商家偽造的虛假評(píng)價(jià),現(xiàn)有技術(shù)的主要的方法包括;1.統(tǒng)計(jì)評(píng)價(jià)相 同內(nèi)容的數(shù)量,如果同一評(píng)價(jià)出現(xiàn)的次數(shù)過(guò)多,即可判別為虛假評(píng)價(jià);2.統(tǒng)計(jì)相同的ID,如 果相同的ID在一段時(shí)間內(nèi)發(fā)出很大數(shù)量的評(píng)價(jià),即可判讀為虛假評(píng)價(jià)。
[0004] 現(xiàn)有的虛假評(píng)價(jià)判別方法主要是通過(guò)相同評(píng)價(jià)的內(nèi)容和相同的評(píng)價(jià)人(ID)來(lái)進(jìn) 行判別。但是該兩種判別方法都存在很大的問(wèn)題。由于僅從相同的評(píng)價(jià)內(nèi)容去判別,就會(huì) 漏判很多的虛假評(píng)價(jià),因?yàn)橛行┰u(píng)價(jià)僅僅是有少數(shù)幾個(gè)字不同,卻不能被判別出是虛假評(píng) 價(jià),例如評(píng)價(jià)1 ;該些商品不錯(cuò);評(píng)價(jià)2 ;該些東西不錯(cuò)。同樣第二種判別方法也存在很大的 技術(shù)缺陷,因?yàn)橹徽J(rèn)為相同ID發(fā)出的評(píng)價(jià)才是虛假評(píng)價(jià),或者是相同ID發(fā)出一定數(shù)量的評(píng) 價(jià)就是虛假評(píng)價(jià);該樣的判別方法是不完善,不準(zhǔn)確的。因?yàn)楝F(xiàn)在的職業(yè)評(píng)價(jià)師會(huì)人工或者 利用自動(dòng)注冊(cè)機(jī)來(lái)注冊(cè)很多小號(hào)(所謂的小號(hào)是指,同一個(gè)人注冊(cè)和使用的不同的ID號(hào)) 然后用不同的小號(hào)對(duì)商品進(jìn)行虛假購(gòu)買(mǎi)最后進(jìn)行虛假評(píng)價(jià);在現(xiàn)有識(shí)別技術(shù)中因?yàn)樘摷僬?所使用的ID號(hào)不相同,而不能將該些虛假評(píng)價(jià)識(shí)別出來(lái)。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于克服現(xiàn)有方法中僅僅通過(guò)統(tǒng)計(jì)相同評(píng)價(jià)內(nèi)容和相同ID來(lái)判別 虛假評(píng)價(jià)的不足,提供一種電商虛假評(píng)價(jià)的判斷識(shí)別方法。除了統(tǒng)計(jì)商品的相同評(píng)價(jià)內(nèi)容 和相同評(píng)價(jià)ID,還采用機(jī)器學(xué)習(xí)的方法來(lái)判別相似的評(píng)價(jià)內(nèi)容和相似的評(píng)價(jià)ID。通過(guò)客戶 機(jī)訪問(wèn)目標(biāo)商品的網(wǎng)頁(yè),在訪問(wèn)的時(shí)候監(jiān)測(cè)和自動(dòng)分析目標(biāo)頁(yè)面并爬取該網(wǎng)頁(yè)的關(guān)于用戶 評(píng)價(jià)內(nèi)容數(shù)據(jù)和評(píng)價(jià)ID;再通過(guò)服務(wù)器對(duì)爬取到的評(píng)價(jià)內(nèi)容數(shù)據(jù)進(jìn)行判斷;分析評(píng)價(jià)內(nèi)容 數(shù)據(jù)的相同數(shù)量和相似文本的概率,并統(tǒng)計(jì)結(jié)果;通過(guò)對(duì)評(píng)價(jià)ID進(jìn)行分析,判斷相同ID出 現(xiàn)的次數(shù)和相似ID的概率并統(tǒng)計(jì)結(jié)果,通過(guò)將統(tǒng)計(jì)結(jié)果和預(yù)先設(shè)置的闊值進(jìn)行比較,如統(tǒng) 計(jì)結(jié)果高于設(shè)置的闊值即判斷為虛假評(píng)價(jià)。
[0006] 為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供了W下技術(shù)方案:
[0007] 一種電商虛假評(píng)價(jià)的判斷識(shí)別方法;本發(fā)明提出的虛假評(píng)價(jià)的判別識(shí)別系統(tǒng)包 括,客戶機(jī)和服務(wù)器;通過(guò)客戶機(jī)爬取網(wǎng)頁(yè)數(shù)據(jù)并用服務(wù)器對(duì)客戶機(jī)爬取的數(shù)據(jù)進(jìn)行判別, 具體技術(shù)方案包括W下步驟:
[000引步驟(1);通過(guò)客戶機(jī)訪問(wèn)目標(biāo)商品的網(wǎng)址;分析目標(biāo)商品的網(wǎng)頁(yè)信息,并獲取該 網(wǎng)頁(yè)的關(guān)于用戶評(píng)價(jià)內(nèi)容數(shù)據(jù)和評(píng)價(jià)ID。目前通過(guò)爬蟲(chóng)技術(shù)可W很方便的自動(dòng)獲取到目標(biāo) 網(wǎng)頁(yè)中的相關(guān)信息,提取的速度快,可分析數(shù)據(jù)的總量巨大,所提取數(shù)據(jù)的分析方法成熟, 成本低廉;通過(guò)客戶機(jī)對(duì)目標(biāo)商品的分析和數(shù)據(jù)取。
[0009] 步驟(2);將客戶機(jī)所獲取到的相關(guān)數(shù)據(jù)輸入到服務(wù)器中,對(duì)相關(guān)評(píng)價(jià)數(shù)據(jù)進(jìn)行 評(píng)價(jià)內(nèi)容文本的相似度分析和ID相似度的分析;目前職業(yè)評(píng)價(jià)師所注冊(cè)和使用的小號(hào)的ID具有一定規(guī)律性;一般情況下,職業(yè)評(píng)價(jià)師所注冊(cè)的一系列ID號(hào)是根據(jù)系統(tǒng)推薦手動(dòng)注 冊(cè)或者按照一定規(guī)律自動(dòng)生成的,該樣的方式所產(chǎn)生的ID號(hào)會(huì)具有較大的關(guān)聯(lián)性和相似 性,比如說(shuō)ABC1、ABC2、ABC3、ABC4、ABC5.....ABCn。
[0010] 具體的包括,步驟(2-1);在服務(wù)器端對(duì)接收到的評(píng)價(jià)內(nèi)容進(jìn)行統(tǒng)計(jì)分析,分別統(tǒng) 計(jì)相同評(píng)價(jià)出現(xiàn)的數(shù)量;并通過(guò)文本相似性計(jì)算出其他的評(píng)價(jià)之間的相似概率值,如果該 概率值高于預(yù)設(shè)的文本相似闊值(闊值的獲得通過(guò)機(jī)器學(xué)習(xí)的方法自動(dòng)獲得),則將該些 評(píng)價(jià)判定為由同一個(gè)人做出的相似評(píng)價(jià);統(tǒng)計(jì)出相似評(píng)價(jià)的數(shù)量。
[0011] 作為一種優(yōu)選,所述步驟(2-1)中的文本相似性采用文本余弦相似性算法。
[0012] 步驟(2-2);在服務(wù)器端對(duì)接收到的用戶ID進(jìn)行統(tǒng)計(jì)分析,分別統(tǒng)計(jì)相同ID出現(xiàn) 的數(shù)量,并計(jì)算出其他不同的ID之間的相似概率值,如果該概率值高于預(yù)設(shè)的ID相似闊值 (ID相似闊值也通過(guò)機(jī)器學(xué)習(xí)的方法自動(dòng)獲?。?,則將該些ID判定為是同一個(gè)人注冊(cè)生成 的ID;統(tǒng)計(jì)相似ID的數(shù)量。
[0013] 步驟(2-3);在服務(wù)器端對(duì)用戶ID發(fā)出評(píng)價(jià)的時(shí)間和頻率進(jìn)行判別,并計(jì)算出一 個(gè)作弊因子。
[0014] 步驟(3);在服務(wù)器上利用虛假評(píng)價(jià)判別系統(tǒng),結(jié)合相似評(píng)價(jià)、相似ID和作弊因子 來(lái)綜合判別目標(biāo)商品的評(píng)價(jià)中是否存在虛假評(píng)價(jià),并計(jì)算虛假評(píng)價(jià)率(所述虛假評(píng)價(jià)率= 虛假評(píng)價(jià)數(shù)量/總的評(píng)價(jià)數(shù)量)。
[0015] 步驟(4);將虛假評(píng)價(jià)判別系統(tǒng)的判別結(jié)果返回給客戶機(jī),通過(guò)客戶機(jī)對(duì)虛假評(píng) 價(jià)給出識(shí)別標(biāo)簽。本發(fā)明對(duì)目標(biāo)商品的評(píng)價(jià)的真實(shí)性進(jìn)行更加科學(xué)和準(zhǔn)確的分析,并通過(guò) 對(duì)虛假評(píng)價(jià)的標(biāo)記,直觀的將電商的評(píng)價(jià)作弊的不誠(chéng)信行為展示到商品買(mǎi)家和電商管理者 面前;有利于電子商務(wù)環(huán)境的凈化,維護(hù)了商品購(gòu)買(mǎi)者和誠(chéng)信賣家的合理利益,提高商家信 譽(yù)的可信度;有助于電商行業(yè)的健康發(fā)展。
[0016] 進(jìn)一步的,設(shè)計(jì)信用等級(jí)標(biāo)準(zhǔn),通過(guò)對(duì)目標(biāo)商品所判定出的虛假評(píng)價(jià)率,對(duì)相應(yīng)商 家的信用級(jí)別進(jìn)行標(biāo)記,W便商品的購(gòu)買(mǎi)者可W根據(jù)商家的虛假評(píng)價(jià)率和信用級(jí)別來(lái)做出 相應(yīng)的商品交易決定,降低購(gòu)買(mǎi)者因?yàn)橘u家的評(píng)價(jià)作弊而做出的交易風(fēng)險(xiǎn)。
[0017] 進(jìn)一步的,所述步驟(2-1)和步驟(2-2)可W同時(shí)進(jìn)行,也可W依次進(jìn)行;依次進(jìn) 行時(shí),所述步驟(2-1)和步驟(2-2)的進(jìn)行順序可W調(diào)換;本發(fā)明中相同或者相似文字識(shí)別 和相同或者相似ID識(shí)別過(guò)程可W分別獨(dú)立進(jìn)行,也可W同依次進(jìn)行(即可W對(duì)識(shí)別出的相 同或者相似評(píng)價(jià)文字的相應(yīng)ID進(jìn)行相似度判斷;另外也可W對(duì)相似ID的評(píng)價(jià)內(nèi)容進(jìn)行文 字相似判斷,該樣的統(tǒng)計(jì)結(jié)果的準(zhǔn)確性更高)。
[001引作為一種優(yōu)選,當(dāng)按所述步驟(2-2)和步驟(2-1)的順序依次進(jìn)行時(shí),所述步驟 (2-3)可W和所述步驟(2-1)并列進(jìn)行,即在相同和相似ID判斷結(jié)果的基礎(chǔ)上,可W通過(guò)對(duì) 步驟(2-1)的過(guò)程來(lái)判斷相同或者相似ID所發(fā)表的評(píng)價(jià)內(nèi)容是否相同或者相似,如果內(nèi)容 相同或者相似,則可W判斷該些評(píng)價(jià)內(nèi)容為虛假評(píng)價(jià);此外在相同和相似ID判斷結(jié)果的基 礎(chǔ)上,也可W通過(guò)步驟(2-3)來(lái)判斷該些相同和相似ID的作弊可能性(即作弊因子);如 果發(fā)出評(píng)價(jià)的頻率明顯高于正常的頻率,則判定該些ID為虛假評(píng)價(jià)ID。
[0019] 作為一種優(yōu)選,當(dāng)按所述步驟(2-1)和步驟(2-2)的順序依次進(jìn)行時(shí),所述步驟 (2-2)可W和所述步驟(2-3)依次進(jìn)行;即所述步驟(2)中的判斷順序?yàn)椋涸谙嗤拖嗨圃u(píng) 價(jià)內(nèi)容的基礎(chǔ)上,判斷出該些評(píng)價(jià)內(nèi)容ID是否相同或者相似;在此基礎(chǔ)上對(duì)判斷出該些ID 的作弊可能性(作弊因子);如