欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種特定群體的識(shí)別方法、系統(tǒng)及終端的制作方法

文檔序號(hào):10656597閱讀:515來(lái)源:國(guó)知局
一種特定群體的識(shí)別方法、系統(tǒng)及終端的制作方法
【專利摘要】本發(fā)明提供一種特定群體的識(shí)別方法、系統(tǒng)及終端。該方法包括:獲取訂單信息,提取所述訂單信息中的地址信息組成地址庫(kù);構(gòu)建基于所述地址庫(kù)的規(guī)則樣本集和剩余地址集;所述規(guī)則樣本集初始為空集,所述剩余地址集初始為全量地址數(shù)據(jù);從所述剩余地址集中的全量地址數(shù)據(jù)中隨機(jī)抽取至少一條地址信息,放入所述規(guī)則樣本集中;識(shí)別并剔除放入所述規(guī)則樣本集中的地址信息中攜帶不符合特定群體的標(biāo)識(shí)信息的地址信息,將符合所述特定群體的標(biāo)識(shí)信息組成加法規(guī)則,將不符合所述特定群體的標(biāo)識(shí)信息組成減法規(guī)則;將所述加法規(guī)則和/或所述減法規(guī)則固化。其克服現(xiàn)有的電子商務(wù)領(lǐng)域的特定群體識(shí)別難的技術(shù)問(wèn)題,提高了特定群體的識(shí)別的效率和用戶體驗(yàn)。
【專利說(shuō)明】
-種特定群體的識(shí)別方法、系統(tǒng)及終端
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及電子商務(wù)領(lǐng)域,尤其設(shè)及一種特定群體的識(shí)別方法、系統(tǒng)及終端。
【背景技術(shù)】
[0002] 電子商務(wù)是利用微電腦技術(shù)和網(wǎng)絡(luò)技術(shù)進(jìn)行的商務(wù)活動(dòng),通常是指在全球各地廣 泛的商業(yè)貿(mào)易活動(dòng)中,在因特網(wǎng)開(kāi)放的網(wǎng)絡(luò)環(huán)境下,基于瀏覽器/服務(wù)器應(yīng)用方式,買賣雙 方不謀面地進(jìn)行各種商貿(mào)活動(dòng),實(shí)現(xiàn)消費(fèi)者的網(wǎng)上購(gòu)物、商戶之間的網(wǎng)上交易和在線電子 支付W及各種商務(wù)活動(dòng)、交易活動(dòng)、金融活動(dòng)和相關(guān)的綜合服務(wù)活動(dòng)的一種新型的商業(yè)運(yùn) 營(yíng)模式。各國(guó)政府、學(xué)者、企業(yè)界人±根據(jù)自己所處的地位和對(duì)電子商務(wù)參與的角度和程度 的不同,給出了許多不同的定義。電子商務(wù)分為:48(:、828、82(:、〔2(:、821、]\12(:、824(即826)、 C2A(即C2G)、020電子商務(wù)模式等等。電子商務(wù)的形成與交易離不開(kāi)W下S方面的關(guān)系:交 易平臺(tái)、平臺(tái)經(jīng)營(yíng)者和站內(nèi)經(jīng)營(yíng)者。
[0003] 網(wǎng)購(gòu)的普及使得電子商務(wù)整體市場(chǎng)保持高速增長(zhǎng),目前電子商務(wù)領(lǐng)域的用戶群體 數(shù)量龐大,則需要迅速?gòu)挠脩羧豪镏斜孀R(shí)到特性群體類別,針對(duì)該特定群體進(jìn)行特定營(yíng)銷 推廣,快速建立營(yíng)銷路徑。
[0004] 發(fā)明人在研究的過(guò)程中發(fā)現(xiàn),由于網(wǎng)購(gòu)本身的大眾化性質(zhì),無(wú)法通過(guò)消費(fèi)特征、行 為特征等有效區(qū)分不同的用戶群體,而區(qū)分特定用戶群體類別,目前主要有W下兩方面的 問(wèn)題:
[0005] -是獲取渠道。線上或線下問(wèn)卷調(diào)查的形式、線上用戶注冊(cè)時(shí)獲取,但如果問(wèn)卷或 者系統(tǒng)設(shè)計(jì)時(shí)沒(méi)有考慮職業(yè)運(yùn)一選項(xiàng),則不能收集到用戶的職業(yè)信息,同時(shí)很難覆蓋全量 用戶。
[0006] 二是數(shù)據(jù)的質(zhì)量。即使有收集到用戶的職業(yè)信息,用戶出于自我保護(hù)意識(shí),故意填 錯(cuò)導(dǎo)致數(shù)據(jù)質(zhì)量不高,誤差比較大。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明的主要目的在于提供一種特定群體的識(shí)別方法、系統(tǒng)及終端,W克服現(xiàn)有 的電子商務(wù)領(lǐng)域的特定用戶群體識(shí)別難的技術(shù)問(wèn)題。
[000引本發(fā)明一方面提供了一種特定群體的識(shí)別方法,包括:
[0009] 步驟一、獲取訂單信息,提取所述訂單信息中的地址信息組成地址庫(kù);
[0010] 步驟二、構(gòu)建基于所述地址庫(kù)的規(guī)則樣本集和剩余地址集;所述規(guī)則樣本集初始 為空集,所述剩余地址集初始為全量地址數(shù)據(jù);
[0011] 步驟=、從所述剩余地址集中的全量地址數(shù)據(jù)中隨機(jī)抽取至少一條地址信息,放 入所述規(guī)則樣本集中;識(shí)別并剔除放入所述規(guī)則樣本集中的地址信息中攜帶不符合特定群 體的標(biāo)識(shí)信息的地址信息,將符合所述特定群體的標(biāo)識(shí)信息組成加法規(guī)則,將不符合所述 特定群體的標(biāo)識(shí)信息組成減法規(guī)則;
[0012] 步驟四、將所述加法規(guī)則和/或所述減法規(guī)則固化。
[0013] 進(jìn)一步的,所述步驟一中,具體包括:獲取訂單信息,提取所述訂單信息中的有效 地址信息;
[0014] 所述有效地址信息,具體包括:可識(shí)別出所述地址信息中的行政區(qū)域標(biāo)識(shí)的地址 信息。
[0015] 進(jìn)一步的,步驟=中,所述放入所述規(guī)則樣本集中之后,還包括:
[0016] 將所述放入所述規(guī)則樣本集中至少一條地址信息,從所述剩余地址集中刪除。
[0017] 進(jìn)一步的,步驟=中,所述特定群體標(biāo)識(shí),包括:含有該特定群體的標(biāo)示性文字的 標(biāo)識(shí)信息;
[0018] 所述不符合特定群體標(biāo)識(shí),包括:含有該特定群體的標(biāo)示性文字的標(biāo)識(shí)信息的臨 近參考標(biāo)識(shí)信息。
[0019] 進(jìn)一步的,所述步驟=之后,還包括,擴(kuò)充加法規(guī)則,所述擴(kuò)充加法規(guī)則包括:重復(fù) 步驟=,直至所述規(guī)則樣本集中的地址信息滿足預(yù)定數(shù)量和/或所述加法規(guī)則的中增加的 標(biāo)識(shí)信息小于指定數(shù)量為止。
[0020] 進(jìn)一步的,所述步驟四中,將所述加法規(guī)則和/或所述減法規(guī)則固化,具體包括:
[0021] 不放回抽取所述地址庫(kù)中的至少一條數(shù)據(jù),根據(jù)該條數(shù)據(jù)中的地址信息匹配加法 規(guī)則和/或減法規(guī)則,匹配未成功后,且判斷所述地址庫(kù)中的數(shù)據(jù)未完成抽取,重復(fù)不放回 抽取所述地址庫(kù)中的至少一條數(shù)據(jù)的步驟;和/或
[0022] 不放回抽取所述地址庫(kù)中的至少一條數(shù)據(jù),根據(jù)該條數(shù)據(jù)中的地址信息匹配加法 規(guī)則和/或減法規(guī)則,匹配成功后,對(duì)該條數(shù)據(jù)標(biāo)注對(duì)應(yīng)的規(guī)則,且所述地址庫(kù)中的數(shù)據(jù)完 成抽取后,將所述加法規(guī)則和/或所述減法規(guī)則固化;和/或
[0023] 不放回抽取所述地址庫(kù)中的至少一條數(shù)據(jù),根據(jù)該條數(shù)據(jù)中的地址信息匹配加法 規(guī)則和/或減法規(guī)則,匹配未成功后,且判斷所述地址庫(kù)中的數(shù)據(jù)完成抽取,將所述加法規(guī) 則和/或所述減法規(guī)則固化。
[0024] 進(jìn)一步的,所述匹配加法規(guī)則和/或減法規(guī)則,判斷匹配完成后,且匹配結(jié)果不滿 足預(yù)定誤判率,還包括,擴(kuò)充減法規(guī)則,所述擴(kuò)充減法規(guī)則包括:加法規(guī)則和/或減法規(guī)則抽 取完畢之后,且所述加法規(guī)則和/或減法規(guī)則不滿足預(yù)定誤判率,增加不符合特定群體標(biāo) 識(shí),重復(fù)步驟直至滿足預(yù)定誤判率為止。
[0025] 本發(fā)明另一方面還提供了一種特定群體的識(shí)別系統(tǒng),包括:
[0026] 獲取模塊,用于獲取訂單信息,提取所述訂單信息中的地址信息組成地址庫(kù);
[0027] 構(gòu)建模塊,用于構(gòu)建基于所述地址庫(kù)的規(guī)則樣本集和剩余地址集;所述規(guī)則樣本 集初始為空集,所述剩余地址集初始為全量地址數(shù)據(jù);
[0028] 規(guī)則模塊,用于從所述剩余地址集中的全量地址數(shù)據(jù)中隨機(jī)抽取至少一條地址信 息,放入所述規(guī)則樣本集中;識(shí)別并剔除放入所述規(guī)則樣本集中的地址信息中攜帶不符合 特定群體的標(biāo)識(shí)信息的地址信息,將符合所述特定群體的標(biāo)識(shí)信息組成加法規(guī)則,將不符 合所述特定群體的標(biāo)識(shí)信息組成減法規(guī)則;
[0029] 固化模塊,用于將所述加法規(guī)則和/或所述減法規(guī)則固化。
[0030] 進(jìn)一步的,所述獲取模塊,具體包括:
[0031] 獲取單元,用于獲取訂單信息,提取所述訂單信息中的有效地址信息;所述有效地 址信息,具體包括:可識(shí)別出所述地址信息中的行政區(qū)域標(biāo)識(shí)的地址信息。
[0032] 進(jìn)一步的,所述規(guī)則模塊,還包括:
[0033] 刪除單元,用于將所述放入所述規(guī)則樣本集中至少一條地址信息,從所述剩余地 址集中刪除。
[0034] 進(jìn)一步的,所述特定群體標(biāo)識(shí),包括:含有該特定群體的標(biāo)示性文字的標(biāo)識(shí)信息;
[0035] 所述不符合特定群體標(biāo)識(shí),包括:含有該特定群體的標(biāo)示性文字的標(biāo)識(shí)信息的臨 近參考標(biāo)識(shí)信息。
[0036] 進(jìn)一步的,還包括:
[0037] 第一規(guī)則單元,所述第一規(guī)則單元攜帶擴(kuò)充加法規(guī)則,所述擴(kuò)充加法規(guī)則包括:運(yùn) 行規(guī)則模塊,直至所述規(guī)則樣本集中的地址信息滿足預(yù)定數(shù)量和/或所述加法規(guī)則的中增 加的標(biāo)識(shí)信息小于指定數(shù)量為止;
[0038] 第二規(guī)則單元,所述第二規(guī)則單元攜帶擴(kuò)充減法規(guī)則,用于匹配加法規(guī)則和/或減 法規(guī)則,判斷匹配完成后,且匹配結(jié)果不滿足預(yù)定誤判率,啟動(dòng)擴(kuò)充減法規(guī)則,包括:加法規(guī) 則和/或減法規(guī)則抽取完畢之后,且所述加法規(guī)則和/或減法規(guī)則不滿足預(yù)定誤判率,增加 不符合特定群體標(biāo)識(shí),重復(fù)步驟直至滿足預(yù)定誤判率為止。
[0039] 進(jìn)一步的,該系統(tǒng)還包括包括:
[0040] 第一匹配單元,用于不放回抽取所述地址庫(kù)中的至少一條數(shù)據(jù),根據(jù)該條數(shù)據(jù)中 的地址信息匹配加法規(guī)則和/或減法規(guī)則,匹配未成功后,且判斷所述地址庫(kù)中的數(shù)據(jù)未完 成抽取,重復(fù)不放回抽取所述地址庫(kù)中的至少一條數(shù)據(jù)的步驟;和/或
[0041] 第二匹配單元,用于不放回抽取所述地址庫(kù)中的至少一條數(shù)據(jù),根據(jù)該條數(shù)據(jù)中 的地址信息匹配加法規(guī)則和/或減法規(guī)則,匹配成功后,對(duì)該條數(shù)據(jù)標(biāo)注對(duì)應(yīng)的規(guī)則,且所 述地址庫(kù)中的數(shù)據(jù)完成抽取后,將所述加法規(guī)則和/或所述減法規(guī)則固化;和/或
[0042] 第=匹配單元,用于不放回抽取所述地址庫(kù)中的至少一條數(shù)據(jù),根據(jù)該條數(shù)據(jù)中 的地址信息匹配加法規(guī)則和/或減法規(guī)則,匹配未成功后,且判斷所述地址庫(kù)中的數(shù)據(jù)完成 抽取,將所述加法規(guī)則和/或所述減法規(guī)則固化。
[0043] 本發(fā)明另一方面還提供了一種特定群體的識(shí)別終端,包括所述的系統(tǒng)。
[0044] 本發(fā)明通過(guò)獲取訂單信息,提取所述訂單信息中的地址信息作為地址庫(kù);從而構(gòu) 建基于所述地址庫(kù)的規(guī)則樣本集和剩余地址集;所述規(guī)則樣本集初始為空集,所述剩余地 址集初始為全量地址數(shù)據(jù);并從所述剩余地址集中的全量地址數(shù)據(jù)中隨機(jī)抽取至少一條地 址信息,放入所述規(guī)則樣本集中;識(shí)別并剔除放入所述規(guī)則樣本集中的地址信息中攜帶不 符合特定群體的標(biāo)識(shí)信息的地址信息,將符合所述特定群體的標(biāo)識(shí)信息組成加法規(guī)則,將 不符合所述特定群體的標(biāo)識(shí)信息組成減法規(guī)則;同時(shí)將所述加法規(guī)則和/或所述減法規(guī)則 固化后,識(shí)別特定群體,例如學(xué)生類群體、公職類群體。通過(guò)分析特定群體的消費(fèi)特征、行為 特征等,為其匹配相關(guān)的項(xiàng)目或活動(dòng)進(jìn)行營(yíng)銷。
【附圖說(shuō)明】
[0045] 圖1為根據(jù)本發(fā)明的一種特定群體的識(shí)別方法的實(shí)施例一的流程圖;
[0046] 圖2為根據(jù)本發(fā)明的一種特定群體的識(shí)別方法的實(shí)施例二的流程圖;
[0047] 圖3為根據(jù)本發(fā)明的一種特定群體的識(shí)別方法的實(shí)施例=的流程圖;
[0048] 圖4為根據(jù)本發(fā)明的一種特定群體的識(shí)別系統(tǒng)的實(shí)施例四的結(jié)構(gòu)框圖之一;
[0049] 圖5為根據(jù)本發(fā)明的一種特定群體的識(shí)別系統(tǒng)的實(shí)施例五的結(jié)構(gòu)框圖之二;
[0050] 圖6為根據(jù)本發(fā)明的一種特定群體的識(shí)別系統(tǒng)的實(shí)施例六的結(jié)構(gòu)框圖之=。
【具體實(shí)施方式】
[0051] 下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例提供的一種特定群體的識(shí)別方法、系統(tǒng)及終端進(jìn)行 詳細(xì)描述。
[0052] 實(shí)施例一
[0053] 參照?qǐng)D1,圖1示出了本發(fā)明的方法的一實(shí)施例的流程圖。
[0054] 本發(fā)明一方面提供了一種特定群體的識(shí)別方法,包括:
[0055] 在步驟一中,獲取訂單信息,提取所述訂單信息中的地址信息組成地址庫(kù)。
[0056] 具體的,獲取訂單信息,包括,獲取有效訂單信息,提取所述訂單信息或有效訂單 信息中的有效地址信息。
[0057] 所述有效訂單信息,只標(biāo)記已完成的訂單信息;所述有效地址信息,是指地址的精 確程度,即通過(guò)常規(guī)電子地圖(如百度地圖、高德地圖)能很快精準(zhǔn)定位地理位置的地址。具 體包括:可識(shí)別出所述地址信息中的行政區(qū)域標(biāo)識(shí)的地址信息。
[005引作為優(yōu)選實(shí)施例,有效地址判定方法如下:
[0059] 1、城鎮(zhèn)級(jí)特征的地址視為有效地址。即包含W下關(guān)鍵詞的地址默認(rèn)為有效地址: "小區(qū)"、"衡V'路"、"弄'、"巷'如,"北京市昌平區(qū)"為無(wú)效地址,"北京市昌平區(qū)立水橋合立 方小區(qū)3號(hào)樓二單元1102室"是有效地址。
[0060] 2、村級(jí)特征的地址視為有效地址。即包含W下關(guān)鍵詞的地址默認(rèn)為有效地址: "村"、"莊"、"寨"如,"臨巧市巧南縣"為無(wú)效地址,"臨巧市巧南縣楊坡鎮(zhèn)李家坡村"為有效 地址。
[0061] 該判定方法可通過(guò)電子地圖工具判定或地址的精確度判定,如城鎮(zhèn)級(jí)地址判定或 村級(jí)地址判定。
[0062] 在步驟二中,構(gòu)建基于所述地址庫(kù)的規(guī)則樣本集和剩余地址集;所述規(guī)則樣本集 初始為空集,所述剩余地址集初始為全量地址數(shù)據(jù)。
[0063] 在步驟=中,從所述剩余地址集中的全量地址數(shù)據(jù)中隨機(jī)抽取至少一條地址信 息,放入所述規(guī)則樣本集中;識(shí)別并剔除放入所述規(guī)則樣本集中的地址信息中攜帶不符合 特定群體的標(biāo)識(shí)信息的地址信息,將符合所述特定群體的標(biāo)識(shí)信息組成加法規(guī)則,將不符 合所述特定群體的標(biāo)識(shí)信息組成減法規(guī)則。
[0064] 其中,所述放入所述規(guī)則樣本集中之后,還包括:
[0065] 將所述放入所述規(guī)則樣本集中至少一條地址信息,從所述剩余地址集中刪除。
[0066] 具體的,所述特定群體標(biāo)識(shí),包括:含有該特定群體的標(biāo)示性文字的標(biāo)識(shí)信息;所 述不符合特定群體標(biāo)識(shí),包括:含有該特定群體的標(biāo)示性文字的標(biāo)識(shí)信息的臨近參考標(biāo)識(shí) 信息。
[0067] 如特定群體為學(xué)生類群體,含有該特定群體的標(biāo)示性文字的標(biāo)識(shí)信息至少為包含 關(guān)鍵詞"大學(xué)",所述不符合特定群體標(biāo)識(shí)的標(biāo)識(shí)信息至少為包含關(guān)鍵詞"大學(xué)"且"大學(xué)"后 包含關(guān)鍵詞"附近",如"北京大學(xué)北口附近全時(shí)便利店"。
[0068] 作為優(yōu)選實(shí)施例,從剩余地址集中隨機(jī)抽取有效地址k條(k^lKk值需基于實(shí)際 情況進(jìn)行制定,默認(rèn)抽取有效地址條數(shù)占總地址庫(kù)條數(shù)的5%)放入規(guī)則樣本集,同時(shí)在剩 余地址集中將此k條數(shù)據(jù)刪除。根據(jù)抽取的k條數(shù)據(jù),歸納出各類用戶群體的規(guī)則,包括加法 規(guī)則和減法規(guī)則。
[0069] 其中加法規(guī)則是指將地址標(biāo)注為某類用戶群體的規(guī)則(如識(shí)別學(xué)生群體的加法規(guī) 則包含關(guān)鍵詞"大學(xué)");減法規(guī)則是指將誤標(biāo)記的地址從已標(biāo)記的某類用戶群體地址庫(kù)中 剔除的規(guī)則。(如基于加法規(guī)則標(biāo)記的學(xué)生類群體中剔除包含關(guān)鍵詞"大學(xué)"且"大學(xué)"后包 含關(guān)鍵詞"附近"的"北京大學(xué)北口附近全時(shí)便利店"),減法規(guī)則主要是用來(lái)減小誤標(biāo)記比 例的,即減小誤判率。
[0070] 在步驟四中,將所述加法規(guī)則和/或所述減法規(guī)則固化。
[0071] 將加法規(guī)則和減法規(guī)則進(jìn)行程序化,對(duì)全量地址數(shù)據(jù)進(jìn)行特定群體抽取及標(biāo)記, 同時(shí)結(jié)合具體的業(yè)務(wù)規(guī)則及場(chǎng)景,完成對(duì)特定群體指定場(chǎng)景的操作。
[0072] 具體的,所述步驟四之后還包括:
[0073] 不放回抽取所述地址庫(kù)中的至少一條數(shù)據(jù),根據(jù)該條數(shù)據(jù)中的地址信息匹配加法 規(guī)則和/或減法規(guī)則,匹配未成功后,且判斷所述地址庫(kù)的數(shù)據(jù)未完成抽取,重復(fù)不放回抽 取所述地址庫(kù)中的至少一條數(shù)據(jù)的步驟;和/或
[0074] 不放回抽取所述地址庫(kù)中的至少一條數(shù)據(jù),根據(jù)該條數(shù)據(jù)中的地址信息匹配加法 規(guī)則和/或減法規(guī)則,匹配成功后,對(duì)該條數(shù)據(jù)標(biāo)注對(duì)應(yīng)的規(guī)則,且所述地址庫(kù)中的數(shù)據(jù)完 成抽取后,將所述加法規(guī)則和/或所述減法規(guī)則固化;和/或
[0075] 不放回抽取所述地址庫(kù)中的至少一條數(shù)據(jù),根據(jù)該條數(shù)據(jù)中的地址信息匹配加法 規(guī)則和/或減法規(guī)則,匹配未成功后,且判斷所述地址庫(kù)中的數(shù)據(jù)完成抽取,將所述加法規(guī) 則和/或所述減法規(guī)則固化。
[0076] 具體的,在實(shí)際應(yīng)用中,一般需要考慮W下問(wèn)題:
[0077] 1.特定群體標(biāo)記投入的人數(shù)、誤判率等,需提前制定,指導(dǎo)完成抽取結(jié)果的過(guò)程及 質(zhì)量;
[0078] 2.地址編碼問(wèn)題:由于用戶在輸入地址時(shí)可能有各種各樣的問(wèn)題,需要采取編碼 異常捕捉機(jī)制進(jìn)行異常的捕獲過(guò)濾和調(diào)整替換。異常捕捉,是編程語(yǔ)言里的一種機(jī)制,用于 處理程序中出現(xiàn)的異常狀況,使程序正常執(zhí)行。如當(dāng)遇到地址"翠微路蓮:宏陽(yáng)大廈17樓"時(shí), 程序?qū)⒎祷卦摋l數(shù)據(jù),程序繼續(xù)執(zhí)行。程序結(jié)束后,人工修改錯(cuò)誤編碼,例如將上述錯(cuò)誤地 址修改為"翠微路宏陽(yáng)大廈17樓"。對(duì)修改過(guò)的地址進(jìn)行特定群體標(biāo)記。該編碼異常的捕捉 優(yōu)選為放在不放回抽取所述規(guī)則樣本集或剩余地址集中的至少一條數(shù)據(jù)之后,也可根據(jù)需 要,放在該流程運(yùn)行中的相應(yīng)位置。
[0079] 本發(fā)明實(shí)施例一公開(kāi)了一種特定群體的識(shí)別方法,基于關(guān)鍵詞識(shí)別收貨地址進(jìn)而 識(shí)別出特定群體的技術(shù)方案,避免了目前獲取特定群體需要面臨的兩個(gè)問(wèn)題:獲取途徑和 數(shù)據(jù)質(zhì)量的問(wèn)題。利用收貨地址成功避免了獲取途徑運(yùn)一問(wèn)題;通過(guò)關(guān)鍵詞識(shí)別地址成功 避免了用戶自我保護(hù)意識(shí)造成的數(shù)據(jù)質(zhì)量問(wèn)題。
[0080] 基于關(guān)鍵詞識(shí)別收貨地址進(jìn)而識(shí)別出特定群體的技術(shù)方案,能夠較靈活地支撐不 同場(chǎng)景的營(yíng)銷活動(dòng),既節(jié)約了營(yíng)銷資源,又降低了營(yíng)銷模型的構(gòu)建成本,最終達(dá)到成本最 低、營(yíng)銷效果最好的目的。
[0081 ] 實(shí)施例二
[0082] 參照?qǐng)D2,圖2示出了本發(fā)明的方法的另一實(shí)施例的流程圖。
[0083] 本發(fā)明實(shí)施例二與實(shí)施例一的區(qū)別在于:
[0084] 所述步驟=之后,還包括,擴(kuò)充加法規(guī)則,所述擴(kuò)充加法規(guī)則包括:重復(fù)步驟=,直 至所述規(guī)則樣本集中的地址信息滿足預(yù)定數(shù)量和/或所述加法規(guī)則的中增加的標(biāo)識(shí)信息小 于指定數(shù)量為止。
[0085] 具體的,擴(kuò)充加法規(guī)則。重復(fù)上述抽取及標(biāo)記的操作n輪,直到第n輪抽取的新的加 法規(guī)則小于指定條數(shù)m(需根據(jù)項(xiàng)目進(jìn)行時(shí)的時(shí)間及人力投入要求來(lái)具體確定m值,默認(rèn)為 1)為止,加法規(guī)則抽取完畢(由于地址類記錄數(shù)據(jù)有限,因此抽取過(guò)程是不會(huì)陷入死循環(huán) 的,且在實(shí)際應(yīng)用中會(huì)快速迭代擴(kuò)充完畢)。
[0086] 本發(fā)明實(shí)施例二公開(kāi)了一種特定群體的識(shí)別方法,基于關(guān)鍵詞識(shí)別收貨地址進(jìn)而 識(shí)別出特定群體的技術(shù)方案,避免了目前獲取特定群體需要面臨的兩個(gè)問(wèn)題:獲取途徑和 數(shù)據(jù)質(zhì)量的問(wèn)題。利用收貨地址成功避免了獲取途徑運(yùn)一問(wèn)題;通過(guò)關(guān)鍵詞識(shí)別地址成功 避免了用戶自我保護(hù)意識(shí)造成的數(shù)據(jù)質(zhì)量問(wèn)題。
[0087] 基于關(guān)鍵詞識(shí)別收貨地址進(jìn)而識(shí)別出特定群體的技術(shù)方案,能夠較靈活地支撐不 同場(chǎng)景的營(yíng)銷活動(dòng),既節(jié)約了營(yíng)銷資源,又降低了營(yíng)銷模型的構(gòu)建成本,最終達(dá)到成本最 低、營(yíng)銷效果最好的目的。
[0088] 實(shí)施例S
[0089] 參照?qǐng)D3,圖3示出了本發(fā)明的方法的另一實(shí)施例的流程圖。
[0090] 本發(fā)明實(shí)施例S與實(shí)施例一和二的區(qū)別在于:
[0091] 所述匹配加法規(guī)則和/或減法規(guī)則,判斷匹配完成后,且匹配結(jié)果不滿足預(yù)定誤判 率,還包括,擴(kuò)充減法規(guī)則,所述擴(kuò)充減法規(guī)則包括:加法規(guī)則和/或減法規(guī)則抽取完畢之 后,且所述加法規(guī)則和/或減法規(guī)則不滿足預(yù)定誤判率,增加不符合特定群體標(biāo)識(shí),重復(fù)步 驟直至滿足預(yù)定誤判率為止。
[0092] 擴(kuò)充減法規(guī)則。當(dāng)加法規(guī)則抽取完畢后,需要檢查規(guī)則的誤判情況。首先將加法規(guī) 則全部應(yīng)用于所有地址庫(kù)中的數(shù)據(jù)上進(jìn)行特定群體的抽取、標(biāo)記;其次從標(biāo)記出的特定群 體中隨機(jī)抽取L條(需基于實(shí)際情況進(jìn)行制定,默認(rèn)抽取條數(shù)占總地址庫(kù)條數(shù)的1%),人工 檢查誤判情況,若小于指定誤判率(需基于實(shí)際情況進(jìn)行制定,默認(rèn)為5%),則認(rèn)為滿足標(biāo) 記要求,識(shí)別結(jié)束;若大于制定誤判率,則根據(jù)誤判記錄歸納、擴(kuò)充減法規(guī)則。重復(fù)上述標(biāo) 記、抽取判定過(guò)程,直至滿足標(biāo)記要求,識(shí)別結(jié)束。
[0093] 本發(fā)明實(shí)施例=公開(kāi)的一種特定群體的識(shí)別方法,基于關(guān)鍵詞識(shí)別收貨地址進(jìn)而 識(shí)別出特定群體的技術(shù)方案,避免了目前獲取特定群體需要面臨的兩個(gè)問(wèn)題:獲取途徑和 數(shù)據(jù)質(zhì)量的問(wèn)題。利用收貨地址成功避免了獲取途徑運(yùn)一問(wèn)題;通過(guò)關(guān)鍵詞識(shí)別地址成功 避免了用戶自我保護(hù)意識(shí)造成的數(shù)據(jù)質(zhì)量問(wèn)題。
[0094] 基于關(guān)鍵詞識(shí)別收貨地址進(jìn)而識(shí)別出特定群體的技術(shù)方案,能夠較靈活地支撐不 同場(chǎng)景的營(yíng)銷活動(dòng),既節(jié)約了營(yíng)銷資源,又降低了營(yíng)銷模型的構(gòu)建成本,最終達(dá)到成本最 低、營(yíng)銷效果最好的目的。
[009引實(shí)施例四
[0096] 參照?qǐng)D4,圖4示出了本發(fā)明的系統(tǒng)的一實(shí)施例的方框圖。
[0097] 本發(fā)明另一方面還提供了一種特定群體的識(shí)別系統(tǒng),包括:
[0098] 獲取模塊11,用于獲取訂單信息,提取所述訂單信息中的地址信息組成規(guī)則庫(kù)。具 體實(shí)現(xiàn)的功能和處理方式參見(jiàn)步驟一。
[0099] 所述獲取模塊11,具體包括:獲取單元111,用于獲取訂單信息,提取所述訂單信息 中的有效地址信息;所述有效地址信息,具體包括:可識(shí)別出所述地址信息中的行政區(qū)域標(biāo) 識(shí)的地址信息。
[0100] 獲取訂單信息,包括,獲取有效訂單信息,所述有效地址信息,是指地址的精確程 度,即通過(guò)常規(guī)電子地圖(如百度地圖、高德地圖)能很快精準(zhǔn)定位地理位置的地址。具體包 括:可識(shí)別出所述地址信息中的行政區(qū)域標(biāo)識(shí)的地址信息。
[0101 ]作為優(yōu)選實(shí)施例,有效地址判定方法如下:
[0102] 1、城鎮(zhèn)級(jí)特征的地址視為有效地址。即包含W下關(guān)鍵詞的地址默認(rèn)為有效地址: "小區(qū)"、"衡V'路"、"弄'、"巷'如,"北京市昌平區(qū)"為無(wú)效地址,"北京市昌平區(qū)立水橋合立 方小區(qū)3號(hào)樓二單元1102室"是有效地址。
[0103] 2、村級(jí)特征的地址視為有效地址。即包含W下關(guān)鍵詞的地址默認(rèn)為有效地址: "村"、"莊"、"寨"如,"臨巧市巧南縣"為無(wú)效地址,"臨巧市巧南縣楊坡鎮(zhèn)李家坡村"為有效 地址。
[0104] 該判定方法可通過(guò)電子地圖工具判定或地址的精確度判定,如城鎮(zhèn)級(jí)地址判定或 村級(jí)地址判定。
[0105] 構(gòu)建模塊12,用于構(gòu)建基于所述地址庫(kù)的規(guī)則樣本集和剩余地址集;所述規(guī)則樣 本集初始為空集,所述剩余地址集初始為全量地址數(shù)據(jù)。具體實(shí)現(xiàn)的功能和處理方式參見(jiàn) 步驟二。
[0106] 規(guī)則模塊13,用于從所述剩余地址集中的全量地址數(shù)據(jù)中隨機(jī)抽取至少一條地址 信息,放入所述規(guī)則樣本集中;識(shí)別并剔除放入所述規(guī)則樣本集中的地址信息中攜帶不符 合特定群體的標(biāo)識(shí)信息的地址信息,將符合所述特定群體的標(biāo)識(shí)信息組成加法規(guī)則,將不 符合所述特定群體的標(biāo)識(shí)信息組成減法規(guī)則。具體實(shí)現(xiàn)的功能和處理方式參見(jiàn)步驟=。
[0107] 所述規(guī)則模塊13,還包括:刪除單元131,用于將所述放入所述規(guī)則樣本集中至少 一條地址信息,從所述剩余地址集中刪除。
[0108] 所述特定群體標(biāo)識(shí),包括:含有該特定群體的標(biāo)示性文字的標(biāo)識(shí)信息;所述不符合 特定群體標(biāo)識(shí),包括:含有該特定群體的標(biāo)示性文字的標(biāo)識(shí)信息的臨近參考標(biāo)識(shí)信息。
[0109] 如特定群體為學(xué)生類群體,含有該特定群體的標(biāo)示性文字的標(biāo)識(shí)信息至少為包含 關(guān)鍵詞"大學(xué)",所述不符合特定群體標(biāo)識(shí)的標(biāo)識(shí)信息至少為包含關(guān)鍵詞"大學(xué)"且"大學(xué)"后 包含關(guān)鍵詞"附近",如"北京大學(xué)北口附近全時(shí)便利店"。
[0110] 優(yōu)選的,從剩余地址集中隨機(jī)抽取有效地址k條化>l)(k值需基于實(shí)際情況進(jìn)行 制定,默認(rèn)抽取有效地址條數(shù)占總地址庫(kù)條數(shù)的5%)放入規(guī)則樣本集,同時(shí)在剩余地址集 中將此k條數(shù)據(jù)刪除。根據(jù)抽取的k條數(shù)據(jù),歸納出各類用戶群體的規(guī)則,包括加法規(guī)則和減 法規(guī)則。
[0111] 其中加法規(guī)則是指將地址標(biāo)注為某類用戶群體的規(guī)則(如識(shí)別學(xué)生群體的加法規(guī) 則包含關(guān)鍵詞"大學(xué)");減法規(guī)則是指將誤標(biāo)記的地址從已標(biāo)記的某類用戶群體地址庫(kù)中 剔除的規(guī)則。(如基于加法規(guī)則標(biāo)記的學(xué)生類群體中剔除包含關(guān)鍵詞"大學(xué)"且"大學(xué)"后包 含關(guān)鍵詞"附近"的"北京大學(xué)北口附近全時(shí)便利店"),減法規(guī)則主要是用來(lái)減小誤標(biāo)記比 例的,即減小誤判率。
[0112] 固化模塊14,用于將所述加法規(guī)則和/或所述減法規(guī)則固化。具體實(shí)現(xiàn)的功能和處 理方式參見(jiàn)步驟四。
[0113] 將加法規(guī)則和減法規(guī)則進(jìn)行程序化,對(duì)全量地址數(shù)據(jù)進(jìn)行特定群體抽取及標(biāo)記, 同時(shí)結(jié)合具體的業(yè)務(wù)規(guī)則及場(chǎng)景,完成對(duì)特定群體指定場(chǎng)景的操作。
[0114] 該系統(tǒng)還包括:
[0115] 第一匹配單元171,用于不放回抽取所述地址庫(kù)中的至少一條數(shù)據(jù),根據(jù)該條數(shù)據(jù) 中的地址信息匹配加法規(guī)則和/或減法規(guī)則,匹配未成功后,且判斷所述地址庫(kù)中的數(shù)據(jù)未 完成抽取,重復(fù)不放回抽取所述地址庫(kù)中的至少一條數(shù)據(jù)的步驟;和/或
[0116] 第二匹配單元172,用于不放回抽取所述地址庫(kù)中的至少一條數(shù)據(jù),根據(jù)該條數(shù)據(jù) 中的地址信息匹配加法規(guī)則和/或減法規(guī)則,匹配成功后,對(duì)該條數(shù)據(jù)標(biāo)注對(duì)應(yīng)的規(guī)則,且 所述地址庫(kù)中的數(shù)據(jù)完成抽取后,將所述加法規(guī)則和/或所述減法規(guī)則固化;和/或
[0117] 第=匹配單元173,用于不放回抽取所述地址庫(kù)中的至少一條數(shù)據(jù),根據(jù)該條數(shù)據(jù) 中的地址信息匹配加法規(guī)則和/或減法規(guī)則,匹配未成功后,且判斷所述地址庫(kù)中的數(shù)據(jù)完 成抽取,將所述加法規(guī)則和/或所述減法規(guī)則固化。
[0118] 具體的,在實(shí)際應(yīng)用中,一般需要考慮W下問(wèn)題:
[0119] 1.特定群體標(biāo)記投入的人數(shù)、誤判率等,需提前制定,指導(dǎo)完成抽取結(jié)果的過(guò)程及 質(zhì)量;
[0120] 2.地址編碼問(wèn)題:由于用戶在輸入地址時(shí)可能有各種各樣的問(wèn)題,需要采取編碼 異常捕捉機(jī)制進(jìn)行異常的捕獲過(guò)濾和調(diào)整替換。異常捕捉,是編程語(yǔ)言里的一種機(jī)制,用于 處理程序中出現(xiàn)的異常狀況,使程序正常執(zhí)行。如當(dāng)遇到地址"翠微路或宏陽(yáng)大廈17樓"時(shí), 程序?qū)⒎祷卦摋l數(shù)據(jù),程序繼續(xù)執(zhí)行。程序結(jié)束后,人工修改錯(cuò)誤編碼,例如將上述錯(cuò)誤地 址修改為"翠微路宏陽(yáng)大廈17樓"。對(duì)修改過(guò)的地址進(jìn)行特定群體標(biāo)記。該編碼異常的捕捉 優(yōu)選為放在不放回抽取所述規(guī)則樣本集或剩余地址集中的至少一條數(shù)據(jù)之后,也可根據(jù)需 要,放在該流程運(yùn)行中的相應(yīng)位置。
[0121] 本發(fā)明實(shí)施例四公開(kāi)的一種特定群體的識(shí)別系統(tǒng),基于關(guān)鍵詞識(shí)別收貨地址進(jìn)而 識(shí)別出特定群體的技術(shù)方案,避免了目前獲取特定群體需要面臨的兩個(gè)問(wèn)題:獲取途徑和 數(shù)據(jù)質(zhì)量的問(wèn)題。利用收貨地址成功避免了獲取途徑運(yùn)一問(wèn)題;通過(guò)關(guān)鍵詞識(shí)別地址成功 避免了用戶自我保護(hù)意識(shí)造成的數(shù)據(jù)質(zhì)量問(wèn)題。
[0122] 基于關(guān)鍵詞識(shí)別收貨地址進(jìn)而識(shí)別出特定群體的技術(shù)方案,能夠較靈活地支撐不 同場(chǎng)景的營(yíng)銷活動(dòng),既節(jié)約了營(yíng)銷資源,又降低了營(yíng)銷模型的構(gòu)建成本,最終達(dá)到成本最 低、營(yíng)銷效果最好的目的。
[0123] 實(shí)施例五
[0124] 參照?qǐng)D5,圖5示出了本發(fā)明的系統(tǒng)的另一實(shí)施例的方框圖。
[0125] 本發(fā)明實(shí)施例五與實(shí)施例四的區(qū)別在于,還包括:
[0126] 該系統(tǒng)還包括:
[0127] 第一規(guī)則單元15,所述第一規(guī)則單元攜帶擴(kuò)充加法規(guī)則,所述擴(kuò)充加法規(guī)則包括: 運(yùn)行規(guī)則模塊,直至所述規(guī)則樣本集中的地址信息滿足預(yù)定數(shù)量和/或所述加法規(guī)則的中 增加的標(biāo)識(shí)信息小于指定數(shù)量為止。
[0128] 具體的,擴(kuò)充加法規(guī)則。重復(fù)上述抽取及標(biāo)記的操作n輪,直到第n輪抽取的新的加 法規(guī)則小于指定條數(shù)m(需根據(jù)項(xiàng)目進(jìn)行時(shí)的時(shí)間及人力投入要求來(lái)具體確定m值,默認(rèn)為 1)為止,我們認(rèn)為加法規(guī)則抽取完畢(由于地址類記錄數(shù)據(jù)有限,因此抽取過(guò)程是不會(huì)陷入 死循環(huán)的,且在實(shí)際應(yīng)用中會(huì)快速迭代擴(kuò)充完畢)。
[0129] 本發(fā)明實(shí)施例五公開(kāi)的一種特定群體的識(shí)別系統(tǒng),基于關(guān)鍵詞識(shí)別收貨地址進(jìn)而 識(shí)別出特定群體的技術(shù)方案,避免了目前獲取特定用戶群體需要面臨的兩個(gè)問(wèn)題:獲取途 徑和數(shù)據(jù)質(zhì)量的問(wèn)題。利用用戶收貨地址成功避免了獲取途徑運(yùn)一問(wèn)題;通過(guò)關(guān)鍵詞識(shí)別 地址成功避免了用戶自我保護(hù)意識(shí)造成的數(shù)據(jù)質(zhì)量問(wèn)題。
[0130] 基于關(guān)鍵詞識(shí)別收貨地址進(jìn)而識(shí)別出特定群體的技術(shù)方案,能夠較靈活地支撐不 同場(chǎng)景的營(yíng)銷活動(dòng),既節(jié)約了營(yíng)銷資源,又降低了營(yíng)銷模型的構(gòu)建成本,最終達(dá)到成本最 低、營(yíng)銷效果最好的目的。
[0131] 實(shí)施例六
[0132] 參照?qǐng)D6,圖6示出了本發(fā)明的系統(tǒng)的另一實(shí)施例的方框圖。
[0133] 本發(fā)明實(shí)施例六與實(shí)施例四和五的區(qū)別在于,還包括:
[0134] 第二規(guī)則單元16,所述第二規(guī)則單元攜帶擴(kuò)充減法規(guī)則,用于匹配加法規(guī)則和/或 減法規(guī)則,判斷匹配完成后,且匹配結(jié)果不滿足預(yù)定誤判率,啟動(dòng)所述擴(kuò)充減法規(guī)則,所述 擴(kuò)充減法規(guī)則包括:加法規(guī)則和/或減法規(guī)則抽取完畢之后,且所述加法規(guī)則和/或減法規(guī) 則不滿足預(yù)定誤判率,增加不符合特定群體標(biāo)識(shí),重復(fù)步驟直至滿足預(yù)定誤判率為止。
[0135] 擴(kuò)充減法規(guī)則。當(dāng)加法規(guī)則抽取完畢后,需要檢查規(guī)則的誤判情況。首先將加法規(guī) 則全部應(yīng)用于所有地址庫(kù)中的數(shù)據(jù)上進(jìn)行特定群體的抽取、標(biāo)記;其次從標(biāo)記出的特定群 體中隨機(jī)抽取L條(需基于實(shí)際情況進(jìn)行制定,默認(rèn)抽取條數(shù)占總地址庫(kù)條數(shù)的1%),人工 檢查誤判情況,若小于指定誤判率(需基于實(shí)際情況進(jìn)行制定,默認(rèn)為5%),則認(rèn)為滿足標(biāo) 記要求,識(shí)別結(jié)束;若大于制定誤判率,則根據(jù)誤判記錄歸納、擴(kuò)充減法規(guī)則。重復(fù)上述標(biāo) 記、抽取判定過(guò)程,直至滿足標(biāo)記要求,識(shí)別結(jié)束。
[0136] 本發(fā)明實(shí)施例六公開(kāi)的一種特定群體的識(shí)別系統(tǒng),基于關(guān)鍵詞識(shí)別收貨地址進(jìn)而 識(shí)別出特定群體的技術(shù)方案,避免了目前獲取特定用戶群體需要面臨的兩個(gè)問(wèn)題:獲取途 徑和數(shù)據(jù)質(zhì)量的問(wèn)題。利用用戶收貨地址成功避免了獲取途徑運(yùn)一問(wèn)題;通過(guò)關(guān)鍵詞識(shí)別 地址成功避免了用戶自我保護(hù)意識(shí)造成的數(shù)據(jù)質(zhì)量問(wèn)題。
[0137] 基于關(guān)鍵詞識(shí)別收貨地址進(jìn)而識(shí)別出特定群體的技術(shù)方案,能夠較靈活地支撐不 同場(chǎng)景的營(yíng)銷活動(dòng),既節(jié)約了營(yíng)銷資源,又降低了營(yíng)銷模型的構(gòu)建成本,最終達(dá)到成本最 低、營(yíng)銷效果最好的目的。
[013引實(shí)施例屯
[0139] 參考圖1-6,本發(fā)明另一方面還提供了一種特定群體的識(shí)別終端,包括所述的系 統(tǒng)。
[0140] 本發(fā)明通過(guò)獲取訂單信息,抽取所述訂單信息中的地址信息;從而構(gòu)建基于所述 地址信息的規(guī)則樣本集和剩余地址集;所述規(guī)則樣本集初始為空集,所述剩余地址集初始 為全量地址數(shù)據(jù);并從所述剩余地址集中的全量地址數(shù)據(jù)中隨機(jī)抽取至少一條地址信息, 放入所述規(guī)則樣本集中;識(shí)別并剔除放入所述規(guī)則樣本集中的地址信息中攜帶不符合特定 群體的標(biāo)識(shí)信息的地址信息,將符合所述特定群體的標(biāo)識(shí)信息組成加法規(guī)則,將不符合所 述特定群體的標(biāo)識(shí)信息組成減法規(guī)則;同時(shí)將所述加法規(guī)則和/或所述減法規(guī)則固化后,識(shí) 別特定群體,例如學(xué)生類群體、公職類群體。通過(guò)分析特定群體的消費(fèi)特征、行為特征等,為 其匹配相關(guān)的項(xiàng)目或活動(dòng)進(jìn)行營(yíng)銷。
[0141] 需要指出,根據(jù)實(shí)施的需要,可將本申請(qǐng)中描述的各個(gè)步驟/部件拆分為更多步 驟/部件,也可將兩個(gè)或多個(gè)步驟/部件或者步驟/部件的部分操作組合成新的步驟/部件, W實(shí)現(xiàn)本發(fā)明的目的。
[0142] 上述根據(jù)本發(fā)明的方法可在硬件、固件中實(shí)現(xiàn),或者被實(shí)現(xiàn)為可存儲(chǔ)在記錄介質(zhì) (諸如CD R0M、RAM、軟盤、硬盤或磁光盤)中的軟件或計(jì)算機(jī)代碼,或者被實(shí)現(xiàn)通過(guò)網(wǎng)絡(luò)下載 的原始存儲(chǔ)在遠(yuǎn)程記錄介質(zhì)或非暫時(shí)機(jī)器可讀介質(zhì)中并將被存儲(chǔ)在本地記錄介質(zhì)中的計(jì) 算機(jī)代碼,從而在此描述的方法可被存儲(chǔ)在使用通用計(jì)算機(jī)、專用處理器或者可編程或?qū)?用硬件(諸如ASIC或FPGA)的記錄介質(zhì)上的運(yùn)樣的軟件處理??蒞理解,計(jì)算機(jī)、處理器、微 處理器控制器或可編程硬件包括可存儲(chǔ)或接收軟件或計(jì)算機(jī)代碼的存儲(chǔ)組件(例如,RAM、 ROM、閃存等),當(dāng)所述軟件或計(jì)算機(jī)代碼被計(jì)算機(jī)、處理器或硬件訪問(wèn)且執(zhí)行時(shí),實(shí)現(xiàn)在此 描述的處理方法。此外,當(dāng)通用計(jì)算機(jī)訪問(wèn)用于實(shí)現(xiàn)在此示出的處理的代碼時(shí),代碼的執(zhí)行 將通用計(jì)算機(jī)轉(zhuǎn)換為用于執(zhí)行在此示出的處理的專用計(jì)算機(jī)。
[0143] W上所述,僅為本發(fā)明的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何 熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明掲露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵 蓋在本發(fā)明的保護(hù)范圍之內(nèi)。
[0144] 因此,本發(fā)明的保護(hù)范圍應(yīng)W所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種特定群體的識(shí)別方法,其特征在于,包括: 步驟一、獲取訂單信息,提取所述訂單信息中的地址信息組成地址庫(kù); 步驟二、構(gòu)建基于所述地址庫(kù)的規(guī)則樣本集和剩余地址集;所述規(guī)則樣本集初始為空 集,所述剩余地址集初始為全量地址數(shù)據(jù); 步驟三、從所述剩余地址集中的全量地址數(shù)據(jù)中隨機(jī)抽取至少一條地址信息,放入所 述規(guī)則樣本集中;識(shí)別并剔除放入所述規(guī)則樣本集中的地址信息中攜帶不符合特定群體的 標(biāo)識(shí)信息的地址信息,將符合所述特定群體的標(biāo)識(shí)信息組成加法規(guī)則,將不符合所述特定 群體的標(biāo)識(shí)信息組成減法規(guī)則; 步驟四、將所述加法規(guī)則和/或所述減法規(guī)則固化。2. 如權(quán)利要求1所述的方法,其特征在于,所述步驟一中,具體包括:獲取訂單信息,提 取所述訂單信息中的有效地址信息; 所述有效地址信息,具體包括:可識(shí)別出所述地址信息中的行政區(qū)域標(biāo)識(shí)的地址信息。3. 如權(quán)利要求1或2所述的方法,其特征在于,步驟三中,所述放入所述規(guī)則樣本集中之 后,還包括: 將所述放入所述規(guī)則樣本集中至少一條地址信息,從所述剩余地址集中刪除。4. 如權(quán)利要求1-3之一所述的方法,其特征在于,步驟三中,所述特定群體標(biāo)識(shí),包括: 含有該特定群體的標(biāo)示性文字的標(biāo)識(shí)信息; 所述不符合特定群體標(biāo)識(shí),包括:含有該特定群體的標(biāo)示性文字的標(biāo)識(shí)信息的臨近參 考標(biāo)識(shí)信息。5. 如權(quán)利要求1-4之一所述的方法,其特征在于,所述步驟三之后,還包括,擴(kuò)充加法規(guī) 貝1J,所述擴(kuò)充加法規(guī)則包括:重復(fù)步驟三,直至所述規(guī)則樣本集中的地址信息滿足預(yù)定數(shù)量 和/或所述加法規(guī)則的中增加的標(biāo)識(shí)信息小于指定數(shù)量為止。6. 如權(quán)利要求1-5之一所述的方法,其特征在于,所述步驟四之后還包括: 不放回抽取所述地址庫(kù)中的至少一條數(shù)據(jù),根據(jù)該條數(shù)據(jù)中的地址信息匹配加法規(guī)則 和/或減法規(guī)則,匹配未成功且判斷所述地址庫(kù)中的數(shù)據(jù)未完成抽取,重復(fù)不放回抽取所述 地址庫(kù)中的至少一條數(shù)據(jù)的步驟;和/或 不放回抽取所述地址庫(kù)中的至少一條數(shù)據(jù),根據(jù)該條數(shù)據(jù)中的地址信息匹配加法規(guī)則 和/或減法規(guī)則,匹配成功后,對(duì)該條數(shù)據(jù)標(biāo)注對(duì)應(yīng)的規(guī)則,且所述地址庫(kù)中的數(shù)據(jù)完成抽 取后,將所述加法規(guī)則和/或所述減法規(guī)則固化;和/或 不放回抽取所述地址庫(kù)中的至少一條數(shù)據(jù),根據(jù)該條數(shù)據(jù)中的地址信息匹配加法規(guī)則 和/或減法規(guī)則,匹配未成功后,且判斷所述地址庫(kù)中的數(shù)據(jù)完成抽取,將所述加法規(guī)則和/ 或所述減法規(guī)則固化。7. 如權(quán)利要求6所述的方法,其特征在于,所述匹配加法規(guī)則和/或減法規(guī)則,判斷匹配 完成后,且匹配結(jié)果不滿足預(yù)定誤判率,擴(kuò)充減法規(guī)則; 所述擴(kuò)充減法規(guī)則包括:加法規(guī)則和/或減法規(guī)則抽取完畢之后,且所述加法規(guī)則和/ 或減法規(guī)則不滿足預(yù)定誤判率,增加不符合特定群體標(biāo)識(shí),重復(fù)步驟三;直至滿足預(yù)定誤判 率為止。8. -種特定群體的識(shí)別系統(tǒng),其特征在于,包括: 獲取模塊,用于獲取訂單信息,提取所述訂單信息中的地址信息組成地址庫(kù); 構(gòu)建模塊,用于構(gòu)建基于所述地址庫(kù)的規(guī)則樣本集和剩余地址集;所述規(guī)則樣本集初 始為空集,所述剩余地址集初始為全量地址數(shù)據(jù); 規(guī)則模塊,用于從所述剩余地址集中的全量地址數(shù)據(jù)中隨機(jī)抽取至少一條地址信息, 放入所述規(guī)則樣本集中;識(shí)別并剔除放入所述規(guī)則樣本集中的地址信息中攜帶不符合特定 群體的標(biāo)識(shí)信息的地址信息,將符合所述特定群體的標(biāo)識(shí)信息組成加法規(guī)則,將不符合所 述特定群體的標(biāo)識(shí)信息組成減法規(guī)則; 固化模塊,用于將所述加法規(guī)則和/或所述減法規(guī)則固化。9. 如權(quán)利要求8所述的系統(tǒng),其特征在于,所述獲取模塊,具體包括: 獲取單元,用于獲取訂單信息,提取所述訂單信息中的有效地址信息;所述有效地址信 息,具體包括:可識(shí)別出所述地址信息中的行政區(qū)域標(biāo)識(shí)的地址信息。10. 如權(quán)利要求8或9所述的系統(tǒng),其特征在于,所述規(guī)則模塊,還包括: 刪除單元,用于將所述放入所述規(guī)則樣本集中至少一條地址信息,從所述剩余地址集 中刪除。11. 如權(quán)利要求8-10之一所述的系統(tǒng),其特征在于,還包括: 第一規(guī)則單元,所述第一規(guī)則單元攜帶擴(kuò)充加法規(guī)則,所述擴(kuò)充加法規(guī)則包括:運(yùn)行規(guī) 則模塊,直至所述規(guī)則樣本集中的地址信息滿足預(yù)定數(shù)量和/或所述加法規(guī)則的中增加的 標(biāo)識(shí)信息小于指定數(shù)量為止; 第二規(guī)則單元,所述第二規(guī)則單元攜帶擴(kuò)充減法規(guī)則,用于匹配加法規(guī)則和/或減法規(guī) 貝1J,判斷匹配完成后,且匹配結(jié)果不滿足預(yù)定誤判率,啟動(dòng)擴(kuò)充減法規(guī)則,包括:加法規(guī)則 和/或減法規(guī)則抽取完畢之后,且所述加法規(guī)則和/或減法規(guī)則不滿足預(yù)定誤判率,增加不 符合特定群體標(biāo)識(shí),重復(fù)步驟三;直至滿足預(yù)定誤判率為止。12. 如權(quán)利要求1-11之一所述的系統(tǒng),其特征在于,還包括: 第一匹配單元,用于不放回抽取所述地址庫(kù)中的至少一條數(shù)據(jù),根據(jù)該條數(shù)據(jù)中的地 址信息匹配加法規(guī)則和/或減法規(guī)則,匹配未成功后,且判斷所述地址庫(kù)中的數(shù)據(jù)未完成抽 取,重復(fù)不放回抽取所述地址庫(kù)中的至少一條數(shù)據(jù)的步驟;和/或 第二匹配單元,用于不放回抽取所述規(guī)則地址庫(kù)中的至少一條數(shù)據(jù),根據(jù)該條數(shù)據(jù)中 的地址信息匹配加法規(guī)則和/或減法規(guī)則,匹配成功后,對(duì)該條數(shù)據(jù)標(biāo)注對(duì)應(yīng)的規(guī)則,且所 述地址庫(kù)中的數(shù)據(jù)完成抽取后,將所述加法規(guī)則和/或所述減法規(guī)則固化;和/或 第三匹配單元,用于不放回抽取所述地址庫(kù)中的至少一條數(shù)據(jù),根據(jù)該條數(shù)據(jù)中的地 址信息匹配加法規(guī)則和/或減法規(guī)則,匹配未成功后,且判斷所述地址庫(kù)中的數(shù)據(jù)完成抽 取,將所述加法規(guī)則和/或所述減法規(guī)則固化。13. -種特定群體的識(shí)別終端,包括如權(quán)利要求8-12任一項(xiàng)所述的系統(tǒng)。
【文檔編號(hào)】G06F17/30GK106022839SQ201610374247
【公開(kāi)日】2016年10月12日
【申請(qǐng)日】2016年5月31日
【發(fā)明人】曹杰, 馮雨暉, 宿曉坤, 李學(xué)超
【申請(qǐng)人】北京紅馬傳媒文化發(fā)展有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
郴州市| 安陆市| 长海县| 龙胜| 元谋县| 阿克陶县| 会东县| 临漳县| 江门市| 万源市| 沙雅县| 平陆县| 利川市| 宁远县| 康马县| 习水县| 盐源县| 霞浦县| 丹凤县| 涪陵区| 哈尔滨市| 武定县| 元江| 凤城市| 湖州市| 鹤壁市| 兴文县| 衡阳县| 蓬安县| 金堂县| 呼和浩特市| 开阳县| 沁阳市| 克东县| 河间市| 长垣县| 尤溪县| 红安县| 淅川县| 平顺县| 双峰县|