欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求的獲取方法及裝置制造方法

文檔序號(hào):6638931閱讀:166來(lái)源:國(guó)知局
網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求的獲取方法及裝置制造方法
【專(zhuān)利摘要】本發(fā)明提供了一種網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求的獲取方法及裝置。其中,該方法包括:通過(guò)獲取待爬蟲(chóng)的資源信息的驗(yàn)證碼圖片;對(duì)驗(yàn)證碼圖片進(jìn)行分割和降噪處理,得到多個(gè)第一圖片;對(duì)各個(gè)第一圖片進(jìn)行二值化處理得到各個(gè)第一圖片的第一矩陣;讀取數(shù)據(jù)庫(kù)中與各個(gè)第一矩陣對(duì)應(yīng)的第二矩陣;獲取第二矩陣所指示的字符,得到驗(yàn)證碼信息;使用基于該驗(yàn)證碼信息和預(yù)先獲取的用戶信息生成構(gòu)造網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求,其中,網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求用于獲取所述資源信息。從而在一定程度上解決了現(xiàn)有技術(shù)中存在人工干預(yù)而導(dǎo)致的網(wǎng)絡(luò)爬取效率低的問(wèn)題,提高了網(wǎng)絡(luò)爬取的效率的效果。
【專(zhuān)利說(shuō)明】網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求的獲取方法及裝置

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,具體而言,涉及一種網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求的獲取方法及裝置。

【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)資源變得越來(lái)越豐富,人為的搜索這些信息已經(jīng)遠(yuǎn)遠(yuǎn)的不能滿足需求,如何有效地提取并利用這些信息成為一個(gè)巨大的挑戰(zhàn)。為了解決信息的有效智能的提取,網(wǎng)絡(luò)爬蟲(chóng)應(yīng)運(yùn)而生。網(wǎng)絡(luò)爬蟲(chóng)在獲取特定資源前,首先,構(gòu)造相應(yīng)的請(qǐng)求頭信息,以及cookie設(shè)置以Post或Get方式向特定的站點(diǎn)發(fā)送請(qǐng)求,進(jìn)而獲取響應(yīng)資源信息。但是網(wǎng)絡(luò)上存在一些站點(diǎn)的資源信息是需要登錄后才能獲取的,甚至有些站點(diǎn)要求在第一次登錄時(shí)輸入驗(yàn)證碼信息,因此,如何以智能化的方式模擬用戶登錄,是網(wǎng)絡(luò)爬蟲(chóng)亟待解決的問(wèn)題。
[0003]對(duì)于帶有驗(yàn)證碼登錄的站點(diǎn),傳統(tǒng)網(wǎng)絡(luò)爬蟲(chóng)解決該問(wèn)題的辦法是根據(jù)驗(yàn)證碼的地址,然后下載該地址,存為圖片,然后在發(fā)送數(shù)據(jù)前,人工在代碼里加上驗(yàn)證碼,根據(jù)它來(lái)構(gòu)建請(qǐng)求數(shù)據(jù),進(jìn)而模擬用戶登錄,或者人工在網(wǎng)站輸入登錄及驗(yàn)證碼信息,通過(guò)firebug等工具獲取返回的cookie,在下次發(fā)送請(qǐng)求時(shí)帶上該cookie信息。
[0004]針對(duì)現(xiàn)有技術(shù)中在處理驗(yàn)證碼登錄過(guò)程中存在人工干預(yù)而導(dǎo)致的網(wǎng)絡(luò)爬取效率低的問(wèn)題,目前尚未提出有效的解決方案。


【發(fā)明內(nèi)容】

[0005]本發(fā)明的主要目的在于提供一種網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求的獲取方法及裝置,以在一定程度上解決現(xiàn)有技術(shù)中在處理驗(yàn)證碼登錄過(guò)程中存在人工干預(yù)而導(dǎo)致的網(wǎng)絡(luò)爬取效率低的問(wèn)題。
[0006]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求的獲取方法,包括:獲取待爬蟲(chóng)的資源信息的驗(yàn)證碼圖片;對(duì)所述驗(yàn)證碼圖片進(jìn)行分割和降噪處理,得到多個(gè)第一圖片;對(duì)各個(gè)所述第一圖片進(jìn)行二值化處理得到各個(gè)所述第一圖片的第一矩陣;讀取數(shù)據(jù)庫(kù)中與各個(gè)所述第一矩陣對(duì)應(yīng)的第二矩陣;獲取所述第二矩陣所指示的字符,得到驗(yàn)證碼信息;使用基于所述驗(yàn)證碼信息和預(yù)先獲取的用戶信息生成構(gòu)造網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求,其中,所述網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求用于獲取所述資源信息。
[0007]進(jìn)一步地,對(duì)所述驗(yàn)證碼圖片進(jìn)行分割和降噪處理,得到多個(gè)第一圖片包括:將所述驗(yàn)證碼圖片按照預(yù)設(shè)寬度分割得到多個(gè)第二圖片;對(duì)所述第二圖片中的各個(gè)第一像素點(diǎn)進(jìn)行亮度降噪處理,得到降噪后的所述第一圖片,其中,對(duì)所述第二圖片中的各個(gè)第一像素點(diǎn)進(jìn)行亮度降噪處理,得到降噪后的所述第一圖片包括:判斷所述第一像素點(diǎn)的亮度是否大于第一預(yù)設(shè)閾值;若所述第一像素點(diǎn)的亮度大于所述第一預(yù)設(shè)閾值,則設(shè)置所述第一像素點(diǎn)的灰度值為第一值;若所述第一像素點(diǎn)的亮度不大于所述第一預(yù)設(shè)閾值,則設(shè)置所述第一像素點(diǎn)的灰度值為第二值。
[0008]進(jìn)一步地,對(duì)所述第二圖片中的各個(gè)第一像素點(diǎn)進(jìn)行亮度降噪處理,得到降噪后的所述第一圖片之前,所述獲取方法包括:獲取所述第二圖片的高度和寬度;使用所述第二圖片的高度和寬度判斷在所述第二圖片上是否存在下一個(gè)第一像素點(diǎn);若所述第二圖片上存在所述下一個(gè)第一像素點(diǎn),則讀取所述下一個(gè)第一像素點(diǎn)的亮度。
[0009]進(jìn)一步地,若所述第一像素點(diǎn)的亮度大于所述第一預(yù)設(shè)閾值,則設(shè)置所述第一像素點(diǎn)的灰度值為第一值包括:若所述第一像素點(diǎn)的亮度大于所述第一預(yù)設(shè)閾值,則獲取所述第一像素點(diǎn)的第一色度值和第二像素點(diǎn)的第二色度值,其中,所述第一像素點(diǎn)與所述第二像素點(diǎn)的距離小于第二預(yù)設(shè)閾值;計(jì)算各個(gè)所述第二色度值與所述第一色度值的差值;統(tǒng)計(jì)大于第三預(yù)設(shè)閾值的所述差值的數(shù)量;若所述大于第三預(yù)設(shè)閾值的所述差值的數(shù)量不大于第四預(yù)設(shè)閾值,則設(shè)置所述第一像素點(diǎn)的灰度值為所述第一值;若所述大于第三預(yù)設(shè)閾值的所述差值的數(shù)量大于第四預(yù)設(shè)閾值,則設(shè)置所述第一像素點(diǎn)的灰度值為所述第二值。
[0010]進(jìn)一步地,對(duì)各個(gè)所述第一圖片進(jìn)行二值化處理得到各個(gè)所述第一圖片的第一矩陣包括:若所述第一圖片的所述第一像素點(diǎn)的灰度值為所述第一值,設(shè)置所述第一像素點(diǎn)的二維值為第三值,若所述第一圖片的所述第一像素點(diǎn)的灰度值為所述第二值,設(shè)置所述第一像素點(diǎn)的二維值為第四值,得到二維的所述第一矩陣。
[0011]進(jìn)一步地,讀取數(shù)據(jù)庫(kù)中與各個(gè)所述第一矩陣對(duì)應(yīng)的第二矩陣包括:計(jì)算所述第一矩陣的和值,從所述數(shù)據(jù)庫(kù)中讀取與所述第一矩陣的和值相等的所述第二矩陣;獲取所述第二矩陣所指示的字符,得到驗(yàn)證碼信息包括:按照映射關(guān)系讀取所述第二矩陣所指示的所述字符,按照所述字符的順序組成所述驗(yàn)證碼信息。
[0012]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明實(shí)施例的另一方面,提供了一種網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求的獲取裝置,包括:第一獲取模塊,用于獲取待爬蟲(chóng)的資源信息的驗(yàn)證碼圖片;分割降噪模塊,用于對(duì)所述驗(yàn)證碼圖片進(jìn)行分割和降噪處理,得到多個(gè)第一圖片;矩陣模塊,用于對(duì)各個(gè)所述第一圖片進(jìn)行二值化處理得到各個(gè)所述第一圖片的第一矩陣;讀取模塊,用于讀取數(shù)據(jù)庫(kù)中與各個(gè)所述第一矩陣對(duì)應(yīng)的第二矩陣;第二獲取模塊,用于獲取所述第二矩陣所指示的字符,得到驗(yàn)證碼信息;生成模塊,用于使用基于所述驗(yàn)證碼信息和預(yù)先獲取的用戶信息生成構(gòu)造網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求,其中,所述網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求用于獲取所述資源信息。
[0013]進(jìn)一步地,所述分割降噪模塊包括:分割子模塊,用于將所述驗(yàn)證碼圖片按照預(yù)設(shè)寬度分割得到多個(gè)第二圖片;降噪子模塊,用于對(duì)所述第二圖片中的各個(gè)第一像素點(diǎn)進(jìn)行亮度降噪處理,得到降噪后的所述第一圖片,其中,所述降噪子模塊包括:判斷單元,用于判斷所述第一像素點(diǎn)的亮度是否大于第一預(yù)設(shè)閾值;第一設(shè)置單元,在所述判斷單元的判斷結(jié)果為是的情況下,用于設(shè)置所述第一像素點(diǎn)的灰度值為第一值;第二設(shè)置單元,在所述判斷單元的判斷結(jié)果為否的情況下,用于設(shè)置所述第一像素點(diǎn)的灰度值為第二值。
[0014]進(jìn)一步地,所述獲取分割降噪模塊還包括:獲取子模塊,連接于所述分割子模塊,用于獲取所述第二圖片的高度和寬度;第一判斷子模塊,連接于所述獲取子模塊,用于使用所述第二圖片的高度和寬度判斷在所述第二圖片上是否存在下一個(gè)第一像素點(diǎn);第一讀取子模塊,連接于所述第一判斷子模塊,在所述第一判斷子模塊的判斷結(jié)果為是的情況下,用于讀取所述下一個(gè)第一像素點(diǎn)的亮度。
[0015]進(jìn)一步地,所述第一設(shè)置單元包括:色度子單元,連接于所述判斷單元,在所述判斷單元的判斷結(jié)果為是的情況下,用于獲取所述第一像素點(diǎn)的第一色度值和第二像素點(diǎn)的第二色度值,其中,所述第一像素點(diǎn)與所述第二像素點(diǎn)的距離小于第二預(yù)設(shè)閾值;計(jì)算子單元,連接于所述色度子單元,用于計(jì)算各個(gè)所述第二色度值與所述第一色度值的差值;統(tǒng)計(jì)子單元,連接于所述計(jì)算子單元,用于統(tǒng)計(jì)大于第三預(yù)設(shè)閾值的所述差值的數(shù)量;第一設(shè)置子單元,連接于所述統(tǒng)計(jì)子單元,若所述大于第三預(yù)設(shè)閾值的所述差值的數(shù)量不大于第四預(yù)設(shè)閾值,則設(shè)置所述第一像素點(diǎn)的灰度值為所述第一值;第二設(shè)置子單元,連接于所述統(tǒng)計(jì)子單元,若所述大于第三預(yù)設(shè)閾值的所述差值的數(shù)量大于第四預(yù)設(shè)閾值,則設(shè)置所述第一像素點(diǎn)的灰度值為所述第二值。
[0016]進(jìn)一步地,所述矩陣模塊包括:第二判斷子模塊,用于判斷所述第一圖片的所述第一像素點(diǎn)的灰度值是否為所述第一值;第三值子模塊,用于在所述第二判斷子模塊的判斷結(jié)果為是的情況下,設(shè)置所述第一像素點(diǎn)的二維值為第三值,得到二維的所述第一矩陣;第四值子模塊,用于在所述第二判斷子模塊的判斷結(jié)果為否的情況下,設(shè)置所述第一像素點(diǎn)的二維值為第四值,得到二維的所述第一矩陣。
[0017]進(jìn)一步地,所述讀取模塊包括:計(jì)算子模塊,用于計(jì)算所述第一矩陣的和值;第二讀取子模塊,用于從所述數(shù)據(jù)庫(kù)中讀取與所述第一矩陣的和值相等的所述第二矩陣;
[0018]所述第二獲取模塊包括:第三讀取子模塊,用于按照映射關(guān)系讀取所述第二矩陣所指示的所述字符;組成子模塊,用于按照所述字符的順序組成所述驗(yàn)證碼信息。
[0019]根據(jù)發(fā)明實(shí)施例,通過(guò)獲取待爬蟲(chóng)的資源信息的驗(yàn)證碼圖片;對(duì)所述驗(yàn)證碼圖片進(jìn)行分割和降噪處理,得到多個(gè)第一圖片;對(duì)各個(gè)所述第一圖片進(jìn)行二值化處理得到各個(gè)所述第一圖片的第一矩陣;讀取數(shù)據(jù)庫(kù)中與各個(gè)所述第一矩陣對(duì)應(yīng)的第二矩陣;獲取所述第二矩陣所指示的字符,得到驗(yàn)證碼信息;使用基于所述驗(yàn)證碼信息和預(yù)先獲取的用戶信息生成構(gòu)造網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求,其中,所述網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求用于獲取所述資源信息的方式,在一定程度上解決了現(xiàn)有技術(shù)中存在人工干預(yù)而導(dǎo)致的網(wǎng)絡(luò)爬取效率低的問(wèn)題,提高了網(wǎng)絡(luò)爬蟲(chóng)的效率,從而提高了用戶體驗(yàn)度,達(dá)到了智能化的效果。

【專(zhuān)利附圖】

【附圖說(shuō)明】
[0020]構(gòu)成本申請(qǐng)的一部分的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0021]圖1是根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求的獲取方法的流程圖;
[0022]圖2是根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求的獲取裝置的結(jié)構(gòu)圖;
[0023]圖3是根據(jù)本發(fā)明可選實(shí)施例中驗(yàn)證碼原始圖片;
[0024]圖4是根據(jù)本發(fā)明可選實(shí)施例的降噪處理的流程圖;
[0025]圖5是根據(jù)本發(fā)明可選實(shí)施例中驗(yàn)證碼分割后并降噪的驗(yàn)證碼圖片;
[0026]圖6是根據(jù)本發(fā)明可選實(shí)施例中降噪后的驗(yàn)證碼圖片;
[0027]圖7是根據(jù)本發(fā)明可選實(shí)施例中二值化的處理流程;
[0028]圖8是根據(jù)本發(fā)明可選實(shí)施例中驗(yàn)證碼圖片對(duì)應(yīng)的二值矩陣。

【具體實(shí)施方式】
[0029]需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明。
[0030]為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。
[0031]需要說(shuō)明的是,本發(fā)明的說(shuō)明書(shū)和權(quán)利要求書(shū)及上述附圖中的術(shù)語(yǔ)“第一”、“第二”等是用于區(qū)別類(lèi)似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例。此外,術(shù)語(yǔ)“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過(guò)程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒(méi)有清楚地列出的或?qū)τ谶@些過(guò)程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
[0032]本發(fā)明實(shí)施例提供了一種網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求的獲取方法。圖1是根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求的獲取方法的流程圖,如圖1所示,該流程包括步驟如下:
[0033]步驟S102,獲取待爬蟲(chóng)的資源信息的驗(yàn)證碼圖片;
[0034]步驟S104,對(duì)驗(yàn)證碼圖片進(jìn)行分割和降噪處理,得到多個(gè)第一圖片;
[0035]步驟S106,對(duì)各個(gè)第一圖片進(jìn)行二值化處理得到各個(gè)第一圖片的第一矩陣;
[0036]步驟S108,讀取數(shù)據(jù)庫(kù)中與各個(gè)第一矩陣對(duì)應(yīng)的第二矩陣;
[0037]步驟S110,獲取第二矩陣所指示的字符,得到驗(yàn)證碼信息;
[0038]步驟S112,使用基于該驗(yàn)證碼信息和預(yù)先獲取的用戶信息生成構(gòu)造網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求,其中,網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求用于獲取所述資源信息。
[0039]通過(guò)上述各個(gè)步驟,采取獲取待爬蟲(chóng)的資源信息的驗(yàn)證碼圖片;對(duì)驗(yàn)證碼圖片進(jìn)行分割和降噪處理,得到多個(gè)第一圖片;對(duì)各個(gè)第一圖片進(jìn)行二值化處理得到各個(gè)第一圖片的第一矩陣;讀取數(shù)據(jù)庫(kù)中與各個(gè)第一矩陣對(duì)應(yīng)的第二矩陣;獲取第二矩陣所指示的字符,得到驗(yàn)證碼信息;使用基于該驗(yàn)證碼信息和預(yù)先獲取的用戶信息生成構(gòu)造網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求,其中,網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求用于獲取所述資源信息的方式,通過(guò)對(duì)驗(yàn)證碼圖片進(jìn)行分割和降噪等處理并得到驗(yàn)證碼信息,從而在一定程度上解決了現(xiàn)有技術(shù)中在處理驗(yàn)證碼登錄過(guò)程中存在人工干預(yù)而導(dǎo)致的網(wǎng)絡(luò)爬取效率低的問(wèn)題,提高了網(wǎng)絡(luò)爬蟲(chóng)的效率,從而提高了用戶體驗(yàn)度,達(dá)到了智能化的效果。
[0040]上述步驟S104中對(duì)所述驗(yàn)證碼圖片進(jìn)行分割和降噪處理,得到多個(gè)第一圖片,可以有多種實(shí)現(xiàn)方式,例如可以先進(jìn)行分割,再進(jìn)行降噪,也可以先進(jìn)行降噪,再進(jìn)行分割。在一個(gè)可選的實(shí)施例中,通過(guò)如下方式實(shí)現(xiàn):將驗(yàn)證碼圖片按照預(yù)設(shè)寬度分割得到多個(gè)第二圖片;對(duì)第二圖片中的各個(gè)第一像素點(diǎn)進(jìn)行亮度降噪處理,得到降噪后的第一圖片。
[0041]在上述可選的實(shí)施例中,將驗(yàn)證碼圖片按照預(yù)設(shè)寬度分割得到多個(gè)第二圖片的過(guò)程中,可以通過(guò)PS等軟件,根據(jù)驗(yàn)證碼圖片中數(shù)字的組成特征,將圖片按照寬度進(jìn)行分割。由于各個(gè)驗(yàn)證碼圖片的寬度通常并不一致,預(yù)設(shè)寬度也是可以調(diào)節(jié)的,以適應(yīng)不同驗(yàn)證碼圖片的寬度。
[0042]此外,在上述可選的實(shí)施例中,對(duì)第二圖片中的各個(gè)第一像素點(diǎn)進(jìn)行亮度降噪處理,得到降噪后的第一圖片,也存在多種實(shí)現(xiàn)方式,例如可以采用均值濾波、自適應(yīng)維納濾波、小波濾波等,在一個(gè)可選的實(shí)施例中,采取如下方式實(shí)現(xiàn):判斷第一像素點(diǎn)的亮度是否大于第一預(yù)設(shè)閾值;若第一像素點(diǎn)的亮度大于第一預(yù)設(shè)閾值,則設(shè)置第一像素點(diǎn)的灰度值為第一值;若第一像素點(diǎn)的亮度不大于第一預(yù)設(shè)閾值,則設(shè)置第一像素點(diǎn)的灰度值為第二值。該第一預(yù)設(shè)閾值表示亮度值,可以調(diào)節(jié)大小,例如可以取第一預(yù)設(shè)閾值為70,把亮度大于70的像素點(diǎn)的灰度標(biāo)記為255,把亮度小于70的像素點(diǎn)的灰度標(biāo)記為0,從而通過(guò)各個(gè)像素點(diǎn)跟第一預(yù)設(shè)閾值的比較結(jié)果,得到降噪后的驗(yàn)證碼圖片。
[0043]對(duì)第二圖片中的各個(gè)第一像素點(diǎn)進(jìn)行亮度降噪處理,得到降噪后的所述第一圖片之前,在一個(gè)可選的實(shí)施例中,該網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求的獲取方法還可以包括:獲取第二圖片的高度和寬度;使用第二圖片的高度和寬度判斷在所述第二圖片上是否存在下一個(gè)第一像素點(diǎn);若第二圖片上存在下一個(gè)第一像素點(diǎn),則讀取下一個(gè)第一像素點(diǎn)的亮度。從而可以根據(jù)各個(gè)第二圖片的高度和寬度,將各個(gè)第二圖片的全部像素點(diǎn)都進(jìn)行遍歷、處理,得到降噪后的圖片。
[0044]驗(yàn)證碼圖片除了含有驗(yàn)證碼數(shù)字之外,通常還包括若干離散點(diǎn),在一個(gè)可選的實(shí)施例中,若第一像素點(diǎn)的亮度大于第一預(yù)設(shè)閾值,則設(shè)置第一像素點(diǎn)的灰度值為第一值包括:若第一像素點(diǎn)的亮度大于第一預(yù)設(shè)閾值,則獲取第一像素點(diǎn)的第一色度值和第二像素點(diǎn)的第二色度值,其中,第一像素點(diǎn)與第二像素點(diǎn)的距離小于第二預(yù)設(shè)閾值;計(jì)算各個(gè)第二色度值與第一色度值的差值;統(tǒng)計(jì)大于第三預(yù)設(shè)閾值的差值的數(shù)量;若大于第三預(yù)設(shè)閾值的差值的數(shù)量不大于第四預(yù)設(shè)閾值,則設(shè)置第一像素點(diǎn)的灰度值為所述第一值;若大于第三預(yù)設(shè)閾值的差值的數(shù)量大于第四預(yù)設(shè)閾值,則設(shè)置第一像素點(diǎn)的灰度值為第二值。
[0045]例如,對(duì)于一些與數(shù)字顏色相同的離散的像素點(diǎn),比較該點(diǎn)與相鄰的8個(gè)像素點(diǎn)的色差,色差大于設(shè)定的值,則對(duì)色差大于設(shè)定的值的相鄰的像素點(diǎn)的計(jì)數(shù)+1,當(dāng)超過(guò)6個(gè)像素點(diǎn)色差比較大時(shí),說(shuō)明該點(diǎn)與周?chē)狞c(diǎn)的色差比較大,該點(diǎn)為離散點(diǎn)。通過(guò)遍歷各個(gè)第二圖片中的每個(gè)像素點(diǎn),可以得到一個(gè)降噪后的圖片。
[0046]得到降噪后的圖片后,在一個(gè)可選的實(shí)施例中,步驟S106中,對(duì)各個(gè)所述第一圖片進(jìn)行二值化處理得到各個(gè)所述第一圖片的第一矩陣可以包括:若第一圖片的第一像素點(diǎn)的灰度值為第一值,設(shè)置第一像素點(diǎn)的二維值為第三值,若第一圖片的第一像素點(diǎn)的灰度值為第二值,設(shè)置第一像素點(diǎn)的二維值為第四值,得到二維的第一矩陣。
[0047]例如,根據(jù)降噪后生成的圖片,遍歷每個(gè)像素點(diǎn),對(duì)每個(gè)像素點(diǎn)的灰度值進(jìn)行判斷,并進(jìn)行設(shè)置。例如,可以將灰度值小的像素點(diǎn)的值設(shè)為1,灰度值大的像素點(diǎn)的值設(shè)為0,生成01矩陣,從而可以根據(jù)得到驗(yàn)證碼圖片對(duì)應(yīng)的01矩陣,即第一矩陣。
[0048]根據(jù)得到的第一矩陣,讀取數(shù)據(jù)庫(kù)中與各個(gè)第一矩陣對(duì)應(yīng)的第二矩陣有多種實(shí)現(xiàn)方式,例如根據(jù)第一矩陣的各個(gè)位置的值進(jìn)行一一比較的方式,在一個(gè)可選的實(shí)施例中,包括:計(jì)算第一矩陣的和值,從數(shù)據(jù)庫(kù)中讀取與第一矩陣的和值相等的所述第二矩陣;獲取第二矩陣所指示的字符,得到驗(yàn)證碼信息可以包括:按照映射關(guān)系讀取第二矩陣所指示的字符,按照字符的順序組成驗(yàn)證碼信息。
[0049]通過(guò)將第一矩陣的和值與數(shù)據(jù)庫(kù)中的預(yù)存的各個(gè)矩陣的和值進(jìn)行比較的方式,得到匹配的第二矩陣,再根據(jù)數(shù)據(jù)庫(kù)中第二矩陣對(duì)應(yīng)的字符,得到驗(yàn)證碼信息。因?yàn)槊恳粋€(gè)第二圖片對(duì)應(yīng)一個(gè)第一矩陣,所以我們得到若個(gè)個(gè)第二矩陣以及其對(duì)應(yīng)的字符,按照順序?qū)⒆址M合,就得到了驗(yàn)證碼信息。
[0050]在實(shí)施例中還提供了一種裝置,該裝置與上述實(shí)施例中的方法相對(duì)應(yīng),已經(jīng)進(jìn)行過(guò)說(shuō)明的在此不再贅述。該裝置中的模塊或單元可以是存儲(chǔ)在存儲(chǔ)器中并可以被處理器運(yùn)行的代碼,該存儲(chǔ)器和處理器可以位于服務(wù)器中,但并不限于此,該裝置也可以用其他方式實(shí)現(xiàn),在此不再一一舉例。
[0051]圖2是根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求的獲取裝置的結(jié)構(gòu)圖。如圖2所示,該裝置包括:
[0052]第一獲取模塊202,用于獲取待爬蟲(chóng)的資源信息的驗(yàn)證碼圖片;
[0053]分割降噪模塊204,用于對(duì)驗(yàn)證碼圖片進(jìn)行分割和降噪處理,得到多個(gè)第一圖片;
[0054]矩陣模塊206,用于對(duì)各個(gè)第一圖片進(jìn)行二值化處理得到各個(gè)第一圖片的第一矩陣;
[0055]讀取模塊208,用于讀取數(shù)據(jù)庫(kù)中與各個(gè)第一矩陣對(duì)應(yīng)的第二矩陣;
[0056]第二獲取模塊210,用于獲取第二矩陣所指示的字符,得到驗(yàn)證碼信息;
[0057]生成模塊212,用于使用基于該驗(yàn)證碼信息和預(yù)先獲取的用戶信息生成構(gòu)造網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求,其中,網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求用于獲取資源信息。
[0058]通過(guò)上述各個(gè)模塊,利用第一獲取模塊202獲取待爬蟲(chóng)的資源信息的驗(yàn)證碼圖片;分割降噪模塊204對(duì)驗(yàn)證碼圖片進(jìn)行分割和降噪處理,得到多個(gè)第一圖片;矩陣模塊206對(duì)各個(gè)第一圖片進(jìn)行二值化處理得到各個(gè)第一圖片的第一矩陣;讀取模塊208讀取數(shù)據(jù)庫(kù)中與各個(gè)第一矩陣對(duì)應(yīng)的第二矩陣;第二獲取模塊210獲取第二矩陣所指示的字符,得到驗(yàn)證碼信息;生成模塊212使用基于該驗(yàn)證碼信息和預(yù)先獲取的用戶信息生成構(gòu)造網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求,其中,網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求用于獲取所述資源信息,通過(guò)分割降噪模塊204對(duì)驗(yàn)證碼圖片進(jìn)行分割和降噪等處理并最終得到驗(yàn)證碼信息,從而在一定程度上解決了現(xiàn)有技術(shù)中在處理驗(yàn)證碼登錄過(guò)程中存在人工干預(yù)而導(dǎo)致的網(wǎng)絡(luò)爬取效率低的問(wèn)題,提高了網(wǎng)絡(luò)爬蟲(chóng)的效率,從而提高了用戶體驗(yàn)度,達(dá)到了智能化的效果。
[0059]分割降噪模塊204可以有多種實(shí)現(xiàn)方式,在一個(gè)可選的實(shí)施例中,可以包括:分割子模塊,用于將驗(yàn)證碼圖片按照預(yù)設(shè)寬度分割得到多個(gè)第二圖片;降噪子模塊,用于對(duì)第二圖片中的各個(gè)第一像素點(diǎn)進(jìn)行亮度降噪處理,得到降噪后的所述第一圖片。
[0060]在上述可選的實(shí)施例中,分割子模塊將驗(yàn)證碼圖片按照預(yù)設(shè)寬度分割得到多個(gè)第二圖片的過(guò)程中,可以通過(guò)PS等軟件,根據(jù)驗(yàn)證碼圖片中數(shù)字的組成特征,將圖片按照寬度進(jìn)行分割。由于各個(gè)驗(yàn)證碼圖片的寬度通常并不一致,預(yù)設(shè)寬度也是可以調(diào)節(jié)的,以適應(yīng)不同驗(yàn)證碼圖片的寬度。
[0061]此外,在上述可選的實(shí)施例中,降噪子模塊對(duì)第二圖片中的各個(gè)第一像素點(diǎn)進(jìn)行亮度降噪處理,得到降噪后的第一圖片,也存在多種實(shí)現(xiàn)方式,例如可以采用均值濾波器、自適應(yīng)維納濾波器、小波濾波器等,在一個(gè)可選的實(shí)施例中,采取如下方式實(shí)現(xiàn):判斷單元,用于判斷第一像素點(diǎn)的亮度是否大于第一預(yù)設(shè)閾值;第一設(shè)置單元,在判斷單元的判斷結(jié)果為是的情況下,用于設(shè)置所述第一像素點(diǎn)的灰度值為第一值;第二設(shè)置單元,在判斷單元的判斷結(jié)果為否的情況下,用于設(shè)置第一像素點(diǎn)的灰度值為第二值。該第一預(yù)設(shè)閾值表示亮度值,可以調(diào)節(jié)大小,例如可以取第一預(yù)設(shè)閾值為70,把亮度大于70的像素點(diǎn)的灰度標(biāo)記為255,把亮度小于70的像素點(diǎn)的灰度標(biāo)記為O,從而通過(guò)各個(gè)像素點(diǎn)跟第一預(yù)設(shè)閾值的比較結(jié)果,得到降噪后的驗(yàn)證碼圖片。
[0062]在一個(gè)可選的實(shí)施例中,獲取分割降噪模塊還包括:獲取子模塊,連接于分割子模塊,用于獲取所述第二圖片的高度和寬度;第一判斷子模塊,連接于獲取子模塊,用于使用第二圖片的高度和寬度判斷在所述第二圖片上是否存在下一個(gè)第一像素點(diǎn);第一讀取子模塊,連接于第一判斷子模塊,在第一判斷子模塊的判斷結(jié)果為是的情況下,用于讀取下一個(gè)第一像素點(diǎn)的亮度。從而可以根據(jù)各個(gè)第二圖片的高度和寬度,將各個(gè)第二圖片的全部像素點(diǎn)都進(jìn)行遍歷、處理,得到降噪后的圖片。
[0063]驗(yàn)證碼圖片除了含有驗(yàn)證碼數(shù)字之外,通常還包括若干離散點(diǎn),在一個(gè)可選的實(shí)施例中,第一設(shè)置單元包括:色度子單元,連接于判斷單元,在判斷單元的判斷結(jié)果為是的情況下,用于獲取第一像素點(diǎn)的第一色度值和第二像素點(diǎn)的第二色度值,其中,第一像素點(diǎn)與所述第二像素點(diǎn)的距離小于第二預(yù)設(shè)閾值;計(jì)算子單元,連接于色度子單元,用于計(jì)算各個(gè)第二色度值與第一色度值的差值;統(tǒng)計(jì)子單元,連接于計(jì)算子單元,用于統(tǒng)計(jì)大于第三預(yù)設(shè)閾值的差值的數(shù)量;第一設(shè)置子單元,連接于統(tǒng)計(jì)子單元,若大于第三預(yù)設(shè)閾值的差值的數(shù)量不大于第四預(yù)設(shè)閾值,則設(shè)置第一像素點(diǎn)的灰度值為所述第一值;第二設(shè)置子單元,連接于統(tǒng)計(jì)子單元,若大于第三預(yù)設(shè)閾值的差值的數(shù)量大于第四預(yù)設(shè)閾值,則設(shè)置第一像素點(diǎn)的灰度值為第二值。
[0064]例如,對(duì)于一些與數(shù)字顏色相同的離散的像素點(diǎn),色度子單元獲取該點(diǎn)和與該點(diǎn)相鄰的8個(gè)像素點(diǎn)的色度值,計(jì)算子單元計(jì)算該點(diǎn)與相鄰的8個(gè)像素點(diǎn)的色差,統(tǒng)計(jì)子單元對(duì)比較結(jié)果進(jìn)行統(tǒng)計(jì),如果色差大于設(shè)定的值,則對(duì)色差大于設(shè)定的值的相鄰的像素點(diǎn)的計(jì)數(shù)+1,當(dāng)超過(guò)6個(gè)像素點(diǎn)色差比較大時(shí),說(shuō)明該點(diǎn)與周?chē)狞c(diǎn)的色差比較大,該點(diǎn)為離散點(diǎn),第二設(shè)置單元將該點(diǎn)的灰度值設(shè)置為第二值,例如255。通過(guò)以該種方式遍歷各個(gè)第二圖片中的每個(gè)像素點(diǎn),可以得到一個(gè)降噪后的圖片。
[0065]矩陣模塊206對(duì)降噪后的圖片進(jìn)行處理,在一個(gè)可選的實(shí)施例中,矩陣模塊206可以包括:第二判斷子模塊,用于判斷第一圖片的第一像素點(diǎn)的灰度值是否為第一值;第三值子模塊,用于在第二判斷子模塊的判斷結(jié)果為是的情況下,設(shè)置第一像素點(diǎn)的二維值為第三值,得到二維的第一矩陣;第四值子模塊,用于在第二判斷子模塊的判斷結(jié)果為否的情況下,設(shè)置第一像素點(diǎn)的二維值為第四值,得到二維的第一矩陣。
[0066]例如,根據(jù)降噪后生成的圖片,矩陣模塊206遍歷每個(gè)像素點(diǎn),第二判斷子模塊對(duì)每個(gè)像素點(diǎn)的灰度值進(jìn)行判斷,第三值子模塊或者第四值子模塊進(jìn)行設(shè)置。例如,第三值子模塊可以將灰度值小的像素點(diǎn)的值設(shè)為1,第四值子模塊可以將灰度值大的像素點(diǎn)的值設(shè)為0,從而可以根據(jù)得到驗(yàn)證碼圖片對(duì)應(yīng)的01矩陣,即第一矩陣。
[0067]根據(jù)得到的第一矩陣,利用讀取模塊208和第二獲取模塊210,可以獲得驗(yàn)證碼信息。在一個(gè)可選的實(shí)施例中,讀取模塊208包括:計(jì)算子模塊,用于計(jì)算第一矩陣的和值;第二讀取子模塊,用于從數(shù)據(jù)庫(kù)中讀取與第一矩陣的和值相等的第二矩陣;第二獲取模塊210包括:第三讀取子模塊,用于按照映射關(guān)系讀取第二矩陣所指示的字符;組成子模塊,用于按照字符的順序組成驗(yàn)證碼信息。
[0068]通過(guò)讀取模塊208中的計(jì)算子模塊將第一矩陣的和值與數(shù)據(jù)庫(kù)中的預(yù)存的各個(gè)矩陣的和值進(jìn)行比較的方式,第二讀取子模塊得到匹配的第二矩陣,第三讀取子模塊再根據(jù)數(shù)據(jù)庫(kù)中第二矩陣對(duì)應(yīng)的字符,由組成子模塊得到驗(yàn)證碼信息。因?yàn)槊恳粋€(gè)第二圖片對(duì)應(yīng)一個(gè)第一矩陣,所以我們得到若個(gè)個(gè)第二矩陣以及其對(duì)應(yīng)的字符,按照順序?qū)⒆址M合,就得到了驗(yàn)證碼信息。
[0069]以下結(jié)合具體實(shí)施環(huán)境,對(duì)本發(fā)明的網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求的獲取方法進(jìn)行進(jìn)一步介紹。該具體實(shí)施環(huán)境中的,網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求的獲取方法與圖1類(lèi)似。
[0070]該方法包括:
[0071](I)采集圖片字樣:通過(guò)PS等軟件,根據(jù)驗(yàn)證碼數(shù)字組成特征,將圖片按寬度分害I]。調(diào)整圖像的閾值,消除干擾像素后,將該閾值作為降噪處理的輸入;
[0072]圖3是根據(jù)本發(fā)明可選實(shí)施例中驗(yàn)證碼原始圖片,由圖3可知,該驗(yàn)證碼圖片不僅具有驗(yàn)證碼信息,還存在干擾信息,如背景色、離散點(diǎn)。
[0073](2)降噪處理:如圖4所示還提供了一種降噪處理方法,該降噪處理的流程包括如下步驟:
[0074]步驟S402,下載圖片。
[0075]步驟S404,設(shè)置亮度閾值。
[0076]步驟S406,獲取圖像寬度w和高度h。
[0077]步驟S408,取下一個(gè)像素點(diǎn)。
[0078]步驟S410,判斷像素點(diǎn)是否讀取完畢。
[0079]其中,在像素點(diǎn)讀取完畢的情況下,執(zhí)行步驟S412 ;在像素點(diǎn)未讀取完畢的情況下,返回執(zhí)行步驟S408 ;當(dāng)所有像素點(diǎn)讀取完畢之后,執(zhí)行步驟S418。
[0080]步驟S412,判斷(i,j)像素點(diǎn)亮度是否大于閾值。
[0081]其中,在(i,j)像素點(diǎn)亮度大于閾值時(shí),執(zhí)行步驟S414 ;在(i,j)像素點(diǎn)亮度不大于閾值時(shí),執(zhí)行步驟S416。
[0082]步驟S414,置灰度值=225。
[0083]步驟S416,置灰度值=O。
[0084]步驟S418,處理結(jié)束。
[0085]具體地,首先是對(duì)圖片降噪。設(shè)定閾值,獲取分割后圖片的高度和寬度,根據(jù)高度和寬度遍歷圖片每個(gè)像素點(diǎn),取得每個(gè)像素點(diǎn)的亮度,大于設(shè)定的閾值,標(biāo)記為255(白色);小于設(shè)定的閾值則標(biāo)記為O (黑色)。對(duì)于一些與數(shù)字顏色相同的離散的像素點(diǎn),比較該點(diǎn)與相鄰的8個(gè)像素點(diǎn)的色差,色差大于設(shè)定的值,則+1,當(dāng)超過(guò)6個(gè)像素點(diǎn)色差比較大時(shí),說(shuō)明其為離散點(diǎn)。這樣就可以得到一個(gè)降噪后的圖片。
[0086]如圖5所示,分割后并降噪的圖片相比于原始圖片,圖片的可識(shí)別度增大,增加了得到的驗(yàn)證碼的準(zhǔn)確度。
[0087]在(2)中,也可以先進(jìn)行降噪,再進(jìn)行分割。圖6是根據(jù)本發(fā)明可選實(shí)施例中降噪后的驗(yàn)證碼圖片,如圖6所示,降噪后的圖片相比于原始圖片,其驗(yàn)證碼的可識(shí)別度增大,增加了獲得的驗(yàn)證碼的準(zhǔn)確度,而圖5所示的分割后并降噪的驗(yàn)證碼圖片相比于僅降噪后的圖片,其驗(yàn)證碼的可識(shí)別度進(jìn)一步增大。
[0088](3) 二值化:圖7是根據(jù)本發(fā)明可選實(shí)施例中二值化的處理流程,如圖7所示,該處理流程可以包括如下步驟:
[0089]步驟S702,降卩栄分表I]后圖片。
[0090]步驟S704,構(gòu)造二維表。
[0091]步驟S706,判斷像素點(diǎn)的灰度值是否等于O。
[0092]其中,在像素點(diǎn)的灰度值不等于O的情況下,執(zhí)行步驟S708 ;在像素點(diǎn)的灰度值等于O的情況下,執(zhí)行步驟S710。
[0093]步驟S708,二維表中對(duì)應(yīng)位置I。
[0094]步驟S710,判斷相鄰8個(gè)節(jié)點(diǎn)像素是否有6個(gè)色差相差較大。
[0095]其中,在相鄰8個(gè)節(jié)點(diǎn)像素有6個(gè)色差相差較大的情況下,執(zhí)行步驟S714 ;在相鄰8個(gè)節(jié)點(diǎn)像素沒(méi)有6個(gè)色差相差較大的情況下,執(zhí)行步驟S712。
[0096]步驟S712,二維表對(duì)應(yīng)位置置I。
[0097]步驟S714,二維表相應(yīng)位置置O。
[0098]具體地,根據(jù)降噪后生成的圖片,遍歷每個(gè)像素點(diǎn)。將步驟S304中得到的白色設(shè)為1,黑色設(shè)為0,生成01矩陣。
[0099]圖8是根據(jù)本發(fā)明可選實(shí)施例中驗(yàn)證碼圖片對(duì)應(yīng)的二值矩陣,即第一矩陣。該步驟S306可以和步驟S304降噪合并。
[0100](4)字模匹配:把隨機(jī)驗(yàn)證碼經(jīng)過(guò)同樣的降噪處理和計(jì)算得到的和值跟字模01矩陣的和值做比較識(shí)別驗(yàn)證碼;
[0101](5)構(gòu)造請(qǐng)求信息:生成的驗(yàn)證碼后、密碼及驗(yàn)證碼構(gòu)造請(qǐng)求信息;
[0102](6)爬蟲(chóng)發(fā)送請(qǐng)求信息。
[0103]在本可選實(shí)施例中,通過(guò)對(duì)驗(yàn)證碼原始圖片進(jìn)行降噪濾波處理,得到與驗(yàn)證碼圖片對(duì)應(yīng)的第一矩陣,,在一定程度上消除了人工干預(yù),實(shí)現(xiàn)了智能化獲取驗(yàn)證碼信息,同時(shí)采根據(jù)預(yù)先建立的字模庫(kù)與第一矩陣的關(guān)聯(lián),得到驗(yàn)證碼信息的方式,降低了處理器存儲(chǔ)空間,提升了識(shí)別性能。
[0104]顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算裝置來(lái)實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來(lái)實(shí)現(xiàn),從而,可以將它們存儲(chǔ)在存儲(chǔ)裝置中由計(jì)算裝置來(lái)執(zhí)行,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來(lái)實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合
[0105]需要說(shuō)明的是,對(duì)于前述的各方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書(shū)中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本發(fā)明所必須的。
[0106]在上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒(méi)有詳述的部分,可以參見(jiàn)其他實(shí)施例的相關(guān)描述。
[0107]在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的裝置,可通過(guò)其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過(guò)一些接口,裝置或單元的間接耦合或通信連接,可以是電性或其它的形式。
[0108]所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。
[0109]另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以?xún)蓚€(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。
[0110]所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷(xiāo)售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可為個(gè)人計(jì)算機(jī)、移動(dòng)終端、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤(pán)、只讀存儲(chǔ)器(ROM,Read-OnlyMemory)、隨機(jī)存取存儲(chǔ)器(RAM, Random Access Memory)、移動(dòng)硬盤(pán)、磁碟或者光盤(pán)等各種可以存儲(chǔ)程序代碼的介質(zhì)。
[0111]以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求的獲取方法,其特征在于,包括: 獲取待爬蟲(chóng)的資源信息的驗(yàn)證碼圖片; 對(duì)所述驗(yàn)證碼圖片進(jìn)行分割和降噪處理,得到多個(gè)第一圖片; 對(duì)各個(gè)所述第一圖片進(jìn)行二值化處理得到各個(gè)所述第一圖片的第一矩陣; 讀取數(shù)據(jù)庫(kù)中與各個(gè)所述第一矩陣對(duì)應(yīng)的第二矩陣; 獲取所述第二矩陣所指示的字符,得到驗(yàn)證碼信息; 基于所述驗(yàn)證碼信息和預(yù)先獲取的用戶信息生成網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求,其中,所述網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求用于獲取所述資源信息。
2.根據(jù)權(quán)利要求1所述的獲取方法,其特征在于,對(duì)所述驗(yàn)證碼圖片進(jìn)行分割和降噪處理,得到多個(gè)第一圖片包括: 將所述驗(yàn)證碼圖片按照預(yù)設(shè)寬度分割得到多個(gè)第二圖片; 對(duì)所述第二圖片中的各個(gè)第一像素點(diǎn)進(jìn)行亮度降噪處理,得到降噪后的所述第一圖片, 其中,對(duì)所述第二圖片中的各個(gè)第一像素點(diǎn)進(jìn)行亮度降噪處理,得到降噪后的所述第一圖片包括: 判斷所述第一像素點(diǎn)的亮度是否大于第一預(yù)設(shè)閾值; 若所述第一像素點(diǎn)的亮度大于所述第一預(yù)設(shè)閾值,則設(shè)置所述第一像素點(diǎn)的灰度值為第一值; 若所述第一像素點(diǎn)的亮度不大于所述第一預(yù)設(shè)閾值,則設(shè)置所述第一像素點(diǎn)的灰度值為第二值。
3.根據(jù)權(quán)利要求2所述的獲取方法,其特征在于,對(duì)所述第二圖片中的各個(gè)第一像素點(diǎn)進(jìn)行亮度降噪處理,得到降噪后的所述第一圖片之前,所述獲取方法包括: 獲取所述第二圖片的高度和寬度; 使用所述第二圖片的高度和寬度判斷在所述第二圖片上是否存在下一個(gè)第一像素占.若所述第二圖片上存在所述下一個(gè)第一像素點(diǎn),則讀取所述下一個(gè)第一像素點(diǎn)的亮度。
4.根據(jù)權(quán)利要求2所述的獲取方法,其特征在于,若所述第一像素點(diǎn)的亮度大于所述第一預(yù)設(shè)閾值,則設(shè)置所述第一像素點(diǎn)的灰度值為第一值包括: 若所述第一像素點(diǎn)的亮度大于所述第一預(yù)設(shè)閾值,則獲取所述第一像素點(diǎn)的第一色度值和第二像素點(diǎn)的第二色度值,其中,所述第一像素點(diǎn)與所述第二像素點(diǎn)的距離小于第二預(yù)設(shè)閾值; 計(jì)算各個(gè)所述第二色度值與所述第一色度值的差值; 統(tǒng)計(jì)大于第三預(yù)設(shè)閾值的所述差值的數(shù)量; 若所述大于第三預(yù)設(shè)閾值的所述差值的數(shù)量不大于第四預(yù)設(shè)閾值,則設(shè)置所述第一像素點(diǎn)的灰度值為所述第一值; 若所述大于第三預(yù)設(shè)閾值的所述差值的數(shù)量大于第四預(yù)設(shè)閾值,則設(shè)置所述第一像素點(diǎn)的灰度值為所述第二值。
5.根據(jù)權(quán)利要求2至4中任意一項(xiàng)所述的獲取方法,其特征在于,對(duì)各個(gè)所述第一圖片進(jìn)行二值化處理得到各個(gè)所述第一圖片的第一矩陣包括: 若所述第一圖片的所述第一像素點(diǎn)的灰度值為所述第一值,設(shè)置所述第一像素點(diǎn)的二維值為第三值,若所述第一圖片的所述第一像素點(diǎn)的灰度值為所述第二值,設(shè)置所述第一像素點(diǎn)的二維值為第四值,得到二維的所述第一矩陣。
6.根據(jù)權(quán)利要求2至4中任意一項(xiàng)所述的獲取方法,其特征在于, 讀取數(shù)據(jù)庫(kù)中與各個(gè)所述第一矩陣對(duì)應(yīng)的第二矩陣包括:計(jì)算所述第一矩陣的和值,從所述數(shù)據(jù)庫(kù)中讀取與所述第一矩陣的和值相等的所述第二矩陣; 獲取所述第二矩陣所指示的字符,得到驗(yàn)證碼信息包括:按照映射關(guān)系讀取所述第二矩陣所指示的所述字符,按照所述字符的順序組成所述驗(yàn)證碼信息。
7.—種網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求的獲取裝置,其特征在于,包括: 第一獲取模塊,用于獲取待爬蟲(chóng)的資源信息的驗(yàn)證碼圖片; 分割降噪模塊,用于對(duì)所述驗(yàn)證碼圖片進(jìn)行分割和降噪處理,得到多個(gè)第一圖片; 矩陣模塊,用于對(duì)各個(gè)所述第一圖片進(jìn)行二值化處理得到各個(gè)所述第一圖片的第一矩陣; 讀取模塊,用于讀取數(shù)據(jù)庫(kù)中與各個(gè)所述第一矩陣對(duì)應(yīng)的第二矩陣; 第二獲取模塊,用于獲取所述第二矩陣所指示的字符,得到驗(yàn)證碼信息; 生成模塊,用于基于所述驗(yàn)證碼信息和預(yù)先獲取的用戶信息生成網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求,其中,所述網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求用于獲取所述資源信息。
8.根據(jù)權(quán)利要求7所述的獲取裝置,其特征在于,所述分割降噪模塊包括: 分割子模塊,用于將所述驗(yàn)證碼圖片按照預(yù)設(shè)寬度分割得到多個(gè)第二圖片; 降噪子模塊,用于對(duì)所述第二圖片中的各個(gè)第一像素點(diǎn)進(jìn)行亮度降噪處理,得到降噪后的所述第一圖片, 其中,所述降噪子模塊包括: 判斷單元,用于判斷所述第一像素點(diǎn)的亮度是否大于第一預(yù)設(shè)閾值; 第一設(shè)置單元,在所述判斷單元的判斷結(jié)果為是的情況下,用于設(shè)置所述第一像素點(diǎn)的灰度值為第一值; 第二設(shè)置單元,在所述判斷單元的判斷結(jié)果為否的情況下,用于設(shè)置所述第一像素點(diǎn)的灰度值為第二值。
9.根據(jù)權(quán)利要求8所述的獲取裝置,其特征在于,所述獲取分割降噪模塊還包括: 獲取子模塊,連接于所述分割子模塊,用于獲取所述第二圖片的高度和寬度; 第一判斷子模塊,連接于所述獲取子模塊,用于使用所述第二圖片的高度和寬度判斷在所述第二圖片上是否存在下一個(gè)第一像素點(diǎn); 第一讀取子模塊,連接于所述第一判斷子模塊,在所述第一判斷子模塊的判斷結(jié)果為是的情況下,用于讀取所述下一個(gè)第一像素點(diǎn)的亮度。
10.根據(jù)權(quán)利要求8所述的獲取裝置,其特征在于,所述第一設(shè)置單元包括: 色度子單元,連接于所述判斷單元,在所述判斷單元的判斷結(jié)果為是的情況下,用于獲取所述第一像素點(diǎn)的第一色度值和第二像素點(diǎn)的第二色度值,其中,所述第一像素點(diǎn)與所述第二像素點(diǎn)的距離小于第二預(yù)設(shè)閾值; 計(jì)算子單元,連接于所述色度子單元,用于計(jì)算各個(gè)所述第二色度值與所述第一色度值的差值; 統(tǒng)計(jì)子單元,連接于所述計(jì)算子單元,用于統(tǒng)計(jì)大于第三預(yù)設(shè)閾值的所述差值的數(shù)量; 第一設(shè)置子單元,連接于所述統(tǒng)計(jì)子單元,若所述大于第三預(yù)設(shè)閾值的所述差值的數(shù)量不大于第四預(yù)設(shè)閾值,則設(shè)置所述第一像素點(diǎn)的灰度值為所述第一值; 第二設(shè)置子單元,連接于所述統(tǒng)計(jì)子單元,若所述大于第三預(yù)設(shè)閾值的所述差值的數(shù)量大于第四預(yù)設(shè)閾值,則設(shè)置所述第一像素點(diǎn)的灰度值為所述第二值。
11.根據(jù)權(quán)利要求8至10中任意一項(xiàng)所述的獲取裝置,其特征在于,所述矩陣模塊包括: 第二判斷子模塊,用于判斷所述第一圖片的所述第一像素點(diǎn)的灰度值是否為所述第一值; 第三值子模塊,用于在所述第二判斷子模塊的判斷結(jié)果為是的情況下,設(shè)置所述第一像素點(diǎn)的二維值為第三值,得到二維的所述第一矩陣; 第四值子模塊,用于在所述第二判斷子模塊的判斷結(jié)果為否的情況下,設(shè)置所述第一像素點(diǎn)的二維值為第四值,得到二維的所述第一矩陣。
12.根據(jù)權(quán)利要求8至10中任意一項(xiàng)所述的獲取裝置,其特征在于, 所述讀取模塊包括:計(jì)算子模塊,用于計(jì)算所述第一矩陣的和值;第二讀取子模塊,用于從所述數(shù)據(jù)庫(kù)中讀取與所述第一矩陣的和值相等的所述第二矩陣; 所述第二獲取模塊包括:第三讀取子模塊,用于按照映射關(guān)系讀取所述第二矩陣所指示的所述字符;組成子模塊,用于按照所述字符的順序組成所述驗(yàn)證碼信息。
【文檔編號(hào)】G06F17/30GK104408194SQ201410779511
【公開(kāi)日】2015年3月11日 申請(qǐng)日期:2014年12月15日 優(yōu)先權(quán)日:2014年12月15日
【發(fā)明者】李慶 申請(qǐng)人:北京國(guó)雙科技有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
兴和县| 河南省| 丰都县| 化隆| 抚远县| 桃园市| 铜陵市| 泸西县| 称多县| 玛沁县| 辽阳市| 肃宁县| 蛟河市| 离岛区| 潞城市| 星座| 克拉玛依市| 汉源县| 琼结县| 临武县| 石家庄市| 吉首市| 黎川县| 萨嘎县| 甘孜| 沁源县| 江阴市| 石阡县| 陇西县| 寻甸| 罗江县| 萨迦县| 建始县| 黎川县| 开鲁县| 板桥市| 景谷| 乐都县| 马边| 扎赉特旗| 乐至县|