欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

確定權(quán)威網(wǎng)頁的方式及裝置的制作方法

文檔序號(hào):12719576閱讀:226來源:國知局
確定權(quán)威網(wǎng)頁的方式及裝置的制作方法

本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體而言,本發(fā)明涉及確定權(quán)威網(wǎng)頁的方式及裝置。



背景技術(shù):

在互聯(lián)網(wǎng)中充斥著大量的網(wǎng)頁信息,網(wǎng)頁信息方便了人們的生活,但是,由于網(wǎng)頁信息的來源多樣,且不具有較強(qiáng)的監(jiān)管力度,會(huì)存在較多包含錯(cuò)誤或惡意信息的網(wǎng)頁;同時(shí),由于惡意用戶為了盜取權(quán)威網(wǎng)頁的信譽(yù)度或者在私人網(wǎng)頁加入惡意程序盜取點(diǎn)擊該私人網(wǎng)頁的其他用戶的個(gè)人隱私和賬號(hào)密碼等,仿制同真正權(quán)威網(wǎng)頁相似的私人網(wǎng)頁,且私人網(wǎng)頁的域名也可與權(quán)威網(wǎng)頁的域名具有一定的相似度。因此,普通網(wǎng)民很難從海量網(wǎng)頁中甄別出包含信息真實(shí)有效的網(wǎng)頁。

因此,如何從大量的網(wǎng)頁信息中確定出權(quán)威網(wǎng)頁是亟待解決的問題。



技術(shù)實(shí)現(xiàn)要素:

為克服上述技術(shù)問題或者至少部分地解決上述技術(shù)問題,特提出以下技術(shù)方案:

本發(fā)明根據(jù)一個(gè)方面,提供了一種確定權(quán)威網(wǎng)頁的方式,包括:

獲取互聯(lián)網(wǎng)中的多個(gè)首頁的統(tǒng)一資源定位符;

對(duì)所述多個(gè)首頁的統(tǒng)一資源定位符進(jìn)行聚類處理;

基于聚類結(jié)果從所述多個(gè)首頁中確定權(quán)威網(wǎng)頁。

優(yōu)選地,對(duì)所述多個(gè)首頁的統(tǒng)一資源定位符進(jìn)行聚類,具體包括:

提取各個(gè)首頁的統(tǒng)一資源定位符對(duì)應(yīng)的主域;

將對(duì)應(yīng)同一主域的統(tǒng)一資源定位符聚合為同一類。

優(yōu)選地,基于聚類結(jié)果從所述多個(gè)首頁中確定權(quán)威網(wǎng)頁,具體包括:

若屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量小于第一預(yù)定閾值,則從多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁中選擇用戶關(guān)注度最高的首頁作為權(quán)威網(wǎng)頁。

優(yōu)選地,所述用戶關(guān)注度通過以下至少任一項(xiàng)來確定:

首頁的平均訪問量;

每次訪問的平均瀏覽時(shí)長。

優(yōu)選地,基于聚類結(jié)果從所述多個(gè)首頁中確定權(quán)威網(wǎng)頁,具體包括:

若屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量大于第二預(yù)定閾值,則將該類中的多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁均確定為權(quán)威網(wǎng)頁。

優(yōu)選地,所述權(quán)威網(wǎng)頁為官網(wǎng)網(wǎng)頁。

本發(fā)明根據(jù)另一個(gè)方面,提供了一種確定權(quán)威網(wǎng)頁的裝置,包括:

定位符獲取模塊,用于獲取互聯(lián)網(wǎng)中的多個(gè)首頁的統(tǒng)一資源定位符;

聚類處理模塊,用于對(duì)所述多個(gè)首頁的統(tǒng)一資源定位符進(jìn)行聚類處理;

權(quán)威網(wǎng)頁確定模塊,用于基于聚類結(jié)果從所述多個(gè)首頁中確定權(quán)威網(wǎng)頁。

優(yōu)選地,所述聚類處理模塊具體包括:

主域提取單元,用于提取各個(gè)首頁的統(tǒng)一資源定位符對(duì)應(yīng)的主域;

聚合單元,用于將對(duì)應(yīng)同一主域的統(tǒng)一資源定位符聚合為同一類。

優(yōu)選地,所述權(quán)威網(wǎng)頁確定模塊具體用于:若屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量小于第一預(yù)定閾值,則從多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁中選擇用戶關(guān)注度最高的首頁作為權(quán)威網(wǎng)頁。

優(yōu)選地,所述用戶關(guān)注度通過以下至少任一項(xiàng)來確定:

首頁的平均訪問量;

每次訪問的平均瀏覽時(shí)長。

優(yōu)選地,所述權(quán)威網(wǎng)頁確定模塊具體用于:若屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量大于第二預(yù)定閾值,則將該類中的多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁均確定為權(quán)威網(wǎng)頁。

優(yōu)選地,所述權(quán)威網(wǎng)頁為官網(wǎng)網(wǎng)頁。

本發(fā)明的技術(shù)方案解決了如何從大量的網(wǎng)頁信息中篩選確定出權(quán)威網(wǎng)頁的問題。首先,獲取互聯(lián)網(wǎng)中的多個(gè)首頁的統(tǒng)一資源定位符;接著,對(duì)多個(gè)首頁的統(tǒng)一資源定位符進(jìn)行聚類處理,聚類處理是對(duì)在互聯(lián)網(wǎng)中獲取的多個(gè)首頁的統(tǒng)一資源定位符依照其共有的主域進(jìn)行歸類;最后,基于聚類結(jié)果從多個(gè)首頁中確定權(quán)威網(wǎng)頁,劃分屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量小于第一預(yù)定閾值的情形和屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量大于第二預(yù)定閾值的泛域情形,根據(jù)不同情形和用戶關(guān)注度篩選可靠性較高的權(quán)威網(wǎng)頁。本發(fā)明的技術(shù)方案依據(jù)統(tǒng)一資源定位符對(duì)互聯(lián)網(wǎng)中的多個(gè)首頁進(jìn)行聚類,并根據(jù)聚類結(jié)果從多個(gè)首頁中篩選權(quán)威網(wǎng)頁。本發(fā)明提高了從大量的網(wǎng)頁信息中區(qū)分出權(quán)威網(wǎng)頁的篩選準(zhǔn)確率及篩選效率。

本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。

附圖說明

本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:

圖1所示是本發(fā)明實(shí)施例的確定權(quán)威網(wǎng)頁的方式的流程示意圖;

圖2所示是本發(fā)明實(shí)施例的確定權(quán)威網(wǎng)頁的裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對(duì)本發(fā)明的限制。

本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非特意聲明,這里使用的單數(shù)形式“一”、“一個(gè)”、“所述”和“該”也可包括復(fù)數(shù)形式。應(yīng)該進(jìn)一步理解的是,本發(fā)明的說明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加一個(gè)或多個(gè)其他特征、整 數(shù)、步驟、操作、元件、組件和/或它們的組。應(yīng)該理解,當(dāng)我們稱元件被“連接”或“耦接”到另一元件時(shí),它可以直接連接或耦接到其他元件,或者也可以存在中間元件。此外,這里使用的“連接”或“耦接”可以包括無線連接或無線耦接。這里使用的措辭“和/或”包括一個(gè)或更多個(gè)相關(guān)聯(lián)的列出項(xiàng)的全部或任一單元和全部組合。

本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非另外定義,這里使用的所有術(shù)語(包括技術(shù)術(shù)語和科學(xué)術(shù)語),具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是,諸如通用字典中定義的那些術(shù)語,應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義,并且除非像這里一樣被特定定義,否則不會(huì)用理想化或過于正式的含義來解釋。

圖1所示是本發(fā)明實(shí)施例的確定權(quán)威網(wǎng)頁的方式的流程示意圖。

權(quán)威網(wǎng)頁為官網(wǎng)網(wǎng)頁。一般官網(wǎng)提供的信息是比較權(quán)威的,那么可以認(rèn)為官網(wǎng)提供的地址信息和名稱信息一般也是正確的。官網(wǎng),即官方網(wǎng)站,一般是指由某組織與個(gè)人建立的最具權(quán)威、最有公信力、或唯一指定網(wǎng)站,其最大的特點(diǎn)是權(quán)威。

步驟S110:獲取互聯(lián)網(wǎng)中的多個(gè)首頁的統(tǒng)一資源定位符;步驟S120:對(duì)多個(gè)首頁的統(tǒng)一資源定位符進(jìn)行聚類處理;步驟S130:基于聚類結(jié)果從多個(gè)首頁中確定權(quán)威網(wǎng)頁。

步驟S110:獲取互聯(lián)網(wǎng)中的多個(gè)首頁的統(tǒng)一資源定位符。

其中,統(tǒng)一資源定位符即URL(Uniform Resoure Locator),URL是對(duì)在互聯(lián)網(wǎng)上可以獲得資源的位置和訪問該資源的方法的一種簡潔表示。在互聯(lián)網(wǎng)中的服務(wù)器上存儲(chǔ)的每個(gè)文件都有一個(gè)唯一的URL,它包括文件的位置信息和與瀏覽器處理該文件信息的方法的相關(guān)信息。如,“北京大學(xué)”的網(wǎng)站首頁URL:http://www.pku.edu.cn/。

具體地,通過網(wǎng)頁蜘蛛等網(wǎng)頁爬取工具,從互聯(lián)網(wǎng)中爬取多個(gè)首頁,并提取多個(gè)首頁分別對(duì)應(yīng)的URL。

步驟S120:對(duì)多個(gè)首頁的統(tǒng)一資源定位符進(jìn)行聚類處理。

其中,聚類處理是研究樣品或指標(biāo)分類的一種統(tǒng)計(jì)分析的方法,同時(shí)也是數(shù)據(jù)挖掘的一個(gè)重要過程。聚類是由多個(gè)模式組成的,通常,模式是 一個(gè)度量的向量,或者是多維空間中的一個(gè)點(diǎn)。聚類處理以相似性為基礎(chǔ),在一個(gè)聚類中的模式之間比不在同一聚類中的模式之間具有更多的相似性。

優(yōu)選地,對(duì)多個(gè)首頁的統(tǒng)一資源定位符進(jìn)行聚類的步驟具體包括步驟S221(圖中未標(biāo)出)和步驟S222(圖中未標(biāo)出):步驟S221:提取各個(gè)首頁的統(tǒng)一資源定位符對(duì)應(yīng)的主域;步驟S222:將對(duì)應(yīng)同一主域的統(tǒng)一資源定位符聚合為同一類。

例如,“北京大學(xué)”的網(wǎng)站首頁URL:http://www.pku.edu.cn/,提取其主域:pku.edu.cn?!氨本┐髮W(xué)沖刺班”的網(wǎng)站首頁URL:http://www.sprint.pku.edu.cn/,提取其主域:pku.edu.cn。“北京大學(xué)”的網(wǎng)站首頁URL與“北京大學(xué)沖刺班”的網(wǎng)站首頁URL對(duì)應(yīng)同一主域“pku.edu.cn”,因此將“北京大學(xué)”的網(wǎng)站首頁URL“http://www.pku.edu.cn/”與“北京大學(xué)沖刺班”的網(wǎng)站首頁URL“http://www.sprint.pku.edu.cn/”聚合為同一類。

需要說明的是,互聯(lián)網(wǎng)上還存在一類提供了大量的公司、企業(yè)、餐廳等POI數(shù)據(jù)的網(wǎng)站,例如黃頁網(wǎng)站提供了大量的公司的POI數(shù)據(jù),這類黃頁網(wǎng)站的主域下包含了大量的首頁URL,如果首頁URL的數(shù)量超過了設(shè)定的閾值,則確定該主域?qū)儆诜河?。泛域是主域支持無限子域的一種形式。如果網(wǎng)站的主域包含了大量的首頁URL,則分別提取各首頁URL對(duì)應(yīng)的主域;將對(duì)應(yīng)同一主域的統(tǒng)一資源定位符聚合為同一類。

例如,主域“huangye88.com”下包含了大量的首頁URL,且該首頁URL的數(shù)目超過了設(shè)定的閾值“100個(gè)”,則確定主域“huangye88.com”屬于泛域。主域“huangye88.com”下包含了大量的首頁URL如下:

http://dianqi.huangye88.com/

http://gongcheng.huangye88.com/

http://shuigongye.huangye88.com/

……。

分別將泛域下的各首頁URL放入主域提取模板中,分別提取各首頁URL對(duì)應(yīng)的主域:huangye88.com;將所有對(duì)應(yīng)同一主域“huangye88.com” 的多個(gè)URL聚合為同一類。

步驟S130:基于聚類結(jié)果從多個(gè)首頁中確定權(quán)威網(wǎng)頁。

優(yōu)選地,基于聚類結(jié)果從多個(gè)首頁中確定權(quán)威網(wǎng)頁的步驟具體包括:若屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量小于第一預(yù)定閾值,則從多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁中選擇用戶關(guān)注度最高的首頁作為權(quán)威網(wǎng)頁。其中,用戶關(guān)注度通過但不限于以下任一項(xiàng)來確定:首頁的平均訪問量;每次訪問的平均瀏覽時(shí)長。

需要說明的是,在實(shí)際應(yīng)用場(chǎng)景中,為避免誤確定偶然或惡意注冊(cè)的與其他預(yù)先注冊(cè)的網(wǎng)站域名共屬于同一主域的網(wǎng)站域名為權(quán)威網(wǎng)站,需要對(duì)屬于同一類的多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁進(jìn)行篩選,選擇用戶關(guān)注度最高的首頁作為權(quán)威網(wǎng)頁。本發(fā)明篩選出的權(quán)威網(wǎng)站的準(zhǔn)確率更高,從而依靠該權(quán)威網(wǎng)站中的相關(guān)數(shù)據(jù)確定POI數(shù)據(jù)準(zhǔn)確性的可靠性更高。

例如,接上例,將“北京大學(xué)”的網(wǎng)站首頁URL“http://www.pku.edu.cn/”與“北京大學(xué)沖刺班”的網(wǎng)站首頁URL“http://www.sprint.pku.edu.cn/”聚合為同一類,則在該類中的URL的數(shù)量為2個(gè),且小于第一預(yù)定閾值“20個(gè)”;在上述網(wǎng)站首頁URL中基于首頁的平均訪問量和每次訪問的平均瀏覽時(shí)長選擇權(quán)威網(wǎng)頁,如網(wǎng)站首頁URL“http://www.pku.edu.cn/”平均訪問量為10000人次并且每次訪問的平均瀏覽時(shí)長為45分鐘,網(wǎng)站首頁URL“http://www.sprint.pku.edu.cn/”平均訪問量為3人次并且每次訪問的平均瀏覽時(shí)長為5分鐘,則選擇平均訪問量較高并且每次訪問的平均瀏覽時(shí)長較長的網(wǎng)站首頁URL“http://www.pku.edu.cn/”作為權(quán)威網(wǎng)頁。

優(yōu)選地,基于聚類結(jié)果從多個(gè)首頁中確定權(quán)威網(wǎng)頁的步驟具體包括:若屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量大于第二預(yù)定閾值,則將該類中的多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁均確定為權(quán)威網(wǎng)頁。

例如,對(duì)應(yīng)同一主域“huangye88.com”的URL如下:

http://dianqi.huangye88.com/

http://gongcheng.huangye88.com/

http://shuigongye.huangye88.com/

……。

對(duì)應(yīng)同一主域“huangye88.com”的多個(gè)網(wǎng)站首頁URL屬于同一聚合類,確定該類中的網(wǎng)站首頁URL數(shù)量為1000個(gè),且大于第二預(yù)定閾值“100個(gè)”,則將該類中的多個(gè)網(wǎng)站首頁URL均定為權(quán)威網(wǎng)頁。

更優(yōu)地,基于聚類結(jié)果從多個(gè)首頁中確定權(quán)威網(wǎng)頁的步驟還可以包括:若屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量大于第二預(yù)定閾值,則選擇用戶關(guān)注度大于第三預(yù)定閾值的多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁均確定為權(quán)威網(wǎng)頁。

本發(fā)明的技術(shù)方案解決了如何幫助用戶從大量的網(wǎng)頁信息中區(qū)分出權(quán)威網(wǎng)頁的問題。首先,獲取互聯(lián)網(wǎng)中的多個(gè)首頁的統(tǒng)一資源定位符;接著,對(duì)多個(gè)首頁的統(tǒng)一資源定位符進(jìn)行聚類處理,聚類處理是對(duì)在互聯(lián)網(wǎng)中獲取的多個(gè)首頁的統(tǒng)一資源定位符依照其共有的主域進(jìn)行歸類;最后,基于聚類結(jié)果從多個(gè)首頁中確定權(quán)威網(wǎng)頁,劃分屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量小于第一預(yù)定閾值的情形和屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量大于第二預(yù)定閾值的泛域情形,根據(jù)不同情形和用戶關(guān)注度篩選可靠性較高的權(quán)威網(wǎng)頁。本發(fā)明的技術(shù)方案依據(jù)主域和泛域?qū)ヂ?lián)網(wǎng)中的多個(gè)首頁的統(tǒng)一資源定位符進(jìn)行分類,并根據(jù)類別的不同進(jìn)行不同的從多個(gè)首頁的統(tǒng)一資源定位符篩選權(quán)威網(wǎng)頁。另外,基于用戶對(duì)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁的關(guān)注度高低判斷出的該統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁是否為權(quán)威網(wǎng)頁的可靠性較高。從而提高了幫助用戶從大量的網(wǎng)頁信息中區(qū)分出權(quán)威網(wǎng)頁的服務(wù)水準(zhǔn),增加使用這些服務(wù)的用戶的體驗(yàn)。

圖2所示是本發(fā)明實(shí)施例的確定權(quán)威網(wǎng)頁的裝置的結(jié)構(gòu)示意圖。

權(quán)威網(wǎng)頁為官網(wǎng)網(wǎng)頁。一般官網(wǎng)提供的信息是比較權(quán)威的,那么可以認(rèn)為官網(wǎng)提供的地址信息和名稱信息一般也是正確的。官網(wǎng),即官方網(wǎng)站,一般是指由某組織與個(gè)人建立的最具權(quán)威、最有公信力、或唯一指定網(wǎng)站,其最大的特點(diǎn)是權(quán)威。

定位符獲取模塊210獲取互聯(lián)網(wǎng)中的多個(gè)首頁的統(tǒng)一資源定位符;聚類處理模塊220對(duì)多個(gè)首頁的統(tǒng)一資源定位符進(jìn)行聚類處理;權(quán)威網(wǎng)頁確定模塊230基于聚類結(jié)果從多個(gè)首頁中確定權(quán)威網(wǎng)頁。

定位符獲取模塊210獲取互聯(lián)網(wǎng)中的多個(gè)首頁的統(tǒng)一資源定位符。

其中,統(tǒng)一資源定位符即URL(Uniform Resoure Locator),URL是對(duì)在互聯(lián)網(wǎng)上可以獲得資源的位置和訪問該資源的方法的一種簡潔表示。在互聯(lián)網(wǎng)中的服務(wù)器上存儲(chǔ)的每個(gè)文件都有一個(gè)唯一的URL,它包括文件的位置信息和與瀏覽器處理該文件信息的方法的相關(guān)信息。如,“北京大學(xué)”的網(wǎng)站首頁URL:http://www.pku.edu.cn/。

具體地,通過網(wǎng)頁蜘蛛等網(wǎng)頁爬取工具,從互聯(lián)網(wǎng)中爬取多個(gè)首頁,并提取多個(gè)首頁分別對(duì)應(yīng)的URL。

聚類處理模塊220對(duì)多個(gè)首頁的統(tǒng)一資源定位符進(jìn)行聚類處理。

其中,聚類處理是研究樣品或指標(biāo)分類的一種統(tǒng)計(jì)分析的方法,同時(shí)也是數(shù)據(jù)挖掘的一個(gè)重要過程。聚類是由多個(gè)模式組成的,通常,模式是一個(gè)度量的向量,或者是多維空間中的一個(gè)點(diǎn)。聚類處理以相似性為基礎(chǔ),在一個(gè)聚類中的模式之間比不在同一聚類中的模式之間具有更多的相似性。

優(yōu)選地,聚類處理模塊220具體包括主域提取單元和聚合單元:主域提取單元提取各個(gè)首頁的統(tǒng)一資源定位符對(duì)應(yīng)的主域;聚合單元將對(duì)應(yīng)同一主域的統(tǒng)一資源定位符聚合為同一類。

例如,“北京大學(xué)”的網(wǎng)站首頁URL:http://www.pku.edu.cn/,提取其主域:pku.edu.cn?!氨本┐髮W(xué)沖刺班”的網(wǎng)站首頁URL:http://www.sprint.pku.edu.cn/,提取其主域:pku.edu.cn?!氨本┐髮W(xué)”的網(wǎng)站首頁URL與“北京大學(xué)沖刺班”的網(wǎng)站首頁URL對(duì)應(yīng)同一主域“pku.edu.cn”,因此將“北京大學(xué)”的網(wǎng)站首頁URL“http://www.pku.edu.cn/”與“北京大學(xué)沖刺班”的網(wǎng)站首頁URL“http://www.sprint.pku.edu.cn/”聚合為同一類。

需要說明的是,互聯(lián)網(wǎng)上還存在一類提供了大量的公司、企業(yè)、餐廳等POI數(shù)據(jù)的網(wǎng)站,例如黃頁網(wǎng)站提供了大量的公司的POI數(shù)據(jù),這類黃頁網(wǎng)站的主域下包含了大量的首頁URL,如果首頁URL的數(shù)量超過了設(shè)定的閾值,則確定該主域?qū)儆诜河?。泛域是主域支持無限子域的一種形式。如果網(wǎng)站的主域包含了大量的首頁URL,則分別提取各首頁URL對(duì)應(yīng)的 主域;將對(duì)應(yīng)同一主域的統(tǒng)一資源定位符聚合為同一類。

例如,主域“huangye88.com”下包含了大量的首頁URL,且該首頁URL的數(shù)目超過了設(shè)定的閾值“100個(gè)”,則確定主域“huangye88.com”屬于泛域。主域“huangye88.com”下包含了大量的首頁URL如下:

http://dianqi.huangye88.com/

http://gongcheng.huangye88.com/

http://shuigongye.huangye88.com/

……。

分別將泛域下的各首頁URL放入主域提取模板中,分別提取各首頁URL對(duì)應(yīng)的主域:huangye88.com;將所有對(duì)應(yīng)同一主域“huangye88.com”的多個(gè)URL聚合為同一類。

權(quán)威網(wǎng)頁確定模塊230基于聚類結(jié)果從多個(gè)首頁中確定權(quán)威網(wǎng)頁。

優(yōu)選地,權(quán)威網(wǎng)頁確定模塊230具體用于:若屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量小于第一預(yù)定閾值,則從多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁中選擇用戶關(guān)注度最高的首頁作為權(quán)威網(wǎng)頁。其中,用戶關(guān)注度通過但不限于以下任一項(xiàng)來確定:首頁的平均訪問量;每次訪問的平均瀏覽時(shí)長。

需要說明的是,在實(shí)際應(yīng)用場(chǎng)景中,為避免誤確定偶然或惡意注冊(cè)的與其他預(yù)先注冊(cè)的網(wǎng)站域名共屬于同一主域的網(wǎng)站域名為權(quán)威網(wǎng)站,需要對(duì)屬于同一類的多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁進(jìn)行篩選,選擇用戶關(guān)注度最高的首頁作為權(quán)威網(wǎng)頁。本發(fā)明篩選出的權(quán)威網(wǎng)站的準(zhǔn)確率更高,從而依靠該權(quán)威網(wǎng)站中的相關(guān)數(shù)據(jù)確定POI數(shù)據(jù)準(zhǔn)確性的可靠性更高。

例如,接上例,將“北京大學(xué)”的網(wǎng)站首頁URL“http://www.pku.edu.cn/”與“北京大學(xué)沖刺班”的網(wǎng)站首頁URL“http://www.sprint.pku.edu.cn/”聚合為同一類,則在該類中的URL的數(shù)量為2個(gè),且小于第一預(yù)定閾值“20個(gè)”;在上述網(wǎng)站首頁URL中基于首頁的平均訪問量和每次訪問的平均瀏覽時(shí)長選擇權(quán)威網(wǎng)頁,如網(wǎng)站首頁URL“http://www.pku.edu.cn/”平均訪問量為10000人次并且每次訪問的平均瀏覽時(shí)長為45分鐘,網(wǎng)站 首頁URL“http://www.sprint.pku.edu.cn/”平均訪問量為3人次并且每次訪問的平均瀏覽時(shí)長為5分鐘,則選擇平均訪問量較高并且每次訪問的平均瀏覽時(shí)長較長的網(wǎng)站首頁URL“http://www.pku.edu.cn/”作為權(quán)威網(wǎng)頁。

優(yōu)選地,權(quán)威網(wǎng)頁確定模塊230具體用于:當(dāng)屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量大于第二預(yù)定閾值時(shí),將該類中的多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁均確定為權(quán)威網(wǎng)頁。

例如,對(duì)應(yīng)同一主域“huangye88.com”的URL如下:

http://dianqi.huangye88.com/

http://gongcheng.huangye88.com/

http://shuigongye.huangye88.com/

……。

對(duì)應(yīng)同一主域“huangye88.com”的多個(gè)網(wǎng)站首頁URL屬于同一聚合類,確定該類中的網(wǎng)站首頁URL數(shù)量為1000個(gè),且大于第二預(yù)定閾值“100個(gè)”,則將該類中的多個(gè)網(wǎng)站首頁URL均定為權(quán)威網(wǎng)頁。

更優(yōu)地,權(quán)威網(wǎng)頁確定模塊230還可以用于:當(dāng)屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量大于第二預(yù)定閾值時(shí),選擇用戶關(guān)注度大于第三預(yù)定閾值的多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁均確定為權(quán)威網(wǎng)頁。

本發(fā)明的技術(shù)方案解決了如何幫助用戶從大量的網(wǎng)頁信息中區(qū)分出權(quán)威網(wǎng)頁的問題。首先,獲取互聯(lián)網(wǎng)中的多個(gè)首頁的統(tǒng)一資源定位符;接著,對(duì)多個(gè)首頁的統(tǒng)一資源定位符進(jìn)行聚類處理,聚類處理是對(duì)在互聯(lián)網(wǎng)中獲取的多個(gè)首頁的統(tǒng)一資源定位符依照其共有的主域進(jìn)行歸類;最后,基于聚類結(jié)果從多個(gè)首頁中確定權(quán)威網(wǎng)頁,劃分屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量小于第一預(yù)定閾值的情形和屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量大于第二預(yù)定閾值的泛域情形,根據(jù)不同情形和用戶關(guān)注度篩選可靠性較高的權(quán)威網(wǎng)頁。本發(fā)明的技術(shù)方案依據(jù)主域和泛域?qū)ヂ?lián)網(wǎng)中的多個(gè)首頁的統(tǒng)一資源定位符進(jìn)行分類,并根據(jù)類別的不同進(jìn)行不同的從多個(gè)首頁的統(tǒng)一資源定位符篩選權(quán)威網(wǎng)頁。另外,基于用戶對(duì)統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁的關(guān)注度高低判斷出的該統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁是否為權(quán)威網(wǎng)頁的可靠性較高。從而提高了幫助用戶從大量的網(wǎng)頁信息中 區(qū)分出權(quán)威網(wǎng)頁的服務(wù)水準(zhǔn),增加使用這些服務(wù)的用戶的體驗(yàn)。

本技術(shù)領(lǐng)域技術(shù)人員可以理解,本發(fā)明包括涉及用于執(zhí)行本申請(qǐng)中所述操作中的一項(xiàng)或多項(xiàng)的設(shè)備。這些設(shè)備可以為所需的目的而專門設(shè)計(jì)和制造,或者也可以包括通用計(jì)算機(jī)中的已知設(shè)備。這些設(shè)備具有存儲(chǔ)在其內(nèi)的計(jì)算機(jī)程序,這些計(jì)算機(jī)程序選擇性地激活或重構(gòu)。這樣的計(jì)算機(jī)程序可以被存儲(chǔ)在設(shè)備(例如,計(jì)算機(jī))可讀介質(zhì)中或者存儲(chǔ)在適于存儲(chǔ)電子指令并分別耦聯(lián)到總線的任何類型的介質(zhì)中,所述計(jì)算機(jī)可讀介質(zhì)包括但不限于任何類型的盤(包括軟盤、硬盤、光盤、CD-ROM、和磁光盤)、ROM(Read-Only Memory,只讀存儲(chǔ)器)、RAM(Random Access Memory,隨即存儲(chǔ)器)、EPROM(Erasable Programmable Read-Only Memory,可擦寫可編程只讀存儲(chǔ)器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,電可擦可編程只讀存儲(chǔ)器)、閃存、磁性卡片或光線卡片。也就是,可讀介質(zhì)包括由設(shè)備(例如,計(jì)算機(jī))以能夠讀的形式存儲(chǔ)或傳輸信息的任何介質(zhì)。

本技術(shù)領(lǐng)域技術(shù)人員可以理解,可以用計(jì)算機(jī)程序指令來實(shí)現(xiàn)這些結(jié)構(gòu)圖和/或框圖和/或流圖中的每個(gè)框以及這些結(jié)構(gòu)圖和/或框圖和/或流圖中的框的組合。本技術(shù)領(lǐng)域技術(shù)人員可以理解,可以將這些計(jì)算機(jī)程序指令提供給通用計(jì)算機(jī)、專業(yè)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理方法的處理器來實(shí)現(xiàn),從而通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理方法的處理器來執(zhí)行本發(fā)明公開的結(jié)構(gòu)圖和/或框圖和/或流圖的框或多個(gè)框中指定的方案。

本技術(shù)領(lǐng)域技術(shù)人員可以理解,本發(fā)明中已經(jīng)討論過的各種操作、方法、流程中的步驟、措施、方案可以被交替、更改、組合或刪除。進(jìn)一步地,具有本發(fā)明中已經(jīng)討論過的各種操作、方法、流程中的其他步驟、措施、方案也可以被交替、更改、重排、分解、組合或刪除。進(jìn)一步地,現(xiàn)有技術(shù)中的具有與本發(fā)明中公開的各種操作、方法、流程中的步驟、措施、方案也可以被交替、更改、重排、分解、組合或刪除。

以上所述僅是本發(fā)明的部分實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
汕头市| 青冈县| 泽库县| 漳平市| 万州区| 隆德县| 卓资县| 澄江县| 得荣县| 正安县| 清流县| 河曲县| 宿松县| 安义县| 弥勒县| 五家渠市| 长垣县| 任丘市| 苍山县| 涞水县| 普洱| 时尚| 香港 | 贡嘎县| 上蔡县| 双峰县| 胶南市| 黎川县| 尚志市| 三原县| 义乌市| 馆陶县| 北碚区| 龙门县| 门源| 五指山市| 万州区| 阿勒泰市| 德州市| 通江县| 仙桃市|