一種知識(shí)產(chǎn)權(quán)信息抓取與管理的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明主要涉及一種企業(yè)知識(shí)產(chǎn)權(quán)信息抓取與管理方法,尤其是通過(guò)知識(shí)產(chǎn)權(quán)公布網(wǎng)站的頁(yè)面信息抓取、分析、整理和建檔的方法。
【背景技術(shù)】
[0002]目前,知識(shí)產(chǎn)權(quán)的信息獲取大多基于通過(guò)相關(guān)部門所公開(kāi)的數(shù)據(jù)接口來(lái)實(shí)現(xiàn)知識(shí)產(chǎn)權(quán)信息的同步,或者通過(guò)復(fù)雜的運(yùn)算與抓取而獲得信息量較少的信息。此方法對(duì)于經(jīng)常性的、大數(shù)據(jù)的企業(yè)知識(shí)產(chǎn)權(quán)的信息獲取顯得難以勝任,并且應(yīng)用成本高,風(fēng)險(xiǎn)大,不利于中小中介服務(wù)機(jī)構(gòu)推廣應(yīng)用。
[0003]知識(shí)產(chǎn)權(quán)的信息,尤其是建立企業(yè)研發(fā)信用體系,更顯得非常重要,同時(shí)也是中介服務(wù)機(jī)構(gòu)提尚自身服務(wù)質(zhì)量的有力支持。
【發(fā)明內(nèi)容】
[0004]為了解決上述問(wèn)題,本發(fā)明提出了一種基于專利、商標(biāo)和軟件著作權(quán)三種常用的知識(shí)產(chǎn)權(quán)的公眾公開(kāi)的登記或變更公告數(shù)據(jù)的頁(yè)面級(jí)別的通過(guò)getHTTPPage方法的抓取技術(shù),再結(jié)合標(biāo)記分析方法獲得第一信息碼、第二信息碼和第三信息碼,再通過(guò)上述信息碼之間的對(duì)比,在相應(yīng)程序下生成第四信息碼,然后依對(duì)應(yīng)的方法寫入第一知識(shí)產(chǎn)權(quán)信息庫(kù)和第二知識(shí)產(chǎn)權(quán)信息庫(kù),以備不同的場(chǎng)合使用的一種知識(shí)產(chǎn)權(quán)信息抓取與管理的方法。
[0005]—種知識(shí)產(chǎn)權(quán)信息抓取與管理的方法,其主要包含以下步驟:
步驟S102,在企業(yè)信息庫(kù)中讀出企業(yè)名稱的待查數(shù)據(jù);
步驟S103,根據(jù)三種類別將步驟S102所讀出的企業(yè)名稱通過(guò)函數(shù)轉(zhuǎn)為下列所列的對(duì)應(yīng)數(shù)據(jù)編碼:專利公告信息對(duì)應(yīng)編碼方式為UTF8,軟件著作權(quán)公告信息對(duì)應(yīng)編碼方式為GB2312,商標(biāo)公告信息對(duì)應(yīng)編碼方式為UTF8 ;
步驟S104,在步驟S103生成的對(duì)應(yīng)編碼方式的數(shù)據(jù)后,通過(guò)URLencode/URLDecode加密/解密函數(shù)將上述步驟S103的數(shù)據(jù)進(jìn)行加密,并輸出為第一變量,其中軟件著作權(quán)公告信息中,第一變量為明文,不進(jìn)行加密;
步驟S105,以上述第一變量作為對(duì)應(yīng)的URL的對(duì)應(yīng)參數(shù)值生成第一 URL ;
步驟S106,通過(guò)getHTTPPage方式訪問(wèn)步驟S105生成的第一 URL,獲得第一 URL對(duì)應(yīng)的頁(yè)面的HTML格式的數(shù)據(jù)源碼供步驟S107進(jìn)行標(biāo)記截?。?br> 步驟S107,通過(guò)S106獲得的HTML格式的數(shù)據(jù)源碼,通過(guò)以“〈title〉”標(biāo)記開(kāi)始和“〈/title〉”標(biāo)記結(jié)束生成第一信息碼;三種類別的知識(shí)產(chǎn)權(quán)類型對(duì)應(yīng)如下標(biāo)記生成第二信息碼:專利類型的開(kāi)始標(biāo)記為“sop-totalCount”,結(jié)束標(biāo)記為“〈/span〉] ”,商標(biāo)類型的開(kāi)始標(biāo)記為“regNum”,結(jié)束標(biāo)記為“regNum”,軟件著作權(quán)類型的開(kāi)始標(biāo)記為“登記日期”,結(jié)束標(biāo)記為“ >2 ” ;軟件著作權(quán)類型時(shí)獲取第三信息碼,其開(kāi)始標(biāo)記為“中國(guó)”,結(jié)束標(biāo)記為“ <tdclass=”,其中商標(biāo)類型和專利類型沒(méi)有第三信息碼;
當(dāng)?shù)谝恍畔⒋a的值為空時(shí),返回S102步驟,同時(shí)檢查網(wǎng)絡(luò)是否正常;當(dāng)?shù)诙畔⒋a為空時(shí),跳過(guò)步驟S108,并設(shè)置第四信息碼的值為“0”;當(dāng)?shù)诙畔⒋a不為空時(shí),執(zhí)行步驟S108 ;
步驟S108,生成第四信息碼:知識(shí)產(chǎn)權(quán)類型為軟件著作權(quán)類型時(shí),當(dāng)?shù)诙畔⒋a不為空,并且第三信息碼為空時(shí),第四信息碼通過(guò)開(kāi)始標(biāo)記為“[總數(shù)”,結(jié)束標(biāo)記為“]”獲取生成,第二信息碼不為空并且第三信息碼不為空時(shí),第四信息碼的值為“ 1” ;知識(shí)產(chǎn)權(quán)類型為專利時(shí),第二信息碼不為空時(shí),第四信息碼通過(guò)第二信息碼去雜質(zhì)后剩下數(shù)字;知識(shí)產(chǎn)權(quán)類型為商標(biāo)時(shí),第二信息碼不為空時(shí),第四信息碼的值為“ 1” ;
步驟S109,當(dāng)?shù)诙畔⒋a不為空時(shí),將第一信息碼、第二信息碼和第四信息碼的信息,以及相應(yīng)的輔助數(shù)據(jù)對(duì)應(yīng)存貯在擁有知識(shí)產(chǎn)權(quán)的企業(yè)信息庫(kù)中;
將所有數(shù)據(jù)執(zhí)行步驟S110存入知識(shí)產(chǎn)權(quán)的企業(yè)信息總表,同時(shí)返回步驟S101將已經(jīng)成功檢索的記錄的進(jìn)行已執(zhí)行的標(biāo)記然后,返回步驟S102循環(huán)執(zhí)行,直至所有符合條件的企業(yè)數(shù)據(jù)檢索完成為止。
[0006]執(zhí)行步驟S102前執(zhí)行步驟S101進(jìn)行企業(yè)信息查詢中,進(jìn)行企業(yè)類型、企業(yè)名稱、企業(yè)成立時(shí)間、企業(yè)注冊(cè)資金和企業(yè)注冊(cè)地址的一種條件或者多個(gè)條件組合檢索篩選出所需要檢索的數(shù)據(jù)。
[0007]步驟S110還可以通過(guò)將數(shù)據(jù)存貯在步驟S101所述的企業(yè)信息表對(duì)應(yīng)的字段中,同時(shí)將相應(yīng)的執(zhí)行標(biāo)記字段的值標(biāo)記為已執(zhí)行,然后步驟S102循環(huán)執(zhí)行,直至所有符合條件的企業(yè)數(shù)據(jù)檢索完成為止。
[0008]步驟S109所述的輔助數(shù)據(jù)包括通過(guò)步驟S102所讀出的企業(yè)名稱傳遞而獲得企業(yè)名稱,通過(guò)步驟S107和步驟S108追加獲取當(dāng)前的系統(tǒng)時(shí)間。
[0009]在執(zhí)行步驟S102前,通過(guò)設(shè)置一定數(shù)量的采樣數(shù)據(jù)進(jìn)行采樣,采樣數(shù)據(jù)包括企業(yè)擁有三種知識(shí)產(chǎn)權(quán)類別的一種、兩種、三種及上述組合的一定量的企業(yè),以及沒(méi)有任何知識(shí)產(chǎn)權(quán)的一定量的企業(yè),采樣走完整個(gè)流程,查看相關(guān)采集是否正常,此步驟確定網(wǎng)絡(luò)是否正常,官方公布數(shù)據(jù)格式是否發(fā)生變化和確定所設(shè)置的數(shù)據(jù)編碼方式是否正確。
[0010]步驟S107所述的知識(shí)產(chǎn)權(quán)類型為軟件著作權(quán)時(shí),當(dāng)?shù)诙畔⒋a不為空時(shí),通過(guò)設(shè)置第四信息碼的值為“1”而不采集生成第三信息碼。
[0011]步驟S103所述的編碼方式,當(dāng)官方機(jī)構(gòu)公布的數(shù)據(jù)對(duì)應(yīng)的編碼發(fā)生變更時(shí),本方法將根據(jù)實(shí)際所發(fā)生的變化變更編碼方式。
[0012]步驟S104所述的URL中,當(dāng)官方機(jī)構(gòu)公布時(shí)采用的URL進(jìn)行加密發(fā)布時(shí),本方法將根據(jù)實(shí)際情況進(jìn)行數(shù)據(jù)加密編碼。
[0013]步驟S104所述的URLencode/URLDecode加密/解密函數(shù)將上述步驟S103的數(shù)據(jù)進(jìn)行加密,其加密編碼根據(jù)實(shí)際情況進(jìn)行一次加密、二次和多次加密。
【附圖說(shuō)明】
[0014]圖1 一種知識(shí)產(chǎn)權(quán)信息抓取與管理的方法流程圖。
【具體實(shí)施方式】
[0015]—種知識(shí)產(chǎn)權(quán)信息抓取與管理的方法,其主要包含以下步驟:
步驟S101,進(jìn)行企業(yè)信息查詢中,進(jìn)行企業(yè)類型等條件檢索篩選出所需要檢索的數(shù)據(jù)。
[0016]步驟S102,在企業(yè)信息庫(kù)中讀出企業(yè)名稱的待查數(shù)據(jù),設(shè)變量為“aa”。
[0017]步驟S103,根據(jù)三種類別將步驟S102所讀出的企業(yè)名稱通過(guò)函數(shù)轉(zhuǎn)為下列所列的對(duì)應(yīng)數(shù)據(jù)編碼:專利公告信息對(duì)應(yīng)編碼方式為UTF8,軟件著作權(quán)公告信息對(duì)應(yīng)編碼方式為GB2312,商標(biāo)公告信息對(duì)應(yīng)編碼方式為UTF8。
[0018]其中UTF8編碼的需要在文件頭加入以下代碼段:
〈script language=〃javaScript,, runat=〃Server〃>funct1n ce(str)
{
return encodeURIComponent(str)
}
</script)
〈head〉
<meta http-equiv=〃Content_Type〃 content=〃text/html; charset=UTF8〃>
<meta http-equiv=〃Content_Language〃 content=〃zh_cn〃>
〈/head〉
GB2312編碼的文件頭加入如下代碼:
〈head〉
<meta http-equiv=〃Content_Type〃 content=〃text/html; charset=gb2312〃>
〈/head〉
步驟S104,在步驟S103生成的對(duì)應(yīng)編碼方式的數(shù)據(jù)后,通過(guò)URLencode/URLDecode加密/解密函數(shù)將上述步驟S103的數(shù)據(jù)進(jìn)行加密,并輸出為第一變量,其中軟件著作權(quán)公告信息中,第一變量為明文,不進(jìn)行加密山RLencode/URLDecode加密/解密函數(shù)將上述步驟S103的數(shù)據(jù)進(jìn)行加密,其加密編碼根據(jù)實(shí)際情況進(jìn)行一次加密、二次和多次加密,其中一次加密的bb=ce (〃〃&aa&〃〃),兩次加密的方式為cc= ce (〃〃&bb&〃〃),多次加密的方法類似。
[0019]步驟S105,以上述第一變量作為對(duì)應(yīng)的URL的對(duì)應(yīng)參數(shù)值生成第一 URL,使用ASP分別表達(dá)如下第一變量假設(shè)為cname:
1.專利公告數(shù)據(jù):
http://cpquery.sip0.gov.cn//txnQueryOrdinaryPatents.do?select_key%3Ashenqingh=&select-key%3Azhuanlimc=&select-key%3Ashenqingrxm=<%=cname%>&select-key%3Azhuanlilx=