本發(fā)明涉及一種金融投資領(lǐng)域的信息分析檢索技術(shù)。
背景技術(shù):
在金融投資領(lǐng)域中,投資者需要對(duì)標(biāo)的企業(yè)進(jìn)行詳細(xì)的業(yè)務(wù)模式分析,財(cái)務(wù)分析,以及合理的企業(yè)價(jià)值估值。對(duì)于標(biāo)的公司的研究,經(jīng)常需要有同行業(yè)或同領(lǐng)域競(jìng)爭(zhēng)公司的企業(yè)經(jīng)營(yíng)數(shù)據(jù)作為參考支持,使用合適的估值方式模型,以建?;蛘哳A(yù)測(cè)該公司的預(yù)期經(jīng)營(yíng)數(shù)據(jù),發(fā)現(xiàn)潛在的投資標(biāo)的。常用的尋找同領(lǐng)域或同行業(yè)公司方式,主要是通過(guò)已有的行業(yè)分類模型,如全球行業(yè)分類標(biāo)準(zhǔn)(gics)、羅素全球行業(yè)(rgs)、行業(yè)分類基準(zhǔn)(icb)等投資型分類系統(tǒng),以及國(guó)民經(jīng)濟(jì)行業(yè)分類、上市企業(yè)行業(yè)分類等管理型政府行業(yè)分類系統(tǒng)。由于新興技術(shù)的不斷進(jìn)步,多領(lǐng)域多行業(yè)交融的公司企業(yè)相繼涌現(xiàn),傳統(tǒng)的分類方式很難完全覆蓋新型技術(shù)領(lǐng)域公司。
信息檢索技術(shù)是從信息資源集合獲得與信息需求相關(guān)的信息資源的活動(dòng)。檢索可以基于全文或者其他基于內(nèi)容的索引。web搜索引擎既是最常見的信息檢索應(yīng)用程序。在信息檢索過(guò)程中,每一次查詢會(huì)對(duì)信息資源對(duì)象進(jìn)行標(biāo)識(shí)排序,并整理存儲(chǔ)不同對(duì)象之間的關(guān)聯(lián)程度以及排名信息。信息對(duì)象通常是內(nèi)容集合或者數(shù)據(jù)庫(kù)存儲(chǔ)的實(shí)體數(shù)據(jù),通過(guò)對(duì)原始信息資源的內(nèi)容提取,整理出有效的實(shí)體以及實(shí)體之間的關(guān)聯(lián)信息,作為信息檢索的直接處理對(duì)象。一種成熟的搜索引擎系統(tǒng)通常會(huì)根據(jù)每一次的查詢匹配程度,對(duì)系統(tǒng)中存儲(chǔ)的實(shí)體對(duì)象進(jìn)行計(jì)算打分,然后排名。用戶每一次的查詢結(jié)果,都會(huì)顯示相應(yīng)查詢排名靠前的實(shí)體以及關(guān)聯(lián)實(shí)體。傳統(tǒng)的對(duì)標(biāo)企業(yè)檢索系統(tǒng)的分類不完善以及檢索效率較低。
相似提取是一種基于文檔內(nèi)容特征檢索與其相似或相關(guān)文檔的內(nèi)容提取方式。通過(guò)對(duì)已構(gòu)建好的實(shí)體數(shù)據(jù)庫(kù)進(jìn)行文檔相關(guān)性測(cè)度,建立實(shí)體之間的相似性排名,可以有效提高檢索準(zhǔn)確率,返回有用信息。常用的相關(guān)性度量方式包括向量空間模型,概率模型,以及推理網(wǎng)絡(luò)模型。向量空間模型通過(guò)對(duì)文檔進(jìn)行基于關(guān)鍵詞的向量空間建模,通過(guò)比對(duì)不同文檔之間的向量空間距離,實(shí)現(xiàn)文檔相似度排名;概率模型通過(guò)計(jì)算查詢關(guān)鍵詞與文檔之間的相關(guān)概率,使用不同的先驗(yàn)與后驗(yàn)領(lǐng)域經(jīng)驗(yàn)概率,基于貝葉斯模型,得出不同關(guān)鍵詞與文檔之間的關(guān)聯(lián)程度,并對(duì)不同文檔進(jìn)行相似度排名。推理網(wǎng)絡(luò)模型是一種具備知識(shí)推理能力的相似檢索模型,可基于不同的計(jì)算策略,提供檢索與文檔之間的關(guān)聯(lián)程度,以及文檔與文檔之間的相似度排名。具體的計(jì)算策略包括向量空間、關(guān)鍵詞權(quán)重概率等。
由于傳統(tǒng)的分類方法存在上述問(wèn)題,因此,結(jié)合信息檢索技術(shù)、搜索排序等算法計(jì)算后的自動(dòng)相似企業(yè)檢索分類系統(tǒng)將派上用場(chǎng)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種基于知識(shí)庫(kù)推理的相似上市公司企業(yè)檢索分類方法及系統(tǒng),以解決傳統(tǒng)的分類方式覆蓋面不全和傳統(tǒng)的對(duì)標(biāo)企業(yè)檢索系統(tǒng)的分類不完善以及檢索效率較低等技術(shù)問(wèn)題。
為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明所述一種基于知識(shí)庫(kù)推理的相似上市公司企業(yè)檢索分類方法,采用的具體步驟如下:
1).獲取公司信息,對(duì)所有上市公司企業(yè)進(jìn)行數(shù)據(jù)搜集,包括上市公司招股說(shuō)明書、年度報(bào)告、重要公告、財(cái)務(wù)報(bào)告、行業(yè)研究報(bào)告、專利信息、訴訟信息、招標(biāo)投標(biāo)信息和企業(yè)重要新聞;
2).解析存儲(chǔ)數(shù)據(jù),通過(guò)解析器將爬取的數(shù)據(jù)解析為適當(dāng)格式,存儲(chǔ)到數(shù)據(jù)庫(kù)中,解析器包含類型分析器、格式分析器,用以針對(duì)復(fù)雜的數(shù)據(jù)類型與格式,并將其解析為統(tǒng)一格式;
3).整合分析數(shù)據(jù),對(duì)已有數(shù)據(jù)進(jìn)行數(shù)據(jù)去重、內(nèi)容結(jié)構(gòu)信息提取和信息分類處理,針對(duì)每一家具體企業(yè),建立企業(yè)數(shù)據(jù)畫像,從主營(yíng)業(yè)務(wù)構(gòu)成、參控股公司關(guān)系、財(cái)務(wù)指標(biāo)角度,對(duì)企業(yè)公司進(jìn)行分類描述;
4).建立企業(yè)實(shí)體知識(shí)庫(kù),通過(guò)使用中文分詞、詞性標(biāo)注、識(shí)別標(biāo)注、規(guī)則匹配技術(shù),對(duì)企業(yè)信息進(jìn)行段落和句子級(jí)別的結(jié)構(gòu)分析,并提取出實(shí)體及關(guān)系;之后通過(guò)詞向量模型,并經(jīng)過(guò)倒排索引、關(guān)鍵詞優(yōu)化、相似度排名、實(shí)體關(guān)系匹配步驟,建立企業(yè)實(shí)體知識(shí)庫(kù);
5).根據(jù)檢索關(guān)鍵詞,返回標(biāo)的企業(yè)的相關(guān)對(duì)標(biāo)企業(yè)信息。
所述解析存儲(chǔ)數(shù)據(jù)是根據(jù)獲取到的上市公司企業(yè)經(jīng)營(yíng)數(shù)據(jù),針對(duì)不同類型,進(jìn)行解析提?。粚⒁陨汐@取數(shù)據(jù)統(tǒng)一提交到類型解析器,針對(duì)不同格式類型的數(shù)據(jù),解析器包含了相應(yīng)的數(shù)據(jù)類型接口模塊,對(duì)相應(yīng)數(shù)據(jù)進(jìn)行識(shí)別解析處理;之后通過(guò)格式分析器分析數(shù)據(jù)的不同格式,將各種公司數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的格式,解析完成后,需要將數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中保存。
所述整合分析數(shù)據(jù),在具有統(tǒng)一格式的數(shù)據(jù)基礎(chǔ)之上,還需要進(jìn)一步的清理數(shù)據(jù);首先需要對(duì)數(shù)據(jù)去重,對(duì)于公司所包含的大量描述數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)、新聞數(shù)據(jù),第一層格式分析處理后還需要對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行清理檢測(cè),去掉重復(fù)數(shù)據(jù),去重后的數(shù)據(jù)仍然包含大量無(wú)用標(biāo)簽、格式等冗余數(shù)據(jù),還需要使用基于規(guī)則的識(shí)別技術(shù)對(duì)清理后的數(shù)據(jù)進(jìn)行提取處理,篩出有用數(shù)據(jù),最后根據(jù)公司情況,對(duì)數(shù)據(jù)進(jìn)行主要包括財(cái)務(wù)模型、同業(yè)企業(yè)對(duì)比、產(chǎn)品結(jié)構(gòu)、銷售模式、客戶與市場(chǎng)在內(nèi)的類別分類。
所述建立企業(yè)實(shí)體知識(shí)庫(kù),首先,對(duì)數(shù)據(jù)建立全文索引,利用分布式搜索引擎技術(shù)對(duì)結(jié)構(gòu)化處理后的數(shù)據(jù)建立全文索引,對(duì)相關(guān)的文檔進(jìn)行全文本詞匯提取,并將文本數(shù)據(jù)轉(zhuǎn)化為空間向量,使用向量模型對(duì)文本進(jìn)行相關(guān)性評(píng)分。
所述建立企業(yè)實(shí)體知識(shí)庫(kù),其次,根據(jù)查詢關(guān)鍵字信息提取數(shù)據(jù)組塊,利用分布式搜索引擎對(duì)數(shù)據(jù)庫(kù)進(jìn)行檢索,提取相關(guān)公司數(shù)據(jù),構(gòu)成一個(gè)數(shù)據(jù)組塊,對(duì)檢索進(jìn)行優(yōu)化。
所述建立企業(yè)實(shí)體知識(shí)庫(kù),第三,查詢關(guān)鍵詞庫(kù),對(duì)于特定查詢關(guān)鍵詞,將與其關(guān)聯(lián)的數(shù)據(jù)組塊組織起來(lái)建立搜索緩存空間,提升搜索查詢的效率。
所述建立企業(yè)實(shí)體知識(shí)庫(kù),第四,對(duì)數(shù)據(jù)組塊進(jìn)行相似度計(jì)算,首先對(duì)數(shù)據(jù)組塊進(jìn)行企業(yè)信息建模,利用詞向量模型將文本數(shù)據(jù)轉(zhuǎn)化為向量,基于得到的向量矩陣進(jìn)行相似度計(jì)算,在計(jì)算過(guò)程中通過(guò)多層處理:用關(guān)鍵詞-實(shí)體向量模型對(duì)企業(yè)信息進(jìn)行向量化,使用倒排索引技術(shù)對(duì)企業(yè)信息建立索引,對(duì)檢索關(guān)鍵詞進(jìn)行優(yōu)化,利用相似度計(jì)算技術(shù)對(duì)企業(yè)相似度進(jìn)行優(yōu)化,完成實(shí)體關(guān)系匹配,生成相似度矩陣。
所述建立企業(yè)實(shí)體知識(shí)庫(kù),第五,根據(jù)相似度矩陣返回相似度大于閾值的檢索結(jié)果。
一種基于知識(shí)庫(kù)推理的相似上市公司企業(yè)檢索分類系統(tǒng),包括:
公司企業(yè)信息獲取模塊,對(duì)各種常用到的公司信息數(shù)據(jù)進(jìn)行獲取整理;
數(shù)據(jù)解析格式分析模塊,將爬取的數(shù)據(jù)解析為統(tǒng)一格式,其中需要分析數(shù)據(jù)的類型和格式,針對(duì)不同的數(shù)據(jù)類型與格式,使用不同的解析算法,將其解析為
統(tǒng)一格式,最后將數(shù)據(jù)存儲(chǔ)到適當(dāng)?shù)臄?shù)據(jù)庫(kù)中;信息提取結(jié)構(gòu)化模塊,對(duì)統(tǒng)一格式的數(shù)據(jù)進(jìn)行進(jìn)一步的整合分析,其中包括數(shù)據(jù)去重、信息抽取、信息分類算法;
關(guān)鍵詞優(yōu)化檢索模塊,基于分布式搜索引擎對(duì)整合后的數(shù)據(jù)建立全文索引,根據(jù)查詢關(guān)鍵詞可以檢索相關(guān)的數(shù)據(jù)構(gòu)成數(shù)據(jù)組塊,對(duì)數(shù)據(jù)進(jìn)行相關(guān)性評(píng)分,提高檢索效率;
相似矩陣處理知識(shí)庫(kù)構(gòu)建模塊,用于根據(jù)數(shù)據(jù)組塊計(jì)算公司數(shù)據(jù)的相似度,其中要先基于企業(yè)信息對(duì)數(shù)據(jù)建模,然后利用詞向量模型將數(shù)據(jù)轉(zhuǎn)換成向量形式,并通過(guò)倒排索引、關(guān)鍵詞優(yōu)化、相似度排名、實(shí)體關(guān)系匹配過(guò)程,建立企業(yè)實(shí)體知識(shí)庫(kù),對(duì)輸入的檢索關(guān)鍵詞進(jìn)行推理匹配。
本發(fā)明的優(yōu)點(diǎn):
本發(fā)明使用基于知識(shí)庫(kù)推理的推理策略網(wǎng)絡(luò)模型,根據(jù)標(biāo)的企業(yè)與相關(guān)企業(yè)的產(chǎn)品結(jié)構(gòu),主營(yíng)業(yè)務(wù)服務(wù),競(jìng)爭(zhēng)對(duì)手,競(jìng)爭(zhēng)格局,商業(yè)周期敏感程度,以及統(tǒng)計(jì)相關(guān)程度結(jié)合的方式,對(duì)相關(guān)聯(lián)的企業(yè)進(jìn)行相似度排名,以找出對(duì)標(biāo)企業(yè),并對(duì)更全局的行業(yè)產(chǎn)業(yè)鏈,上下游關(guān)聯(lián)等投資分析,提供數(shù)據(jù)基礎(chǔ)。針對(duì)現(xiàn)有對(duì)標(biāo)企業(yè)檢索系統(tǒng)的分類不完善以及檢索效率較低等問(wèn)題,提出了一種基于知識(shí)庫(kù)推理的相似上市公司企業(yè)檢索分類方法及系統(tǒng)。本發(fā)明具有分類方式覆蓋面全,對(duì)標(biāo)企業(yè)檢索系統(tǒng)的分類完善,檢索效率高等優(yōu)點(diǎn)。
附圖說(shuō)明
圖1為實(shí)例中檢索相似上市公司的方法流程圖。
圖2為實(shí)例中解析存儲(chǔ)數(shù)據(jù)及整合分析數(shù)據(jù)的流程圖。
圖3為生成公司相似度矩陣的流程圖。
圖4為實(shí)例中檢索相似上市公司的系統(tǒng)流程圖。
具體實(shí)施方式
下面結(jié)合實(shí)例詳細(xì)描述本發(fā)明,顯然,所描述的實(shí)例只是本申請(qǐng)的部分實(shí)例。應(yīng)當(dāng)理解,此處所描述的優(yōu)選實(shí)例僅用于說(shuō)明和解釋本發(fā)明,并不用于限定本申請(qǐng)?;诒旧暾?qǐng)的實(shí)例,本領(lǐng)域的技術(shù)人員所獲得所有其他實(shí)例都屬于本申請(qǐng)的保護(hù)范圍。
圖1為方法的總流程圖,描述了相似公司檢索方法的運(yùn)行流程。
101-104上市公司企業(yè)數(shù)據(jù)來(lái)源。根據(jù)本發(fā)明數(shù)據(jù)處理需求,對(duì)上市公司企業(yè)公開渠道發(fā)布的信息進(jìn)行搜集,具體信息包括行業(yè)研究報(bào)告,公司公告,財(cái)務(wù)報(bào)告,相關(guān)重要新聞,以及招股說(shuō)明書、年報(bào)、重大公告、訴訟信息、專利信息等可以涵蓋公司日常經(jīng)營(yíng)變動(dòng)的信息內(nèi)容;
105上市公司信息獲取。針對(duì)上述不同來(lái)源數(shù)據(jù),確定相應(yīng)的信息獲取方式,如行業(yè)研究報(bào)告、公司公告等數(shù)據(jù)常為文本形式的pdf文檔,則需要對(duì)具體的文檔進(jìn)行更新存儲(chǔ)處理。財(cái)務(wù)報(bào)告等數(shù)據(jù)為結(jié)構(gòu)化后的帶有標(biāo)簽形式的數(shù)值數(shù)據(jù),則需要根據(jù)數(shù)值數(shù)據(jù)的獲取方式,批量進(jìn)行更新獲取,并對(duì)相同公司相同報(bào)表結(jié)構(gòu)字段等進(jìn)行關(guān)聯(lián)建模;訴訟信息、專利信息等為網(wǎng)頁(yè)發(fā)布數(shù)據(jù),則需對(duì)網(wǎng)頁(yè)結(jié)構(gòu)內(nèi)容進(jìn)行有效識(shí)別,提取分析獲取有用數(shù)據(jù)。
106解析存儲(chǔ)數(shù)據(jù)。根據(jù)105獲取到的上市公司企業(yè)經(jīng)營(yíng)數(shù)據(jù),針對(duì)不同類型,進(jìn)行解析提取。將以上獲取數(shù)據(jù)統(tǒng)一提交到類型解析器,針對(duì)不同格式類型的數(shù)據(jù),文本型數(shù)據(jù)如pdf格式、word格式等,結(jié)構(gòu)型數(shù)據(jù)如json格式、xml等,網(wǎng)頁(yè)數(shù)據(jù)如html等,解析器包含了相應(yīng)的數(shù)據(jù)類型接口模塊,對(duì)相應(yīng)數(shù)據(jù)進(jìn)行識(shí)別解析處理。之后通過(guò)格式分析器分析數(shù)據(jù)的不同格式,將各種公司數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的格式,解析完成后,需要將數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中保存;
107整合分析數(shù)據(jù),在具有統(tǒng)一格式的數(shù)據(jù)基礎(chǔ)之上,還需要進(jìn)一步的清理數(shù)據(jù)。首先需要對(duì)數(shù)據(jù)去重,對(duì)于公司所包含的大量描述數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)、新聞數(shù)據(jù),通常第一層格式分析處理后還需要對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行清理檢測(cè),去掉重復(fù)數(shù)據(jù),以提高數(shù)據(jù)有效性,減輕存儲(chǔ)系統(tǒng)的負(fù)擔(dān)。去重后的數(shù)據(jù)仍然包含大量無(wú)用標(biāo)簽、格式等冗余數(shù)據(jù),還需要使用識(shí)別算法技術(shù)對(duì)清理后的數(shù)據(jù)進(jìn)行提取處理,篩出有用數(shù)據(jù),最后對(duì)數(shù)據(jù)進(jìn)行分類,包括財(cái)務(wù)模型、同業(yè)企業(yè)對(duì)比、產(chǎn)品結(jié)構(gòu),銷售模式,客戶與市場(chǎng)等類別;
108對(duì)數(shù)據(jù)建立全文索引。為了提高處理后數(shù)據(jù)的檢索速率,需要利用分布式搜索引擎技術(shù)對(duì)結(jié)構(gòu)化處理后的數(shù)據(jù)建立全文索引,對(duì)相關(guān)的文檔進(jìn)行全文本詞匯提取,并將文本數(shù)據(jù)轉(zhuǎn)化為空間向量,使用向量模型對(duì)文本進(jìn)行相關(guān)性評(píng)分;
109根據(jù)查詢關(guān)鍵字信息提取數(shù)據(jù)組塊,利用分布式搜索引擎對(duì)數(shù)據(jù)庫(kù)進(jìn)行檢索,提取相關(guān)公司數(shù)據(jù),如檢索關(guān)鍵詞、公司數(shù)據(jù)文檔、關(guān)鍵詞位置信息等,構(gòu)成一個(gè)數(shù)據(jù)組塊,對(duì)檢索進(jìn)行優(yōu)化。
110查詢關(guān)鍵詞庫(kù)確定。對(duì)于特定查詢關(guān)鍵詞,將與其關(guān)聯(lián)的數(shù)據(jù)組塊組織起來(lái)建立搜索緩存空間,提升搜索查詢的效率。
111對(duì)數(shù)據(jù)組塊進(jìn)行相似度計(jì)算,首先對(duì)數(shù)據(jù)組塊進(jìn)行企業(yè)信息建模,利用詞向量模型將文本數(shù)據(jù)轉(zhuǎn)化為向量,基于得到的向量矩陣進(jìn)行相似度計(jì)算,在計(jì)算過(guò)程中通過(guò)多層處理:對(duì)關(guān)鍵詞-實(shí)體向量模型進(jìn)行,倒排索引,關(guān)鍵詞優(yōu)化,相似度排名,實(shí)體關(guān)系匹配等,生成相似度矩陣;
112根據(jù)相似度矩陣返回相似度大于閾值的檢索結(jié)果。
圖2描述了本發(fā)明方法中解析存儲(chǔ)數(shù)據(jù)以及數(shù)據(jù)整合分析的流程。
201已獲取的公司企業(yè)數(shù)據(jù)。根據(jù)101-105,獲取所需的上市公司企業(yè)經(jīng)營(yíng)數(shù)據(jù),包括行業(yè)研究報(bào)告,公司公告,財(cái)務(wù)報(bào)告,相關(guān)重要新聞,以及招股說(shuō)明書,年報(bào),重大公告,訴訟信息,專利信息等。
202類型分析,對(duì)以上獲取的公司信息進(jìn)行類型分析。對(duì)于行業(yè)研究報(bào)告、上市公司公告等文檔型(如pdf、word)數(shù)據(jù),根據(jù)文檔結(jié)構(gòu)特征,提取其中的有效數(shù)據(jù)內(nèi)容,包括文本、圖片、表格等有用信息。對(duì)于財(cái)務(wù)報(bào)告等數(shù)值結(jié)構(gòu)型數(shù)據(jù),根據(jù)具體的結(jié)構(gòu)特征信息,對(duì)原始數(shù)據(jù)進(jìn)行再加工處理,對(duì)原有結(jié)構(gòu)特征進(jìn)行重組,以生成本專利系統(tǒng)可識(shí)別處理的新型結(jié)構(gòu)化數(shù)據(jù)。對(duì)于訴訟、專利等網(wǎng)頁(yè)結(jié)構(gòu)信息數(shù)據(jù),需根據(jù)具體網(wǎng)頁(yè)結(jié)構(gòu),分析其標(biāo)簽頭部?jī)?nèi)容,提取有用信息數(shù)據(jù),并重組結(jié)構(gòu)化。
203格式分析。根據(jù)202所述不同類型原始公司企業(yè)數(shù)據(jù)信息,進(jìn)行相應(yīng)的格式結(jié)構(gòu)化處理。文本型數(shù)據(jù)如pdf格式,將其中的文本內(nèi)容、圖表等有用信息進(jìn)行提取格式化處理,生成統(tǒng)一結(jié)構(gòu)內(nèi)容;結(jié)構(gòu)化內(nèi)容如公司財(cái)務(wù)數(shù)據(jù)、產(chǎn)品信息、主營(yíng)業(yè)務(wù)信息等json數(shù)據(jù),對(duì)其進(jìn)行再結(jié)構(gòu)處理;網(wǎng)頁(yè)型數(shù)據(jù)如公司新聞,訴訟信息等,通過(guò)格式分析器將網(wǎng)頁(yè)中的有效數(shù)據(jù)進(jìn)行統(tǒng)一提取,剔除無(wú)用格式標(biāo)簽,篩選有用信息數(shù)據(jù)。
204存儲(chǔ)數(shù)據(jù),將格式化結(jié)構(gòu)好的的數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中,建立公司關(guān)聯(lián)的企業(yè)信息知識(shí)庫(kù),以提高數(shù)據(jù)存取效率。
205數(shù)據(jù)去重,對(duì)于已有格式化數(shù)據(jù)進(jìn)行去重再清洗處理,使用哈希技術(shù),計(jì)算數(shù)據(jù)的信息摘要,將重復(fù)數(shù)據(jù)去除,提高公司企業(yè)數(shù)據(jù)的利用效率。
206信息抽取,對(duì)于公司企業(yè)信息知識(shí)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù),針對(duì)不同需求,如企業(yè)描述,產(chǎn)品結(jié)構(gòu),主營(yíng)業(yè)務(wù)構(gòu)成,財(cái)務(wù)報(bào)表,高管信息,專利信息等,進(jìn)行相關(guān)內(nèi)容提取。
207信息分類,在206過(guò)程提取出的數(shù)據(jù)基礎(chǔ)上,對(duì)相應(yīng)內(nèi)容進(jìn)行信息分類,并與原始企業(yè)信息進(jìn)行關(guān)聯(lián)。針對(duì)每一個(gè)具體企業(yè),生成對(duì)應(yīng)的企業(yè)數(shù)據(jù)畫像,從多個(gè)角度對(duì)企業(yè)公司進(jìn)行分類描述。
圖3描述了本發(fā)明方法中計(jì)算公司相似度矩陣的流程。
301經(jīng)過(guò)圖2所述流程,將獲取到的原始企業(yè)公司數(shù)據(jù),進(jìn)行結(jié)構(gòu)化提取處理,獲得精簡(jiǎn)分類的企業(yè)數(shù)據(jù)畫像;
302企業(yè)信息實(shí)體抽取。通過(guò)綜合使用中文分詞,詞性標(biāo)注,識(shí)別標(biāo)注,規(guī)則匹配等技術(shù),對(duì)上述企業(yè)信息進(jìn)行段落/句子級(jí)別的結(jié)構(gòu)分析,并提取出其中的實(shí)體以及關(guān)系。
303詞向量模型。根據(jù)302過(guò)程處理得到的企業(yè)實(shí)體信息,采用使用詞向量模型,對(duì)其進(jìn)行文本向量矩陣化處理,其中向量的維度是文本中實(shí)體數(shù)目,向量?jī)?nèi)絕大部分為0,某些維度為1,通過(guò)這樣的方式將文本轉(zhuǎn)化為數(shù)值向量,使得能夠進(jìn)行接下來(lái)一系列的計(jì)算;
304企業(yè)實(shí)體知識(shí)庫(kù)。對(duì)于已提取出的企業(yè)實(shí)體信息,通過(guò)305-308一系列的深化處理,構(gòu)造建立具備推理能力的企業(yè)實(shí)體關(guān)聯(lián)知識(shí)庫(kù),提供對(duì)于涵蓋深市、滬市、新三板所有上市公司企業(yè)對(duì)標(biāo)公司自動(dòng)識(shí)別分類系統(tǒng)所需的推理數(shù)據(jù)鏈條
305倒排索引。對(duì)于已構(gòu)建好的企業(yè)實(shí)體信息,結(jié)合相應(yīng)的檢索關(guān)鍵詞,構(gòu)建倒排索引結(jié)構(gòu),提高檢索與結(jié)果的關(guān)聯(lián)匹配程度。倒排關(guān)鍵詞-實(shí)體索引可以看成是一個(gè)鏈表數(shù)組,每個(gè)鏈表的表頭包含關(guān)鍵詞,其后續(xù)單元?jiǎng)t包括所有包括這個(gè)關(guān)鍵詞的實(shí)體向量模型,以及一些其他信息。這些信息可以是實(shí)體向量中該詞的頻率,也可以是實(shí)體向量中該詞的位置等信息。
306關(guān)鍵詞優(yōu)化。根據(jù)305中建立的關(guān)鍵詞-實(shí)體倒排索引模型,對(duì)于每一次的檢索結(jié)果,對(duì)關(guān)鍵詞出現(xiàn)次數(shù)及權(quán)重進(jìn)行優(yōu)化。如果一個(gè)關(guān)鍵詞在某個(gè)實(shí)體向量中出現(xiàn)次數(shù)越多,那么這個(gè)詞應(yīng)該被認(rèn)為越重要。如果一個(gè)關(guān)鍵詞在越多的實(shí)體向量中出現(xiàn),那么這個(gè)詞區(qū)分向量的作用就越低,于是其重要性也應(yīng)當(dāng)相應(yīng)降低。一個(gè)企業(yè)的實(shí)體向量模型維度越高,那么其出現(xiàn)某個(gè)關(guān)鍵詞的次數(shù)可能越高,而每個(gè)關(guān)鍵詞對(duì)這個(gè)實(shí)體向量的區(qū)分作用也越低,相應(yīng)的應(yīng)該對(duì)這些關(guān)鍵詞予以一定的降權(quán)。
307相似度排名。通過(guò)對(duì)關(guān)鍵詞在不同企業(yè)實(shí)體向量模型中的權(quán)重進(jìn)行不斷的優(yōu)化修正,對(duì)相同關(guān)鍵詞所關(guān)聯(lián)的企業(yè)實(shí)體向量進(jìn)行排序打分,建立關(guān)鍵詞對(duì)應(yīng)的企業(yè)實(shí)體排名圖譜,找出同行業(yè)同領(lǐng)域中,產(chǎn)品業(yè)務(wù)營(yíng)收等不同指標(biāo)關(guān)聯(lián)最強(qiáng)的對(duì)標(biāo)企業(yè)公司。
308實(shí)體關(guān)系匹配。在307建立的對(duì)標(biāo)企業(yè)排名圖譜的基礎(chǔ)上,根據(jù)不同檢索關(guān)鍵詞,企業(yè)結(jié)構(gòu)指標(biāo),對(duì)企業(yè)實(shí)體間的關(guān)聯(lián)進(jìn)行分類匹配,如針對(duì)產(chǎn)品結(jié)構(gòu),主營(yíng)業(yè)務(wù)市場(chǎng),行業(yè)所處地域以及周期等,進(jìn)行不同的關(guān)系匹配處理,建立可根據(jù)不同關(guān)鍵詞進(jìn)行推理檢索的企業(yè)實(shí)體關(guān)系知識(shí)庫(kù)。
309推理模型。經(jīng)過(guò)以上301--308的處理流程,建立完整的企業(yè)實(shí)體知識(shí)庫(kù),對(duì)于不同的檢索關(guān)鍵詞,知識(shí)庫(kù)可以自行推理得到標(biāo)的企業(yè)對(duì)應(yīng)的相似企業(yè)匹配結(jié)果,并可根據(jù)不同的關(guān)注類別,推理得出某種細(xì)分場(chǎng)景的對(duì)標(biāo)企業(yè)公司,對(duì)于行業(yè)企業(yè)分析有很大的幫助作用。
310對(duì)標(biāo)匹配結(jié)果。根據(jù)檢索關(guān)鍵詞,輸出對(duì)標(biāo)匹配結(jié)果。
圖4為根據(jù)本發(fā)明方法實(shí)現(xiàn)的系統(tǒng)流程圖,描述了相似公司檢索系統(tǒng)的整體運(yùn)行流程。
401公司企業(yè)信息獲取模塊。對(duì)各種常用到的公司信息數(shù)據(jù)進(jìn)行獲取整理;
402數(shù)據(jù)解析格式分析模塊。將爬取的數(shù)據(jù)解析為統(tǒng)一格式,其中需要分析數(shù)據(jù)的類型和格式,針對(duì)不同的數(shù)據(jù)類型與格式,使用不同的解析算法,將其解析為統(tǒng)一格式,最后將數(shù)據(jù)存儲(chǔ)到適當(dāng)?shù)臄?shù)據(jù)庫(kù)中;
403信息提取結(jié)構(gòu)化模塊。對(duì)統(tǒng)一格式的數(shù)據(jù)進(jìn)行借一步的整合分析,其中包括數(shù)據(jù)去重,信息抽取,信息分類等算法;
404關(guān)鍵詞優(yōu)化檢索模塊?;诜植际剿阉饕鎸?duì)整合后的數(shù)據(jù)建立全文索引,根據(jù)查詢關(guān)鍵詞可以檢索相關(guān)的數(shù)據(jù)構(gòu)成數(shù)據(jù)組塊,這其中涉及到向量空間模型,bm25算法等對(duì)數(shù)據(jù)進(jìn)行相關(guān)性評(píng)分,提高檢索效率;
405相似矩陣處理知識(shí)庫(kù)構(gòu)建模塊。用于根據(jù)數(shù)據(jù)組塊計(jì)算公司數(shù)據(jù)的相似度,其中要先基于企業(yè)信息對(duì)數(shù)據(jù)建模,然后利用詞向量模型將數(shù)據(jù)轉(zhuǎn)換成向量形式,并通過(guò)倒排索引、關(guān)鍵詞優(yōu)化、相似度排名、實(shí)體關(guān)系匹配等過(guò)程,建立企業(yè)實(shí)體知識(shí)庫(kù),對(duì)輸入的檢索關(guān)鍵詞進(jìn)行推理匹配。