一種基于知識(shí)庫(kù)推理的相似上市公司企業(yè)檢索分類方法及系統(tǒng)與流程

文檔序號(hào)：11519853閱讀：342來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于知識(shí)庫(kù)推理的相似上市公司企業(yè)檢索分類方法及系統(tǒng)與流程

本發(fā)明涉及一種金融投資領(lǐng)域的信息分析檢索技術(shù)。

背景技術(shù)：

在金融投資領(lǐng)域中，投資者需要對(duì)標(biāo)的企業(yè)進(jìn)行詳細(xì)的業(yè)務(wù)模式分析，財(cái)務(wù)分析，以及合理的企業(yè)價(jià)值估值。對(duì)于標(biāo)的公司的研究，經(jīng)常需要有同行業(yè)或同領(lǐng)域競(jìng)爭(zhēng)公司的企業(yè)經(jīng)營(yíng)數(shù)據(jù)作為參考支持，使用合適的估值方式模型，以建?；蛘哳A(yù)測(cè)該公司的預(yù)期經(jīng)營(yíng)數(shù)據(jù)，發(fā)現(xiàn)潛在的投資標(biāo)的。常用的尋找同領(lǐng)域或同行業(yè)公司方式，主要是通過(guò)已有的行業(yè)分類模型，如全球行業(yè)分類標(biāo)準(zhǔn)(gics)、羅素全球行業(yè)(rgs)、行業(yè)分類基準(zhǔn)(icb)等投資型分類系統(tǒng)，以及國(guó)民經(jīng)濟(jì)行業(yè)分類、上市企業(yè)行業(yè)分類等管理型政府行業(yè)分類系統(tǒng)。由于新興技術(shù)的不斷進(jìn)步，多領(lǐng)域多行業(yè)交融的公司企業(yè)相繼涌現(xiàn)，傳統(tǒng)的分類方式很難完全覆蓋新型技術(shù)領(lǐng)域公司。

信息檢索技術(shù)是從信息資源集合獲得與信息需求相關(guān)的信息資源的活動(dòng)。檢索可以基于全文或者其他基于內(nèi)容的索引。web搜索引擎既是最常見的信息檢索應(yīng)用程序。在信息檢索過(guò)程中，每一次查詢會(huì)對(duì)信息資源對(duì)象進(jìn)行標(biāo)識(shí)排序，并整理存儲(chǔ)不同對(duì)象之間的關(guān)聯(lián)程度以及排名信息。信息對(duì)象通常是內(nèi)容集合或者數(shù)據(jù)庫(kù)存儲(chǔ)的實(shí)體數(shù)據(jù)，通過(guò)對(duì)原始信息資源的內(nèi)容提取，整理出有效的實(shí)體以及實(shí)體之間的關(guān)聯(lián)信息，作為信息檢索的直接處理對(duì)象。一種成熟的搜索引擎系統(tǒng)通常會(huì)根據(jù)每一次的查詢匹配程度，對(duì)系統(tǒng)中存儲(chǔ)的實(shí)體對(duì)象進(jìn)行計(jì)算打分，然后排名。用戶每一次的查詢結(jié)果，都會(huì)顯示相應(yīng)查詢排名靠前的實(shí)體以及關(guān)聯(lián)實(shí)體。傳統(tǒng)的對(duì)標(biāo)企業(yè)檢索系統(tǒng)的分類不完善以及檢索效率較低。

相似提取是一種基于文檔內(nèi)容特征檢索與其相似或相關(guān)文檔的內(nèi)容提取方式。通過(guò)對(duì)已構(gòu)建好的實(shí)體數(shù)據(jù)庫(kù)進(jìn)行文檔相關(guān)性測(cè)度，建立實(shí)體之間的相似性排名，可以有效提高檢索準(zhǔn)確率，返回有用信息。常用的相關(guān)性度量方式包括向量空間模型，概率模型，以及推理網(wǎng)絡(luò)模型。向量空間模型通過(guò)對(duì)文檔進(jìn)行基于關(guān)鍵詞的向量空間建模，通過(guò)比對(duì)不同文檔之間的向量空間距離，實(shí)現(xiàn)文檔相似度排名；概率模型通過(guò)計(jì)算查詢關(guān)鍵詞與文檔之間的相關(guān)概率，使用不同的先驗(yàn)與后驗(yàn)領(lǐng)域經(jīng)驗(yàn)概率，基于貝葉斯模型，得出不同關(guān)鍵詞與文檔之間的關(guān)聯(lián)程度，并對(duì)不同文檔進(jìn)行相似度排名。推理網(wǎng)絡(luò)模型是一種具備知識(shí)推理能力的相似檢索模型，可基于不同的計(jì)算策略，提供檢索與文檔之間的關(guān)聯(lián)程度，以及文檔與文檔之間的相似度排名。具體的計(jì)算策略包括向量空間、關(guān)鍵詞權(quán)重概率等。

由于傳統(tǒng)的分類方法存在上述問(wèn)題，因此，結(jié)合信息檢索技術(shù)、搜索排序等算法計(jì)算后的自動(dòng)相似企業(yè)檢索分類系統(tǒng)將派上用場(chǎng)。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的是提供一種基于知識(shí)庫(kù)推理的相似上市公司企業(yè)檢索分類方法及系統(tǒng)，以解決傳統(tǒng)的分類方式覆蓋面不全和傳統(tǒng)的對(duì)標(biāo)企業(yè)檢索系統(tǒng)的分類不完善以及檢索效率較低等技術(shù)問(wèn)題。

為了實(shí)現(xiàn)上述發(fā)明目的，本發(fā)明所述一種基于知識(shí)庫(kù)推理的相似上市公司企業(yè)檢索分類方法，采用的具體步驟如下：

1).獲取公司信息，對(duì)所有上市公司企業(yè)進(jìn)行數(shù)據(jù)搜集，包括上市公司招股說(shuō)明書、年度報(bào)告、重要公告、財(cái)務(wù)報(bào)告、行業(yè)研究報(bào)告、專利信息、訴訟信息、招標(biāo)投標(biāo)信息和企業(yè)重要新聞；

2).解析存儲(chǔ)數(shù)據(jù)，通過(guò)解析器將爬取的數(shù)據(jù)解析為適當(dāng)格式，存儲(chǔ)到數(shù)據(jù)庫(kù)中，解析器包含類型分析器、格式分析器，用以針對(duì)復(fù)雜的數(shù)據(jù)類型與格式，并將其解析為統(tǒng)一格式；

3).整合分析數(shù)據(jù)，對(duì)已有數(shù)據(jù)進(jìn)行數(shù)據(jù)去重、內(nèi)容結(jié)構(gòu)信息提取和信息分類處理，針對(duì)每一家具體企業(yè)，建立企業(yè)數(shù)據(jù)畫像，從主營(yíng)業(yè)務(wù)構(gòu)成、參控股公司關(guān)系、財(cái)務(wù)指標(biāo)角度，對(duì)企業(yè)公司進(jìn)行分類描述；

4).建立企業(yè)實(shí)體知識(shí)庫(kù)，通過(guò)使用中文分詞、詞性標(biāo)注、識(shí)別標(biāo)注、規(guī)則匹配技術(shù)，對(duì)企業(yè)信息進(jìn)行段落和句子級(jí)別的結(jié)構(gòu)分析，并提取出實(shí)體及關(guān)系；之后通過(guò)詞向量模型，并經(jīng)過(guò)倒排索引、關(guān)鍵詞優(yōu)化、相似度排名、實(shí)體關(guān)系匹配步驟，建立企業(yè)實(shí)體知識(shí)庫(kù)；

5).根據(jù)檢索關(guān)鍵詞，返回標(biāo)的企業(yè)的相關(guān)對(duì)標(biāo)企業(yè)信息。

所述解析存儲(chǔ)數(shù)據(jù)是根據(jù)獲取到的上市公司企業(yè)經(jīng)營(yíng)數(shù)據(jù)，針對(duì)不同類型，進(jìn)行解析提?。粚⒁陨汐@取數(shù)據(jù)統(tǒng)一提交到類型解析器，針對(duì)不同格式類型的數(shù)據(jù)，解析器包含了相應(yīng)的數(shù)據(jù)類型接口模塊，對(duì)相應(yīng)數(shù)據(jù)進(jìn)行識(shí)別解析處理；之后通過(guò)格式分析器分析數(shù)據(jù)的不同格式，將各種公司數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的格式，解析完成后，需要將數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中保存。

所述整合分析數(shù)據(jù)，在具有統(tǒng)一格式的數(shù)據(jù)基礎(chǔ)之上，還需要進(jìn)一步的清理數(shù)據(jù)；首先需要對(duì)數(shù)據(jù)去重，對(duì)于公司所包含的大量描述數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)、新聞數(shù)據(jù)，第一層格式分析處理后還需要對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行清理檢測(cè)，去掉重復(fù)數(shù)據(jù)，去重后的數(shù)據(jù)仍然包含大量無(wú)用標(biāo)簽、格式等冗余數(shù)據(jù)，還需要使用基于規(guī)則的識(shí)別技術(shù)對(duì)清理后的數(shù)據(jù)進(jìn)行提取處理，篩出有用數(shù)據(jù)，最后根據(jù)公司情況，對(duì)數(shù)據(jù)進(jìn)行主要包括財(cái)務(wù)模型、同業(yè)企業(yè)對(duì)比、產(chǎn)品結(jié)構(gòu)、銷售模式、客戶與市場(chǎng)在內(nèi)的類別分類。

所述建立企業(yè)實(shí)體知識(shí)庫(kù)，首先，對(duì)數(shù)據(jù)建立全文索引，利用分布式搜索引擎技術(shù)對(duì)結(jié)構(gòu)化處理后的數(shù)據(jù)建立全文索引，對(duì)相關(guān)的文檔進(jìn)行全文本詞匯提取，并將文本數(shù)據(jù)轉(zhuǎn)化為空間向量，使用向量模型對(duì)文本進(jìn)行相關(guān)性評(píng)分。

所述建立企業(yè)實(shí)體知識(shí)庫(kù)，其次，根據(jù)查詢關(guān)鍵字信息提取數(shù)據(jù)組塊，利用分布式搜索引擎對(duì)數(shù)據(jù)庫(kù)進(jìn)行檢索，提取相關(guān)公司數(shù)據(jù)，構(gòu)成一個(gè)數(shù)據(jù)組塊，對(duì)檢索進(jìn)行優(yōu)化。

所述建立企業(yè)實(shí)體知識(shí)庫(kù)，第三，查詢關(guān)鍵詞庫(kù)，對(duì)于特定查詢關(guān)鍵詞，將與其關(guān)聯(lián)的數(shù)據(jù)組塊組織起來(lái)建立搜索緩存空間，提升搜索查詢的效率。

所述建立企業(yè)實(shí)體知識(shí)庫(kù)，第四，對(duì)數(shù)據(jù)組塊進(jìn)行相似度計(jì)算，首先對(duì)數(shù)據(jù)組塊進(jìn)行企業(yè)信息建模，利用詞向量模型將文本數(shù)據(jù)轉(zhuǎn)化為向量，基于得到的向量矩陣進(jìn)行相似度計(jì)算，在計(jì)算過(guò)程中通過(guò)多層處理：用關(guān)鍵詞-實(shí)體向量模型對(duì)企業(yè)信息進(jìn)行向量化，使用倒排索引技術(shù)對(duì)企業(yè)信息建立索引，對(duì)檢索關(guān)鍵詞進(jìn)行優(yōu)化，利用相似度計(jì)算技術(shù)對(duì)企業(yè)相似度進(jìn)行優(yōu)化，完成實(shí)體關(guān)系匹配，生成相似度矩陣。

所述建立企業(yè)實(shí)體知識(shí)庫(kù)，第五，根據(jù)相似度矩陣返回相似度大于閾值的檢索結(jié)果。

一種基于知識(shí)庫(kù)推理的相似上市公司企業(yè)檢索分類系統(tǒng)，包括：

公司企業(yè)信息獲取模塊，對(duì)各種常用到的公司信息數(shù)據(jù)進(jìn)行獲取整理；

數(shù)據(jù)解析格式分析模塊，將爬取的數(shù)據(jù)解析為統(tǒng)一格式，其中需要分析數(shù)據(jù)的類型和格式，針對(duì)不同的數(shù)據(jù)類型與格式，使用不同的解析算法，將其解析為

統(tǒng)一格式，最后將數(shù)據(jù)存儲(chǔ)到適當(dāng)?shù)臄?shù)據(jù)庫(kù)中；信息提取結(jié)構(gòu)化模塊，對(duì)統(tǒng)一格式的數(shù)據(jù)進(jìn)行進(jìn)一步的整合分析，其中包括數(shù)據(jù)去重、信息抽取、信息分類算法；

關(guān)鍵詞優(yōu)化檢索模塊，基于分布式搜索引擎對(duì)整合后的數(shù)據(jù)建立全文索引，根據(jù)查詢關(guān)鍵詞可以檢索相關(guān)的數(shù)據(jù)構(gòu)成數(shù)據(jù)組塊，對(duì)數(shù)據(jù)進(jìn)行相關(guān)性評(píng)分，提高檢索效率；

相似矩陣處理知識(shí)庫(kù)構(gòu)建模塊，用于根據(jù)數(shù)據(jù)組塊計(jì)算公司數(shù)據(jù)的相似度，其中要先基于企業(yè)信息對(duì)數(shù)據(jù)建模，然后利用詞向量模型將數(shù)據(jù)轉(zhuǎn)換成向量形式，并通過(guò)倒排索引、關(guān)鍵詞優(yōu)化、相似度排名、實(shí)體關(guān)系匹配過(guò)程，建立企業(yè)實(shí)體知識(shí)庫(kù)，對(duì)輸入的檢索關(guān)鍵詞進(jìn)行推理匹配。

本發(fā)明的優(yōu)點(diǎn)：

本發(fā)明使用基于知識(shí)庫(kù)推理的推理策略網(wǎng)絡(luò)模型，根據(jù)標(biāo)的企業(yè)與相關(guān)企業(yè)的產(chǎn)品結(jié)構(gòu)，主營(yíng)業(yè)務(wù)服務(wù)，競(jìng)爭(zhēng)對(duì)手，競(jìng)爭(zhēng)格局，商業(yè)周期敏感程度，以及統(tǒng)計(jì)相關(guān)程度結(jié)合的方式，對(duì)相關(guān)聯(lián)的企業(yè)進(jìn)行相似度排名，以找出對(duì)標(biāo)企業(yè)，并對(duì)更全局的行業(yè)產(chǎn)業(yè)鏈，上下游關(guān)聯(lián)等投資分析，提供數(shù)據(jù)基礎(chǔ)。針對(duì)現(xiàn)有對(duì)標(biāo)企業(yè)檢索系統(tǒng)的分類不完善以及檢索效率較低等問(wèn)題，提出了一種基于知識(shí)庫(kù)推理的相似上市公司企業(yè)檢索分類方法及系統(tǒng)。本發(fā)明具有分類方式覆蓋面全，對(duì)標(biāo)企業(yè)檢索系統(tǒng)的分類完善，檢索效率高等優(yōu)點(diǎn)。

附圖說(shuō)明

圖1為實(shí)例中檢索相似上市公司的方法流程圖。

圖2為實(shí)例中解析存儲(chǔ)數(shù)據(jù)及整合分析數(shù)據(jù)的流程圖。

圖3為生成公司相似度矩陣的流程圖。

圖4為實(shí)例中檢索相似上市公司的系統(tǒng)流程圖。

具體實(shí)施方式

下面結(jié)合實(shí)例詳細(xì)描述本發(fā)明，顯然，所描述的實(shí)例只是本申請(qǐng)的部分實(shí)例。應(yīng)當(dāng)理解，此處所描述的優(yōu)選實(shí)例僅用于說(shuō)明和解釋本發(fā)明，并不用于限定本申請(qǐng)?；诒旧暾?qǐng)的實(shí)例，本領(lǐng)域的技術(shù)人員所獲得所有其他實(shí)例都屬于本申請(qǐng)的保護(hù)范圍。

圖1為方法的總流程圖，描述了相似公司檢索方法的運(yùn)行流程。

101-104上市公司企業(yè)數(shù)據(jù)來(lái)源。根據(jù)本發(fā)明數(shù)據(jù)處理需求，對(duì)上市公司企業(yè)公開渠道發(fā)布的信息進(jìn)行搜集，具體信息包括行業(yè)研究報(bào)告，公司公告，財(cái)務(wù)報(bào)告，相關(guān)重要新聞，以及招股說(shuō)明書、年報(bào)、重大公告、訴訟信息、專利信息等可以涵蓋公司日常經(jīng)營(yíng)變動(dòng)的信息內(nèi)容；

105上市公司信息獲取。針對(duì)上述不同來(lái)源數(shù)據(jù)，確定相應(yīng)的信息獲取方式，如行業(yè)研究報(bào)告、公司公告等數(shù)據(jù)常為文本形式的pdf文檔，則需要對(duì)具體的文檔進(jìn)行更新存儲(chǔ)處理。財(cái)務(wù)報(bào)告等數(shù)據(jù)為結(jié)構(gòu)化后的帶有標(biāo)簽形式的數(shù)值數(shù)據(jù)，則需要根據(jù)數(shù)值數(shù)據(jù)的獲取方式，批量進(jìn)行更新獲取，并對(duì)相同公司相同報(bào)表結(jié)構(gòu)字段等進(jìn)行關(guān)聯(lián)建模；訴訟信息、專利信息等為網(wǎng)頁(yè)發(fā)布數(shù)據(jù)，則需對(duì)網(wǎng)頁(yè)結(jié)構(gòu)內(nèi)容進(jìn)行有效識(shí)別，提取分析獲取有用數(shù)據(jù)。

106解析存儲(chǔ)數(shù)據(jù)。根據(jù)105獲取到的上市公司企業(yè)經(jīng)營(yíng)數(shù)據(jù)，針對(duì)不同類型，進(jìn)行解析提取。將以上獲取數(shù)據(jù)統(tǒng)一提交到類型解析器，針對(duì)不同格式類型的數(shù)據(jù)，文本型數(shù)據(jù)如pdf格式、word格式等，結(jié)構(gòu)型數(shù)據(jù)如json格式、xml等，網(wǎng)頁(yè)數(shù)據(jù)如html等，解析器包含了相應(yīng)的數(shù)據(jù)類型接口模塊，對(duì)相應(yīng)數(shù)據(jù)進(jìn)行識(shí)別解析處理。之后通過(guò)格式分析器分析數(shù)據(jù)的不同格式，將各種公司數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的格式，解析完成后，需要將數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中保存；

107整合分析數(shù)據(jù)，在具有統(tǒng)一格式的數(shù)據(jù)基礎(chǔ)之上，還需要進(jìn)一步的清理數(shù)據(jù)。首先需要對(duì)數(shù)據(jù)去重，對(duì)于公司所包含的大量描述數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)、新聞數(shù)據(jù)，通常第一層格式分析處理后還需要對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行清理檢測(cè)，去掉重復(fù)數(shù)據(jù)，以提高數(shù)據(jù)有效性，減輕存儲(chǔ)系統(tǒng)的負(fù)擔(dān)。去重后的數(shù)據(jù)仍然包含大量無(wú)用標(biāo)簽、格式等冗余數(shù)據(jù)，還需要使用識(shí)別算法技術(shù)對(duì)清理后的數(shù)據(jù)進(jìn)行提取處理，篩出有用數(shù)據(jù)，最后對(duì)數(shù)據(jù)進(jìn)行分類，包括財(cái)務(wù)模型、同業(yè)企業(yè)對(duì)比、產(chǎn)品結(jié)構(gòu)，銷售模式，客戶與市場(chǎng)等類別；

108對(duì)數(shù)據(jù)建立全文索引。為了提高處理后數(shù)據(jù)的檢索速率，需要利用分布式搜索引擎技術(shù)對(duì)結(jié)構(gòu)化處理后的數(shù)據(jù)建立全文索引，對(duì)相關(guān)的文檔進(jìn)行全文本詞匯提取，并將文本數(shù)據(jù)轉(zhuǎn)化為空間向量，使用向量模型對(duì)文本進(jìn)行相關(guān)性評(píng)分；

109根據(jù)查詢關(guān)鍵字信息提取數(shù)據(jù)組塊，利用分布式搜索引擎對(duì)數(shù)據(jù)庫(kù)進(jìn)行檢索，提取相關(guān)公司數(shù)據(jù)，如檢索關(guān)鍵詞、公司數(shù)據(jù)文檔、關(guān)鍵詞位置信息等，構(gòu)成一個(gè)數(shù)據(jù)組塊，對(duì)檢索進(jìn)行優(yōu)化。

110查詢關(guān)鍵詞庫(kù)確定。對(duì)于特定查詢關(guān)鍵詞，將與其關(guān)聯(lián)的數(shù)據(jù)組塊組織起來(lái)建立搜索緩存空間，提升搜索查詢的效率。

111對(duì)數(shù)據(jù)組塊進(jìn)行相似度計(jì)算，首先對(duì)數(shù)據(jù)組塊進(jìn)行企業(yè)信息建模，利用詞向量模型將文本數(shù)據(jù)轉(zhuǎn)化為向量，基于得到的向量矩陣進(jìn)行相似度計(jì)算，在計(jì)算過(guò)程中通過(guò)多層處理：對(duì)關(guān)鍵詞-實(shí)體向量模型進(jìn)行，倒排索引，關(guān)鍵詞優(yōu)化，相似度排名，實(shí)體關(guān)系匹配等，生成相似度矩陣；

112根據(jù)相似度矩陣返回相似度大于閾值的檢索結(jié)果。

圖2描述了本發(fā)明方法中解析存儲(chǔ)數(shù)據(jù)以及數(shù)據(jù)整合分析的流程。

201已獲取的公司企業(yè)數(shù)據(jù)。根據(jù)101-105，獲取所需的上市公司企業(yè)經(jīng)營(yíng)數(shù)據(jù)，包括行業(yè)研究報(bào)告，公司公告，財(cái)務(wù)報(bào)告，相關(guān)重要新聞，以及招股說(shuō)明書，年報(bào)，重大公告，訴訟信息，專利信息等。

202類型分析，對(duì)以上獲取的公司信息進(jìn)行類型分析。對(duì)于行業(yè)研究報(bào)告、上市公司公告等文檔型(如pdf、word)數(shù)據(jù)，根據(jù)文檔結(jié)構(gòu)特征，提取其中的有效數(shù)據(jù)內(nèi)容，包括文本、圖片、表格等有用信息。對(duì)于財(cái)務(wù)報(bào)告等數(shù)值結(jié)構(gòu)型數(shù)據(jù)，根據(jù)具體的結(jié)構(gòu)特征信息，對(duì)原始數(shù)據(jù)進(jìn)行再加工處理，對(duì)原有結(jié)構(gòu)特征進(jìn)行重組，以生成本專利系統(tǒng)可識(shí)別處理的新型結(jié)構(gòu)化數(shù)據(jù)。對(duì)于訴訟、專利等網(wǎng)頁(yè)結(jié)構(gòu)信息數(shù)據(jù)，需根據(jù)具體網(wǎng)頁(yè)結(jié)構(gòu)，分析其標(biāo)簽頭部?jī)?nèi)容，提取有用信息數(shù)據(jù)，并重組結(jié)構(gòu)化。

203格式分析。根據(jù)202所述不同類型原始公司企業(yè)數(shù)據(jù)信息，進(jìn)行相應(yīng)的格式結(jié)構(gòu)化處理。文本型數(shù)據(jù)如pdf格式，將其中的文本內(nèi)容、圖表等有用信息進(jìn)行提取格式化處理，生成統(tǒng)一結(jié)構(gòu)內(nèi)容；結(jié)構(gòu)化內(nèi)容如公司財(cái)務(wù)數(shù)據(jù)、產(chǎn)品信息、主營(yíng)業(yè)務(wù)信息等json數(shù)據(jù)，對(duì)其進(jìn)行再結(jié)構(gòu)處理；網(wǎng)頁(yè)型數(shù)據(jù)如公司新聞，訴訟信息等，通過(guò)格式分析器將網(wǎng)頁(yè)中的有效數(shù)據(jù)進(jìn)行統(tǒng)一提取，剔除無(wú)用格式標(biāo)簽，篩選有用信息數(shù)據(jù)。

204存儲(chǔ)數(shù)據(jù)，將格式化結(jié)構(gòu)好的的數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中，建立公司關(guān)聯(lián)的企業(yè)信息知識(shí)庫(kù)，以提高數(shù)據(jù)存取效率。

205數(shù)據(jù)去重，對(duì)于已有格式化數(shù)據(jù)進(jìn)行去重再清洗處理，使用哈希技術(shù)，計(jì)算數(shù)據(jù)的信息摘要，將重復(fù)數(shù)據(jù)去除，提高公司企業(yè)數(shù)據(jù)的利用效率。

206信息抽取，對(duì)于公司企業(yè)信息知識(shí)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)，針對(duì)不同需求，如企業(yè)描述，產(chǎn)品結(jié)構(gòu)，主營(yíng)業(yè)務(wù)構(gòu)成，財(cái)務(wù)報(bào)表，高管信息，專利信息等，進(jìn)行相關(guān)內(nèi)容提取。

207信息分類，在206過(guò)程提取出的數(shù)據(jù)基礎(chǔ)上，對(duì)相應(yīng)內(nèi)容進(jìn)行信息分類，并與原始企業(yè)信息進(jìn)行關(guān)聯(lián)。針對(duì)每一個(gè)具體企業(yè)，生成對(duì)應(yīng)的企業(yè)數(shù)據(jù)畫像，從多個(gè)角度對(duì)企業(yè)公司進(jìn)行分類描述。

圖3描述了本發(fā)明方法中計(jì)算公司相似度矩陣的流程。

301經(jīng)過(guò)圖2所述流程，將獲取到的原始企業(yè)公司數(shù)據(jù)，進(jìn)行結(jié)構(gòu)化提取處理，獲得精簡(jiǎn)分類的企業(yè)數(shù)據(jù)畫像；

302企業(yè)信息實(shí)體抽取。通過(guò)綜合使用中文分詞，詞性標(biāo)注，識(shí)別標(biāo)注，規(guī)則匹配等技術(shù)，對(duì)上述企業(yè)信息進(jìn)行段落/句子級(jí)別的結(jié)構(gòu)分析，并提取出其中的實(shí)體以及關(guān)系。

303詞向量模型。根據(jù)302過(guò)程處理得到的企業(yè)實(shí)體信息，采用使用詞向量模型，對(duì)其進(jìn)行文本向量矩陣化處理，其中向量的維度是文本中實(shí)體數(shù)目，向量?jī)?nèi)絕大部分為0，某些維度為1，通過(guò)這樣的方式將文本轉(zhuǎn)化為數(shù)值向量，使得能夠進(jìn)行接下來(lái)一系列的計(jì)算；

304企業(yè)實(shí)體知識(shí)庫(kù)。對(duì)于已提取出的企業(yè)實(shí)體信息，通過(guò)305-308一系列的深化處理，構(gòu)造建立具備推理能力的企業(yè)實(shí)體關(guān)聯(lián)知識(shí)庫(kù)，提供對(duì)于涵蓋深市、滬市、新三板所有上市公司企業(yè)對(duì)標(biāo)公司自動(dòng)識(shí)別分類系統(tǒng)所需的推理數(shù)據(jù)鏈條

305倒排索引。對(duì)于已構(gòu)建好的企業(yè)實(shí)體信息，結(jié)合相應(yīng)的檢索關(guān)鍵詞，構(gòu)建倒排索引結(jié)構(gòu)，提高檢索與結(jié)果的關(guān)聯(lián)匹配程度。倒排關(guān)鍵詞-實(shí)體索引可以看成是一個(gè)鏈表數(shù)組，每個(gè)鏈表的表頭包含關(guān)鍵詞，其后續(xù)單元?jiǎng)t包括所有包括這個(gè)關(guān)鍵詞的實(shí)體向量模型，以及一些其他信息。這些信息可以是實(shí)體向量中該詞的頻率，也可以是實(shí)體向量中該詞的位置等信息。

306關(guān)鍵詞優(yōu)化。根據(jù)305中建立的關(guān)鍵詞-實(shí)體倒排索引模型，對(duì)于每一次的檢索結(jié)果，對(duì)關(guān)鍵詞出現(xiàn)次數(shù)及權(quán)重進(jìn)行優(yōu)化。如果一個(gè)關(guān)鍵詞在某個(gè)實(shí)體向量中出現(xiàn)次數(shù)越多，那么這個(gè)詞應(yīng)該被認(rèn)為越重要。如果一個(gè)關(guān)鍵詞在越多的實(shí)體向量中出現(xiàn)，那么這個(gè)詞區(qū)分向量的作用就越低，于是其重要性也應(yīng)當(dāng)相應(yīng)降低。一個(gè)企業(yè)的實(shí)體向量模型維度越高，那么其出現(xiàn)某個(gè)關(guān)鍵詞的次數(shù)可能越高，而每個(gè)關(guān)鍵詞對(duì)這個(gè)實(shí)體向量的區(qū)分作用也越低，相應(yīng)的應(yīng)該對(duì)這些關(guān)鍵詞予以一定的降權(quán)。

307相似度排名。通過(guò)對(duì)關(guān)鍵詞在不同企業(yè)實(shí)體向量模型中的權(quán)重進(jìn)行不斷的優(yōu)化修正，對(duì)相同關(guān)鍵詞所關(guān)聯(lián)的企業(yè)實(shí)體向量進(jìn)行排序打分，建立關(guān)鍵詞對(duì)應(yīng)的企業(yè)實(shí)體排名圖譜，找出同行業(yè)同領(lǐng)域中，產(chǎn)品業(yè)務(wù)營(yíng)收等不同指標(biāo)關(guān)聯(lián)最強(qiáng)的對(duì)標(biāo)企業(yè)公司。

308實(shí)體關(guān)系匹配。在307建立的對(duì)標(biāo)企業(yè)排名圖譜的基礎(chǔ)上，根據(jù)不同檢索關(guān)鍵詞，企業(yè)結(jié)構(gòu)指標(biāo)，對(duì)企業(yè)實(shí)體間的關(guān)聯(lián)進(jìn)行分類匹配，如針對(duì)產(chǎn)品結(jié)構(gòu)，主營(yíng)業(yè)務(wù)市場(chǎng)，行業(yè)所處地域以及周期等，進(jìn)行不同的關(guān)系匹配處理，建立可根據(jù)不同關(guān)鍵詞進(jìn)行推理檢索的企業(yè)實(shí)體關(guān)系知識(shí)庫(kù)。

309推理模型。經(jīng)過(guò)以上301--308的處理流程，建立完整的企業(yè)實(shí)體知識(shí)庫(kù)，對(duì)于不同的檢索關(guān)鍵詞，知識(shí)庫(kù)可以自行推理得到標(biāo)的企業(yè)對(duì)應(yīng)的相似企業(yè)匹配結(jié)果，并可根據(jù)不同的關(guān)注類別，推理得出某種細(xì)分場(chǎng)景的對(duì)標(biāo)企業(yè)公司，對(duì)于行業(yè)企業(yè)分析有很大的幫助作用。

310對(duì)標(biāo)匹配結(jié)果。根據(jù)檢索關(guān)鍵詞，輸出對(duì)標(biāo)匹配結(jié)果。

圖4為根據(jù)本發(fā)明方法實(shí)現(xiàn)的系統(tǒng)流程圖，描述了相似公司檢索系統(tǒng)的整體運(yùn)行流程。

401公司企業(yè)信息獲取模塊。對(duì)各種常用到的公司信息數(shù)據(jù)進(jìn)行獲取整理；

402數(shù)據(jù)解析格式分析模塊。將爬取的數(shù)據(jù)解析為統(tǒng)一格式，其中需要分析數(shù)據(jù)的類型和格式，針對(duì)不同的數(shù)據(jù)類型與格式，使用不同的解析算法，將其解析為統(tǒng)一格式，最后將數(shù)據(jù)存儲(chǔ)到適當(dāng)?shù)臄?shù)據(jù)庫(kù)中；

403信息提取結(jié)構(gòu)化模塊。對(duì)統(tǒng)一格式的數(shù)據(jù)進(jìn)行借一步的整合分析，其中包括數(shù)據(jù)去重，信息抽取，信息分類等算法；

404關(guān)鍵詞優(yōu)化檢索模塊?；诜植际剿阉饕鎸?duì)整合后的數(shù)據(jù)建立全文索引，根據(jù)查詢關(guān)鍵詞可以檢索相關(guān)的數(shù)據(jù)構(gòu)成數(shù)據(jù)組塊，這其中涉及到向量空間模型，bm25算法等對(duì)數(shù)據(jù)進(jìn)行相關(guān)性評(píng)分，提高檢索效率；

405相似矩陣處理知識(shí)庫(kù)構(gòu)建模塊。用于根據(jù)數(shù)據(jù)組塊計(jì)算公司數(shù)據(jù)的相似度，其中要先基于企業(yè)信息對(duì)數(shù)據(jù)建模，然后利用詞向量模型將數(shù)據(jù)轉(zhuǎn)換成向量形式，并通過(guò)倒排索引、關(guān)鍵詞優(yōu)化、相似度排名、實(shí)體關(guān)系匹配等過(guò)程，建立企業(yè)實(shí)體知識(shí)庫(kù)，對(duì)輸入的檢索關(guān)鍵詞進(jìn)行推理匹配。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄭錦光;張夢(mèng)迪;丁海星;曹輝;鮑捷;馬新磊
技術(shù)所有人：北京文因互聯(lián)科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

相似圖片檢索相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于知識(shí)庫(kù)推理的相似上市公司企業(yè)檢索分類方法及系統(tǒng)與流程