欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種從文本提取所需內(nèi)容的方法

文檔序號:6635073閱讀:1444來源:國知局
一種從文本提取所需內(nèi)容的方法
【專利摘要】本發(fā)明涉及從文本提取所需內(nèi)容的方法及裝置。該方法包括以:根據(jù)預(yù)設(shè)的分詞包對目標(biāo)文本進(jìn)行預(yù)處理,以使所述目標(biāo)文本的每個句子中的每個詞賦予詞性類別,所述詞性類別包括主語、謂語、賓語、定語、狀語和補(bǔ)語;接收用戶輸入的標(biāo)簽,提取出用戶需要的主語以及目標(biāo)查找詞,根據(jù)預(yù)設(shè)的同義詞詞林和語義場的類義詞,統(tǒng)計目標(biāo)文本的每個句子中與所述目標(biāo)查找詞同義的類義詞出現(xiàn)的總次數(shù),將總次數(shù)超過預(yù)設(shè)閾值的句子保存至提取庫;計算提取庫中每個句子各自的向量值,并根據(jù)所述向量值計算每兩個句子之間的夾角,若出現(xiàn)夾角小于預(yù)設(shè)角度的兩個句子,則隨機(jī)刪除該兩個句子中的一個句子。本發(fā)明能夠有效提高文本內(nèi)容的提取效率。
【專利說明】一種從文本提取所需內(nèi)容的方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機(jī)程序。

【背景技術(shù)】
[0002] 報告是匯報工作、反映情況、提出建議、答復(fù)上級機(jī)關(guān)詢問時使用的公文,同時,報 告是謀事之道、成事之基,是領(lǐng)導(dǎo)作出正確判斷和決策的前提基礎(chǔ)。近年來,隨著市場經(jīng)濟(jì) 的推動,報告成為了一種新興產(chǎn)業(yè),報告的用途逐步擴(kuò)大,用于新產(chǎn)品開發(fā)、投融資、公司發(fā) 展規(guī)劃、年度發(fā)展等方面。當(dāng)前撰寫報告的機(jī)構(gòu)有全國高校、社科、研究會、研究院、智庫等 國家的研究機(jī)構(gòu),例如:中國科學(xué)院、中國社會科學(xué)院、北京大學(xué)、清華大學(xué)、中國非國有經(jīng) 濟(jì)研究會、北京創(chuàng)新中實(shí)信息科學(xué)研究院等。撰寫報告的形式主要是當(dāng)前各機(jī)構(gòu)工作人員 主要是通過人工整理資料,篩選素材,自主撰寫情報。
[0003] 由于目前都是基于人工去處理文本資料,因此,從文本中提取出所需的內(nèi)容的效 率就比較低下。


【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的在于提出一種從文本提取所需內(nèi)容的方法,其能解決提取效率低的 問題。
[0005] 為了達(dá)到上述目的,本發(fā)明所采用的技術(shù)方案如下:
[0006] -種從文本提取所需內(nèi)容的方法,其包括以下步驟:
[0007] 步驟1、根據(jù)預(yù)設(shè)的分詞包對目標(biāo)文本進(jìn)行預(yù)處理,以使所述目標(biāo)文本的每個句子 中的每個詞賦予詞性類別,所述詞性類別包括主語、謂語、賓語、定語、狀語和補(bǔ)語;
[0008] 步驟2、接收用戶輸入的標(biāo)簽,根據(jù)預(yù)設(shè)的分詞包對所述標(biāo)簽中的每個詞賦予性類 另IJ,根據(jù)依存句法提取出所述標(biāo)簽中的主語以及目標(biāo)查找詞,根據(jù)同義詞詞林和語義場的 類義詞,統(tǒng)計目標(biāo)文本的每個句子中與所述目標(biāo)查找詞同義的類義詞出現(xiàn)的總次數(shù),將總 次數(shù)超過預(yù)設(shè)閾值的句子保存至提取庫;
[0009] 步驟3、計算提取庫中每個句子各自的向量值,并根據(jù)所述向量值計算每兩個句子 之間的夾角,若出現(xiàn)夾角小于預(yù)設(shè)角度的兩個句子,則隨機(jī)刪除該兩個句子中的一個句子。
[0010] 優(yōu)選的,在步驟1之前還有以下步驟:
[0011] 步驟11、接收用戶設(shè)置的關(guān)鍵詞和該關(guān)鍵詞的權(quán)重,以及接收用戶上傳的文本;
[0012] 步驟12、根據(jù)公式一選取關(guān)聯(lián)度大于預(yù)設(shè)值的文本作為目標(biāo)文本;
[0013] 公式一為:

【權(quán)利要求】
1. 一種從文本提取所需內(nèi)容的方法,其特征在于,包括以下步驟: 步驟1、根據(jù)預(yù)設(shè)的分詞包對目標(biāo)文本進(jìn)行預(yù)處理,以使所述目標(biāo)文本的每個句子中的 每個詞賦予詞性類別,所述詞性類別包括主語、謂語、賓語、定語、狀語和補(bǔ)語; 步驟2、接收用戶輸入的標(biāo)簽,根據(jù)預(yù)設(shè)的分詞包對所述標(biāo)簽中的每個詞賦予性類別, 根據(jù)依存句法提取出所述標(biāo)簽中的主語以及目標(biāo)查找詞,根據(jù)同義詞詞林和語義場的類義 詞,統(tǒng)計目標(biāo)文本的每個句子中與所述目標(biāo)查找詞同義的類義詞出現(xiàn)的總次數(shù),將總次數(shù) 超過預(yù)設(shè)閾值的句子保存至提取庫; 步驟3、計算提取庫中每個句子各自的向量值,并根據(jù)所述向量值計算每兩個句子之間 的夾角,若出現(xiàn)夾角小于預(yù)設(shè)角度的兩個句子,則隨機(jī)刪除該兩個句子中的一個句子。
2. 如權(quán)利要求1所述的方法,其特征在于,在步驟1之前還有以下步驟: 步驟11、接收用戶設(shè)置的關(guān)鍵詞和該關(guān)鍵詞的權(quán)重,以及接收用戶上傳的文本; 步驟12、根據(jù)公式一選取關(guān)聯(lián)度大于預(yù)設(shè)值的文本作為目標(biāo)文本;
,其中,G為文本的關(guān)聯(lián)度,Pn為第n個關(guān)鍵詞在文本 中出現(xiàn)的次數(shù),Mn為第n個關(guān)鍵詞的權(quán)重,L預(yù)設(shè)次數(shù)。
3. 如權(quán)利要求2所述的方法,其特征在于,當(dāng)Pn > L時,Pn取L。
4. 如權(quán)利要求2所述的方法,其特征在于,L = 10。
5. 如權(quán)利要求2所述的方法,其特征在于,預(yù)設(shè)值為20%。
6. 如權(quán)利要求1所述的方法,其特征在于,預(yù)設(shè)閾值為3。
7. 如權(quán)利要求1所述的方法,其特征在于,夾角為0.5°。
8. -種從文本提取所需內(nèi)容的裝置,其特征在于,包括以下模塊: 預(yù)處理模塊,用于根據(jù)預(yù)設(shè)的分詞包對目標(biāo)文本進(jìn)行預(yù)處理,以使所述目標(biāo)文本的每 個句子中的每個詞賦予詞性類別,所述詞性類別包括主語、謂語、賓語、定語、狀語和補(bǔ)語; 提取模塊,用于接收用戶輸入的標(biāo)簽,根據(jù)預(yù)設(shè)的分詞包對所述標(biāo)簽中的每個詞賦予 性類別,根據(jù)依存句法提取出所述標(biāo)簽中的主語以及目標(biāo)查找詞,根據(jù)同義詞詞林和語義 場的類義詞,統(tǒng)計目標(biāo)文本的每個句子中與所述目標(biāo)查找詞同義的類義詞出現(xiàn)的總次數(shù), 將總次數(shù)超過預(yù)設(shè)閾值的句子保存至提取庫; 去重模塊,用于計算提取庫中每個句子各自的向量值,并根據(jù)所述向量值計算每兩個 句子之間的夾角,若出現(xiàn)夾角小于預(yù)設(shè)角度的兩個句子,則隨機(jī)刪除該兩個句子中的一個 句子。
9. 如權(quán)利要求8所述的裝置,其特征在于,在預(yù)處理模塊之前還有以下模塊: 接收模塊,用于接收用戶設(shè)置的關(guān)鍵詞和該關(guān)鍵詞的權(quán)重,以及接收用戶上傳的文 本; 篩選模塊,用于根據(jù)公式一選取關(guān)聯(lián)度大于預(yù)設(shè)值的文本作為目標(biāo)文本;
,其中,G為文本的關(guān)聯(lián)度,Pn為第n個關(guān)鍵詞在文本 中出現(xiàn)的次數(shù),Mn為第n個關(guān)鍵詞的權(quán)重,L預(yù)設(shè)次數(shù)。
【文檔編號】G06F17/27GK104360993SQ201410667560
【公開日】2015年2月18日 申請日期:2014年11月19日 優(yōu)先權(quán)日:2014年11月19日
【發(fā)明者】彭宏利 申請人:廣州極盛信息科技開發(fā)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
叙永县| 日喀则市| 堆龙德庆县| 和龙市| 漳浦县| 龙江县| 大连市| 营山县| 昌黎县| 汉沽区| 湘潭市| 乌拉特前旗| 镶黄旗| 徐州市| 南阳市| 志丹县| 永清县| 响水县| 安平县| 靖西县| 汕尾市| 铁力市| 浦江县| 绥江县| 烟台市| 平山县| 洞口县| 双流县| 拜泉县| 乐至县| 锡林郭勒盟| 玉溪市| 新巴尔虎左旗| 西青区| 鄯善县| 霍城县| 叙永县| SHOW| 巴东县| 扎兰屯市| 三穗县|