欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種獲取領(lǐng)域重要知識(shí)點(diǎn)的方法和系統(tǒng)的制作方法

文檔序號(hào):9708356閱讀:360來(lái)源:國(guó)知局
一種獲取領(lǐng)域重要知識(shí)點(diǎn)的方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種數(shù)字資源處理領(lǐng)域,具體地說(shuō)是一種獲取領(lǐng)域重要知識(shí)點(diǎn)的方法 和系統(tǒng)。
【背景技術(shù)】
[0002] 數(shù)字出版資源已成為信息提供的主要方式之一。人們已從紙質(zhì)閱讀大量地轉(zhuǎn)向電 子閱讀。數(shù)字出版資源包含電子圖書(shū)、數(shù)字百科全書(shū)、數(shù)字期刊、數(shù)字報(bào)刊等。數(shù)字出版資 源提供的信息通常比互聯(lián)網(wǎng)更加權(quán)威和正確。因此,如何根據(jù)數(shù)字出版資源的特點(diǎn)提高人 們學(xué)習(xí)或閱讀體驗(yàn)變得尤為重要。
[0003] 百科全書(shū)(Encyclopedia)是介紹人類的全部知識(shí)或某一類知識(shí)的工具書(shū)。往往 按照辭典形式編排(以條目為基本單元),收集各知識(shí)領(lǐng)域的名詞、熟語(yǔ)、地名、事件、人物、 著作等。百科全書(shū)可以是綜合性的,包含所有領(lǐng)域的相關(guān)內(nèi)容(例如,《大不列顛百科全書(shū)》 就是一部著名的綜合性百科全書(shū))。也可以是專業(yè)性的百科全書(shū),如某一個(gè)領(lǐng)域的百科全 書(shū),像歷史百科全書(shū)、軍事百科全書(shū)等,這種某一個(gè)領(lǐng)域的百科全書(shū)稱為領(lǐng)域百科全書(shū)。百 科全書(shū)被視為是一個(gè)國(guó)家和一個(gè)時(shí)代科學(xué)文化發(fā)展的標(biāo)志。
[0004] 領(lǐng)域百科全書(shū)將海量的信息分類,為用戶提供更有針對(duì)性的資源。領(lǐng)域百科全書(shū) 也是一種重要的數(shù)字出版資源。領(lǐng)域百科全書(shū)通常以詞條的方式組織領(lǐng)域信息。領(lǐng)域百科 全書(shū)需要包含領(lǐng)域內(nèi)的重要詞條。然而,建設(shè)領(lǐng)域百科全書(shū)需要大量人力投入。由于領(lǐng)域 詞條數(shù)目較多,因此通過(guò)人工的方式尋找重要的領(lǐng)域詞條不僅耗時(shí),而且容易遺漏一些很 相關(guān)的領(lǐng)域詞條。獲取領(lǐng)域內(nèi)重要的詞條是很重要的工作,但是實(shí)現(xiàn)起來(lái)需要花費(fèi)大量的 人力和時(shí)間。
[0005] Distributed words representations (分布式詞語(yǔ)表不)在 Rumelhar,D. E., Hinton, G. E. , Williams, R. J. :Learning Represenations by Back-propagating Errors. Nature 323(6088) :pp533-536(1986)中首次提出,該思想將詞語(yǔ)表示成連續(xù)向 量(continuous vectors),且在向量空間中,相似詞語(yǔ)的距離更近。Feedforward neural network(前饋神經(jīng)網(wǎng)絡(luò))是用于學(xué)習(xí)詞向量和語(yǔ)言模型的方法(見(jiàn)Bengio,Y.,Ducharme, R. , Vincent, P. :A Neural Probabilistic Language Model. Journal of Machine Learning Research 3, ppl 137-1155 (2003))。近來(lái),Mikolov提出 了使用 skip-gram或 CB0W 模型,通過(guò)在大量文本上訓(xùn)練簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)在短時(shí)間內(nèi)得到詞語(yǔ)向量。雖然關(guān)于語(yǔ)義向 量在理論上已經(jīng)有一些研究,但是仍然缺少該技術(shù)的應(yīng)用推廣。

【發(fā)明內(nèi)容】

[0006] 為此,本發(fā)明所要解決的技術(shù)問(wèn)題在于現(xiàn)有技術(shù)中需要人工確定領(lǐng)域內(nèi)的重要詞 條、花費(fèi)較多的人力物力、標(biāo)準(zhǔn)不容易、客觀性差的問(wèn)題,從而提出一種標(biāo)準(zhǔn)統(tǒng)一、無(wú)需人工 處理的自動(dòng)的獲取領(lǐng)域重要知識(shí)點(diǎn)的方法。
[0007] 為解決上述技術(shù)問(wèn)題,本發(fā)明的提供一種獲取領(lǐng)域重要知識(shí)點(diǎn)的方法。
[0008] -種獲取領(lǐng)域重要知識(shí)點(diǎn)的方法,包括:
[0009] 對(duì)領(lǐng)域文本進(jìn)行分詞,得到分詞結(jié)果;
[0010] 根據(jù)分詞結(jié)果和常用詞,確定候選知識(shí)點(diǎn);
[0011] 確定每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量;
[0012] 計(jì)算候選知識(shí)點(diǎn)之間的語(yǔ)義相似度,得到相似度矩陣;
[0013] 利用所述相似度矩陣進(jìn)行迭代,確定每個(gè)候選知識(shí)點(diǎn)的重要度信息;
[0014] 根據(jù)所述重要度信息確定重要知識(shí)點(diǎn)。
[0015] -種獲取領(lǐng)域重要知識(shí)點(diǎn)的系統(tǒng),包括:
[0016] 分詞單元:對(duì)領(lǐng)域文本進(jìn)行分詞,得到分詞結(jié)果;
[0017] 候選知識(shí)點(diǎn)確定單元:根據(jù)分詞結(jié)果和常用詞,確定候選知識(shí)點(diǎn);
[0018] 語(yǔ)義向量確定單元:確定每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量;
[0019] 相似度矩陣建立單元:計(jì)算候選知識(shí)點(diǎn)之間的語(yǔ)義相似度,得到相似度矩陣;
[0020] 重要度確定單元:利用所述相似度矩陣進(jìn)行迭代,確定每個(gè)候選知識(shí)點(diǎn)的重要度 信息;
[0021] 重要知識(shí)點(diǎn)確定單元:根據(jù)所述重要度信息確定重要知識(shí)點(diǎn)。
[0022] 本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下優(yōu)點(diǎn),
[0023] (1)本發(fā)明提供一種獲取領(lǐng)域重要知識(shí)點(diǎn)的方法,首先確定領(lǐng)域內(nèi)的候選知識(shí)點(diǎn), 然后計(jì)算這些候選知識(shí)點(diǎn)的語(yǔ)義向量,根據(jù)每個(gè)知識(shí)點(diǎn)的語(yǔ)義向量計(jì)算得到語(yǔ)義相似度矩 陣,根據(jù)該語(yǔ)義相似度矩陣來(lái)計(jì)算候選知識(shí)點(diǎn)中的重要知識(shí)點(diǎn),這些知識(shí)點(diǎn)便是該領(lǐng)域內(nèi) 的重要知識(shí)點(diǎn)。當(dāng)建設(shè)或檢查領(lǐng)域百科全書(shū)時(shí),可以根據(jù)這些重要知識(shí)點(diǎn)來(lái)建立詞條,或者 檢查詞條是否完善,將還沒(méi)有收錄的重要知識(shí)點(diǎn)增加在需要建設(shè)的詞條中,通過(guò)這種方式 來(lái)完成領(lǐng)域百科全書(shū)的詞條的檢查和建設(shè)。大大降低了人工的工作量,節(jié)約了時(shí)間成本和 人工成本,且避免了人工檢查的主觀性和標(biāo)準(zhǔn)不統(tǒng)一帶來(lái)的不準(zhǔn)確性,大大提高了效率和 準(zhǔn)確度。
[0024] (2)本發(fā)明所述的獲取領(lǐng)域重要知識(shí)點(diǎn)的方法,獲取相似度矩陣時(shí),采用計(jì)算候選 知識(shí)點(diǎn)語(yǔ)義向量的方法,將知識(shí)點(diǎn)的語(yǔ)義信息進(jìn)行量化,通過(guò)數(shù)字化的方式來(lái)體現(xiàn)其語(yǔ)義 特征,這樣,在后續(xù)對(duì)知識(shí)點(diǎn)進(jìn)行分析時(shí),可以更加方便,為知識(shí)點(diǎn)搜索、推薦、信息過(guò)濾等 應(yīng)用提供基礎(chǔ)。
[0025] (3)本發(fā)明所述的獲取領(lǐng)域重要知識(shí)點(diǎn)的方法,確定每個(gè)候選知識(shí)點(diǎn)的重要度信 息時(shí),設(shè)置導(dǎo)航度的初始值;將所述關(guān)聯(lián)度信息與所述導(dǎo)航度的值進(jìn)行迭代,確定權(quán)威度信 息和所述導(dǎo)航度的最終值;根據(jù)所述權(quán)威度信息和所述導(dǎo)航度的最終值,確定所述候選中 每個(gè)知識(shí)點(diǎn)的重要度信息。該方案中,通過(guò)權(quán)威度信息和導(dǎo)航度值進(jìn)行迭代,來(lái)逐次逼近, 不僅計(jì)算簡(jiǎn)單方便,而且充分考慮了該候選知識(shí)點(diǎn)與其他候選知識(shí)點(diǎn)的關(guān)系,客觀的表征 了該知識(shí)點(diǎn)在該領(lǐng)域內(nèi)的重要程度。
[0026] (4)本發(fā)明還提供一種獲取領(lǐng)域重要知識(shí)點(diǎn)的系統(tǒng),包括分詞單元、候選知識(shí)點(diǎn)確 定單元、語(yǔ)義向量確定單元、相似度矩陣建立單元、重要度確定單元以及重要知識(shí)點(diǎn)確定單 元,根據(jù)該語(yǔ)義相似度矩陣來(lái)計(jì)算候選知識(shí)點(diǎn)中的重要知識(shí)點(diǎn),這些知識(shí)點(diǎn)便是該領(lǐng)域內(nèi) 的重要知識(shí)點(diǎn)。當(dāng)建設(shè)或檢查領(lǐng)域百科全書(shū)時(shí),可以根據(jù)這些重要知識(shí)點(diǎn)來(lái)建立詞條,或者 檢查詞條是否完善,將還沒(méi)有收錄的重要知識(shí)點(diǎn)增加在需要建設(shè)的詞條中,通過(guò)這種方式 來(lái)完成領(lǐng)域百科全書(shū)的詞條的檢查和建設(shè),大大降低了人工的工作量。
【附圖說(shuō)明】
[0027] 為了使本發(fā)明的內(nèi)容更容易被清楚的理解,下面根據(jù)本發(fā)明的具體實(shí)施例并結(jié)合 附圖,對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明,其中
[0028] 圖1是本發(fā)明的實(shí)施例中獲取領(lǐng)域重要知識(shí)點(diǎn)的方法的流程圖;
[0029] 圖2是本發(fā)明實(shí)施例中skip-gram模型的示意圖;
[0030] 圖3是本發(fā)明的實(shí)施例中CB0W模型的示意圖;
[0031] 圖4是本發(fā)明的實(shí)施例中獲取領(lǐng)域重要知識(shí)點(diǎn)的系統(tǒng)的流程圖。
【具體實(shí)施方式】
[0032] 實(shí)施例1:
[0033] 本實(shí)施例中提供一種獲取領(lǐng)域重要知識(shí)點(diǎn)的方法,流程圖如圖1所示。領(lǐng)域內(nèi)的 知識(shí)點(diǎn)是指領(lǐng)域內(nèi)的詞語(yǔ)或者詞條,反應(yīng)該領(lǐng)域內(nèi)的知識(shí)。獲取領(lǐng)域重要知識(shí)點(diǎn)的方法包 括如下過(guò)程:
[0034] S1 :對(duì)文本進(jìn)行分詞,得到分詞結(jié)果。
[0035] 此處的文本選擇領(lǐng)域內(nèi)的一些數(shù)字資源,為了使得其涵蓋的知識(shí)點(diǎn)足夠廣泛,一 般會(huì)多選擇一些本領(lǐng)域內(nèi)的電子數(shù)字資源。如對(duì)于歷史領(lǐng)域,可以選擇上下五千年、歷代朝 代史等相關(guān)的本領(lǐng)域內(nèi)的電子書(shū)。選定領(lǐng)域數(shù)字資源后,從中抽取文本,然后分詞,通過(guò)分 詞后,得到大量的詞語(yǔ),這些詞語(yǔ)既包括本領(lǐng)域中的一些知識(shí)點(diǎn),也包括一些常用的詞語(yǔ), 如你們、他們、吃飯等等。將分詞后的文件,作為候選文件。
[0036] S2 :根據(jù)分詞結(jié)果和常用詞,確定候選知識(shí)點(diǎn)。
[0037] 由于常用詞是經(jīng)常使用的一系列的詞語(yǔ),通過(guò)在上述分詞結(jié)果中,把這部分詞語(yǔ) 去除,就獲得了和領(lǐng)域相關(guān)的詞語(yǔ),將這些詞語(yǔ)作為候選知識(shí)點(diǎn)。此處的常用詞是現(xiàn)有技術(shù) 中已經(jīng)確定好的常用詞。在其他的實(shí)施方式中,還可以通過(guò)如下方法來(lái)確定常用詞:選擇常 用文本的數(shù)字資源,如生活報(bào)紙、生活雜志等數(shù)字資源,對(duì)其進(jìn)行分詞(采用停用詞表去除 停用詞,例如采用哈工大停用詞表),將在較多文本中出現(xiàn)的詞語(yǔ)確定為常用詞。在候選文 件中去
當(dāng)前第1頁(yè)1 2 3 4 5 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
元谋县| 普兰店市| 岫岩| 斗六市| 左云县| 洪泽县| 光山县| 和龙市| 甘洛县| 闸北区| 沧州市| 灵璧县| 仁布县| 通化市| 烟台市| 花垣县| 霍邱县| 工布江达县| 曲靖市| 东海县| 平度市| 修武县| 桃源县| 郸城县| 安达市| 集安市| 天台县| 承德市| 彭阳县| 视频| 凉城县| 老河口市| 镇赉县| 吴忠市| 龙井市| 汝城县| 万荣县| 商都县| 河北省| 浦城县| 连山|