一種基于歷史記錄的知識(shí)推送方法
【專(zhuān)利摘要】本發(fā)明涉及一種基于歷史記錄的知識(shí)推送方法,屬于計(jì)算機(jī)應(yīng)用領(lǐng)域。本方法通過(guò)比較兩個(gè)任務(wù)之間的相似度,獲取與當(dāng)前任務(wù)相似的任務(wù),并分析其在完成過(guò)程中對(duì)知識(shí)的操作記錄,然后通過(guò)一個(gè)具體的值來(lái)對(duì)知識(shí)列表排序的方法實(shí)現(xiàn)知識(shí)推送。本方法能夠依據(jù)需求者的知識(shí)背景和應(yīng)用情境,為合適的任務(wù),選擇合適的知識(shí)推送給合適的人,有效的利用了已有的知識(shí),從而促進(jìn)知識(shí)增值。
【專(zhuān)利說(shuō)明】一種基于歷史記錄的知識(shí)推送方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于歷史記錄的知識(shí)推送方法,屬于計(jì)算機(jī)應(yīng)用領(lǐng)域。
【背景技術(shù)】
[0002]知識(shí)作為一種資源和無(wú)形的生產(chǎn)要素,是保持和提高競(jìng)爭(zhēng)優(yōu)勢(shì)的可持續(xù)來(lái)源,目前知識(shí)管理的實(shí)現(xiàn)和應(yīng)用已經(jīng)成為相關(guān)學(xué)者討論的熱點(diǎn)話題,尤其針對(duì)已有知識(shí)管理系統(tǒng)中的知識(shí)泛濫、知識(shí)迷航等現(xiàn)象,為了更有效的調(diào)動(dòng)和發(fā)揮用戶獲取和運(yùn)用知識(shí)的能力,很多學(xué)者從不同角度進(jìn)行研究和實(shí)踐。目前知識(shí)推送技術(shù)大致可以分為基于協(xié)同過(guò)濾的推送、基于內(nèi)容過(guò)濾的推送、基于數(shù)據(jù)挖掘的推送和混合推送技術(shù)。
[0003]協(xié)同過(guò)濾技術(shù)通過(guò)分析用戶歷史數(shù)據(jù),計(jì)算用戶之間的相似性,生成相似用戶集,根據(jù)相似用戶對(duì)知識(shí)的評(píng)價(jià)來(lái)預(yù)測(cè)目標(biāo)用戶對(duì)特定知識(shí)的喜好程度,即將相似用戶最感興趣的知識(shí)推送給目標(biāo)用戶;協(xié)同過(guò)濾技術(shù)不需要考慮知識(shí)的具體內(nèi)容和用戶興趣的相似性,而是通過(guò)比較用戶之間的相似性來(lái)實(shí)現(xiàn)推送,因此他對(duì)推送對(duì)象沒(méi)有特殊的要求,但協(xié)同過(guò)濾推送存在冷啟動(dòng)、稀疏性和可擴(kuò)展性等問(wèn)題。
[0004]基于內(nèi)容過(guò)濾的推送方法主要集中于文本信息的推送領(lǐng)域。該方法只需要采用機(jī)器方法,匹配用戶的興趣概貌和項(xiàng)目資源的特征,來(lái)尋找用戶喜歡的資源,沒(méi)有必要進(jìn)行顯示評(píng)價(jià)。但基于內(nèi)容的推送局限于用戶以前瀏覽過(guò)的信息,忽略了新信息的推送。
[0005]數(shù)據(jù)挖掘技術(shù)在個(gè)性化推送系統(tǒng)中的應(yīng)用主要包括關(guān)聯(lián)規(guī)則推送和分類(lèi)挖掘推送。關(guān)聯(lián)規(guī)則推送方法根據(jù)用戶瀏覽記錄產(chǎn)生關(guān)聯(lián)規(guī)則。根據(jù)用戶當(dāng)前的操作,按關(guān)聯(lián)規(guī)則的重要程度將相關(guān)知識(shí)按序推送給用戶。關(guān)聯(lián)規(guī)則方法簡(jiǎn)單直接,但關(guān)聯(lián)規(guī)則生成耗時(shí)且質(zhì)量難以保證。分類(lèi)挖掘推送方法通過(guò)聚類(lèi)、神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)方法對(duì)知識(shí)進(jìn)行分類(lèi),通過(guò)分析用戶所需知識(shí)類(lèi)型選擇項(xiàng)用戶推送的知識(shí)。
[0006]混合推送技術(shù)將不同的推送技術(shù)醒結(jié)合,通過(guò)取長(zhǎng)補(bǔ)短來(lái)使各推送結(jié)果達(dá)到最優(yōu)。該方法保留原有方法的優(yōu)點(diǎn),而且針對(duì)每種方法的缺點(diǎn)進(jìn)行改進(jìn),但是仍有受到原有方法的限制。
[0007]目前這些方法都不能能夠依據(jù)用戶的知識(shí)背景和應(yīng)用情境,為當(dāng)前的任務(wù),選擇合適的知識(shí)進(jìn)行推送。
[0008]本發(fā)明涉及到的知識(shí)推送相關(guān)的概念包括:
[0009]定義1:一組將系統(tǒng)中輸入命令轉(zhuǎn)化為輸出結(jié)果的相互關(guān)聯(lián)或相互作用的活動(dòng)稱(chēng)為工作流程;工作流程包括流程名稱(chēng){flowName}和流程描述{flowDesc}。
[0010]定義2:工作流程中的一個(gè)相對(duì)獨(dú)立的活動(dòng)定義為一個(gè)任務(wù);一個(gè)任務(wù)包括名稱(chēng){taskName},描述{taskDesc},持續(xù)時(shí)間{long},前驅(qū)任務(wù){(diào)last},后繼任務(wù){(diào)next};—個(gè)流程中起始任務(wù)的前驅(qū)任務(wù)為空,結(jié)束任務(wù)的后繼任務(wù)為空。
[0011]定義3:任務(wù)被提交以后稱(chēng)為歷史任務(wù)。
[0012]定義4:根據(jù)一個(gè)過(guò)程求兩條文本中所包含詞的信息之間的相似程度,被稱(chēng)為求文本相似度,其結(jié)果是一個(gè)值數(shù)值sim,且有O < = Sim <= I, sin = I表示兩條文本基本相同,sin = O表示兩條文本一點(diǎn)也不相關(guān),該過(guò)程的具體定義如下:
[0013]首先將文本進(jìn)行分詞,獲取兩個(gè)詞的集合,每個(gè)詞出現(xiàn)為1,不出現(xiàn)O將該集合組合成兩個(gè)向量,這樣就會(huì)生成兩個(gè)在多維度空間內(nèi)的向量VI,V2。通過(guò)余弦公式來(lái)計(jì)算兩個(gè)向量之間的夾角,該夾角值即為文本相似度sim。
[0014]定義5:系統(tǒng)中獨(dú)立存在的文檔,稱(chēng)為知識(shí){kno};包括設(shè)計(jì)文檔,文獻(xiàn)文檔,技術(shù)文檔,使用手冊(cè),網(wǎng)絡(luò)文檔,簡(jiǎn)單文檔,專(zhuān)利文檔,未分類(lèi)文檔。
[0015]定義6:用戶在完成某項(xiàng)任務(wù)時(shí)對(duì)知識(shí)的操作行為有點(diǎn)擊、下載、收藏,用戶在執(zhí)行任務(wù){(diào)task}對(duì)知識(shí){kno}的操作包括點(diǎn)擊次數(shù){clickTimes},是否下載{isDownload},是否收藏UsFavorite},被稱(chēng)為一個(gè)操作記錄{log}。
[0016]定義7:—條知識(shí)在用戶執(zhí)行過(guò)程中被參考的重要程度用一個(gè)數(shù)值Wt表示。
[0017]定義8:知識(shí)與任務(wù)匹配時(shí)才被推送,使用一個(gè)數(shù)值sortWt表示知識(shí)與任務(wù)的匹配程度。
【發(fā)明內(nèi)容】
[0018]本發(fā)明的目的是為解決如何在用戶執(zhí)行某一項(xiàng)任務(wù)時(shí)獲取推送到的知識(shí)的問(wèn)題,提出了一種基于歷史記錄的知識(shí)推送方法。為實(shí)現(xiàn)上述目的,技術(shù)方案中涉及到如下定乂:
[0019]本發(fā)明所采用的技術(shù)方案如下:
[0020]步驟一:設(shè)定一個(gè)任務(wù)與歷史任務(wù)之間的相似閾值Θ當(dāng)一個(gè)任務(wù)與歷史任務(wù)相似度不小于一個(gè)閾值Θ時(shí),認(rèn)為兩個(gè)任務(wù)相似;相似度記為simTask (O ^ simTask ^ I);
[0021]步驟二、讀取歷史任務(wù)列表和當(dāng)前任務(wù);
[0022]歷史任務(wù)列表記為:{hiSTask1, hisTask2,..., hisTaskJ ,當(dāng)前任務(wù)記為{currentTask};
[0023]步驟三、讀取每一項(xiàng)歷史任務(wù)對(duì)應(yīng)的操作記錄列表;操作記錄列表記為{logl, log2,..., logm};
[0024]步驟四、根據(jù)步驟一中的閾值Θ,將歷史任務(wù)分為與當(dāng)前任務(wù)相似的任務(wù)和不相似的任務(wù);對(duì)于有m個(gè)歷史任務(wù)的歷史任務(wù)列表OiisTask1, hisTask2,...,hisTaskJ ,對(duì)其中每個(gè)歷史任務(wù)hisTaskj I≤i≤η,計(jì)算其與當(dāng)前任務(wù)的相似度simTask:
[0025](I)當(dāng)前任務(wù)的相似度simThis:
[0026]simThis = simName.wtName+simDesc.wtDes+simLong.wtLong
[0027]其中simName為歷史任務(wù)與當(dāng)前任務(wù)的名稱(chēng)的相似度根據(jù)定義4中文本相似度求解過(guò)程計(jì)算,SimDesc為兩個(gè)任務(wù)描述的文本相似度根據(jù)定義4中文本相似度求解過(guò)程計(jì)算,simLong為兩個(gè)任務(wù)的持續(xù)時(shí)間取差值加一再求倒數(shù)求的值,上式中求得的參數(shù);
[0028]O ^ wtName ^ I ;0 ^ wtDesc ^ I ;0 ^ wtLong ^ I ;
[0029]且有wtName+wtDesc+wtLong = I ;
[0030](2)前驅(qū)任務(wù)的相似度simLast:
[0031]simLast = simLastName.wtName+simLastDesc.wtDesc+simLastLong.wtLong
[0032]其中simLastName為兩個(gè)任務(wù)對(duì)應(yīng)的前驅(qū)任務(wù)名稱(chēng)的文本相似度,若兩個(gè)任務(wù)中有且這有一個(gè)任務(wù)沒(méi)有前驅(qū)任務(wù),則該值為O ;若兩個(gè)任務(wù)中都沒(méi)有前驅(qū)任務(wù),則該值為I ;simLastDesc為兩個(gè)任務(wù)對(duì)應(yīng)的前驅(qū)任務(wù)描述的文本相似度,若兩個(gè)任務(wù)中有且這有一個(gè)任務(wù)沒(méi)有前驅(qū)任務(wù),則該值為O ;若兩個(gè)任務(wù)中都沒(méi)有前驅(qū)任務(wù),則該值為I ;simLastL0ng為兩個(gè)任務(wù)對(duì)應(yīng)的前驅(qū)任務(wù)持續(xù)時(shí)間差值加一再求倒數(shù)得到得值,若兩個(gè)任務(wù)中有且這有一個(gè)任務(wù)沒(méi)有前驅(qū)任務(wù),則該值為O ;若兩個(gè)任務(wù)中都沒(méi)有前驅(qū)任務(wù),則該值為I ;
[0033]其中wtName, wtDesc, wtLong是權(quán)重值,表示前驅(qū)任務(wù)中名稱(chēng)相似度simLastName,描述相似度simLastDesc,執(zhí)行時(shí)常相似度simLastLong在整體中所占的比重,其值符合如下條件:
[0034]O ≤ wtName ^ I ;0 ^ wtDesc ^ I ;0 ^ wtLong ^ I ;
[0035]wtName+wtDesc+wtLong = I ;
[0036](3)后繼任務(wù)的相似度simNext:
[0037]simNext = simNextName.wtName+simNextDesc.wtDesc+simNextLong.wtLong
[0038]其中simNextName為兩個(gè)任務(wù)對(duì)應(yīng)的后繼任務(wù)名稱(chēng)的文本相似度,若兩個(gè)任務(wù)中有且這有一個(gè)任務(wù)沒(méi)有后繼任務(wù),則該值為O ;若兩個(gè)任務(wù)中都沒(méi)有后繼任務(wù),則該值為I ;simNextDesc為兩個(gè)任務(wù)對(duì)應(yīng)的后繼任務(wù)描述的文本相似度,若兩個(gè)任務(wù)中有且這有一個(gè)任務(wù)沒(méi)有后繼任務(wù),則該值為O ;若兩個(gè)任務(wù)中都沒(méi)有后繼任務(wù),則該值為I ;simNextLong為兩個(gè)任務(wù)對(duì)應(yīng)的后繼任務(wù)持續(xù)時(shí)間差值加一再求倒數(shù)得到得值,若兩個(gè)任務(wù)中有且這有一個(gè)任務(wù)沒(méi)有后繼任務(wù),則該值為O ;若兩個(gè)任務(wù)中都沒(méi)有后繼任務(wù),則該值為I ;
[0039]其中wtName, wtDesc, wtLong是權(quán)重值,表示前驅(qū)任務(wù)中名稱(chēng)相似度simLastName,描述相似度simLastDesc,執(zhí)行時(shí)常相似度simLastLong在整體中所占的比重,其值符合如下條件:
[0040]O ^ wtName ≤I ;0 ≤wtDesc ≤ I ;0 ≤ wtLong ≤ I ;
[0041]wtName+wtDesc+wtLong = I ;
[0042](4)任務(wù)間相似度simTask:由(I)、(2)、(3)進(jìn)而計(jì)算得到:
[0043]simTask = simThis.(1-2.wtLN) + (simLast+simNext).wtLN
[0044]其中O ≤ wtLN ≤ 0.5 ;
[0045]simTask不小于Θ則為相似任務(wù),否則為不相似任務(wù);照此方式找出所有相似任務(wù)和不相似任務(wù)。如果歷史任務(wù)列表中沒(méi)有相似任務(wù),推送的知識(shí)列表為空,結(jié)束推送過(guò)程;否則執(zhí)行步驟五。
[0046]步驟五、通過(guò)遍歷操作記錄,獲取相似任務(wù)所參考到的知識(shí),具體步驟如下:
[0047]對(duì)于有P個(gè)相似任務(wù)的相似任務(wù)列表{simTask^, simTask2,..., simTaskp},對(duì)其中每個(gè)相似任務(wù)simTask” I≤i≤p !SimTaski所參考到知識(shí)的重要程度wt,生成如下記錄:
[0048]{(task” kno” wtn), (task” kno2, wt12),..., (task” knom, wtlm),
[0049](task2, 1io1, wt21), (task2, kno2, wt22),..., (task2, knom, wt2m),
[0050]...[0051](taskn, kno” wtnl), (taskn, kno2, wtn2),..., (taskn, knom, Wtnm), }
[0052]知識(shí)的重要程度wt的計(jì)算過(guò)程如下:
[0053]從瀏覽記錄中獲取完成該任務(wù)時(shí)所做的所有操作{logn, 1gi2,...1ogiJ ;其中1gij表示相似任務(wù)SimTaski對(duì)知識(shí)1ioj的操作記錄。[0054]知識(shí)kn0j在任務(wù)SimTaSki完成過(guò)程中的重要程度計(jì)算過(guò)程為:
【權(quán)利要求】
1.一種基于歷史記錄的知識(shí)推送方法,特征在于: 步驟一:設(shè)定一個(gè)任務(wù)與歷史任務(wù)之間的相似閾值Θ當(dāng)一個(gè)任務(wù)與歷史任務(wù)相似度不小于一個(gè)閾值Θ時(shí),認(rèn)為兩個(gè)任務(wù)相似;相似度記為simTask (O ^ simTask ^ I);步驟二、讀取歷史任務(wù)列表和當(dāng)前任務(wù); 歷史任務(wù)列表記為:IMsTask1, hisTask2,...,hisTaskJ ,當(dāng)前任務(wù)記為{currentTask}; 步驟三、讀取每一項(xiàng)歷史任務(wù)對(duì)應(yīng)的操作記錄列表;操作記錄列表記為{logl, log2,..., logm}; 步驟四、根據(jù)步驟一中的閾值Θ,將歷史任務(wù)分為與當(dāng)前任務(wù)相似的任務(wù)和不相似的任務(wù);對(duì)于有m個(gè)歷史任務(wù)的歷史任務(wù)列表OiisTask1, hisTask2,...,hisTaskJ ,對(duì)其中每個(gè)歷史任務(wù)hisTaskj I≤i≤η,計(jì)算其與當(dāng)前任務(wù)的相似度simTask: 步驟五、通過(guò)遍歷操作記錄,獲取相似任務(wù)所參考到的知識(shí); 步驟六、根據(jù)步驟五計(jì)算的表示知識(shí)在任務(wù)中的重要程度的值Wt和歷史任務(wù)與當(dāng)前任務(wù)間相似度simTask,計(jì)算知識(shí)在推送過(guò)程中的排序權(quán)重。排序權(quán)重的計(jì)算公式如下:sortWt = simTask.wt 步驟七、對(duì)于有重復(fù)的知識(shí)通過(guò)以下策略去掉重復(fù)的知識(shí),重新生成排序權(quán)重,并按照排序權(quán)重以降序排序,最終獲取的知識(shí)列表為推送的結(jié)果; 假設(shè)知識(shí)kn0j在知識(shí)列表中出現(xiàn)m次,即存在m個(gè)排序權(quán)重對(duì)應(yīng)kn0j知識(shí),對(duì)其進(jìn)行降序排序獲取其結(jié)果(SortWt1, Sortfft2,..., sortfftj ,新的排序結(jié)果計(jì)算公式為:
2.—種基于歷史記錄的知識(shí)推送方法,其特征還在于:當(dāng)前任務(wù)的相似度simTask計(jì)算流程為: (1)當(dāng)前任務(wù)的相似度simThis:
simThis = simName.wtName+simDesc.wtDes+simLong.wtLong其中simName為歷史任務(wù)與當(dāng)前任務(wù)的名稱(chēng)的相似度根據(jù)定義4中文本相似度求解過(guò)程計(jì)算,SimDesc為兩個(gè)任務(wù)描述的文本相似度根據(jù)定義4中文本相似度求解過(guò)程計(jì)算,simLong為兩個(gè)任務(wù)的持續(xù)時(shí)間取差值加一再求倒數(shù)求的值,上式中求得的參數(shù);
O ^ wtName ^ I ;0 ^ wtDesc ^ I ;0 ^ wtLong ^ I ;且有 wtName+wtDesc+wtLong =I ; (2)前驅(qū)任務(wù)的相似度simLast:
simLast = simLastName.wtName+simLastDesc.wtDesc+simLastLong.wtLong其中simLastName為兩個(gè)任務(wù)對(duì)應(yīng)的前驅(qū)任務(wù)名稱(chēng)的文本相似度,若兩個(gè)任務(wù)中有且這有一個(gè)任務(wù)沒(méi)有前驅(qū)任務(wù),則該值為O ;若兩個(gè)任務(wù)中都沒(méi)有前驅(qū)任務(wù),則該值為I ;simLastDesc為兩個(gè)任務(wù)對(duì)應(yīng)的前驅(qū)任務(wù)描述的文本相似度,若兩個(gè)任務(wù)中有且這有一個(gè)任務(wù)沒(méi)有前驅(qū)任務(wù),則該值為O ;若兩個(gè)任務(wù)中都沒(méi)有前驅(qū)任務(wù),則該值為I ;SimLaStLong為兩個(gè)任務(wù)對(duì)應(yīng)的前驅(qū)任務(wù)持續(xù)時(shí)間差值加一再求倒數(shù)得到得值,若兩個(gè)任務(wù)中有且這有一個(gè)任務(wù)沒(méi)有前驅(qū)任務(wù),則該值為O ;若兩個(gè)任務(wù)中都沒(méi)有前驅(qū)任務(wù),則該值為I ; 其中wtName, wtDesc, wtLong是權(quán)重值,表示前驅(qū)任務(wù)中名稱(chēng)相似度simLastName,描述相似度simLastDesc,執(zhí)行時(shí)常相似度simLastLong在整體中所占的比重,其值符合如下條件:
O ≤ wtName ≤ I ;0 ≤ wtDesc ≤ I ;0 ≤ wtLong ≤ I ;wtName+wtDesc+wtLong = I ;; (3)后繼任務(wù)的相似度SimNext:
simNext = simNextName.wtName+simNextDesc.wtDesc+simNextLong.wtLong 其中simNextName為兩個(gè)任務(wù)對(duì)應(yīng)的后繼任務(wù)名稱(chēng)的文本相似度,若兩個(gè)任務(wù)中有且這有一個(gè)任務(wù)沒(méi)有后繼任務(wù),則該值為O ;若兩個(gè)任務(wù)中都沒(méi)有后繼任務(wù),則該值為I ;simNextDesc為兩個(gè)任務(wù)對(duì)應(yīng)的后繼任務(wù)描述的文本相似度,若兩個(gè)任務(wù)中有且這有一個(gè)任務(wù)沒(méi)有后繼任務(wù),則該值為O ;若兩個(gè)任務(wù)中都沒(méi)有后繼任務(wù),則該值為I ;simNextLong為兩個(gè)任務(wù)對(duì)應(yīng)的后繼任務(wù)持續(xù)時(shí)間差值加一再求倒數(shù)得到得值,若兩個(gè)任務(wù)中有且這有一個(gè)任務(wù)沒(méi)有后繼任務(wù),則該值為O ;若兩個(gè)任務(wù)中都沒(méi)有后繼任務(wù),則該值為I ; 其中wtName, wtDesc, wtLong是權(quán)重值,表示前驅(qū)任務(wù)中名稱(chēng)相似度simLastName,描述相似度simLastDesc,執(zhí)行時(shí)常相似度simLastLong在整體中所占的比重,其值符合如下條件:
O≤ wtName ≤ I ;0 ≤ wtDesc ≤ I ;0 ≤ wtLong≤ I ;wtName+wtDesc+wtLong = I ; (4)任務(wù)間相似度simTask:由(I)、(2)、(3)進(jìn)而計(jì)算得到:
simTask = simThis.(1-2.wtLN) + (simLast+simNext).wtLN
其中 O ≤ wtLN ≤ 0.5 ; simTask不小于Θ則為相似任務(wù),否則為不相似任務(wù)。
【文檔編號(hào)】G06F17/30GK103761289SQ201410018115
【公開(kāi)日】2014年4月30日 申請(qǐng)日期:2014年1月15日 優(yōu)先權(quán)日:2014年1月15日
【發(fā)明者】黃河燕, 史樹(shù)敏, 馮沖, 李侃, 閆春雷 申請(qǐng)人:北京理工大學(xué)