本發(fā)明涉及大數(shù)據(jù)處理,具體為一種基于大數(shù)據(jù)的電子檔案推薦方法及系統(tǒng)。
背景技術(shù):
1、隨著信息技術(shù)的飛速發(fā)展,電子檔案的數(shù)量呈爆炸式增長。在眾多的電子檔案資源中,如何讓用戶快速準(zhǔn)確地獲取到符合自身需求和興趣的檔案成為了一個(gè)亟待解決的問題。
2、根據(jù)公開號為cn117493645b公開了一種基于大數(shù)據(jù)的電子檔案推薦方法及系統(tǒng),所述方法包括:對符合相關(guān)性條件的圖像文本列向量、客觀列向量和多個(gè)文本列向量進(jìn)行拼接,得到電子檔案特征矩陣;若所述電子檔案特征矩陣與根據(jù)用戶瀏覽記錄和收藏記錄生成的用戶畫像矩陣為相似矩陣,且所述圖像ahash值與用戶畫像ahash值之間的漢明距離大于預(yù)設(shè)閾值,向用戶推薦該電子檔案。
3、傳統(tǒng)的檔案推薦方法往往較為單一,可能僅基于檔案的基本分類或簡單的用戶行為統(tǒng)計(jì),難以深入挖掘用戶的潛在興趣和復(fù)雜的需求變化。例如,一些早期的電子檔案系統(tǒng)只是按照檔案的學(xué)科領(lǐng)域進(jìn)行粗略劃分推薦,無法精準(zhǔn)地針對用戶個(gè)體的偏好差異提供個(gè)性化服務(wù)。同時(shí),在大數(shù)據(jù)環(huán)境下,雖然數(shù)據(jù)量豐富,但有效整合和利用這些數(shù)據(jù)進(jìn)行精準(zhǔn)推薦面臨諸多挑戰(zhàn),如數(shù)據(jù)的多樣性、復(fù)雜性以及用戶興趣的動(dòng)態(tài)性等。
技術(shù)實(shí)現(xiàn)思路
1、針對現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于大數(shù)據(jù)的電子檔案推薦方法及系統(tǒng),解決了檔案推薦方法往往較為單一,無法精準(zhǔn)地針對用戶個(gè)體的偏好差異提供個(gè)性化服務(wù)的問題。
2、為實(shí)現(xiàn)以上目的,本發(fā)明通過以下技術(shù)方案予以實(shí)現(xiàn):一種基于大數(shù)據(jù)的電子檔案推薦方法,該方法具體包括以下步驟:
3、步驟s1,采集用戶的基礎(chǔ)信息,并根據(jù)基礎(chǔ)信息構(gòu)建對應(yīng)的用戶畫像;
4、步驟s2,根據(jù)用戶畫像與大數(shù)據(jù)中的電子檔案進(jìn)行匹配得到匹配檔案,同時(shí)結(jié)合用戶的歷史數(shù)據(jù)進(jìn)行二次匹配生成預(yù)選檔案信息;
5、步驟s3,獲取預(yù)選檔案,同時(shí)結(jié)合用戶的實(shí)時(shí)數(shù)據(jù)進(jìn)行分析,通過對預(yù)選檔案的檔案內(nèi)容進(jìn)行分析,生成存在分析信號和不存在分析信號;
6、步驟s4,對得到的存在分析信號進(jìn)行處理,通過計(jì)算預(yù)選檔案與用戶實(shí)時(shí)數(shù)據(jù)的內(nèi)容關(guān)聯(lián)度,并基于關(guān)聯(lián)度進(jìn)行分析生成推薦信息;
7、步驟s5,對得到的不存在分析結(jié)果進(jìn)行分析,通過計(jì)算用戶之間的相似度來識別相似用戶,同時(shí)根據(jù)相似用戶對應(yīng)的推薦檔案生成推薦信息。
8、作為本發(fā)明的進(jìn)一步方案,所述步驟s2中得到匹配檔案的具體方式為:
9、獲取用戶畫像,同時(shí)對用戶畫像對應(yīng)的畫像特征進(jìn)行提取,并根據(jù)得到的畫像特征與大數(shù)據(jù)中的電子檔案進(jìn)行匹配,且具體的匹配方式為:獲取所有的電子檔案并標(biāo)號記作i,且i=1、2、…、j,其中j表示電子檔案的數(shù)量標(biāo)號,同時(shí)獲取電子檔案對應(yīng)的檔案類型,并以畫像特征為標(biāo)準(zhǔn)對電子檔案i進(jìn)行篩選得到匹配檔案記作n,且n=1、2、…、m,其中m表示匹配檔案的數(shù)量標(biāo)號。
10、作為本發(fā)明的進(jìn)一步方案,所述步驟s2中生成預(yù)選檔案信息的具體方式為:
11、接著獲取用戶的歷史數(shù)據(jù),并根據(jù)歷史數(shù)據(jù)獲取對應(yīng)的瀏覽歷史,同時(shí)對瀏覽歷史中的電子檔案按照檔案類型進(jìn)行分類得到同類型檔案,并對同類型檔案進(jìn)行標(biāo)號記作a,且a=1、2、…、b,其中b表示同類型檔案的類型標(biāo)號,接著對同類型檔案a的歷史搜索次數(shù)ca和歷史下載次數(shù)xa進(jìn)行獲取,同時(shí)將獲取的參數(shù)進(jìn)行求和計(jì)算得到同類型檔案a的瀏覽值qa,并按照瀏覽值從大到小排序,按照瀏覽值qa從大到小對匹配檔案進(jìn)行篩選得到預(yù)選檔案信息,且具體的篩選方式為,將符合同類型檔案的匹配檔案選取,并記作為預(yù)選檔案。
12、作為本發(fā)明的進(jìn)一步方案,所述步驟s3中生成存在分析信號和不存在分析信號的具體方式為:
13、獲取所有的預(yù)選檔案并標(biāo)號記作o,且o=1、2、…、p,且p表示預(yù)選檔案的數(shù)量標(biāo)號,接著對預(yù)選檔案o的檔案內(nèi)容和用戶的實(shí)時(shí)數(shù)據(jù)進(jìn)行獲取,并獲取實(shí)時(shí)數(shù)據(jù)對應(yīng)的實(shí)時(shí)內(nèi)容,同時(shí)對實(shí)時(shí)內(nèi)容進(jìn)行判斷;
14、若實(shí)時(shí)內(nèi)容存在于用戶的瀏覽歷史內(nèi),則生成存在分析信號,反之若實(shí)時(shí)內(nèi)容不存在于用戶的瀏覽歷史內(nèi),則生成不存在分析信號。
15、作為本發(fā)明的進(jìn)一步方案,所述步驟s4中對存在分析信號進(jìn)行處理的具體方式為:
16、獲取所有的預(yù)選檔案o,并計(jì)算預(yù)選檔案o與用戶實(shí)時(shí)數(shù)據(jù)的內(nèi)容關(guān)聯(lián)度,并將獲取的關(guān)聯(lián)度值(余弦相似度)記作fo,且此處關(guān)聯(lián)度值是將實(shí)時(shí)數(shù)據(jù)依次與預(yù)選檔案進(jìn)行計(jì)算分析,比如預(yù)選檔案o存在5個(gè),則計(jì)算得到的關(guān)聯(lián)度值fo則存在5個(gè),接著將關(guān)聯(lián)度值fo與閾值fy進(jìn)行比較,且閾值fy的具體數(shù)值由操作人員設(shè)定;
17、若關(guān)聯(lián)度值fo大于閾值fy,則將對應(yīng)的預(yù)選檔案選取同時(shí)標(biāo)記為待分析檔案,反之若關(guān)聯(lián)度值fo小于閾值fy,則不對相應(yīng)的預(yù)選檔案進(jìn)行處理,接著獲取待分析檔案,同時(shí)對待分析檔案的檔案類型進(jìn)行獲取,并基于檔案類型進(jìn)行不同的推薦生成推薦信息。
18、作為本發(fā)明的進(jìn)一步方案,所述步驟s4中基于檔案類型進(jìn)行不同的推薦生成推薦信息的具體方式為:
19、若檔案類型只存在一種時(shí),則以待分析檔案為標(biāo)準(zhǔn)生成相應(yīng)的推薦信息,若檔案類型存在多種時(shí),獲取預(yù)選檔案對應(yīng)的檔案類型,同時(shí)獲取不同檔案類型對應(yīng)的檔案數(shù)量,接著計(jì)算同類型檔案對應(yīng)的關(guān)聯(lián)度均值,同時(shí)以關(guān)聯(lián)度均值最大對應(yīng)的同類型檔案為標(biāo)準(zhǔn)生成推薦信息。
20、作為本發(fā)明的進(jìn)一步方案,所述步驟s5中對不存在分析結(jié)果進(jìn)行分析的具體方式為:
21、獲取時(shí)間t內(nèi)所有的用戶記作待分析用戶,同時(shí)計(jì)算待分析用戶與當(dāng)前用戶的用戶相似度,并根據(jù)用戶相似度篩選得到相似用戶記作h,且h=1、2、…、g,其中g(shù)表示相似用戶的數(shù)量標(biāo)號,接著獲取相似用戶對應(yīng)的推薦檔案,并將相似用戶的推薦檔案與當(dāng)前用戶的瀏覽歷史進(jìn)行比較分析,篩選得到已瀏覽推薦檔案和未瀏覽推薦檔案,并分別獲取對應(yīng)的數(shù)量記作l1h和l2h,以此類推對所有相似用戶h對應(yīng)的已瀏覽推薦檔案和未瀏覽推薦檔案數(shù)量進(jìn)行獲取;
22、接著按照未瀏覽推薦檔案數(shù)量l2h從大到小排序,并對不同相似用戶h對應(yīng)的未瀏覽推薦檔案類型進(jìn)行識別,同時(shí)選取同類型未瀏覽推薦檔案數(shù)量最多對應(yīng)的同類型檔案為標(biāo)準(zhǔn),并生成推薦信息。
23、一種基于大數(shù)據(jù)的電子檔案推薦系統(tǒng),包括用戶信息獲取單元、檔案預(yù)選分析單元、推薦信息生成單元和推薦信息輸出單元;
24、用戶信息獲取單元,該單元用于對用戶的基礎(chǔ)信息進(jìn)行采集,同時(shí)將獲取的基礎(chǔ)信息傳輸?shù)綑n案預(yù)選分析單元;
25、檔案預(yù)選分析單元,該單元用于根據(jù)獲取的用戶基礎(chǔ)信息建立用戶畫像,同時(shí)根據(jù)用戶畫像與大數(shù)據(jù)中的電子檔案進(jìn)行匹配得到匹配檔案,同時(shí)結(jié)合用戶的歷史數(shù)據(jù)進(jìn)行二次匹配生成預(yù)選檔案信息,并將預(yù)選檔案信息傳輸?shù)酵扑]信息生成單元;
26、推薦信息生成單元,該單元用于對獲取的預(yù)選檔案進(jìn)行分析,同時(shí)結(jié)合用戶的實(shí)時(shí)數(shù)據(jù)進(jìn)行分析,通過對預(yù)選檔案的檔案內(nèi)容進(jìn)行分析,生成存在分析信號和不存在分析信號;
27、對得到的存在分析信號進(jìn)行處理,通過計(jì)算預(yù)選檔案與用戶實(shí)時(shí)數(shù)據(jù)的內(nèi)容關(guān)聯(lián)度,并基于關(guān)聯(lián)度進(jìn)行分析生成推薦信息,同時(shí)將推薦信息傳輸?shù)酵扑]信息輸出單元;
28、對得到的不存在分析結(jié)果進(jìn)行分析,通過計(jì)算用戶之間的相似度來識別相似用戶,同時(shí)根據(jù)相似用戶對應(yīng)的推薦檔案生成推薦信息,并將推薦信息傳輸?shù)酵扑]信息輸出單元;
29、推薦信息輸出單元,該單元用于將獲取的推薦信息顯示給對應(yīng)的操作人員。
30、本發(fā)明提供了一種基于大數(shù)據(jù)的電子檔案推薦方法及系統(tǒng)。與現(xiàn)有技術(shù)相比具備以下有益效果:
31、本發(fā)明通過多維度采集用戶的基礎(chǔ)信息構(gòu)建用戶畫像,能夠更精準(zhǔn)地捕捉用戶的興趣點(diǎn)和潛在需求,為后續(xù)的檔案匹配提供了更準(zhǔn)確的導(dǎo)向,大大提高了初次匹配的精準(zhǔn)度和可靠性,在處理預(yù)選檔案時(shí),通過計(jì)算檔案內(nèi)容與用戶實(shí)時(shí)數(shù)據(jù)的關(guān)聯(lián)度,并依據(jù)檔案類型和關(guān)聯(lián)度閾值進(jìn)行智能推薦,能夠根據(jù)用戶當(dāng)前的瀏覽情境動(dòng)態(tài)調(diào)整推薦內(nèi)容,適應(yīng)不同的實(shí)時(shí)需求場景,增強(qiáng)了推薦系統(tǒng)的靈活性和適應(yīng)性;
32、當(dāng)用戶實(shí)時(shí)瀏覽內(nèi)容不在歷史范圍內(nèi)時(shí),通過計(jì)算用戶相似度識別相似用戶,并根據(jù)相似用戶的推薦檔案生成推薦信息,充分挖掘了用戶群體之間的共性和差異,借助群體智慧彌補(bǔ)了個(gè)體數(shù)據(jù)的不足,進(jìn)一步拓展了推薦的來源和范圍,提高了推薦的全面性和多樣性,為用戶提供了更多可能感興趣但未曾發(fā)現(xiàn)的電子檔案資源,從而提升了整個(gè)電子檔案推薦系統(tǒng)的性能和服務(wù)質(zhì)量。