本發(fā)明涉及一種基于特征提取的圖書檢索方法,屬于網(wǎng)絡(luò)通信技術(shù)領(lǐng)域。
背景技術(shù):
隨著圖書數(shù)量的劇增,以及相關(guān)部門對(duì)于閱讀書籍行為的推廣,較多的人開始重新開啟書籍知識(shí)的閱讀體驗(yàn)。但是由于書籍種類繁雜,數(shù)目眾多,且均無(wú)序的陳列在藏書處或圖書庫(kù),無(wú)形中增高了人們查閱書籍的難度,影響人們的閱讀體驗(yàn)度。如何在快節(jié)奏的生活中,讓人們更加便捷的閱讀書籍,更加快速的找到自己需要的書籍種類是現(xiàn)下圖書檢索的核心問(wèn)題。而常見圖書檢索方法常常采用書籍區(qū)域分庫(kù)陳列,圖書管理員定期分類整理,書店售貨員人工講解等方式來(lái)進(jìn)行圖書檢索,不僅效率角度而且不利于讀者挑選,時(shí)間成本和人力投入都較大,不能滿足用戶的閱讀需求。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明要解決的技術(shù)問(wèn)題是提出一種基于特征提取的圖書檢索方法,用以解決上述問(wèn)題。
本發(fā)明的技術(shù)方案是:一種基于特征提取的圖書檢索方法,首先針對(duì)書庫(kù)圖書信息進(jìn)行數(shù)據(jù)采集,提取圖書標(biāo)簽信息,進(jìn)行編碼標(biāo)識(shí),建立圖書信息庫(kù),存儲(chǔ)圖書標(biāo)簽特征信息;其次,依據(jù)圖書標(biāo)簽信息元素進(jìn)行圖書聚類,對(duì)聚類后的書籍進(jìn)行類別編碼作為檢索書籍的原始庫(kù)源,并結(jié)合圖書原始標(biāo)簽進(jìn)行圖書特征重組,提取各類別圖書的新的特征詞組,作為聚類圖書信息庫(kù);然后,提取用戶訪問(wèn)圖書落在聚類圖書信息庫(kù)中某類別的頻次,建立用戶訪問(wèn)模型,形成用戶閱讀模式標(biāo)簽,作為用戶特征標(biāo)簽值;最后,建立匹配關(guān)聯(lián)度模型,為匹配成功用戶提供檢索圖書列表。
具體步驟為:
Step1:建立圖書信息庫(kù):對(duì)書庫(kù)中圖書信息進(jìn)行數(shù)據(jù)采集,提取圖書標(biāo)簽信息,包括圖書名稱、圖書所述領(lǐng)域及圖書出版信息,并對(duì)采集后的圖書進(jìn)行編碼標(biāo)識(shí),按照【領(lǐng)域-名稱-出版社-出版日期】的形式進(jìn)行存儲(chǔ),所有圖書標(biāo)簽特征信息均按照編碼依次放在圖書信息中;
Step2:建立聚類圖書信息庫(kù):依據(jù)圖書標(biāo)簽信息元素進(jìn)行圖書聚類,對(duì)聚類后的書籍進(jìn)行類別編碼作為檢索書籍的原始庫(kù)源,并結(jié)合圖書原始標(biāo)簽進(jìn)行圖書特征重組,提取各類別圖書的新的特征詞組,作為聚類圖書信息庫(kù):
Step2.1:書簽聚類:
1、首先,整合按照編碼依次存儲(chǔ)的圖書書簽信息,運(yùn)用Spearman等級(jí)相關(guān)系數(shù)法建立圖書標(biāo)簽定序信息之間的相關(guān)系數(shù),定義該聚類參考系數(shù)的計(jì)算公式為:
其中,rs為Spearman的相關(guān)系數(shù)值,n是圖書聚類原始值樣本容量,di=(xi-yi)表示圖書標(biāo)簽樣本xi和yi兩個(gè)標(biāo)簽的是Minkowski距離;
2、Spearman等級(jí)相關(guān)系數(shù)有-1≤rs≤1,rs為正值時(shí),存在正的等級(jí)相關(guān),可以按照相關(guān)系數(shù)值聚成一大類,rs取負(fù)值時(shí),存在負(fù)的等級(jí)相關(guān),書簽相關(guān)性差,分別聚為不同的小類,rs=1,表明兩個(gè)變量的等級(jí)完全相同,存在完全相關(guān),聚為一個(gè)小類,rs=-1,表明兩個(gè)變量的等級(jí)完全相反,存在完全的負(fù)相關(guān),聚成不同的大類;
3、將Spearman相關(guān)系數(shù)指標(biāo)進(jìn)行熵值求權(quán),步驟如下:
將指標(biāo)數(shù)據(jù)構(gòu)成矩陣Z,并對(duì)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理,獲得初始數(shù)據(jù)矩陣Z=(zij)m×n其中i=1,2,...,n;j=1,2,...,m,將矩陣元素歸一化處理取得標(biāo)準(zhǔn)化矩陣:Q=(qij)m×n;
4、計(jì)算出圖書標(biāo)簽特征值:評(píng)價(jià)矩陣Z中的第j類圖書的信息熵為:其中,分類信息效用價(jià)值為該信息熵Ej與1的差值,即:Dj=1-Ej;
Step2.2:確定分類圖書的類別名稱,作為更新編碼,結(jié)合圖書原始標(biāo)簽進(jìn)行圖書特征重組,提取各類別圖書的新的特征詞組,作為聚類圖書信息庫(kù),聚類圖書信息存儲(chǔ)方式為:【類別-名稱-特征】;
Step3:建立用戶訪問(wèn)模型:提取用戶訪問(wèn)圖書落在聚類圖書信息庫(kù)中某類別的頻次,形成用戶閱讀模式標(biāo)簽,作為用戶特征標(biāo)簽值;
Step3.1:用戶訪問(wèn)頻次:基于用戶閱讀圖書的書目,整合訪問(wèn)次數(shù)建立用戶訪問(wèn)圖書類別頻次,其中訪問(wèn)類A圖書的頻率計(jì)為:訪問(wèn)類A圖書的次數(shù)/訪問(wèn)圖書總次數(shù),類B、類C等圖書的頻率計(jì)算公式可類比推出;
Step3.2:用戶閱讀模式標(biāo)簽:提取用戶訪問(wèn)頻次計(jì)算結(jié)果,以某用戶訪問(wèn)各類別圖書的頻率作為用戶閱讀標(biāo)簽的權(quán)重,按照頻率大小進(jìn)行排序,提取訪問(wèn)頻率值作為用戶特征標(biāo)簽,記錄為:【類別-頻率;類別-頻率,……】;
Step4:建立匹配關(guān)聯(lián)度模型:將用戶閱讀模式標(biāo)簽的類別與提取到的聚類圖書信息庫(kù)中的圖書標(biāo)簽類別信息進(jìn)行逐次對(duì)比,按照訪問(wèn)類別的頻率大小,依次排列出檢索圖書類比列表,在聚類圖書列表中列舉出圖書的詳細(xì)數(shù)目信息列表,作為檢索圖書提供給用戶。
本發(fā)明的有益效果是:
1、本發(fā)明專利通過(guò)建立圖書信息庫(kù),并通過(guò)Spearman相關(guān)系數(shù)聚類方法得出聚類圖書信息庫(kù),采用用戶訪問(wèn)圖書頻次信息特征提取等技術(shù),實(shí)現(xiàn)了對(duì)用戶讀書標(biāo)簽的準(zhǔn)確匹配;并針對(duì)智能匹配的結(jié)果,實(shí)現(xiàn)了對(duì)用戶圖書列表的準(zhǔn)確檢索。
2、本發(fā)明專利針對(duì)圖書檢索現(xiàn)象,提供了閱讀書籍的實(shí)時(shí)檢索,極大的節(jié)省了用戶查詢時(shí)常,避免了時(shí)間資源的浪費(fèi),處理速度快,且能夠精確的滿足用戶訪問(wèn)需求。讓人們可以更加便捷的閱讀書籍,更加快速的找到自己需要的書籍種類,增加閱讀體驗(yàn)度。
附圖說(shuō)明
圖1是本發(fā)明基于特征提取的圖書檢索方法總體流程圖。
具體實(shí)施方式
下面結(jié)合附圖和具體實(shí)施方式,對(duì)本發(fā)明作進(jìn)一步說(shuō)明。
實(shí)施例1:如圖1所示:
Step1:建立圖書信息庫(kù):對(duì)書庫(kù)中圖書信息進(jìn)行數(shù)據(jù)采集,提取圖書標(biāo)簽信息,包括圖書名稱、圖書所述領(lǐng)域及圖書出版信息,并對(duì)采集后的圖書進(jìn)行編碼標(biāo)識(shí),按照【領(lǐng)域-名稱-出版社-出版日期】的形式進(jìn)行存儲(chǔ),如【經(jīng)管-瘋狂經(jīng)濟(jì)學(xué)-南海出版社-2013年9月】。
Step2:建立聚類圖書信息庫(kù):
Step2.1:書簽聚類:
1、首先,整合按照編碼依次存儲(chǔ)的圖書書簽信息,運(yùn)用Spearman等級(jí)相關(guān)系數(shù)法建立圖書標(biāo)簽定序信息之間的相關(guān)系數(shù),定義該聚類參考系數(shù)的計(jì)算公式為:
其中,rs為Spearman的相關(guān)系數(shù)值,n是圖書聚類原始值樣本容量,di=(xi-yi)表示圖書標(biāo)簽樣本xi和yi兩個(gè)標(biāo)簽的是Minkowski距離。
2、Spearman等級(jí)相關(guān)系數(shù)有-1≤rs≤1。rs為正值時(shí),存在正的等級(jí)相關(guān),可以按照相關(guān)系數(shù)值聚成一大類。rs取負(fù)值時(shí),存在負(fù)的等級(jí)相關(guān),書簽相關(guān)性差,分別聚為不同的小類。rs=1,表明兩個(gè)變量的等級(jí)完全相同,存在完全相關(guān),聚為一個(gè)小類。rs=-1,表明兩個(gè)變量的等級(jí)完全相反,存在完全的負(fù)相關(guān),聚成不同的大類。
3、將Spearman相關(guān)系數(shù)指標(biāo)進(jìn)行熵值求權(quán)。步驟如下:
將指標(biāo)數(shù)據(jù)構(gòu)成矩陣Z,并對(duì)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理。獲得初始數(shù)據(jù)矩陣Z=(zij)m×n,其中,i=1,2,...,n;j=1,2,...,m。將矩陣元素歸一化處理取得標(biāo)準(zhǔn)化矩陣:Q=(qij)m×n。
4、計(jì)算出圖書標(biāo)簽特征值:評(píng)價(jià)矩陣Z中的第j類圖書的信息熵為:其中,分類信息效用價(jià)值為該信息熵Ej與1的差值,即:Dj=1-Ej。
Step2.2:確定分類圖書的類別名稱,作為更新編碼,結(jié)合圖書原始標(biāo)簽進(jìn)行圖書特征重組,提取各類別圖書的新的特征詞組,作為聚類圖書信息庫(kù),聚類圖書信息存儲(chǔ)方式為:【類別-名稱-特征】,如【經(jīng)濟(jì)管理大類-經(jīng)濟(jì)學(xué)之瘋狂經(jīng)濟(jì)學(xué)-當(dāng)當(dāng)經(jīng)濟(jì)榜第25位,作者唐·湯普森】。
Step3:建立用戶訪問(wèn)模型:提取用戶訪問(wèn)圖書落在聚類圖書信息庫(kù)中某類別的頻次,形成用戶閱讀模式標(biāo)簽,作為用戶特征標(biāo)簽值。
Step3.1:用戶訪問(wèn)頻次:基于用戶閱讀圖書的書目,整合訪問(wèn)次數(shù)建立用戶訪問(wèn)圖書類別頻次,其中訪問(wèn)類A圖書的頻率計(jì)為:訪問(wèn)類A圖書的次數(shù)/訪問(wèn)圖書總次數(shù),類B、類C等圖書的頻率計(jì)算公式可類比推出。
Step3.2:用戶閱讀模式標(biāo)簽:提取用戶訪問(wèn)頻次計(jì)算結(jié)果,以某用戶訪問(wèn)各類別圖書的頻率作為用戶閱讀標(biāo)簽的權(quán)重,按照頻率大小進(jìn)行排序,提取訪問(wèn)頻率值作為用戶特征標(biāo)簽,記錄為:【類別-頻率;類別-頻率,……】,如【經(jīng)濟(jì)管理大類類-0.43;教育大類-0.38,……】
Step4:建立匹配關(guān)聯(lián)度模型:將用戶閱讀模式標(biāo)簽的類別與提取到的聚類圖書信息庫(kù)中的圖書標(biāo)簽類別信息進(jìn)行逐次對(duì)比,按照訪問(wèn)類別的頻率大小,依次排列出檢索圖書類比列表,在聚類圖書列表中列舉出圖書的詳細(xì)數(shù)目信息列表,作為檢索圖書提供給用戶。
實(shí)施例2:如圖1所示,一種基于特征提取的圖書檢索方法,首先針對(duì)書庫(kù)圖書信息進(jìn)行數(shù)據(jù)采集,提取圖書標(biāo)簽信息,進(jìn)行編碼標(biāo)識(shí),建立圖書信息庫(kù),存儲(chǔ)圖書信息;其次,依據(jù)圖書標(biāo)簽信息元素進(jìn)行圖書聚類,對(duì)聚類后的書籍進(jìn)行類別編碼作為檢索書籍的原始庫(kù)源,并結(jié)合圖書原始標(biāo)簽進(jìn)行圖書特征重組,提取各類別圖書的新的特征詞組,作為聚類圖書信息庫(kù);然后,提取用戶訪問(wèn)圖書落在聚類圖書信息庫(kù)中某類別的頻次,建立用戶訪問(wèn)模型,形成用戶閱讀模式標(biāo)簽,作為用戶特征標(biāo)簽值;最后,建立匹配關(guān)聯(lián)度模型,為匹配成功用戶提供檢索圖書列表。
以上結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式作了詳細(xì)說(shuō)明,但是本發(fā)明不限于上述實(shí)施方式,在本領(lǐng)域普通技術(shù)人員所具備的知識(shí)范圍內(nèi),還可以在不脫離本發(fā)明宗旨的前提下作出各種變化。