欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于特征提取的圖書檢索方法與流程

文檔序號(hào):11864782閱讀:588來(lái)源:國(guó)知局

本發(fā)明涉及一種基于特征提取的圖書檢索方法,屬于網(wǎng)絡(luò)通信技術(shù)領(lǐng)域。



背景技術(shù):

隨著圖書數(shù)量的劇增,以及相關(guān)部門對(duì)于閱讀書籍行為的推廣,較多的人開始重新開啟書籍知識(shí)的閱讀體驗(yàn)。但是由于書籍種類繁雜,數(shù)目眾多,且均無(wú)序的陳列在藏書處或圖書庫(kù),無(wú)形中增高了人們查閱書籍的難度,影響人們的閱讀體驗(yàn)度。如何在快節(jié)奏的生活中,讓人們更加便捷的閱讀書籍,更加快速的找到自己需要的書籍種類是現(xiàn)下圖書檢索的核心問(wèn)題。而常見圖書檢索方法常常采用書籍區(qū)域分庫(kù)陳列,圖書管理員定期分類整理,書店售貨員人工講解等方式來(lái)進(jìn)行圖書檢索,不僅效率角度而且不利于讀者挑選,時(shí)間成本和人力投入都較大,不能滿足用戶的閱讀需求。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明要解決的技術(shù)問(wèn)題是提出一種基于特征提取的圖書檢索方法,用以解決上述問(wèn)題。

本發(fā)明的技術(shù)方案是:一種基于特征提取的圖書檢索方法,首先針對(duì)書庫(kù)圖書信息進(jìn)行數(shù)據(jù)采集,提取圖書標(biāo)簽信息,進(jìn)行編碼標(biāo)識(shí),建立圖書信息庫(kù),存儲(chǔ)圖書標(biāo)簽特征信息;其次,依據(jù)圖書標(biāo)簽信息元素進(jìn)行圖書聚類,對(duì)聚類后的書籍進(jìn)行類別編碼作為檢索書籍的原始庫(kù)源,并結(jié)合圖書原始標(biāo)簽進(jìn)行圖書特征重組,提取各類別圖書的新的特征詞組,作為聚類圖書信息庫(kù);然后,提取用戶訪問(wèn)圖書落在聚類圖書信息庫(kù)中某類別的頻次,建立用戶訪問(wèn)模型,形成用戶閱讀模式標(biāo)簽,作為用戶特征標(biāo)簽值;最后,建立匹配關(guān)聯(lián)度模型,為匹配成功用戶提供檢索圖書列表。

具體步驟為:

Step1:建立圖書信息庫(kù):對(duì)書庫(kù)中圖書信息進(jìn)行數(shù)據(jù)采集,提取圖書標(biāo)簽信息,包括圖書名稱、圖書所述領(lǐng)域及圖書出版信息,并對(duì)采集后的圖書進(jìn)行編碼標(biāo)識(shí),按照【領(lǐng)域-名稱-出版社-出版日期】的形式進(jìn)行存儲(chǔ),所有圖書標(biāo)簽特征信息均按照編碼依次放在圖書信息中;

Step2:建立聚類圖書信息庫(kù):依據(jù)圖書標(biāo)簽信息元素進(jìn)行圖書聚類,對(duì)聚類后的書籍進(jìn)行類別編碼作為檢索書籍的原始庫(kù)源,并結(jié)合圖書原始標(biāo)簽進(jìn)行圖書特征重組,提取各類別圖書的新的特征詞組,作為聚類圖書信息庫(kù):

Step2.1:書簽聚類:

1、首先,整合按照編碼依次存儲(chǔ)的圖書書簽信息,運(yùn)用Spearman等級(jí)相關(guān)系數(shù)法建立圖書標(biāo)簽定序信息之間的相關(guān)系數(shù),定義該聚類參考系數(shù)的計(jì)算公式為:

<mrow> <msub> <mi>r</mi> <mi>s</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mn>6</mn> <msubsup> <mi>&Sigma;d</mi> <mi>i</mi> <mn>2</mn> </msubsup> </mrow> <mrow> <mi>n</mi> <mrow> <mo>(</mo> <msup> <mi>n</mi> <mn>2</mn> </msup> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>s</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>3</mn> <mo>...</mo> <mo>)</mo> </mrow> </mrow>

其中,rs為Spearman的相關(guān)系數(shù)值,n是圖書聚類原始值樣本容量,di=(xi-yi)表示圖書標(biāo)簽樣本xi和yi兩個(gè)標(biāo)簽的是Minkowski距離;

2、Spearman等級(jí)相關(guān)系數(shù)有-1≤rs≤1,rs為正值時(shí),存在正的等級(jí)相關(guān),可以按照相關(guān)系數(shù)值聚成一大類,rs取負(fù)值時(shí),存在負(fù)的等級(jí)相關(guān),書簽相關(guān)性差,分別聚為不同的小類,rs=1,表明兩個(gè)變量的等級(jí)完全相同,存在完全相關(guān),聚為一個(gè)小類,rs=-1,表明兩個(gè)變量的等級(jí)完全相反,存在完全的負(fù)相關(guān),聚成不同的大類;

3、將Spearman相關(guān)系數(shù)指標(biāo)進(jìn)行熵值求權(quán),步驟如下:

將指標(biāo)數(shù)據(jù)構(gòu)成矩陣Z,并對(duì)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理,獲得初始數(shù)據(jù)矩陣Z=(zij)m×n其中i=1,2,...,n;j=1,2,...,m,將矩陣元素歸一化處理取得標(biāo)準(zhǔn)化矩陣:Q=(qij)m×n;

4、計(jì)算出圖書標(biāo)簽特征值:評(píng)價(jià)矩陣Z中的第j類圖書的信息熵為:其中,分類信息效用價(jià)值為該信息熵Ej與1的差值,即:Dj=1-Ej;

Step2.2:確定分類圖書的類別名稱,作為更新編碼,結(jié)合圖書原始標(biāo)簽進(jìn)行圖書特征重組,提取各類別圖書的新的特征詞組,作為聚類圖書信息庫(kù),聚類圖書信息存儲(chǔ)方式為:【類別-名稱-特征】;

Step3:建立用戶訪問(wèn)模型:提取用戶訪問(wèn)圖書落在聚類圖書信息庫(kù)中某類別的頻次,形成用戶閱讀模式標(biāo)簽,作為用戶特征標(biāo)簽值;

Step3.1:用戶訪問(wèn)頻次:基于用戶閱讀圖書的書目,整合訪問(wèn)次數(shù)建立用戶訪問(wèn)圖書類別頻次,其中訪問(wèn)類A圖書的頻率計(jì)為:訪問(wèn)類A圖書的次數(shù)/訪問(wèn)圖書總次數(shù),類B、類C等圖書的頻率計(jì)算公式可類比推出;

Step3.2:用戶閱讀模式標(biāo)簽:提取用戶訪問(wèn)頻次計(jì)算結(jié)果,以某用戶訪問(wèn)各類別圖書的頻率作為用戶閱讀標(biāo)簽的權(quán)重,按照頻率大小進(jìn)行排序,提取訪問(wèn)頻率值作為用戶特征標(biāo)簽,記錄為:【類別-頻率;類別-頻率,……】;

Step4:建立匹配關(guān)聯(lián)度模型:將用戶閱讀模式標(biāo)簽的類別與提取到的聚類圖書信息庫(kù)中的圖書標(biāo)簽類別信息進(jìn)行逐次對(duì)比,按照訪問(wèn)類別的頻率大小,依次排列出檢索圖書類比列表,在聚類圖書列表中列舉出圖書的詳細(xì)數(shù)目信息列表,作為檢索圖書提供給用戶。

本發(fā)明的有益效果是:

1、本發(fā)明專利通過(guò)建立圖書信息庫(kù),并通過(guò)Spearman相關(guān)系數(shù)聚類方法得出聚類圖書信息庫(kù),采用用戶訪問(wèn)圖書頻次信息特征提取等技術(shù),實(shí)現(xiàn)了對(duì)用戶讀書標(biāo)簽的準(zhǔn)確匹配;并針對(duì)智能匹配的結(jié)果,實(shí)現(xiàn)了對(duì)用戶圖書列表的準(zhǔn)確檢索。

2、本發(fā)明專利針對(duì)圖書檢索現(xiàn)象,提供了閱讀書籍的實(shí)時(shí)檢索,極大的節(jié)省了用戶查詢時(shí)常,避免了時(shí)間資源的浪費(fèi),處理速度快,且能夠精確的滿足用戶訪問(wèn)需求。讓人們可以更加便捷的閱讀書籍,更加快速的找到自己需要的書籍種類,增加閱讀體驗(yàn)度。

附圖說(shuō)明

圖1是本發(fā)明基于特征提取的圖書檢索方法總體流程圖。

具體實(shí)施方式

下面結(jié)合附圖和具體實(shí)施方式,對(duì)本發(fā)明作進(jìn)一步說(shuō)明。

實(shí)施例1:如圖1所示:

Step1:建立圖書信息庫(kù):對(duì)書庫(kù)中圖書信息進(jìn)行數(shù)據(jù)采集,提取圖書標(biāo)簽信息,包括圖書名稱、圖書所述領(lǐng)域及圖書出版信息,并對(duì)采集后的圖書進(jìn)行編碼標(biāo)識(shí),按照【領(lǐng)域-名稱-出版社-出版日期】的形式進(jìn)行存儲(chǔ),如【經(jīng)管-瘋狂經(jīng)濟(jì)學(xué)-南海出版社-2013年9月】。

Step2:建立聚類圖書信息庫(kù):

Step2.1:書簽聚類:

1、首先,整合按照編碼依次存儲(chǔ)的圖書書簽信息,運(yùn)用Spearman等級(jí)相關(guān)系數(shù)法建立圖書標(biāo)簽定序信息之間的相關(guān)系數(shù),定義該聚類參考系數(shù)的計(jì)算公式為:

<mrow> <msub> <mi>r</mi> <mi>s</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mn>6</mn> <msubsup> <mi>&Sigma;d</mi> <mi>i</mi> <mn>2</mn> </msubsup> </mrow> <mrow> <mi>n</mi> <mrow> <mo>(</mo> <msup> <mi>n</mi> <mn>2</mn> </msup> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>s</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>3</mn> <mo>...</mo> <mo>)</mo> </mrow> </mrow>

其中,rs為Spearman的相關(guān)系數(shù)值,n是圖書聚類原始值樣本容量,di=(xi-yi)表示圖書標(biāo)簽樣本xi和yi兩個(gè)標(biāo)簽的是Minkowski距離。

2、Spearman等級(jí)相關(guān)系數(shù)有-1≤rs≤1。rs為正值時(shí),存在正的等級(jí)相關(guān),可以按照相關(guān)系數(shù)值聚成一大類。rs取負(fù)值時(shí),存在負(fù)的等級(jí)相關(guān),書簽相關(guān)性差,分別聚為不同的小類。rs=1,表明兩個(gè)變量的等級(jí)完全相同,存在完全相關(guān),聚為一個(gè)小類。rs=-1,表明兩個(gè)變量的等級(jí)完全相反,存在完全的負(fù)相關(guān),聚成不同的大類。

3、將Spearman相關(guān)系數(shù)指標(biāo)進(jìn)行熵值求權(quán)。步驟如下:

將指標(biāo)數(shù)據(jù)構(gòu)成矩陣Z,并對(duì)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理。獲得初始數(shù)據(jù)矩陣Z=(zij)m×n,其中,i=1,2,...,n;j=1,2,...,m。將矩陣元素歸一化處理取得標(biāo)準(zhǔn)化矩陣:Q=(qij)m×n。

4、計(jì)算出圖書標(biāo)簽特征值:評(píng)價(jià)矩陣Z中的第j類圖書的信息熵為:其中,分類信息效用價(jià)值為該信息熵Ej與1的差值,即:Dj=1-Ej。

Step2.2:確定分類圖書的類別名稱,作為更新編碼,結(jié)合圖書原始標(biāo)簽進(jìn)行圖書特征重組,提取各類別圖書的新的特征詞組,作為聚類圖書信息庫(kù),聚類圖書信息存儲(chǔ)方式為:【類別-名稱-特征】,如【經(jīng)濟(jì)管理大類-經(jīng)濟(jì)學(xué)之瘋狂經(jīng)濟(jì)學(xué)-當(dāng)當(dāng)經(jīng)濟(jì)榜第25位,作者唐·湯普森】。

Step3:建立用戶訪問(wèn)模型:提取用戶訪問(wèn)圖書落在聚類圖書信息庫(kù)中某類別的頻次,形成用戶閱讀模式標(biāo)簽,作為用戶特征標(biāo)簽值。

Step3.1:用戶訪問(wèn)頻次:基于用戶閱讀圖書的書目,整合訪問(wèn)次數(shù)建立用戶訪問(wèn)圖書類別頻次,其中訪問(wèn)類A圖書的頻率計(jì)為:訪問(wèn)類A圖書的次數(shù)/訪問(wèn)圖書總次數(shù),類B、類C等圖書的頻率計(jì)算公式可類比推出。

Step3.2:用戶閱讀模式標(biāo)簽:提取用戶訪問(wèn)頻次計(jì)算結(jié)果,以某用戶訪問(wèn)各類別圖書的頻率作為用戶閱讀標(biāo)簽的權(quán)重,按照頻率大小進(jìn)行排序,提取訪問(wèn)頻率值作為用戶特征標(biāo)簽,記錄為:【類別-頻率;類別-頻率,……】,如【經(jīng)濟(jì)管理大類類-0.43;教育大類-0.38,……】

Step4:建立匹配關(guān)聯(lián)度模型:將用戶閱讀模式標(biāo)簽的類別與提取到的聚類圖書信息庫(kù)中的圖書標(biāo)簽類別信息進(jìn)行逐次對(duì)比,按照訪問(wèn)類別的頻率大小,依次排列出檢索圖書類比列表,在聚類圖書列表中列舉出圖書的詳細(xì)數(shù)目信息列表,作為檢索圖書提供給用戶。

實(shí)施例2:如圖1所示,一種基于特征提取的圖書檢索方法,首先針對(duì)書庫(kù)圖書信息進(jìn)行數(shù)據(jù)采集,提取圖書標(biāo)簽信息,進(jìn)行編碼標(biāo)識(shí),建立圖書信息庫(kù),存儲(chǔ)圖書信息;其次,依據(jù)圖書標(biāo)簽信息元素進(jìn)行圖書聚類,對(duì)聚類后的書籍進(jìn)行類別編碼作為檢索書籍的原始庫(kù)源,并結(jié)合圖書原始標(biāo)簽進(jìn)行圖書特征重組,提取各類別圖書的新的特征詞組,作為聚類圖書信息庫(kù);然后,提取用戶訪問(wèn)圖書落在聚類圖書信息庫(kù)中某類別的頻次,建立用戶訪問(wèn)模型,形成用戶閱讀模式標(biāo)簽,作為用戶特征標(biāo)簽值;最后,建立匹配關(guān)聯(lián)度模型,為匹配成功用戶提供檢索圖書列表。

以上結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式作了詳細(xì)說(shuō)明,但是本發(fā)明不限于上述實(shí)施方式,在本領(lǐng)域普通技術(shù)人員所具備的知識(shí)范圍內(nèi),還可以在不脫離本發(fā)明宗旨的前提下作出各種變化。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
华容县| 应用必备| 青神县| 安泽县| 汉沽区| 阳山县| 板桥市| 和平区| 玉龙| 武清区| 赞皇县| 塔河县| 桃江县| 延川县| 曲阜市| 黔江区| 太仆寺旗| 改则县| 宁国市| 南宁市| 汪清县| 平原县| 玉林市| 德格县| 临颍县| 柳州市| 绥棱县| 横山县| 定日县| 龙山县| 防城港市| 来凤县| 达拉特旗| 遂昌县| 东安县| 奉贤区| 甘南县| 绍兴市| 鄂托克旗| 舟山市| 偏关县|