一種基于特征提取的圖書檢索方法與流程

文檔序號(hào)：11864782閱讀：588來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及一種基于特征提取的圖書檢索方法，屬于網(wǎng)絡(luò)通信技術(shù)領(lǐng)域。

背景技術(shù)：

隨著圖書數(shù)量的劇增，以及相關(guān)部門對(duì)于閱讀書籍行為的推廣，較多的人開始重新開啟書籍知識(shí)的閱讀體驗(yàn)。但是由于書籍種類繁雜，數(shù)目眾多，且均無(wú)序的陳列在藏書處或圖書庫(kù)，無(wú)形中增高了人們查閱書籍的難度，影響人們的閱讀體驗(yàn)度。如何在快節(jié)奏的生活中，讓人們更加便捷的閱讀書籍，更加快速的找到自己需要的書籍種類是現(xiàn)下圖書檢索的核心問(wèn)題。而常見圖書檢索方法常常采用書籍區(qū)域分庫(kù)陳列，圖書管理員定期分類整理，書店售貨員人工講解等方式來(lái)進(jìn)行圖書檢索，不僅效率角度而且不利于讀者挑選，時(shí)間成本和人力投入都較大，不能滿足用戶的閱讀需求。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明要解決的技術(shù)問(wèn)題是提出一種基于特征提取的圖書檢索方法，用以解決上述問(wèn)題。

本發(fā)明的技術(shù)方案是：一種基于特征提取的圖書檢索方法，首先針對(duì)書庫(kù)圖書信息進(jìn)行數(shù)據(jù)采集，提取圖書標(biāo)簽信息，進(jìn)行編碼標(biāo)識(shí)，建立圖書信息庫(kù)，存儲(chǔ)圖書標(biāo)簽特征信息；其次，依據(jù)圖書標(biāo)簽信息元素進(jìn)行圖書聚類，對(duì)聚類后的書籍進(jìn)行類別編碼作為檢索書籍的原始庫(kù)源，并結(jié)合圖書原始標(biāo)簽進(jìn)行圖書特征重組，提取各類別圖書的新的特征詞組，作為聚類圖書信息庫(kù)；然后，提取用戶訪問(wèn)圖書落在聚類圖書信息庫(kù)中某類別的頻次，建立用戶訪問(wèn)模型，形成用戶閱讀模式標(biāo)簽，作為用戶特征標(biāo)簽值；最后，建立匹配關(guān)聯(lián)度模型，為匹配成功用戶提供檢索圖書列表。

具體步驟為：

Step1：建立圖書信息庫(kù)：對(duì)書庫(kù)中圖書信息進(jìn)行數(shù)據(jù)采集，提取圖書標(biāo)簽信息，包括圖書名稱、圖書所述領(lǐng)域及圖書出版信息，并對(duì)采集后的圖書進(jìn)行編碼標(biāo)識(shí)，按照【領(lǐng)域-名稱-出版社-出版日期】的形式進(jìn)行存儲(chǔ)，所有圖書標(biāo)簽特征信息均按照編碼依次放在圖書信息中；

Step2：建立聚類圖書信息庫(kù)：依據(jù)圖書標(biāo)簽信息元素進(jìn)行圖書聚類，對(duì)聚類后的書籍進(jìn)行類別編碼作為檢索書籍的原始庫(kù)源，并結(jié)合圖書原始標(biāo)簽進(jìn)行圖書特征重組，提取各類別圖書的新的特征詞組，作為聚類圖書信息庫(kù)：

Step2.1：書簽聚類：

1、首先，整合按照編碼依次存儲(chǔ)的圖書書簽信息，運(yùn)用Spearman等級(jí)相關(guān)系數(shù)法建立圖書標(biāo)簽定序信息之間的相關(guān)系數(shù)，定義該聚類參考系數(shù)的計(jì)算公式為：

$<mrow> <msub> <mi>r</mi> <mi>s</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mn>6</mn> <msubsup> <mi>Σd</mi> <mi>i</mi> <mn>2</mn> </msubsup> </mrow> <mrow> <mi>n</mi> <mrow> <mo>(</mo> <msup> <mi>n</mi> <mn>2</mn> </msup> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>s</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>3</mn> <mo>...</mo> <mo>)</mo> </mrow> </mrow>$

其中，r_s為Spearman的相關(guān)系數(shù)值，n是圖書聚類原始值樣本容量，d_i＝(x_i-y_i)表示圖書標(biāo)簽樣本x_i和y_i兩個(gè)標(biāo)簽的是Minkowski距離；

2、Spearman等級(jí)相關(guān)系數(shù)有-1≤r_s≤1，r_s為正值時(shí)，存在正的等級(jí)相關(guān)，可以按照相關(guān)系數(shù)值聚成一大類，r_s取負(fù)值時(shí)，存在負(fù)的等級(jí)相關(guān)，書簽相關(guān)性差，分別聚為不同的小類，r_s＝1，表明兩個(gè)變量的等級(jí)完全相同，存在完全相關(guān)，聚為一個(gè)小類，r_s＝-1，表明兩個(gè)變量的等級(jí)完全相反，存在完全的負(fù)相關(guān)，聚成不同的大類；

3、將Spearman相關(guān)系數(shù)指標(biāo)進(jìn)行熵值求權(quán)，步驟如下：

將指標(biāo)數(shù)據(jù)構(gòu)成矩陣Z，并對(duì)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理，獲得初始數(shù)據(jù)矩陣Z＝(z_ij)_m×n其中i＝1,2,...,n；j＝1,2,...,m，將矩陣元素歸一化處理取得標(biāo)準(zhǔn)化矩陣：Q＝(qij)m×n；

4、計(jì)算出圖書標(biāo)簽特征值：評(píng)價(jià)矩陣Z中的第j類圖書的信息熵為：其中，分類信息效用價(jià)值為該信息熵E_j與1的差值，即：D_j＝1-E_j；

Step2.2：確定分類圖書的類別名稱，作為更新編碼，結(jié)合圖書原始標(biāo)簽進(jìn)行圖書特征重組，提取各類別圖書的新的特征詞組，作為聚類圖書信息庫(kù)，聚類圖書信息存儲(chǔ)方式為：【類別-名稱-特征】；

Step3：建立用戶訪問(wèn)模型：提取用戶訪問(wèn)圖書落在聚類圖書信息庫(kù)中某類別的頻次，形成用戶閱讀模式標(biāo)簽，作為用戶特征標(biāo)簽值；

Step3.1：用戶訪問(wèn)頻次：基于用戶閱讀圖書的書目，整合訪問(wèn)次數(shù)建立用戶訪問(wèn)圖書類別頻次，其中訪問(wèn)類A圖書的頻率計(jì)為：訪問(wèn)類A圖書的次數(shù)/訪問(wèn)圖書總次數(shù)，類B、類C等圖書的頻率計(jì)算公式可類比推出；

Step3.2：用戶閱讀模式標(biāo)簽：提取用戶訪問(wèn)頻次計(jì)算結(jié)果，以某用戶訪問(wèn)各類別圖書的頻率作為用戶閱讀標(biāo)簽的權(quán)重，按照頻率大小進(jìn)行排序，提取訪問(wèn)頻率值作為用戶特征標(biāo)簽，記錄為：【類別-頻率；類別-頻率，……】；

Step4：建立匹配關(guān)聯(lián)度模型：將用戶閱讀模式標(biāo)簽的類別與提取到的聚類圖書信息庫(kù)中的圖書標(biāo)簽類別信息進(jìn)行逐次對(duì)比，按照訪問(wèn)類別的頻率大小，依次排列出檢索圖書類比列表，在聚類圖書列表中列舉出圖書的詳細(xì)數(shù)目信息列表，作為檢索圖書提供給用戶。

本發(fā)明的有益效果是：

1、本發(fā)明專利通過(guò)建立圖書信息庫(kù)，并通過(guò)Spearman相關(guān)系數(shù)聚類方法得出聚類圖書信息庫(kù)，采用用戶訪問(wèn)圖書頻次信息特征提取等技術(shù)，實(shí)現(xiàn)了對(duì)用戶讀書標(biāo)簽的準(zhǔn)確匹配；并針對(duì)智能匹配的結(jié)果，實(shí)現(xiàn)了對(duì)用戶圖書列表的準(zhǔn)確檢索。

2、本發(fā)明專利針對(duì)圖書檢索現(xiàn)象，提供了閱讀書籍的實(shí)時(shí)檢索，極大的節(jié)省了用戶查詢時(shí)常，避免了時(shí)間資源的浪費(fèi)，處理速度快，且能夠精確的滿足用戶訪問(wèn)需求。讓人們可以更加便捷的閱讀書籍，更加快速的找到自己需要的書籍種類，增加閱讀體驗(yàn)度。

附圖說(shuō)明

圖1是本發(fā)明基于特征提取的圖書檢索方法總體流程圖。

具體實(shí)施方式

下面結(jié)合附圖和具體實(shí)施方式，對(duì)本發(fā)明作進(jìn)一步說(shuō)明。

實(shí)施例1：如圖1所示：

Step1：建立圖書信息庫(kù)：對(duì)書庫(kù)中圖書信息進(jìn)行數(shù)據(jù)采集，提取圖書標(biāo)簽信息，包括圖書名稱、圖書所述領(lǐng)域及圖書出版信息，并對(duì)采集后的圖書進(jìn)行編碼標(biāo)識(shí)，按照【領(lǐng)域-名稱-出版社-出版日期】的形式進(jìn)行存儲(chǔ)，如【經(jīng)管-瘋狂經(jīng)濟(jì)學(xué)-南海出版社-2013年9月】。

Step2：建立聚類圖書信息庫(kù)：

Step2.1：書簽聚類：

其中，r_s為Spearman的相關(guān)系數(shù)值，n是圖書聚類原始值樣本容量，d_i＝(x_i-y_i)表示圖書標(biāo)簽樣本x_i和y_i兩個(gè)標(biāo)簽的是Minkowski距離。

2、Spearman等級(jí)相關(guān)系數(shù)有-1≤r_s≤1。r_s為正值時(shí)，存在正的等級(jí)相關(guān)，可以按照相關(guān)系數(shù)值聚成一大類。r_s取負(fù)值時(shí)，存在負(fù)的等級(jí)相關(guān)，書簽相關(guān)性差，分別聚為不同的小類。r_s＝1，表明兩個(gè)變量的等級(jí)完全相同，存在完全相關(guān)，聚為一個(gè)小類。r_s＝-1，表明兩個(gè)變量的等級(jí)完全相反，存在完全的負(fù)相關(guān)，聚成不同的大類。

3、將Spearman相關(guān)系數(shù)指標(biāo)進(jìn)行熵值求權(quán)。步驟如下：

將指標(biāo)數(shù)據(jù)構(gòu)成矩陣Z，并對(duì)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理。獲得初始數(shù)據(jù)矩陣Z＝(z_ij)_m×n，其中，i＝1,2,...,n；j＝1,2,...,m。將矩陣元素歸一化處理取得標(biāo)準(zhǔn)化矩陣：Q＝(q_ij)m×n。

4、計(jì)算出圖書標(biāo)簽特征值：評(píng)價(jià)矩陣Z中的第j類圖書的信息熵為：其中，分類信息效用價(jià)值為該信息熵E_j與1的差值，即：D_j＝1-E_j。

Step2.2：確定分類圖書的類別名稱，作為更新編碼，結(jié)合圖書原始標(biāo)簽進(jìn)行圖書特征重組，提取各類別圖書的新的特征詞組，作為聚類圖書信息庫(kù)，聚類圖書信息存儲(chǔ)方式為：【類別-名稱-特征】，如【經(jīng)濟(jì)管理大類-經(jīng)濟(jì)學(xué)之瘋狂經(jīng)濟(jì)學(xué)-當(dāng)當(dāng)經(jīng)濟(jì)榜第25位，作者唐·湯普森】。

Step3：建立用戶訪問(wèn)模型：提取用戶訪問(wèn)圖書落在聚類圖書信息庫(kù)中某類別的頻次，形成用戶閱讀模式標(biāo)簽，作為用戶特征標(biāo)簽值。

實(shí)施例2：如圖1所示，一種基于特征提取的圖書檢索方法，首先針對(duì)書庫(kù)圖書信息進(jìn)行數(shù)據(jù)采集，提取圖書標(biāo)簽信息，進(jìn)行編碼標(biāo)識(shí)，建立圖書信息庫(kù)，存儲(chǔ)圖書信息；其次，依據(jù)圖書標(biāo)簽信息元素進(jìn)行圖書聚類，對(duì)聚類后的書籍進(jìn)行類別編碼作為檢索書籍的原始庫(kù)源，并結(jié)合圖書原始標(biāo)簽進(jìn)行圖書特征重組，提取各類別圖書的新的特征詞組，作為聚類圖書信息庫(kù)；然后，提取用戶訪問(wèn)圖書落在聚類圖書信息庫(kù)中某類別的頻次，建立用戶訪問(wèn)模型，形成用戶閱讀模式標(biāo)簽，作為用戶特征標(biāo)簽值；最后，建立匹配關(guān)聯(lián)度模型，為匹配成功用戶提供檢索圖書列表。

以上結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式作了詳細(xì)說(shuō)明，但是本發(fā)明不限于上述實(shí)施方式，在本領(lǐng)域普通技術(shù)人員所具備的知識(shí)范圍內(nèi)，還可以在不脫離本發(fā)明宗旨的前提下作出各種變化。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：龍華;劉永召;
技術(shù)所有人：昆明理工大學(xué);
我是此專利的發(fā)明人

上一篇：一種基于標(biāo)簽圖的規(guī)范標(biāo)記構(gòu)建方法與流程
上一篇：一種頁(yè)面分欄方法及裝置與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

一種新的特征提取方法相關(guān)技術(shù)

特征提取方法相關(guān)技術(shù)

圖像特征提取方法相關(guān)技術(shù)

特征提取的方法相關(guān)技術(shù)

數(shù)據(jù)特征提取方法相關(guān)技術(shù)

信號(hào)特征提取方法相關(guān)技術(shù)

圖像特征提取的方法相關(guān)技術(shù)

人臉圖像特征提取方法相關(guān)技術(shù)

模式識(shí)別特征提取方法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于特征提取的圖書檢索方法與流程