專利名稱:基于人機交互的圖像識別方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及圖像處理技術(shù)領(lǐng)域,具體涉及一種基于人機交互的圖像識別方法及裝置。
背景技術(shù):
圖像識別,是利用計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標和對像的技術(shù)。圖像識別最基本的方法是基于圖像邊緣的識別,圖像邊緣的識別有拉帕拉斯算子,貝塞爾算子,平均值等方法。把邊緣識別出來之后通過和數(shù)據(jù)庫(圖形或者文字等)進行對比掃描,就可以把圖像識別出來了。圖像識別向來是計算機領(lǐng)域的難點,很難做到召回率和準確率兼顧。本發(fā)明通過簡單的與用戶交互很好的解決這個問題,基本保證100%的召回率和準確率。
發(fā)明內(nèi)容
本發(fā)明提出一種基于人機交互的圖像識別方法及裝置,可提高召回率和準確率。一種基于人機交互的圖像識別方法,包括利用圖像識別算法確定圖像的邊界信息;根據(jù)所述圖像的邊界信息,判斷是否能區(qū)分圖像中的主體區(qū)域;如果能區(qū)分圖像中的主體區(qū)域,自動劃分出主體區(qū)域并輸出給用戶確認;如果不能區(qū)分圖像中的主體區(qū)域,提示用戶進行主體區(qū)域的邊界描繪。優(yōu)選地,該方法還包括如果圖像中包括可被識別的二維碼或/和統(tǒng)一資源定位符,則調(diào)取所述二維碼或/和統(tǒng)一資源定位符對應(yīng)的信息。其中,所述圖像識別算法包括拉帕拉斯算法,貝塞爾算法,和/或,平均值算法。其中,所述用戶通過鼠標或觸屏在圖像中進行邊界描繪。一種基于人機交互的圖像識別裝置,包括確定單元,用于利用圖像識別算法確定圖像的邊界信息;判斷單元,用于根據(jù)所述圖像的邊界信息,判斷是否能區(qū)分圖像中的主體區(qū)域;自動劃分單元,用于在判斷單元能區(qū)分圖像中的主體區(qū)域時,自動劃分出主體區(qū)域并輸出給用戶確認;用戶描繪指示單元,用于在判斷單元補能區(qū)分圖像中的主體區(qū)域時,提示用戶進行主體區(qū)域的邊界描繪。優(yōu)選地,該裝置還包括特殊處理單元,用于調(diào)取圖像中包括的可被識別的二維碼或/和統(tǒng)一資源定位符對應(yīng)的信息。另外,本發(fā)明還提供一種自動推薦相似商品的方法,包括獲取特定感興趣商品的圖像;抽取出所述圖像中的物品區(qū)域信息;根據(jù)所述物品區(qū)域信息,在商品庫中進行搜索,確定向用戶推薦的相似商品;其中,所述抽取出所述圖像中的物品區(qū)域信息的具體步驟包括利用圖像識別算法確定圖像的邊界信息;根據(jù)所述圖像的邊界信息,判斷是否能區(qū)分圖像中的物品區(qū)域;如果能區(qū)分圖像中的物品區(qū)域,自動劃分出物品區(qū)域信息并輸出給用戶確認;如果不能區(qū)分圖像中的物品區(qū)域,提示用戶進行物品區(qū)域信息的邊界描繪。
上述自動推薦相似商品的方法還包括如果圖像中包括可被識別的二維碼或/和統(tǒng)一資源定位符,則調(diào)取所述二維碼或/和統(tǒng)一資源定位符對應(yīng)的信息。其中,所述圖像識別算法包括拉帕拉斯算法,貝塞爾算法,和/或,平均值算法。其中,所述用戶通過鼠標或觸屏在圖像中進行邊界描繪通過本發(fā)明提供的方法和裝置,通過本發(fā)明提供的方法和裝置,通過將主體區(qū)域信息輸出給用戶進行確認或請用戶進行邊界描繪,借助人機交互改善圖像識別的召回率和準確率。上述圖像識別方案可有各種應(yīng)用,例如,應(yīng)用到自動推薦相似商品的方案中。用戶可以在手機上通過拍照等方式,極其便利的完成信息獲取,并作為精確輸入傳遞給其他第三方系統(tǒng)使用。這是以前所有其他圖像處理類系統(tǒng)無法做到的。
圖1是本發(fā)明基于人機交互的圖像識別方法的流程圖;圖2是本發(fā)明基于人機交互的圖像識別裝置的結(jié)構(gòu)示意圖。
具體實施例方式很多情況下,用戶希望從一副圖像中提取出真正關(guān)心的部分。目前主流的圖像識別方法大都不能完美解決這個問題。本發(fā)明通過簡單的與用戶交互,基本100%解決這個問題。參見圖1,為本發(fā)明提供的基于人機交互的圖像識別方法的流程圖,包括以下步驟SlOl :利用圖像識別算法確定圖像的邊界信息;S102 :根據(jù)所述圖像的邊界信息,判斷是否能區(qū)分圖像中的主體區(qū)域;S103 :如果能區(qū)分圖像中的主體區(qū)域,自動劃分出主體區(qū)域并輸出給用戶確認;S104:如果不能區(qū)分圖像中的主體區(qū)域,提示用戶進行主體區(qū)域的邊界描繪。進一步,如果圖像中包括可被識別的二維碼或/和統(tǒng)一資源定位符,則調(diào)取二維碼或/和統(tǒng)一資源定位符對應(yīng)的信息。其中,圖像識別算法包括但不限于現(xiàn)有和未來將出現(xiàn)的圖像識別算法,例如拉帕拉斯算法、貝塞爾算法、平均值算法等。其中,用戶通過鼠標或觸屏在圖像中進行邊界描繪。與上述方法相對應(yīng),本發(fā)明還提供一種基于人機交互的圖像識別裝置。本領(lǐng)域人員可以理解的是,該裝置可以是通過軟件、硬件或軟硬件結(jié)合實現(xiàn),可以是獨立的設(shè)備,也可以是與計算機等現(xiàn)有設(shè)備嵌入或結(jié)合使用的設(shè)備。參見圖2,為該裝置結(jié)構(gòu)示意圖。該裝置包括確定單元201、判斷單元202、自動劃分單元203和用戶描繪指示單元204。確定單元201用于利用圖像識別算法確定圖像的邊界信息;判斷單元202用于根據(jù)確定單元201確定的圖像的邊界信息,判斷是否能自動區(qū)分圖像中的主體區(qū)域;
自動劃分單元203,用于在判斷單元202確定能區(qū)分圖像中的主體區(qū)域時,自動劃分出主體區(qū)域并輸出給用戶確認;用戶描繪指示單元204,用于在判斷單元202取得不能區(qū)分圖像中的主體區(qū)域時,提示用戶進行主體區(qū)域的邊界描繪。優(yōu)選地,該裝置還包括特殊處理單元,用于調(diào)取圖像中包括的可被識別的二維碼或/和統(tǒng)一資源定位符對應(yīng)的信息。下面描述人機交互的圖像識別方法的一個具體應(yīng)用。隨著互聯(lián)網(wǎng)的發(fā)展,電子商務(wù)應(yīng)運而生。電子商務(wù)是利用計算機技術(shù)、網(wǎng)絡(luò)技術(shù)和遠程通信技術(shù),實現(xiàn)電子化、數(shù)字化和網(wǎng)絡(luò)化的整個商務(wù)過程。如今,越來越多的用戶進行網(wǎng)購。通常,用戶會登錄電子商務(wù)網(wǎng)站,搜索特定商品,在顯示的多個商品中進行比對、選擇,最終完成購買??梢?,現(xiàn)有網(wǎng)購過程對用戶而言是被動的,即,用戶被動瀏覽一些特定商品,而無法進行主動篩選。例如,用戶想購買一件羽絨服,網(wǎng)站會顯示所有羽絨服商品供用戶選擇,往往顯示的商品眾多,用戶選擇上存在一定難度。即使可以通過設(shè)定價格、好評度和/或銷量進行排序顯示,但是最優(yōu)顯示的羽絨服樣式等仍不一定是用戶中意的。生活中經(jīng)常碰到這樣的場景看電視、雜志或街頭看到某人的打扮/物品,會覺得很喜歡,但是轉(zhuǎn)眼錯過。本應(yīng)用從該需求出發(fā),提出一種終端自動推薦相似商品的方案。具體地,將圖像識別應(yīng)用在上述場景下,提出一種終端自動推薦相似商品的方法,包括以下步驟 (I):犾取特定感興趣商品的圖像;(2):抽取出所述圖像中的物品區(qū)域信息;(3):根據(jù)所述物品信息,在商品庫中進行搜索,確定向用戶推薦的相似商品。其中,步驟⑵具體實現(xiàn)為(2.1)利用圖像識別算法確定圖像的邊界信息;(2. 2)根據(jù)所述圖像的邊界信息,判斷是否能區(qū)分圖像中的物品區(qū)域;(2. 3)如果能區(qū)分圖像中的物品區(qū)域,自動劃分出物品區(qū)域信息并輸出給用戶確認;(2. 4)如果不能區(qū)分圖像中的物品區(qū)域,提示用戶進行物品區(qū)域信息的邊界描繪。通過上述自動推薦相似商品的方法,當用戶看到喜歡的商品時,只要終端獲取到該商品圖像,即可自動提取物品信息在商品庫中進行搜索,推薦出同類或相似的商品。這樣,用戶可方便地購買到與心儀商品相似甚至相同的商品。本領(lǐng)域人員可以理解的是,所述終端優(yōu)選是具體拍照功能的手機或終端(例如帶攝像頭的ipad),這樣,手機可隨時拍下感興趣的商品照片,并使用手機進行相似商品推薦,從而購買心儀商品。當然,終端也可以是傳統(tǒng)的PC機或者筆記本電腦等,除了拍照得到圖像外,還可以通過網(wǎng)絡(luò)傳輸工具(例如QQ,emai, MSN等)獲取商品圖像。另外,也可以通過接口讀取所述特定感興趣商品的圖像,例如通過USB接口讀取照相機中的商品圖像。另夕卜,商品圖像也可以是網(wǎng)絡(luò)上的資源,例如當用戶瀏覽網(wǎng)頁時發(fā)現(xiàn)的一張顯示商品外觀的圖像,可以直接利用這樣的圖像進行后續(xù)處理。本領(lǐng)域人員可以理解的是,所述商品庫是指,通過爬蟲抓取或第三方接口方式而形成并維護的網(wǎng)上可購買到的各種商品庫,包括但不限于現(xiàn)有各種電商的商品庫。
本領(lǐng)域人員可以理解的是,所述根據(jù)所述物品信息在商品庫中進行搜索,具體包括根據(jù)與物品信息的相似度、商品成交數(shù)、商品好評率,和/或,商品品牌,在所述商品庫中進行搜索。綜上,通過本發(fā)明提供的方法和裝置,通過將主體區(qū)域信息輸出給用戶進行確認或請用戶進行邊界描繪,借助人機交互改善圖像識別的召回率和準確率。上述圖像識別方案可有各種應(yīng)用,例如,用戶可以在手機上通過拍照等方式,極其便利的完成信息獲取,并作為精確輸入傳遞給其他第三方系統(tǒng)使用。這是以前所有其他圖像處理類系統(tǒng)無法做到的。上文中提供了對本發(fā)明的具體描述以用于進行闡述和說明。但并非要窮舉或者將本發(fā)明限于所公開的精確形式。根據(jù)以上教導(dǎo),可實現(xiàn)很多修改和變型。上述實施例被選取用于最佳地解釋本發(fā)明的原理及其實際應(yīng)用,從而使得本領(lǐng)域技術(shù)人員能夠以不同的實施例并利用適于特定預(yù)期用途的不同變型來最佳地利用本發(fā)明。本發(fā)明的范圍要由所附權(quán)利要求來定義。
權(quán)利要求
1.一種基于人機交互的圖像識別方法,其特征在于,包括 利用圖像識別算法確定圖像的邊界信息; 根據(jù)所述圖像的邊界信息,判斷是否能區(qū)分圖像中的主體區(qū)域; 如果能區(qū)分圖像中的主體區(qū)域,自動劃分出主體區(qū)域并輸出給用戶確認; 如果不能區(qū)分圖像中的主體區(qū)域,提示用戶進行主體區(qū)域的邊界描繪。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括 如果圖像中包括可被識別的二維碼或/和統(tǒng)一資源定位符,則調(diào)取所述二維碼或/和統(tǒng)一資源定位符對應(yīng)的信息。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述圖像識別算法包括拉帕拉斯算法,貝塞爾算法,和/或,平均值算法。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述用戶通過鼠標或觸屏在圖像中進行邊界描繪。
5.一種基于人機交互的圖像識別裝置,其特征在于,包括 確定單元,用于利用圖像識別算法確定圖像的邊界信息; 判斷單元,用于根據(jù)所述圖像的邊界信息,判斷是否能區(qū)分圖像中的主體區(qū)域; 自動劃分單元,用于在判斷單元能區(qū)分圖像中的主體區(qū)域時,自動劃分出區(qū)域并輸出給用戶確認; 用戶描繪指示單元,用于在判斷單元補能區(qū)分圖像中的主體區(qū)域時,提示用戶進行主體區(qū)域的邊界描繪。
6.根據(jù)權(quán)利要求5所述的裝置,其特征在于,還包括 特殊處理單元,用于調(diào)取圖像中包括的可被識別的二維碼或/和統(tǒng)一資源定位符對應(yīng)的信息。
7.一種自動推薦相似商品的方法,其特征在于,包括 獲取特定感興趣商品的圖像; 抽取出所述圖像中的物品區(qū)域信息; 根據(jù)所述物品區(qū)域信息,在商品庫中進行搜索,確定向用戶推薦的相似商品; 其中,所述抽取出所述圖像中的物品區(qū)域信息的具體步驟包括 利用圖像識別算法確定圖像的邊界信息; 根據(jù)所述圖像的邊界信息,判斷是否能區(qū)分圖像中的物品區(qū)域; 如果能區(qū)分圖像中的物品區(qū)域,自動劃分出物品區(qū)域信息并輸出給用戶確認; 如果不能區(qū)分圖像中的物品區(qū)域,提示用戶進行物品區(qū)域信息的邊界描繪。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,還包括 如果圖像中包括可被識別的二維碼或/和統(tǒng)一資源定位符,則調(diào)取所述二維碼或/和統(tǒng)一資源定位符對應(yīng)的信息。
9.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述圖像識別算法包括拉帕拉斯算法,貝塞爾算法,和/或,平均值算法。
10.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述用戶通過鼠標或觸屏在圖像中進行邊界描繪。
全文摘要
本發(fā)明公開了一種基于人機交互的圖像識別方法及裝置,其中方法包括利用圖像識別算法確定圖像的邊界信息;根據(jù)所述圖像的邊界信息,判斷是否能區(qū)分圖像中的主體區(qū)域;如果能區(qū)分圖像中的主體區(qū)域,自動劃分出區(qū)域并輸出給用戶確認;如果不能區(qū)分圖像中的主體區(qū)域,提示用戶進行主體區(qū)域的邊界描繪。本發(fā)明可提高圖像識別的召回率和準確率。
文檔編號G06F3/0481GK103065120SQ201210537239
公開日2013年4月24日 申請日期2012年12月13日 優(yōu)先權(quán)日2012年12月13日
發(fā)明者何松 申請人:何松