欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種屬性值的檢測(cè)方法和檢測(cè)裝置的制造方法

文檔序號(hào):8395889閱讀:260來(lái)源:國(guó)知局
一種屬性值的檢測(cè)方法和檢測(cè)裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及一種屬性值的檢測(cè)方法和檢測(cè)裝置。
【背景技術(shù)】
[0002]電子商務(wù)網(wǎng)站上賣家進(jìn)行Offer (產(chǎn)品信息)發(fā)布的時(shí)候,少部分賣家會(huì)在Key (屬性)下填寫更多的與該屬性無(wú)關(guān)的Value (屬性值)信息或不符合該屬性類型的Value信息,試圖操縱Offer在搜索結(jié)果中的排名。所述屬性是描述產(chǎn)品信息的特征的維度,例如:顏色、尺寸、裙長(zhǎng)等,屬性值則是產(chǎn)品信息在相應(yīng)維度中體現(xiàn)的具體內(nèi)容,例如屬性為“顏色”,則屬性值可以包括:紅色、藍(lán)色、綠色等。
[0003]當(dāng)與屬性無(wú)關(guān)的Value信息或不符合屬性類型的Value信息較多時(shí),可能會(huì)導(dǎo)致搜索結(jié)果不夠準(zhǔn)確,進(jìn)而影響搜索的效率和可靠性,如果這些信息在買家的搜索過(guò)程中曝光,還會(huì)對(duì)用戶體驗(yàn)產(chǎn)生負(fù)面影響。
[0004]現(xiàn)有的解決方案是對(duì)每個(gè)類目的所有屬性通過(guò)對(duì)運(yùn)營(yíng)人員配置的合法Value進(jìn)行收集得到合法Value集合,并根據(jù)Value的類型定義屬性的類型,對(duì)于Value不符合屬性的類型又不在合法Value集合里的情況視作屬性濫用作弊。
[0005]現(xiàn)有解決方案的缺點(diǎn)是:一般電子商務(wù)網(wǎng)站上的商品類目體系巨大,而且每個(gè)類目下的屬性數(shù)量較多,由于不同的屬性可能具有不同的類型以及Value特征,每當(dāng)新增加一個(gè)類目時(shí)需要重新判斷屬性類型與合法Value,現(xiàn)有方法不具有可擴(kuò)展性,所以目前的方法只能對(duì)于少數(shù)幾個(gè)類目下的屬性進(jìn)行規(guī)則的添加,要完成整個(gè)網(wǎng)站的所有屬性的規(guī)則制定幾乎不可能。另外由于目前基于運(yùn)營(yíng)人員配置的合法屬性值樣本不夠齊全,容易導(dǎo)致對(duì)屬性類型的判斷失誤。

【發(fā)明內(nèi)容】

[0006]本申請(qǐng)要解決的技術(shù)問(wèn)題是如何高效、可靠地檢測(cè)各屬性的屬性值是否合法,且具備較好的可擴(kuò)展性。
[0007]為了解決上述問(wèn)題,本申請(qǐng)?zhí)峁┝艘环N屬性值的檢測(cè)方法,包括:
[0008]從保存產(chǎn)品信息的網(wǎng)站服務(wù)器獲取所述產(chǎn)品信息中各屬性的各屬性值,并識(shí)別各屬性值的字符類型;
[0009]對(duì)各屬性分別統(tǒng)計(jì):該屬性中屬性值的總數(shù),以及該屬性中各字符類型的屬性值的數(shù)量;根據(jù)統(tǒng)計(jì)結(jié)果計(jì)算出該屬性中各字符類型的屬性值所占的比例;
[0010]分別根據(jù)各屬性中各字符類型的屬性值所占的比例,識(shí)別該屬性的類型;
[0011]根據(jù)識(shí)別出的類型,以及預(yù)先存儲(chǔ)的各類型對(duì)應(yīng)的檢測(cè)策略,分別判斷各類型屬性中的各屬性值是否合法。
[0012]可選地,所述屬性值的字符類型包括:
[0013]純中文、純英文、整數(shù)、小數(shù)、英文數(shù)字混合、中文英文數(shù)字混合、以及其它類型。
[0014]可選地,所述屬性的類型包括:
[0015]數(shù)值類型、型號(hào)類型及中文類型;
[0016]所述分別根據(jù)各屬性中各字符類型的屬性值所占的比例,識(shí)別該屬性的類型的步驟包括:
[0017]分別對(duì)各類目的各屬性,當(dāng)該屬性中字符類型為純英文的屬性值的比例,加上字符類型為英文數(shù)字混合的屬性值的比例大于第一預(yù)定閾值時(shí),將該屬性的類型識(shí)別為型號(hào)類型;當(dāng)該屬性中字符類型為整數(shù)的屬性值的比例加上字符類型為小數(shù)的屬性值的比例大于第二預(yù)定閾值時(shí),將該屬性的類型識(shí)別為數(shù)值類型;將其余的屬性識(shí)別為中文類型。
[0018]可選地,所述第一預(yù)定閾值為50%,所述第二預(yù)定閾值為50%。
[0019]可選地,所述根據(jù)識(shí)別出的類型,以及預(yù)先存儲(chǔ)的該類型所對(duì)應(yīng)的檢測(cè)策略,判斷該類型的屬性中的各屬性值是否合法的步驟包括:
[0020]對(duì)于數(shù)值類型的各屬性,分別判斷該屬性中的各屬性值是否包含數(shù)字或表示數(shù)字的中文,如果不包含則判斷該屬性值為非法;如果包含,則判斷該屬性值中除了數(shù)字或表示數(shù)字的中文之外的字符是否為單位,如果不是則判斷該屬性值為非法;
[0021]對(duì)于型號(hào)類型的各屬性,分別判斷該屬性中的各屬性值是否僅包括數(shù)字、英文和預(yù)定符號(hào),如果不是則判斷該屬性值為非法;如果是則判斷所述預(yù)定符號(hào)在該屬性值所有字符中所占的比例是否小于或等于第三預(yù)定閾值,如果不是則判斷該屬性值為非法;
[0022]對(duì)于中文類型的各屬性,分別計(jì)算該屬性中各屬性值的信息熵,將信息熵不位于預(yù)定范圍的屬性值判斷為非法;對(duì)于信息熵位于所述預(yù)定范圍的各屬性值,如果不是該屬性的合法屬性值,且該屬性值分詞后得到的組成部分不包含該屬性的合法組成部分,且存在詞性不屬于該屬性的合法詞性的組成部分,則判斷該屬性值為非法;所述屬性的合法屬性值是指該屬性中的出現(xiàn)概率大于第四預(yù)定閾值的屬性值;所述屬性的合法組成部分是指該屬性中的各屬性值進(jìn)行分詞所得到的各組成部分中出現(xiàn)概率大于第五預(yù)定閾值的組成部分;所述屬性的合法詞性是指該屬性的屬性值進(jìn)行分詞所得到的各所述組成部分的詞性中出現(xiàn)次數(shù)最多的詞性。
[0023]可選地,所述的方法還包括:
[0024]將匹配預(yù)定非法特征的屬性值識(shí)別為非法屬性值;
[0025]所述預(yù)定非法特征包括以下情況之一或其任意組合:
[0026]屬性值的長(zhǎng)度超過(guò)該屬性中其他屬性值的平均長(zhǎng)度的預(yù)定倍數(shù);
[0027]同一個(gè)屬性值在本屬性或其他屬性中重復(fù)出現(xiàn)的次數(shù)超過(guò)預(yù)定閾值;
[0028]屬性值為空;
[0029]屬性值中的字符全部或部分為不屬于預(yù)定符號(hào)集合的符號(hào)。
[0030]本申請(qǐng)還提供了一種屬性值的檢測(cè)裝置,包括:
[0031]字符類型識(shí)別模塊,用于從保存產(chǎn)品信息的網(wǎng)站服務(wù)器獲取所述產(chǎn)品信息中各屬性的各屬性值,并識(shí)別各屬性值的字符類型;
[0032]統(tǒng)計(jì)模塊,用于對(duì)各屬性分別統(tǒng)計(jì):該屬性中屬性值的總數(shù),以及該屬性中各字符類型的屬性值的數(shù)量;根據(jù)統(tǒng)計(jì)結(jié)果計(jì)算出該屬性中各字符類型的屬性值所占的比例;
[0033]屬性類型識(shí)別模塊,用于分別根據(jù)各屬性中各字符類型的屬性值所占的比例,識(shí)別該屬性的類型;
[0034]判斷模塊,用于根據(jù)識(shí)別出的類型,以及預(yù)先存儲(chǔ)的各類型對(duì)應(yīng)的檢測(cè)策略,分別判斷各類型屬性中的各屬性值是否合法。
[0035]可選地,所述屬性值的字符類型包括:
[0036]純中文、純英文、整數(shù)、小數(shù)、英文數(shù)字混合、中文英文數(shù)字混合、以及其它類型。
[0037]可選地,所述屬性的類型包括:
[0038]數(shù)值類型、型號(hào)類型及中文類型;
[0039]所述屬性類型識(shí)別模塊分別根據(jù)各屬性中各字符類型的屬性值所占的比例,識(shí)別該屬性的類型是指:
[0040]所述屬性類型識(shí)別模塊分別對(duì)各類目的各屬性,當(dāng)該屬性中字符類型為純英文的屬性值的比例,加上字符類型為英文數(shù)字混合的屬性值的比例大于第一預(yù)定閾值時(shí),將該屬性的類型識(shí)別為型號(hào)類型;當(dāng)該屬性中字符類型為整數(shù)的屬性值的比例加上字符類型為小數(shù)的屬性值的比例大于第二預(yù)定閾值時(shí),將該屬性的類型識(shí)別為數(shù)值類型;將其余的屬性識(shí)別為中文類型。
[0041]可選地,所述第一預(yù)定閾值為50%,所述第二預(yù)定閾值為50%。
[0042]可選地,所述判斷模塊包括:
[0043]數(shù)值類型屬性處理子模塊,用于對(duì)于數(shù)值類型的各屬性,分別判斷該屬性中的各屬性值是否包含數(shù)字或表示數(shù)字的中文,如果不包含則判斷該屬性值為非法;如果包含,則判斷該屬性值中除了數(shù)字或表示數(shù)字的中文之外的字符是否為單位,如果不是則判斷該屬性值為非法;
[0044]型號(hào)類型屬性處理子模塊,用于對(duì)于型號(hào)類型的各屬性,分別判斷該屬性中的各屬性值是否僅包括數(shù)字、英文和預(yù)定符號(hào),如果不是則判斷該屬性值為非法;如果是則判斷所述預(yù)定符號(hào)在該屬性值所有字符中所占的比例是否小于或等于第三預(yù)定閾值,如果不是則判斷該屬性值為非法;
[0045]中文類型屬性處理子模塊,用于對(duì)于中文類型的各屬性,分別計(jì)算該屬性中各屬性值的信息熵,將信息熵不位于預(yù)定范圍的屬性值判斷為非法;對(duì)于信息熵位于所述預(yù)定范圍的各屬性值,如果不是該屬性的合法屬性值,且該屬性值分詞后得到的組成部分不包含該屬性的合法組成部分,且存在詞性不屬于該屬性的合法詞性的組成部分,則判斷該屬性值為非法;所述屬性的合法屬性值是指該屬性中的出現(xiàn)概率大于第四預(yù)定閾值的屬性值;所述屬性的合法組成部分是指該屬性中的各屬性值進(jìn)行分詞所得到的各組成部分中出現(xiàn)概率大于第五預(yù)定閾值的組成部分;所述屬性的合法詞性是指該屬性的屬性值進(jìn)行分詞所得到的各所述組成部分的詞性中出現(xiàn)次數(shù)最多的詞性;
[0046]分配子模塊,用于分別將各屬性中的屬性值根據(jù)該屬性的類型相應(yīng)分配給所述數(shù)值類型屬性處理子模塊、型號(hào)類型屬性處理子模塊、中文類型屬性處理子模塊中的一個(gè)。
[0047]可選地,所述的裝置還包括:
[0048]非法屬性值識(shí)別模塊,用于將匹配預(yù)定非法特征的屬性值識(shí)別為非法屬性值;所述預(yù)定非法特征包括以下情況之一或其任意組合:
[0049]屬性值的長(zhǎng)度超過(guò)該屬性中其他屬性值的平均長(zhǎng)度的預(yù)定倍數(shù);
[0050]同一個(gè)屬性值在本屬性或其他屬性中重復(fù)出現(xiàn)的次數(shù)超過(guò)預(yù)定閾值;
[0051]屬性值為空;
[0052]屬性值中的字符全部或部分為不屬于預(yù)定符號(hào)集合的符號(hào)。
[0053]本申請(qǐng)的至少一個(gè)實(shí)施例通過(guò)獲取各類目各屬性中已發(fā)布的屬性值并進(jìn)行歸類、統(tǒng)計(jì),根據(jù)所得到的屬性值概率分布信息能夠一次性生成各屬性的檢測(cè)規(guī)則,效率較高;如果加入新的類目或?qū)傩砸材軌蚩焖佾@得檢測(cè)規(guī)則,擴(kuò)展性好;由于獲取的屬性值樣本全面,因此可靠性較高。本申請(qǐng)的又一個(gè)實(shí)施例針對(duì)屬性類型為中文類型時(shí)屬性值的特點(diǎn)設(shè)計(jì)了檢測(cè)方案,通過(guò)統(tǒng)計(jì)得到屬性值分詞后各Term (組成部分)的概率分布信息和詞性
當(dāng)前第1頁(yè)1 2 3 4 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
呼图壁县| 册亨县| 宁武县| 措勤县| 隆昌县| 依安县| 璧山县| 内黄县| 商河县| 南丹县| 监利县| 宁城县| 永善县| 绍兴市| 昌黎县| 恩平市| 广饶县| 泾源县| 仙居县| 宁明县| 秭归县| 濮阳县| 石棉县| 宝丰县| 平阳县| 双辽市| 锦州市| 纳雍县| 宿松县| 随州市| 宁远县| 井陉县| 阆中市| 周至县| 平顶山市| 昌平区| 临桂县| 平舆县| 苏尼特左旗| 永昌县| 大悟县|