本發(fā)明涉及一種工作機(jī)會(huì)搜索引擎系統(tǒng),更具體的,涉及一種實(shí)時(shí)語(yǔ)義搜索工作機(jī)會(huì)的系統(tǒng)及方法。
背景技術(shù):
實(shí)時(shí)語(yǔ)義搜索工作機(jī)會(huì)的主要技術(shù)是對(duì)工作機(jī)會(huì)進(jìn)行實(shí)時(shí)建立語(yǔ)義索引,然后用戶可以通過(guò)上傳簡(jiǎn)歷或者填寫工作經(jīng)歷的方式,然后系統(tǒng)進(jìn)行語(yǔ)義分析,然后從海量的招聘信息中,進(jìn)行語(yǔ)義相關(guān)性計(jì)算,返回更匹配用戶的工作機(jī)會(huì)。
現(xiàn)有的招聘網(wǎng)站如前程無(wú)憂、智聯(lián)招聘、58同城招聘等都是采用傳統(tǒng)的搜索引擎技術(shù),通過(guò)關(guān)鍵詞匹配的方式來(lái)搜索工作機(jī)會(huì)。實(shí)現(xiàn)方式是通過(guò)對(duì)招聘信息的文本進(jìn)行分詞,然后建立倒排索引;在用戶查詢的時(shí)候,通過(guò)對(duì)用戶查詢文本進(jìn)行分詞得到詞組,然后通過(guò)詞組來(lái)拉取對(duì)應(yīng)的倒排拉鏈,然后進(jìn)行合并,得到滿足查詢要求的工作機(jī)會(huì)?,F(xiàn)有基于關(guān)鍵詞匹配的傳統(tǒng)工作機(jī)會(huì)搜索引擎實(shí)現(xiàn)方式,具有如下的弊端:
1)召回率低(不全):由于自然語(yǔ)言的表達(dá)方式多種多樣,對(duì)于同一個(gè)職位,會(huì)有多種相近的表達(dá)方式;傳統(tǒng)的工作機(jī)會(huì)搜索引擎,由于無(wú)法理解文本的語(yǔ)義,所以只能按照關(guān)鍵詞進(jìn)行嚴(yán)格匹配,導(dǎo)致很多表示同一職位的工作機(jī)會(huì),由于描述方式不同而不能有效召回,以至于用戶錯(cuò)失很多工作機(jī)會(huì)。
2)準(zhǔn)確率低(不準(zhǔn)):傳統(tǒng)工作機(jī)會(huì)搜索引擎,由于輸入的信息非常有限,例如“JAVA開(kāi)發(fā)工程師”會(huì)命中成千上萬(wàn)的工作機(jī)會(huì),需要用戶進(jìn)行大量的人工篩選,耗時(shí)耗力,同時(shí)非常容易錯(cuò)失一些相關(guān)性非常高的機(jī)會(huì)。
3)運(yùn)算能力不足(不快):傳統(tǒng)搜索引擎的實(shí)現(xiàn)是基于CPU來(lái)做數(shù)據(jù)處理的,由于CPU計(jì)算能力的限制,在查詢匹配過(guò)程中,會(huì)對(duì)一些過(guò)長(zhǎng)的倒排拉鏈進(jìn)行截?cái)?,?dǎo)致只能查詢到一部分匹配的結(jié)果,影響召回率以及準(zhǔn)確率。
4)數(shù)據(jù)分散:現(xiàn)有各大招聘平臺(tái)都是各自實(shí)現(xiàn)、維護(hù)一套工作機(jī)會(huì)搜索引擎,對(duì)于用戶來(lái)說(shuō)需要分別從多個(gè)平臺(tái)搜索工作機(jī)會(huì),導(dǎo)致找工作效率非常低下,時(shí)間成本高。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明旨在至少解決現(xiàn)有技術(shù)中存在的技術(shù)問(wèn)題之一。
為此,本發(fā)明的目的在于,提供一種基于語(yǔ)義的實(shí)時(shí)工作機(jī)會(huì)搜索引擎,通過(guò)實(shí)時(shí)采集、聚合各個(gè)招聘門戶的招聘信息,然后進(jìn)行實(shí)時(shí)分析處理,通過(guò)語(yǔ)義分析匹配處理,得到最匹配用戶需求的工作機(jī)會(huì)。通過(guò)語(yǔ)義匹配的方式,使用GPU并行計(jì)算,達(dá)到“更快、更準(zhǔn)、更全”的目的,大大提高了用戶找工作的效率。
為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種實(shí)時(shí)語(yǔ)義搜索工作機(jī)會(huì)的系統(tǒng),該系統(tǒng)包括:數(shù)據(jù)處理層和服務(wù)層,
數(shù)據(jù)處理層用于動(dòng)態(tài)的探測(cè)并獲取各個(gè)招聘渠道的工作機(jī)會(huì),并對(duì)工作機(jī)會(huì)進(jìn)行實(shí)時(shí)的數(shù)據(jù)分析處理,具體包括Spider集群模塊、數(shù)據(jù)實(shí)時(shí)流處理集群模塊、結(jié)構(gòu)化數(shù)據(jù)DB集群模塊;所述Spider集群模塊用于從全網(wǎng)的招聘頁(yè)面中實(shí)時(shí)采集招聘信息,并入庫(kù)保存;所述數(shù)據(jù)實(shí)時(shí)流處理集群模塊對(duì)于所述Spider集群模塊保存的信息,進(jìn)行實(shí)時(shí)處理,包括信息抽取、量化、標(biāo)準(zhǔn)化、向量化;所述結(jié)構(gòu)化數(shù)據(jù)DB集群模塊將所述數(shù)據(jù)實(shí)時(shí)流處理集群模塊處理后的數(shù)據(jù)保存在一個(gè)DB集群中,作為所有線上模塊的原始數(shù)據(jù);
服務(wù)層用于對(duì)用戶的查詢信息,進(jìn)行分析處理,然后與所述數(shù)據(jù)處理層所述DB集群中保存的招聘信息進(jìn)行實(shí)時(shí)匹配,并返回與用戶最匹配的工作機(jī)會(huì),具體包括查詢網(wǎng)關(guān)、語(yǔ)義檢索服務(wù)模塊、KVDB模塊;所述查詢網(wǎng)關(guān)提供對(duì)外查詢接口,并對(duì)用戶輸入的查詢信息進(jìn)行預(yù)處理,包括信息提取、量化、向量化,調(diào)用所述語(yǔ)義檢索服務(wù)模塊返回的工作機(jī)會(huì)id列表,最后查詢KVDB模塊得到完整的工作機(jī)會(huì)信息;所述語(yǔ)義檢索服務(wù)模塊對(duì)于用戶提交的查詢,進(jìn)行篩選匹配,計(jì)算匹配度,并返回匹配的工作機(jī)會(huì)id列表;所述KVDB模塊,用于存儲(chǔ)與工作機(jī)會(huì)對(duì)應(yīng)的詳細(xì)工作機(jī)會(huì)信息,并用于前端頁(yè)面展示。
更具體的,所述Spider集群模塊具體實(shí)現(xiàn)為通過(guò)分析各個(gè)招聘網(wǎng)站各個(gè)頻道、各個(gè)招聘列表頁(yè)的頁(yè)面更新周期,預(yù)估出每個(gè)招聘列表頁(yè)的更新周期,然后根據(jù)更新周期進(jìn)行實(shí)時(shí)的抓取節(jié)點(diǎn),并保存到網(wǎng)頁(yè)庫(kù)中。
更具體的,所述信息抽取是指將非結(jié)構(gòu)化文本生成結(jié)構(gòu)化數(shù)據(jù),所述量化是指將可數(shù)值化的字段量化,所述標(biāo)準(zhǔn)化是將實(shí)體信息標(biāo)準(zhǔn)化,所述向量化是指將文本類的信息向量化為對(duì)應(yīng)的語(yǔ)義向量。
更具體的,所述語(yǔ)義檢索服務(wù)模塊包括GPU加速層,用于加速語(yǔ)義計(jì)算,對(duì)于用戶提交的查詢,根據(jù)查詢篩選條件進(jìn)行篩選,計(jì)算出語(yǔ)義向量相似度,然后計(jì)算匹配度,排序,并返回最匹配的id列表。
本發(fā)明還提供了一種實(shí)時(shí)語(yǔ)義搜索工作機(jī)會(huì)的方法,該方法包括如下步驟:
步驟1,動(dòng)態(tài)的探測(cè)并獲取各個(gè)招聘渠道的工作機(jī)會(huì),對(duì)所述工作機(jī)會(huì)進(jìn)行實(shí)時(shí)的抓取、數(shù)據(jù)分析處理,并入庫(kù)保存;實(shí)時(shí)處理流程包括:信息抽取、量化、標(biāo)準(zhǔn)化、向量化;將所述實(shí)時(shí)處理后的數(shù)據(jù)保存在DB集群中,作為所有線上的原始數(shù)據(jù);
步驟2,用戶通過(guò)查詢網(wǎng)關(guān)輸入查詢信息,對(duì)用戶輸入的查詢信息進(jìn)行預(yù)處理,包括信息抽取、量化、向量化,然后調(diào)用語(yǔ)義檢索服務(wù);
步驟3,通過(guò)語(yǔ)義檢索服務(wù)對(duì)用戶提交的所述預(yù)處理后的查詢信息,進(jìn)行查詢條件篩選匹配,計(jì)算語(yǔ)義匹配度,并返回匹配的工作機(jī)會(huì)id列表;
步驟4,所述查詢網(wǎng)關(guān)根據(jù)語(yǔ)義檢索服務(wù)返回的工作機(jī)會(huì)id列表,查詢KVDB中存儲(chǔ)的與工作機(jī)會(huì)對(duì)應(yīng)的詳細(xì)工作機(jī)會(huì)信息,最后得到完整的工作機(jī)會(huì)信息,并展示到前端頁(yè)。
更具體的,所述步驟1所述的動(dòng)態(tài)的探測(cè)并獲取各個(gè)招聘渠道的工作機(jī)會(huì),對(duì)所述工作機(jī)會(huì)進(jìn)行實(shí)時(shí)的數(shù)據(jù)分析處理,并入庫(kù)保存具體實(shí)現(xiàn)為:
通過(guò)分析各個(gè)招聘網(wǎng)站各個(gè)頻道、各個(gè)招聘列表頁(yè)的頁(yè)面更新周期,預(yù)估出每個(gè)招聘列表頁(yè)的更新周期,然后根據(jù)更新周期進(jìn)行實(shí)時(shí)的抓取節(jié)點(diǎn)信息,并保存到網(wǎng)頁(yè)庫(kù)中。
更具體的,所述步驟1中的信息抽取、量化、標(biāo)準(zhǔn)化、向量化具體實(shí)現(xiàn)為通過(guò)所述信息抽取將非結(jié)構(gòu)化文本生成結(jié)構(gòu)化數(shù)據(jù),將可數(shù)值化的字段量化,將實(shí)體信息標(biāo)準(zhǔn)化,并將文本類的信息向量化為對(duì)應(yīng)的語(yǔ)義向量。
更具體的,所述步驟2中的信息抽取、量化、向量化具體實(shí)現(xiàn)為通過(guò)所述信息抽取將非結(jié)構(gòu)化文本生成結(jié)構(gòu)化數(shù)據(jù),將可數(shù)值化的字段量化,并將文本類的信息向量化為對(duì)應(yīng)的語(yǔ)義向量。
更具體的,所述語(yǔ)義檢索服務(wù)包括通過(guò)GPU加速層,加速語(yǔ)義計(jì)算,對(duì)于用戶提交的查詢,根據(jù)查詢篩選條件進(jìn)行篩選,計(jì)算出語(yǔ)義向量相似度,然后計(jì)算匹配度,排序,并返回最匹配的id列表。
本發(fā)明提出的實(shí)時(shí)語(yǔ)義搜索工作機(jī)會(huì)系統(tǒng),相比于傳統(tǒng)的工作搜索引擎,具有如下有益的技術(shù)效果:
1)更高的召回率以及準(zhǔn)確率,以“前端工程師”為例子,通過(guò)語(yǔ)義檢索的方式,可以召回“WEB工程師”、“WEB開(kāi)發(fā)工程師”、“WEB開(kāi)發(fā)”、“前端開(kāi)發(fā)工程師”、“前端開(kāi)發(fā)”等職位的工作機(jī)會(huì);相對(duì)于傳統(tǒng)的關(guān)鍵詞檢索方式,同樣的查詢會(huì)返回多達(dá)幾倍甚至幾十倍的工作機(jī)會(huì)。同時(shí),通過(guò)用戶上傳的簡(jiǎn)歷或者工作經(jīng)歷描述,語(yǔ)義匹配的搜索方式,與所有工作機(jī)會(huì)(千萬(wàn)級(jí)別)計(jì)算一個(gè)匹配度,然后按照匹配度排序返回最匹配的工作機(jī)會(huì),篩選效率提高了幾倍到幾十倍。
2)高時(shí)效性,通過(guò)引入了實(shí)時(shí)Spider集群,動(dòng)態(tài)的探測(cè)各個(gè)招聘渠道的工作機(jī)會(huì)更新,在第一時(shí)間抓取新增的工作機(jī)會(huì),然后在秒級(jí)別內(nèi)對(duì)工作機(jī)會(huì)進(jìn)行實(shí)時(shí)的分析處理并入庫(kù),然后實(shí)時(shí)分發(fā)到各個(gè)服務(wù)模塊,建立索引,提供查詢。
3)更全面的工作機(jī)會(huì)分析
由于語(yǔ)義計(jì)算涉及到海量的浮點(diǎn)運(yùn)算,傳統(tǒng)的CPU處理能力非常有限,導(dǎo)致查詢中會(huì)對(duì)查詢過(guò)程進(jìn)行截?cái)啵瑑H僅查詢部分?jǐn)?shù)據(jù)后返回查詢結(jié)果;本系統(tǒng)通過(guò)引入GPU計(jì)算的方式,用于加速語(yǔ)義計(jì)算,達(dá)到了幾十倍的加速效果;同時(shí)每個(gè)查詢都可以進(jìn)行全量的全庫(kù)數(shù)據(jù)分析計(jì)算,對(duì)工作機(jī)會(huì)分析更全面準(zhǔn)確。
附圖說(shuō)明
本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
圖1示出了根據(jù)本發(fā)明一種實(shí)時(shí)語(yǔ)義搜索工作機(jī)會(huì)的系統(tǒng)的整體框架圖;
圖2示出了本發(fā)明一實(shí)施例的一種實(shí)時(shí)語(yǔ)義搜索工作機(jī)會(huì)的系統(tǒng)框架圖;
圖3示出了本發(fā)明一種實(shí)時(shí)語(yǔ)義搜索工作機(jī)會(huì)的方法流程圖。
具體實(shí)施方式
為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點(diǎn),下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)描述。需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)的實(shí)施例及實(shí)施例中的特征可以相互組合。
在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可以采用其他不同于在此描述的方式來(lái)實(shí)施,因此,本發(fā)明的保護(hù)范圍并不受下面公開(kāi)的具體實(shí)施例的限制。
圖1示出了根據(jù)本發(fā)明一種實(shí)時(shí)語(yǔ)義搜索工作機(jī)會(huì)的系統(tǒng)的整體框架圖。
如圖1所示,根據(jù)本發(fā)明的一個(gè)具體實(shí)施例提供了一種實(shí)時(shí)語(yǔ)義搜索工作機(jī)會(huì)的系統(tǒng),該系統(tǒng)包括:數(shù)據(jù)處理層和服務(wù)層兩大部分,
數(shù)據(jù)處理層用于動(dòng)態(tài)的探測(cè)并獲取各個(gè)招聘渠道的工作機(jī)會(huì),并對(duì)工作機(jī)會(huì)進(jìn)行實(shí)時(shí)的數(shù)據(jù)分析處理,具體包括Spider集群模塊、數(shù)據(jù)實(shí)時(shí)流處理集群模塊、結(jié)構(gòu)化數(shù)據(jù)DB集群模塊;所述Spider集群模塊用于從全網(wǎng)的招聘頁(yè)面中實(shí)時(shí)采集招聘信息,并入庫(kù)保存;所述數(shù)據(jù)實(shí)時(shí)流處理集群模塊對(duì)于所述Spider集群模塊保存的信息,進(jìn)行實(shí)時(shí)處理,包括信息抽取、量化、標(biāo)準(zhǔn)化、向量化;所述結(jié)構(gòu)化數(shù)據(jù)DB集群模塊將所述數(shù)據(jù)實(shí)時(shí)流處理集群模塊處理后的數(shù)據(jù)保存在一個(gè)DB集群中,作為所有線上模塊的原始數(shù)據(jù)。
具體而言,Spider集群模塊通過(guò)分析各個(gè)招聘網(wǎng)站各個(gè)頻道、各個(gè)招聘列表頁(yè)的頁(yè)面更新周期,預(yù)估出每個(gè)招聘列表頁(yè)的更新周期,然后根據(jù)更新周期進(jìn)行實(shí)時(shí)的抓取節(jié)點(diǎn)信息,并保存到網(wǎng)頁(yè)庫(kù)中。
數(shù)據(jù)實(shí)時(shí)流處理集群模塊對(duì)于Spider抓取的原始招聘信息頁(yè)面,通過(guò)實(shí)時(shí)流集群進(jìn)行實(shí)時(shí)處理,包括:信息抽取、量化、標(biāo)準(zhǔn)化、向量化。
更具體的,招聘信息、以及用戶的簡(jiǎn)歷通常是一種非結(jié)構(gòu)化或者半結(jié)構(gòu)化的文本,需要轉(zhuǎn)化成結(jié)構(gòu)化的數(shù)據(jù)后才能進(jìn)行后續(xù)的查詢處理,信息抽取就是通過(guò)從非結(jié)構(gòu)化或半結(jié)構(gòu)化的頁(yè)面中提取招聘公司名稱、招聘職位、招聘人數(shù)、職位學(xué)歷要求、工作經(jīng)驗(yàn)要求,薪酬待遇、職位要求等基本元素從而將非結(jié)構(gòu)化或半結(jié)構(gòu)化文本生成結(jié)構(gòu)化數(shù)據(jù)。然后,對(duì)可以數(shù)值化的字段,例如工作年薪、專業(yè)等進(jìn)行量化;將例如公司、職位等實(shí)體信息進(jìn)行標(biāo)準(zhǔn)化;而對(duì)于文本類的信息,例如職位描述,則根據(jù)語(yǔ)義模型,通過(guò)向量化生成對(duì)應(yīng)的語(yǔ)義向量,如通過(guò)機(jī)器學(xué)習(xí),使用神經(jīng)網(wǎng)絡(luò),訓(xùn)練出針對(duì)該業(yè)務(wù)的模型,然后把一段文本轉(zhuǎn)換為一個(gè)高維向量,用來(lái)表述文本的語(yǔ)義。
服務(wù)層用于對(duì)用戶的查詢信息,進(jìn)行分析處理,然后與數(shù)據(jù)處理層所述DB集群中保存的招聘信息進(jìn)行實(shí)時(shí)匹配,并返回與用戶最匹配的工作機(jī)會(huì),具體包括查詢網(wǎng)關(guān)、語(yǔ)義檢索服務(wù)模塊、KVDB模塊;所述查詢網(wǎng)關(guān)提供對(duì)外查詢接口,并對(duì)用戶輸入的查詢信息進(jìn)行預(yù)處理,包括信息抽取、量化、向量化,調(diào)用所述語(yǔ)義檢索服務(wù)模塊返回的工作機(jī)會(huì)id列表,最后查詢KVDB模塊得到完整的工作機(jī)會(huì)信息;所述語(yǔ)義檢索服務(wù)模塊對(duì)于用戶提交的查詢,進(jìn)行篩選匹配,計(jì)算匹配度,并返回匹配的工作機(jī)會(huì)id列表;所述KVDB模塊,用于存儲(chǔ)與工作機(jī)會(huì)對(duì)應(yīng)的詳細(xì)工作機(jī)會(huì)信息,并用于前端頁(yè)面展示。
更具體的,語(yǔ)義檢索服務(wù)模塊由于需要進(jìn)行語(yǔ)義計(jì)算而涉及到海量的浮點(diǎn)運(yùn)算,傳統(tǒng)的CPU處理能力非常有限,本系統(tǒng)引入GPU加速層,用于加速語(yǔ)義計(jì)算,對(duì)于用戶提交的查詢,根據(jù)查詢篩選條件進(jìn)行篩選,計(jì)算出語(yǔ)義向量相似度,然后計(jì)算匹配度,排序,并返回最匹配的id列表。因此,本系統(tǒng)通過(guò)引入了GPU計(jì)算,對(duì)于用戶每個(gè)查詢,我們可以在20毫秒左右分析用戶的簡(jiǎn)歷,然后與千萬(wàn)級(jí)別的招聘信息進(jìn)行實(shí)時(shí)匹配,計(jì)算匹配度然后返回最匹配用戶的工作機(jī)會(huì),大大提高了工作機(jī)會(huì)檢索的效率。
圖2示出了本發(fā)明一實(shí)施例的一種實(shí)時(shí)語(yǔ)義搜索工作機(jī)會(huì)的系統(tǒng)框架圖。
如圖2所示,Spider集群模塊通過(guò)分析各個(gè)招聘網(wǎng)站各個(gè)頻道、各個(gè)招聘列表頁(yè)的頁(yè)面更新周期,預(yù)估出每個(gè)招聘列表頁(yè)的更新周期,然后根據(jù)更新周期進(jìn)行實(shí)時(shí)的抓取節(jié)點(diǎn)信息,然后通過(guò)Spider集群調(diào)度器調(diào)度任務(wù),并將信息保存到網(wǎng)頁(yè)庫(kù)中。
數(shù)據(jù)實(shí)時(shí)流處理集群模塊對(duì)于所述Spider集群模塊保存的原始數(shù)據(jù)信息信息,進(jìn)行實(shí)時(shí)處理,包括特征提取、量化、標(biāo)準(zhǔn)化、向量化生成語(yǔ)義向量,然后將結(jié)構(gòu)化數(shù)據(jù)儲(chǔ)存到結(jié)構(gòu)化數(shù)據(jù)DB集群模塊的DB集群中,再將結(jié)構(gòu)化數(shù)據(jù)DB集群模塊中的數(shù)據(jù)加載到語(yǔ)義檢索服務(wù)模塊。語(yǔ)義檢索服務(wù)模塊通過(guò)GPU加速層,加速語(yǔ)義計(jì)算,對(duì)用戶提交的查詢,根據(jù)查詢篩選條件進(jìn)行篩選,計(jì)算出語(yǔ)義向量相似度,然后計(jì)算匹配度,排序,并返回最匹配的工作機(jī)會(huì)id列表。查詢網(wǎng)關(guān)提供對(duì)外查詢接口,并對(duì)用戶輸入的查詢信息進(jìn)行預(yù)處理,包括信息抽取、量化、向量化,調(diào)用所述語(yǔ)義檢索服務(wù)模塊返回的工作機(jī)會(huì)id列表,最后查詢KVDB模塊得到完整的工作機(jī)會(huì)信息。同時(shí),用戶可以通過(guò)查詢網(wǎng)管填充工作機(jī)會(huì)信息。KVDB模塊,用于加載存儲(chǔ)與工作機(jī)會(huì)對(duì)應(yīng)的詳細(xì)工作機(jī)會(huì)信息,并用于前端頁(yè)面展示。
根據(jù)本發(fā)明的另一方面提供了一種實(shí)時(shí)語(yǔ)義搜索工作機(jī)會(huì)的方法,圖3示出了本發(fā)明一種實(shí)時(shí)語(yǔ)義搜索工作機(jī)會(huì)的方法流程圖。該方法包括如下步驟:
步驟1,動(dòng)態(tài)的探測(cè)并獲取各個(gè)招聘渠道的工作機(jī)會(huì),對(duì)所述工作機(jī)會(huì)進(jìn)行實(shí)時(shí)的數(shù)據(jù)分析處理,并入庫(kù)保存;對(duì)所述保存的信息,進(jìn)行實(shí)時(shí)處理,包括信息抽取、量化、標(biāo)準(zhǔn)化、向量化;將所述實(shí)時(shí)處理后的數(shù)據(jù)保存在DB集群中,作為所有線上的原始數(shù)據(jù)。
步驟2,用戶通過(guò)查詢網(wǎng)關(guān)輸入查詢信息,對(duì)用戶輸入的查詢信息進(jìn)行預(yù)處理,包括信息抽取、量化、向量化,然后調(diào)用語(yǔ)義檢索服務(wù)。
步驟3,通過(guò)語(yǔ)義檢索服務(wù)對(duì)用戶提交的所述預(yù)處理后的查詢信息,進(jìn)行篩選匹配,計(jì)算匹配度,并返回匹配的工作機(jī)會(huì)id列表。
步驟4,所述查詢網(wǎng)關(guān)根據(jù)語(yǔ)義檢索服務(wù)返回的工作機(jī)會(huì)id列表,查詢KVDB中存儲(chǔ)的與工作機(jī)會(huì)對(duì)應(yīng)的詳細(xì)工作機(jī)會(huì)信息,最后得到完整的工作機(jī)會(huì)信息,并展示到前端頁(yè)。
更具體的,所述步驟1中所述的動(dòng)態(tài)的探測(cè)并獲取各個(gè)招聘渠道的工作機(jī)會(huì),對(duì)所述工作機(jī)會(huì)進(jìn)行實(shí)時(shí)的數(shù)據(jù)分析處理,并入庫(kù)保存具體實(shí)現(xiàn)為:通過(guò)分析各個(gè)招聘網(wǎng)站各個(gè)頻道、各個(gè)招聘列表頁(yè)的頁(yè)面更新周期,預(yù)估出每個(gè)招聘列表頁(yè)的更新周期,然后根據(jù)更新周期進(jìn)行實(shí)時(shí)的抓取節(jié)點(diǎn)信息,并保存到網(wǎng)頁(yè)庫(kù)中。
更具體的,招聘信息、以及用戶的簡(jiǎn)歷通常是一種非結(jié)構(gòu)化或者半結(jié)構(gòu)化的文本,需要轉(zhuǎn)化成結(jié)構(gòu)化的數(shù)據(jù)后才能進(jìn)行后續(xù)的查詢處理,信息抽取就是通過(guò)從非結(jié)構(gòu)化或半結(jié)構(gòu)化的頁(yè)面中提取招聘公司名稱、招聘職位、招聘人數(shù)、職位學(xué)歷要求、工作經(jīng)驗(yàn)要求,薪酬待遇、職位要求等基本元素從而將非結(jié)構(gòu)化或半結(jié)構(gòu)化文本生成結(jié)構(gòu)化數(shù)據(jù)。然后,對(duì)可以數(shù)值化的字段,例如工作年薪、專業(yè)等進(jìn)行量化;將例如公司、職位等實(shí)體信息進(jìn)行標(biāo)準(zhǔn)化;而對(duì)于文本類的信息,例如職位描述,則根據(jù)語(yǔ)義模型,通過(guò)向量化生成對(duì)應(yīng)的語(yǔ)義向量,如通過(guò)機(jī)器學(xué)習(xí),使用神經(jīng)網(wǎng)絡(luò),訓(xùn)練出針對(duì)該業(yè)務(wù)的模型,然后把一段文本轉(zhuǎn)換為一個(gè)高維向量,用來(lái)表述文本的語(yǔ)義。
更具體的,語(yǔ)義檢索服務(wù)由于需要進(jìn)行語(yǔ)義計(jì)算而涉及到海量的浮點(diǎn)運(yùn)算,傳統(tǒng)的CPU處理能力非常有限,本系統(tǒng)引入GPU加速層,用于加速語(yǔ)義計(jì)算,對(duì)于用戶提交的查詢,根據(jù)查詢篩選條件進(jìn)行篩選,計(jì)算出語(yǔ)義向量相似度,然后計(jì)算匹配度,排序,并返回最匹配的id列表。因此,本系統(tǒng)通過(guò)引入了GPU計(jì)算,對(duì)于用戶每個(gè)查詢,我們可以在20毫秒左右分析用戶的簡(jiǎn)歷,然后與千萬(wàn)級(jí)別的招聘信息進(jìn)行實(shí)時(shí)匹配,計(jì)算匹配度然后返回最匹配用戶的工作機(jī)會(huì),大大提高了工作機(jī)會(huì)檢索的準(zhǔn)確率、召回率、以及查詢效率。
本發(fā)明的基于語(yǔ)義的實(shí)時(shí)工作機(jī)會(huì)搜索引擎,通過(guò)動(dòng)態(tài)實(shí)時(shí)的采集、聚合各個(gè)招聘門戶的招聘信息,將其進(jìn)行實(shí)時(shí)分析處理,然后通過(guò)語(yǔ)義分析匹配處理,與所有工作機(jī)會(huì)(千萬(wàn)級(jí)別)計(jì)算一個(gè)匹配度,然后按照匹配度排序返回最匹配用戶需求的工作機(jī)會(huì),減少了篩選成本,大大提高了用戶找工作的效率。
本發(fā)明可應(yīng)用各種搜索引擎領(lǐng)域,在任何需要利用語(yǔ)義搜索并進(jìn)行數(shù)據(jù)處理的應(yīng)用場(chǎng)景下都可以使用。
在本說(shuō)明書的描述中,術(shù)語(yǔ)“一個(gè)實(shí)施例”、“具體實(shí)施例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說(shuō)明書中,對(duì)上述術(shù)語(yǔ)的示意性表述不一定指的是相同的實(shí)施例或?qū)嵗?。而且,描述的具體特征、結(jié)構(gòu)、材料或特點(diǎn)可以在任何的一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。
以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。