1.一種確定影片的實(shí)時(shí)票房數(shù)據(jù)的方法,其特征在于,所述方法包括:
采用流式滾動抓取數(shù)據(jù)的方式從監(jiān)控的售票系統(tǒng)中抓取當(dāng)日多個(gè)影院的多個(gè)場次座位占用數(shù)據(jù),并將抓取到的所述場次座位占用數(shù)據(jù)依次存入數(shù)據(jù)庫中;
將所述數(shù)據(jù)庫中的場次座位占用數(shù)據(jù)輸入至預(yù)先訓(xùn)練的票房數(shù)據(jù)清洗模型,對所述場次座位占用數(shù)據(jù)進(jìn)行不可信數(shù)據(jù)清洗,得到清洗后的場次座位占用數(shù)據(jù);
將清洗后的場次座位占用數(shù)據(jù)輸入至預(yù)先訓(xùn)練的票房數(shù)據(jù)計(jì)算模型,利用所述票房數(shù)據(jù)計(jì)算模型根據(jù)所述清洗后的場次座位占用數(shù)據(jù)分別確定各個(gè)影片截止目前時(shí)刻的當(dāng)日全國票房數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述數(shù)據(jù)庫中的場次座位占用數(shù)據(jù)輸入至預(yù)先訓(xùn)練的票房數(shù)據(jù)清洗模型,對所述場次座位占用數(shù)據(jù)進(jìn)行不可信數(shù)據(jù)清洗,得到清洗后的場次座位占用數(shù)據(jù),包括:
按照第一預(yù)設(shè)時(shí)間間隔將所述數(shù)據(jù)庫中的場次座位占用數(shù)據(jù)輸入至預(yù)先訓(xùn)練的票房數(shù)據(jù)清洗模型,采用多進(jìn)程滾動迭代方式對所述場次座位占用數(shù)據(jù)進(jìn)行不可信數(shù)據(jù)清洗,得到清洗后的場次座位占用數(shù)據(jù);
所述利用所述票房數(shù)據(jù)計(jì)算模型根據(jù)所述清洗后的場次座位占用數(shù)據(jù)分別確定各個(gè)影片截止目前時(shí)刻的當(dāng)日全國票房數(shù)據(jù),包括:
采用多進(jìn)程滾動迭代方式根據(jù)所述清洗后的場次座位占用數(shù)據(jù)和所述票房數(shù)據(jù)計(jì)算模型分別確定各個(gè)影片截止目前時(shí)刻的當(dāng)日全國票房數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述采用流式滾動抓取數(shù)據(jù)的方式從監(jiān)控的售票系統(tǒng)中抓取當(dāng)日多個(gè)影院的多個(gè)場次座位占用數(shù)據(jù)之前,還包括:
獲取專資辦發(fā)布的預(yù)設(shè)時(shí)間段內(nèi)所有影院的場次票房數(shù)據(jù)列表,其中,所述場次票房數(shù)據(jù)列表包含上映日期、影院名稱、場次編號、影片名稱、以及票房數(shù)據(jù)的對應(yīng)關(guān)系;
從監(jiān)控的售票系統(tǒng)中抓取所述預(yù)設(shè)時(shí)間段內(nèi)多個(gè)影院的場次座位占用數(shù)據(jù)列表;
根據(jù)所述場次票房數(shù)據(jù)列表和所述場次座位占用數(shù)據(jù)列表確定不可信影院名單;和/或,根據(jù)所述場次票房數(shù)據(jù)列表和所述場次座位占用數(shù)據(jù)列表確定不可信場次數(shù)據(jù)特性;
根據(jù)所述不可信影院名單和/或所述不可信場次數(shù)據(jù)特性訓(xùn)練得到票房數(shù)據(jù)清洗模型;
將所述場次票房數(shù)據(jù)列表和所述場次座位占用數(shù)據(jù)列表輸入至所述票房數(shù)據(jù)清洗模型,得到清洗后的場次票房數(shù)據(jù)列表和場次座位占用數(shù)據(jù)列表;
根據(jù)清洗后的場次票房數(shù)據(jù)列表和場次座位占用數(shù)據(jù)列表訓(xùn)練得到票房數(shù)據(jù)計(jì)算模型,其中,所述票房數(shù)據(jù)計(jì)算模型包含每部影片的各個(gè)特征參量對應(yīng)的特征系數(shù)。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述場次票房數(shù)據(jù)列表和所述場次座位占用數(shù)據(jù)列表確定不可信影院名單,包括:
在所述售票系統(tǒng)的多個(gè)影院中逐一選取一個(gè)影院作為當(dāng)前檢測影院;
從所述場次票房數(shù)據(jù)列表中,提取所述當(dāng)前檢測影院的多個(gè)場次票房數(shù)據(jù),并計(jì)算所述當(dāng)前檢測影院的總場次票房數(shù)據(jù);
根據(jù)所述場次座位占用數(shù)據(jù)列表計(jì)算所述當(dāng)前檢測影院的總場次座位占用數(shù)據(jù);
判斷所述當(dāng)前檢測影院的所述總場次座位占用數(shù)據(jù)與所述總場次票房數(shù)據(jù)的差值是否大于第一預(yù)設(shè)閾值;
若大于,則確定所述當(dāng)前檢測影院為不可信影院,并將所述影院添加至不可信影院名單,選取下一個(gè)當(dāng)前檢測影院,重復(fù)執(zhí)行上述步驟,直到所述售票系統(tǒng)的多個(gè)影院選取完畢。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述場次票房數(shù)據(jù)列表和所述場次座位占用數(shù)據(jù)列表確定不可信場次數(shù)據(jù)特性,包括:
從所述場次票房數(shù)據(jù)列表中,查找與所述場次座位占用數(shù)據(jù)列表中各個(gè)場次對應(yīng)的場次票房數(shù)據(jù);
分別判斷每個(gè)場次的場次座位占用數(shù)據(jù)與查找到的所述場次的場次票房數(shù)據(jù)的差值是否大于第二預(yù)設(shè)閾值;
若大于,則提取所述場次的場次數(shù)據(jù)特性,并將提取到的所述場次數(shù)據(jù)特性作為不可信場次數(shù)據(jù)特性。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述場次座位占用數(shù)據(jù)進(jìn)行不可信數(shù)據(jù)清洗,得到清洗后的場次座位占用數(shù)據(jù),包括:
根據(jù)所述票房數(shù)據(jù)清洗模型中的不可信影院名單從所述場次座位占用數(shù)據(jù)中剔除不可信影院對應(yīng)的場次占用數(shù)據(jù);和/或,根據(jù)所述票房數(shù)據(jù)清洗模型中的不可信場次數(shù)據(jù)特性從所述場次座位占用數(shù)據(jù)中剔除不可信場次對應(yīng)的場次占用數(shù)據(jù);
將剔除后的場次座位占用數(shù)據(jù)作為清洗后的各個(gè)影院的場次座位占用數(shù)據(jù)。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用所述票房數(shù)據(jù)計(jì)算模型根據(jù)所述清洗后的場次座位占用數(shù)據(jù)分別確定各個(gè)影片截止目前時(shí)刻的當(dāng)日全國票房數(shù)據(jù),包括:
根據(jù)清洗后的場次座位占用數(shù)據(jù)計(jì)算各個(gè)影片的特征參量的實(shí)際數(shù)值,其中,所述特征參量包括以下中的一種或者多種:當(dāng)日抓取的影片的場次數(shù)、當(dāng)日抓取的影片的總場次座位占用數(shù)、前一日抓取的影片的場次數(shù)、或者前一日抓取的影片的總場次座位占用數(shù);
當(dāng)影片為非首映影片時(shí),從票房數(shù)據(jù)計(jì)算模型中調(diào)取所述影片對應(yīng)的特征參量的特征系數(shù),以及當(dāng)影片為首映影片時(shí),將票房數(shù)據(jù)計(jì)算模型中所有首映影片的各個(gè)特征參量的特征系數(shù)的平均值作為所述影片對應(yīng)的各個(gè)特征參量的特征系數(shù);
根據(jù)公式所述各個(gè)特征參量的特征系數(shù)和各個(gè)所述特征參量的實(shí)際數(shù)值,計(jì)算得到所述影片截止目前時(shí)刻的當(dāng)日全國票房數(shù)據(jù),其中,Y表示影片的當(dāng)日全國票房數(shù)據(jù),i表示影片各個(gè)特征參量的序號,wi表示第i個(gè)特征參量對應(yīng)的特征系數(shù),xi表示第i個(gè)特征參量的實(shí)際數(shù)值。
8.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括:
按照第二預(yù)設(shè)時(shí)間間隔定期獲取所述場次票房數(shù)據(jù)列表和所述場次座位占用數(shù)據(jù)列表;
根據(jù)所述場次票房數(shù)據(jù)列表和所述場次座位占用數(shù)據(jù)列表更新不可信影院列表和/或不可信場次數(shù)據(jù)特性;
根據(jù)更新后的不可信影院列表和/或不可信場次數(shù)據(jù)特性更新所述票房數(shù)據(jù)清洗模型;
將所述場次票房數(shù)據(jù)列表和所述場次座位占用數(shù)據(jù)列表輸入至更新后的票房數(shù)據(jù)清洗模型,得到清洗后的場次票房數(shù)據(jù)列表和場次座位占用數(shù)據(jù)列表;
根據(jù)清洗后的場次票房數(shù)據(jù)列表和場次座位占用數(shù)據(jù)列表更新所述票房數(shù)據(jù)計(jì)算模型。
9.一種確定影片的實(shí)時(shí)票房數(shù)據(jù)的裝置,其特征在于,所述裝置包括:
數(shù)據(jù)抓取模塊,用于采用流式滾動抓取數(shù)據(jù)的方式從監(jiān)控的售票系統(tǒng)中抓取當(dāng)日多個(gè)影院的多個(gè)場次座位占用數(shù)據(jù),并將抓取到的所述場次座位占用數(shù)據(jù)依次存入數(shù)據(jù)庫中;
數(shù)據(jù)清洗模塊,用于將所述數(shù)據(jù)庫中的場次座位占用數(shù)據(jù)輸入至預(yù)先訓(xùn)練的票房數(shù)據(jù)清洗模型,對所述場次座位占用數(shù)據(jù)進(jìn)行不可信數(shù)據(jù)清洗,得到清洗后的場次座位占用數(shù)據(jù);
票房確定模塊,用于將清洗后的場次座位占用數(shù)據(jù)輸入至預(yù)先訓(xùn)練的票房數(shù)據(jù)計(jì)算模型,利用所述票房數(shù)據(jù)計(jì)算模型根據(jù)所述清洗后的場次座位占用數(shù)據(jù)分別確定各個(gè)影片截止目前時(shí)刻的當(dāng)日全國票房數(shù)據(jù)。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述裝置還包括:
第一樣本數(shù)據(jù)獲取模塊,用于獲取專資辦發(fā)布的預(yù)設(shè)時(shí)間段內(nèi)所有影院的場次票房數(shù)據(jù)列表,其中,所述場次票房數(shù)據(jù)列表包含上映日期、影院名稱、場次編號、影片名稱、以及票房數(shù)據(jù)的對應(yīng)關(guān)系;
第二樣本數(shù)據(jù)獲取模塊,用于從監(jiān)控的售票系統(tǒng)中抓取所述預(yù)設(shè)時(shí)間段內(nèi)多個(gè)影院的場次座位占用數(shù)據(jù)列表;
不可信數(shù)據(jù)確定模塊,用于根據(jù)所述場次票房數(shù)據(jù)列表和所述場次座位占用數(shù)據(jù)列表確定不可信影院名單;和/或,根據(jù)所述場次票房數(shù)據(jù)列表和所述場次座位占用數(shù)據(jù)列表確定不可信場次數(shù)據(jù)特性;
清洗模型訓(xùn)練模塊,用于根據(jù)所述不可信影院名單和/或所述不可信場次數(shù)據(jù)特性訓(xùn)練得到票房數(shù)據(jù)清洗模型;
訓(xùn)練樣本清洗模塊,用于將所述場次票房數(shù)據(jù)列表和所述場次座位占用數(shù)據(jù)列表輸入至所述票房數(shù)據(jù)清洗模型,得到清洗后的場次票房數(shù)據(jù)列表和場次座位占用數(shù)據(jù)列表;
票房計(jì)算模型訓(xùn)練模塊,用于根據(jù)清洗后的場次票房數(shù)據(jù)列表和場次座位占用數(shù)據(jù)列表訓(xùn)練得到票房數(shù)據(jù)計(jì)算模型,其中,所述票房數(shù)據(jù)計(jì)算模型包含每部影片的各個(gè)特征參量對應(yīng)的特征系數(shù)。