推广 热搜: 行业  机械  设备    教师  经纪  系统  参数    蒸汽 

应用爬虫技术有效获取网上价格数据——基于居民消费价格调查中飞机票价格采集的案例研究

   日期:2024-11-11     移动:http://changmeillh.xhstdz.com/mobile/quote/78084.html
应用爬虫技术有效获取网上价格数据
——基于居民消费价格调查中飞机票价格采集的案例研究
内容提要:现代信息技术推动电商迅速发展,为价格统计提供了丰富的数据源,爬虫技术为获取网上价格数据提供了技术支撑,利用爬虫技术获取网上价格数据创新CPI调查采集方式具有可行性和重要意义。本文基于爬虫技术获取的网上价格数据,以飞机票价格为突破点,探讨如何更好地将网上价格数据应用于CPI数据采集和指数编制中,并尝试形成一套行之有效的使用大数据的方法,推动新形势下价格统计发展。

应用爬虫技术有效获取网上价格数据——基于居民消费价格调查中飞机票价格采集的案例研究

一、研究背景和意义

现代信息技术快速发展,网上交易规模不断增长产生了巨大的交易数据,将网上交易价格数据纳入CPI指数编制成为更全面、科学反映价格变动趋势的必然要求。网上交易价格数据具有可获得、信息量大等特点,有助于增加价格调查内容和提高采价效率,提高调查的精准性;与人工采价相比,能减少误差,丰富数据源,对促进政府统计工作高质量发展具有重要实践意义。

二、爬虫技术获取的网上机票价格数据应用实证研究

利用爬虫技术在一定意义上可获取全部数据,但在实践中,获取大量数据时易受到服务器等资源限制,耗时较长。为提高统计效率,在将其应用于CPI时可选取部分数据来代表全部数据的特征。实证研究的目的是根据网上飞机票价格特征,从获取的全部数据中确定相对经济高效的数据量,从而最大程度反映全部数据信息。

(一)飞机票价格特征定性研究

飞机票的定价机制分为政府指导价和市场调节价。政府指导价根据《民航国内航空运输价格改革方案》及一系列调整价格方案制定;市场调节价由航空公司根据市场和竞争情况自行制定。飞机票销售模式分为直销和分销。直销是航空公司通过自建渠道直接销售,分销是通过第三方渠道销售。飞机票价格受居民消费行为影响波动明显。因公消费者购票期比较临近出发日期,短航线通常集中在3 天内,长航线3到5天,因私消费者购票期相对出发日期较远,价格敏感,节假日出行集中。不管因公还是因私,居民均会提前一段时间购买飞机票。

(二)飞机票网上交易价格数据应用于CPI调查的实证研究

数据来源及特征。利用爬虫技术从携程小程序官网抓取飞机票价格数据,抓取时间段为从5月15日起,每5天抓取从北京出发所有航班的经济舱数据,共10次,总计25.4万条数据。字段包括航空公司、出发地、目的地、经济舱价格等信息。经统计,以6月份为例,每天从北京出发的航班数在956-1288个之间;目的地数在109-123个之间;航空公司数量相对固定。

不同提前购票时间下的月、旬和周均价变动情况。根据CPI中飞机票采价方法(即每月5日、15日和25日采集下一旬价格),可确定利用抓取的数据研究分别提前15天、10天和5天时采集下月、旬和周均价并计算全月均价,与全部数据月均价越接近代表性越强。结果显示,提前15天飞机票月均价较高且三种方式差距较大,提前10天和5天三种方式差距较小,其中,提前5天爬取下旬的价格计算月均价最低且价格平稳。日常工作中爬取每周的价格操作相对复杂,且在月初和月末很难分割成完整的一周,数据会存在偏差;提前5天爬取一个月的数据时月初和月末数据时间差异较大。因此,可确定机票数据爬取方式为提前5天爬取下旬的数据。

根据航空公司、目的地等维度确定经济高效的爬取数据量。爬取方式确定后,上中下旬数据量分别为9886条、10403条和10357条,下一步根据机票价格特征寻找既代表性强又经济高效的数据参数和数量。在固定了采集时间后(提前5天采集数据),以总体数据旬均价走势和月均价为标准,根据航空公司规模逐步剔除数据,如剩余数据与全部数据旬均价走势和月均价一致,即可代表总体。分不同航空公司计算旬均价,选取上中下三旬均存在的航空公司,占比较大的有18个(共27个),占总数据量在95%以上,从结果看,占比前3位和前18位的与全部数据旬均价走势一致、月均价相差较小,如果只采集3家航空公司,数据波动较大,需适当增加航空公司,因此确定采集占比前18位的航空公司价格。确定了选择占比前18位的航空公司后,上中下旬的数据量分别为9768条、10233条和10033条。根据目的地再剔除部分数据,如果与确定的18个航空公司的旬均价走势和月均价基本接近,说明数据代表性高。结果显示,占比前30位的目的地价格走势一致、价格相差较小,上中下旬的数据量分别为7409、7047和7013条。

综上,可确定飞机票价格数据爬取方式为,提前5天采集下一旬数据,采集数据量排名前18位的航空公司中排名前30名的目的地的数据,每旬爬取的数据量在7000条左右。

三、基于爬虫技术获取网上交易数据应用于CPI调查的构想

一是结合实际制定应用计划和方案。包括确定应用爬虫技术的商品类别、爬取数据的基本原则、技术支持方案。

二是以CPI调查制度为遵循爬取数据。方案确定后,由专业技术人员进行数据爬取,由专业统计人员根据《网络交易价格采集操作办法》对特殊情况规范处理。

三是拓展获取的网上交易数据的应用空间。根据CPI调查制度要求,对数据进行清洗、分析和深入挖掘,针对不同类别商品和服务的价格运行特点,确定网上交易数据应用于CPI编制的类别。

四、研究创新点、不足和展望

创新点:分析爬虫技术获取的某一具体类别的网上交易价格数据应用到CPI调查中的方法,为扩展到其他商品或服务类别提供借鉴;政企合作,借助企业成熟的爬虫技术获取数据;探讨与人工网络采集相比,使用爬虫技术获取网上价格数据的优势。

不足:获取的数据时间段较短。本次只爬取了10次历时一个多月的数据,研究中数据可能出现偏差。依靠第三方获取数据,数据来源存在不稳定因素。

研究展望:爬虫技术获取的网上交易数据在CPI中的应用尚处于探索阶段,且CPI包含的基本分类较多。可从某一商品或服务类别入手,探索形成一套行之有效的工作流程和方法,逐步推广到其他商品或服务类别,从而提高统计效率,降低调查成本。

(全文见《中国信息报》2022年5月26日7版)

作者:杨壮 李智沛 杨雪晴 赵书峰 张少驰 李思雨
作者单位:国家统计局北京调查总队
责编:时晓冉
审核:李   琳
终审:陈维强

由于微信公众号近期改变了推送规则,您可在每次阅读后,点击文末右下角的「在看」,这样我们每次新的推送就能第一时间出现在您的订阅列表中啦~


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号