本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理
以下文章来源于腾讯云 作者:Python进阶者
炎炎夏日,长裤已难以满足广大男生的需求,为了在搬砖和摆摊的过程中增添一丝舒适感,他们开始寻找一种神奇的存在——大裤衩。J哥在种菜的这些日子里也日益感受到大裤衩的重要性,于是,默默打开了淘宝并搜索了大裤衩,但翻了半天也不知道买啥。
无比懊恼的J哥扔掉了手机,打开电脑并爬取了淘宝4403条大裤衩数据,然后进行了可视化分析,并最终找到一条可以入手的大裤衩。本文主要尝试解决以下几个问题:
1.国内哪些地方的大裤衩卖的比较好?
2.大裤衩市场价格是怎样的?
3.哪些店铺大裤衩销量较高?
4.在售的大裤衩具有哪些特点?
数据获取
淘宝网站是一个ajax动态加载的网站,只能通过解析接口或用selenium自动化测试工具去爬取。关于动态网页爬虫,本公众号历史原创文章「实战|Python轻松实现动态网页爬虫(附详细源码)」介绍过,感兴趣的朋友可以了解一下。
本次数据获取采用selenium,由于J哥的谷歌浏览器版本更新较快,导致原来的谷歌驱动失效。于是,我禁用了浏览器自动更新,并下载了对应版本的驱动。
浏览器驱动必须与浏览器版本匹配,否则selenium将失效,这里也给出下载链接: http://chromedriver.storage.googleapis.com/index.html。
接着,J哥利用selenium在淘宝网搜索大裤衩,手机扫码登录,获得了大裤衩的商品名称、商品价格、付款人数、店铺名称、发货地址等信息,最终保存为big_pants.xlsx。限于篇幅,爬虫代码仅给出主函数,感兴趣的朋友可以在公众号后台联系我获取。
部分爬虫代码
数据清洗
短短几分钟就爬下了4403条大裤衩样本数据,为了方便数据分析,还需要对原始数据进行简单清洗。
一.添加列名
二.重复记录处理
三.缺失值处理
四.商品价格字段处理
五.发货地址字段处理
六.付款人数字段处理
七.其他处理
数据可视化
数据清洗干净后,接下来就可以做可视化分析了,本次可视化分析主要用到Python的pyecharts库和BI工具。
对比一下,不难发现这两条大裤衩的区别,一个风度翩翩,一个花里胡哨。作为一名种菜的民工,风度没暖用(主要还是买不起),便宜无好货的认知在开始学种菜的时候就印刻在J哥的脑海里了,于是J哥继续分析。
一、国内哪些地方的大裤衩卖的比较好?
二.大裤衩市场价格是怎样的?
三.哪些店铺大裤衩销量较高?
五.在售的大裤衩具有哪些特点?
六.选择合适的大裤衩
J哥根据以上分析,同时查看了相关的宝贝评价、好评率等指标,综合分析后,终于找到了以下大裤衩并入手。J哥不经感慨,再也不怕种菜的时候热出翔了!