爬虫初探(六)——批量删除微博

0x01 初步接触动态数据抓取

在开始学爬虫的时候会接触到一些使用普通的抓取方式获取不到的信息

比如京东的任意商品的价格

例如我们想抓取到 白夜行 这本书的价格

代码如下:

运行后会发现抓取到的数据为空

查看源代码的时候会发现源代码中并不存在

所以可以得知我们需要抓取的数据是动态数据

0x02 selenium和phantomjs配合的简单用法

抓取动态数据的方法有多种,使用selenium模拟浏览器进行动态抓取是其中的一种方法,具体的安装与使用请看这里

===> selenium的安装以及使用

接下来是安装phantomjs,phantomjs下载地址 安装的教程也可以百度的到,就不贴出来了

因为使用selenuim进行模拟抓取的时候,会打开浏览器,显得很不方便,所以就使用phantomjs这个“无头浏览器”来模拟页面数据的抓取。

Phantomjs的相关介绍如下:

PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持web而不需浏览器支持,其快速,原生支持各种Web标准: DOM 处理, CSS 选择器, JSON, Canvas, 和 SVG。 PhantomJS 可以用于 页面自动化 , 网络监测 , 网页截屏 ,以及 无界面测试 等。

掌握了selenuim的基本用法之后,就可以开始写代码了

哟呵,大功告成啦~

0x03 批量删除微博

值得一提的是,一开始我是用Phantomjs模拟登陆微博的时候发现使用

使用xpath匹配的方法,有的时候会出现无法点击a标签或者是div标签的情况,为了避免这种情况发生可以通过css选择器选定id属性,然后执行点击动作。为了解决上面的问题,需要在python脚本里执行自己写入的js语句即可,给没有id的标签添加上id属性,通过css选择器选择即可点击。

代码如下

一切准备工作都做好了接下来可以开始写脚本运行啦

运行~大功告成,慢慢删吧~

代码写的很粗糙,欢迎表哥们的指点 ↖(^ω^)↗


发表评论

电子邮件地址不会被公开。 必填项已用*标注