图文实例——微博美食博主搜索列表页面信息采集

0 讨 论 868 浏览量 云采集引擎

微博搜索列表页采集涉及到两个问题:一个是用户登录,第二个就是如何获取一个列表页的多条信息

本实例学习可以结合数据源: 微博搜索美食博主信息采集

数据源创建步骤如下:

第一步,配置基本信息

第二步,入口配置

这里的入口其实就是我们搜索结果的链接

打开微博登陆后查询关键字,然后获取浏览器中的链接

可以看到最后的数字随着页数的增加而递增,所以这里使用自动增长配置

最后的页数部分使用[page]通配符替换,然后在下面设置抓取的范围(这里我抓取了第一页到第五十页的内容)

第三步,链接配置

采集列表页内容和一般采集详情页面配置方法不同。

是通过连接配置获取所有需要采集的关键内容,然后作参数传递到字段配置,通过脚本正则分割获取数据

所以连接配置步骤如下:

首先通过url识别规则获取每个博主的信息内容

然后由于获取的内容不是正常的连接而是数据,这里需要补充一个连接作为前缀访问

一般可以直接设置百度,不会封IP,记得在最后加上一个“#”分割数据和连接

然后大家可以看到上面获取的数据是个unicode编码需要转换,这里可以直接使用现成的自定义脚本:自定义脚本-unicode编码转换

这样连接配置完成之后,列表页采集到的数据就会传递到字段配置

第四步,字段配置

这一步我们要分割获取到的每个字段的信息,比如名称,id,地址,描述等等

首先使用[currenturl]获取到传递过来的所有数据

然后通过自定义脚本的正则处理获取数据

所有字段都通过这个方法获取

最后一步,设置cookie信息

最开始我们说了采集微博搜索列表页有两个问题,一个是列表页多条信息的采集上面已经解决了

第二个就是登陆的问题。

这里需要回到微博搜索的界面,打开开发者选项(F12)

找到我们采集的连接,然后选中,在右边找到头信息中的cookie值

将整个复制出来黏贴到我们的高级功能中,这样云采集就能模拟你的登录信息了

——END——

Finndy Copyright©2017 | Powered by Q2A

...