微博搜索列表页采集涉及到两个问题:一个是用户登录,第二个就是如何获取一个列表页的多条信息
本实例学习可以结合数据源: 微博搜索美食博主信息采集

数据源创建步骤如下:
第一步,配置基本信息

第二步,入口配置
这里的入口其实就是我们搜索结果的链接
打开微博登陆后查询关键字,然后获取浏览器中的链接

可以看到最后的数字随着页数的增加而递增,所以这里使用自动增长配置

最后的页数部分使用[page]通配符替换,然后在下面设置抓取的范围(这里我抓取了第一页到第五十页的内容)
第三步,链接配置
采集列表页内容和一般采集详情页面配置方法不同。
是通过连接配置获取所有需要采集的关键内容,然后作参数传递到字段配置,通过脚本正则分割获取数据
所以连接配置步骤如下:
首先通过url识别规则获取每个博主的信息内容

然后由于获取的内容不是正常的连接而是数据,这里需要补充一个连接作为前缀访问
一般可以直接设置百度,不会封IP,记得在最后加上一个“#”分割数据和连接

然后大家可以看到上面获取的数据是个unicode编码需要转换,这里可以直接使用现成的自定义脚本:自定义脚本-unicode编码转换

这样连接配置完成之后,列表页采集到的数据就会传递到字段配置
第四步,字段配置
这一步我们要分割获取到的每个字段的信息,比如名称,id,地址,描述等等
首先使用[currenturl]获取到传递过来的所有数据

然后通过自定义脚本的正则处理获取数据

所有字段都通过这个方法获取
最后一步,设置cookie信息
最开始我们说了采集微博搜索列表页有两个问题,一个是列表页多条信息的采集上面已经解决了
第二个就是登陆的问题。
这里需要回到微博搜索的界面,打开开发者选项(F12)

找到我们采集的连接,然后选中,在右边找到头信息中的cookie值
将整个复制出来黏贴到我们的高级功能中,这样云采集就能模拟你的登录信息了

——END——