功能实例——通过二级列表功能采集不同url数据

0 讨 论 436 浏览量 云采集引擎

数据采集过程中我们有时会遇到一个页面信息通过不同url传递到浏览器的情况

比如:http://www.gpai.net/sf/item.do?Web_Item_ID=2329

上面这个页面的成交价格信息在另一个url里面

这种时候我们需要先通过浏览器抓包确认传递信息的url链接(如何用浏览器自带的开发者功能抓包)

通过抓包我们可以找到传递成交价格的url是:http://www.gpai.net/sf/Item_Ajax.do?Web_Item_ID=2329

然后介绍如何通过一个数据源完成数据采集

首先创建一个数据源,然后将列表页链接放在入口配置中,然后点击下面的启用二级列表

点击二级列表之后会出现二级列表的选项,点击进入二级列表

进入二级列表之后点击启用按钮,然后配置识别规则获取到url如何完成链接配置

通过url识别获取到url的关键字之后,通过补充前缀的功能,配置采集成交价格的链接

配置完成之后,进入链接配置

在连接配置中,通过url识别规则采集需要的数据,这里我采集了成交价格

获取完成数据之后,通过补充前缀将之前使用的链接和采集的数据拼接起来

[entryurl]表示采集的url链接,#用来分割链接和数据

完成之后通过自定义脚本完成url链接的修改,将采集成交价格的链接修改成详情页链接(自定义脚本替换功能)

配置完成之后就可以进入字段配置正常采集详情页的信息了

如果需要使用成交价格的时候直接在字段配置中使用[poundstr]调用即可

实际样例:通过二级列表功能采集不同url数据(样例)

 

Finndy Copyright©2017 | Powered by Q2A

...