文字实例——单页表格类循环采集

0 讨 论 353 浏览量 云采集引擎

单页表格类循环采集
就是在一个页面内就具有要采集的所有字段。

1.将上面网址添加到数据入口

那么对于单页面我们怎么来配置数据连接呢。

2.数据链接

打开这个网页右键查看源代码。找到charset:

<meta http-equiv="Content-type" content="text/html; charset=GB2312">

嗯,看出来了吧,目标源编码为

GB2312

再观察下源代码发现里面每一行股票数据都和股票代码有关系,很明显是用股票代码做的标记,而且股票代码唯一。

那我们区分每一行数据就用股票代码了。

在数据链接URL识别规则填写:

target="_blank" class="keyword">[url]</a>

调试结果如下:

600000
600004
600005
600006
...

这里只是获取了这个页面所有股票的代码。用来当作每一个要采集的数据的标记。。。

我们获取的每一个股票代码并不是一个url,要想获取字段的话,引擎是只识别url才会继续采集啊,而我们就是需要一个页面的一些内容。也就是入口页的内容已经满足我们要采集的字段的需求,不用额外的抓取其他url里的内容了。其实这个好办。

在数据链接URL补充前缀填写:

调试结果如下:

这样就获取了每一个股票代码对应的网址,而且这个网址就是我们的入口链接。只是后面加了一些区分标志而已。 这些都好了,那就准备采集字段吧。

3.核心字段

获取股票的名称作为字段的标题,那么数据标题识别规则填写为:

[poundstr]" class="keyword" target="_blank">[subject]</a>

这个[poundstr]是做什么的呢?其实它就是数据连接里面url规则识别的内同,拿到这里用而已。在这里就是600000这个股票代码。 还是看不懂就看看生成的正则表达式。

600000" class\="keyword" target\="_blank"\>\[subject\]\<\/a\>

数据标题有了,内容也是必填的,那就用新浪对这个股票的评价填充吧。数据内容识别规则填写如下:

[poundstr]" title="点击查看该股历史千股千评">[message]</a>

调试下,内容都有了。

然后 点击提交发布。

好了 点击执行试试吧。

__END__

Finndy Copyright©2017 | Powered by Q2A

...