单页表格类循环采集
就是在一个页面内就具有要采集的所有字段。
1.将上面网址添加到数据入口
那么对于单页面我们怎么来配置数据连接呢。
2.数据链接
打开这个网页右键查看源代码。找到charset:
<meta http-equiv="Content-type" content="text/html; charset=GB2312">
嗯,看出来了吧,目标源编码为
再观察下源代码发现里面每一行股票数据都和股票代码有关系,很明显是用股票代码做的标记,而且股票代码唯一。
那我们区分每一行数据就用股票代码了。
在数据链接URL识别规则填写:
target="_blank" class="keyword">[url]</a>
调试结果如下:
600000
600004
600005
600006
...
这里只是获取了这个页面所有股票的代码。用来当作每一个要采集的数据的标记。。。
我们获取的每一个股票代码并不是一个url,要想获取字段的话,引擎是只识别url才会继续采集啊,而我们就是需要一个页面的一些内容。也就是入口页的内容已经满足我们要采集的字段的需求,不用额外的抓取其他url里的内容了。其实这个好办。
在数据链接URL补充前缀填写:
调试结果如下:
这样就获取了每一个股票代码对应的网址,而且这个网址就是我们的入口链接。只是后面加了一些区分标志而已。 这些都好了,那就准备采集字段吧。
3.核心字段
获取股票的名称作为字段的标题,那么数据标题识别规则填写为:
[poundstr]" class="keyword" target="_blank">[subject]</a>
这个[poundstr]是做什么的呢?其实它就是数据连接里面url规则识别的内同,拿到这里用而已。在这里就是600000这个股票代码。 还是看不懂就看看生成的正则表达式。
600000" class\="keyword" target\="_blank"\>\[subject\]\<\/a\>
数据标题有了,内容也是必填的,那就用新浪对这个股票的评价填充吧。数据内容识别规则填写如下:
[poundstr]" title="点击查看该股历史千股千评">[message]</a>
调试下,内容都有了。
然后 点击提交发布。
好了 点击执行试试吧。
__END__