文字实例——拉钩网_上海_招聘信息爬取

1 讨 论 691 浏览量 云采集引擎

拉钩网_上海_招聘信息爬取
1.由于拉勾网是以js接口形式拉取数据的。所以接口地址要自己搞定。上海招聘信息的接口网址如下:

2.我们现在要获取每个职位的详情页地址。打开上面的连接可以看到内容是以json格式展示的。但是我们并不用 关心他的格式。我们专注于要获取他的什么内容就好。

经过查找发现positionId后面的内容就是这个职位详情页的连接地址。

于是数据URL识别规则填写如下:

"positionId":[url],

获取完毕之后发现这个获取的不适完整的地址。怎么办?

我们点开拉勾网上的任意一个职位。然后看看前面的连接是http://www.lagou.com/jobs/。后面结尾是.html。

嗯 知道这个了 拿我们就自己动手拼接出来一个完整的url吧。

数据链接URL补充前缀:

数据链接URL补充后缀:

.html

然后点击调试,一切ok! 继续下一步。

3.连接有了现在看看我们想要获取哪些字段了。比如 职位名称,工资薪水,职位描述,任职要求这些。。。自己想采集什么自己选择。

我现在想先吧职位名称采集了。一看网站标题不就是职位么不过后面过了个拉勾网几个字。

于是数据标题规则可以写为:

<title>[subject]</title>

数据标题过滤规则:

-拉勾网

好了没有多余的几个字了。职位也有了。 职位描述该有吧。要不然怎么看。。。

4.继续职位描述:

检查一番之后发现在<dd>和</dd>这两个标签里面包含着。 于是数据内容识别规则为:

<dd class="job_bt">[message]</dd>

获取到职位了一看内同在好多标签里面包含着。看起来还是不舒服。那就过滤一下吧。

数据内容过滤规则为:

<*>

表示过滤所有包含此格式<*>的内同。

再看看获取到的职位描述。嗯清爽多了!

5.其他字段获取:

比如你比较关心这家是做什么的。也就是所在的领域是什么。再看看网页,有一个地方显示了这家公司所在的领域。

转到扩展字段 点击extfiled1(因为领域后面的内同只有十几个这个字段足够了)。

查看网页源代码然后扩展字段1识别规则这么写:

<span>领域</span>[extfield1]</li>

点击一下调试,嗯有了。。。

继续其他字段 比如规模,目前阶段,主页地址啊自己来吧。。。

配置完之后记得保存,提交。

__END__

Finndy Copyright©2017 | Powered by Q2A

...