视频教程——云采集引擎的认识和初级操作

0 讨 论 441 浏览量 云采集引擎

元数据直播学堂-第一讲 复习资料

知识点:什么是数据采集,配置数据采集的三个步骤,如何配置规则,配置规则的注意事项,如何开始采集,如何下载采集数据,如何搜索现成的数据源

1.  什么是数据采集
    用计算机代替人工采集网络上公布的公开数据。

2.  配置数据采集的三个步骤
    1.  配置入口链接
         列表页,包含所有需要抓取页面链接的页面
    2.  配置链接获取
         列表页中的全部详情页面链接
    3.  配置字段获取
         详情页面中你需要抓取的信息

3.  如何配置规则
    1.  点击调试下载页面全部内容
    2.  找到需要抓取的内容,复制前后的html标签(尖括号里面的内容)
    3.  将前后html标签复制到规则中,中间使用str1和str2中的按钮点击替换,表示要抓取的内容

4.  配置规则的注意事项
    1.  所有的空格和回车都要用*替换
    2.  需要的内容使用str1和str2中的按钮点击替换
    3.  如果遇到str1和str2中的按钮点击替换和*连起来的情况,删除*
    4.  配置完成,点击调试测试是否抓取成功

5.  如何开始采集
    1.  提交发布,跳转到我发布的数据源
    2.  找到新创建的数据源,状态应该是索引中,点击右边的第二个调试按钮完成三次测试下载
    3.  测试成功返回,确认抓取的数据有没有问题
    4.  确认没问题后,点击右边五个按钮的第一个,开始云采集

6.  如何下载采集数据
    在数据预览的下面有导出按钮能直接导出数据,也提供了api的形式可以通过调用下载数据。

7.  如何搜索现成的数据源
    进入交易大厅,在左边有数据源市场,在市场中直接搜索你需要数据的关键字即可。

 

Finndy Copyright©2017 | Powered by Q2A

...