元数据直播学堂-第一讲 复习资料
知识点:什么是数据采集,配置数据采集的三个步骤,如何配置规则,配置规则的注意事项,如何开始采集,如何下载采集数据,如何搜索现成的数据源
1. 什么是数据采集
用计算机代替人工采集网络上公布的公开数据。
2. 配置数据采集的三个步骤
1. 配置入口链接
列表页,包含所有需要抓取页面链接的页面
2. 配置链接获取
列表页中的全部详情页面链接
3. 配置字段获取
详情页面中你需要抓取的信息
3. 如何配置规则
1. 点击调试下载页面全部内容
2. 找到需要抓取的内容,复制前后的html标签(尖括号里面的内容)
3. 将前后html标签复制到规则中,中间使用str1和str2中的按钮点击替换,表示要抓取的内容
4. 配置规则的注意事项
1. 所有的空格和回车都要用*替换
2. 需要的内容使用str1和str2中的按钮点击替换
3. 如果遇到str1和str2中的按钮点击替换和*连起来的情况,删除*
4. 配置完成,点击调试测试是否抓取成功
5. 如何开始采集
1. 提交发布,跳转到我发布的数据源
2. 找到新创建的数据源,状态应该是索引中,点击右边的第二个调试按钮完成三次测试下载
3. 测试成功返回,确认抓取的数据有没有问题
4. 确认没问题后,点击右边五个按钮的第一个,开始云采集
6. 如何下载采集数据
在数据预览的下面有导出按钮能直接导出数据,也提供了api的形式可以通过调用下载数据。
7. 如何搜索现成的数据源
进入交易大厅,在左边有数据源市场,在市场中直接搜索你需要数据的关键字即可。