数据链接——链接配置——基础配置

0 讨 论 331 浏览量 数据链接

基础配置

目标数据源编码 [可选]

数据源编码指在采集的数据字符编码,如在HTML源文件里的标签是charset。一般可以在源文件中搜索“charset”得到。通常网页的编码有:utf-8/gbk/gb2312/big5等,留空则默认为utf-8。如果这里填写的和采集目标页面的编码不一致时,可能会出现乱码。注意:如果列表页和数据字段页编码不一致的话,一般只需填写数据字段页编码

常用编码: utf-8/gbk/gb2312/big5 默认编码: utf-8

列表区域识别规则 [可选]

列表区域识别规则,指预先制定一个区域,只有在这个区域里的URL链接才会被识别出来,作为下文的采集对象。规则采用前后截取式,可带一个模糊匹配符(*)。想要采集的区域用[list] 来代替。区域识别用于从全部数据中提取一块内容,缩小范围便于下文使用。注意留空时不要留有空格

格式为: STR1[list]STR2 通配符: (*) 如果不填写将获取全文内容

列表区域识别规则:

<table class="table table-striped">[list]</table>

带有通配符的列表区域识别规则:

<table class="table *>[list]</table>

点击调试 也可在Debug URL中填写指定的链接如:

再次点击调试 识别后内容不为空的话,表示匹配到了数据 识别后有内容,区域源码 如下: (代码内同太多,省略号处表示部分内同)
<tr>
    <td>
         <a href="/article/110853">
             声 明
         </a>

         </td>
         <td>
         <a href="/article/110853"><span class="code">阅读</span></a>
         </td>
              </tr>
              <tr>
              <td>
                      <a href="/article/110929">
                          前 言
                      </a>

              </td>
          <td>


        ...
  </td>
</tr>

数据链接url识别规则 [可选]

数据链接URL指下文提取标签数据的字段入口链接。识别规则采用前后截取式,支持任意字符通配符(*)和数据入口链接通配符 [entryurl] 。符合规则的所有URL将被作为采集对象。想要采集的URL用 [url] 来代替。例如:数据链接URL识别规则为<div class='fm-movie-title'>*<a href='[url]/'>。这是表示以<div class='fm-movie-title'>开始,中间可以间隔任意内容,包括回车直至下一个以<a href='开始,以/'>结束的字符串,即为数据链接URL

格式为: STR1[url]STR2 通配符: (*) 如果不填写将获取全部链接

数据链接URL识别规则:

<a href="[url]">*</a>

点击调试 也可在Debug URL中填写指定的链接如:

再次点击调试 识别后内容不为空的话,表示匹配到了数据 识别后内同如下:

/article/110853
/article/110929
/article/60223
/article/60224
/article/60275
/article/65948
/article/66278
/article/72772
...

像这种不完整的url需要配合高级配置里面的 数据链接URL补充前缀 来补全链接地址

Finndy Copyright©2017 | Powered by Q2A

...