数据链接——链接配置——高级配置

0 讨 论 326 浏览量 数据链接

高级配置
数据链接URL[包含 或 剔除]规则 [可选]
包含规则:

数据链接URL包含指链接中必须包含符合规则的字符串,将不符合规则字符的URL链接从解析出的链接列表中去掉。例如原本链接列表的有10条链接,其中包含8条为:www.x.com/2016/xxx.html类型链接,2条为:www.x.com/2015/xxx.html,那么如果只需要包含前者2016类型的链接,可以设定规则字符为:2016即可。区分大小写。多个字符可用 | 通配符隔开

剔除规则:

数据链接URL剔除指将符合规则字符的URL链接从解析出的链接列表中去掉。例如原本链接列表的有10条链接,其中包含1条为:www.x.com/?from=abcde,那么如果不想采集该链接,可以设定规则字符为:from=abcde即可。区分大小写。多个字符可用 | 通配符隔开

通配符: ( * ),( | )

无通配符

示例1:

数据链接URL[包含 或 剔除]规则:

book

点击调试 也可在Debug URL中填写指定的链接如:

http://www.ituring.com.cn/book/1421

再次点击调试 数据链接URL[包含 或 剔除]规则处理后不为空的话,表示匹配到了数据 数据链接URL包含规则处理"后"链接为 如下: (代码内同太多,省略号处表示部分内同)

/account/register?returnUrl=%2Fbook%2F1421
...
/account/logon?ReturnUrl=%2Fbook%2F1421
/book/vote/1421
/book/fav/1421
#ebook
/book/tagged/2766
/book/1833
/book/1800
...

数据链接URL剔除规则处理"后"链接为 如下:

(空)

表示没有不包含book的url链接

通配符( * )使用,示例2:

数据链接URL[包含 或 剔除]规则:

book/*=update

点击调试 数据链接URL包含规则处理"后"链接为 如下:

/book/ebook?sort=updated

数据链接URL剔除规则处理"后"链接为 如下:

/account/register?returnUrl=%2Fbook%2F1421
...
/book/vote/1421
/book/fav/1421
#ebook
/book/tagged/2766
/book/tagged/3629
/book/tagged/4770
/book/tagged/5331
...
结果为不包含/book/ebook?sort=updated剩下所有的链接

通配符( | )使用,示例3:

数据链接URL[包含 或 剔除]规则:

book|user

点击调试 数据链接URL包含规则处理"后"链接为 如下:

/account/register?returnUrl=%2Fbook%2F1421
/account/logon?returnUrl=%2Fbook%2F1421
...
/account/logon?ReturnUrl=%2Fbook%2F1421
/users/150786
#ebook
/book/tagged/2766
...
/users/179293
/users/194776

数据链接URL剔除规则处理"后"链接为 如下:

(空)

表示没有不包含book或者user的url链接

数据链接URL包含

指链接中必须包含符合规则的字符串,将不符合规则字符的URL链接从解析出的链接列表中去掉。

数据链接URL剔除

指将符合规则字符的URL链接从解析出的链接列表中去掉。

数据链接URL过滤规则 [可选]

数据链接URL过滤指将解析出的链接列表中包含的规则字符去掉,但不剔除该链接。例如原本链接列表的有10条链接,格式形如:www.x.com/2016/xxx.html,如果想过滤所有链接中的2016/路径,可以设定规则字符为:2016/即可。区分大小写。多个字符可用 | 通配符隔开

通配符: ( * ),( | )

匹配规则和上面的一样。只是过滤规则不会剔除链接,只是将字符去掉

示例4:

数据链接URL过滤规则:

user

过滤后的结果 如下:

/account/register?returnUrl=%2Fbook%2F1421
...
/article/65948
...
/s/169828
/s/3549
/s/161679
...
/book/1674
/book/1673
/s/guaguacode
/article/13723
/article/36644

过滤后的结果不包含user这几个字符如:/users/179293 变为 /s/179293

数据链接URL过滤指将解析出的链接列表中包含的规则字符去掉,但不剔除该链接。

补充前缀:

数据链接补充前缀可将上文解析处理后的URL均加上字符串前缀。支持使用 [entryurl] 通配入口URL。数据链接首个#后作为下文使用的通配符 [poundstr] ,可在后续各字段识别规则(包括自定义脚本规则)中使用,用于实现单页循环或表格类数据采集

补充前缀:不填写时系统将自动识别。会将网站域名填充上去

补充后缀:

补充后缀指在以上链接后面加上字符串后缀。其中#POSTFIELDS=用于下文内容字段POST请求使用

补充前缀,示例5:

数据链接URL补充前缀:

http://baidu.com

数据链接URL补充前缀结果 如下(代码内同太多,省略号处表示部分内同)

http://baidu.com/account/register?returnUrl=%2Fbook%2F1421
http://baidu.com/account/logon?returnUrl=%2Fbook%2F1421
http://baidu.com/
http://baidu.com/book/ebook?sort=updated
http://baidu.com/book
...
数据链接URL补充前缀会将你所填写的地址补充到前面

补充后缀,示例6:

数据链接URL补充后缀:

#POSTFIELDS=test

数据链接URL补充后缀结果 如下(代码内同太多,省略号处表示部分内同)**
http://www.ituring.com.cn/account/register?returnUrl=%2Fbook%2F1421#POSTFIELDS=test
http://www.ituring.com.cn/account/logon?returnUrl=%2Fbook%2F1421#POSTFIELDS=test
http://www.ituring.com.cn/#POSTFIELDS=test
http://www.ituring.com.cn/book/ebook?sort=updated#POSTFIELDS=test
...

数据链接URL补充后缀会将你所填写的内同补充到后面

数据链接补充前缀可将上文解析处理后的URL均加上字符串前缀。

数据链接自定义脚本

需要一定编程基础,详情请看自定义脚本

数据倒序采集,默认:否

抓取信息的顺序,默认否,需要从历史(从后向前)开始可以选择是

手动指定数据链接URL [可选],通配符: [yyyy],[yy],[mm],[dd]

是否允许数据链接重复,默认: 不允许重复

默认进行系统去重。如需单个源不去重,可通过上面链接补充后缀添加#源ID及5位随机字符串(如#123abcde)来实现

Finndy Copyright©2017 | Powered by Q2A

...