一、规则设置-基本设置页
1、说明
[基本设置页]包括采集规则中关于采集顺序、数量、标题范围等内容的设置,见图示;
2、网址编码
通常用于访问网页的网址都需要经过HTTP编码才能正常访问,此项用于特殊的不需要对URL进行HTTP编码才能访问的网址,见图示:
注:2.6.1版后,如果网页编码选择为UTF8,那么网址进行HTTP编码时会将参数先转为UTF8编码字符。
3、压缩网页
采集使用了gzip等压缩模式的网站时,使用本项可提高采集速度,见图示:
4、启用缓存
一些网站使用了缓存技术来进行提高访问速度,采集这类网站需要启用缓存功能,见图示:
本功能为2.4版新增。
5、GET/POST混合模式
在访问网页时,将同时使用GET方式和POST方式提交参数,见图示:
6、启用SSL
在访问网址时,强制使用SSL安全连接。
当网站以重定向等隐藏方式使用HTTPS网址时,可勾选本项强制使用SSL安全连接访问网页;对于显式的HTTPS网址,无须启用本项,系统会自动使用SSL安全连接。
注:非HTTPS网址启用本项会影响访问速度
7、网页编码
自动识别可判断大部分网站的编码,但有些网站的网页编码指示代码与实际网页编码不符,造成自动识别误判错误,可在此处做准确设置,见图示:
8、采集页包含HTTP头信息
ET采集3.0.18版新增,启用本功能时,采集文章各网页将会在网页源码前加上HTTP响应头信息,选项见图示:
HTTP响应头信息见图示:
9、采集顺序
采集顺序用于控制ET采集文章列表时的方向,通常网页上的文章列表是按时间倒序排列的,因此默认顺序为‘自下向上’,见图示:
勾选随机乱序时,将不按顺序,而是从列表随机采集文章。
10、采集条目数量
用于控制ET每次从文章列表页采集文章条目的数量,见图示:
全部:选择全部则采集符合采集设置的该列表页全部条目,不限数量;
数量:设置数量,则每次仅按顺序采集规定数量的文章条目;
11、访问延时
用于设置采集一篇文章时每一次访问网页的间隔时间,可延缓对文章分页、文件下载的采集频率,避免访问过快被对象站点拒绝,见图示:
12、标题字数
用于设置采集的文章条目标题字数范围,仅字数符合的文章条目被采集,见图示:
13、有效网址HTML属性名
[有效网址HTML属性名]为必填项,用以指定在网页源代码中,什么HTML属性参数的值为网址,系统会据此判断并自动修正相对网址为完整网址,见图示:
默认的包含有效网址的HTML标记属性名包括href 、src 、data、value等,多个属性参数名请以换行分隔;
14、网址修正例外
[网址修正例外]为选填项,用以在进行网址自动修正补全时,指定包含以下字符串的网址将不会被自动修正,见图示:
常见不需要修正的链接如:用于表示邮箱地址的"mailto:"、用于运行脚本命令的"javascript: "等;
字符串不区分大小写,多项请以换行分隔;
本项功能作用于HTML标签中的链接参数,即"有效网址HTML属性名"所影响的链接,以及选择了"作为下载文件"属性的数据项的值。