一、采集配置简介

采集配置用于制定在方案中可重用的采集规则,采集规则确定采集的来源、内容以及对内容进行加工,一个方案中必须选择一个采集规则;

由于采集对象网站的网页格式很可能发生变动,所以采集规则无法永久有效,需要根据情况修改;

 

二、规则管理

1、规则树;

打开采集配置窗口,左侧的树形目录即为规则列表树,分为规则分组和规则名称两级,见图示1:


(图示1)

 

 

2、操作菜单;

在规则树分组名上或规则名上点鼠标右键,可弹出对应操作菜单;

 

A、在分组名上点鼠标右键,弹出分组操作菜单,见图示2:


(图示2)

 

新建分组:点击弹出菜单上的‘添加组’,可新建一个分组,规则树需要至少一个分组;

 

新建规则:点击弹出菜单上的‘添加规则’,可新建一个采集规则,规则必须建立在分组之下;

 

分组更名:点击弹出菜单上的‘重命名’,可修改分组名称;在分组名称上双击鼠标左键,也可以进入修改状态;

 

删除分组:当分组下没有采集规则时,弹出菜单上的‘删除’项可用,点击可删除规则分组;

 

导入规则:点击弹出菜单上的‘导入’,可使用规则文本导入一个规则到该分组;

 

 

B、在规则名上点鼠标右键,弹出规则操作菜单,见图示3:


(图示3)

 

与分组菜单相比,除了‘重命名’、‘删除’是对应选中规则外,规则操作菜单还多了几项功能,如下:

 

复制规则:点击弹出菜单上的‘复制规则’,可将当前选中规则复制一份到当前分组下;

 

导出规则:点击弹出菜单上的‘导出’,可将当前选中规则导出为规则文本;

 

 

3、导入导出;

规则的导入导出为与其他用户交流规则提供了方便的途径;

A、点击规则树操作菜单上的‘导入’,弹出导入窗口,见图示4:


(图示4)

导入方式1:将规则文本复制后粘贴到导入窗口中的编辑栏,然后点‘导入’按钮;

导入方式2:打开导入窗口的‘文件’菜单,选择‘打开’,在电脑里找到规则文档并打开,然后点‘导入’按钮;

 

 

B、点击规则树菜单上的‘导出’,弹出导出窗口,见图示5:


(图示5)

导出方式1:直接复制编辑栏里的规则文本;

导出方式2:打开导出窗口的‘文件’菜单,选择‘保存为’,将规则文本保存为文档;

 

 

三、规则设置区

采集配置窗口右侧是采集规则设置区,共有八个设置页,见图示6:


(图示6)

 

 

 

四、规则测试工具

采集规则设置区右上角是规则测试工具按钮,见图示7:


(图示7)

点击测试工具按钮,可以进入规则测试窗口,见图示8:


(图示8)

在窗口上方的‘规则’栏输入待测试规则,在下方的‘网页源码’栏输入对象目标网页源代码,然后点击‘测试’按钮,可观察到规则执行结果,见图示9:


(图示9)

 

测试选项

忽略大小写:规则可忽略字母大小写;

全局:显示所有匹配规则的结果,如果不选,仅显示第一个结果;

 

规则测试窗口非模式窗口,打开后不影响对采集配置窗口的操作,可以将其拖曳到屏幕其他位置,避免遮蔽采集配置窗口;

 

 

 

 

 

相关主题

1、采集工作流程