一、选择工作方案
工作方案包含了从来源获取原始信息、信息加工处理、最终发布到目标网站一系列工作的全部设定指令,是ET进行自动采集工作的指挥官,当制定好我们需要的方案后(方案制订见 用户手册 - 设置篇),即可在主窗口选择工作方案,开始采集工作。
1、认识方案区;
主窗口左侧上方的树形目录区即为方案区,点击鼠标右键,弹出操作菜单,见图示1:
(图示1)
2、勾选方案;
点击方案名前的选择框,选中将要执行的方案,可以多选,见图示2:
(图示2)
如果所选方案缺少关键性配置,将显示提示,并将取消选中,见图示3:
(图示3)
ET工作时,将首先从当前的焦点方案开始执行,即蓝色反亮显示的方案,见图示4中的‘网站-discuz 6.0(带回复)’:
(图示4)
选中的多个方案,将循环执行。
在主窗口右侧上方的文章列表区,将显示勾选的焦点方案的待处理文章。
在方案名称上点右键,弹出菜单见图示:
点编辑方案,会进入该方案编辑窗口;
双击方案名称,也可以直接进入该方案编辑窗口。
二、自动工作
选择好将要执行的工作方案后,点击主窗口左侧下方的‘自动’按钮,即可开始全自动工作,用户从此时起可以扔掉鼠标键盘、抛开繁累的网站更新,与朋友结伴出游,网站内容自有ET为您默默收集更新,见图示5:
(图示5)
要停止自动工作,请点击‘停止’按钮;
ET支持命令行启动,参数 /auto 可启动自动工作,命令行使用示例:d:\editortools.exe /auto
三、手动工作
在进行方案调试时,通常会使用手动方式进行采集操作。
1、采集目录;
点击主窗口左侧下方的‘采集目录’按钮,ET将对当前选中的焦点方案执行目录采集动作,若无焦点方案则按顺序执行,见图示6:
(图示6)
采集到的目录信息则显示在主窗口右侧上方的文章列表区,见图示7:
(图示7)
注意:当方案的采集规则有修改时,会自动清空未发布文章,包括发送失败的文章,以避免用户继续使用错误的文章条目来采集。
2、处理文章;
当文章列表区中有待处理文章时,点击主窗口左侧下方的‘处理文章’按钮,将按顺序对文章列表区的第一项待处理文章执行采集动作,见图示8:
(图示8)
文章处理过程中,在主窗口右侧下方的信息区,将显示工作记录,见图示9:
(图示9)
处理结束后,文章列表区的对应条目将显示处理的状态,见图示10:
(图示10)
3、另一种手动处理文章方式;
在文章列表区,双击某项文章条目,将对该篇文章执行采集动作,无论这篇文章是否已经被处理。
四、认识文章列表区
主窗口右侧上方的表格区域,即是文章列表区,这里显示所执行方案的待处理文章,见图示7。
1、文章列表区各列说明;
文章采集标题:这是通过采集规则-列表分析规则获取的文章标题,如果该采集规则未再设置标题数据项的分析规则,那么ET将使用此处的文章采集标题作为发布标题,文章采集标题可更改,点击标题后的省略号按钮 可进入编辑状态。
状态-发送:当该项值为YES时,表示该篇文章已成功发布;
状态-敏感:当该项值为YES时,表示该篇文章正文包含敏感关键词;
状态-错误:0表示无错误,其他错误代码含义请参考相关主题;
状态-处理:打勾的文章条目表示已经执行过,您可以通过点击取消勾选,使它被再次执行;
2、转换显示编码;
在文章列表区上点右键,将弹出编码菜单,见图示11:
(图示11)
3、双击执行文章采集;
在上一部分已经讲过,可以在文章列表区,双击某篇文章条目,以执行对它的采集;
4、浏览按钮;
点击文章条目的浏览按钮,可以访问该篇文章网址,用于确认网址是否正确、查看网页源代码等,见图示12:
(图示12)
五、认识信息栏
信息栏用于跟踪执行过程、反馈各种信息,是了解ET工作情况、解决采集所遇问题的重要工具,见图示9。
1、工作记录:
该栏记录ET的每一步工作过程及状态,包括目录采集和文章处理两大部分,我们通过工作记录可以了解该次采集执行是否正确完成,或是出现了什么问题;当出现问题时,可以根据提示、结合信息栏的其他反馈内容,用户可以迅速准确地找到故障原因并予解决。
2、采集源码:
此栏显示执行过程中所采集的文章列表页、文章页面、文章分页等的网页源代码,利用此栏源代码,可以方便的进行规则测试、提供规则定制依据。
注意,某些网站会根据不同来访浏览器而显示不同的源代码,所以,ET的采集规则定制时,应以此栏的源代码为准,例如采集规则范例中的‘SMF 1.1.5’,其网站通过IE访问和ET采集获取到的源码就有区别。
3、分析数据:
此栏显示文章处理过程中的各个数据项信息,从分析到的原始代码,到整理后的代码,再到经过URL修正后的代码,用户通过查看此栏,可以了解设置的数据项分析规则是否准确、整理组规则是否完善、最终的信息是否符合自己的要求。
例如:当工作记录栏提示错误‘正文字数大于或小于发布设置’时,我们可以查看本栏的‘正文’数据项,了解具体是大于还是小于发布设置,原因是正常还是因为整理组设置不当,从而调整各个设置。
4、发送代码:
此栏显示ET向发布网站发送的数据,包括文章检查部分和文章发布部分;
用户可以通过此栏信息了解通过一系列分析、整理操作,最终向发布网站提交的数据,用以检查自己的采集规则数据项、发布规则的参数设置等是否正确、完整。
5、返回信息:
此栏显示ET向发布网站发送数据后发布网站的反馈,包括文章检查反馈和文章发布反馈;
通过查看此栏,我们可以清晰的了解当采集过程出现问题时的大部分原因。
一些接口在返回错误信息时,信息可能是HTML代码,不熟悉HTML代码的用户阅读比较吃力,点击WEB浏览按钮,可以在操作系统默认浏览器中方便的查看它们,见图示: