一、登录设置页简介
1、说明
一些网站需要登录后才能访问其内容页面,采集这类网站时,我们需要设置它的本地保存登录信息即Cookies,见图示1:
(图示1)
网站分发的Cookies都有有效时间,在登录时,请选择最长的Cookies保持时间;
部分网站会验证Cookies信息的时效性,因此,遇到此类网站,请在编辑好Cookies后,不要使用其他浏览器在该网站执行登出、登录等操作,否则会导致保存的Cookies失效。
注意:某些网站虽然不要求登录访问,但仍然需要设置cookies才能正确采集内容,例如;http://bbs.soufun.com;
二、登录访问网址
[登录访问网址]通常由ET自动从 采集配置-列表设置 中获取,用于提供登录窗口所访问的网址,用户也可以自行修改,见图示2:
(图示2)
设置[登录访问网址]是为了尽量获取完整的Cookies,因此选择对象网站的登录页网址、列表页网址或文章发布网址最佳;
三、登录获取
点击登录获取Cookies按钮将弹出一个访问网页的窗口,这个窗口被用来获取当前网址的Cookies,见图示3;
(图示3)
用户在此登录窗口中,登录该网站,以便获取Cookies访问采集对象页;
通常登录后记录浏览到文章列表页或文章发布页能获得最完整的Cookies;
当窗口下方的Cookies栏显示如图示4时,表示正在执行Cookies获取过程,这时请勿关闭窗口;
(图示4)
Cookies栏显示如图示5时,表示已经获取到了Cookies,请点击[获取独立cookies]按钮保存Cookies;
(图示5)
用户在ET中登录后,应在IE中访问该网站检查是否保持了登陆状态;windows的默认浏览器应设为IE,设为其他内核的浏览器可能导致各种不正常状况出现;
注意,菜单-系统-基本设置中的USERAGENT应为你获取COOKIES相同的浏览器USERAGENT,否则可能因为不一致而导致采集某些需登录访问的网站失败。
四、当前Cookies
[编辑Cookies]项用于显示和编辑登录网址对应的Cookies,见图示6:
(图示6)
[编辑Cookies]适用于ET通过登录获取Cookies未能自动获取完整Cookies的情况,通常我们可以使用一些抓包工具查看完整Cookies,如HTTPAnalyzer、网管大师等;