没有列表网址时如何直接采集内容页(单页采集)
有时候我们要采集的网页是个独立的页面,它没有上级列表页,这种情况下,在ET中可以如下设置采集规则:
方法一
1、在列表网址里填写该网页网址;
2、列表区域可以不使用;
3、在列表分析中,使用标题标记等采集所需内容,例如用附加信息标记采集正文;
4、在列表分析中,文章地址标记任意采集一个短小的内容;
5、在列表网址合成中,填写一个可以快速访问的网址(本地网址或www.baidu.com这样的速度快的网址);
以直接采集新闻网页http://www.zzcity.net/news/view.asp?aid=178为例,如图:
6、在ET3中,可以使用指定模式调用列表数据,如图:
7.1、在ET2中,可以用数据整理调用列表数据。第一步:数据项-正文的采集规则里直接填项目内容标记或任意内容,如图:
7.2、第二步:设置正文的数据整理,将正文内容替换为列表分析中用来采集正文的标记,例如前面图示中使用附加信息1标记标记来采集正文,如图:
方法二
1、列表网址,随便填一个访问速度很快的网页,或者填一个本地txt文件地址;
2、自动列表、列表区域不用设置;
3、列表分析,针对列表网址所填的地址的内容设置一个简单的规则,要使用文章地址标记,文章地址标记的分析结果可以是任意内容,因为它不会被使用,但这个分析规则必须有效,最好文章地址标记只匹配一个结果(如果有多个结果,可以在采集配置-基本设置里设置采集条目数量为1条);
4、文章网址合成,在这里填上你要采集的页面网址;
5、其他配置同一般采集规则;
以直接采集新闻网页http://www.zzcity.net/news/view.asp?aid=178为例,如图:
方法三
如果这样的网页数量较多,但样式相同,我们可以在本地建一个txt文档,将这些网页地址放入其中,将这个txt文档的本地地址作为列表网址,来配置采集即可。
因为ET支持访问本地路径,例如:d:/list.txt
方法四
如果采集的网页有参数变化,可以在本地站点或网站里建立一个页面用于生成目标内容网址,如图:
然后将这个生成页面地址作为列表网址采集即可,如图:
实现的方法多种多样,大家可以灵活使用。