没有列表网址时如何直接采集内容页(单页采集)

有时候我们要采集的网页是个独立的页面,它没有上级列表页,这种情况下,在ET中可以如下设置采集规则:

 

方法一

1、在列表网址里填写该网页网址;

2、列表区域可以不使用;

3、在列表分析中,使用标题标记等采集所需内容,例如用附加信息标记采集正文;

4、在列表分析中,文章地址标记任意采集一个短小的内容;

5、在列表网址合成中,填写一个可以快速访问的网址(本地网址或www.baidu.com这样的速度快的网址);

 

以直接采集新闻网页http://www.zzcity.net/news/view.asp?aid=178为例,如图:

 

6、在ET3中,可以使用指定模式调用列表数据,如图:

 

7.1、在ET2中,可以用数据整理调用列表数据。第一步:数据项-正文的采集规则里直接填项目内容标记或任意内容,如图:

 

7.2、第二步:设置正文的数据整理,将正文内容替换为列表分析中用来采集正文的标记,例如前面图示中使用附加信息1标记标记来采集正文,如图:

 

 

方法二

1、列表网址,随便填一个访问速度很快的网页,或者填一个本地txt文件地址;

2、自动列表、列表区域不用设置;

3、列表分析,针对列表网址所填的地址的内容设置一个简单的规则,要使用文章地址标记,文章地址标记的分析结果可以是任意内容,因为它不会被使用,但这个分析规则必须有效,最好文章地址标记只匹配一个结果(如果有多个结果,可以在采集配置-基本设置里设置采集条目数量为1条);

4、文章网址合成,在这里填上你要采集的页面网址;

5、其他配置同一般采集规则;

 

以直接采集新闻网页http://www.zzcity.net/news/view.asp?aid=178为例,如图:

 

方法三

如果这样的网页数量较多,但样式相同,我们可以在本地建一个txt文档,将这些网页地址放入其中,将这个txt文档的本地地址作为列表网址,来配置采集即可。

因为ET支持访问本地路径,例如:d:/list.txt

 

方法四

如果采集的网页有参数变化,可以在本地站点或网站里建立一个页面用于生成目标内容网址,如图:

 

然后将这个生成页面地址作为列表网址采集即可,如图:

 

 

实现的方法多种多样,大家可以灵活使用。