基础图例-如何采集回复

在采集文章时,我们常常需要采集如回复、评论以及类似格式的信息,比如论坛帖子的回复、新闻的评论。

它们的特点是,在同一个页面上呈现多条相同格式的内容。

 

采集回复,分为两种情况,一种是直接使用 【正文】数据项采集,另一种是新建数据项采集。

 

一、直接使用正文数据项采集

这种方式,适合于正文(即主题)与回复的代码格式相同,例如绝大部分论坛。

 

通常我们只需要勾选 正文的选项【匹配多条】即可。

 

1、图一是discuz!x论坛的一种用【正文】数据项同时采集主题和回复的设置。

 

2、图二是另一种discuz!x论坛的用【正文】数据项同时采集主题和回复的设置。

 

3、图三是百度贴吧用【正文】数据项同时采集主题和回复的设置。

 

 

下图是测试结果,可以看到采集的由ET分隔符分隔的多条回复信息,在实际发布回复时,会自动去掉ET分隔符。

 

 

4、发布的设置

如果有使用独立的回复接口网址,那么在发布配置中开启,【回复关联参数名】留空,回复信息将逐一向【回复接口】提交,完成回复的添加;

如果没有开启独立的回复,那么回复信息将和正文一起提交给【发布接口】。

 

需要注意的是,要同时采集回复,那么【正文】数据项的【数据项采集规则】必须兼容正文和回复的格式。

由于回复通常有多页,所以以上图示勾选了【有分页】选项,并设置了【数据分页】(数据分页的设置请见相关文章。)

 

二、使用独立数据项采集回复

这种方式适合 正文与回复代码格式不同的情况,比如新闻的评论。

1、在采集配置中新建回复数据项,做好相关设置,能正确采集到回帖内容。

 

 

 

2、在发布配置-发布项中新建一个参数,用于从采集规则中的回复数据项获取采集结果。

 

 

 

3、在发布配置-基本设置中,设置回复关联参数,为第2步新建的参数名。

 

 

 

设置完成。

 

用户可根据采集目标的情况,选择适合的方式采集回复信息。