一、伪原创设置页简介
1、说明
当前版本为用户提供的伪原创模块包含高速同义词替换、段落乱序等功能,见图示1:
(图示1)
设置了伪原创后,必须在采集规则的数据项属性中选择启用“进行伪原创”,伪原创功能才会被执行(见 采集配置-数据项设置 );
二、替换词表
1、说明
词表替换功能,用户可以填写或导入词库,见图示1;
每个词条用换行分隔,词条格式为:
1、旧词=新词 , 用新词替换旧词;
2、旧词=新词1=新词2……=新词N , 从多个新词中随机选择1个替换旧词;
每一个词条末尾的空格会被自动过滤;
词条前,即旧词的首部空格会保留生效,词中和“=”号内的空格会保留生效;
如果用户需要在新词末尾使用空格,可以用以下格式 “旧词=新词 =”,即在末尾加上一个“=”号。
词条使用数 用于指定进行伪原创词条替换时从词表中选择使用多少词条,使用的词条是随机选择的;本项为0时表示不限制词条数量,将使用整个词表中所有词条,见图示:
三、段落乱序
1、说明
用于将数据项内容中的段落随机,以达到混乱段落顺序,和原文区别的目的,见图示:
分段的依据为HTML标签"<p>"、"<br>"分段,如果采集的数据项内容不包含此类html标签,用户可以使用数据项-数据整理功能为内容加上这些标签;
本功能在词表替换之后执行。
段落乱序强度 强度范围从0到10,数值越低,乱序程度越小,0为不使用段落乱序;数据项内容字数少于30字时不使用段落乱序。