首页» 教程» Wordpress教程» WordPress 自动采集发布 长腿蜘蛛 WP-CTspider -进阶教程(二十五)

WordPress 自动采集发布 长腿蜘蛛 WP-CTspider -进阶教程(二十五)

Hello,嗨,大家好,我是哈喽猿。

这里是哈喽猿网

今天推送的是wordpress教程的文章,感谢您宝贵的时间阅读

WordPress进阶教程目录:

1.WordPress禁止F12和内容复制

2.WordPress GZIP压缩提高网站访问速度   

3.WordPress 自动缩略图   

4.WordPress 移除版权版本信息   

5.WordPress 数据库清理优化WP-Optimize   

6.WordPress 发送邮件功能(不用插件)   

7.WordPress 网站加速神器   

8.WordPress 文章自动换行   

9.WordPress 自动截取限定数字的摘要   

10.WordPress 大前端主题 实时推送百度熊掌号

11.WordPress 图片自动加水印

12.WordPress 图片加水印   

13.WordPress 搜索相关性和精准度   

14.WordPress 站点统计功能代码   

15.WordPress 站点统计功能代码   

16.WordPress 导入导出工具   

17.WordPress 文章导入   

18.WordPress 文章刷新   

19.WordPress 文章Tag标签内链优化   

20.WordPress 内容被复制后添加本站文章链接

21.WordPress 搜索下拉提示   

22.WordPress 敏感词汇屏蔽   

23.WordPress 添加相关文章功能   

24.WordPress 阿里云邮件   

25.WordPress 自动采集发布 长腿蜘蛛 WP-CTspider   

 

前言:已经为大家连续讲了20篇有关于WP的进阶教程,相信大家对WP这款软件有了更深的认识,接下来我还会继续为大家讲解WP的下一阶段的教程,期待吧~

1.新建项目 / 基本配置

任务名称:哈喽猿(PS:自定义即可)

更新时间:默认60分钟(PS:当前任务60分钟自动执行一次)

字符集:默认选项就可以(PS:如果出现乱码情况,请针对当前web网页字符集选择即可)

随机IP:开启(PS:开启随机IP会在每次采集的时候自动更换IP,减少服务器IP被封的几率)

多线程采集:开启 (PS:开启后可提高采集速度)

 

多线程数量:默认10(PS:根据自己服务器配置酌情使用)

WordPress 自动采集发布

2.列表设置

列表URL: http://helloyuan.com/index.shtml (PS:如需多个,可换行添加)

 

列表区域选择器:.contList>ul>li (PS:【完全和CSS选择器用法一样】【可填,可不填】如果采集当前页面有多个相同列表DOM节点就要填写,确保采集精准度)用谷歌浏览器右键审查元素,可以看出当前列表数据都在.contList>ul>li下面

WordPress 自动采集发布

列表缩略图:如果有图可以直接填写当前缩略图CSS选择器

文章网址匹配:a (PS:由于上面区域选择器已经定位,我们可以直接填入a标签即可,如果区域选择器没有定位则设置:.contList li a 或者.contList a 具体根据你采集页面dom结构自己分析)

 

添加来源网址到自定义字段:source_url(PS:【自定义】可开启或不开启,设置后会在每天文章添加一个自定义字段source_url并且会把当前采集到网址链接赋值给该字段用于前台调用显示)如: get_post_meta('source_url') 可调用该字段的值。

 

点击列表测试可以查看当前项目列表配置情况

 

WordPress 自动采集发布

3.文章设置

标题匹配规则:h1

 

文章内容设置:#article_content

WordPress 自动采集发布

可以看到标题在h1标签下,也可使用.main-title来获取标题

正文内容看上去有好多 class和id 如果有id属性尽量采用id,毕竟id是唯一性,定位精准。

我们还可以增加规则来采集TAG标签

 

长腿蜘蛛-CTspider 提供了6总规则添加采集,并且可以自定义字段规则(PS:自定义字段规则可以添加多个)

WordPress 自动采集发布

点击采集测试

采集结果完美呈现(原文:标题:TAG)正确显示

 

但是我们发现结果中出现了a链接和一些多于的css属性和id属性还有span标签

WordPress 自动采集发布

注意:为什么点击采集后显示没有任何数据只有两种可能

采集规则没有设置好。

 

如果确定采集规则没问题,请查看当前采集的网址是否是Ajax动态渲染加载(PS:目前长腿蜘蛛-CTspider 不支持动态渲染加载采集)

发表评论

0 评论

提供最优质的资源集合

站长留言