Hello,嗨,大家好,我是哈喽猿。
这里是哈喽猿网
今天推送的是wordpress教程的文章,感谢您宝贵的时间阅读
WordPress进阶教程目录:
5.WordPress 数据库清理优化WP-Optimize
25.WordPress 自动采集发布 长腿蜘蛛 WP-CTspider
前言:已经为大家连续讲了20篇有关于WP的进阶教程,相信大家对WP这款软件有了更深的认识,接下来我还会继续为大家讲解WP的下一阶段的教程,期待吧~
1.新建项目 / 基本配置
任务名称:哈喽猿(PS:自定义即可)
更新时间:默认60分钟(PS:当前任务60分钟自动执行一次)
字符集:默认选项就可以(PS:如果出现乱码情况,请针对当前web网页字符集选择即可)
随机IP:开启(PS:开启随机IP会在每次采集的时候自动更换IP,减少服务器IP被封的几率)
多线程采集:开启 (PS:开启后可提高采集速度)
多线程数量:默认10(PS:根据自己服务器配置酌情使用)
2.列表设置
列表URL: http://helloyuan.com/index.shtml (PS:如需多个,可换行添加)
列表区域选择器:.contList>ul>li (PS:【完全和CSS选择器用法一样】【可填,可不填】如果采集当前页面有多个相同列表DOM节点就要填写,确保采集精准度)用谷歌浏览器右键审查元素,可以看出当前列表数据都在.contList>ul>li下面
列表缩略图:如果有图可以直接填写当前缩略图CSS选择器
文章网址匹配:a (PS:由于上面区域选择器已经定位,我们可以直接填入a标签即可,如果区域选择器没有定位则设置:.contList li a 或者.contList a 具体根据你采集页面dom结构自己分析)
添加来源网址到自定义字段:source_url(PS:【自定义】可开启或不开启,设置后会在每天文章添加一个自定义字段source_url并且会把当前采集到网址链接赋值给该字段用于前台调用显示)如: get_post_meta('source_url') 可调用该字段的值。
点击列表测试可以查看当前项目列表配置情况
3.文章设置
标题匹配规则:h1
文章内容设置:#article_content
可以看到标题在h1标签下,也可使用.main-title来获取标题
正文内容看上去有好多 class和id 如果有id属性尽量采用id,毕竟id是唯一性,定位精准。
我们还可以增加规则来采集TAG标签
长腿蜘蛛-CTspider 提供了6总规则添加采集,并且可以自定义字段规则(PS:自定义字段规则可以添加多个)
点击采集测试
采集结果完美呈现(原文:标题:TAG)正确显示
但是我们发现结果中出现了a链接和一些多于的css属性和id属性还有span标签
注意:为什么点击采集后显示没有任何数据只有两种可能
采集规则没有设置好。
如果确定采集规则没问题,请查看当前采集的网址是否是Ajax动态渲染加载(PS:目前长腿蜘蛛-CTspider 不支持动态渲染加载采集)
0 评论