火车头采集如何实现自动分类入库发布?

作者:淘博客 2022-03-05 浏览:603

导读: 根据自己网站栏目智能处理,比如:采集内容若含“房产”就处理为自己“房产”栏目id,若含“招聘”就处理为自己“招聘”栏目id,相近词也可以这样处理,进一步增加精准度,发布栏目时基本做到归类精准。...

淘博客在站长群里混的时候,一个站长无意透露他的分类目录站,就用来让大家提交自己网址,增加外链,供搜索引擎抓取,促进收录那种。因为排名不错,每天不多,但有进项。这下彻底使博主眼红,加上自己会点火车头,说干就干,打算也搞一个分类目录站,万一做成一个搞包烟钱(结果搞了好几个,汗一个)。

书归正传,群里买到cms,对付能用,基本没有bug,搭建起来,内容伪原创,但是遇到新问题:

利用火车头采集发布,处理内容主要包括标题、内容、关键词、来源、栏目id等,其它都好说,但栏目id这个问题令人头痛。采集内容若直接对应自己网站的栏目,就可以实现边采边发布,完全不加干涉,不论数据质量如何,但是省事。节省的时间可以干很多更重要的事情,比如上搜米域名网抢注域名卖终端赚大钱。

多数情况下,目标网站的分类id与自己的网站分类id不一一对应,毕竟对方不可能按自己的意思建站吧?那就需要解决分类id这个问题。

比较原始的办法是:不管栏目id对不对,先发布到网站作为等审核状态,再进后台管理手动修改分类id正式发表(如果栏目id不对的情况下也能发布的话)。但这样很尴尬,很无语,很痛苦,不赚钱,费时间,怎么办?有没有采集时直接对应自己网站栏目id写入,直接发布的一劳永逸的解决办法?三种解决办法:

第一种解决办法:一对一采集发布,选准目标站一个栏目的内容全部采集,内容处理好直接发布自己网站的一个栏目,但这种方法太low,况且采集内容不一定完全适合自己的栏目,效果不算上佳。

第二解决办法:随机抽取设定栏目id发布,适合栏目少的网站。好处是可以发到多个栏目,坏处是不够智能,发布内容不受控制,域名的内容你发到建站栏目,建站的内容可能发到域名栏目,主题不够集中,基本成为垃圾站。如下图:

QQ图片20220305184626.png


第三种解决办法:根据自己网站栏目智能处理,比如:采集内容若含“房产”就处理为自己“房产”栏目id,若含“招聘”就处理为自己“招聘”栏目id,相近词也可以这样处理,进一步增加精准度,发布栏目时基本做到归类精准。

以下是淘博客原创技术教程,不怎么高深,但思路清晰,亲测可用,供各位看官参考吧。

思路:结合自己网站栏目分类情况,根据采集目标站<title>标题</title>,<meta name="keywords" content="关键词">,<meta name="description" content="描述" />   三大标签,甚至是<body>正文</body>等内容进行分析,将含有指定关键词内容按自己网站的分类id进行处理采集入库,达到全自动采集、全自动发布的效果。

采集处理内容需要一定的正则知识,否则会用但看不懂,博主尽量加上注释。

步骤1.打开火车头采集任务→内容采集规则,双击“分类”开始编辑

QQ图片20220305192353.png


步骤2.“数据获取方式”:从源码中获取数据;“提取方式”:正则提取;匹配内容:<title>(?<content>[\s\S]*?)</title>,注释:从网页源码的头部标题标签内采集内容供处理,当然你也可以扩大范围,获取更多标签内容供处理。

QQ图片20220305192645.png

步骤3.根据提取的源网页数据,按照含有的关键词,将该块内容替换为与自己网站的栏目id,采集写入数据库。

这一步最重要,如果想扩大提取内容范围,把标题、关键词、描述作为内容块,从中找到匹配自己栏目的关键词,然后替换成自己栏目id,需要注意必须整块替换。比如,自己网站关于域名的栏目id是12,提取的内容块只要含“域名”两个字,那就将整块内容替换为id:208。关于博客的栏目id是13,提取的内容块只要含“博客”两个字,那就将整块内容替换为id:209。

示例1:

匹配内容:搜米网(www.SouMi.CN)集成国际国内权威域名注册局接口,实体运营、专业运维,是域名注册查询、过期域名抢注、域名拍卖交易的综合域名服务平台,投资域名、注册域名请认准好搜米网!(含域名二字)

正则表达式:^[\s\S]*?(域名)[\s\S]*?$

替换表达式:208

示例2:

匹配内容:淘博客 - 关注互联网行业分享实践经验和实用知识的IT科技博客(含博客二字)

正则表达式:^[\s\S]*?(博客)[\s\S]*?$

替换表达式:209

如图:

QQ图片20220305232706.png

如此一路替换下来,只要内容块匹配设定的关键词,就会替换成对应的栏目id。但不算完,提取到的数据内容块,你的设定的关键词并不能完全穷尽匹配,那就不能自动替换,数据处理的结果仍会是一段文字。

比如“分类目录站www.muluzhan.com是一个免费提交网站目录的分类检索网站,全程人工编辑和审核,致力收录国内外各行业优秀的网站网址,让网站在各大搜索引擎收录快,排名靠前”,里面既没有“域名”二字,也没有“博客”二字,就不能应对的替换为栏目id208或209,处理的结果还是“分类目录站是一个免费提交网站目录的分类检索网站,全程人工编辑和审核,致力收录国内外各行业优秀的网站网址,让网站在各大搜索引擎收录快,排名靠前”这一段话,而你的栏目id是数字,文字和数字类型不一致,栏目id不对就不能写入你的网站,会浪费已经提取而不能正确发布的大量数据。这个时候就需要继续用更宽泛的正则表达式继续替换,直至所有替换过后的内容都是你网站存在的栏目id。但采集的内容千奇百怪,包罗成象,你怎么可能一一提前预设好呢?进数据库操作,那不是走回头路么?

好在经过摸索,博主找到了正确方法,那就是把除了设定的含“域名”或“博客”二字的内容块替换为208或209外,不含上述两个关键词一律替换为指定的栏目id210,这样就不存在浪费数据的问题了。这种方法特别选用于栏目多的情况,假如有几十个栏目的话,效率明显体现出来了。

还是不得要领,那就下载现成的规则,导入火车头,进入“内容采集规则”直接修改吧。注意最后两步替换规则,凡是替换后栏目id不是208、209的,一律替换为栏目Id210的写法。

码字不易,感谢支持,下载修改即用,地址付费可见:

手机号码 温馨提示: 如已购买请输入手机号绑定订单  点击绑定
本部分为付费内容,您需要支付 10.00元 后可查看
售前售后咨询:
扫一扫,支付¥10.00

正在加载二维码...

支付完成后,请等待10秒左右,请勿关闭此页



转载请注明出处:淘博客,如有疑问,请联系(6677869)。
本文地址:https://www.taoboke.com/jishujiaocheng/28.html

  • 评论列表:
  •  淘博客
     发布于 2022-04-21 19:14:29  回复
  • 仍然有用,一些信息需要扩大传播

添加回复:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

咨询