当前位置: 首页 > 网页设计 > 网页制作技巧 > 正文

DEDECMS防采集策略分析

时间:2017-03-24 本站 guaitu

DEDECMS有非常健全的防采集方案,可以通过两种方式来实现:

一、防采集混淆

实现方式是在文章正文内加入一些隐藏的文字内容,采集站点将其采集过去之后,这些文字内容会在其站点中显示出来,影响其用户体验。

设置方法:系统后台-->防采集串混淆,在表单内自行设置混淆串,并有详细的调用方法。

弊端:使用此种方式防采集,可能会被搜索引擎判定为做弊,很危险。

二、使用随机模板防采集

设置方法:系统后台-->随机模板设置,$cfg_tamplate_rand = 1表示开启随机模板,$cfg_tamplate_rand = 0表示关闭随机模板。

系统默认有article_article.htm、article_article1.htm和article_article2.htm三套模板,在发布文章时,系统会随机选择其中之一作为这篇文章的模板。

也可以自行修改模板数组来增加随机模板的数量,你想搞100套模板也没有问题!不过,一般来说,默认的三套模板已经足够让采集站点闹心一阵子了。

弊端:使用此种方式防采集,可能会导致有的搜索引擎收录困难。不同的搜索引擎,抓取能力是不一样的。

因为搜索引擎的爬虫在访问你的网站时,其实也只是网站的一个普通访客。假设它开始访问第一篇文章,这篇文章的模板是article_article.htm,标题的开始标记是<div class="title">,正文的开始标记是<div class="content">。于是它设置了抓取规则,很顺利的抓取到了内容。接着它爬第二篇文章,可是这篇文章的模板是article_article1.htm或者article_article2.htm,标题和正文的开始标记全变了,它按照原来的规则抓取不到内容了!它可能会很郁闷:我不收录你了好吧?我回家喝茶去!

随机模板确实很强大,但也只是在某种程度上起作用。因为懂程序的人可以自己写采集程序的,碰到第一套模板的文章,启用第一套规则;碰到第二套模板的文章,启用第二套规则……真想采集你,就是设置一万套模板也没有用,除非你不开放WEB服务。

你的站点已经使用了随机模板,你在想,那我还是把随机模板功能关闭了吧。这样的话,所有的文章都会使用默认的第一套模板article_article.htm,这不相当于全站改版了吗?

世生万物,各自有各自存在的道理。没有必要刻意强求什么,顺其自然吧。

URL: http://www.bianceng.cn/web/Skills/201703/50593.htm