木公的互联网观察

失败的作品——其价值便是“作为成功的借鉴!”从失败中崛起……

既然阻止不了 就闭上眼睛

    上述两篇文章均来源于点石互动交流论坛,SEO咨询区问题

提醒下:现点石论坛已采用邀请机制,故无点石帐号的用户可能浏览不了! 

    Blank在针对上述两个问题,问题1如何应对采集及阻止采集,Blank之前提过“防采集 搜索引擎蜘蛛抓取频率控制方法”其中最有效的方式应属”Javascript干扰及Ajax使用”,但问题也就出在这里,有搜索引擎优化常识的朋友都很清楚,所述两项方法对搜索引擎的亲和力是十分差的,也就是说该两种方法为搜索引擎法则不容,应用后其辩别将降低很多.那么问题出来了,正如点石互动论坛所述,对方将自身站点整站当下,并全部生成html静态页面,并撤去后台部分,这对部分网站是至命的打击!这里或许较多朋友将认为

  • 1、结合自身站点,整理能证明该内容属本站原创,对对方进行投诉;
    回复:这是个好办法,但该方式在北美区域或许适用,在中国互联网业太过频繁,一场投诉的较量足以制作更多的内容,不划算。
  • 2、黑了对方站点,好办法,但很抱歉的告诉你,对方已将所有信息静态化,并删除数据库后台,黑基本无门,当然你能将其整服务器搞定除外。

    面对对方站点逐渐被搜索引擎收录,并获得比自身站点更好的排名时,是不是很心痛?但是能想的办法已经想完并全用上了,却仍无办法解决?Blank的回复,应本文章标题“既然阻止不了,就闭上眼睛享受”,这里Blank传播一个偏激的观点,人们常讨论说国外的好游戏一到中国就变味,因为中国玩家太善长“外挂”的开发,总以投机的方式去应对事务,Blank观点:“采集你,是看得起你”

    网站成为新闻源,你兴奋吗?看到流量数据统计,你会很乐哈的接受这事实!

   如何防止采集,最有效的方法:继续我该做的,让它采去吧!

问题2,如下图

布局

两种布局方式更能迎合搜索引擎亲和力?长期以来Seoer一直在研究搜索引擎更喜欢的是什么内容,但布局间的细微变化对整页的影响仍是很大的,Blank的“评论对原创内容的影响”中,就有指出文章评论能较好的提高该页面的关键字排名,同样作为布局,让搜索引擎更好更快的了解该页面的主旨(搜索引擎根据用户提交的关键字,对其数据库进行检索以排列出与该关键字最为匹配的内容),引用”Btm”,搜索引擎蜘蛛通过本页面代码,进行判断,故格局的影响并不是很大!但有”相关”性的突出能更好的引导搜索的判断.

文章

    理论上讲图2左侧应是最佳摆放方式,然而根据中国互联网网民的操作习惯,右侧的方式更具用户体验设置!

图2右侧文章内容页布局现已是众多门户所使用中,如163.雅虎等,同时需指出的一项,若是作为博客页,个人建议首页不要放太多不相关的广告,以免影响用户体验等众多问题!

PS:点石互动论坛btm提到:
     两种布局方式,写出来的代码可以几乎没有区别(CSS区别也很少吧),所以对于搜索引擎来说也没什么区别,对机器人来说没有上下左右的概念吧,它读到的只是个文件流,只有先后顺序。当然两种方式对用户来说不同。

复:图2上的布局确实是忽略代码问题,左右位置在CSS中仅位置问题,这区域更似向于用户体验一说!

防采集 搜索引擎蜘蛛抓取频率控制方法

一、基础概念 
    最简单的方法就是通过程序代码,程序代码构造的程序,简单的抓取 wget 程序,比如要抓取天空软件站的创新英语单词通,直接在命令行:
wget ‘http://jlbc.skycn.com/down/recite.rar’ –referer=’http://www.skycn.com/soft/31870.html’这样就能抓取到天空软件站的这个软件。很多的程序构造起来,给定了一定的名称,富有更多的功能,这样升级成爬虫或者蜘蛛,又称机器人,像Yahoo! Slurp China,baiduspider,Google bot等等。

二、解决之道
方案一,环境变量
根据系统环境变量,我们可以指定蜘蛛该收录一些什么不收录一些什么,提高需采集的技术难度。
使用 HTTP_USER_AGENT 指定蜘蛛类型以及识别蜘蛛和非蜘蛛抓取,根据其类型反应出不同的内容;
使用 HTTP_ACCEPT_LANGUAGE 可以识别基本的套接字类抓取以及蜘蛛和非蜘蛛,毕竟采集机器人能识别语种的占少数,像本人的主站点使用的就是这个参数;
使用 HTTP_REFERER 可以侦测盗链状况,如果referer来源不是本站或者指定的站点,跳转或者指向其他页面,本人站点的处理防止图片盗链的方法就是一种高级的利用referer反盗链方法,然后引导到一个字节很小的页面;
使用 REMOTE_PORT 记录蜘蛛的地址,缓存起来,可以直接屏蔽该地址,杜绝采集或者针对搜索引擎进行优化;
使用 HTTP认证 来屏蔽匿名蜘蛛的抓取;
方案二,程序本身控制
深究网站频繁访问以及大量被采集,主要还是自身网站程序原因导致。
更改目录 是一种比较土的办法,但是非常使用有效,编写程序拥有自动在一段时间某个ip频繁访问的情况下,自动更换目录路径,这样减少外界机器人的频繁访问;
提升网站本身的权限 ,比如需要注册ID访问,每个ID对应于不同的权限;或是根据IP加时间结合的方法进行访问控制等;
使用隐藏文字 方式进行干扰,比如用CSS的DIsplay:none,或者直接把字体颜色和背景颜色一致,这样采集者要分离文章需要大量的时间处理,比如我的BBS论坛使用的就是此方式;
Javascript 的干扰,目前一般很少有人使用此方式来做站,估计大部分站长考虑到搜索引擎解析Javascript差,担心不会被收录的问题;(该方法是没方法后的办法,万不得以勿用)
XML 化的页面是比较难被蜘蛛所识别,特别是Javascript+Xml化后,使用了ajax技术,即保证了速度,又保护了有效的数据,这种类型的网站还没有蜘蛛能够完全的解析,像澳门官方体彩网站;(同JS)
方案三,网站结构
网站结构可以很大的影响采集以及搜索引擎收录。
网站图片化 早些年,一些很精美的韩国模板都是图片拼成的,像IKdiary;
Flash 结构的网站,一些高超的闪客把一些动态页面全部用flash绘制而成,简直就是蜘蛛的克星;
使用非80端口的更安全协议 比如HTTPS协议,虽然成本比较高,但是也是防止匿名蜘蛛抓取的好办法;

雅虎搜索引擎蜘蛛的抓取频率是很高的,为了节省流量空间,可以参考”如何控制Yahoo! Slurp蜘蛛的抓取频度“应该是目前最为有效的控制雅虎蜘蛛的一种方式

,