判断爬虫的几个思路

写了这么长时间的爬虫,感觉反爬虫意义真的是不大。
首先反爬虫的意义在于什么,要么为了节省带宽和服务器资源,要么是为了防止内容被抓取。
做为服务器程序不管是什么语言你运行的时候都是解析后的,那么首先一点 你自身获取用户信息这块就打了折扣
因为你是服务器运行的,而不是用户运行的。
所以单纯靠服务器上面设置反爬虫毫无意义。
其次 如果你在用户端设置了爬虫,那无非就两种JS+程序后端 或者是APP应用。
对于APP应用 我们不多做分析,主要是针对WEB站点,如果使用了JS+程序后端来反爬虫,
势必会对正常的用户造成了很大的困扰,其次就是正常的蜘蛛。
我们做站是为了什么,吸引用户 带来流量从而变现。那反爬虫就会造成普通用户体验较差,从而导致了用户流失。
所以说从根本上反爬虫不是目的,目的应该是提升用户体验,那么我们就要从另外一个点着手,那就是优化程序。
优化数据结构,尽量使用缓存。
从我自己做项目的经验来看,反爬虫毫无意义,我能做到我比采集目标站的排名都要高,为什么,因为我提升了用户体验.

手段都不是目的,只是过程。那么既然是为了目的,何不换条路走走。

发表评论

电子邮件地址不会被公开。 必填项已用*标注