讨论一个有关防止采集的问题

cscsf · 发表于 2006-8-9

我想到的一个防止采集的办法是：

在服务器端编写一个ISAPI FILTER，当同一ip在一段时间内访问次数过多的情况下，就必须输入验证码才能继续访问。

但是这样做有一个很大的问题，就是同时把搜索引擎的蜘蛛也k掉了，如果设置蜘蛛例外的话，别人又完全可以冒充蜘蛛来采集。

不知道有没人有好的想法，大家一起讨论。

javafaq · 发表于 2006-8-9

1、好的采集器从来就不会使用同一 IP，而且可以模仿“人通过浏览器访问的形式”（比如按键、鼠标移动）
2、已经有程序对验证码视若无物
3、蜘蛛设置成例外可考虑采用自记忆形式记录其 IP

cscsf · 发表于 2006-8-9

原帖由 javafaq 于 2006-8-9 23:51 发表1、好的采集器从来就不会使用同一 IP，而且可以模仿“人通过浏览器访问的形式”（比如按键、鼠标移动）
2、已经有程序对验证码视若无物
3、蜘蛛设置成例外可考虑采用自记忆形式记录其 IP

1.采集应该是直接得到html代码的吧，似乎没有必要模拟人工按键等等，否则效率是及低的
2.对验证码视弱无物的那些识别程序类，不是每个想采集你网站的人都有这个技术去开发的
3. 不是很明白，能否详细说说？我个人认为google和baidu的蜘蛛ip多如牛毛，根本无法判断。

topbook · 发表于 2006-8-9

让别人采去吧。

kingbird · 发表于 2006-8-9

建议去采集sina知识人
多开几个线程

		自动登录	找回密码
密码			注册