广告联盟网

 找回密码
 注册
123
返回列表 发新帖
楼主: hay
打印 上一主题 下一主题

我正在做的一个采集器

[复制链接]
21#
发表于 2006-11-14 | 只看该作者
原帖由 sunya 于 2006-11-6 04:05 发表晕,我感觉采集器应该是个“寄生虫”而不是文本筛选器。

呵呵。大概就是大站更新了,寄生虫程序就跟着更新,如果没更新,那我也不更新。

同时多个频道,多线程实现程序http读文本。
对这样的程序很感趣,想不想换包烟钱?
22#
 楼主| 发表于 2006-11-14 | 只看该作者
原帖由 sunya 于 2006-11-6 04:05 发表晕,我感觉采集器应该是个“寄生虫”而不是文本筛选器。

呵呵。大概就是大站更新了,寄生虫程序就跟着更新,如果没更新,那我也不更新。

同时多个频道,多线程实现程序http读文本。
火车3.0是可以使用定时任务的,如果时间设置上比较合适的话,基本上可以实现与采集源同步更新,呵呵,

发现火车3还是有些问题,比如:如果采集源速度慢的话,文章下载成功率就会很低,

我现在测试的方法是:flashget或者nettransport批量下载,程序自动分析、提取入库。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|广告联盟网  

GMT, 2024-11-25 , Processed in 0.049487 second(s), 18 queries .

Powered by Discuz! X3.2

© 2005-2021 www.ggads.com GGADS 广告联盟网

快速回复 返回顶部 返回列表