广告联盟网

标题: 我正在做的一个采集器 [打印本页]

作者: hay    时间: 2006-11-3
标题: 我正在做的一个采集器
觉得现在能找到的采集器都有各种各样的问题,还是自己做一个来用算了。

先放个预览图片给大家看看,希望自己能坚持把它做完,呵呵,我这人挺没耐心的。

刚才有了个更好的主意,看来要先把这个东西放两天再继续了。
作者: sunya    时间: 2006-11-3
呵呵,看来你写的还挺好的嘛。功能强大。

我就笨了点,呵呵,我的是放在服务器上面的,自动采集入库,自动生成html 还有sitemaps.xml

每天早上五点开始放出蜘蛛到处爬。
作者: MatthewSong    时间: 2006-11-3
強,其實我好想知
采集器的用途是什麼,很多人都有什麼資料那樣,有何用
作者: hay    时间: 2006-11-3
原帖由 sunya 于 2006-11-3 11:01 发表呵呵,看来你写的还挺好的嘛。功能强大。

我就笨了点,呵呵,我的是放在服务器上面的,自动采集入库,自动生成html 还有sitemaps.xml

每天早上五点开始放出蜘蛛到处爬。
还是你的比较强。
作者: bleach    时间: 2006-11-3
可以参考火车的,那个不错.
作者: MatthewSong    时间: 2006-11-3
誰告訴我你們這樣做有何用的 ?
作者: sungod    时间: 2006-11-3
采集不讲道德.
作者: 3zhipeng    时间: 2006-11-3
原帖由 hay 于 2006-11-3 10:49 发表觉得现在能找到的采集器都有各种各样的问题,还是自己做一个来用算了。

先放个预览图片给大家看看,希望自己能坚持把它做完,呵呵,我这人挺没耐心的。

刚才有了个更好的主意,看来要先把这个东西放两天再 ...
啥时完成提供出来大家用, 能提供源码研究当然最好了!是不是C#的?
作者: sunya    时间: 2006-11-3
独立的采集  不知道有啥子好。

每天都要手动采集,麻烦。
作者: hay    时间: 2006-11-3
QUOTE:

可以参考火车的,那个不错.

就是参考了火车头的,不过火车头的那个用起来很不方便,个人认为,
0、基本上没有帮助说明什么的,只有自己摸索;
1、第一步,采集网址不好操作,不能添加多个入口;
2、下载图片有时候下载不下来,
3、数据导入功能很麻烦,而且有bug,不能先批量下载然后在导入,自定义标签在导入的时候不能使用,

被6,7楼的批了,

偶要是放出来给大家用,会不会有向别人提供作案工具的嫌疑?呵呵,会不会被批得更惨。
作者: hay    时间: 2006-11-3
偶是比较追求完美的,我自己的主站从来不用采集,都是俺自己一篇一篇的添上去的,因为采集的东西质量太差了,排版格式什么的都稀烂,所以半年了,才发布了不到2000篇文章,

另外有个正宗垃圾站是做采集的,呵呵,俺只是把他拿来做测试用,
作者: neteasy    时间: 2006-11-3
采集的与手动维护的没法比。质量一个天上一个地下。有过切身体验。
作者: sunya    时间: 2006-11-3
晕,我给我的主站每天定量采集更新50个。

质量很高。完全不用手动。出现可预计的错误 可以判断的乱码类的。

主站一天也更新不多,三五篇文章或者其它。
作者: songhome    时间: 2006-11-4
原帖由 sunya 于 2006-11-3 23:32 发表晕,我给我的主站每天定量采集更新50个。

质量很高。完全不用手动。出现可预计的错误 可以判断的乱码类的。

主站一天也更新不多,三五篇文章或者其它。
可以教我怎做嗎
作者: hay    时间: 2006-11-4
这个软件不会再做下去了,

今天发现火车头发布了3.0版本,感觉还可以了,
作者: loveusd    时间: 2006-11-5
原帖由 MatthewSong 于 2006-11-3 11:42 发表誰告訴我你們這樣做有何用的 ?
把用手工添加文章的工作,教給了機器麳完成.可以幾千幾萬的麳添加.
作者: songhome    时间: 2006-11-5
原帖由 loveusd 于 2006-11-5 08:23 发表
把用手工添加文章的工作,教給了機器麳完成.可以幾千幾萬的麳添加.
可以給我網址嗎? 火車 3.0

主要應用在那個軟件

謝謝你的答覆
作者: loveusd    时间: 2006-11-5
原帖由 songhome 于 2006-11-5 16:40 发表

可以給我網址嗎? 火車 3.0

主要應用在那個軟件

謝謝你的答覆
www.locoy.com
作者: songhome    时间: 2006-11-5
原帖由 loveusd 于 2006-11-5 18:10 发表

www.locoy.com
去不到呢,hoho

那這些文章可以應用到什麼的後台管理系統去應用?
作者: sunya    时间: 2006-11-5
晕,我感觉采集器应该是个“寄生虫”而不是文本筛选器。

呵呵。大概就是大站更新了,寄生虫程序就跟着更新,如果没更新,那我也不更新。

同时多个频道,多线程实现程序http读文本。
作者: 123mmm    时间: 2006-11-14
原帖由 sunya 于 2006-11-6 04:05 发表晕,我感觉采集器应该是个“寄生虫”而不是文本筛选器。

呵呵。大概就是大站更新了,寄生虫程序就跟着更新,如果没更新,那我也不更新。

同时多个频道,多线程实现程序http读文本。
对这样的程序很感趣,想不想换包烟钱?
作者: hay    时间: 2006-11-14
原帖由 sunya 于 2006-11-6 04:05 发表晕,我感觉采集器应该是个“寄生虫”而不是文本筛选器。

呵呵。大概就是大站更新了,寄生虫程序就跟着更新,如果没更新,那我也不更新。

同时多个频道,多线程实现程序http读文本。
火车3.0是可以使用定时任务的,如果时间设置上比较合适的话,基本上可以实现与采集源同步更新,呵呵,

发现火车3还是有些问题,比如:如果采集源速度慢的话,文章下载成功率就会很低,

我现在测试的方法是:flashget或者nettransport批量下载,程序自动分析、提取入库。




欢迎光临 广告联盟网 (https://bbs.ggads.com/) Powered by Discuz! X3.2