火车采集器又称机车采集器,主要用于指定采集网页内容等操作,也是目前应用最广泛的数据采集工具。
该程序支持图片文件远程下载、网站登录后信息采集、文件真实地址检测、代理、防盗链采集、采集数据直接存储、模仿者手动发布。
火车收集器支持从任何类型的网站收集和获取您需要的信息,例如各种新闻网站、论坛、电子商务网站、招聘网站等等。
同时具有网站登录收藏、多页及分页收藏、网站跨层收藏、帖子收藏、脚本页面收藏、动态页面收藏等强大的高级收藏功能。
强大的php和c#插件支持,让你通过二次开发实现任何你想要的更强大的功能。
【软件特色】
1、通用性强
无论新闻、论坛、视频、黄页、图片、下载网站,只要你能通过浏览器看到结构化的内容,就可以通过指定匹配规则来收集你需要的内容。
2.稳定高效
经过五年的打磨,软件不断更新完善,采集速度快,性能稳定,占用资源少。
3、扩展性强,适用范围广
自定义web发布,自定义主流数据库的存储和发布,自定义本地php和。net外部编程接口来处理数据,并使数据可供您使用。
【基本功能】
1.规则定制-通过定义收集规则,您可以搜索所有网站来收集几乎任何种类的信息。
2、多任务、多线程——可以同时进行多个信息采集任务,每个任务可以使用多个线程。
3.所见即所得——所见即所得在任务采集过程中,过程中遍历的链接信息、采集信息、错误信息都会及时反映在软件界面中。
4.数据存储——数据在收集的同时自动存储在关系数据库中,数据结构可以自动调整。该软件可以根据采集规则自动创建数据库以及其中的表和字段,还可以通过数据库向导的方式灵活地将数据保存在客户已有的数据库结构中。
5.在断点处恢复挖掘——信息采集任务停止后可以从断点处继续采集,不用担心自己的采集任务意外中断。
6.网站登录——支持网站Cookie,支持网站可视化登录,甚至可以收藏登录时需要验证码的网站。
7.计划任务-此功能允许您定期、定量或连续执行收集任务。
8.收藏范围的限制——可以根据收藏的深度和网站的logo来限制收藏范围。
9、文件下载 可以将采集到的二进制文件(诸如:图片、音乐、软件、文档等等)下载到本地磁盘或者采集结果数据库中。
10、结果替换- 可以将采集的结果根据规则替换成你定义的内容。
11、条件保存- 可以根据某个条件来决定那些信息保存,那些信息过滤。
12、过滤重复内容 软件可根据用户设置和实际情况对重复内容和重复网址自动删除重复内容。
13、特殊链接识别- 运用此功能可以将用JavaScript动态生成的链接或其他更古怪的连接识别出来。
14、数据发布 可以通过自定义接口,将已采集的结果数据发布到任意的内容管理系统和指定数据库中。
现在已支持的目标发布媒体包括:数据库(access, sql server,my sql,oracle) ,静态htm文件。
15、预留编程接口 定义多个编程接口,用户可以在事件中利用PHP,C#语言进行编程,扩充采集功能。
【特色功能】
1、支持所有网站编码:完美支持采集所有编码格式的网页,程序还可以自动识别网页编码。
2、多种发布方式:支持目前所有主流和非主流的CMS,BBS等网站程序,通过系统的发布模块能实现采集器和网站程序间的完美结合。
3、全自动:无人值守工作,配置好程序后,程序将依据您的设置自动运行,完全无需人工干预。
4、本地编辑:本地可视化编辑已采集的数据。
5、采集测试:这是其它任何同类采集软件所不能比的,程序支持直接查看采集结果并测试发布。
6、管理方便:使用站点+任务方式管理采集节点,任务支持批量操作,再多的数据管理也很轻松。
更新日志
1、二级代理重大修改并增加了商业代理支持
2、post获取网址POST页码增加递增数值
3、修复php和python插件不支持cookie的问题
4、当成功失败标识都为空时认为是发布成功
5、调整发布和入库模块界面大小和操作bug
6、修复web发布不登录时不发UA的问题
7、修复web发布测试时超时不起效的问题
8、修复Web发布时特殊情况下死循环问题
-
可以插原神人物的游戏手游 2025-10-17
-
仙剑奇侠传4结局官方解释?仙剑四结局深度解析 2025-10-17
-
lpl各战队主场城市 2025-10-17
-
魔兽世界怀旧服锻造分支怎么选择60年代分支选择推荐 2025-10-17
-
仙剑奇侠传4演员名单(仙剑奇侠传4四大主角) 2025-10-17
-
仙剑奇侠传4演员表曝光(仙剑奇侠传4人物详细信息) 2025-10-17