当前位置:电脑软件 > 网络软件 > 网页制作 > 火车采集器免费版 V9.6

火车采集器免费版 V9.6

  • 大小:21.5MB
  • 语言:简体中文
  • 类别:网页制作
  • 类型:国产软件
  • 授权:试用软件
  • 时间:2019/3/15
  • 官网:http://www.locoy.com/
  • 环境:Windows8, Windows7, WinVista, WinXP
  • 安全检测:无插件360通过腾讯通过金山通过瑞星通过
9.3

普通下载

高速下载

需下载高速下载器,提速50%

相关软件

你是否面临如此困境?建网站苦于没内容,业务发展遭遇瓶颈,数据提取速度太慢,花费大量时间却难见成效,那么你就需要一个高效的工具——火车采集器免费版!这是一款专业的互联网数据抓取、处理、分析,挖掘软件,可以灵活迅速地抓取网页上散乱分布的数据信息,并通过一系列的分析处理,准确挖掘出所需数据。赶快来下载使用吧!
火车头采集器破解版

软件功能:

1、分布式高速采集任务分配至多个客户端,同时运行采集,效率倍增。
2、多识别系统配备正文识别、中文分词识别、任意编码识别等多种识别系统,智能识别操作更轻松。
3、可选验证方式可选择是否使用加密狗,随时保障数据安全。
4、全自动运行无需人工值守操作,任务完成后自动关机。
5、替换功能同义,近义词替换、参数替换,伪原创必备技能。
6、任意文件格式下载图片、压缩文件、视频等任意格式的文件都能轻松下载。
7、采集监控系统实时监控采集,确保数据的准确性。
8、支持多数据库支持Access/MySQL/MsSQL/Sqlite/Oracle多种类型的数据库保存及发布。
9、无限级多页采集支持包含ajax请求数据在内的多个页面信息的无限级采集。
10、支持扩展支持接口和插件扩展,满足各种采发需求。

特点介绍:

1、支持所有网站编码:完美支持采集所有编码格式的网页,程序还可以自动识别网页编码。
2、多种发布方式:支持目前所有主流和非主流的CMS,BBS等网站程序,通过系统的发布模块能实现采集器和网站程序间的完美结合。
3、全自动:无人值守工作,配置好程序后,程序将依据您的设置自动运行,完全无需人工干预。
4、本地编辑:本地可视化编辑已采集的数据。
5、采集测试:这是其它任何同类采集软件所不能比的,程序支持直接查看采集结果并测试发布。
6、管理方便:使用站点+任务方式管理采集节点,任务支持批量操作,再多的数据管理也很轻松。

安装步骤

首先下载安装包,运行安装“火车采集器9.1版安装程序”

选择安装地址

注意:火车采集器环境要求:您的电脑必须安装.net framework4.0框架,如果没有,你的电脑会弹出以下对话框,请点击“是”以继续安装

安装完成

采集器教程

1、新建分组--新建任务
2、添加网址+ 编辑获取网址的规则
选择范围在 ul 里面的 li 里面的链接,注意排除重复地址,可以点击下面测试网址采集获取。
可以看到有采集到的文章链接了。
3、采集内容规则
我这边需要采集下面图上展示数据(catid是栏目id,可以将采集到的数据放入对应栏目,设置固定值就好)
着重说下内容和图片的采集,标题和描述同理内容采集
内容采集:
打开一个采集的文章页面,查看源代码(禁了右键的f11 或者在网址前面加上 view-source: 一样可以查看):选中文章开头一个位置,截取一段在ctrl+f 搜下是否唯一一段,若是就可以放在位置下图1处,结尾同开头一样。我截取内容不想里面还带有链接图片可以数据处理,添加--html标签排除--选好确定--确定
还有需要下载页面图片,勾选和填写下面选项
图片采集:
(1)选中范围和内容一样(文章内图片)
(2)数据处理选 提取第一张图片,内容是:http://www.xxx.com/2017/33/aa.jpg
(3)只要aa.jpg,正则过滤,获取内容:aa.jpg
(4)数据库存储有前缀,添加上, upload/xxxxx/
找一个页面测试一下,可以看到对应项目都获取到了。
4、发布内容设置,这里以方式三发布到数据库为例子,编辑后回到这边勾选刚定义的模块就好:
5、我需要保存图片到本地,要设置下保存文件的路径(ftp后续会试着使用)。
6、保存,查看刚新建的任务,右键 开始任务运行,这边就可以看到文字和图片都下载下来了,数据库里面也可以看到了。

更新日志

火车采集器免费版 V9.6 更新日志(2017-10-7)1、调整列表页排重的方式,现在仅会在同级列表页之间进行排重。
2、增加对于任务运行完毕之后的运行统计的预警功能(Email邮件预警)【旗舰版功能】
3、新增支持对于一些请求返回码不为200时,仍然进行采集的配置。
4、新增支持将下载地址保存为html文件的功能。
5、二次代理服务,增加导入的时候配置代理类型,同时修复对于用户名密码的显示错误问题。
6、发布配置页面,默认仅显示当前选择配置,加快任务加载时间。
7、修复命令行控制,closeapp参数无法自动关闭程序的问题。
8、修复在未选择图片水印时,无法进行图片剪裁的问题。
9、优化开始界面加载方式,解决初始化界面卡顿的问题。
10、修复在配置多行连接符包含“|”导致的无法探测图片下载的问题。
11、修复Excel导出数据时,列的顺序与字段顺序不一致的问题。
12、修复Excel导出数据时,一些包含数字的字段的导出数据错误问题。
13、修复任务批量编辑时,Json采集表达式未能复制的问题。

火车采集器免费版9.3更新日志(2016年12月23号)
1,修复一个当使用火车浏览器采集cookie时,与采集器处理冲突导致程序退出的问题。
2,修复任务编辑框,当未进行任何编辑时,仍然弹出保存对话框的问题。
3,标签组合时,支持对于循环获取新纪录的支持。
4,修复列表页标签,在重新开始任务后,未能加载“探测下载”的问题。
5,在任务编辑中,编辑Web,数据库发布模块时,增加对于任务标签的支持。
6,修复边采集边发布时,对于Id标签,未能正确发布的问题。
7,修复一个任务完成之后,下载列表显示为空白的问题。
8,对于网址库增加压缩方案,修复在网址库数据过大时,任务加载很慢的问题。
9,数据库的发布模块中,现在可以支持(insert ignore)语句
10,其他一些bug修复。

*支持多页的分页采集
*添加已采字段
*采内容进度算法调整
*web获取列表使用分类名+id显示
*优化实时数据、文件下载数据量显示不全问题
*修复php插件被当做C#插件禁止使用问题
*修复POST文本文件路径无法保存问题
*修复不得包含的多个词的逻辑问题
*修复本地数据编辑字段过多时无法查看全的问题
*修复url #之后的内容补全问题
*修复安装在C盘,管理员权限的问题
*修复url #之后的内容补全问题

下载地址

火车采集器免费版 V9.6

普通下载通道

网友评论

0条评论

评论需审核后才能显示

    分类列表