火车头采集器(Locoy Spider)最新版
火车头采集器(Locoy
Spider)最新版是款拥有着处理、分析、挖掘等多种功能的采集工具。火车头采集器支持采集99%的网页,速度是普通采集器的7倍。火车头采集器(Locoy
Spider)还可以支持远程下载图片文件,支持网站登陆后的信息采集。华军软件园提供火车头采集器(Locoy
Spider)软件的下载服务,下载火车头采集器软件其他版本,请到华军软件园!
火车采集器软件介绍
1、支持所有网站编码:火车头采集器完美支持采集所有编码格式的网页,程序还可以自动识别网页编码。
2、多种发布方式:火车头采集器支持目前所有主流和非主流的CMS,BBS等网站程序,通过系统的发布模块能实现采集器和网站程序间的完美结合。
3、全自动:无人值守工作,配置好程序后,程序将依据您的设置自动运行,完全无需人工干预。
4、本地编辑:本地可视化编辑已采集的数据。
5、采集测试:这是其它任何同类采集软件所不能比的,程序支持直接查看采集结果并测试发布。
6、管理方便:火车头采集器使用站点+任务方式管理采集节点,任务支持批量操作,再多的数据管理也很轻松。
火车头采集器功能特色
真正通用
火车头采集器采集不限网页,不限内容,支持多种扩展,打破操作局限。采什么,如何采,都由您决定!
高效稳定
火车头采集器的分布式高速采集系统,多个大型服务端同时稳定运作,快速分解任务量,最大化提升效率。
性价比高
高性能的产品,搭配亲民的价格,“为客户节约成本,提升价值”是火车采集器的服务理念。
数据精准
火车头采集器内置采集监控系统,实时报错及时修复;采集发布时确保数据零遗漏,为用户呈现最精准的数据。
火车头采集器安装步骤
1、在华军软件园将火车头采集器(Locoy
Spider)下载下来,并解压到当前文件夹中,点击其中的火车采集器9.21版安装程序.exe应用程序,进入许可协议界面,接着点击下一步。
2、选择软件安装位置界面,华军小编建议用户们安装在D盘中,选择好安装位置点击下一步。
3、火车头采集器(Locoy Spider)安装结束,点击完成即可。
火车头采集器使用方法
1.在程序主界面中,点击“新建”下拉箭头,从中选择“任务”项。
2.在弹出的窗口中,输入“任务名”,同时点击“起始网址”栏目右侧的“添加”按钮。
3.接下来就极为重要的一步,就是对要进行采集的网站进行分板,对所采取的网站中各片文章的URL进行综合分析并找出规律,最后按如图进行填写。
4.然后切换至“第二步:采集内容规则”选项卡中,我们需要对网页内容进行分板。在此以“搜狗浏览器”为例,右击要进行分析的网页,从弹出的菜单中选择“审查元素”项。
5.在“开发式模式”界面中,点击“选择页面中的一个元素去透视”按钮,接着点击“标题”内容,此时就可以在“开发者”窗口中显示标题所对应的标签,此例为“h2"。
6.接下来在”采集内容规则“界面中,点击“添加”按钮来添加“标题”项,或者直接双击“标题”项进行修改。在弹出的界面中,勾选”前后截取“,将设置前后辍分别为"“、”".
7.利用同样的方法添加其它采集内容的规则。切换至“第三步:发布内容设置”选项卡,勾选“启用 方式二”,并进行如图设置。
8.最后从任务列表中,勾选要采集的内容,点击“开始”按钮就可以按规则采集网站中的网页内容啦。
火车头采集器常见问题
问:火车头采集器怎么实现分级采集内容?
答:这个是可以实现的,可以在获取一级页面的时候在规则上添加标签,然后在根据顺序抓取二级页面,制定二级页面抓取内容的规则。
此图就是在一级页面添加标签的方法和规则。
问:火车头采集器如何过滤删除无用信息?
答:我们可以通过内容替换功能将其删除。
相对进阶一点的使用替换功能过滤删除垃圾信息还可以使用星号功能来进行模糊删除,
举例,我们通过采集规则设置需要采集一批新闻内容,结果这些新闻内容的标题中混入了几个软件下载地址,这时候我们利用过滤功能就能够方便的解决问题。
我们可以打开标题标签的编辑界面,选择内容过滤,在不得包含的内容中填入下载,这样在标题中所有包含“下载”字样的标题就会被过滤出来。
之后,我们在详细设置中对于过滤处理选择删除,就可以删除这些我们不想要的采集内容。
问:火车头采集器怎么采集图片?
1.我们现在以采集某商城图片为例,首先复制网址打开网站。选择一类你要采集的图片,你可以选择下面任意你喜欢的一类图片作为图片采集对象
2.新建任务,编辑采集网址规则。
3.可以看到商品产品页一共2421页,由于时间关系,我现在只采集前5页的图片。在火车头批量添加前5也的起始网页网址:
4.打开刚刚添加的5个起始网页网址,右键,查看源代码。在源代码中找到能标示商品链接的首和尾,确定好采集网址规则。如下图.
5.保存所有的采集规则,测试采集,确定采集网址无误,进行下一步操作。
6.编辑采集内容规则。因为是采集图片,所以我们只需要编辑采集内容的的规则就行了。
7.采集内容规则如下设置:
8.勾选下载图片和图片保存路径,保存。
9.发布内容设置,保存,所以得设置完毕,开始采集!
10.在火车头采集器的【date】文件夹内可以找到采集到的所有图片。
同类软件对比
八爪鱼数据采集系统以完全自主研发的分布式云计算平台为核心,可以在很短的时间内,轻松从各种不同的网站或者网页获取大量的规范化数据,帮助任何需要从网页获取信息的客户实现数据自动化采集,编辑,规范化,摆脱对人工搜索及收集数据的依赖,从而降低获取信息的成本,提高效率。轻松从各种不同的网站或者网页获取大量的规范化数据。
易地图数据采集大师是一款专业采集百度地图、360地图、高德地图、搜狗地图、腾讯地图、图吧地图、天地图商家、公司、店铺的手机、座机、地址、坐标等数据信息的软件,它与同类软件相比最显著特点是采集地图最专业、采集速度最快、采集最精准、操作方法最简单。
火车头采集器支持采集99%的网页,速度是普通采集器的7倍。火车头采集器(Locoy Spider)还可以支持远程下载图片文件,支持网站登陆后的信息采集。赶快下载使用吧!
|