爬山虎采集器官网版是一款支持99%的网站数据采集的高效网页信息采集软件,爬山虎采集器官网版能生成Excel表格,api数据库文件等内容,帮助你管理网站数据信息,如果您需要对某个指定网页数据进行采集,使用爬山虎采集器官网版即可。
向导模式
简单易用,轻松通过鼠标点击自动生成
脚本定时运行
可按照计划定时运行,无需人工
独创高速内核
自研的浏览器内核,速度飞快,远超对手
智能识别
对于网页中的列表、表单结构(多选框下拉列表等)能够智能识别
广告屏蔽
定制的广告屏蔽模块,兼容AdblockPlus语法,可添加自定义规则
多种数据导出
支持Txt 、Excel、MySQL、SQLServer、SQlite、Access、网站等
用户下载了爬山虎采集器之后,可能对于这类软件的基本操作不是很了解,所以往往就会出现使用困难的情况,为了帮助用户可以更好的知晓爬山虎采集器的使用方法,下面就来讲解一下采集任务的新建方法,有需要的用户快来了解一下吧。
创建第一个采集任务
首先,打开爬山虎采集器,点击主界面的新建任务按钮
第一步、选择起始网址
当你想要采集一个网站数据时,首先需要找到一个展示数据列表的地址。这一步,至关重要,起始网址决定了你采集的数据数量和类型。
以大众点评为例,我们想要抓取当前城市的美食类的商家信息,包括店名、地址、评分等等信息。
通过浏览网站,我们找到所有美食类的商家列表地址
然后在爬山虎采集器V2中新建任务->第一步->输入网页地址
然后点击下一步。
第二步、抓取数据
进入到第二步后,爬山虎采集器会智能分析网页,并且从中提取出列表数据。如下图:
这时,我们对已经分析出的数据进行整理修改,比如删掉无用的字段。
点击列的下拉按钮,选择删除字段。
当然还是其他操作,比如修改名称,数据处理等等。这些我们将在后面的文档中介绍。
在整理修改字段后,我们来采集处理分页。
选择分页设置->自动识别分页,程序将会自动定位下一页元素。
完成之后,点击下一步。
第三步、设置
这里包括对浏览器的配置,比如禁用图片、禁用JS、禁用Flash、拦截广告等等操作。可以通过这些配置提高浏览器的加载速度。
计划任务的配置,通过计划任务,可以设置任务定时自动运行。
点击完成,保存任务。
完成,运行任务
任务创建完成之后,我们选择刚刚新建的任务,点击主界面工具栏开始按钮。
任务运行窗口,任务运行日志,记录详细采集日志信息。
已采集数据窗口,实时显示已采集的数据
同类推荐
2022-09-14
立即下载2022-09-14
立即下载2022-09-14
立即下载2022-09-14
立即下载2022-09-10
立即下载2022-09-10
立即下载相关文章
WinRAR如何给文件注释?WinRAR给文件注释的技巧
2022-01-15驱动人生如何测网速? 驱动人生测网速的技巧
2021-10-20火绒安全如何拦截广告弹窗?火绒安全软件拦截广告弹窗的技巧
2021-10-20七彩色图片批量处理工具更改图片大小的技巧
2021-11-17Adobe Illustrator CS6如何设计等腰梯形?
2021-12-29Lightroom为图片添上胶片颗粒效果的技巧
2022-01-24暴风影音如何导入本地视频?暴风影音导入本地视频的技巧
2022-05-28万彩动画大师创建新工程文件的技巧
2021-12-20UltraEdit如何注释选中内容?
2022-02-16雷电模拟器怎么进行定位?雷电模拟器定位的方法
2021-10-14