爬山虎采集器官网版是一款简单好用可采集99%的采集工具,智能分析,可视化界面,无需学习编程,点击式界面,自动生成采集脚本等优势,让你轻松做站!通用的网页采集软件,它能够采集互联网上的大部分网站数据,包括网页表格数据、文档、图片及其他各种形式文件,自动批量下载到本地电脑。可以定时运行,自动发布,增量更新采集,完全实现自动化运行,无需要人工干涉。有需要的小伙伴快来下载吧。
1、一键提取数据:简单易学,通过可视化界面,鼠标点击即可抓取数据。
2、快速高效:内置一套高速浏览器内核,加上HTTP引擎模式,实现快速采集数据。
3、适用于各种网站:能够采集互联网99%的网站,包括单页应用、Ajax加载等等动态类型网站。
4、导出数据类型丰富,可以将采集到的数据导出为Csv、Excel以及各种数据库,支持api导出。
1、向导模式:简单易用,轻松通过鼠标点击自动生成;
2、脚本定时运行:可按照计划定时运行,无需人工;
3、独创高速内核:自研的浏览器内核,速度飞快,远超对手;
4、智能识别:对于网页中的列表、表单结构(多选框下拉列表等)能够智能识别;
5、广告屏蔽:定制的广告屏蔽模块,兼容AdblockPlus语法,可添加自定义规则;
6、多种数据导出:支持Txt 、Excel、MySQL、SQLServer、SQlite、Access、网站等。
第一步:打开下载好的安装包,直接选择运行。
第二步:接收相关条款后,运行安装程序PashanhuV2Setup.exe。 install
第三步:然后一直点击下一步,直到完成。
第四步:安装完成后,可以看到爬山虎采集器V2的主界面 main
1、如何采集手机版网页的数据?
一般情况下,一个网站有电脑版网页和手机版网页,如果电脑版(PC)网页的反爬虫很严格的话,我们就可以尝试抓取手机网页。
①选择新建编辑任务;
②在新建的【编辑任务】中,选择【第三步、设置】;
③设置UA(浏览器标识)为“手机”即可。
2、如何手动选择列表数据(当自动识别失败时)
在采集列表页时,如果自动识别列表失败,或者识别的数据不是我们想到的数据,这时我们就需要手动选择列表数据。
如何手动选择列表数据呢?
①点击【清空所有】,把已有字段清空掉。
②点击菜单栏的【列表数据】,选择【选择列表】
③用鼠标点击列表中的任一元素。
④在点击列表中另一行的一个相似元素。
一般情况下,这时采集器会自动列举出列表中的所有字段。我们在对结果进行一些修改即可。
如果没有列举出字段的话,就需要我们手动添加字段。点击【添加字段】,然后点击列表中的元素数据即可。
3、采集文章正文时,鼠标无法选中整个内容时怎么办?
一般情况下,在爬山虎采集器中,通过鼠标点击,选择要抓取的内容。但是在一些情况下,比如要抓取一篇文章的完整内容时,内容较长时,鼠标有时就不好定位了。
①我们可以通过右击网页选择【检查元素】,来定位内容。
②通过点击【向上】按钮,扩大选择的内容。
③当扩大到我们的整篇内容时,全选中【XPath】,然后复制。
④修改字段的XPath,把刚才复制的XPath粘贴进去,确定。
⑤最后,修改取值属性,想要HMTL就使用InnerHTML或者OuterHTML。
问:如何抓包获取Cookie,并且手动设置?
1.首先,使用谷歌浏览器打开要采集的网站,并且登陆。
2.然后按下 F12,会出现开发者工具,选择 Network
3.然后按下F5,刷新下页面, 选择其中一个请求。
4.复制完成后,在爬山虎采集器中,编辑任务,进入第三步,指定HTTP Header。
问:如何过滤列表中的前N个数据?
1.有时我们需要对采集到的列表进行过滤,比如过滤掉第一组数据(在采集表格时,过滤掉表格列名)
2.点击列表模式菜单中的,设置列表xpath
同类推荐
2022-09-14
立即下载2022-09-14
立即下载2022-09-14
立即下载2022-09-14
立即下载2022-09-10
立即下载2022-09-10
立即下载相关文章
浩辰CAD看图王怎么打印?浩辰CAD看图王打印的方法
2021-12-08CAD快速看图如何打印图纸?
2021-11-05Adobe Animate常用快捷键有哪些?
2022-02-24百度影音怎么添加字幕?百度影音添加字幕的方法
2022-05-23逍遥模拟器如何开启ROOT权限?
2021-12-28鲁大师如何看电脑配置?鲁大师看电脑配置的技巧
2022-04-28蓝叠模拟器下载的文件保存在哪?
2021-11-20云顶之弈11.10版复苏魔女阵容玩法攻略
2022-08-12美图秀秀提取图中原色的技巧
2022-01-11office2010产品密钥 office2010最新永久密钥大全
2020-07-08