火车采集器中文版是一款功能强大且易于上手的专业的互联网数据抓取、处理、分析,挖掘软件,强大的内容采集和数据导入功能能将您采集的任何网页数据发布到远程服务器。火车采集器中文版可以灵活迅速地抓取网页上散乱分布的数据信息,并通过一系列的分析处理,准确挖掘出所需数据。火车采集器中文版历经十年的升级更新,积累了大量用户和良好口碑,是目前最受欢迎的网页数据采集软件。采集不限网页,不限内容,支持多种扩展,打破操作局限。采什么,如何采,都由您决定!
1、规则自定义 - 通过采集规则的定义,可以搜索所有网站采集几乎任何类型的信息。
2、多任务,多线程 - 可以同时进行多个信息采集任务,每个任务可以使用多个线程。
3、所见即所得 - 任务采集过程所见即所得,过程中遍历的链接信息、采集信息、错误信息等都会及时的反映在软件界面中。
4、数据保存 - 数据边采集边自动保存到关系数据库中,并且数据结构能够自动适应,软件可以根据采集规则自动创建数据库,以及其中的表和字段,也可以通过导库方式灵活的将数据保存到客户已有的数据库结构中。
5、断点续采 - 信息采集任务可以在停止后从断点开始继续采集,从此你用不再担心你的采集任务意外中断了。
6、网站登录 - 支持网站Cookie,支持网站可视化登录,即使登录时需要验证码的网站也能采集。
7、计划任务 - 通过这个功能可以让你的采集任务定时、定量或者一直循环执行。
8、采集范围限制 - 可以根据采集的深度和网址的标识来限制采集的范围。
9、文件下载 - 可以将采集到的二进制文件(诸如:图片、音乐、软件、文档等等)下载到本地磁盘或者采集结果数据库中。
10、结果替换 - 可以将采集的结果根据规则替换成你定义的内容。
11、条件保存 - 可以根据某个条件来决定那些信息保存,那些信息过滤。
12、过滤重复内容 - 软件可根据用户设置和实际情况对重复内容和重复网址自动删除重复内容。
13、特殊链接识别 - 运用此功能可以将用JavaScript动态生成的链接或其他更古怪的连接识别出来。
14、数据发布 - 可以通过自定义接口,将已采集的结果数据发布到任意的内容管理系统和指定数据库中。现在已支持的目标发布媒体包括:数据库(access, sql server,my sql,oracle) ,静态htm文件。
15、预留编程接口 - 定义多个编程接口,用户可以在事件中利用PHP,C#语言进行编程,扩充采集功能。
1.在程序主界面中,点击“新建”下拉箭头,从中选择“任务”项。
2.在弹出的窗口中,输入“任务名”,同时点击“起始网址”栏目右侧的“添加”按钮。
3.接下来就极为重要的一步,就是对要进行采集的网站进行分板,对所采取的网站中各片文章的URL进行综合分析并找出规律,最后按如图进行填写。
4.然后切换至“第二步:采集内容规则”选项卡中,我们需要对网页内容进行分板。在此以“搜狗浏览器”为例,右击要进行分析的网页,从弹出的菜单中选择“审查元素”项。
5.在“开发式模式”界面中,点击“选择页面中的一个元素去透视”按钮,接着点击“标题”内容,此时就可以在“开发者”窗口中显示标题所对应的标签,此例为“h2"。
6.接下来在”采集内容规则“界面中,点击“添加”按钮来添加“标题”项,或者直接双击“标题”项进行修改。在弹出的界面中,勾选”前后截取“,将设置前后辍分别为"“、”".
7.利用同样的方法添加其它采集内容的规则。切换至“第三步:发布内容设置”选项卡,勾选“启用 方式二”,并进行如图设置。
8.最后从任务列表中,勾选要采集的内容,点击“开始”按钮就可以按规则采集网站中的网页内容啦。
1.在发布配置那里,无法刷新列表,总提示“格式不符”?
答:这个有很多原因,请依次确认下,一是否登陆成功, 请开启查看返回代码功能,比如说您刷新列表的页面只有登陆后才可以访问的话您必须先登陆网站才 可以,看一下是不是登陆的cookie正确否;二可能您选错了模块,不同的版本或是网站系统的 模块,一般是不通用的,请使用对应版本的模块;三可能是您的网站和默认模块刷新列表的页面里有不同的地方, 比如模块是用默认风格做的,您又换了另一个风格,请参照模开发相关手册部分进行修改,或者使用‘使用自定义分类参数’;四,您在选区项设置里选择了使用蜘蛛做模拟浏览功能,请改成本地浏览器浏览。
2.发内容--WEB发布错误,返回代码请查看,采集的内容重复发布,显示发布成功 未知?
答:出现类似这个错误:发内容--WEB发布错误,返回代码请查 看:File:///E:Documents and SettingsAdministrator桌面2008标准版Data1-admin5-seoWebError.log。 请一定要记得打开这个log文件。看里边返回什么代码。
如果返回代码为空,那可能就是发布的太快,您的服务器反应不过来,没有 返回任何字符。这时可能是发布成功了,也可能是发布失败了。具体请上网站查看。如何处理呢?请修改发布速度(问题3)。不要太短,主要以能发布成功为准。
3.Discuz中出现" 您的请求来路不正确或验证字串不符,无法提交"?
答:这个是discuz在发布时会发一个formhash, 这个值是在发布页面获取到的。出现此情况是获取到的formhash不正确引起的。请使用火车头内置浏览器登录并查看源码,查找"formhash=", 然后修改在线发布模块,将其值替换掉原发布模块里面的[登录随机值1](当然有可能是登录随机值X,与模块作者使用的有关)或是您自己修改模块使程序可以 正确获取到formhash.
4.发布到网站上,发现所有内容挤在一块,查看源代码,发现空格丢失了?
答:有两种可能:一是您做规则时过滤空格所致:另一个是您的系统会过滤,这时,请在“内容发布设置”里选中“数据发布时进行UrlEncode处理”。风讯就属于些 类。
5.图片发布时总是相对地址,不是远程地址?
答:请在标签编辑里选中“将相对地址补全为绝对地址”。默认您选了下载图片 后,就不需要选中这个选项了。
6.未找到任何可发布的内容.?
答:这个是程序在本地数据库里找不到未标记为未发的记录。这种情况是您将所有数据已发布过了,或是您在任务栏目里没有选 发内容 。
7.测试时或发布时出现 "出现同一帐号同时只能一个在线,或是您的帐号已被禁用"?
答:这个是网站系统不允许一个帐号同时在多个在线,比如帝国系统。这个情况下建议您使用专门的一个帐号用来采集发布。不要用它来登陆网站。
8.有些时候,明明已经正确获取web cookie,但是测试的时候仍然是没有登录呢?
答:这个一个是cookie 过期的问题,另一个可能是我们程序获取的不正确(很抱歉,程序目前还无法正确获取所有的cookie)。这种情况下,建议您使用专业的抓包软件,如 WSockExpert.用来抓取cookie,然后将抓取到的cookie填写到程序保存cookie的地方。
9.如何设置发表的速度?
答:请在“编辑任务”里"文件保存及高级设置里"设置采集及发布速度,时间单 位是毫秒。
10.采集地址重复,该怎么办?
答:程序会保存采集页的地址,默认是采过的是不再再去采集。如果你是需要重新采的话可以将原来的任务 地址库和本地已采数据全部删掉。如果您要采的网页里内容是不断变化的,你可以选不检测重复的选项
同类推荐
2022-09-14
立即下载2022-09-14
立即下载2022-09-14
立即下载2022-09-14
立即下载2022-09-10
立即下载2022-09-10
立即下载相关文章
什么是Conhost.exe?如何检查Conhost.exe病毒?
2020-04-14火绒安全软件粉碎文件的技巧
2021-12-27AutoCAD 2020密钥下载_永久激活AutoCAD 2020
2021-10-29老毛桃一键重装系统的操作教程
2020-12-23Audacity如何录音?Audacity录音的技巧
2022-05-23内存条频率怎么看?CPU-Z查看内存条频率的方法
2022-02-17录大咖如何电脑录制游戏视频?
2021-02-23小白告诉你SDelete Gui的使用方法
2020-11-23福昕PDF编辑器修改PDF文档字体及颜色的技巧
2022-01-07CAD快速看图提取表格到excel的图文教程
2021-11-05