首页 > 软件科技 > 正文

八爪鱼自定义采集数据(八爪鱼软件的自定义采集工作方式下)

作者：hao3332024-07-15 03:42:336396

有了上次使用模板爬取数据的经验，相信大家应该能够更加熟练的使用Octopus Collector了。也许有的朋友好奇，我们只能通过软件预设的模板来爬取数据吗？当然不是。 Octopus Collector还具有自定义采集功能，供用户采集自己想要的数据。与预设模块相比，定制更加灵活。虽然比预设的模板要复杂一些，但爬虫获取到的数据也会更符合你的意愿。本文小编将为大家带来八达通采集器自定义模块的教程。

步骤1 八爪鱼自定义采集数据(八爪鱼软件的自定义采集工作方式下)

首先，像往常一样，启动并登录您的Octopus Collector，进入主界面，点击【新建】下的【新建任务组】来创建一个新组。

八爪鱼自定义采集数据(八爪鱼软件的自定义采集工作方式下)

单击“确定”创建新组

步骤2 八爪鱼自定义采集数据(八爪鱼软件的自定义采集工作方式下)

创建组后，点击【新建】下的自定义任务，你会看到这样的界面。

八爪鱼自定义采集数据(八爪鱼软件的自定义采集工作方式下)

我们可以寻找我们想要抓取的网页的链接。这里，小编就去京东搜索手机。当搜索结果出来后，我们可以复制链接。

八爪鱼自定义采集数据(八爪鱼软件的自定义采集工作方式下)

将我们复制的链接粘贴到URL栏中，将任务组更改为之前创建的组，然后单击【保存设置】。

步骤3 八爪鱼自定义采集数据(八爪鱼软件的自定义采集工作方式下)

保存设置后，会跳转到抓取界面，软件会自动开始识别要抓取的网页部分。根据每台机器网络速度的不同，相应的等待时间也会有所不同。

八爪鱼自定义采集数据(八爪鱼软件的自定义采集工作方式下)

识别完成后，我们可以看到有很多数据，其中有很多无用的数据需要我们剔除。

八爪鱼自定义采集数据(八爪鱼软件的自定义采集工作方式下)

将光标移动到表格字段，将出现两个图标。钢笔图标是更改字段名称，垃圾桶是删除字段。

八爪鱼自定义采集数据(八爪鱼软件的自定义采集工作方式下)

我们可以自由删除和更改字段名称。这里我只保留上图中的字段。

步骤4 八爪鱼自定义采集数据(八爪鱼软件的自定义采集工作方式下)

设置完字段后，我们将注意力转向上图中的小方框。第一个是不可选的，所以我们直接忽略它。

采集前滚动页面加载更多数据：由于现在很多网站都使用动态页面，加载时有些内容不会显示。只有当我们下拉的时候才会逐渐显示出来。这个功能就是为了防止这种情况发生。

翻页并采集多页数据：设置抓取多个页面，取消勾选仅抓取当前页面。

点击列表中的XXX，采集下一级页面：该功能可以让我们抓取子页面内的内容。

这里我们不深入爬取，只勾选前两项，然后点击【生成集合设置】。

八爪鱼自定义采集数据(八爪鱼软件的自定义采集工作方式下)

单击“生成”后，系统将要求您开始保存或查看。单击此处保存并开始收集。

步骤5 八爪鱼自定义采集数据(八爪鱼软件的自定义采集工作方式下)

到达这个界面后，我们可以看到一个详细的流程。内循环列表就是本页面爬取的内容。

八爪鱼自定义采集数据(八爪鱼软件的自定义采集工作方式下)

我们点击外循环的设置按钮。

八爪鱼自定义采集数据(八爪鱼软件的自定义采集工作方式下)

展开退出循环设置并检查循环执行次数。这里我们只爬取3页。

八爪鱼自定义采集数据(八爪鱼软件的自定义采集工作方式下)

开始收集

八爪鱼自定义采集数据(八爪鱼软件的自定义采集工作方式下)

采集完成后，点击导出。

八爪鱼自定义采集数据(八爪鱼软件的自定义采集工作方式下)

另外，如果你抓取的页面中存在重复数据，软件也会直接提示你根据自己的情况选择保留还是删除。

八爪鱼自定义采集数据(八爪鱼软件的自定义采集工作方式下)

导出方式

八爪鱼自定义采集数据(八爪鱼软件的自定义采集工作方式下)

导出的文件保存在哪里

八爪鱼自定义采集数据(八爪鱼软件的自定义采集工作方式下)

保存完成

八爪鱼自定义采集数据(八爪鱼软件的自定义采集工作方式下)

查看数据

以上就是小编为大家带来的Octopus Collector自定义模块教程。熟练使用后，相信小伙伴们可以收集到更多的数据。使用八达通采集器采集数据后，您可以根据采集到的数据使用八达通采集器进行数据采集。进行分析并完成各项任务。希望这篇文章能够对大家有所帮助。

相关推荐

八爪鱼自定义采集数据(八爪鱼软件的自定义采集工作方式下)

八爪鱼采集器还有一个自定义采集功能，以供用户采集自己想要的数据，本文给大家带来的是八爪鱼采集器的自定义模块教程，希望能解决大家的问题。

hao333
2024-07-15
9398 6708 5718
excel怎么隔几行插行这个技巧教给你看(excel表里隔几行插一行)

同事请你帮忙，要求将Excel表格中的各个数据之间插入空行，但是要求是同类的数据不要隔行，这可咋办，有上百个数据啊，一个一个找出来手动插入那不要弄到明天了，不要急，下面小编就来教你一招如何快速做到隔几行插行。

hao333
2024-07-15
7405 9208 4112
welink使用教程(welink可以直接加入会议吗)

作为一款华为旗下的数字办公软件，用户可以通过WeLink在线进行邮件的收发，还可以随时发起和参与视频会议进行办公，如果你还不知道怎么发起会议，就赶快来看看吧！

hao333
2024-07-15
4706 7531 8698
vivox21价格多少钱一台(vivo x21s价格)

vivo X21是一款由vivo公司在3月19号发布的最新全面屏旗舰手机，相信由很多小伙伴都想要入手这款手机，那么今天我们就来了解一下这款手机各个配置的价格，让你知道怎么选。

hao333
2024-07-15
9382 2523 8003
vivox27对比苹果11(vivox21和苹果xr哪个好)

vivo X21是由vivo公司2018年上半年最新推出的旗舰机型，那么有不少用户跟之前的iPhone X进行对比，下面通过这篇文章我们来看看vivo X21和苹果X的性能区别，一起来了解一下。

hao333
2024-07-15
4055 7579 4509
三星s9对比苹果xs(三星s9+和苹果x那个比较值得入手)

三星 Galaxy S9+是由三星公司2018年上半年最新推出的旗舰机型，那么有不少用户跟之前的iPhone X进行对比，下面通过这篇文章我们来看看苹果X和Galaxy S9 Plus的区别，一起来了解一下。

hao333
2024-07-15
2891 6239 7104
华为p20手机好用吗?功能强大吗?(华为p20好吗?)

华为P20终于来啦！这一次的华为带给我们更多的惊喜，尤其是在相机方面可谓是无敌的存在，那么这个手机究竟值不值得入手呢？下面就和小编一起来看看！

hao333
2024-07-15
4293 3812 7125
pycharm2020.2.5(pycharm 2020.3)

Pycharm是Python编程最广泛使用的编程软件之一，干净利落的界面，超方便的功能特性，日前Pycharm2020 1全新版本已经更新了，更为方便智能，一起和小编围观吧！

hao333
2024-07-15
6498 4088 8405