【流程图模式】如何倒序采集网页数据
摘要:在数据采集的时候,经常会需要倒序采集(从最后一页开始往前采集数据)的情况。本文将简单说明如何使用后羿采集器的流程图模式进行网页数据的倒序采集。 免费下载软件
在数据采集的时候,经常会需要倒序采集(从最后一页开始往前采集数据)的情况。本文将简单说明如何使用后羿采集器的流程图模式进行网页数据的倒序采集。
情况一:列表页翻页后,链接改变,存在最后一页链接
处理方式一:将列表页最后一页链接作为采集链接
当我们能够直接拿到网站最后一页的链接时,可以通过直接复制链接的形式,用最后一页的链接来创建采集任务。
1. 在浏览器里点击到最后一页,复制最后一页的链接。
2. 创建一个流程图模式采集任务。
3. 流程图模式识别到列表后软件会提示是否需要识别下一页按钮,根据操作提示,手动点选识别“上一页”按钮来实现翻页。
4. 启动任务开始倒序采集。
处理方式二:批量设置倒序页码
当网站的链接会根据翻页而改变,却没有“上一页”按钮实现往前翻页的操作时,可以通过设置页码来实现倒序采集。
1. 复制第二页的链接。一般来说第一页的链接有可能跟第二页、第三页的链接有差别,没法直接通过第一页的链接来找规律生成链接,所以建议是直接复制第二页的链接来创建任务。
2. 利用批量生成网址功能来生成链接。如下图所示,“起始”设置成“最后一页”,“截至”设置成“第一页”,“步长”选择“递减”。
详细的操作流程请参考教程:如何批量生成网址
3. 已经批量生成网址的情况下,就不需要设置翻页按钮了。可以在操作提示内选择“不需要翻页,只采集当前页”。如果页面内容较多需要滚动才能显示更多的数据,建议设置成“瀑布流分页(滚动加载)”。
4. 启动任务开始倒序采集。
情况二:列表页翻页后,链接不变,不存在最后一页链接
处理方式一:网页存在跳转到最后一页的按钮
当网站的链接不会根据翻页而改变,我们无法直接拿到最后一页的链接时,我们可以通过直接点击最后一页的翻页按钮来跳转到最后一页,实现倒序采集。
1. 创建一个流程图模式采集任务。
2. 添加点击组件,翻页到最后一页。
3. 同样识别到列表后软件会提示是否需要识别下一页按钮,根据操作提示,手动点选识别“上一页”按钮来实现翻页。
4. 启动任务开始倒序采集。
处理方式二:网页存在页码输入框
当网站的链接不会根据翻页而改变,我们无法直接拿到最后一页的链接时,我们可以通过直接输入最后一页的页码来跳转到最后一页,实现倒序采集。
1. 创建一个流程图模式采集任务。
2. 添加“输入文本”组件和“点击”组件,翻页到最后一页。
3. 同样识别到列表后软件会提示是否需要识别下一页按钮,根据操作提示,手动点选识别“上一页”按钮来实现翻页。
4. 启动任务开始倒序采集。