5
新手入门 功能点介绍

【智能模式】如何设置页面类型

2020-10-16 17:27:05
浏览 7033 次

摘要:本教程主要给大家介绍在智能模式中如何设置页面类型。 免费下载软件

在智能模式中,后羿采集器会默认按照列表类型进行识别,如果您输入网页属于单页类型,此时的页面类型识别结果肯定是不正确的;或者由于网页加载速度等其他原因,即使您输入的网页是列表类型,也可能出现识别失败的情况,此时您可以手动设置页面类型。

关于单页和列表页的介绍请参考以下教程:

什么是单页类型的网页?如何采集?

什么是列表类型的网页?如何采集?

分页设置的过程如下:

页面类型”的设置菜单如下图所示。

如果是单页类型的网页,您可以直接选择“单页类型”。

如果是列表类型的网页,您可以点击“自动识别”,软件会重新尝试识别列表。

列表中的每一个元素会在页面中用绿色的线框选起来,列表元素中的每一个字段会用红色的线框选起来。

如果自动识别效果不符合您的要求,您可以通过“手动点选列表”和“编辑列表Xpath”两种方式来修改识别结果。

手动点选列表的操作步骤如下:

第一步:点击“手动点选列表”的选项

第二步:点击网页中列表的第一行的第一个元素

第三步:点击网页中列表的第二行的第一个元素

备注:在上图中,我们做了两次列表的修改,第一次将识别结果修改为左侧的列表,第二次将识别结果修改为右侧的列表。

编辑Xpath的设置如下图所示:

分享到:
python爬虫 网页下载成word php爬虫 批量下载视频 数据自动整理成excel 批量生成网址 python数据采集 正则匹配邮箱 网页内容关键字提取 批量下载图片
关闭