以下是在使用后羿采集器过程中涉及到的一些名词。
采集规则:
这是后羿采集器记录采集任务的具体设置信息,并且能进行导入导出操作的一个程序脚本。导入已有的规则后既可以进行修改,也可以不做修改直接按照所配置的规则自动地进行数据采集,导出的规则可以发送给其他用户进行使用。
XPath:
这是一种路径查询语言,简单的说就是利用一个路径表达式找到我们需要的数据在网页中的位置。
以下简介来自百度百科,请点此查看更详细内容:
XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。XPath基于XML的树状结构,有不同类型的节点,包括元素节点,属性节点和文本节点,提供在数据结构树中找寻节点的能力。 起初 XPath 的提出的初衷是将其作为一个通用的、介于XPointer与XSLT间的语法模型。但是 XPath 很快的被开发者采用来当作小型查询语言。
如果您想更深入的进行学习,请点此查看W3school中的学习教程。
HTML:
这是用来描述网页的一种语言,主要用于控制数据的显示和外观,HTML文档也被称为网页。
以下简介来自百度百科,请点此查看更详细的内容。
超文本标记语言,标准通用标记语言下的一个应用。“超文本”就是指页面内可以包含图片、链接,甚至音乐、程序等非文字元素。
超文本标记语言的结构包括“头”部分(英语:Head)、和“主体”部分(英语:Body),其中“头”部提供关于网页的信息,“主体”部分提供网页的具体内容。
如果您想更深入的进行学习,请点此查看W3school中的学习教程。
URL:
URL就是网站的网址。
以下简介来自百度百科,请点此查看更详细的内容。
统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。 [1]
它最初是由蒂姆·伯纳斯·李发明用来作为万维网的地址。现在它已经被万维网联盟编制为互联网标准RFC1738了。
Cookie:
Cookie就是服务器暂时存放在你计算机上的一笔资料(例如你在网站上所输入的文字,如用户名、密码等,以及其他一些操作记录),好让服务器来辨认你的计算机。
以下简介来自百度百科,请点此查看更详细的内容。
Cookie,有时也用其复数形式 Cookies,指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密)。定义于 RFC2109 和 2965 中的都已废弃,最新取代的规范是 RFC6265 [1] 。(可以叫做浏览器缓存)
正则表达式:
这是一种过滤数据的规则,用来在采集时进行数据的提取和替换等操作。
以下简介来自百度百科,请点此查看更详细的内容。
正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。
许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。正则表达式通常缩写成“regex”,单数有regexp、regex,复数有regexps、regexes、regexen。