前嗅ForeSpider教程:抽取数据

栏目: ASP.NET · 发布时间: 5年前

内容简介:今天,小编为大家带来的教程是:如何在前嗅ForeSpider中抽取数据。主要内容包括:如何选择表单,如何采集列表/表格数据两大部分。具体内容如下:一,如何选择表单在ForeSpider爬虫中,表单是可以复用的表结构,建好的表单可以重复用于多个任务。

今天,小编为大家带来的教程是:如何在前嗅ForeSpider中抽取数据。主要内容包括:如何选择表单,如何采集列表/表格数据两大部分。具体内容如下:

一,如何选择表单

在ForeSpider爬虫中,表单是可以复用的表结构,建好的表单可以重复用于多个任务。

数据表选择页

前嗅ForeSpider教程:抽取数据

1.选择表单

方法一:通过下拉菜单,或填写表单ID,选择已有表单。

方法二:快速建表,点击创建表单,进入快速建表页面,新建表单。(>>详见快速建表)

方法三:自由建表,点击“采集配置”-“数据建表”,点击采“采集表单”后面的。(>>详见自由建表)

数据建表页

前嗅ForeSpider教程:抽取数据

2.数据存储方式

指的是数据采集时,在数据库里的存储方式。

①插入:默认为插入。如遇到数据库中已存在的重复数据,则不再插入。

②仅更新:如遇到数据库中已存在的重复数据,则用最新采集的数据覆盖掉。

③追加:如字段的属性是运算字段,则可以进行字段运算。

④插入并更新:没有重复的记录则插入,有重复记录则更新。

二,如何采集列表/表格数据

识别列表用于存储表格/列表的数据,将表格/列表的不同列对应存入不同字段,表格/列表的不同行分别存储为数据表的多条记录。以前嗅官网Web服务器( http://www.forenose.com/panne... )为例。

1.创建表单

根据表格内容,创建一个存储表格数据的表单。在选项卡“数据建表”中,创建一个表单。(>>自由建表)

识别列表的表结构

前嗅ForeSpider教程:抽取数据

(1)主键

采集表格时,表格的一行作为一条数据。由于整个表格属于同一个网页文档,而文档主键只有一个,因此不能像采集其他内容一样,取值类型选择“网页主键”。

表格的主键的变量类型,根据表格的行数长度,选择“Integer”或者“Long”。取值类型选择“空”。字段属性选择“主键字段”和“自动字段”(选择主键字段后,软件会自动选择“键值唯一”和“索引字段”。)

主键字段的配置

前嗅ForeSpider教程:抽取数据

(2)其他字段

其他字段的变量类型选择“string”,取值类型选择“选区内全部文本”。(>>字段参数)

其他字段的配置

前嗅ForeSpider教程:抽取数据

2.创建数据抽取

为数据抽取选择表单

选择表单

前嗅ForeSpider教程:抽取数据

3.识别多值

点击“默认数据抽取”节点,按Ctrl点击任意某个单元格,按Shift再次点击扩大区域范围。

定位表格

前嗅ForeSpider教程:抽取数据

点击“识别多值”,选区扩大到整个表格。点击“确认选区”。

确认多值

前嗅ForeSpider教程:抽取数据

4.字段取值

主键字段不需要配置。存储表格内容的字段需要一一取值。(方法一:标准定位/方法二:特征定位)

点击数据抽取的字段,为其一一配置表格不同列的数据。点击相应字段,按Ctrl点击第一列的任意单元格,点击“保存”。

多值字段取值

前嗅ForeSpider教程:抽取数据


以上所述就是小编给大家介绍的《前嗅ForeSpider教程:抽取数据》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

现代操作系统(原书第4版)

现代操作系统(原书第4版)

[荷] Andrew S. Tanenbaum、[荷] Herbert Bos / 陈向群、马洪兵 等 / 机械工业出版社 / 2017-7 / 89.00

Andrew S. Tanenbaum教授编写的教材《现代操作系统》现在已经是第4版了。第4版在保持原有特色的基础上,又增添了许多新的内容,反映了当代操作系统的发展与动向,并不断地与时俱进。 对比第3版,第4版有很多变化。一些是教材中多处可见的细微变化,一些是就某一功能或机制增加了对最新技术的介绍,如增加了futex同步原语、读–复制–更新(Read-Copy-Update)机制以及6级RA......一起来看看 《现代操作系统(原书第4版)》 这本书的介绍吧!

在线进制转换器
在线进制转换器

各进制数互转换器

HTML 编码/解码
HTML 编码/解码

HTML 编码/解码

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试