前嗅ForeSpider教程:抽取数据

栏目: ASP.NET · 发布时间: 6年前

内容简介:今天,小编为大家带来的教程是:如何在前嗅ForeSpider中抽取数据。主要内容包括:如何选择表单,如何采集列表/表格数据两大部分。具体内容如下:一,如何选择表单在ForeSpider爬虫中,表单是可以复用的表结构,建好的表单可以重复用于多个任务。

今天,小编为大家带来的教程是:如何在前嗅ForeSpider中抽取数据。主要内容包括:如何选择表单,如何采集列表/表格数据两大部分。具体内容如下:

一,如何选择表单

在ForeSpider爬虫中,表单是可以复用的表结构,建好的表单可以重复用于多个任务。

数据表选择页

前嗅ForeSpider教程:抽取数据

1.选择表单

方法一:通过下拉菜单,或填写表单ID,选择已有表单。

方法二:快速建表,点击创建表单,进入快速建表页面,新建表单。(>>详见快速建表)

方法三:自由建表,点击“采集配置”-“数据建表”,点击采“采集表单”后面的。(>>详见自由建表)

数据建表页

前嗅ForeSpider教程:抽取数据

2.数据存储方式

指的是数据采集时,在数据库里的存储方式。

①插入:默认为插入。如遇到数据库中已存在的重复数据,则不再插入。

②仅更新:如遇到数据库中已存在的重复数据,则用最新采集的数据覆盖掉。

③追加:如字段的属性是运算字段,则可以进行字段运算。

④插入并更新:没有重复的记录则插入,有重复记录则更新。

二,如何采集列表/表格数据

识别列表用于存储表格/列表的数据,将表格/列表的不同列对应存入不同字段,表格/列表的不同行分别存储为数据表的多条记录。以前嗅官网Web服务器( http://www.forenose.com/panne... )为例。

1.创建表单

根据表格内容,创建一个存储表格数据的表单。在选项卡“数据建表”中,创建一个表单。(>>自由建表)

识别列表的表结构

前嗅ForeSpider教程:抽取数据

(1)主键

采集表格时,表格的一行作为一条数据。由于整个表格属于同一个网页文档,而文档主键只有一个,因此不能像采集其他内容一样,取值类型选择“网页主键”。

表格的主键的变量类型,根据表格的行数长度,选择“Integer”或者“Long”。取值类型选择“空”。字段属性选择“主键字段”和“自动字段”(选择主键字段后,软件会自动选择“键值唯一”和“索引字段”。)

主键字段的配置

前嗅ForeSpider教程:抽取数据

(2)其他字段

其他字段的变量类型选择“string”,取值类型选择“选区内全部文本”。(>>字段参数)

其他字段的配置

前嗅ForeSpider教程:抽取数据

2.创建数据抽取

为数据抽取选择表单

选择表单

前嗅ForeSpider教程:抽取数据

3.识别多值

点击“默认数据抽取”节点,按Ctrl点击任意某个单元格,按Shift再次点击扩大区域范围。

定位表格

前嗅ForeSpider教程:抽取数据

点击“识别多值”,选区扩大到整个表格。点击“确认选区”。

确认多值

前嗅ForeSpider教程:抽取数据

4.字段取值

主键字段不需要配置。存储表格内容的字段需要一一取值。(方法一:标准定位/方法二:特征定位)

点击数据抽取的字段,为其一一配置表格不同列的数据。点击相应字段,按Ctrl点击第一列的任意单元格,点击“保存”。

多值字段取值

前嗅ForeSpider教程:抽取数据


以上所述就是小编给大家介绍的《前嗅ForeSpider教程:抽取数据》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Is Parallel Programming Hard, And, If So, What Can You Do About

Is Parallel Programming Hard, And, If So, What Can You Do About

Paul E. McKenney

The purpose of this book is to help you understand how to program shared-memory parallel machines without risking your sanity.1 By describing the algorithms and designs that have worked well in the pa......一起来看看 《Is Parallel Programming Hard, And, If So, What Can You Do About 》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具