前嗅ForeSpider教程:数据建表

栏目: ASP.NET · 发布时间: 5年前

内容简介:今天,小编为大家带来的教程是:如何在前嗅ForeSpider中,进行数据建表操作及各注意事项。主要内容包括:快速建表,自由建表,字段参数,数据表的创建,关联与删除,以及表单变更后的配置修改。一,如何快速建表若在数据抽取链接下,没有相应表单可供选择,可点击“创建表单”按钮,快速创建表单。可添加表单名称、字段名称,选择字段类型、表单模板。

今天,小编为大家带来的教程是:如何在前嗅ForeSpider中,进行数据建表操作及各注意事项。主要内容包括:快速建表,自由建表,字段参数,数据表的创建,关联与删除,以及表单变更后的配置修改。

一,如何快速建表

若在数据抽取链接下,没有相应表单可供选择,可点击“创建表单”按钮,快速创建表单。可添加表单名称、字段名称,选择字段类型、表单模板。

1.字段类型

①主键字段

②名称

③标题

④数字(-20亿~20亿)

⑤长整型数字

⑥时间值

⑦地址

⑧小文本(小于64k)

⑨大型文本

(>>字段参数)

2.表单模板

在表单模板中选择已经建好的表单,可以在表单中添加、删除、修改字段。

快速创建表单:

前嗅ForeSpider教程:数据建表

二,如何自由建表

1.概念解释

表单:规定了数据表都有哪些“列”,也就是都有哪些字段。数据存储结构类似的采集任务,可以共用同一个表单。一个表单可以创建多个数据表。

字段:在数据库中,表单的“列”称为“字段”,每个字段存储某一项的信息。

2.创建表单和字段

在表单列表点击“添加”按钮,创建一个新的表单。点击表单配置右侧的“添加”按钮,即弹出添加字段的窗口。

添加字段:

前嗅ForeSpider教程:数据建表

字段具体参数的设置方法,详见下节(>>字段参数)

3.字段修改

在数据建表的表单配置右侧,可以对表单进行一系列操作。

添加字段:

前嗅ForeSpider教程:数据建表

修改字段

前嗅ForeSpider教程:数据建表

字段排名上移

前嗅ForeSpider教程:数据建表

字段排名下移

前嗅ForeSpider教程:数据建表

删除字段

前嗅ForeSpider教程:数据建表

保存数据表

前嗅ForeSpider教程:数据建表

三,字段参数

1.字段名称

字段名称由英文字符、数字、下划线、$构成,且不能以数字开头。

①不支持中文。

②区分大小写。

③不能是 SQL 语句关键字:如select、time等。

2.字段属性

大部分情况无需选择字段属性。

一般数据表都需要一个主键字段,作为唯一ID记录。主键字段需要勾选“主键字段”,勾选后自动会选上“索引字段”和“键值唯一”。

前嗅ForeSpider教程:数据建表

3.采集内容

指该字段需要从网页上获取的数据内容。

当字段需要存储页面的url地址、采集时间、网页title等内容时,通过选择对应的采集,就可以自动为该字段赋值。(>>自动取值字段)

当某字段存储的是网页上的内容数据时,比如文章的标题、联系人名称、电话号码等,通过选择“选区内全部文本”,再在内置浏览器上定位,就可以自动获取网页的数据。

前嗅ForeSpider教程:数据建表

示例:

(1)选区内全部文本:

  • 百度
,采集全部标签下的内容。

(2)选区最外层节点文本:

  • 百度
,只选取
    节点,不采集
  • 内容。

    (3)选区最外两层节点文本:

    • 百度
    ,只采集
    • 的内容,不采集

      的内容。

      (4)网页内文字文本:采集整个页面中所有可见的文字文本。

4.数据类型

数据类型如下表所示:

前嗅ForeSpider教程:数据建表

5.字符串长度

只有变量类型是字符串时需要填写长度。字符串长度有两种情况:

(1)短文本

文本长度不大时,可以填写字符串长度,字符串可填写的最大长度为255。字段长度尽量不要设置的偏小,防止有超出长度的数据无法存入数据库。

(2)大文本

文本较大时,无需填写字符串长度。

①长文本:适用于新闻、正文等小于64K的文本。

设置长文本

前嗅ForeSpider教程:数据建表

也可以通过选择变长字段的方式,在数据库中两种方式效果相同。

设置变长字段

前嗅ForeSpider教程:数据建表

②超长文本:适用于论文等长文。

设置超长文本

前嗅ForeSpider教程:数据建表

6.字段描述

在“字段描述”文本框里,用户可以为字段填写描述性的注释内容。

四,数据表的创建、关联与删除

表单只是定义了都有哪些字段,想要实现数据的存储,需要对表单创建对应的数据表。(软件默认连接了ForeLib数据库,可更改。)

关联数据表

前嗅ForeSpider教程:数据建表

  1. 创建数据表

选择表单,在表单的左下方点击“创建”,输入数据表名称(仅限英文),完成数据表的创建。

  1. 关联数据表

勾选前面的多选框,即已关联数据表。取消勾选,解除关联。

采集数据时,数据存入勾选的数据表。

  1. 删除数据表

可以删除已创建的数据表。

  1. 反建表单

反建表单会根据数据库中,已存在的数据表创建爬虫表单。

五,表单变更后的配置修改

表单建好后,如果已经配置了模板中的字段,甚至已经建立了数据表,则修改表单,需要进行下列操作。

1.影响字段节点取值的情况

如果字段名称、字段数量和采集内容更改,需要到对应任务的字段节点,修改字段和采集内容。修改方式有两种:

(1)重置表单

重新选择表单名称后,这里的表单将被重置,所有的字段取值配置(包括字段处理脚本)也被清空,需要逐一重新配置字段取值。

(2)添加删除字段

当表单做了修改字段名称、添加删除字段的操作后,可以不必重置表单,在模板列表对应的数据抽取节点,通过右键添加删除字段,将两边的字段名称和数量保持一致即可。

这里的添加删除操作只针对该数据抽取,不会改动表单。

添加数据字段

前嗅ForeSpider教程:数据建表

①添加字段

在模板列表对应的数据抽取节点,点击右键,选择“添加数据字段”,可以新建字段。

②删除字段

在某字段上点击右键,可以删除该字段。

③修改采集内容

通过字段节点向导中的下拉菜单,修改采集内容与表单中的一致即可。

2.已创建数据表

当数据表已经建好后,修改表单会影响采集,原数据表不能适应新的表单结构。在上述修改字段的基础上,还需要删除原数据表,再重新创建一个新的数据表。


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Java Message Service API Tutorial and Reference

Java Message Service API Tutorial and Reference

Hapner, Mark; Burridge, Rich; Sharma, Rahul / 2002-2 / $ 56.49

Java Message Service (JMS) represents a powerful solution for communicating between Java enterprise applications, software components, and legacy systems. In this authoritative tutorial and comprehens......一起来看看 《Java Message Service API Tutorial and Reference》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

随机密码生成器
随机密码生成器

多种字符组合密码

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器