内容简介:今天小编为大家带来的教程是:如何在前嗅ForeSpider中进行,字段的取值与清洗。主要内容包括:自动取值字段,取值的两个方法,和字段清洗方式。具体内容如下:一,自动取值的字段包括哪些当字段设置为下列采集内容时,系统会自动为字段赋值。
今天小编为大家带来的教程是:如何在前嗅ForeSpider中进行,字段的取值与清洗。主要内容包括:自动取值字段,取值的两个方法,和字段清洗方式。具体内容如下:
一,自动取值的字段包括哪些
当字段设置为下列采集内容时,系统会自动为字段赋值。
1.网页地址:自动采集网页的URL地址。
2.网页标题:采集网页的标题。即网页
3.网页内文字文本:采集整个页面中所有可见的文字文本。
- 网页内容:采集网页全部文本,包含html标签等,即整个页面的源代码。
5.网页创建时间:文档创建或网页发布的时间。
6.网页更新时间:文档或网页更新的时间。
7.网页获取时间:ForeSpider采集该网页的时间。
8.当前系统时间:数据采集入库的时间。
9.文档数据大小:采集对象的质量大小[单位:字节]。
10.文档名称:采集对象的文件名,如 .html, .doc。
11.文档后缀:文档的文件名后缀,如html、pdf等。
12.文档视宽:文档的宽[如果是图片数据则为图片的宽]。
13.文档视高:文档的高[如果是图片数据则为图片的高]。
14.文档层级:自动获取从入口页当当前数据页的跳转层级数目。
15.频道ID:采集当前频道的ID。
16.频道名称:采集当前频道的名称。
二,取值方法
1.标准定位
(1)标准定位含义
通过在内置浏览器上,定位有所需数据的区域,为字段取值。大多数情况都选择“标准定位”。
(2)定位方法
①选择:按Ctrl点击页面上相应数据的区域。
②扩大选区:按Shift再次点击页面相应区域。
③确认选区:点击“确认选区”按钮,选区生效。
标准定位
2.特征定位
(1)特征定位含义
当所需数据在不同网页的位置不固定,且数据前后具有特征性文字时,用标准定位容易错位,需要使用特征定位。
举例:对于字符串“作者: * ”,采集作者名称时,可用“作者:”作为特征来定位。
(2)特征定位的操作方法
① 选择:按Ctrl点击页面上所需数据的区域。
② 识别特征:点击“识别特征”,出现红框,再次点击,红框移动到特征字符串时确认。
③ 点击“确认选区”按钮,选区生效。
(3)特征定位的类型
特征定位分为四种方式:
① 局部关键词
当页面的数据前有特定的关键词,而各个页面的表格内容、各行次序、行数又各不相同时,采用标准定位的方式就会错乱。可以根据表头特征,采集表格后的数据。与全文关键词的区别是,局部关键词只在选定区域的附近采集。
② 全文关键词
根据选定的特征关键词,在全页面采集该特征关键词前后对应的数据,如果出现多个特征关键词,以第一个为主。如果想采集多个的话,可以设定多值。>>查看多值的配置方式
③ 大文本
选定大文本区域后,自动识别各页面的大文本,相比标准定位更加精确。
④ 特殊标签
采集页面中只出现一次的特殊标签,如标题的
标签等。
三,字段清洗方式
在采集数据之前,通过使用字段处理,软件可以自动以某种过滤方式,清洗该字段的字符串数据。通过系统自带的或脚本的方式,可以预先清洗不需要的字符串。
字段处理
字段清洗的方式如下:
字段处理脚本是字段处理中选择“脚本处理”后,通过脚本进一步把需要的数据清洗干净。具体配置方法需要参考脚本文档。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 如何优雅地链式取值
- KotlinTips:getValueSafely 安全取值
- 如何优雅的链式取值之 MayBe 函子
- jQuery EasyUI DataGrid Checkbox 数据设定与取值
- javascript xml xsl取值及数据修改第1/2页
- 避免取值时出现Cannot read property 'xx' of undefined
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Alone Together
Sherry Turkle / Basic Books / 2011-1-11 / USD 28.95
Consider Facebookit’s human contact, only easier to engage with and easier to avoid. Developing technology promises closeness. Sometimes it delivers, but much of our modern life leaves us less connect......一起来看看 《Alone Together》 这本书的介绍吧!