今天小编为大家带来的教程是:如何在前嗅ForeSpider中进行,字段的取值与清洗。主要内容包括:自动取值字段,取值的两个方法,和字段清洗方式。具体内容如下:
一,自动取值的字段包括哪些
当字段设置为下列采集内容时,系统会自动为字段赋值。
1.网页地址:自动采集网页的URL地址。
2.网页标题:采集网页的标题。即网页
中的内容。</p>
<p>3.网页内文字文本:采集整个页面中所有可见的文字文本。</p>
<ol>
<li>网页内容:采集网页全部文本,包含html标签等,即整个页面的源代码。</li>
</ol>
<p>5.网页创建时间:文档创建或网页发布的时间。</p>
<p>6.网页更新时间:文档或网页更新的时间。</p>
<p>7.网页获取时间:ForeSpider采集该网页的时间。</p>
<p>8.当前系统时间:数据采集入库的时间。</p>
<p>9.文档数据大小:采集对象的质量大小[单位:字节]。</p>
<p> 10.文档名称:采集对象的文件名,如 <strong> <em>.html,</em> </strong> .doc。 </p>
<p>11.文档后缀:文档的文件名后缀,如html、pdf等。</p>
<p>12.文档视宽:文档的宽[如果是图片数据则为图片的宽]。</p>
<p>13.文档视高:文档的高[如果是图片数据则为图片的高]。</p>
<p>14.文档层级:自动获取从入口页当当前数据页的跳转层级数目。</p>
<p>15.频道ID:采集当前频道的ID。</p>
<p>16.频道名称:采集当前频道的名称。</p>
<p>二,取值方法</p>
<p>1.标准定位</p>
<p>(1)标准定位含义</p>
<p>通过在内置浏览器上,定位有所需数据的区域,为字段取值。大多数情况都选择“标准定位”。</p>
<p>(2)定位方法</p>
<p>①选择:按Ctrl点击页面上相应数据的区域。</p>
<p>②扩大选区:按Shift再次点击页面相应区域。</p>
<p>③确认选区:点击“确认选区”按钮,选区生效。</p>
<h4>标准定位</h4>
<p> <span> <img alt="前嗅ForeSpider教程:字段的取值与清洗" src="//img1.3s78.com/codercto/a533019626f8c20be9a93fb0b887a7e0"> </span> </p>
<p>2.特征定位</p>
<p>(1)特征定位含义</p>
<p>当所需数据在不同网页的位置不固定,且数据前后具有特征性文字时,用标准定位容易错位,需要使用特征定位。</p>
<p> 举例:对于字符串“作者: <em>*</em> ”,采集作者名称时,可用“作者:”作为特征来定位。 </p>
<p>(2)特征定位的操作方法</p>
<p>① 选择:按Ctrl点击页面上所需数据的区域。</p>
<p>② 识别特征:点击“识别特征”,出现红框,再次点击,红框移动到特征字符串时确认。</p>
<p>③ 点击“确认选区”按钮,选区生效。</p>
<p>(3)特征定位的类型</p>
<p>特征定位分为四种方式:</p>
<p>① 局部关键词</p>
<p>当页面的数据前有特定的关键词,而各个页面的表格内容、各行次序、行数又各不相同时,采用标准定位的方式就会错乱。可以根据表头特征,采集表格后的数据。与全文关键词的区别是,局部关键词只在选定区域的附近采集。</p>
<p>② 全文关键词</p>
<p>根据选定的特征关键词,在全页面采集该特征关键词前后对应的数据,如果出现多个特征关键词,以第一个为主。如果想采集多个的话,可以设定多值。>>查看多值的配置方式</p>
<p>③ 大文本</p>
<p>选定大文本区域后,自动识别各页面的大文本,相比标准定位更加精确。</p>
<p>④ 特殊标签</p>
<p>采集页面中只出现一次的特殊标签,如标题的<h2>标签等。</p>
<p>三,字段清洗方式</p>
<p>在采集数据之前,通过使用字段处理,软件可以自动以某种过滤方式,清洗该字段的字符串数据。通过系统自带的或脚本的方式,可以预先清洗不需要的字符串。</p>
<h4>字段处理</h4>
<p> <span> <img alt="前嗅ForeSpider教程:字段的取值与清洗" src="//img1.3s78.com/codercto/e9bef33cf3f51d80d6c994e1749e413e"> </span> </p>
<p>字段清洗的方式如下:</p>
<p> <span> <img alt="前嗅ForeSpider教程:字段的取值与清洗" src="//img1.3s78.com/codercto/3687f29b96d50db7d290897c9b25d1e7"> </span> </p>
<p>字段处理脚本是字段处理中选择“脚本处理”后,通过脚本进一步把需要的数据清洗干净。具体配置方法需要参考脚本文档。</p>
</div>
</div>
<br><p>以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 <a href='//www.codercto.com'>码农网</a></p>
<div class="center-block" style="text-align: center;display: none;">
<img src="//www.codercto.com/static/common/images/gzh.jpg" alt="关注码农网公众号" class="img-thumbnail">
<p>关注我们,获取更多IT资讯^_^</p>
<br>
</div>
<p></p>
<p>
<i class="fa fa-tags" aria-hidden="true"></i> <a target="_blank" href="https://www.codercto.com/tags.html">查看所有标签</a>
</p>
<strong>猜你喜欢:</strong>
<ul>
<li><a href="https://www.codercto.com/a/27081.html" target="_blank">如何优雅地链式取值</a></li>
<li><a href="https://www.codercto.com/a/105739.html" target="_blank">KotlinTips:getValueSafely 安全取值</a></li>
<li><a href="https://www.codercto.com/a/30183.html" target="_blank">如何优雅的链式取值之 MayBe 函子</a></li>
<li><a href="https://www.codercto.com/a/4817.html" target="_blank">jQuery EasyUI DataGrid Checkbox 数据设定与取值</a></li>
<li><a href="https://www.codercto.com/a/13551.html" target="_blank">javascript xml xsl取值及数据修改第1/2页</a></li>
<li><a href="https://www.codercto.com/a/61597.html" target="_blank">避免取值时出现Cannot read property 'xx' of undefined</a></li>
</ul>
<blockquote><p>本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请<a href="https://www.codercto.com/contact.html" rel="nofollow" target="_blank">联系我们</a>。</p></blockquote>
</div>
</div>
<div class="card markdown">
<div class="card-header"><a href="https://www.codercto.com/books.html">码农书籍</a></div>
<div>
<div class="float-left" style="padding: 10px;"><a href="https://www.codercto.com/books/d/1839.html"><img style="height: 140px;" class="media-object" src="https://img1.3s78.com/codercto/354dabd15ecaed57c6a065a0aca9b56e" alt="Web Design DeMYSTiFieD"></a></div>
<div class="" style="padding: 10px;">
<a href="https://www.codercto.com/books/d/1839.html"><h4>Web Design DeMYSTiFieD</h4></a>
<p>Willard, Wendy / 2010-11 / $ 24.86</p>
<p>Website Design just got a whole lot easier! This title helps you to learn the latest website development tools, techniques, and best practices. "Web Design Demystified" provides the hands-on help you ......一起来看看 <a href="https://www.codercto.com/books/d/1839.html">《Web Design DeMYSTiFieD》</a> 这本书的介绍吧!</p>
</div>
</div>
</div>
<div class="card markdown">
<div class="card-header"><a href="https://www.codercto.com/tool.html">码农工具</a></div>
<div class="row" style="padding: 10px;">
<div class="col-sm-6 col-md-4">
<div class="media">
<div class="media-left" style="margin-right: 5px;"><a href="https://www.codercto.com/tool/html_to_js.html"><img class="media-object" width="64" src="https://img1.3s78.com/codercto/dd5747703f65f6c59f08e8d1956b4773" alt="html转js在线工具"></a></div>
<div class="media-body">
<a href="https://www.codercto.com/tool/html_to_js.html"><h6 class="media-heading"><span>html转js在线工具</span></h6></a>
<p><span>html转js在线工具</span></p>
</div>
</div>
</div>
<div class="col-sm-6 col-md-4">
<div class="media">
<div class="media-left" style="margin-right: 5px;"><a href="https://www.codercto.com/tool/unix_timestamp.html"><img class="media-object" width="64" src="https://img1.3s78.com/codercto/9d1bbfe8db4d60304fea618b98d1f976" alt="UNIX 时间戳转换"></a></div>
<div class="media-body">
<a href="https://www.codercto.com/tool/unix_timestamp.html"><h6 class="media-heading"><span>UNIX 时间戳转换</span></h6></a>
<p><span>UNIX 时间戳转换</span></p>
</div>
</div>
</div>
<div class="col-sm-6 col-md-4">
<div class="media">
<div class="media-left" style="margin-right: 5px;"><a href="https://www.codercto.com/tool/regular.html"><img class="media-object" width="64" src="https://img1.3s78.com/codercto/e811b792d7c7b9f1f1008c71ca53a54b" alt="正则表达式在线测试"></a></div>
<div class="media-body">
<a href="https://www.codercto.com/tool/regular.html"><h6 class="media-heading"><span>正则表达式在线测试</span></h6></a>
<p><span>正则表达式在线测试</span></p>
</div>
</div>
</div>
</div>
</div>
</div>
<div class="sidebar col-md-3">
<div class="card">
<div class="card-body">
<script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script>
<ins class="adsbygoogle"
style="display:inline-block;width:250px;height:250px"
data-ad-client="ca-pub-5598567030231501"
data-ad-slot="6435657477"></ins>
<script>
(adsbygoogle = window.adsbygoogle || []).push({});
</script>
</div>
</div>
<div class="card tagMenu">
<div style="background: #f5f5f5;" >
<div class="tabs_menu">
<li style="width: 50px;">New</li>
<li id="newestArticles" class="selected" onclick="showNewestData('newestArticles');">文章</li>
<li id="newestTopics" onclick="showNewestData('newestTopics');">话题</li>
<li id="newestCourses" onclick="showNewestData('newestCourses');">教程</li>
</div>
</div>
<ul class="list-group list-group-flush newestArticles">
<li class="list-group-item">· <a href="https://www.codercto.com/a/131449.html">苹果:开发者计划所有会员到本月底必须启用两步认证</a></li>
<li class="list-group-item">· <a href="https://www.codercto.com/a/131448.html">NG-ZORRO-MOBILE 0.11.0 发布,antd 移动规范的 Angular 实现</a></li>
<li class="list-group-item">· <a href="https://www.codercto.com/a/131447.html">韩国Luna币暴跌 分析师:Luna 2.0也没戏 过去一周缩水一多半</a></li>
<li class="list-group-item">· <a href="https://www.codercto.com/a/131446.html">苹果鼓励Beta测试者提交错误来提高iOS 16的软件质量</a></li>
<li class="list-group-item">· <a href="https://www.codercto.com/a/131445.html">2021全球半导体设备厂商TOP15:ASML只第二、中国仅1家</a></li>
<li class="list-group-item">· <a href="https://www.codercto.com/a/131444.html">Windows 11 RTM版存在BUG:符合条件设备显示不支持升级</a></li>
</ul>
<ul style="display: none" class="list-group list-group-flush newestTopics">
<li class="list-group-item">· <a href="https://www.codercto.com/topics/50966.html">2025年4月06日 程序员老黄历,宜:拒绝996</a></li>
<li class="list-group-item">· <a href="https://www.codercto.com/topics/50965.html">2025年4月05日 程序员老黄历,宜:拒绝996</a></li>
<li class="list-group-item">· <a href="https://www.codercto.com/topics/50964.html">微软 Edge 浏览器重大调整:淘汰旧 API,全面拥抱隐私新标准</a></li>
<li class="list-group-item">· <a href="https://www.codercto.com/topics/50963.html">2025年4月04日 程序员老黄历,宜:抽烟,面试,浏览成人网站</a></li>
<li class="list-group-item">· <a href="https://www.codercto.com/topics/50962.html">Adobe PR 视频编辑软件将支持尼康 N-RAW 格式</a></li>
<li class="list-group-item">· <a href="https://www.codercto.com/topics/50961.html">10999 元,尼康 Z5 II 全画幅微单入门相机正式发布</a></li>
</ul>
<ul style="display: none" class="list-group list-group-flush newestCourses">
<li class="list-group-item">· <a href="https://www.codercto.com/courses/d/4242.html">JMeter录制登录测试</a></li>
<li class="list-group-item">· <a href="https://www.codercto.com/courses/d/4241.html">JMeter分布式负载测试(吞吐量控制器)</a></li>
<li class="list-group-item">· <a href="https://www.codercto.com/courses/d/4240.html">JMS主题测试计划</a></li>
<li class="list-group-item">· <a href="https://www.codercto.com/courses/d/4239.html">JMS点对点测试计划</a></li>
<li class="list-group-item">· <a href="https://www.codercto.com/courses/d/4238.html">JMeter JMS测试计划</a></li>
<li class="list-group-item">· <a href="https://www.codercto.com/courses/d/4237.html">JMeter Webservice API测试计划</a></li>
</ul>
<script>
function showNewestData(id) {
$('.newestArticles,.newestTopics,.newestCourses').hide();
$('#newestArticles,#newestTopics,#newestCourses').removeClass('selected');
$('#'+id).addClass('selected');
$('.'+id).show();
}
</script>
</div> <div class="card">
<div class="card-header">关注 码农网 公众号</div>
<div class="card-body"><img src="//www.codercto.com/static/common/images/gzh.jpg"></div>
</div>
</div>
</div>
</div>
<script>
var contentType = 1;
var contentId = '63720';
var updatePvUrl = 'https://www.codercto.com/articles/updatePv';
</script>
<script src="//www.codercto.com/static/common/js/copyright.js"></script>
<style>
.main-footer .tag-cloud a{border:1px solid #ebebeb;padding:2px 7px;color:#959595;line-height:1.5em;display:inline-block;margin:0 7px 7px 0;-webkit-transition:all 0.2s ease;-o-transition:all 0.2s ease;transition:all 0.2s ease}
.main-footer .tag-cloud a:hover{color:#ffffff;background:#379be9;border:1px solid #379be9;text-decoration:none}
.main-footer .widget .recent-post .recent-single-post{border-bottom:1px dashed #ebebeb;padding-bottom:5px;margin-bottom:10px}.main-footer .widget .recent-post .recent-single-post:last-child{margin-bottom:0}.main-footer .widget .recent-post .recent-single-post .post-title{color:#505050;-webkit-transition:all .2s ease;-o-transition:all .2s ease;transition:all .2s ease}.main-footer .widget .recent-post .recent-single-post .post-title:hover{color:#379be9;text-decoration:none}.main-footer .widget .recent-post .recent-single-post .date{color:#959595}.main-footer .widget .recent-post .recent-single-post{border-bottom:1px dashed #303030}.main-footer .widget .recent-post .recent-single-post .post-title{color:#959595}.main-footer .widget .recent-post .recent-single-post .post-title:hover{color:#379be9}.main-footer .widget .recent-post .recent-single-post .date{color:#505050}
.main-footer .widget{padding:0px 10px}.widget{margin-bottom:35px}.widget .title{margin-top:0;padding-bottom:7px;border-bottom:1px solid #ebebeb;margin-bottom:21px;position:relative}.widget .title:after{content:"";width:90px;height:1px;background:#379be9;position:absolute;left:0;bottom:-1px}.main-footer{background:#202020;padding:35px 0 0;color:#959595}.main-footer .widget .title{color:#ffffff;border-bottom:1px solid #303030}.main-footer .widget .tag-cloud a{border:1px solid #303030}.main-footer .widget .tag-cloud a:hover{border:1px solid #379be9}.main-footer .widget .friend-links a{border:none}.main-footer .widget .friend-links a:hover{border:none}.main-footer .widget .friend-links hr{margin:1em 0;border-top:1px dashed #303030}.main-footer .widget .recent-post .recent-single-post{border-bottom:1px dashed #303030}.main-footer .widget .recent-post .recent-single-post .post-title{color:#959595}.main-footer .widget .recent-post .recent-single-post .post-title:hover{color:#379be9}.main-footer .widget .recent-post .recent-single-post .date{color:#505050}.copyright{background:#111;font-size:13px;text-align:center;color:#555555;padding-top:28px;padding-bottom:28px;border-top:1px solid #303030}.copyright span{margin:0 .5em}.copyright a{color:#555555}
.main-footer .recent-single-post{overflow: hidden;text-overflow: ellipsis;white-space: nowrap;}
#roll{bottom:70px;float:right;position:fixed;right:50px;width:32px;z-index:9999}
#roll_top,#roll_bottom{position:relative;cursor:pointer;height:32px;width:32px;border-radius:4px}
#roll_top{background:url("//www.codercto.com/static/v3/images/rolls.png") no-repeat}
#roll_top:hover{background:url("//www.codercto.com/static/v3/images/rolls.png") no-repeat -32px 0}
#roll_bottom{background:url("//www.codercto.com/static/v3/images/rolls.png") no-repeat 0 -64px;margin-top:6px}
#roll_bottom:hover{background:url("//www.codercto.com/static/v3/images/rolls.png") no-repeat -32px -64px}
footer{margin-top:50px;margin-bottom: 0;}
</style>
<footer class="main-footer">
<div class="container">
<div class="row">
<div class="col-sm-4">
<div class="widget">
<h4 class="title">码农网最新文章</h4>
<div class="content recent-post">
<div class="recent-single-post"><a href="https://www.codercto.com/a/131449.html" class="post-title">苹果:开发者计划所有会员到本月底必须启用两步认证</a></div><div class="recent-single-post"><a href="https://www.codercto.com/a/131448.html" class="post-title">NG-ZORRO-MOBILE 0.11.0 发布,antd 移动规范的 Angular 实现</a></div><div class="recent-single-post"><a href="https://www.codercto.com/a/131447.html" class="post-title">韩国Luna币暴跌 分析师:Luna 2.0也没戏 过去一周缩水一多半</a></div><div class="recent-single-post"><a href="https://www.codercto.com/a/131446.html" class="post-title">苹果鼓励Beta测试者提交错误来提高iOS 16的软件质量</a></div><div class="recent-single-post"><a href="https://www.codercto.com/a/131445.html" class="post-title">2021全球半导体设备厂商TOP15:ASML只第二、中国仅1家</a></div> </div>
</div>
</div>
<div class="col-sm-4">
<div class="widget">
<h4 class="title">码农网最新帖子</h4>
<div class="content recent-post">
<div class="recent-single-post"><a href="https://www.codercto.com/topics/50966.html" class="post-title">2025年4月06日 程序员老黄历,宜:拒绝996</a></div><div class="recent-single-post"><a href="https://www.codercto.com/topics/50965.html" class="post-title">2025年4月05日 程序员老黄历,宜:拒绝996</a></div><div class="recent-single-post"><a href="https://www.codercto.com/topics/50964.html" class="post-title">微软 Edge 浏览器重大调整:淘汰旧 API,全面拥抱隐私新标准</a></div><div class="recent-single-post"><a href="https://www.codercto.com/topics/50963.html" class="post-title">2025年4月04日 程序员老黄历,宜:抽烟,面试,浏览成人网站</a></div><div class="recent-single-post"><a href="https://www.codercto.com/topics/50962.html" class="post-title">Adobe PR 视频编辑软件将支持尼康 N-RAW 格式</a></div> </div>
</div>
</div>
<div class="col-sm-4">
<div class="widget">
<h4 class="title">码农网关键词</h4>
<div class="content tag-cloud friend-links">
<a href="//www.codercto.com">码农网</a>
<a href="//www.codercto.com">码农</a>
<a href="//www.codercto.com">程序员</a>
<a href="//www.codercto.com">码农教程</a>
<a href="//www.codercto.com">码农社区</a>
<a href="//www.codercto.com">码农工具</a>
<a href="//www.codercto.com">码农日报</a>
<a href="//www.codercto.com">码农头条</a>
<a href="//www.codercto.com">码农网论坛</a>
<a href="//www.codercto.com">码农网源码</a>
<a href="//www.codercto.com">码农网官网</a>
</div>
</div>
</div>
</div>
</div>
</footer>
<div class="copyright">
<div class="container">
<div class="row">
<div class="col-sm-12">
<span>版权所有,保留一切权利!© 2018-2025 <a href="//www.codercto.com">码农网</a></span>
<a href="https://beian.miit.gov.cn/#/Integrated/index" rel="nofollow" target="_blank">粤ICP备17054400号-3</a>
</div>
</div>
</div>
</div>
<div id="roll" class="hidden-xs">
<div title="回到顶部" id="roll_top"></div>
<div title="转到底部" id="roll_bottom"></div>
</div>
<script src="//www.codercto.com/static/common/highlight.js/9.15.9/highlight.min.js"></script>
<script src="//www.codercto.com/static/common/highlight.js/9.15.9/jquery.4.2.2.form.min.js"></script>
<script src="//www.codercto.com/static/common/js/spop.min.js"></script>
<script>
$(function () {
$.ajax({
headers:{'X-CSRF-TOKEN': $('meta[name="csrf-token"]').attr('content')},
url:updatePvUrl,
type:'post',
data:{contentId:contentId},
success:function () {}
})
$('.likeable').click(function () {
$('#myModal').modal();return false;
})
$('.bookmark').click(function () {
$('#myModal').modal();return false;
})
})
</script>
<script src="//www.codercto.com/static/common/js/prettify.js"></script>
<script src="//www.codercto.com/static/common/js/jquery.1.9.1.lazyload.min.js"></script>
<script>$(".markdown-body img").lazyload({effect : "fadeIn"})</script>
<script>
$(function () {
hljs.initHighlightingOnLoad();
$('#roll_top').click(function() {
$('body,html').animate({
scrollTop: '0px'
}, 900);
});
$("#roll_bottom").click(function() {
$('body,html').animate({
scrollTop:$("footer").offset().top
},800);
});
if($('div').hasClass('float'))
{
var $sidebar = $(".float"),
$window = $(window),
offset = $sidebar.offset(),
topPadding = 80;
$window.scroll(function() {
if ($window.scrollTop() > offset.top) {
$sidebar.stop().animate({
marginTop: $window.scrollTop() - offset.top + topPadding
});
} else {
$sidebar.stop().animate({
marginTop: 0
});
}
});
}
})
</script>
<!--baidu数据提交 start-->
<script>
(function(){
var bp = document.createElement('script');
var curProtocol = window.location.protocol.split(':')[0];
if (curProtocol === 'https') {
bp.src = 'https://zz.bdstatic.com/linksubmit/push.js';
}
else {
bp.src = 'http://push.zhanzhang.baidu.com/push.js';
}
var s = document.getElementsByTagName("script")[0];
s.parentNode.insertBefore(bp, s);
})();
</script>
<!--baidu数据提交 end-->
<!--baidu统计-->
<script>
var _hmt = _hmt || [];
(function() {
var hm = document.createElement("script");
hm.src = "https://hm.baidu.com/hm.js?552b747d172e1541cf0f7e748f6c4d59";
var s = document.getElementsByTagName("script")[0];
s.parentNode.insertBefore(hm, s);
})();
</script>
</body>
</html>