前嗅ForeSpider教程：字段的取值与清洗

栏目: Html · 发布时间: 7年前

内容简介：今天小编为大家带来的教程是：如何在前嗅ForeSpider中进行，字段的取值与清洗。主要内容包括：自动取值字段，取值的两个方法，和字段清洗方式。具体内容如下：一，自动取值的字段包括哪些当字段设置为下列采集内容时，系统会自动为字段赋值。

今天小编为大家带来的教程是：如何在前嗅ForeSpider中进行，字段的取值与清洗。主要内容包括：自动取值字段，取值的两个方法，和字段清洗方式。具体内容如下：

一，自动取值的字段包括哪些

当字段设置为下列采集内容时，系统会自动为字段赋值。

1.网页地址：自动采集网页的URL地址。

2.网页标题：采集网页的标题。即网页中的内容。</p> <p>3.网页内文字文本：采集整个页面中所有可见的文字文本。</p> <ol> <li>网页内容：采集网页全部文本，包含html标签等，即整个页面的源代码。</li> </ol> <p>5.网页创建时间：文档创建或网页发布的时间。</p> <p>6.网页更新时间：文档或网页更新的时间。</p> <p>7.网页获取时间：ForeSpider采集该网页的时间。</p> <p>8.当前系统时间：数据采集入库的时间。</p> <p>9.文档数据大小：采集对象的质量大小[单位:字节]。</p> <p> 10.文档名称：采集对象的文件名，如 <strong> <em>.html，</em> </strong> .doc。 </p> <p>11.文档后缀：文档的文件名后缀，如html、pdf等。</p> <p>12.文档视宽：文档的宽[如果是图片数据则为图片的宽]。</p> <p>13.文档视高：文档的高[如果是图片数据则为图片的高]。</p> <p>14.文档层级：自动获取从入口页当当前数据页的跳转层级数目。</p> <p>15.频道ID：采集当前频道的ID。</p> <p>16.频道名称：采集当前频道的名称。</p> <p>二，取值方法</p> <p>1.标准定位</p> <p>（1）标准定位含义</p> <p>通过在内置浏览器上，定位有所需数据的区域，为字段取值。大多数情况都选择“标准定位”。</p> <p>（2）定位方法</p> <p>①选择：按Ctrl点击页面上相应数据的区域。</p> <p>②扩大选区：按Shift再次点击页面相应区域。</p> <p>③确认选区：点击“确认选区”按钮，选区生效。</p> <h4>标准定位</h4> <p> <span> <img alt="前嗅ForeSpider教程：字段的取值与清洗" src="//img1.3s78.com/codercto/a533019626f8c20be9a93fb0b887a7e0"> </span> </p> <p>2.特征定位</p> <p>（1）特征定位含义</p> <p>当所需数据在不同网页的位置不固定，且数据前后具有特征性文字时，用标准定位容易错位，需要使用特征定位。</p> <p> 举例：对于字符串“作者： <em>*</em> ”，采集作者名称时，可用“作者：”作为特征来定位。 </p> <p>（2）特征定位的操作方法</p> <p>① 选择：按Ctrl点击页面上所需数据的区域。</p> <p>② 识别特征：点击“识别特征”，出现红框，再次点击，红框移动到特征字符串时确认。</p> <p>③ 点击“确认选区”按钮，选区生效。</p> <p>（3）特征定位的类型</p> <p>特征定位分为四种方式：</p> <p>① 局部关键词</p> <p>当页面的数据前有特定的关键词，而各个页面的表格内容、各行次序、行数又各不相同时，采用标准定位的方式就会错乱。可以根据表头特征，采集表格后的数据。与全文关键词的区别是，局部关键词只在选定区域的附近采集。</p> <p>② 全文关键词</p> <p>根据选定的特征关键词，在全页面采集该特征关键词前后对应的数据，如果出现多个特征关键词，以第一个为主。如果想采集多个的话，可以设定多值。>>查看多值的配置方式</p> <p>③ 大文本</p> <p>选定大文本区域后，自动识别各页面的大文本，相比标准定位更加精确。</p> <p>④ 特殊标签</p> <p>采集页面中只出现一次的特殊标签，如标题的<h2>标签等。</p> <p>三，字段清洗方式</p> <p>在采集数据之前，通过使用字段处理，软件可以自动以某种过滤方式，清洗该字段的字符串数据。通过系统自带的或脚本的方式，可以预先清洗不需要的字符串。</p> <h4>字段处理</h4> <p> <span> <img alt="前嗅ForeSpider教程：字段的取值与清洗" src="//img1.3s78.com/codercto/e9bef33cf3f51d80d6c994e1749e413e"> </span> </p> <p>字段清洗的方式如下：</p> <p> <span> <img alt="前嗅ForeSpider教程：字段的取值与清洗" src="//img1.3s78.com/codercto/3687f29b96d50db7d290897c9b25d1e7"> </span> </p> <p>字段处理脚本是字段处理中选择“脚本处理”后，通过脚本进一步把需要的数据清洗干净。具体配置方法需要参考脚本文档。</p> </div> </div> <br><p>以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持 <a href='//www.codercto.com'>码农网</a></p> <div class="center-block" style="text-align: center;display: none;"> <img src="//www.codercto.com/static/common/images/gzh.jpg" alt="关注码农网公众号" class="img-thumbnail"> <p>关注我们，获取更多IT资讯^_^</p> <br> </div> <p></p> <p> <i class="fa fa-tags" aria-hidden="true"></i> <a target="_blank" href="https://codercto.com/tags.html">查看所有标签</a> </p> <strong>猜你喜欢:</strong> <ul> <li><a href="https://codercto.com/a/27081.html" target="_blank">如何优雅地链式取值</a></li> <li><a href="https://codercto.com/a/105739.html" target="_blank">KotlinTips：getValueSafely 安全取值</a></li> <li><a href="https://codercto.com/a/30183.html" target="_blank">如何优雅的链式取值之 MayBe 函子</a></li> <li><a href="https://codercto.com/a/4817.html" target="_blank">jQuery EasyUI DataGrid Checkbox 数据设定与取值</a></li> <li><a href="https://codercto.com/a/13551.html" target="_blank">javascript xml xsl取值及数据修改第1/2页</a></li> <li><a href="https://codercto.com/a/61597.html" target="_blank">避免取值时出现Cannot read property 'xx' of undefined</a></li> </ul> <blockquote><p>本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请<a href="https://www.codercto.com/contact.html" rel="nofollow" target="_blank">联系我们</a>。</p></blockquote> </div> </div> <div class="card markdown"> <div class="card-header"><a href="https://codercto.com/books.html">码农书籍</a></div> <div> <div class="float-left" style="padding: 10px;"><a href="https://codercto.com/books/d/2165.html"><img style="height: 140px;" class="media-object" src="https://img1.3s78.com/codercto/297a656ba4d56a6eeb16e7e58d9d5f7e" alt="SSA：用户搜索心理与行为分析"></a></div> <div class="" style="padding: 10px;"> <a href="https://codercto.com/books/d/2165.html"><h4>SSA：用户搜索心理与行为分析</h4></a> <p>[美] 罗森菲尔德（Louis Rosenfeld） / 汤海、蔡复青 / 清华大学出版社 / 2014-4-1 / 59.00</p> <p>何为站内搜索分析（SSA）？它如何帮助你挖掘用户搜索曰志，从中洞悉用户搜索心理和行为，从而有针对性地改善用户体验，提升网站价值？这些都可以从《SSA：用户搜索心理与行为分析》中找到答案。《SSA：用户搜索心理与行为分析》首先通过故事来说明SSA是如何使Vanguard集团起死回生的，简要介绍SSA并指导读者动手实践。其次，通过丰富的实例来介绍很多工具和方法，帮助读者着手分析用户查询数据，从中获得更......一起来看看 <a href="https://codercto.com/books/d/2165.html">《SSA：用户搜索心理与行为分析》</a> 这本书的介绍吧!</p> </div> </div> </div> <div class="card markdown"> <div class="card-header"><a href="https://codercto.com/tool.html">码农工具</a></div> <div class="row" style="padding: 10px;"> <div class="col-sm-6 col-md-4"> <div class="media"> <div class="media-left" style="margin-right: 5px;"><a href="https://codercto.com/tool/markdown.html"><img class="media-object" width="64" src="https://img1.3s78.com/codercto/85dc4dac4fed3d55094496d942275a09" alt="Markdown 在线编辑器"></a></div> <div class="media-body"> <a href="https://codercto.com/tool/markdown.html"><h6 class="media-heading"><span>Markdown 在线编辑器</span></h6></a> <p><span>Markdown 在线编辑器</span></p> </div> </div> </div> <div class="col-sm-6 col-md-4"> <div class="media"> <div class="media-left" style="margin-right: 5px;"><a href="https://codercto.com/tool/regular.html"><img class="media-object" width="64" src="https://img1.3s78.com/codercto/e811b792d7c7b9f1f1008c71ca53a54b" alt="正则表达式在线测试"></a></div> <div class="media-body"> <a href="https://codercto.com/tool/regular.html"><h6 class="media-heading"><span>正则表达式在线测试</span></h6></a> <p><span>正则表达式在线测试</span></p> </div> </div> </div> <div class="col-sm-6 col-md-4"> <div class="media"> <div class="media-left" style="margin-right: 5px;"><a href="https://codercto.com/tool/rgb_cmyk.html"><img class="media-object" width="64" src="https://img1.3s78.com/codercto/9739dbee3e724714dbdb1e7c7e61d0d5" alt="RGB CMYK 转换工具"></a></div> <div class="media-body"> <a href="https://codercto.com/tool/rgb_cmyk.html"><h6 class="media-heading"><span>RGB CMYK 转换工具</span></h6></a> <p><span>RGB CMYK 互转工具</span></p> </div> </div> </div> </div> </div> </div> <div class="sidebar col-md-3"> <div class="card"> <div class="card-body"> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:inline-block;width:250px;height:250px" data-ad-client="ca-pub-5598567030231501" data-ad-slot="6435657477"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> </div> <div class="card tagMenu"> <div style="background: #f5f5f5;" > <div class="tabs_menu"> <li style="width: 50px;">New</li> <li id="newestArticles" class="selected" onclick="showNewestData('newestArticles');">文章</li> <li id="newestTopics" onclick="showNewestData('newestTopics');">话题</li> <li id="newestCourses" onclick="showNewestData('newestCourses');">教程</li> </div> </div> <ul class="list-group list-group-flush newestArticles"> <li class="list-group-item">· <a href="https://codercto.com/a/131452.html">Python 3.14 RC3 发布</a></li> <li class="list-group-item">· <a href="https://codercto.com/a/131451.html">Spring AI 1.0.2 现已发布</a></li> <li class="list-group-item">· <a href="https://codercto.com/a/131450.html">OpenSSL 3.5.3 发布</a></li> <li class="list-group-item">· <a href="https://codercto.com/a/131449.html">苹果：开发者计划所有会员到本月底必须启用两步认证</a></li> <li class="list-group-item">· <a href="https://codercto.com/a/131448.html">NG-ZORRO-MOBILE 0.11.0 发布，antd 移动规范的 Angular 实现</a></li> <li class="list-group-item">· <a href="https://codercto.com/a/131447.html">韩国Luna币暴跌分析师：Luna 2.0也没戏过去一周缩水一多半</a></li> </ul> <ul style="display: none" class="list-group list-group-flush newestTopics"> <li class="list-group-item">· <a href="https://codercto.com/topics/52460.html">2026年5月01日程序员老黄历，宜:跳槽,面试</a></li> <li class="list-group-item">· <a href="https://codercto.com/topics/52459.html">2026年4月30日程序员老黄历，宜:锻炼一下身体,面试,在妹子面前吹牛,代码复审</a></li> <li class="list-group-item">· <a href="https://codercto.com/topics/52458.html">2026年4月29日程序员老黄历，宜:锻炼一下身体,白天上线</a></li> <li class="list-group-item">· <a href="https://codercto.com/topics/52457.html">2026年4月28日程序员老黄历，宜:跳槽,招人</a></li> <li class="list-group-item">· <a href="https://codercto.com/topics/52456.html">2026年4月27日程序员老黄历，宜:写单元测试,使用%t,招人,提交辞职申请</a></li> <li class="list-group-item">· <a href="https://codercto.com/topics/52455.html">2026年4月26日程序员老黄历，宜:拒绝996</a></li> </ul> <ul style="display: none" class="list-group list-group-flush newestCourses"> <li class="list-group-item">· <a href="https://codercto.com/courses/d/4242.html">JMeter录制登录测试</a></li> <li class="list-group-item">· <a href="https://codercto.com/courses/d/4241.html">JMeter分布式负载测试（吞吐量控制器）</a></li> <li class="list-group-item">· <a href="https://codercto.com/courses/d/4240.html">JMS主题测试计划</a></li> <li class="list-group-item">· <a href="https://codercto.com/courses/d/4239.html">JMS点对点测试计划</a></li> <li class="list-group-item">· <a href="https://codercto.com/courses/d/4238.html">JMeter JMS测试计划</a></li> <li class="list-group-item">· <a href="https://codercto.com/courses/d/4237.html">JMeter Webservice API测试计划</a></li> </ul> <script> function showNewestData(id) { $('.newestArticles,.newestTopics,.newestCourses').hide(); $('#newestArticles,#newestTopics,#newestCourses').removeClass('selected'); $('#'+id).addClass('selected'); $('.'+id).show(); } </script> </div> <div class="card"> <div class="card-header">关注码农网公众号</div> <div class="card-body"><img src="//www.codercto.com/static/common/images/gzh.jpg"></div> </div> </div> </div> </div> <script> var contentType = 1; var contentId = '63720'; var updatePvUrl = 'https://codercto.com/articles/updatePv'; </script> <script src="//www.codercto.com/static/common/js/copyright.js"></script> <style> .main-footer .tag-cloud a{border:1px solid #ebebeb;padding:2px 7px;color:#959595;line-height:1.5em;display:inline-block;margin:0 7px 7px 0;-webkit-transition:all 0.2s ease;-o-transition:all 0.2s ease;transition:all 0.2s ease} .main-footer .tag-cloud a:hover{color:#ffffff;background:#379be9;border:1px solid #379be9;text-decoration:none} .main-footer .widget .recent-post .recent-single-post{border-bottom:1px dashed #ebebeb;padding-bottom:5px;margin-bottom:10px}.main-footer .widget .recent-post .recent-single-post:last-child{margin-bottom:0}.main-footer .widget .recent-post .recent-single-post .post-title{color:#505050;-webkit-transition:all .2s ease;-o-transition:all .2s ease;transition:all .2s ease}.main-footer .widget .recent-post .recent-single-post .post-title:hover{color:#379be9;text-decoration:none}.main-footer .widget .recent-post .recent-single-post .date{color:#959595}.main-footer .widget .recent-post .recent-single-post{border-bottom:1px dashed #303030}.main-footer .widget .recent-post .recent-single-post .post-title{color:#959595}.main-footer .widget .recent-post .recent-single-post .post-title:hover{color:#379be9}.main-footer .widget .recent-post .recent-single-post .date{color:#505050} .main-footer .widget{padding:0px 10px}.widget{margin-bottom:35px}.widget .title{margin-top:0;padding-bottom:7px;border-bottom:1px solid #ebebeb;margin-bottom:21px;position:relative}.widget .title:after{content:"";width:90px;height:1px;background:#379be9;position:absolute;left:0;bottom:-1px}.main-footer{background:#202020;padding:35px 0 0;color:#959595}.main-footer .widget .title{color:#ffffff;border-bottom:1px solid #303030}.main-footer .widget .tag-cloud a{border:1px solid #303030}.main-footer .widget .tag-cloud a:hover{border:1px solid #379be9}.main-footer .widget .friend-links a{border:none}.main-footer .widget .friend-links a:hover{border:none}.main-footer .widget .friend-links hr{margin:1em 0;border-top:1px dashed #303030}.main-footer .widget .recent-post .recent-single-post{border-bottom:1px dashed #303030}.main-footer .widget .recent-post .recent-single-post .post-title{color:#959595}.main-footer .widget .recent-post .recent-single-post .post-title:hover{color:#379be9}.main-footer .widget .recent-post .recent-single-post .date{color:#505050}.copyright{background:#111;font-size:13px;text-align:center;color:#555555;padding-top:28px;padding-bottom:28px;border-top:1px solid #303030}.copyright span{margin:0 .5em}.copyright a{color:#555555} .main-footer .recent-single-post{overflow: hidden;text-overflow: ellipsis;white-space: nowrap;} #roll{bottom:70px;float:right;position:fixed;right:50px;width:32px;z-index:9999} #roll_top,#roll_bottom{position:relative;cursor:pointer;height:32px;width:32px;border-radius:4px} #roll_top{background:url("//www.codercto.com/static/v3/images/rolls.png") no-repeat} #roll_top:hover{background:url("//www.codercto.com/static/v3/images/rolls.png") no-repeat -32px 0} #roll_bottom{background:url("//www.codercto.com/static/v3/images/rolls.png") no-repeat 0 -64px;margin-top:6px} #roll_bottom:hover{background:url("//www.codercto.com/static/v3/images/rolls.png") no-repeat -32px -64px} footer{margin-top:50px;margin-bottom: 0;} </style> <footer class="main-footer"> <div class="container"> <div class="row"> <div class="col-sm-4"> <div class="widget"> <h4 class="title">码农网最新文章</h4> <div class="content recent-post"> <div class="recent-single-post"><a href="https://codercto.com/a/131452.html" class="post-title">Python 3.14 RC3 发布</a></div><div class="recent-single-post"><a href="https://codercto.com/a/131451.html" class="post-title">Spring AI 1.0.2 现已发布</a></div><div class="recent-single-post"><a href="https://codercto.com/a/131450.html" class="post-title">OpenSSL 3.5.3 发布</a></div><div class="recent-single-post"><a href="https://codercto.com/a/131449.html" class="post-title">苹果：开发者计划所有会员到本月底必须启用两步认证</a></div><div class="recent-single-post"><a href="https://codercto.com/a/131448.html" class="post-title">NG-ZORRO-MOBILE 0.11.0 发布，antd 移动规范的 Angular 实现</a></div> </div> </div> </div> <div class="col-sm-4"> <div class="widget"> <h4 class="title">码农网最新帖子</h4> <div class="content recent-post"> <div class="recent-single-post"><a href="https://codercto.com/topics/52460.html" class="post-title">2026年5月01日程序员老黄历，宜:跳槽,面试</a></div><div class="recent-single-post"><a href="https://codercto.com/topics/52459.html" class="post-title">2026年4月30日程序员老黄历，宜:锻炼一下身体,面试,在妹子面前吹牛,代码复审</a></div><div class="recent-single-post"><a href="https://codercto.com/topics/52458.html" class="post-title">2026年4月29日程序员老黄历，宜:锻炼一下身体,白天上线</a></div><div class="recent-single-post"><a href="https://codercto.com/topics/52457.html" class="post-title">2026年4月28日程序员老黄历，宜:跳槽,招人</a></div><div class="recent-single-post"><a href="https://codercto.com/topics/52456.html" class="post-title">2026年4月27日程序员老黄历，宜:写单元测试,使用%t,招人,提交辞职申请</a></div> </div> </div> </div> <div class="col-sm-4"> <div class="widget"> <h4 class="title">码农网关键词</h4> <div class="content tag-cloud friend-links"> <a href="//www.codercto.com">码农网</a> <a href="//www.codercto.com">码农</a> <a href="//www.codercto.com">程序员</a> <a href="//www.codercto.com">码农教程</a> <a href="//www.codercto.com">码农社区</a> <a href="//www.codercto.com">码农工具</a> <a href="//www.codercto.com">码农日报</a> <a href="//www.codercto.com">码农头条</a> <a href="//www.codercto.com">码农网论坛</a> <a href="//www.codercto.com">码农网源码</a> <a href="//www.codercto.com">码农网官网</a> </div> </div> </div> </div> </div> </footer> <div class="copyright"> <div class="container"> <div class="row"> <div class="col-sm-12"> <span>版权所有，保留一切权利！© 2018-2026 <a href="//www.codercto.com">码农网</a></span> <a href="https://beian.miit.gov.cn/#/Integrated/index" rel="nofollow" target="_blank">粤ICP备17054400号-3</a> </div> </div> </div> </div> <div id="roll" class="hidden-xs"> <div title="回到顶部" id="roll_top"></div> <div title="转到底部" id="roll_bottom"></div> </div> <script src="//www.codercto.com/static/common/highlight.js/9.15.9/highlight.min.js"></script> <script src="//www.codercto.com/static/common/highlight.js/9.15.9/jquery.4.2.2.form.min.js"></script> <script src="//www.codercto.com/static/common/js/spop.min.js"></script> <script> $(function () { $.ajax({ headers:{'X-CSRF-TOKEN': $('meta[name="csrf-token"]').attr('content')}, url:updatePvUrl, type:'post', data:{contentId:contentId}, success:function () {} }) $('.likeable').click(function () { $('#myModal').modal();return false; }) $('.bookmark').click(function () { $('#myModal').modal();return false; }) }) </script> <script src="//www.codercto.com/static/common/js/prettify.js"></script> <script src="//www.codercto.com/static/common/js/jquery.1.9.1.lazyload.min.js"></script> <script>$(".markdown-body img").lazyload({effect : "fadeIn"})</script> <script> $(function () { hljs.initHighlightingOnLoad(); $('#roll_top').click(function() { $('body,html').animate({ scrollTop: '0px' }, 900); }); $("#roll_bottom").click(function() { $('body,html').animate({ scrollTop:$("footer").offset().top },800); }); if($('div').hasClass('float')) { var $sidebar = $(".float"), $window = $(window), offset = $sidebar.offset(), topPadding = 80; $window.scroll(function() { if ($window.scrollTop() > offset.top) { $sidebar.stop().animate({ marginTop: $window.scrollTop() - offset.top + topPadding }); } else { $sidebar.stop().animate({ marginTop: 0 }); } }); } }) </script>  <script> (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })(); </script>   <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?552b747d172e1541cf0f7e748f6c4d59"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>