前嗅ForeSpider教程:字段的取值与清洗

栏目: Html · 发布时间: 5年前

内容简介:今天小编为大家带来的教程是:如何在前嗅ForeSpider中进行,字段的取值与清洗。主要内容包括:自动取值字段,取值的两个方法,和字段清洗方式。具体内容如下:一,自动取值的字段包括哪些当字段设置为下列采集内容时,系统会自动为字段赋值。

今天小编为大家带来的教程是:如何在前嗅ForeSpider中进行,字段的取值与清洗。主要内容包括:自动取值字段,取值的两个方法,和字段清洗方式。具体内容如下:

一,自动取值的字段包括哪些

当字段设置为下列采集内容时,系统会自动为字段赋值。

1.网页地址:自动采集网页的URL地址。

2.网页标题:采集网页的标题。即网页中的内容。</p> <p>3.网页内文字文本:采集整个页面中所有可见的文字文本。</p> <ol> <li>网页内容:采集网页全部文本,包含html标签等,即整个页面的源代码。</li> </ol> <p>5.网页创建时间:文档创建或网页发布的时间。</p> <p>6.网页更新时间:文档或网页更新的时间。</p> <p>7.网页获取时间:ForeSpider采集该网页的时间。</p> <p>8.当前系统时间:数据采集入库的时间。</p> <p>9.文档数据大小:采集对象的质量大小[单位:字节]。</p> <p> 10.文档名称:采集对象的文件名,如 <strong> <em>.html,</em> </strong> .doc。 </p> <p>11.文档后缀:文档的文件名后缀,如html、pdf等。</p> <p>12.文档视宽:文档的宽[如果是图片数据则为图片的宽]。</p> <p>13.文档视高:文档的高[如果是图片数据则为图片的高]。</p> <p>14.文档层级:自动获取从入口页当当前数据页的跳转层级数目。</p> <p>15.频道ID:采集当前频道的ID。</p> <p>16.频道名称:采集当前频道的名称。</p> <p>二,取值方法</p> <p>1.标准定位</p> <p>(1)标准定位含义</p> <p>通过在内置浏览器上,定位有所需数据的区域,为字段取值。大多数情况都选择“标准定位”。</p> <p>(2)定位方法</p> <p>①选择:按Ctrl点击页面上相应数据的区域。</p> <p>②扩大选区:按Shift再次点击页面相应区域。</p> <p>③确认选区:点击“确认选区”按钮,选区生效。</p> <h4>标准定位</h4> <p> <span> <img alt="前嗅ForeSpider教程:字段的取值与清洗" src="//img1.3s78.com/codercto/a533019626f8c20be9a93fb0b887a7e0"> </span> </p> <p>2.特征定位</p> <p>(1)特征定位含义</p> <p>当所需数据在不同网页的位置不固定,且数据前后具有特征性文字时,用标准定位容易错位,需要使用特征定位。</p> <p> 举例:对于字符串“作者: <em>*</em> ”,采集作者名称时,可用“作者:”作为特征来定位。 </p> <p>(2)特征定位的操作方法</p> <p>① 选择:按Ctrl点击页面上所需数据的区域。</p> <p>② 识别特征:点击“识别特征”,出现红框,再次点击,红框移动到特征字符串时确认。</p> <p>③ 点击“确认选区”按钮,选区生效。</p> <p>(3)特征定位的类型</p> <p>特征定位分为四种方式:</p> <p>① 局部关键词</p> <p>当页面的数据前有特定的关键词,而各个页面的表格内容、各行次序、行数又各不相同时,采用标准定位的方式就会错乱。可以根据表头特征,采集表格后的数据。与全文关键词的区别是,局部关键词只在选定区域的附近采集。</p> <p>② 全文关键词</p> <p>根据选定的特征关键词,在全页面采集该特征关键词前后对应的数据,如果出现多个特征关键词,以第一个为主。如果想采集多个的话,可以设定多值。>>查看多值的配置方式</p> <p>③ 大文本</p> <p>选定大文本区域后,自动识别各页面的大文本,相比标准定位更加精确。</p> <p>④ 特殊标签</p> <p>采集页面中只出现一次的特殊标签,如标题的<h2>标签等。</p> <p>三,字段清洗方式</p> <p>在采集数据之前,通过使用字段处理,软件可以自动以某种过滤方式,清洗该字段的字符串数据。通过系统自带的或脚本的方式,可以预先清洗不需要的字符串。</p> <h4>字段处理</h4> <p> <span> <img alt="前嗅ForeSpider教程:字段的取值与清洗" src="//img1.3s78.com/codercto/e9bef33cf3f51d80d6c994e1749e413e"> </span> </p> <p>字段清洗的方式如下:</p> <p> <span> <img alt="前嗅ForeSpider教程:字段的取值与清洗" src="//img1.3s78.com/codercto/3687f29b96d50db7d290897c9b25d1e7"> </span> </p> <p>字段处理脚本是字段处理中选择“脚本处理”后,通过脚本进一步把需要的数据清洗干净。具体配置方法需要参考脚本文档。</p> </div> </div> <br><p>以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 <a href='//www.codercto.com'>码农网</a></p> <div class="center-block" style="text-align: center;display: none;"> <img src="//www.codercto.com/static/common/images/gzh.jpg" alt="关注码农网公众号" class="img-thumbnail"> <p>关注我们,获取更多IT资讯^_^</p> <br> </div> <p></p> <p> <i class="fa fa-tags" aria-hidden="true"></i> <a target="_blank" href="https://www.codercto.com/tags.html">查看所有标签</a> </p> <strong>猜你喜欢:</strong> <ul> <li><a href="https://www.codercto.com/a/27081.html" target="_blank">如何优雅地链式取值</a></li> <li><a href="https://www.codercto.com/a/105739.html" target="_blank">KotlinTips:getValueSafely 安全取值</a></li> <li><a href="https://www.codercto.com/a/30183.html" target="_blank">如何优雅的链式取值之 MayBe 函子</a></li> <li><a href="https://www.codercto.com/a/4817.html" target="_blank">jQuery EasyUI DataGrid Checkbox 数据设定与取值</a></li> <li><a href="https://www.codercto.com/a/13551.html" target="_blank">javascript xml xsl取值及数据修改第1/2页</a></li> <li><a href="https://www.codercto.com/a/61597.html" target="_blank">避免取值时出现Cannot read property 'xx' of undefined</a></li> </ul> <blockquote><p>本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请<a href="https://www.codercto.com/contact.html" rel="nofollow" target="_blank">联系我们</a>。</p></blockquote> </div> </div> <div class="card markdown"> <div class="card-header"><a href="https://www.codercto.com/books.html">码农书籍</a></div> <div> <div class="float-left" style="padding: 10px;"><a href="https://www.codercto.com/books/d/1891.html"><img style="height: 140px;" class="media-object" src="https://img1.3s78.com/codercto/0bd20d4464ac3c2426d2220e736c3124" alt="Alone Together"></a></div> <div class="" style="padding: 10px;"> <a href="https://www.codercto.com/books/d/1891.html"><h4>Alone Together</h4></a> <p>Sherry Turkle / Basic Books / 2011-1-11 / USD 28.95</p> <p>Consider Facebookit’s human contact, only easier to engage with and easier to avoid. Developing technology promises closeness. Sometimes it delivers, but much of our modern life leaves us less connect......一起来看看 <a href="https://www.codercto.com/books/d/1891.html">《Alone Together》</a> 这本书的介绍吧!</p> </div> </div> </div> <div class="card markdown"> <div class="card-header"><a href="https://www.codercto.com/tool.html">码农工具</a></div> <div class="row" style="padding: 10px;"> <div class="col-sm-6 col-md-4"> <div class="media"> <div class="media-left" style="margin-right: 5px;"><a href="https://www.codercto.com/tool/js_compression.html"><img class="media-object" width="64" src="https://img1.3s78.com/codercto/2ec71236cb78e32ed5cff0f7d0c31fe1" alt="JS 压缩/解压工具"></a></div> <div class="media-body"> <a href="https://www.codercto.com/tool/js_compression.html"><h6 class="media-heading"><span>JS 压缩/解压工具</span></h6></a> <p><span>在线压缩/解压 JS 代码</span></p> </div> </div> </div> <div class="col-sm-6 col-md-4"> <div class="media"> <div class="media-left" style="margin-right: 5px;"><a href="https://www.codercto.com/tool/json_analysis.html"><img class="media-object" width="64" src="https://img1.3s78.com/codercto/f4c28829f4a8ded208af3e213c8793e0" alt="JSON 在线解析"></a></div> <div class="media-body"> <a href="https://www.codercto.com/tool/json_analysis.html"><h6 class="media-heading"><span>JSON 在线解析</span></h6></a> <p><span>在线 JSON 格式化工具</span></p> </div> </div> </div> <div class="col-sm-6 col-md-4"> <div class="media"> <div class="media-left" style="margin-right: 5px;"><a href="https://www.codercto.com/tool/xml_json.html"><img class="media-object" width="64" src="https://img1.3s78.com/codercto/2d88ed2b142f986dc78954592f06ea78" alt="XML、JSON 在线转换"></a></div> <div class="media-body"> <a href="https://www.codercto.com/tool/xml_json.html"><h6 class="media-heading"><span>XML、JSON 在线转换</span></h6></a> <p><span>在线XML、JSON转换工具</span></p> </div> </div> </div> </div> </div> </div> <div class="sidebar col-md-3"> <div class="card"> <div class="card-body"> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:inline-block;width:250px;height:250px" data-ad-client="ca-pub-5598567030231501" data-ad-slot="6435657477"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> </div> <div class="card tagMenu"> <div style="background: #f5f5f5;" > <div class="tabs_menu"> <li style="width: 50px;">New</li> <li id="newestArticles" class="selected" onclick="showNewestData('newestArticles');">文章</li> <li id="newestTopics" onclick="showNewestData('newestTopics');">话题</li> <li id="newestCourses" onclick="showNewestData('newestCourses');">教程</li> </div> </div> <ul class="list-group list-group-flush newestArticles"> <li class="list-group-item">· <a href="https://www.codercto.com/a/131449.html">苹果:开发者计划所有会员到本月底必须启用两步认证</a></li> <li class="list-group-item">· <a href="https://www.codercto.com/a/131448.html">NG-ZORRO-MOBILE 0.11.0 发布,antd 移动规范的 Angular 实现</a></li> <li class="list-group-item">· <a href="https://www.codercto.com/a/131447.html">韩国Luna币暴跌 分析师:Luna 2.0也没戏 过去一周缩水一多半</a></li> <li class="list-group-item">· <a href="https://www.codercto.com/a/131446.html">苹果鼓励Beta测试者提交错误来提高iOS 16的软件质量</a></li> <li class="list-group-item">· <a href="https://www.codercto.com/a/131445.html">2021全球半导体设备厂商TOP15:ASML只第二、中国仅1家</a></li> <li class="list-group-item">· <a href="https://www.codercto.com/a/131444.html">Windows 11 RTM版存在BUG:符合条件设备显示不支持升级</a></li> </ul> <ul style="display: none" class="list-group list-group-flush newestTopics"> <li class="list-group-item">· <a href="https://www.codercto.com/topics/50699.html">2024年12月23日 程序员老黄历,宜:锻炼一下身体,白天上线,重构,在妹子面前吹牛</a></li> <li class="list-group-item">· <a href="https://www.codercto.com/topics/50698.html">2024年12月22日 程序员老黄历,宜:拒绝996</a></li> <li class="list-group-item">· <a href="https://www.codercto.com/topics/50697.html">2024年12月21日 程序员老黄历,宜:拒绝996</a></li> <li class="list-group-item">· <a href="https://www.codercto.com/topics/50696.html">恶意木马 HiatusRAT 曝光,锁定北美欧洲地区网络摄像头发动攻击</a></li> <li class="list-group-item">· <a href="https://www.codercto.com/topics/50695.html">2024年12月20日 程序员老黄历,宜:使用%t,申请加薪,在妹子面前吹牛</a></li> <li class="list-group-item">· <a href="https://www.codercto.com/topics/50694.html">2024年12月19日 程序员老黄历,宜:写单元测试,洗澡,白天上线</a></li> </ul> <ul style="display: none" class="list-group list-group-flush newestCourses"> <li class="list-group-item">· <a href="https://www.codercto.com/courses/d/4242.html">JMeter录制登录测试</a></li> <li class="list-group-item">· <a href="https://www.codercto.com/courses/d/4241.html">JMeter分布式负载测试(吞吐量控制器)</a></li> <li class="list-group-item">· <a href="https://www.codercto.com/courses/d/4240.html">JMS主题测试计划</a></li> <li class="list-group-item">· <a href="https://www.codercto.com/courses/d/4239.html">JMS点对点测试计划</a></li> <li class="list-group-item">· <a href="https://www.codercto.com/courses/d/4238.html">JMeter JMS测试计划</a></li> <li class="list-group-item">· <a href="https://www.codercto.com/courses/d/4237.html">JMeter Webservice API测试计划</a></li> </ul> <script> function showNewestData(id) { $('.newestArticles,.newestTopics,.newestCourses').hide(); $('#newestArticles,#newestTopics,#newestCourses').removeClass('selected'); $('#'+id).addClass('selected'); $('.'+id).show(); } </script> </div> <div class="card"> <div class="card-header">关注 码农网 公众号</div> <div class="card-body"><img src="//www.codercto.com/static/common/images/gzh.jpg"></div> </div> </div> </div> </div> <script> var contentType = 1; var contentId = '63720'; var updatePvUrl = 'https://www.codercto.com/articles/updatePv'; </script> <script src="//www.codercto.com/static/common/js/copyright.js"></script> <style> .main-footer .tag-cloud a{border:1px solid #ebebeb;padding:2px 7px;color:#959595;line-height:1.5em;display:inline-block;margin:0 7px 7px 0;-webkit-transition:all 0.2s ease;-o-transition:all 0.2s ease;transition:all 0.2s ease} .main-footer .tag-cloud a:hover{color:#ffffff;background:#379be9;border:1px solid #379be9;text-decoration:none} .main-footer .widget .recent-post .recent-single-post{border-bottom:1px dashed #ebebeb;padding-bottom:5px;margin-bottom:10px}.main-footer .widget .recent-post .recent-single-post:last-child{margin-bottom:0}.main-footer .widget .recent-post .recent-single-post .post-title{color:#505050;-webkit-transition:all .2s ease;-o-transition:all .2s ease;transition:all .2s ease}.main-footer .widget .recent-post .recent-single-post .post-title:hover{color:#379be9;text-decoration:none}.main-footer .widget .recent-post .recent-single-post .date{color:#959595}.main-footer .widget .recent-post .recent-single-post{border-bottom:1px dashed #303030}.main-footer .widget .recent-post .recent-single-post .post-title{color:#959595}.main-footer .widget .recent-post .recent-single-post .post-title:hover{color:#379be9}.main-footer .widget .recent-post .recent-single-post .date{color:#505050} .main-footer .widget{padding:0px 10px}.widget{margin-bottom:35px}.widget .title{margin-top:0;padding-bottom:7px;border-bottom:1px solid #ebebeb;margin-bottom:21px;position:relative}.widget .title:after{content:"";width:90px;height:1px;background:#379be9;position:absolute;left:0;bottom:-1px}.main-footer{background:#202020;padding:35px 0 0;color:#959595}.main-footer .widget .title{color:#ffffff;border-bottom:1px solid #303030}.main-footer .widget .tag-cloud a{border:1px solid #303030}.main-footer .widget .tag-cloud a:hover{border:1px solid #379be9}.main-footer .widget .friend-links a{border:none}.main-footer .widget .friend-links a:hover{border:none}.main-footer .widget .friend-links hr{margin:1em 0;border-top:1px dashed #303030}.main-footer .widget .recent-post .recent-single-post{border-bottom:1px dashed #303030}.main-footer .widget .recent-post .recent-single-post .post-title{color:#959595}.main-footer .widget .recent-post .recent-single-post .post-title:hover{color:#379be9}.main-footer .widget .recent-post .recent-single-post .date{color:#505050}.copyright{background:#111;font-size:13px;text-align:center;color:#555555;padding-top:28px;padding-bottom:28px;border-top:1px solid #303030}.copyright span{margin:0 .5em}.copyright a{color:#555555} .main-footer .recent-single-post{overflow: hidden;text-overflow: ellipsis;white-space: nowrap;} #roll{bottom:70px;float:right;position:fixed;right:50px;width:32px;z-index:9999} #roll_top,#roll_bottom{position:relative;cursor:pointer;height:32px;width:32px;border-radius:4px} #roll_top{background:url("//www.codercto.com/static/v3/images/rolls.png") no-repeat} #roll_top:hover{background:url("//www.codercto.com/static/v3/images/rolls.png") no-repeat -32px 0} #roll_bottom{background:url("//www.codercto.com/static/v3/images/rolls.png") no-repeat 0 -64px;margin-top:6px} #roll_bottom:hover{background:url("//www.codercto.com/static/v3/images/rolls.png") no-repeat -32px -64px} footer{margin-top:50px;margin-bottom: 0;} </style> <footer class="main-footer"> <div class="container"> <div class="row"> <div class="col-sm-4"> <div class="widget"> <h4 class="title">码农网最新文章</h4> <div class="content recent-post"> <div class="recent-single-post"><a href="https://www.codercto.com/a/131449.html" class="post-title">苹果:开发者计划所有会员到本月底必须启用两步认证</a></div><div class="recent-single-post"><a href="https://www.codercto.com/a/131448.html" class="post-title">NG-ZORRO-MOBILE 0.11.0 发布,antd 移动规范的 Angular 实现</a></div><div class="recent-single-post"><a href="https://www.codercto.com/a/131447.html" class="post-title">韩国Luna币暴跌 分析师:Luna 2.0也没戏 过去一周缩水一多半</a></div><div class="recent-single-post"><a href="https://www.codercto.com/a/131446.html" class="post-title">苹果鼓励Beta测试者提交错误来提高iOS 16的软件质量</a></div><div class="recent-single-post"><a href="https://www.codercto.com/a/131445.html" class="post-title">2021全球半导体设备厂商TOP15:ASML只第二、中国仅1家</a></div> </div> </div> </div> <div class="col-sm-4"> <div class="widget"> <h4 class="title">码农网最新帖子</h4> <div class="content recent-post"> <div class="recent-single-post"><a href="https://www.codercto.com/topics/50699.html" class="post-title">2024年12月23日 程序员老黄历,宜:锻炼一下身体,白天上线,重构,在妹子面前吹牛</a></div><div class="recent-single-post"><a href="https://www.codercto.com/topics/50698.html" class="post-title">2024年12月22日 程序员老黄历,宜:拒绝996</a></div><div class="recent-single-post"><a href="https://www.codercto.com/topics/50697.html" class="post-title">2024年12月21日 程序员老黄历,宜:拒绝996</a></div><div class="recent-single-post"><a href="https://www.codercto.com/topics/50696.html" class="post-title">恶意木马 HiatusRAT 曝光,锁定北美欧洲地区网络摄像头发动攻击</a></div><div class="recent-single-post"><a href="https://www.codercto.com/topics/50695.html" class="post-title">2024年12月20日 程序员老黄历,宜:使用%t,申请加薪,在妹子面前吹牛</a></div> </div> </div> </div> <div class="col-sm-4"> <div class="widget"> <h4 class="title">码农网关键词</h4> <div class="content tag-cloud friend-links"> <a href="//www.codercto.com">码农网</a> <a href="//www.codercto.com">码农</a> <a href="//www.codercto.com">程序员</a> <a href="//www.codercto.com">码农教程</a> <a href="//www.codercto.com">码农社区</a> <a href="//www.codercto.com">码农工具</a> <a href="//www.codercto.com">码农日报</a> <a href="//www.codercto.com">码农头条</a> <a href="//www.codercto.com">码农网论坛</a> <a href="//www.codercto.com">码农网源码</a> <a href="//www.codercto.com">码农网官网</a> </div> </div> </div> </div> </div> </footer> <div class="copyright"> <div class="container"> <div class="row"> <div class="col-sm-12"> <span>版权所有,保留一切权利!© 2018-2024 <a href="//www.codercto.com">码农网</a></span> <a href="https://beian.miit.gov.cn/#/Integrated/index" rel="nofollow" target="_blank">粤ICP备17054400号-3</a> </div> </div> </div> </div> <div id="roll" class="hidden-xs"> <div title="回到顶部" id="roll_top"></div> <div title="转到底部" id="roll_bottom"></div> </div> <script src="//www.codercto.com/static/common/highlight.js/9.15.9/highlight.min.js"></script> <script src="//www.codercto.com/static/common/highlight.js/9.15.9/jquery.4.2.2.form.min.js"></script> <script src="//www.codercto.com/static/common/js/spop.min.js"></script> <script> $(function () { $.ajax({ headers:{'X-CSRF-TOKEN': $('meta[name="csrf-token"]').attr('content')}, url:updatePvUrl, type:'post', data:{contentId:contentId}, success:function () {} }) $('.likeable').click(function () { $('#myModal').modal();return false; }) $('.bookmark').click(function () { $('#myModal').modal();return false; }) }) </script> <script src="//www.codercto.com/static/common/js/prettify.js"></script> <script src="//www.codercto.com/static/common/js/jquery.1.9.1.lazyload.min.js"></script> <script>$(".markdown-body img").lazyload({effect : "fadeIn"})</script> <script> $(function () { hljs.initHighlightingOnLoad(); $('#roll_top').click(function() { $('body,html').animate({ scrollTop: '0px' }, 900); }); $("#roll_bottom").click(function() { $('body,html').animate({ scrollTop:$("footer").offset().top },800); }); if($('div').hasClass('float')) { var $sidebar = $(".float"), $window = $(window), offset = $sidebar.offset(), topPadding = 80; $window.scroll(function() { if ($window.scrollTop() > offset.top) { $sidebar.stop().animate({ marginTop: $window.scrollTop() - offset.top + topPadding }); } else { $sidebar.stop().animate({ marginTop: 0 }); } }); } }) </script> <!--baidu数据提交 start--> <script> (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })(); </script> <!--baidu数据提交 end--> <!--baidu统计--> <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?552b747d172e1541cf0f7e748f6c4d59"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>