内容简介:前一篇文章我们学习了选择器(CSS和XPath)。我们可以从HTML包含唯一的
前一篇文章我们学习了选择器(CSS和XPath)。
我们可以从 https://cran.rstudio.com/web/packages/available_packages_by_name.html 这个网页上获取所有可用的R扩展包。网页看起来简单,想知道选择器的表达式,在页面右击,选择菜单中的审查元素选项(大部分浏览器都有),然后就会出现检查面板。我们可以看到网页底层的HTML代码。
HTML包含唯一的 <table>
,因此可以直接将CSS选择器设为 table
,再用 html_table()
提取表格并返回一个数据框:
library(rvest)
#> 载入需要的程辑包:xml2
page = read_html("https://cran.rstudio.com/web/packages/available_packages_by_name.html")
pkg_table = page %>%
html_node("table") %>%
html_table(fill = TRUE)
head(pkg_table, 5)
#> X1
#> 1
#> 2 A3
#> 3 abbyyR
#> 4 abc
#> 5 abc.data
#> X2
#> 1 <NA>
#> 2 Accurate, Adaptable, and Accessible Error Metrics for Predictive\nModels
#> 3 Access to Abbyy Optical Character Recognition (OCR) API
#> 4 Tools for Approximate Bayesian Computation (ABC)
#> 5 Data Only: Tools for Approximate Bayesian Computation (ABC)
这里原始表没有表头。结果数据框使用了默认表头,并且第一行是空的,下面代码解决这个问题:
pkg_table = pkg_table[complete.cases(pkg_table), ]
colnames(pkg_table) = c("name", "title")
head(pkg_table, 3)
#> name
#> 2 A3
#> 3 abbyyR
#> 4 abc
#> title
#> 2 Accurate, Adaptable, and Accessible Error Metrics for Predictive\nModels
#> 3 Access to Abbyy Optical Character Recognition (OCR) API
#> 4 Tools for Approximate Bayesian Computation (ABC)
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- golang语言爬虫代理代码示例
- 爬虫好学么?5 行代码就可以
- 如何 5 分钟零代码实现豆瓣小组爬虫
- 浅谈网络爬虫中广度优先算法和代码实现
- 50行代码实现一个并发的 Python 爬虫程序
- 一种一行代码实现分布式爬虫的方案
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
程序员2010精华本
程序员杂志社 / 电子工业 / 2011-1 / 49.00元
《程序员(2010精华本)》主要内容:《程序员》创刊10年来,每年末编辑部精心打造的“合订本”已经形成一个品牌,得到广大读者的认可和喜爱。今年,《程序员》杂志内容再次进行了优化整合,除了每期推出的一个大型专题策划,各版块也纷纷以专题、策划的形式,将每月的重点进行了整合,让内容非常具有凝聚力,如专题篇、人物篇、实践篇等。另外杂志的版式、色彩方面也有了很大的飞跃,给读者带来耳目一新的阅读体验。一起来看看 《程序员2010精华本》 这本书的介绍吧!
HTML 压缩/解压工具
在线压缩/解压 HTML 代码
在线进制转换器
各进制数互转换器