内容简介:相信大家都对爬虫非常熟悉,一般来说,利用HttpClient发送请求并获取响应以获得想要提取的数据应该是最常用的方法。最近工作中频繁使用了Selenium,在本文中,我们将使用Selenium和POI(读写Excel)来完成一个入门级的自动化程序,
相信大家都对爬虫非常熟悉,一般来说,利用HttpClient发送请求并获取响应以获得想要提取的数据应该是最常用的方法。最近工作中频繁使用了Selenium,在本文中,我们将使用Selenium和POI(读写Excel)来完成一个入门级的自动化程序, 源码地址 见附录。
步骤一览
- 使用Maven创建工程,引入Selenium和POI依赖
- 下载ChromeDriver并配置环境变量
- 编写Selenium查词脚本
- 读写Excel并保存
- 编写main方法,运行程序
现在开始
-
使用Maven创建工程,引入Selenium和POI依赖
1.1 下载Maven,配置环境变量
Windows和Mac将Maven目录地址写入path即可,具体步骤可百度,Google,十分常见。
1.2 在IDEA中配置Maven
IDEA自带Maven可能版本非最新,建议自行引入本地最新版本。
1.3 创建工程
创建工程时只要使用最基础的模板,也就是直接点击next。
1.4 在mvnrepository.com搜索Selenium,POI和POI-ooxml依赖,将其引入pom.xml,并在右下角点击import change,最终pom.xml加入内容如下:
<dependencies> <!-- https://mvnrepository.com/artifact/org.seleniumhq.selenium/selenium-java --> <dependency> <groupId>org.seleniumhq.selenium</groupId> <artifactId>selenium-java</artifactId> <version>3.14.0</version> </dependency> <!-- https://mvnrepository.com/artifact/org.apache.poi/poi --> <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi</artifactId> <version>4.0.0</version> </dependency> <!-- https://mvnrepository.com/artifact/org.apache.poi/poi-ooxml --> <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-ooxml</artifactId> <version>4.0.0</version> </dependency> </dependencies> 复制代码
-
下载ChromeDriver并配置环境变量(三选一)
2.1 在镜像站下载ChromeDriver,配置环境变量
自行手动下载ChromeDriver后如不配置环境变量,需在代码中加上System.setProperty("webdriver.chrome.driver",path); 其中path是你的driver路径。
2.2 Windows使用choco install直接安装
2.3 Mac使用brew install cask直接安装
-
编写Selenium查词脚本
3.1 创建Search类,编写setUp方法 在setUp中,首先需要初始化WebDriver,然后访问到有道首页,搜索test点击确定并跳转至搜索页,注意在driver访问此页面时会弹出广告,需要一行代码来抓取关闭链接关掉广告,代码如下:
//Direct to YoudaoDic homepage, land in the main search page public void setUp() { //Go to youdao.com driver.get(YOUDAO_HOME_URL); driver.manage().window().maximize(); //Go to the main search page driver.findElement(By.id(INPUT_HOME_ID)).sendKeys("test"); driver.findElement(By.xpath(SEARCH_HOME_XPATH)).click(); driver.findElement(By.xpath(CLOSE_BTN)).click(); } 复制代码
3.2 编写searchWord脚本方法
searchWord方法需要传入你要搜索的单词,然后抓取搜索框,输入后点击确认。这时你将获得搜索详情的页面,其中你需要抓取中文翻译的div并且获取其中文字,代码如下:
//Search word and get the translation public String searchword(String s) { //Find the input element, input the word and click the button WebElement input_search = driver.findElement(By.id(INPUT_SEARCH)); input_search.clear(); input_search.sendKeys(s); driver.findElement(By.xpath(SEARCH_BTN_XPATH)).click(); //Get the text inside translation div String result = driver.findElement(By.className(TRANSLATION_CLASS)).getText(); return result; } 复制代码
-
读写Excel并保存
4.1 创建Excel文件并写入单词
新建一个Excel,然后在最左边第一列填入一些单词,注意,不要有空行,本文代码中没有带异常处理,空行会报错。
4.2 编写Excelio类,编写read方法
利用poi框架,与普通文件读写异曲同工,代码如下:
public Workbook read(int columnIndex, int count) throws IOException { FileInputStream fis = null; fis = new FileInputStream(new File(path)); //Input and save as a xlsx workbook Workbook workbook = new XSSFWorkbook(fis); fis.close(); return workbook; } 复制代码
4.3 编写searchWord方法
调用Search类的searchWord进行搜索,然后将获取到的String写入Excel,代码如下:
//Search the word and write down public void searchWord(Workbook workbook, int columnIndex, int count) { //Initialize driver WebDriver driver = new ChromeDriver(); Search search = new Search(driver); search.setUp(); //Search for all words in one column and print to another column for (int i = 0; i < count; i++) { //Get value of the cell and get the translation through search method Sheet sheet = workbook.getSheetAt(0); Row row = sheet.getRow(i); Cell cell = row.getCell(columnIndex); String results = search.searchword(cell.getStringCellValue()); //Write the translation to another column Cell temp = row.createCell(columnIndex+1); temp.setCellValue(results); //Set the new column as "Wrap Text" CellStyle cellStyle = workbook.createCellStyle(); cellStyle.setWrapText(true); temp.setCellStyle(cellStyle); sheet.setColumnWidth(1,31*256); } 复制代码
4.4 编写save方法
使用FileOutputStream,保存Excel,代码如下:
//Save the change public void save(Workbook workbook) throws IOException { FileOutputStream outputStream = new FileOutputStream(path); workbook.write(outputStream); outputStream.close(); workbook.close(); } 复制代码
-
编写main方法,运行程序
编写入口方法,代码如下:
//Entrance public static void main(String[] args) throws IOException { Excelio excelio = new Excelio("src/main/resources/wordlist/test.xlsx"); Workbook workbook = excelio.read(0, 30); excelio.searchWord(workbook,0,30); excelio.save(workbook); } 复制代码过程
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 算法 – 给出一个单词,打印其索引,可以相应地增加单词
- Pocketsphinx – 添加单词和提高准确性
- Spark入门(三)--Spark经典的单词统计
- 每日一道算法题--leetcode 290--单词规则--python
- go基础库之将字符串分解为单词
- python将每个单词按空格分开并保存到文件中
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
我的第一本算法书
[日]石田保辉、[日]宮崎修一 / 张贝 / 人民邮电出版社 / 2018-10 / 69.00元
本书采用大量图片,通过详细的分步讲解,以直观、易懂的方式展现了7个数据结构和26个基础算法的基本原理。第1章介绍了链表、数组、栈等7个数据结构;从第2章到第7章,分别介绍了和排序、查找、图论、安全、聚类等相关的26个基础算法,内容涉及冒泡排序、二分查找、广度优先搜索、哈希函数、迪菲 - 赫尔曼密钥交换、k-means 算法等。 本书没有枯燥的理论和复杂的公式,而是通过大量的步骤图帮助读者加深......一起来看看 《我的第一本算法书》 这本书的介绍吧!