Go 爬虫:如何获取 js 文件中固定的内容?

栏目: JavaScript · 发布时间: 6年前

内容简介:我想爬豆瓣电影的分类,网址是我自己看了一下接口调用,发现这些分类竟然是在妹的,这就尴尬了,我岂不是要等待浏览器渲染完之后再匹配我想要的数据?

简介

Go 爬虫:如何获取 js 文件中固定的内容?

我想爬豆瓣电影的分类,网址是 https://movie.douban.com/tag/ 。发现调用接口,返回的数据并没有我所需要的内容。

我自己看了一下接口调用,发现这些分类竟然是在 app.js 的二维数组固定写死的。

Go 爬虫:如何获取 js 文件中固定的内容?

妹的,这就尴尬了,我岂不是要等待浏览器渲染完之后再匹配我想要的数据?

查查 Go 有没有库可以模拟浏览器的操作。发现了一个 chromedp 。于是查找了一些资料,学习了一下。

github地址

仓库地址: https://github.com/chromedp/chromedp

例子地址: https://github.com/chromedp/examples

代码

获取豆瓣网站的电影分类。

// Command text is a chromedp example demonstrating how to extract text from a
// specific element.
package main

import (
    "context"
    "fmt"
    "log"
    "os"
    "regexp"
    "time"

    "github.com/chromedp/chromedp"
    "github.com/chromedp/chromedp/runner"
)



func text(res *string) chromedp.Tasks {
    return chromedp.Tasks{
        // 访问页面
        chromedp.Navigate(`https://movie.douban.com/tag/`),
        // 等待列表渲染
        chromedp.Sleep(5 * time.Second),
        // 获取获取服务列表HTML
        chromedp.OuterHTML("#content", res, chromedp.ByID),
    }
}

func main() {

    ctx, cancel := context.WithCancel(context.Background())
    defer cancel()

    // 创建 chrome 实例
    cdp, err := chromedp.New(ctx, chromedp.WithLog(log.Printf))
    if err != nil {
        log.Fatal(err)
    }

    var res string

    //执行调用
    err = cdp.Run(ctx, text(&res))
    if err != nil {
        log.Fatal(err)
    }

    // 调用 Shutdown
    err = cdp.Shutdown(ctx)
    if err != nil {
        log.Fatal(err)
    }

    // 等待 chrome 结束
    err = cdp.Wait()
    if err != nil {
        log.Fatal(err)
    }

    // 正则匹配所要的内容
    pattern := `class="tag">(.*?)</span>`
    rp2 := regexp.MustCompile(pattern)
    data := rp2.FindAllStringSubmatch(res, -1)

    // 创建一个 txt 文件,写入获取的内容
    f, err := os.Create("fenlei.txt")
    if err != nil {
        log.Fatalln(err)
    }
    // 关闭 f
    defer f.Close()

    // 遍历切片,获取需要的内容,并写入 txt 文件
    for i := 0; i < len(data); i++ {
        fmt.Println(data[i][1])
        f.WriteString(data[i][1] + "\n")

    }

}

以上所述就是小编给大家介绍的《Go 爬虫:如何获取 js 文件中固定的内容?》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

智能家居:商业模式+案例分析+应用实战

智能家居:商业模式+案例分析+应用实战

陈国嘉 / 人民邮电出版社 / 2016-4 / 49.80元

作为万物互联的关键一环,智能家居的出现和普及已经势不可当,以移动互联网为核心的新技术正在重构智能家居。只有成为智能家居行业的先行者,才能抢占“风口”。 《智能家居:商业模式+案例分析+应用实战》紧扣“智能家居”,从3个方面进行专业、深层次的讲解。首要方面是基础篇,从智能家居的发展现状、产业链、商业分析、抢占入口等方面进行阐述,让读者对智能家居有个初步的认识;第二个方面是技术篇,从智能家居的控......一起来看看 《智能家居:商业模式+案例分析+应用实战》 这本书的介绍吧!

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

URL 编码/解码
URL 编码/解码

URL 编码/解码

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具