网页转码 python 库 jparser

码农软件 · 软件分类 · HTML解析器 · 2019-04-02 16:42:36

授权协议: MIT
开发语言: Python
操作系统: 跨平台
软件首页: https://github.com/fxsjy/jparser
软件文档: https://github.com/fxsjy/jparser/blob/master/README.md

软件介绍

jparser是一个python库，用于网页转码，也就是从html源码中抽取正文的结构化数据：文本段落和图片。目前主要针对新闻资讯类页面进行了优化。

用法：

import urllib2
from jparser import PageModel
html = urllib2.urlopen("http://news.sohu.com/20170512/n492734045.shtml").read().decode('gb18030')
pm = PageModel(html)
result = pm.extract()

print "==title=="
print result['title']
print "==content=="
for x in result['content']:
    if x['type'] == 'text':
        print x['data']
    if x['type'] == 'image':
        print "[IMAGE]", x['data']['src']

示例：

http://jparser.duapp.com/

依赖：lxml

本文地址：https://codercto.com/soft/d/2710.html

码农书籍

驾驭未来：抓住奇点冲击下的商机

[日]斋藤和纪 / 南浩洁 / 中国友谊出版公司 / 2018-9 / 52.00元

2020年左右，AI（人工智能）将超越人类的智力水平。2045年，人类将迎来“奇点”——科技进步的速度达到无限大。所有技术都在以空前的速度向前发展。同时，以往带来巨大财富的众多技术将走向“非货币化”。当下，人类正面临着被AI夺去工作的危机。许多传统行业（例如汽车制造业）将被彻底颠覆，但新的机会也在酝酿，技术的进步使得带宽成本、计算成本、存储成本等创新成本趋近于0，创业不再是资本、技术或信息......一起来看看《驾驭未来：抓住奇点冲击下的商机》这本书的介绍吧!

码农工具

网页转码 python 库 jparser

软件介绍

驾驭未来：抓住奇点冲击下的商机

JS 压缩/解压工具

在线进制转换器

HSV CMYK 转换工具