xpath获取标签属性乱码解决

内容简介：问题在于解码和编码修改前的代码打印输出中文字全部为乱码

问题在于解码和编码

修改前的代码

#-*- coding: utf-8 -*-

import requests
from lxml import etree

url = 'http://top.baidu.com/buzz?b=1&fr=20811'
response = requests.get(url)
r = etree.HTML(response.text)
item_list = r.xpath("//table[@class='list-table']//tr")
# print(item_list)
for i in item_list[1:]:
    first_name = i.xpath("./td[@class='first']/span")
    keyword_name = i.xpath("./td[@class='keyword']/a[@class='list-title']")
    try:
        print(first_name[0].text)
        print(keyword_name[0].text)
    except:
        pass
    print('***************************************************************')

打印输出中文字全部为乱码

É±ÓãµÜ¸¸×Ó´òÈË

·ÉÐÐÔ±Íü´øÔ¿³×

¿ìÂ¹¸ß¹Ü±»ÅÐÎÞÆÚ

¶«º£º½¿ÕÔÙÏÖÎ¥¹æ

ÏÈ·æ´´Ê¼ÈËÈ¥ÊÀ

öª·æ·ñÈÏÇúÆæÖÂ°©

¹Â´æ6É±³Ô¼¦

IG 2:0 OMG

Ð¡S°®Çé±£ÏÊÊõ

ÖÐ¹ú0-2º«¹ú

Û¬ÁÖ¼¤¶¯Å³â²ÃÅÐ

µÇ±´À³ÓëÕÅÁ¦ºÏÓ°

¼ÃÄÏÎ¥½¨±ðÊû±»²ð

ÎÞÏÞ¼« ÐÄ¼¡Ëðº¦

Ã¢¹û»ØÓ¦Áõ»¶ÍÂ²Û

ÎâÒà·² 100Íò

Àî³ÐîçÎªÅ®¶ùÇìÉú

Ä§µÀ×æÊ¦±»Ëø

ÇÐ¶ûÎ÷×â½èÒÁ¹ÏÒò

±´¿ËººÄ·°®È®

Æ»¹ûÊÐÖµ´óËõË®

×ßÂ·¿´ÊÖ»ú·£10Ôª

¹ú¼ÊÓÍ¼Û×òÈÕÊÕÕÇ

¹ú×ãÂäºóº«¹ú

shadowÌæ²¹

ÉòÃÎ³½»ØÓ¦Âô¼Ù»õ

Ì¨ÄÏÅ®Í¯ÔâÄ¸Å°ËÀ

ÖÐº«´óÕ½Ê×·¢

ÖÐÑ§ÎªÀÏÊ¦ÉèÁµ°®¼Ù

ºú¾²ÆØ¹âºÀÃÅÉú»î

¹ËÍ¢ìÇÒªÈ¢ÈçÀ¼

Ó¢¹úÒé»á·ñ¾öÍÑÅ·

¿ÏÄáÑÇ¾Æµê±¬Õ¨

µÎµÎ°²È«ÔÙÉý¼¶

ÖÜÐÇ³ÛÕÅ°ØÖ¥ÖØ¾Û

Õã½ÑØº£¸ßËÙ¿ªÍ¨

°×ÓîÐøÔ¼Ò¼ÐÄ

Ê®´ó×î¶Â»¥ÁªÍø¹«Ë¾

ÖÜ½ÜÂ×É¹ÂèÂè½üÕÕ

º®¼ÙÌìÊýÅÅÐÐ°ñ

°ëÊý·ÉÐÐÔ±ÍËÐÝ

ºã´óÂò¶Ï±£ÀûÄá°Â

ÐÂ»ª±£ÏÕÍò·åÀëÖ°

ÐðÀûÑÇ±¬Õ¨

º«¾ç¹¬½«ÅÄÖÐ¹ú°æ

½ûÖ¹Î´³ÉÄêÈËÕûÈÝ

³ÂÒâºÏëÂèÂè

Ê×¸ÖÄÐÀº»÷°ÜÉÏº£

Ñî×Ï¹ØÏþÍ® ÍÈ

处理方式：

先查看 response的编码

print(response.encoding)

然后对中文部分 encode('ISO-8859-1').decode('gbk')

附上修改过后的代码和输出

#-*- coding: utf-8 -*-

import requests
from lxml import etree

url = 'http://top.baidu.com/buzz?b=1&fr=20811'
response = requests.get(url)
print(response.encoding)
r = etree.HTML(response.text)
item_list = r.xpath("//table[@class='list-table']//tr")
# print(item_list)
for i in item_list[1:]:
    first_name = i.xpath("./td[@class='first']/span")
    keyword_name = i.xpath("./td[@class='keyword']/a[@class='list-title']")
    try:
        print(first_name[0].text.encode('ISO-8859-1').decode('gbk'))
        print(keyword_name[0].text.encode('ISO-8859-1').decode('gbk'))
    except:
        pass
    print('***************************************************************')

佘诗曼回应蛇精脸

杀鱼弟父子打人

飞行员忘带钥匙

快鹿高管被判无期

先锋创始人去世

东海航空再现违规

IG 2:0 OMG

济南大白宫被拆

济南违建别墅被拆

登贝莱与张力合影

无限极心肌损害

孤存6杀吃鸡

霆锋否认曲奇致癌

中国0-2韩国

郜林激动怒斥裁判

小S爱情保鲜术

业主割断安全绳

芒果回应刘欢吐槽

吴亦凡 100万

李承铉为女儿庆生

魔道祖师被锁

伊瓜因发烧

切尔西租借伊瓜因

贝克汉姆爱犬

苹果市值大缩水

走路看手机罚10元

国际油价昨日收涨

国足落后韩国

shadow替补

沈梦辰回应卖假货

中韩大战首发

台南女童遭母虐死

中学为老师设恋爱假

胡静曝光豪门生活

顾廷烨要娶如兰

英国议会否决脱欧

肯尼亚酒店爆炸

滴滴安全再升级

周星驰张柏芝重聚

浙江沿海高速开通

十大最堵互联网公司

周杰伦晒妈妈近照

寒假天数排行榜

半数飞行员退休

恒大买断保利尼奥

新华保险万峰离职

韩剧宫将拍中国版

叙利亚爆炸

禁止未成年人整容

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

全栈开发之道

和凌志 / 电子工业出版社 / 68.00元

全栈（Full Stack）是一种全新的以前端为主导的框架，框架选型聚焦在MEAN（MongoDB、Express、AngularJS、Node.js）上。选用MEAN全栈技术，可以快速地实现敏捷开发，尤其是到了产品的运营阶段，其优势表现得非常明显。本书主要介绍MEAN全栈技术，分为入门篇、基础篇和实战篇，入门篇对全栈进行了概述，基础篇重点介绍了全栈的四个主要技术，即MongoDB、Express......一起来看看《全栈开发之道》这本书的介绍吧!

码农工具

xpath获取标签属性乱码解决

处理方式：

全栈开发之道

图片转BASE64编码

SHA 加密

RGB CMYK 转换工具