内容简介:本篇文章主要介绍了Python实现XML文件解析的示例代码,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
1. XML简介
XML(eXtensible Markup Language)指可扩展标记语言,被设计用来传输和存储数据,已经日趋成为当前许多新生技术的核心,在不同的领域都有着不同的应用。它是web发展到一定阶段的必然产物,既具有SGML的核心特征,又有着HTML的简单特性,还具有明确和结构良好等许多新的特性。
test.XML文件
<?xml version="1.0" encoding="utf-8"?> <catalog> <maxid>4</maxid> <login username="pytest" passwd='123456'> <caption>Python</caption> <item id="4"> <caption>测试</caption> </item> </login> <item id="2"> <caption>Zope</caption> </item> </catalog>
XML详细介绍可以参考: http://www.w3school.com.cn/xmldom/dom_nodetype.asp
2. XML文件解析
python解析XML常见的有三种方法:一是xml.dom.*模块,它是W3C DOM API的实现,若需要处理DOM API则该模块很适合;二是xml.sax.*模块,它是SAX API的实现,这个模块牺牲了便捷性来换取速度和内存占用,SAX是一个基于事件的API,这就意味着它可以“在空中”处理庞大数量的的文档,不用完全加载进内存;三是xml.etree.ElementTree模块(简称 ET),它提供了轻量级的 Python 式的API,相对于DOM来说ET 快了很多,而且有很多令人愉悦的API可以使用,相对于SAX来说ET的ET.iterparse也提供了 “在空中” 的处理方式,没有必要加载整个文档到内存,ET的性能的平均值和SAX差不多,但是API的效率更高一点而且使用起来很方便。
2.1 xml.dom.*
文件对象模型(Document Object Model,简称DOM),是W3C组织推荐的处理可扩展置标语言的标准编程接口。一个 DOM 的解析器在解析一个XML文档时,一次性读取整个文档,把文档中所有元素保存在内存中的一个树结构里,之后你可以利用DOM 提供的不同的函数来读取或修改文档的内容和结构,也可以把修改过的内容写入xml文件。python中用xml.dom.minidom来解析xml文件。
a. 获得子标签
b. 区分相同标签名的标签
c. 获取标签属性值
d. 获取标签对之间的数据
#coding=utf-8 #通过minidom解析xml文件 import xml.dom.minidom as xmldom import os ''' XML文件读取 <?xml version="1.0" encoding="utf-8"?> <catalog> <maxid>4</maxid> <login username="pytest" passwd='123456'>dasdas <caption>Python</caption> <item id="4"> <caption>测试</caption> </item> </login> <item id="2"> <caption>Zope</caption> </item> </catalog> ''' xmlfilepath = os.path.abspath("test.xml") print ("xml文件路径:", xmlfilepath) # 得到文档对象 domobj = xmldom.parse(xmlfilepath) print("xmldom.parse:", type(domobj)) # 得到元素对象 elementobj = domobj.documentElement print ("domobj.documentElement:", type(elementobj)) #获得子标签 subElementObj = elementobj.getElementsByTagName("login") print ("getElementsByTagName:", type(subElementObj)) print (len(subElementObj)) # 获得标签属性值 print (subElementObj[0].getAttribute("username")) print (subElementObj[0].getAttribute("passwd")) #区分相同标签名的标签 subElementObj1 = elementobj.getElementsByTagName("caption") for i in range(len(subElementObj1)): print ("subElementObj1[i]:", type(subElementObj1[i])) print (subElementObj1[i].firstChild.data) #显示标签对之间的数据
输出结果:
>>> D:\Pystu>python xml_instance.py
>>> xml文件路径: D:\Pystu\test.xml
>>> xmldom.parse: <class 'xml.dom.minidom.Document'>
>>> domobj.documentElement: <class 'xml.dom.minidom.Element'>
>>> getElementsByTagName: <class 'xml.dom.minicompat.NodeList'>
>>> username: pytest
>>> passwd: 123456
>>> subElementObj1[i]: <class 'xml.dom.minidom.Element'>
>>> Python
>>> subElementObj1[i]: <class 'xml.dom.minidom.Element'>
>>> 测试
>>> subElementObj1[i]: <class 'xml.dom.minidom.Element'>
>>> Zope
2.2 xml.etree.ElementTree
ElementTree生来就是为了处理XML,它在Python标准库中有两种实现:一种是纯Python实现的,如xml.etree.ElementTree,另一种是速度快一点的xml.etree.cElementTree。注意:尽量使用 C语言 实现的那种,因为它速度更快,而且消耗的内存更少。
a. 遍历根节点的下一层
b. 下标访问各个标签、属性、文本
c. 查找root下的指定标签
d. 遍历XML文件
e. 修改XML文件
#coding=utf-8 #通过解析xml文件 ''' try: import xml.etree.CElementTree as ET except: import xml.etree.ElementTree as ET 从Python3.3开始ElementTree模块会自动寻找可用的C库来加快速度 ''' import xml.etree.ElementTree as ET import os import sys ''' XML文件读取 <?xml version="1.0" encoding="utf-8"?> <catalog> <maxid>4</maxid> <login username="pytest" passwd='123456'>dasdas <caption>Python</caption> <item id="4"> <caption>测试</caption> </item> </login> <item id="2"> <caption>Zope</caption> </item> </catalog> ''' #遍历xml文件 def traverseXml(element): #print (len(element)) if len(element)>0: for child in element: print (child.tag, "----", child.attrib) traverseXml(child) #else: #print (element.tag, "----", element.attrib) if __name__ == "__main__": xmlFilePath = os.path.abspath("test.xml") print(xmlFilePath) try: tree = ET.parse(xmlFilePath) print ("tree type:", type(tree)) # 获得根节点 root = tree.getroot() except Exception as e: #捕获除与程序退出sys.exit()相关之外的所有异常 print ("parse test.xml fail!") sys.exit() print ("root type:", type(root)) print (root.tag, "----", root.attrib) #遍历root的下一层 for child in root: print ("遍历root的下一层", child.tag, "----", child.attrib) #使用下标访问 print (root[0].text) print (root[1][1][0].text) print (20 * "*") #遍历xml文件 traverseXml(root) print (20 * "*") #根据标签名查找root下的所有标签 captionList = root.findall("item") #在当前指定目录下遍历 print (len(captionList)) for caption in captionList: print (caption.tag, "----", caption.attrib, "----", caption.text) #修改xml文件,将passwd修改为999999 login = root.find("login") passwdValue = login.get("passwd") print ("not modify passwd:", passwdValue) login.set("passwd", "999999") #修改,若修改text则表示为login.text print ("modify passwd:", login.get("passwd"))
输出结果:
>>> D:\Pystu\test.xml
>>> tree type: <class 'xml.etree.ElementTree.ElementTree'>
>>> root type: <class 'xml.etree.ElementTree.Element'>
>>> catalog ---- {}
>>> 遍历root的下一层 maxid ---- {}
>>> 遍历root的下一层 login ---- {'username': 'pytest', 'passwd': '123456'}
>>> 遍历root的下一层 item ---- {'id': '2'}
>>> 4
>>> 测试
>>> ********************
>>> maxid ---- {}
>>> login ---- {'username': 'pytest', 'passwd': '123456'}
>>> caption ---- {}
>>> item ---- {'id': '4'}
>>> caption ---- {}
>>> item ---- {'id': '2'}
>>> caption ---- {}
>>> ********************
>>> 1
>>> item ---- {'id': '2'} ----
>>> not modify passwd: 123456
>>> modify passwd: 999999
附:
#coding=utf-8 ''' XML解析类 @功能-结点的增删改查 ''' import xml.etree.ElementTree as ET import sys import os.path class XmlParse: def __init__(self, file_path): self.tree = None self.root = None self.xml_file_path = file_path def ReadXml(self): try: print("xmlfile:", self.xml_file_path) self.tree = ET.parse(self.xml_file_path) self.root = self.tree.getroot() except Exception as e: print ("parse xml faild!") sys.exit() else: print ("parse xml success!") finally: return self.tree def CreateNode(self, tag, attrib, text): element = ET.Element(tag, attrib) element.text = text print ("tag:%s;attrib:%s;text:%s" %(tag, attrib, text)) return element def AddNode(self, Parent, tag, attrib, text): element = self.CreateNode(tag, attrib, text) if Parent: Parent.append(element) el = self.root.find("lizhi") print (el.tag, "----", el.attrib, "----", el.text) else: print ("parent is none") def WriteXml(self, destfile): dest_xml_file = os.path.abspath(destfile) self.tree.write(dest_xml_file, encoding="utf-8",xml_declaration=True) if __name__ == "__main__": xml_file = os.path.abspath("test.xml") parse = XmlParse(xml_file) tree = parse.ReadXml() root = tree.getroot() print (root) parse.AddNode(root, "Python", {"age":"22", "hello":"world"}, "YES") parse.WriteXml("testtest.xml")
2.3 xml.sax.*
SAX是一种基于事件驱动的API,利用SAX解析XML牵涉到两个部分:解析器和事件处理器。
解析器负责读取XML文档,并向事件处理器发送事件,如元素开始跟元素结束事件
事件处理器则负责对事件作出相应,对传递的XML数据进行处理
常用场景:
(1)对大型文件进行处理
(2)只需文件的部分内容,或只需从文件中得到特定信息
(3)想建立自己的对象模型
基于事件驱动的SAX解析XML内容的知识后续补充!
以上所述就是小编给大家介绍的《Python实现XML文件解析的示例代码》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- Linux内核中的设备模型及SCSI示例解析
- TiKV 源码解析系列文章(二)raft-rs proposal 示例情景分析
- 粒子滤波Matlab示例
- transformers示例
- 粒子滤波Matlab示例
- DuckDB:接口与示例
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
颠覆式创新:移动互联网时代的生存法则
李善友 / 机械工业出版社 / 2015-3-1
为什么把每件事情都做对了,仍有可能错失城池?为什么无人可敌的领先企业,却在一夜之间虎落平阳?短短三年间诺基亚陨落,摩托罗拉以区区29亿美元出售给联想,芯片业霸主英特尔在移动芯片领域份额几乎为零,风光无限的巨头转眼成为被颠覆的恐龙,默默无闻的小公司一战成名迅速崛起,令人瞠目结舌的现象几乎都能被“颠覆式创新”法则所解释。 颠覆式创新教你在新的商业竞争中“换操作系统”而不是“打补丁”,小公司用破坏......一起来看看 《颠覆式创新:移动互联网时代的生存法则》 这本书的介绍吧!