内容简介:最近学Python的一部分原因是我想用Python的docx包来写一个自动化生成word报告的脚本(需求产生动力),本来是打算用rmarkdown来出报告的,其对网页版支持比较好(样式也好看),对PDF支持也不错(毕竟可以依靠latex),但是对于word的可操作性并是不很好(可能使用的比较粗糙);最后听人说Python的docx包不错,专门对于window下的word进行操作,所以尝试下对于Python的docx包,只能说功能非常强大,简单的说,可以用来创建/修改docx文档,对其标题、段落、表格、图片
最近学 Python 的一部分原因是我想用Python的docx包来写一个自动化生成word报告的脚本(需求产生动力),本来是打算用rmarkdown来出报告的,其对网页版支持比较好(样式也好看),对PDF支持也不错(毕竟可以依靠latex),但是对于word的可操作性并是不很好(可能使用的比较粗糙);最后听人说Python的docx包不错,专门对于window下的word进行操作,所以尝试下
对于Python的docx包,只能说功能非常强大,简单的说,可以用来创建/修改docx文档,对其标题、段落、表格、图片等进行处理,粗略扫了下,我的需求基本上都能满足,只是剩下如何用Python代码实现了
首先是安装,用pip安装即可:
pip install python-docx
Python-docx的官网文档 https://python-docx.readthedocs.io/en/latest/index.html ,内容很多,如果阅读困难的话,可以先看好心人整理的中文翻译文档 https://www.zybuluo.com/belia/note/1303813
Word文档比较复杂,是二进制文件,所以常规的读取文件方法是没用的,所以docx包用不同的文本类型来表示:
- 最顶层是Document对象,其代表整个文档
- block-level(块等级),段落是常见的块等级,换行符结尾算一个段落,表格、图片和标题均属于块对象;对于块对象属性,常见有对齐(alignment)、缩进(indent)以及行间距(space)等等
- inline-level(内联等级),其属于块等级中,run是常见的内联等级,一个块对象可由多个run组成,特别是通过run可由设置不同属性样式;文字、句子、段落均可作为内联对象;对于内联对象属性,常见有字体、大小、对齐以及颜色等等
其实,如果用Python从头写一个word文档的话,对docx的包的一些用法的掌握需要熟练点,但函数和功能有点多(当然如果是一个简洁的word文档的话,那还是很简单的);因此我选择一个取巧的版本,先制作一个word模板,里面包含一些不需要更改的文章段落、标题以及目录等,并设置好字体、大小以及表头(包括表格的样式)等;这样的话,我只需要将一些动态变化的文字、图片以及表格内容填入对应位置即可
以下是相关操作的方法:
首先导入docx包相关函数(有点多),打开模板文件
from docx import Document from docx.shared import Inches from docx.shared import Cm from docx.shared import Pt from docx.shared import RGBColor from docx.enum.text import WD_ALIGN_PARAGRAPH from docx.enum.table import WD_ALIGN_VERTICAL from docx.oxml.ns import qn document = Document("./模板.docx")
读取docx文件中的所有段落, paragraphs
是一个列表,里面存储了所有的段落信息;查看某个段落是什么内容,可以用 text
方法,生成的是 str
类型,Python中支持字符串操作的方法函数都可对其操作
paragraphs = document.paragraphs print(paragraphs[10].text) type(paragraphs[10].text)
插入文字定位可以分为两种方式,一种是通过指定插入的段落数,比如要在第10段落后面接着加上文字:
paragraphs[10].add_run("XXX")
另外一种通过for循环paragraphs列表,判断某段落中是否有你的标注信息(定位信息),有的话,就在该段落后面加上文字
for par in document.paragraphs: if "[sign]" in par.text: par.add_run("XXX")
如果插入图片,对document对象操作,如: document.add_picture()
,那么图片是默认生成在文档在最后面;如果想指定图片插入位置,也类似于上面文字插入方式,用run来操作;可以通过指定width和height参数来设定图片的大小,可以使用docx.shared.Inches()函数和docx.shared.Cm()函数设置尺寸
run = paragraphs[10].add_run() run.add_picture("xxx.png", width = Inches(4.5))
对于文字属性的操作(字体、大小、颜色等等)有点麻烦,如果是对插入的文字的话,可以搭配 add_run()
方法使用,如:
pa = paragraphs[10].add_run("XXX") pa.font.size = Pt(10) pa.font.bold = True pa.font.color.rgb = RGBColor(255, 0, 0) pa.font.name = "Times New Roman"
对于一些中文字体上述用 font.name
方法是无效的,需要使用 _element.rPr.rFonts
的set()方法:
pa.font.name = u'微软雅黑' pa._element.rPr.rFonts.set(qn('w:eastAsia'), u'微软雅黑')
如果需要多次对文字的属性进行操作,则最好将上述写成函数形式:
def paragraph_attribute(pa, size, family, r = 0x00, g = 0x00, b = 0x00, bold = None): pa.font.size = Pt(size) pa.font.name = family if bold == True: pa.font.bold = True pa.font.color.rgb = RGBColor(r, g, b) p = pa._element.rPr.rFonts.set(qn('w:eastAsia'), family) pa = paragraphs[10].add_run("XXX") paragraph_attribute(pa)
对于表格的操作,可以选择用docx包创建一个表格,并设置样式,然后分别对每行的单元格cell写入内容
table = document.add_table(rows = 2, cols = 2, style = "Normal Table") table.cell(0,0).text = "XXX"
但是我会先在模板中自定义一个表格样式(这样可以使用自定义样式,不必要选择word中可选择的那些样式),然后写好表头(后续可在代码中修改表头,也可不修改),然后在用 add_row()
方法在表格中增加行
tables = document.tables row_line = tables[0].add_row() row_line.cell(0,0).txt = "XXX"
表格的属性相比文字的要求可能会多一点,比如表格行高、列宽、居中等需求,这些都是可以设置的,如下:
tables[0].cell(0,0).width = Cm(3) #每列必须相同,不相同取最大值 tables[0].rows[0].height = Cm(0.7) tables[0].cell(0,0).paragraphs[0].paragraph_format.alignment = WD_ALIGN_PARAGRAPH.CENTER #水平对齐 tables[0].cell(0,0).vertical_alignment = WD_ALIGN_VERTICAL.CENTER #垂直对齐
对word文档修改完毕后,保存到指定docx文件即可
document.save("TEST.docx")
但docx包好似没有对目录进行操作的方法,比如我想生成自动化报告后,自动对目录的页码进行更新;对于这个需求,可以考虑使用win32com.client包,没仔细研究过,但是更新目录操作如下:
import win32com.client word = win32com.client.DispatchEx("Word.Application") doc = word.Documents.Open("./TEST.docx") doc.TablesOfContents(1).Update() doc.Close(SaveChanges=True) word.Quit()
上述是按照个人需求整理的docx的一些用法,不完整,有什么其他需求可先翻下翻译版的官方文档,网上对于docx包的讲解文章也很多,比如:
以上所述就是小编给大家介绍的《Python操作docx文档》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- Elasticsearch入门教程:索引和文档操作
- [ Laravel 5.7 文档 ] 数据库操作 —— 迁移
- [ Laravel 5.7 文档 ] 数据库操作 —— 分页
- [ Laravel 5.7 文档 ] 数据库操作 —— Redis
- [ Laravel 5.7 文档 ] 数据库操作 —— 数据填充
- [ Laravel 5.7 文档 ] 数据库操作 —— 快速入门
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
CSS 压缩/解压工具
在线压缩/解压 CSS 代码
在线进制转换器
各进制数互转换器