最近运行课件代码,发现pdf文件读取部分的函数失效。这里找到读取pdf文件的可运行代码,为了方便后续学习使用,我已将pdf和docx读取方法封装成pdfdocx包。
pdfdocx
只有简单的两个读取函数
-
read_pdf(file)
-
read_docx(file)
file为文件路径,函数运行后返回file文件内的文本数据。
安装
pip install pdfdocx
使用
读取pdf文件
from pdfdocx import read_pdf
p_text = read_pdf('test/data.pdf')
print(p_text)
Run
这是来⾃pdf⽂件内的内容
from pdfdocx import read_docx
d_text = read_pdf('test/data.docx')
print(d_text)
Run
这是来⾃docx⽂件内的内容
拆开pdfdocx
希望大家能安装好,如果安装或者使用失败,可以使用下面的代码作为备选方案
读取pdf
from io import StringIO
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfparser import PDFParser
import re
def read_pdf(file):
"""
读取pdf文件,并返回其中的文本内容
:param file: pdf文件路径
:return: docx中的文本内容
"""
output_string = StringIO()
with open(file, 'rb') as in_file:
parser = PDFParser(in_file)
doc = PDFDocument(parser)
rsrcmgr = PDFResourceManager()
device = TextConverter(rsrcmgr, output_string, laparams=LAParams())
interpreter = PDFPageInterpreter(rsrcmgr, device)
for page in PDFPage.create_pages(doc):
interpreter.process_page(page)
text = output_string.getvalue()
return text
读取docx
import docx
def read_docx(file):
"""
读取docx文件,并返回其中的文本内容
:param file: docx文件路径
:return: docx中的文本内容
"""
text = ''
doc = docx.Document(file)
for para in doc.paragraphs:
text += para.text
return text
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- SpringBoot 读取文件代码模版
- flex actionScript读取文件示例代码
- 十图详解TensorFlow数据读取机制(附代码)
- 使用vbscript代码从文本文件中读取和写入值
- Python代码审计实战案例总结之CRLF和任意文件读取
- Ectouch2.0 分析代码审计流程 (四) 任意文件删除/读取(ssrf)
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
数据挖掘导论
Pang-Ning Tan、Michael Steinbach、Vipin Kumar / 范明、范宏建 / 人民邮电出版社 / 2010-12-10 / 69.00元
本书全面介绍了数据挖掘,涵盖了五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都有两章。前一章涵盖基本概念、代表性算法和评估技术,而后一章讨论高级概念和算法。这样读者在透彻地理解数据挖掘的基础的同时,还能够了解更多重要的高级主题。 本书是明尼苏达大学和密歇根州立大学数据挖掘课程的教材,由于独具特色,正式出版之前就已经被斯坦福大学、得克萨斯大学奥斯汀分校等众多名校采用。 ......一起来看看 《数据挖掘导论》 这本书的介绍吧!