CentOS下使用LibreOffice实现文档格式的转换

栏目: 服务器 · 发布时间: 6年前

内容简介:项目需求,对上传的文档进行一些预处理,如果用户上传了先是试了一下然后发现了

项目需求,对上传的文档进行一些预处理,如果用户上传了 doc 格式的文档,需要将其处理为 docx 或者 pdf 格式,以便后续的流程对文档内容进行提取。

先是试了一下 phpoffice/phpword 这个包,发现其对 doc 的转换很不理想,这个包更适合用来根据内容生成文档,而不是转换文档,不是太适合我这种需求。

然后发现了 LibreOffice 这个开源工具,经过使用,效果很好,分享一下。

服务器是 CentOS7 ,直接使用 yum 安装 LibreOffice ,大概需要600MB+ 的磁盘空间:

# 装之前可以先删除一下,防止之前装过
yum remove libreoffice-*
yum install libreoffice

等待安装完成后,确认一下版本啥的,虽然官方已经到6.1版本了, yum 里面还是5.3.6的包,不过用起来并没有什么毛病,在这里我还是建议大家使用各自的 Linux 系统的包管理 工具 来安装,这样可以省去很多麻烦的。

[root@localhost /]# soffice --version
LibreOffice 5.3.6.1 30(Build:1)

不会用的话可以使用 soffice --help 看一下帮助,非常多的参数和使用案例,转换格式就很简单:

soffice --headless --convert-to docx /opt/upload/source/123.doc --outdir /opt/upload/source

以上的命令就是将 /opt/upload/source/123.doc 文件转换成docx格式,输出到 /opt/upload/source 文件夹里。

默认情况下:

outdir

转换成功会输出类似这样的:

convert /opt/upload/source/123.doc -> /opt/upload/source/123.docx using filter : MS Word 2007 XML
Overwriting: /opt/upload/source/123.docx

LibreOffice 会根据文件格式自动匹配格式过滤器(filter),至于它支持哪些格式,可以参考一下官网。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

写给大家看的Web设计书

写给大家看的Web设计书

Robin Williams、John Tollett / 苏金国、刘亮 / 人民邮电出版社 / 201005 / 69.00元

在这个网络时代,Web设计几乎已经成为每个人生活的必备技能。如果你想自力更生创建一个网站,或者认为自己的网站在设计上还不尽如人意,希望它看上去更具创意和专业性,那么本书正是为你准备的! 作者Robin和John先采用通俗易懂的方式将有关基础知识娓娓道来,比如Internet、搜索信息、构建简单网页等,然后为我们奉上了精妙的技巧、技术和设计示例来启发大家的设计灵感,比如Web基本设计原则、实现......一起来看看 《写给大家看的Web设计书》 这本书的介绍吧!

在线进制转换器
在线进制转换器

各进制数互转换器

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试