内容简介:工作中需要通过Spark以csv格式导出日志文件。实现功能不太复杂,但是在中文识别上遇到了些问题。解决csv文件中的乱码最直接的思路就是添加BOM,这样Excel在打开Excel的时候就知道使用什么样的编码来解析这篇文档了。先写了段测试代码验证了下:
工作中需要通过Spark以csv格式导出日志文件。实现功能不太复杂,但是在中文识别上遇到了些问题。
解决csv文件中的乱码最直接的思路就是添加BOM,这样Excel在打开Excel的时候就知道使用什么样的编码来解析这篇文档了。
先写了段测试代码验证了下:
val bom = Array(0xEF, 0xBB, 0xBF).map(_.toByte)
val result = ListBuffer(new String(bom) + "title\n")
result += "en-chars\n"
result += "中文字符"
val w = new FileWriter("/my-file.csv")
result.foreach(w.write)
w.flush()
这段代码会生成一个包含中文字符的csv文件。添加的BOM提示了生成的文件使用的是UTF-8编码。经测试使用Excel打开该文件可以识别中文字符。
将相同的逻辑写到Spark程序中,结果却没有预期的那么美好:中文乱码依然存在,并且新添加的BOM也变成了乱码。BOM变成了这几个奇怪又熟悉的字符:
锟斤拷锟潔
最后面那个“潔”还吞了一个英文字符 e 。
在十六进制下查看BOM变成了这几个字符:
EF BF BD EF BF BD EF BF BD
也就是说BOM中的三个字符每个都被替换成了 EF BF BD 。
查了下资料,这三个字符的意义是这样的:
它是很多编程语言以及库中的备胎,即无效的码点值在编码的时候会默认用这个码点值进行替换,即utf-8中的超级「备胎」(REPLACEMENT CHARACTER)
也就是说Spark将我添加的BOM字符串视为了无效字符。
为什么会这样呢?一时陷入了无效的思索和尝试中。
说下最后的解决方案吧,巨简单:在使用BOM数组创建字符串的时候指明使用UTF8编码。就是像下面这样:
val bom = Array(0xEF, 0xBB, 0xBF).map(_.toByte) //添加UTF BOM或者说UTF签名 var result = ListBuffer(new String(bom, StandardCharsets.UTF_8) + title)
会出现这个问题估计是因为服务器的默认文件编码不是UTF-8导致的。
以上所述就是小编给大家介绍的《Spark生成CSV后BOM变EF BF BD》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- 实战生成对抗网络(二):生成手写数字
- 实战生成对抗网络[2]:生成手写数字
- 020.Python生成器和生成器函数
- faker生成器生成虚拟数据的Python模块
- 利用代码生成工具生成基于ABP框架的代码
- 数据生成工具 ZenData 1.4 发布,内置国家、日期、时间格式,支持文章生成
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
你也能看得懂的Python算法书
王硕,董文馨,张舒行,张洁 著 / 电子工业出版社 / 2018-11-1 / 59.00
编程的核心是算法,学习算法不仅能教会你解决问题的方法,而且还能为你今后的发展提供一种可能。 《你也能看得懂的Python算法书》面向算法初学者,首先介绍当下流程的编程语言Python,详细讲解Python语言中的变量和循序、分支、循环三大结构,以及列表和函数的使用,为之后学习算法打好基础。然后以通俗易懂的语言讲解双指针、哈希、深度优先、广度优先、回溯、贪心、动态规划和至短路径等经典算法。 ......一起来看看 《你也能看得懂的Python算法书》 这本书的介绍吧!