如何删除文件中的重复行

栏目: 服务器 · 发布时间: 5年前

内容简介：有时候删除文件里的第一种方案是用 sort 命令的 -u 参数：第二种方案是用 awk 命令，它的关键在于用一个字典来保存记录：

有时候删除文件里的 重复行 是一个很常见的需求，这个用 shell 命令有很多处理方法。

第一种方案是用 sort 命令的 -u 参数：

$ sort -u input.txt > output.txt

第二种方案是用 awk 命令，它的关键在于用一个字典来保存记录：

$ awk '!seen[$0]++' input.txt > output.txt

这和第一种方案的区别在于，即使文件中重复行不连续，依然可以删除。

第三种方案是用 sed 命令，但是其实不大推荐，它相比第一种方案复杂多，而且很容易写错：

$ sort -n input.txt | sed '$!N;/^\(.*\)\n\1$/!P;D' > output.txt

这种方案里面用到了 sed 的高级命令（N、P、D），相关介绍可以参考之前写的文章 Sed and awk 笔记之 sed 篇：高级命令（一）。

这里有一个小技巧，如果遇到比较复杂的 sed 命令拿捏不准的化，可以用 sedsed 这个脚本来调试执行，看每一步执行的情况。

使用方法也很简单，比如调试上面这个 sed 命令，命令执行结果会展示每一步执行后模式空间和保持空间的内容，一目了然：

$ sort -n input.txt | python sedsed.py -d '$!N;/^\(.*\)\n\1$/!P;D'

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Prometheus: Up & Running

Brian Brazil / O'Reilly Media / 2018-7-9 / USD 49.99

Get up to speed with Prometheus, the metrics-based monitoring system used by tens of thousands of organizations in production. This practical guide provides application developers, sysadmins, and DevO......一起来看看《Prometheus: Up & Running》这本书的介绍吧!

码农工具

HTML 编码/解码

URL 编码/解码

HEX HSV 转换工具

HEX HSV 互换工具