内容简介:代码日志版权声明:翻译自:http://stackoverflow.com/questions/18477983/what-exactly-non-dfs-used-means
这是我最近在Web UI上看到的
Configured Capacity : 232.5 GB DFS Used : 112.44 GB Non DFS Used : 119.46 GB DFS Remaining : 613.88 MB DFS Used% : 48.36 % DFS Remaining% : 0.26 %
而我非常困惑,非dfs Used占用了一半以上的容量,
我认为意味着一半的hadoop存储被浪费了
在花费无意义的时间搜索后,我只是格式化了namenode,从头开始.
然后我将一个巨大的文本文件(大约19吉字节)从本地复制到HDFS(成功).
现在UI说
Configured Capacity : 232.5 GB DFS Used : 38.52 GB Non DFS Used : 45.35 GB DFS Remaining : 148.62 GB DFS Used% : 16.57 % DFS Remaining% : 63.92 %
在复制之前,DFS Used和Non DFS Used都是0.
因为DFS Used大约是原始文本文件大小的两倍,我配置了2个副本,
我猜,DFS Used是由原始和meta的2个副本组成的.
但是我仍然不知道哪些非DFS使用来自哪里,为什么它比DFS使用更多的capcity.
发生了什么?我犯了错吗
“不使用DFS”按以下公式计算:
非DFS已使用=已配置容量 – 剩余空间 – 使用DFS
至少对我来说还是令人困惑的.
因为
已配置容量=总磁盘空间 – 保留空间.
所以使用非DFS =(总磁盘空间 – 保留空间) – 剩余空间 – 使用DFS
我们来举个例子.假设我有100 GB磁盘,我将保留空间(dfs.datanode.du.reserved)设置为30 GB.
在磁盘上,系统等文件最多使用40 GB,DFS已使用10 GB.如果你运行df -h
,您将看到该磁盘卷的可用空间为50GB.
在HDFS Web UI中,它将显示
使用非DFS = 100GB(总计) – 30 GB(保留) – 10 GB(使用DFS) – 50GB(剩余)
= 10 GB
所以这实际上意味着你最初配置为预留30G用于非dfs使用,70G用于HDFS.然而,事实证明,非dfs使用超过了30G的预约,吃掉了应该属于HDFS的10GB的空间!
术语“使用非DFS”应该被重命名为“使用非dfs使用多少配置的DFS容量”
应该停止尝试找出为什么非dfs使用在hadoop内是如此之高.
一个有用的命令是lsof | grep delete,这将帮助您识别那些已被删除的打开文件.有时,Hadoop进程(如hive,纱线,mapred和hdfs)可能会引用已经删除的文件.而这些引用将占用磁盘空间.
另外du -hsx * |排序-rh |头-10帮助列出十大最大的文件夹.
代码日志版权声明:
翻译自:http://stackoverflow.com/questions/18477983/what-exactly-non-dfs-used-means
以上所述就是小编给大家介绍的《hadoop – 什么是非DFS使用意味着什么?》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- RMS 称开源运动是非道德的
- RMS 称开源运动是非道德的
- Flink被收购意味着什么
- Lambdas不意味着函数式编程
- 为什么 Go map 和 slice 是非线性安全的?
- Windows Lite 对微软来说意味着什么?
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
The Golden Ticket
Lance Fortnow / Princeton University Press / 2013-3-31 / USD 26.95
The P-NP problem is the most important open problem in computer science, if not all of mathematics. The Golden Ticket provides a nontechnical introduction to P-NP, its rich history, and its algorithmi......一起来看看 《The Golden Ticket》 这本书的介绍吧!