1. 개요 : Node를 추가하고 Balancer를 돌리려고 하니.. 아래와 같은 메세지와 함께 hdfs Balancer가 동작하지 않는다. 기존에는 동작했지만.. HA 구성하고 나니 동작하지 않는 걸 봐서는 문제가 있는 부분 같다. 2. 환경 HDP - 2.3.2.0 Ambari - 2.1.2 3. 메세지 :[hdfs@slave1 ~]$ hdfs balancer 15/11/20 11:46:10 INFO balancer.Balancer: namenodes = [hdfs://mycluster, hdfs://mycluster:8020] 15/11/20 11:46:10 INFO balancer.Balancer: parameters = Balancer.Parameters [BalancingPolicy.Node,..
1. 개요 : network 사정마다 다르지만.. Balancer는 Yarn으로 Summit되지 않고, 자체적으로 Bandwidth을 사용하여, 돌기 때문이지 Balancing에 굉장히 시간이 오래 걸린다. 2. 설정 : hdfs-site.xml의 fs.datanode.balance.bandwidthPerSec의 값을 확인해보면.. 약 6MB로 되어 있었다. ( 각자 셋팅을 확인 할 것 ) 3. 해결 : Bandwidth를 변경하고, conf값을 변경하는 것이 부담스럽다면, 다음과 같이 Command를 통해 진행한다. --> Balancer작업이 빈번하게 일어나게 일어나는 작업은 아니지만, 빈도로 그 결정한다. 4. Command : hdfs dfsadmin -setBalancerBandwidth [ B..
hdfs를 운영하다 보면 은근히 Eco System별로 로그를 관리해야할 때가 많다. 가장 관리를 필요하는 부분이 아무래도 audit Log가 많이 발생되는 hdfs인 경우가 많을 것이다. /var/log/hadoop/hdfs -rw-r--r-- 1 hdfs hadoop 15K Sep 5 10:33 hdfs-audit.log.2016-09-05 -rw-r--r-- 1 hdfs hadoop 25K Oct 11 12:01 hdfs-audit.log.2016-10-11 -rw-r--r-- 1 hdfs hadoop 343K Nov 7 20:44 hdfs-audit.log.2016-11-07 -rw-r--r-- 1 hdfs hadoop 38K Nov 8 13:41 hdfs-audit.log.2016-11-08 -..
hadoop 클러스터를 운영중에 datanode가 내려가서 재시작을 해보니 다음과 같은 메세지가 나온다 /usr/lib/python2.6/site-packages/resource_management/core/environment.py:165: DeprecationWarning: BaseException.message has been deprecated as of Python 2.6 Logger.info("Skipping failure of {0} due to ignore_failures. Failure reason: {1}".format(resource, ex.message)) stdout: 2017-01-05 14:13:19,719 - The hadoop conf dir /usr/hdp/current/..