파이썬 관련 패키지를 쓰다면 SQLite 관련 Library를 많이 참조하게 된다. mysql / hadoop / oracle 등은 많이 다뤄봤지만... SQLite는 Android관련 개발자가 아니면 익숙하지 않을 터.. ( 그래봐야 DB이지만.. ) 관련해서 쓰는 것은 별 일은 아니지만 Data 및 권한 관리 등 잡다한 영역에서 사용이 필요하니, tool을 쓰는 것이 좋을 것 같다 그래서 찾아보니 DB browser for SQLite를 추천받아 사용하게 되었다. http://sqlitebrowser.org/ 기존에 toad를 사용해도 무방할 것 같지만.. 이왕이면 많이 쓰는 tool을 써야 Reference도 많이 얻을 것 같아 설치해 본다 음 일단 사용하기에는 심플해보여서 좋아보인다.. 사용은 좀..
python 실습을 하다가 windows com 관련 모듈을 호출하려고 아래 소스를 실행하려 하면, 관련 모듈이 없다고 나온다 import win32com.client explore = win32com.client.Dispatch("InternetExplorer.Application") explore.Visible = True 추가를 하려고 pywin32를 설치하려고 보니 에러가 떨어진다 음.. 해결을 위해서 console에서 해당 command를 살펴보자 음.. 현재 version과 상이한 이유로 pip upgrade가 되지 않는다 그렇다면.. 공식 문서를 살펴 보자 https://pip.pypa.io/en/stable/installing/#upgrading-pip Command 를 실행해보자 pip ..
Python을 활용하여 데이터 분석 / ML을 사용할 때 pandas와 같은 패키지를 사용해야할 경우가 많다 하지만 일일이 설치하려니 귀찮기도 하고 Jupiter등과 함께 사용하기에 좋은 tool이 있기에설치해 본다 Anaconda ( https://www.continuum.io/ ) 다양한 플랫폼을 지원하니 원하는 플랫폼을 설치하자 2.x와 3.x 모두 지원하니 맘에 드는 것을 설치하자 파이썬의 아나콘다는 Continuum Analytics라는 곳에서 만든 파이썬 배포판으로, 445개 정도의 파이썬 패키지를 포함하고 있다.( 요새 많이 쓰는 분석 패키지는 대부분 지원하는 것 같다. ) 설치하면 다음과 같이 navigator를 활용할 수 있으며, 원하는 tool로 python을 활용 할 수 있다 설치했으..
환경 : OS X 10.12.2(16C67) 파이썬 공부를 하다보니 IDE를 설치해야하는데.. 기존 사용하고 있는 Intelij로도 부족함은 없었으나 뭔가.. 아쉬운 감이 있었다. 그래서 다른 IDE를 찾다보니 Pycharm을 권장하시는 분들이 많다. 물론 파이썬은 수행하는 방법에 다양한 방법이 있긴 하지만 많이 사용하는데에는 이유가 있다고 생각하여.. 일단 깔아본다... -_-;;; ㅋㅋ URL : https://www.jetbrains.com/pycharm/ 아시는 분은 알겠지만 intelij와 같은 회사인 JetBrain에서 제공하는 IDE이다. 우리는 돈이 없기 때문에 Community version 으로 셋업하면 무료로 사용이 가능하다. 차이는 ( https://www.jetbrains.com/..
HDP 및 기타 hadoop을 설치하는 경우에 해당 기능이 on/off되어 있는지 물어보는 경우가 종종 있다. 뭔가.. 하고 찾아보니 다음과 같다 . https://access.redhat.com/documentation/ko-KR/Red_Hat_Enterprise_Linux/6/html/Performance_Tuning_Guide/s-memory-transhuge.html 즉 메모리관리에 있어 Page에 접근하는 application에 대용량 size의 page를 쉽게 접근하기 위한 기능이다. 이론적으로는 성능향상을 기대할 수 있으나.. 실상은 많은 부분 해당 기능을 Off하도록 권장하고 있다. 실제 테스트를 해보니.. 전후대비 약 10%의 성능향상을 보인다. 적용하는 방법은 간단하다. 1) 온라인 적..
set spark.home=/location/to/sparkHome;export SPARK_HOME=/usr/hdp/2.4.2.0-xyz/spark/libLink the spark-assembly jar to HIVE_HOME/lib.set hive.execution.engine=spark; set spark.home=/location/to/sparkHome;export SPARK_HOME=/usr/hdp/2.4.2.0-xyz/spark/libLink the spark-assembly jar to HIVE_HOME/lib. set hive.execution.engine=spark;set spark.home=/usr/hdp/2.5.0.0-1245/spark;set spark.master=yarn-clien..
1. 개요 : Node를 추가하고 Balancer를 돌리려고 하니.. 아래와 같은 메세지와 함께 hdfs Balancer가 동작하지 않는다. 기존에는 동작했지만.. HA 구성하고 나니 동작하지 않는 걸 봐서는 문제가 있는 부분 같다. 2. 환경 HDP - 2.3.2.0 Ambari - 2.1.2 3. 메세지 :[hdfs@slave1 ~]$ hdfs balancer 15/11/20 11:46:10 INFO balancer.Balancer: namenodes = [hdfs://mycluster, hdfs://mycluster:8020] 15/11/20 11:46:10 INFO balancer.Balancer: parameters = Balancer.Parameters [BalancingPolicy.Node,..
1. 개요 : oozie coordinator에서 file Retry action이 필요할 경우가 있다. 간혹 Version마다 차이가 있지만 ( ex) CDH or HDP or Apache ) 다수의 잡을 실행시킬 경우, Retry Time이 지켜지지 않는 경우가 종종 있다. 2. oozie-site.xml : 아래의 변수를 확인한다. oozie.service.coord.default.max.timeout --> default value는 86400 (second ) 이 값은 oozie에서 Control하는 시간의 총 합이라고 생각하면 된다. 3. Example : 만약 Job 마다 5 minute 씩 Wait를 하게 하고.. 그런 Job 이 20개라 가정하면 total wait --> 20 x 5 x..
1. 개요 : network 사정마다 다르지만.. Balancer는 Yarn으로 Summit되지 않고, 자체적으로 Bandwidth을 사용하여, 돌기 때문이지 Balancing에 굉장히 시간이 오래 걸린다. 2. 설정 : hdfs-site.xml의 fs.datanode.balance.bandwidthPerSec의 값을 확인해보면.. 약 6MB로 되어 있었다. ( 각자 셋팅을 확인 할 것 ) 3. 해결 : Bandwidth를 변경하고, conf값을 변경하는 것이 부담스럽다면, 다음과 같이 Command를 통해 진행한다. --> Balancer작업이 빈번하게 일어나게 일어나는 작업은 아니지만, 빈도로 그 결정한다. 4. Command : hdfs dfsadmin -setBalancerBandwidth [ B..
hdfs를 운영하다 보면 은근히 Eco System별로 로그를 관리해야할 때가 많다. 가장 관리를 필요하는 부분이 아무래도 audit Log가 많이 발생되는 hdfs인 경우가 많을 것이다. /var/log/hadoop/hdfs -rw-r--r-- 1 hdfs hadoop 15K Sep 5 10:33 hdfs-audit.log.2016-09-05 -rw-r--r-- 1 hdfs hadoop 25K Oct 11 12:01 hdfs-audit.log.2016-10-11 -rw-r--r-- 1 hdfs hadoop 343K Nov 7 20:44 hdfs-audit.log.2016-11-07 -rw-r--r-- 1 hdfs hadoop 38K Nov 8 13:41 hdfs-audit.log.2016-11-08 -..