package인식을 위한 __init__은 확인했지만 코드보면 아래와 같은 코드가 자주 보인다 if __name__ == "__main__": 뭐하는 코드인지 살펴보기위해 Document를 살펴보면 다음과 같다 ( https://docs.python.org/3/library/__main__.html ) 결국 script로 호출 , 즉 top-level로 호출될때 사용되는 내부 모듈이라 할 수 있다. 파이썬은 다른 함수와 달리 Main함수가 없기 때문에.. 종종 사용되는 구문인듯 싶다 다음의 코드를 보면 이해에 도움이 된다 file A.pydef func(): print("function A.py") print("top-level A.py") if __name__ == "__main__": print("A..
version : HDP 2.3 / ambari 2.1.2 ambari metric collector Not running ambari를 통한 운영을 하다면 Metric Collect가 눈에 띄인다. Metric데이터를 보여주는 tool인데.. 은근히 상태 모니터링에 사용하기에 괜찮다 문제는 Collector가 가끔 오동작 or Running되지 않는 경우가 종종있다 관련 document를 살펴보자 http://docs.hortonworks.com/HDPDocuments/Ambari-2.1.2.0/bk_ambari_reference_guide/content/ams_collector_modes.html The Metrics Collector is built using Hadoop technologies s..
머신러닝 강의를 좀 듣다보면 Cost Function에 대한 이야기가 많이 나온다 Supervised Leaning에서 가장 중요한 개념은 train set을 통한 공식 도출이 아닐까 싶다 일반적으로 많은 부분( 분석 방법) 에 이 부분에 해당하는 것 같다. 일반적인 Gradient Decent ( 경사하강법 )을 활용할 때, W (weight)를 찾아가는 법 중에 가장 중요한 것은 기울기가 0되는 곳 까지 찾아가는 것이다. 전 구간에 대해서 연속 , 즉 미분가능한 구간이 나와야하지만, 그렇지 않은 경우에는 미분이 되지 않으므로 다른 공식이 필요하다 즉 미분이 되지 않는 구간에 대해 부드럽게 미분이 가능해 지도록 표현해 준다. 많이 쓰이는 것은 Logistic Regression을 활용하여, X값에 상관..
Regression과 관련한 내용을 살펴보면 눈에 띄는 부분이다. Sung Kim님의 강의를 듣다보니.. 1) hypothesis 2) Cost Function 3) Gradient descent algorithm 위의 3가지를 강조 하시지만, 3)번에 대한 내용을 다시 뜯어보기로 했다 ( 정확히 이야기하지만 잘 설명해주셨지만.. 휘발성 기억력이라;; ) 원문대로 찾아보면 저 내용은 경사하강법으로 알 수 있다.( https://ko.wikipedia.org/wiki/%EA%B2%BD%EC%82%AC_%ED%95%98%EA%B0%95%EB%B2%95 ) 이름 그대로 기울기를 낮은 쪽으로 이동 시켜서 최적의 값을 찾는 알고리즘이다. 1차/다중 선형 회귀분석 등 다양하게 사용할 수 있는 기본적인 개념이라 할 ..
파이썬 관련 패키지를 쓰다면 SQLite 관련 Library를 많이 참조하게 된다. mysql / hadoop / oracle 등은 많이 다뤄봤지만... SQLite는 Android관련 개발자가 아니면 익숙하지 않을 터.. ( 그래봐야 DB이지만.. ) 관련해서 쓰는 것은 별 일은 아니지만 Data 및 권한 관리 등 잡다한 영역에서 사용이 필요하니, tool을 쓰는 것이 좋을 것 같다 그래서 찾아보니 DB browser for SQLite를 추천받아 사용하게 되었다. http://sqlitebrowser.org/ 기존에 toad를 사용해도 무방할 것 같지만.. 이왕이면 많이 쓰는 tool을 써야 Reference도 많이 얻을 것 같아 설치해 본다 음 일단 사용하기에는 심플해보여서 좋아보인다.. 사용은 좀..
python 실습을 하다가 windows com 관련 모듈을 호출하려고 아래 소스를 실행하려 하면, 관련 모듈이 없다고 나온다 import win32com.client explore = win32com.client.Dispatch("InternetExplorer.Application") explore.Visible = True 추가를 하려고 pywin32를 설치하려고 보니 에러가 떨어진다 음.. 해결을 위해서 console에서 해당 command를 살펴보자 음.. 현재 version과 상이한 이유로 pip upgrade가 되지 않는다 그렇다면.. 공식 문서를 살펴 보자 https://pip.pypa.io/en/stable/installing/#upgrading-pip Command 를 실행해보자 pip ..
Python을 활용하여 데이터 분석 / ML을 사용할 때 pandas와 같은 패키지를 사용해야할 경우가 많다 하지만 일일이 설치하려니 귀찮기도 하고 Jupiter등과 함께 사용하기에 좋은 tool이 있기에설치해 본다 Anaconda ( https://www.continuum.io/ ) 다양한 플랫폼을 지원하니 원하는 플랫폼을 설치하자 2.x와 3.x 모두 지원하니 맘에 드는 것을 설치하자 파이썬의 아나콘다는 Continuum Analytics라는 곳에서 만든 파이썬 배포판으로, 445개 정도의 파이썬 패키지를 포함하고 있다.( 요새 많이 쓰는 분석 패키지는 대부분 지원하는 것 같다. ) 설치하면 다음과 같이 navigator를 활용할 수 있으며, 원하는 tool로 python을 활용 할 수 있다 설치했으..
환경 : OS X 10.12.2(16C67) 파이썬 공부를 하다보니 IDE를 설치해야하는데.. 기존 사용하고 있는 Intelij로도 부족함은 없었으나 뭔가.. 아쉬운 감이 있었다. 그래서 다른 IDE를 찾다보니 Pycharm을 권장하시는 분들이 많다. 물론 파이썬은 수행하는 방법에 다양한 방법이 있긴 하지만 많이 사용하는데에는 이유가 있다고 생각하여.. 일단 깔아본다... -_-;;; ㅋㅋ URL : https://www.jetbrains.com/pycharm/ 아시는 분은 알겠지만 intelij와 같은 회사인 JetBrain에서 제공하는 IDE이다. 우리는 돈이 없기 때문에 Community version 으로 셋업하면 무료로 사용이 가능하다. 차이는 ( https://www.jetbrains.com/..
HDP 및 기타 hadoop을 설치하는 경우에 해당 기능이 on/off되어 있는지 물어보는 경우가 종종 있다. 뭔가.. 하고 찾아보니 다음과 같다 . https://access.redhat.com/documentation/ko-KR/Red_Hat_Enterprise_Linux/6/html/Performance_Tuning_Guide/s-memory-transhuge.html 즉 메모리관리에 있어 Page에 접근하는 application에 대용량 size의 page를 쉽게 접근하기 위한 기능이다. 이론적으로는 성능향상을 기대할 수 있으나.. 실상은 많은 부분 해당 기능을 Off하도록 권장하고 있다. 실제 테스트를 해보니.. 전후대비 약 10%의 성능향상을 보인다. 적용하는 방법은 간단하다. 1) 온라인 적..
set spark.home=/location/to/sparkHome;export SPARK_HOME=/usr/hdp/2.4.2.0-xyz/spark/libLink the spark-assembly jar to HIVE_HOME/lib.set hive.execution.engine=spark; set spark.home=/location/to/sparkHome;export SPARK_HOME=/usr/hdp/2.4.2.0-xyz/spark/libLink the spark-assembly jar to HIVE_HOME/lib. set hive.execution.engine=spark;set spark.home=/usr/hdp/2.5.0.0-1245/spark;set spark.master=yarn-clien..