뜻 : Exploratory Data Analysis 정의 : 기 수집된 data로부터 데이터의 형태, 관계 파악 명백하게 공식화된 이전의 가설을 검증하기 보다는 자료를 탐구함으로써 시작하는 통계적 분석의 형태를 의미 분석 모형은 EDA를 통해 도출된 특징을 기반으로 수행 --> regression을 도입하는지.. 등을 선택하는 전처리 과정에 속함 주요 분석내용 1) 데이터의 요약 ( 중앙값, 사분위 등 )과 그래프 ( 산포도 등 ) 2) 데이터를 재표현 ( re-expression, Transformation ) 3) 데이터가 어떤 분포에 적합한지 알아보는 방법 4) 통계적 가설 설정 과정 없음 활용 1) 기술통계량과 경험 ( Biz 노하우)에 따른 결론 유추 2)분석의 첫 단계 - 데이터 본포의 적합..
머신러닝 강의를 좀 듣다보면 Cost Function에 대한 이야기가 많이 나온다 Supervised Leaning에서 가장 중요한 개념은 train set을 통한 공식 도출이 아닐까 싶다 일반적으로 많은 부분( 분석 방법) 에 이 부분에 해당하는 것 같다. 일반적인 Gradient Decent ( 경사하강법 )을 활용할 때, W (weight)를 찾아가는 법 중에 가장 중요한 것은 기울기가 0되는 곳 까지 찾아가는 것이다. 전 구간에 대해서 연속 , 즉 미분가능한 구간이 나와야하지만, 그렇지 않은 경우에는 미분이 되지 않으므로 다른 공식이 필요하다 즉 미분이 되지 않는 구간에 대해 부드럽게 미분이 가능해 지도록 표현해 준다. 많이 쓰이는 것은 Logistic Regression을 활용하여, X값에 상관..
Regression과 관련한 내용을 살펴보면 눈에 띄는 부분이다. Sung Kim님의 강의를 듣다보니.. 1) hypothesis 2) Cost Function 3) Gradient descent algorithm 위의 3가지를 강조 하시지만, 3)번에 대한 내용을 다시 뜯어보기로 했다 ( 정확히 이야기하지만 잘 설명해주셨지만.. 휘발성 기억력이라;; ) 원문대로 찾아보면 저 내용은 경사하강법으로 알 수 있다.( https://ko.wikipedia.org/wiki/%EA%B2%BD%EC%82%AC_%ED%95%98%EA%B0%95%EB%B2%95 ) 이름 그대로 기울기를 낮은 쪽으로 이동 시켜서 최적의 값을 찾는 알고리즘이다. 1차/다중 선형 회귀분석 등 다양하게 사용할 수 있는 기본적인 개념이라 할 ..