Z-SCORE (2) 썸네일형 리스트형 Data Analysis / ML / Normalization ※ 데이터가 가진 feature들의 scale이 심하게 차이나는 경우 이를 조정해주는 작업 ex) 집에대한 데이터가 있다고 가정해보자 방의 개수 : {1, 2, 3, ... , 20 } - 숫자 차이가 크지 않음 집의 연식(월) : {12, 24, ... , 240} - 숫자 차이가 큼 각 feature에 대해 동일한 scale을 적용할 필요가 있음 1. Min-Max Normalization 장점 : 모든 feature들에 대해 동일한 척도로 Scaling 단점 : 이상치에 상당히 민감 2. Z-Score Normalization 수식에서 분자는 평균, 분모는 분산을 의미 장점 : 이상치에 상대적으로 덜 민감 단점 : 동일한 척도로 scaling 되지 않음 < Min-M.. Data Analysis / ML / Linear Regression Model 1. 공부시간에 따른 성적 예측 2-1. 온도에 따른 오존량 예측 - python 결측치 제거 데이터 정규화 작업 (학습에 필요한 컬럼 추출, 생성) 2-2. 온도에 따른 오존량 예측 - sklearn ※ sklearn은 데이터분석, ML 라이브러리 중 하나로 효율이 좋기로 유명하다. ※ 예측값 비교 python으로 직접 구현 : 34.56270003 sklearn 이용 : 3.58411393 ※ 데이터 전처리 및 정규화를 하지 않아서 값의 차이가 발생 1. 이상치(Outlier) 처리 일반적인 값보다 편차가 큰 값들을 의미 데이터 전체 패턴에서 동떨어져 있는 관측치 평균과 분산에 영향을 미치기 때문에, 데이.. 이전 1 다음