일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- Python
- PPCP
- 자동차 평균 기간 구하기
- PCCE
- 로그인성공
- pcce 기출
- 데이터분석청년인재
- 공공데이터분석청년인재
- 있었는데요
- 대여기록이 존재하는 자동차 리스트
- 청년인재
- 백준
- 프로그래머스
- python개발자찾기
- 자료구조
- 최소값 만들기
- 공공데이터분석
- 이웃한칸
- 낮은 상관관계
- 연속된 부분 수열의 합
- 파이썬
- 부모의 형질을 가지는 대장균 찾기
- prefix_sum
- silver 5
- 데이터분석
- level2
- MySQL
- 재귀
- 유연 근무제
- 알고리즘
- Today
- Total
데이터 저장소
[DA] 낮은 상관관계를 가지는 독립변수가 많을 때, 어떻게 전처리할까? 본문
프로젝트를 진행하다 보면, 종속 변수와 상관관계가 낮은 독립 변수가 포함되는 경우가 있습니다.
그렇다면 이러한 변수를 어떻게 다루는게 좋을까요. 단순히 종속 변수와 상관계수가 낮다고 무조건 제거하는 것이 정답일까요?
이번 글에서는 낮은 상관관계를 가지는 데이터를 다룰 때 유용한 몇 가지 방법을 소개합니다.
상관관계가 낮은 변수를 왜 고민해야 할까?
보통 데이터 분석에서는 종속 변수와의 상관계수가 높은 변수를 유용하다고 생각합니다.
하지만, 낮은 상관관계를 가진 변수라도 의미 있는 정보를 포함할 수 있습니다.
- 비선형 관계를 가지는 변수는 단순한 상관계수로는 중요성을 평가하기 어려움.
- 독립 변수들 간의 조합(상호작용 변수)이 중요한 의미를 가질 수 있음.
- 다중공선성이 낮다면, 개별 변수들이 모델의 성능 향상에 기여할 수 있음.
따라서 단순히 상관계수가 낮다는 이유만으로 제거하는 것은 위험할 수 있습니다.
전처리 방법
1. 도메인 지식을 활용한 변수 선택
데이터 분석에서 가장 중요한 것은 도메인 지식입니다. 단순히 수치적인 분석만으로 변수를 선택하기보다는, 해당 변수가 실제 문제와 연관성이 있는지 검토해야 합니다.
의료비 지출 예측 프로젝트를 수행한다고 가정해 봅시다.
외래 진료 횟수 변수가 의료비 지출과의 상관계수가 낮더라도 실제로 의료비 지출에 영향을 미칠 가능성이 큽니다.
따라서, 도메인 전문가와 협의하여 의미 있는 변수를 유지하는 것이 중요합니다
.
2. 특성 공학(Feature Engineering)
기존 변수들을 결합하거나 변환하여 새로운 특성을 만들어내는 과정은 매우 중요합니다.
- 조합 변수 생성 : 여러 변수를 결합하여 새로운 특징을 도출할 수 있음.
- 상호작용 항 추가 : 변수 간 상호작용을 반영한 데이터를 추가적으로 생성할 수 있음.
3. 다중공선성(VIF) 분석
분산 팽창 계수(Variance Inflation Factor)를 계산하면, 특정 변수가 다른 변수들과 중복된 정보를 포함하는 지를 파악할 수 있습니다.
- VIF 값이 높다면(일반적으로 10 이상), 해당 변수는 다른 변수와의 강한 상관관계를 가지므로 제거하는 것이 좋음
- VIF 값이 낮다면, 독립적인 정보를 담고 있을 가능성이 높음므로 유지할 수 있음.
4. 차원 축소 기법 활용
변수가 많다면 차원 축소 기법을 적용하여 유용한 정보를 보존하면서 불필요한 변수를 줄일 수 있습니다.
- PCA(주성분 분석) : 데이터의 주요 변동을 설명하는 변수를 식별하고 차원 축소할 수 있음.
상관계수가 낮은 변수라도 중요한 정보가 포함된 경우 차원 축소를 통해 유용한 특징을 보존할 수 있습니다.
결론 : 상관계수가 낮다고 바로 제거하지 말자!
단순히 상관계수가 낮다고 변수를 제거하지 말고, 다양한 방법으로 변수의 유용성을 평가한 후 전처리를 진행하는 것을 추천드립니다.
- 도메인 지식을 활용해 의미 있는 변수인지 판단하기
- 파생 변수 생성하기
- VIF 분석으로 다중공선성을 체크하기
- 차원 축소 기법을 사용하기