Diki 검색중...
#개념
과소적합(Underfitting)은 머신러닝 모델이 학습 데이터의 패턴을 충분히 학습하지 못하여, 학습 데이터와 새로운 데이터 모두에 대해 낮은 성능을 보이는 현상을 의미한다. 이는 모델이 너무 단순하여 데이터의 내재된 구조를 제대로 파악하지 못하거나, 학습 데이터의 특징을 제대로 반영하지 못하는 경우에 발생한다. 과소적합은 모델의 예측 정확도를 떨어뜨리며, 데이터의 잠재력을 제대로 활용하지 못하는 결과를 초래한다.과소적합은 주로 모델이 너무 단순할 때, 학습 데이터의 특징이 충분히 반영되지 않았을 때, 또는 학습 시간이 부족할 때 발생할 가능성이 높다. 단순한 모델은 복잡한 데이터의 패턴을 학습하기 어렵고, 특징 추출(Feature Extraction)이 제대로 이루어지지 않으면 모델이 중요한 정보를 놓칠 수 있다. 또한, 학습 시간이 부족하면 모델이 데이터의 패턴을 충분히 학습하지 못하여 과소적합이 발생할 수 있다. 이러한 이유로 적절한 모델 선택, 특징 추출, 충분한 학습 시간이 중요하다.과소적합을 방지하기 위한 방법은 다양하며, 모델 복잡도 증가, 특징 추가, 학습 시간 증가 등이 대표적이다. 모델의 복잡도를 높이면 모델이 더 많은 패턴을 학습할 수 있으며, 더 많은 특징을 추가하면 모델이 데이터의 다양한 측면을 고려할 수 있다. 또한, 충분한 학습 시간을 확보하면 모델이 데이터의 패턴을 완전히 학습할 수 있다. 모델 복잡도를 증가시키는 방법으로는 더 많은 계층(Layer)을 추가하거나, 더 많은 뉴런(Neuron)을 사용하는 방법이 있다. 특징을 추가하는 방법으로는 새로운 변수를 생성하거나, 기존 변수를 변환하는 방법이 있다.머신러닝 모델의 성능을 평가할 때 학습 데이터뿐만 아니라 검증 데이터(Validation Data)와 테스트 데이터(Test Data)를 사용하여 일반화 성능을 측정해야 한다. 검증 데이터는 모델의 하이퍼파라미터(Hyperparameter)를 조정하는 데 사용되며, 테스트 데이터는 최종 모델의 성능을 평가하는 데 사용된다. 과소적합은 모델이 학습 데이터의 패턴을 제대로 학습하지 못했기 때문에, 학습 데이터와 테스트 데이터 모두에서 낮은 성능을 보인다. 따라서 모델의 성능을 개선하기 위해서는 모델의 복잡도를 높이거나, 더 많은 특징을 추가하거나, 학습 시간을 늘려야 한다.
#관련 용어
모델의 성능 향상을 위해 데이터의 특징을 가공하거나 새로운 특징을 생성하는 과정
모델의 복잡도를 제한하여 과대적합을 방지하는 기법
#직무 연관도
DA | Data Analyst낮음
모델 성능 분석 및 과소적합 진단, 특징 엔지니어링
DS | Data Scientist보통
모델 구조 개선 및 특징 선택 방법 연구
DE | Data Engineer보통
데이터 수집 및 전처리 파이프라인 구축
#사용 사례
과소적합은 머신러닝 모델이 적용되는 모든 분야에서 발생할 수 있으며, 모델의 예측 성능을 저하시키는 원인이 된다. 따라서 과소적합을 방지하고 적절한 성능을 확보하는 것이 중요하다.
주택 가격 예측 모델이 주택의 크기만을 고려하여 다른 중요한 요인들을 무시하는 경우
#추천 포스트
© 2024 diki All rights reserved.