머신러닝에서의 용어정리

2022. 1. 1. 15:44

'예측모델"에 원하는 결과를 예측하기 위해 데이터간에 숨겨진 관계를 찾아내는 과정을 표현하는 많은 명칭 중 하나다. 많은 과학 영역에서 이 분야에 기여하고 있다.

샘플, 데이터 값, 관측값, 경우라는 단어가 모두 고객, 환자, 화합물 등 단일을 독립적인 데이터 단위를 나타낸다. 샘플이라는 단어는 훈련 집합 샘플 같은 데이터의 부분 집합을 나타내는 데도 사용된다. 글에서 이런 용어가 사용될 때는 문맥이 정확하게 드러나 있어야 한다.
훈련 집합은 모델 개발에 사용되는 데이터 집합이고, 테스트 집합이나 검증 집합은 후보 모델 최종 집합의 성능 평가만 위해 사용된다.
예측변수, 독립변수, 속성, 기술자는 예측 방정식의 입력값으로 사용되는 데이터이다.
결과값, 종속변수, 목표값, 클래스, 응답값은 예측된 결과 이벤트나 결과값 수치에 따른다.
연속형 데이터는 자연수나 수치 척도를 갖는다. 혈압이나 물건의 가격, 욕실 개수는 모두 연속형이다. 욕실의 갯의 경우, 개수는 분수가 될 수 없지만 그래도 연속형 데이터로 다룬다.
명목형, 속성형, 이산형 데이터라고도 불리는 범주형 데이터는 척도가 따로 없는 특정값을 갖는 형태다. 이런 데이터의 예로는 신용등급("좋음","나쁨") 이나 색상 ("빨강", "파랑") 등이 있다.
모델 구축 및 훈련, 인수 추정 모두 모델 방정식에서 데이터를 사용해 값을 추정하는 과정을 거친다.

오늘도 블로그