'예측모델"에 원하는 결과를 예측하기 위해 데이터간에 숨겨진 관계를 찾아내는 과정을 표현하는 많은 명칭 중 하나다. 많은 과학 영역에서 이 분야에 기여하고 있다.
- 샘플, 데이터 값, 관측값, 경우라는 단어가 모두 고객, 환자, 화합물 등 단일을 독립적인 데이터 단위를 나타낸다. 샘플이라는 단어는 훈련 집합 샘플 같은 데이터의 부분 집합을 나타내는 데도 사용된다. 글에서 이런 용어가 사용될 때는 문맥이 정확하게 드러나 있어야 한다.
- 훈련 집합은 모델 개발에 사용되는 데이터 집합이고, 테스트 집합이나 검증 집합은 후보 모델 최종 집합의 성능 평가만 위해 사용된다.
- 예측변수, 독립변수, 속성, 기술자는 예측 방정식의 입력값으로 사용되는 데이터이다.
- 결과값, 종속변수, 목표값, 클래스, 응답값은 예측된 결과 이벤트나 결과값 수치에 따른다.
- 연속형 데이터는 자연수나 수치 척도를 갖는다. 혈압이나 물건의 가격, 욕실 개수는 모두 연속형이다. 욕실의 갯의 경우, 개수는 분수가 될 수 없지만 그래도 연속형 데이터로 다룬다.
- 명목형, 속성형, 이산형 데이터라고도 불리는 범주형 데이터는 척도가 따로 없는 특정값을 갖는 형태다. 이런 데이터의 예로는 신용등급("좋음","나쁨") 이나 색상 ("빨강", "파랑") 등이 있다.
- 모델 구축 및 훈련, 인수 추정 모두 모델 방정식에서 데이터를 사용해 값을 추정하는 과정을 거친다.
'4차 산업에 필요한 분석 R > 용어정리' 카테고리의 다른 글
수학적인 표기법 (0) | 2022.01.01 |
---|---|
통계학에서의 용어[변수]정리 (2) | 2022.01.01 |
신뢰성 공학에서의 용어정리 (0) | 2022.01.01 |