반응형

'예측모델"에 원하는 결과를 예측하기 위해 데이터간에 숨겨진 관계를 찾아내는 과정을 표현하는 많은 명칭 중 하나다.  많은 과학 영역에서 이 분야에 기여하고 있다.   

 

 

  • 샘플, 데이터 값, 관측값, 경우라는 단어가 모두  고객, 환자, 화합물 등 단일을 독립적인 데이터 단위를 나타낸다. 샘플이라는 단어는 훈련 집합 샘플 같은 데이터의 부분 집합을 나타내는 데도 사용된다.  글에서 이런 용어가 사용될 때는 문맥이 정확하게 드러나 있어야 한다.
  • 훈련 집합은 모델 개발에 사용되는 데이터 집합이고, 테스트 집합이나 검증 집합은 후보 모델 최종 집합의 성능 평가만 위해 사용된다. 
  • 예측변수, 독립변수, 속성, 기술자는 예측 방정식의 입력값으로 사용되는 데이터이다. 
  • 결과값, 종속변수, 목표값, 클래스, 응답값은 예측된 결과 이벤트나 결과값 수치에 따른다.
  • 연속형 데이터는 자연수나 수치 척도를 갖는다. 혈압이나 물건의 가격, 욕실 개수는 모두 연속형이다. 욕실의 갯의 경우, 개수는 분수가 될 수 없지만 그래도 연속형 데이터로 다룬다. 
  • 명목형, 속성형, 이산형  데이터라고도 불리는 범주형 데이터는 척도가 따로 없는 특정값을 갖는 형태다.  이런 데이터의 예로는 신용등급("좋음","나쁨") 이나 색상 ("빨강", "파랑") 등이 있다. 
  • 모델 구축훈련, 인수 추정 모두 모델 방정식에서 데이터를 사용해 값을 추정하는 과정을 거친다. 

 

반응형

+ Recent posts