반응형

'예측모델"에 원하는 결과를 예측하기 위해 데이터간에 숨겨진 관계를 찾아내는 과정을 표현하는 많은 명칭 중 하나다.  많은 과학 영역에서 이 분야에 기여하고 있다.   

 

 

  • 샘플, 데이터 값, 관측값, 경우라는 단어가 모두  고객, 환자, 화합물 등 단일을 독립적인 데이터 단위를 나타낸다. 샘플이라는 단어는 훈련 집합 샘플 같은 데이터의 부분 집합을 나타내는 데도 사용된다.  글에서 이런 용어가 사용될 때는 문맥이 정확하게 드러나 있어야 한다.
  • 훈련 집합은 모델 개발에 사용되는 데이터 집합이고, 테스트 집합이나 검증 집합은 후보 모델 최종 집합의 성능 평가만 위해 사용된다. 
  • 예측변수, 독립변수, 속성, 기술자는 예측 방정식의 입력값으로 사용되는 데이터이다. 
  • 결과값, 종속변수, 목표값, 클래스, 응답값은 예측된 결과 이벤트나 결과값 수치에 따른다.
  • 연속형 데이터는 자연수나 수치 척도를 갖는다. 혈압이나 물건의 가격, 욕실 개수는 모두 연속형이다. 욕실의 갯의 경우, 개수는 분수가 될 수 없지만 그래도 연속형 데이터로 다룬다. 
  • 명목형, 속성형, 이산형  데이터라고도 불리는 범주형 데이터는 척도가 따로 없는 특정값을 갖는 형태다.  이런 데이터의 예로는 신용등급("좋음","나쁨") 이나 색상 ("빨강", "파랑") 등이 있다. 
  • 모델 구축훈련, 인수 추정 모두 모델 방정식에서 데이터를 사용해 값을 추정하는 과정을 거친다. 

 

반응형
반응형

각 변수간 기능적 관계를 중심으로 한 분류

1) 독립변수

    독립변수는 일정하게 전제된 원인을 가져다 주는 기능을 하는 변수로서, 실험 설계에 있어서는 연구자에 의하여 조작되는 변수를 말한다.  독립변수는 원인 변수 또는 예측변수라고 불린다.  실험 연구에서 독립 변수는 연구자에 의해 조작되는 변수를 의미 하며, 사회조사연구에서는 연구자의 능등적 개입이 아닌 논리적 선행조건의 개념으로 파악 된다. 

 

2 ) 종속변수

  독립변수의 원인을 받아 일정하게 전제된 결과를 나타낸는 기능을 하는 변수로서 실험 설계에 있어서는 독립변수의 변이에 따라 변할 것으로 예측되는 변수(독립변수의 결과)이다. 종속변수는 결과변수, 피설명 변수, 피예측 변수라고도 한다. 실험적 연구에 있어서 종속 변수는 독립 변수의 변이 또는 변화에 따라 자연히 변하는 것으로 결과적인 예측 변수라고 할 수 있다. 

 

3) 매개변수

  이는 종속변수에 영향을 주는 변수이다.  그러나 종속변수에 대하여 영향을 준다고 해서, 독립 변수의 경우처럼 명백한 것이 아니고 종속변수의 결과를 그 규정된 독립변수에 의하여 전부 설명하지 못하든지 또는 전혀 설명되지 않은 것을 설명이 가능 하도록 해주는 역할을 하는 변수를 말한다. 

 

매개 변수는 독립변수에서 종속변수에 이르는 동작에 표함된 시간적.논리적 과정에 대한 좀더 정확한 이해를 가능케 함으로써 원인과 결과에 대한 지적인 탐색의 길잡이 역할을 하는 변수이다. 

 

4) 선행변수 

인과관계에서 독립변수에 앞서변수 독립변수에 유효한 영향력을 행사하는 변수를 말한다. 

  선행변수 -> 독립변수 -> 매개변수 -> 속속변수

 

5) 외재변수 

   외재 변수는 독립변수와 종속변수의 관계가 표면적으로는 인과적 관계에 있는 것처럼 보이는 경우에 실제로는 두 변수가 우연히 어떤 변수와 연결되어 관계가 있는 것처럼 보이는 제3의 변수로 허위 변수라고도 한다.  이때,  다른 변수의 영향을 통제하면 두 변수의 관계가 사라지게 되는데  이 통제되는 변수를 외재 변수라 한다. 

 

6) 통제 변수 

   통제 변수란 실험상에서 적절히 통제된 변수이다. 실험과정에서 한 변수에 대하여 통제 한다는 것은 그 통제 변수의 각 수준을 따로 취해 독립변수와 종속변수의 원래 관계가 통제변수의 각 수준에서 어떻게 변하는지를 살펴본다는 것을 의미 한다. 

 

 

변수가 갖는 속성의 정도 또는 종류를 중심으로 한 분류

1) 연속변수 

    이는 수입, 연령, 태도 등과 같이 변수가 갖는 속성의 양적 정도에 따라 연속체를 기준으로 구별되는 변수이다. 

 

2) 불연속변수

  이는 변수가 갖는 전체적 성격의 종류에 따라 카테고리화되는 변수를 말한다. 불연속변수의 예로서 성으로서의 남녀, 종교로서의 불교/기독교/유교 등  사회적 신분으로서 상.중.하 등을 들 수 있는데,  이것들은 변수의 속성에 따라 별개의 카테고리로 분류되는 것이다. 

 

 

※ 주의 사항

 변수의 용어는   통계학하고,  머신러닝/딥러닝 용어 차이가 매우 크다.    머신러닝에서 예측변수가 뭐라 생각이 되는가?  독립변수 있다.  그리고 피처 값은 무엇이라하는가? 이것도  독립 변수이다.   머신러닝에서 종속 변수는 Target이 존재 한다.  

 

 

반응형

+ Recent posts