반응형

  수학적인 표기법은 아래와 같이 매우 중요하다.  아래 사항이 Latex가 되는지 확인 해 보고 만약에 안된다고 하면,  주피터 노트북에서 Latex를 한 다음 그림 갭처로 가져올 예정 이다.    Tistory는 Latex언어가 지원 하지 않으므로 다른 곳에서 작성 후 캡쳐 떠서 내용을 진행 할 예정 이다. 

 

   모든 것을 수식 대신 말로 설명 하려 하였으나,   일부는  수식으로 설명 해야 할 것이 있어서,  수식으로 설명 하겠다. 

 

머신러닝 및 통계의 수학 기호

  위의 수식은 엑셀 행과 열,  그리고  행렬 정도 알게 되면 쉽게 이해 할 수 있는 있는 내용이다.   그런데 이런 기호들을 모르면,  향후 설명할 내용에 대한 이해 하기가 어렵다. 

 

   그리고 수식상 사용되는 기호들은 아래와 같다. 

머신러닝에 주로 사용하는 수식

앞으로 설명 할때,  이것에 대한 기호가 필요 할대 마다 다시 설명할 예정이다. 

반응형
반응형

'예측모델"에 원하는 결과를 예측하기 위해 데이터간에 숨겨진 관계를 찾아내는 과정을 표현하는 많은 명칭 중 하나다.  많은 과학 영역에서 이 분야에 기여하고 있다.   

 

 

  • 샘플, 데이터 값, 관측값, 경우라는 단어가 모두  고객, 환자, 화합물 등 단일을 독립적인 데이터 단위를 나타낸다. 샘플이라는 단어는 훈련 집합 샘플 같은 데이터의 부분 집합을 나타내는 데도 사용된다.  글에서 이런 용어가 사용될 때는 문맥이 정확하게 드러나 있어야 한다.
  • 훈련 집합은 모델 개발에 사용되는 데이터 집합이고, 테스트 집합이나 검증 집합은 후보 모델 최종 집합의 성능 평가만 위해 사용된다. 
  • 예측변수, 독립변수, 속성, 기술자는 예측 방정식의 입력값으로 사용되는 데이터이다. 
  • 결과값, 종속변수, 목표값, 클래스, 응답값은 예측된 결과 이벤트나 결과값 수치에 따른다.
  • 연속형 데이터는 자연수나 수치 척도를 갖는다. 혈압이나 물건의 가격, 욕실 개수는 모두 연속형이다. 욕실의 갯의 경우, 개수는 분수가 될 수 없지만 그래도 연속형 데이터로 다룬다. 
  • 명목형, 속성형, 이산형  데이터라고도 불리는 범주형 데이터는 척도가 따로 없는 특정값을 갖는 형태다.  이런 데이터의 예로는 신용등급("좋음","나쁨") 이나 색상 ("빨강", "파랑") 등이 있다. 
  • 모델 구축훈련, 인수 추정 모두 모델 방정식에서 데이터를 사용해 값을 추정하는 과정을 거친다. 

 

반응형
반응형

각 변수간 기능적 관계를 중심으로 한 분류

1) 독립변수

    독립변수는 일정하게 전제된 원인을 가져다 주는 기능을 하는 변수로서, 실험 설계에 있어서는 연구자에 의하여 조작되는 변수를 말한다.  독립변수는 원인 변수 또는 예측변수라고 불린다.  실험 연구에서 독립 변수는 연구자에 의해 조작되는 변수를 의미 하며, 사회조사연구에서는 연구자의 능등적 개입이 아닌 논리적 선행조건의 개념으로 파악 된다. 

 

2 ) 종속변수

  독립변수의 원인을 받아 일정하게 전제된 결과를 나타낸는 기능을 하는 변수로서 실험 설계에 있어서는 독립변수의 변이에 따라 변할 것으로 예측되는 변수(독립변수의 결과)이다. 종속변수는 결과변수, 피설명 변수, 피예측 변수라고도 한다. 실험적 연구에 있어서 종속 변수는 독립 변수의 변이 또는 변화에 따라 자연히 변하는 것으로 결과적인 예측 변수라고 할 수 있다. 

 

3) 매개변수

  이는 종속변수에 영향을 주는 변수이다.  그러나 종속변수에 대하여 영향을 준다고 해서, 독립 변수의 경우처럼 명백한 것이 아니고 종속변수의 결과를 그 규정된 독립변수에 의하여 전부 설명하지 못하든지 또는 전혀 설명되지 않은 것을 설명이 가능 하도록 해주는 역할을 하는 변수를 말한다. 

 

매개 변수는 독립변수에서 종속변수에 이르는 동작에 표함된 시간적.논리적 과정에 대한 좀더 정확한 이해를 가능케 함으로써 원인과 결과에 대한 지적인 탐색의 길잡이 역할을 하는 변수이다. 

 

4) 선행변수 

인과관계에서 독립변수에 앞서변수 독립변수에 유효한 영향력을 행사하는 변수를 말한다. 

  선행변수 -> 독립변수 -> 매개변수 -> 속속변수

 

5) 외재변수 

   외재 변수는 독립변수와 종속변수의 관계가 표면적으로는 인과적 관계에 있는 것처럼 보이는 경우에 실제로는 두 변수가 우연히 어떤 변수와 연결되어 관계가 있는 것처럼 보이는 제3의 변수로 허위 변수라고도 한다.  이때,  다른 변수의 영향을 통제하면 두 변수의 관계가 사라지게 되는데  이 통제되는 변수를 외재 변수라 한다. 

 

6) 통제 변수 

   통제 변수란 실험상에서 적절히 통제된 변수이다. 실험과정에서 한 변수에 대하여 통제 한다는 것은 그 통제 변수의 각 수준을 따로 취해 독립변수와 종속변수의 원래 관계가 통제변수의 각 수준에서 어떻게 변하는지를 살펴본다는 것을 의미 한다. 

 

 

변수가 갖는 속성의 정도 또는 종류를 중심으로 한 분류

1) 연속변수 

    이는 수입, 연령, 태도 등과 같이 변수가 갖는 속성의 양적 정도에 따라 연속체를 기준으로 구별되는 변수이다. 

 

2) 불연속변수

  이는 변수가 갖는 전체적 성격의 종류에 따라 카테고리화되는 변수를 말한다. 불연속변수의 예로서 성으로서의 남녀, 종교로서의 불교/기독교/유교 등  사회적 신분으로서 상.중.하 등을 들 수 있는데,  이것들은 변수의 속성에 따라 별개의 카테고리로 분류되는 것이다. 

 

 

※ 주의 사항

 변수의 용어는   통계학하고,  머신러닝/딥러닝 용어 차이가 매우 크다.    머신러닝에서 예측변수가 뭐라 생각이 되는가?  독립변수 있다.  그리고 피처 값은 무엇이라하는가? 이것도  독립 변수이다.   머신러닝에서 종속 변수는 Target이 존재 한다.  

 

 

반응형
반응형

 과학이나 공학에서 사용되는 각종 용어에 대한 정의, 설계에서의 문제의 정의(problem definition) 등, 정의의 문제는 매우 중요하다.  그것은 그 정의에 따라 대상이 되는 사물이나 무제에 대한 본질이 거의 규정되고, 그 규정된 본질에 딸라, 그 이후의 전개가 체계적이지 목하며, 문제 해결이 어려워 진다. 

 

 

신뢰성 (信賴性, relaiability) 

  신뢰성이란 다음과 같이 정의하는 것이 일반적이다. 

 " 어떤 제품, 부품 또는 시스템이 규정된 조건하에서 지정된 기간에 걸쳐 요구되는 기능을 유지 수행하는 확률"

 

 확률로 정의 되므로, 수학적 표현 방법이 사용된다.  신뢰도라는 용어가 대신 사용되는 경우도 많다.  신뢰성이라는 용어는 제2차 대전 기간 중에 미국에서 전자장치의 고장, 수명추정과 관련하여 도입된 것으로 알려 졌다. 

 

파손(破損,  failure) 또는 고장(failure)

  신뢰성이 없는, 즉 "요구되는 기능을 수행하지 못하는 경우"를 파손(破損. failure) 또는 고장(failure) 라고 한다. 

 

  파괴(fracture) 

    파손과 비슷한 용여 파괴라는 것이 있다.  전혀 다른 개념이므로 혼동하지 않도록 하여야 한다. 파괴에 관해서도 엄밀한 정의가 있으나, 가장 쉽게 표현하면, "물체가 둘 이상으로 분리되는 현상"을 말한다.   파괴가 되지 않아도 파손이 될 수 있으며,  파괴가 되어도 파손이 되지 않는 경우가 얼마든지 가능 하다. 

 

안전성(安全性, safety)

    안전성이라는 용어는 신뢰성과 혼동하기 쉽다. 

통상적으로 안전하다라고 하는 것은 인간에 대해 피해를 줄 가능성이 거의 없는 상황을 말한다.  반대로 피해를 줄 가능성이 있는 경우 위험(危嶮, dangerous, risky)하다고 한다.  여기서 피해는 인명(人命)에 대한 것은 물론, 도난이나 경제적 활동으로서의 투자 등에 의해 발생하는 모든 것을 포함 한다. 

 

안전이란 피해 가능성과 연관된 개념으로, 본질적으로 확률적인 개념이라 말 할 수가 있다. 

안전성은 안전의 정도를 나타내는 용어로 , 다음과 같이 확률적특성을 포함한 위혐도에 의해 평가 하는 것이 일반적이다. 

 

위험도(危嶮道, risk)는 다음과 같이 정의되는 양이다. 

 

  위험도(risk) = 피해발생확률  X 피해크기

 

 용어 리스크(risk)

  위에서는 영어의 risk를 위험도라 번역하여 사용하였으나, 국내에서는 위험이라 번역하거나, 그대로 리스크(risk)라고 사용하는 경우도 많다.  대체로 위험 또는 위험이라 하면,  바람직하지 못한, 매우 부정적인 나쁘다는 위미가 강하나 risk의 의미에서 반드시 부정적인 면만 있는 것은 아니기 때문이다.  

   ex) risk-taker(모험적인 것을 즐기는 사람, 승부사), country risk (국가 신용도) risk의 의미에는, 불확실성이 매우 높아 실패할 가능성이 크다는 의미가 강하다고 보는 것이 좋을 것이다.  한편 실패하는 것은 언제나 부정적인 것만은 아니다. 

 

한편 risk(리스크)라는 용어는, 공학이나 기술 분야 뿐만 아니라, 경제 분야, 의학, 각종 과학분에서 널리 사용되고 있어,  그정의에 관해서는 약간씩 다를 수가 있다. 

 

리스크(risk, 위험도)는 위식에서 알수 있는 바와 같이, 피해 발생확률에 피해의 크기를 곱한 것으로, 발생확률보다 피해의 가능성에 중점을 두고 있다고 볼 수가 있다.  발생확률은 신뢰성과 관련된 순수학 공학적 문제일 것이나, 피해의 크기는 경제 및 사회에 미치는 영향과 밀접한 관계가 있는 문제 이며, 사람들의 인식에도 의존할 가능성이 크므로, 그 평가는 반드시 쉽지 않다고 보는 것이 좋을 것이다. 

  

  또 다른 한편,  리스크 값이 정량적으로 같다하여도,  리스크에 대한 사람의 인식(perception of risk)은 크게 다를 수 있다. 

 

안전계수(安全係數,  safety factor)

   기계공학에서와 같이, 설계에서의 재료의 강도가 문제가 되는 분야에서의 안전성을 나타내는 양으로 안전계수라는 것을 많이 사용해 오고 있다.  안전계수는 다음과 같이 정의 된다. 

 

안전계수 = 재료의 강도 / 허용응력

 

여기서 아용되는 재료의 강도와 허용응력은 각각 어떠한 하나의 확정된 특정 값으로, 평균치적 특성을 가진 값이다. 

  안전계수는, 예상한 하중과 다른 과대한 하중이 작용하는 경우 등, 설계 시 가정한 각종 조건에 대한 불확실성을 보완하기 위한 일종의 여유(margin)라는 의미가 크다.  확률적 특성을 지닌 안전성을 엄밀하게 나타내지 못한다는 결점이 있다. 기계공학에서 신뢰성 공학이 필요한 이유가 여기에 있다. 

 

 근래에는 재료의 강도와 하중의 확률적 특성을 고려한 안전계수 개념이 도입되어, 사용되는 추세에 있다. 

 

 

  위의 용어는 현업 업무에서 많이 쓰는 용어이다.  신뢰성, 위험성,  고장, 파손, 안전성, 안전계수 등이다. 

 

설비관리조직(maintenance)는 설비 유지 관리를 하는 업무를 하지만, 설비를 들여올때 위의 4가지 항목을 반드시 검토하여 설비를 들여온다.  

 

 

아래의 책의 내용을 가져온 것이다.  자세히 알고 싶으면 아래의 책을 구입하여 보면 된다. 

 

http://www.yes24.com/Product/Goods/9318530

반응형

+ Recent posts