- 불확실성하에서 의사결정을 하기 위해서는 모집단의 특성을 예측하는데 확률을 부여하거나 어떤 결과가 발생하는 데 따르는 위험을 분석하고 이를 최소화하는데 확률을 적용한다.
- 확률과 추리통계학과는 역의 관계,
- 확률은 모집단으로부터 표본을 판단(연역)
- 추리통계학은 표본으로부터 모집단에 대한 추론(귀납)
2 사상과 표본공간 #
- 실험(experiment)이란 유사한 조건하에서 관측이나 측정을 유발하는 과정
- 기본결과(basic outcom)이란 동전의 앞면 또는 뒷면처럼 동시에 발생할 수 없는 결과
- 표본공간(sample sapce)란 실험의 실시로 관찰할 수 있는 가능한 모든 기본결과(단일사상)의 집합
- 사상(event)란 확률실험의 실시로 얻는 하나 이상의 기본결과들의 집합
3 복합사상(compound event) #
- 합사상(union of event)란 표본공간을 이루는 모든 사상 가운데 적어도 하나의 사상에 속하는 모든 단일사상들의 집합
- 교사상(intersection of event)란 표본공간을 이루는 모든 사상에 공통적으로 속하는 단일 사상의 집합
- 여사상(complement of A)이란 표본공간에 속하는 모든 단일 사상 중에서 특정 사상에 속하지 않는 단일사상의 집합
4 확률의 개념 #
객관적 확률
- 고전적 방법(이론적 방법)
- 한 클래스에 학생은 100명이다. 이 중에서 남자는 40명이다. 1명 추출할 경우 여자인 확률은?
- 60/100 = 0.6
- 경험적 방법(상대도수 개념 이용)
- 과거에 납품한 900상자의 부품 가운데 불량품은 100상자였다. 이 공급자가 납품할 상자가 불량품일 확률은? (귀납)
- 100/900 = 0.11
- 경헙적인 방법의 확률이 높게 나타는 경향이 있다.
5 확률의 공리와 법칙 #
공리
- 공리1: 0 <= P(A) <= 1
- 공리2: P(S) = 1
- 공리3: P(A or B) = P(A) + P(B)
법칙
- 여사상의 법칙(공리3으로부터)
- P(A or B) = P(A) + P(Ac) = 1
- P(Ac) = 1 - P(A)
- 덧셈 법칙
- P(A∪B) = P(A) + P(B) - P(A∩B)
- P(A∩B)를 빼는 이유는 공통부분에 대한 중복 계산을 피하기 위함
- 두 사상이 상호배타적이라면 중복되는 부분이 없다는 것. 그러므로 P(A∩B) = 0 이 된다.
- 조건확률(결합확률표 참고)
- 두 사상이 밀접한 관계가 있어서 한 사상의 확률이 다른 사상의 발생에 영향을 받는 경우
- 종속적인 경우는 이자율과 유가 변동과 주가, 비복원추출(sampling without replacement) 등
- P(A|B) = P(A∩B) / P(B)
- 어떤 사상 B가 이미 발생했다는 조건하에서 A가 발생할 확률
- 비종속적인 경우는 코스피 지수와 내일 날씨가 맑은 것, 복원추출(sampling with replacement) 등
- P(B|A) = P(B) 또는 P(A|B) = P(A)
- P(A) 또는 P(B)는 무조건 확률(unconditional probability), 주변 확률(marginal probibility) 또는 단일 확률(simple probiblility) 라고 한다.
- 곱셈법칙(두 사상의 결합확률 = P(A∩B))
- 조건확률 P(A|B) = P(A∩B) / P(B)
- 양변에 P(B)를 곱하면 P(B)P(A|B) = P(B)P(A∩B) / P(B)
- P(A∩B) = P(B)P(A|B)
- 만약, A와 비가 동시에 발생하거나 연속적으로 발생할 때 두 사상의 결합확률은 P(A∩B) = P(A)P(B)
- 결론적으로..
- P(A|B) = P(A) 또는 P(B|A) = P(B)
- P(A∩B) = P(A)P(B)
- 이 두 조건이 성립하지 않으면 두 사상은 종속적으로 보아야 한다.
6 독립시행과 확률 #
어느 축구팀의 승 확률은 4/9, 패 확률은 3/9, 무 확률은 2/9이다. 5승 2무 3패 할 확률은?
전체 경우의 수는 10! / (5!2!3!)
위의 경우의 수 (4/9)
5(2/9)
2(3/9)
3
그러므로 확률은..
(10! / (5!2!3!)) * (4/9)5(2/9)2(3/9)3
7 분할표 #
| 백인 | 흑인 | 합계 |
남자 | 35 | 5 | 40 |
여자 | 15 | 25 | 40 |
합계 | 50 | 30 | 80 |
주변확률
- 주변확률은 분할표(contingency table)의 주변(margin)에 나타나기 때문에 붙여진 이름
- P(백인) = 50/80 = 0.625
- P(흑인) = 30/80 = 0.375
- P(남자) = 40/80 = 0.5
- P(여자) = 40/80 = 0.5
결합확률
- P(백인∩남자) = 35/80 * 40/80 = 0.4375
- P(백인∩여자) = 15/80 * 40/80 = 0.1875
- P(흑인∩남자) = 05/80 * 40/80 = 0.0625
- P(흑인∩여자) = 25/80 * 40/80 = 0.3125
결합확률분포
| 백인 | 흑인 | 합계 |
남자 | 0.4375 | 0.0625 | 0.5 |
여자 | 0.1875 | 0.3125 | 0.5 |
합계 | 0.625 | 0.375 | 1.0 |
종속적인 경우의 조건 확률
- 남자와 흑인은 종속적인가?
- P(남자) = 40/80 = 0.5
- P(흑인|남자) = P(흑인∩남자) / P(남자) = 0.0625 / 0.5 = 0.125 (남자일 때 흑인일 경우) --> 종속적이다.
- 만약 P(남자) = P(흑인|남자) 라면 두 사상은 독립이다.
8 베이즈 정리 #
개념
- 사전확률(prior probablility)
- 사후확률(posterior probability)
- 추가적인 표본 정보에 입각하여 사전확률을 경신하여 사후확률로 만드는데 베이즈 정리(bayes' theorem)가 이용됨
- 베이즈 정리는 사전확률과 조건확률을 유도
- P(L1|D) = P(L1)P(D|L1) / P(L1)P(D|L1) + P(L2)P(D|L2)
- P(L2|D) = P(L2)P(D|L2) / P(L1)P(D|L1) + P(L2)P(D|L2)
예제
제품의 품질은 생산라인에 따라 다르다. 다음과 같이 양품율이 주어졌다고 하자.
| 양품률 | 불량품률 | 생산율 |
L1 | 0.99 | 0.01 | 0.55 |
L2 | 0.95 | 0.05 | 0.45 |
- 불량품이 발견된 경우 각 라인 L1, L2의 사후 확률은?
- 사전확률 L1 = 0.55, L2 = 0.45
- P(L1|불량품) = 0.55(0.01) / (0.55 * 0.01 + 0.45 * 0.05) = 0.1964
- P(L2|불량품) = 0.45(0.55) / (0.55 * 0.01 + 0.45 * 0.05) = 0.8036