[APPLICATION STATISTICS] 응용통계학 정리
📆 Created: 2022.10.23 Sun
🗓️ Updated: 2024.11.08 Fri
Reading time ~5 minutes
목차
1. 통계학
1.1. 통계학이란
통계학(statistics): 불확실한 상황 하에서 데이터에 근거해 과학적인 의사결정을 도출하기 위한 이론과 방법의 체계
1.2. 모집단과 표본
- 모집단과 모수
- 모집단(population): 올바른 의사결정을 도출하기 위해 관심을 갖고 연구해야 할 대상. 즉 통계분석의 연구 대상이 되는 모든 개체들의 집합
- 모수(parameter): 모집단의 특성을 나타내는 수치로서, 평균, 표준편차, 분산, 비율 등 다양함. 통계학에서는 의사결정을 위해 특별히 관심을 갖는 모수만을 선택해 분석 대상으로 함.
- 표본과 통계향
- 표본(sample): 모집단의 특성을 파악하기 위해 모집단으로부터 일정한 규칙에 의해 추출한 모집단의 부분집합
1.3. 데이터의 종류
실험설계(design of experiment): 데이터를 수집하기 전에 미리 어떻게 실험할 것인지를 계획해, 원하는 데이터를 정확하게 수집하고 기록할 수 있도록 하는 것. 데이터의 수집 규모와 대상, 할당 방법을 바르게 결정하고 적절한 데이터를 수집할 수 있도록 검토함. 이공학적 실험설계 뿐 아니라 설문 작성법 등도 여기에 포함됨.
- 데이터의 척도(측정수준)
척도 | 특징 | 예시 |
---|---|---|
명목척도(nominal scale) | 데이터가 순서나 크기의 의미를 갖지 않음. | 전화번호, 등록번호, 성별, 혈액형, 주소 등 |
순서척도(ordinal scale) | 데이터가 순서나 차례, 서열 등의 의미를 갖지만 간격에는 의미가 없음. | 직급, 계급, 순위, 등급 등 |
구간척도(interval scale) | 데이터의 순서뿐만 아니라 간격에도 의미가 있지만, 절대 영점이 없어 비율의 의미가 없음. | 섭씨온도, 지능지수 등 |
비율척도(ratio scale) | 데이터에 절대 영점이 있으며, 간격뿐만 아니라 비율에도 의미를 갖음. | 절대온도, 농도, 몸무게, 키 등 |
1.4. 기술통계와 추측통계
- 기술통계학(descriptive statistics): 수집된 데이터를 정리하고 그 내용을 특정 짓는 몇 가지의 대표치를 산정하거나 그래프로 나타내서, 모집단의 특성을 파악하는 방법을 다루는 분야.
- 기술통계: 측정이나 실험에서 수집한 데이터의 정리, 표현, 요약, 해석 등을 통해 데이터의 특성을 규명하는 통계적 방법이다.
- 추측통계학(inferential statistics): 실험이나 조사를 통해 얻은 데이터를 어떤 모집단에서 얻어낸 확률표본이라고 보고, 그 통계량으로부터 모집단의 분포를 특정 짓는 모수를 추측하려는 것이다. 즉, 데이터에 내포되어 있는 정보를 분석해 불확실한 사실에 대한 추론을 하는 분야이다.
- 추측통계: 기술통계로 구한 표본정보를 이용해 모집단의 특성 및 가설의 진위 등을 추론해내는 통계적 방법이다.
2. 데이터의 정리와 요약
2.1. 도수분포표
도수분포표(frequency table): 관측된 데이터의 구간별 도수, 상대도수 등을 알기 쉽게 표로 정리한 것. 일원(one way) 도수분포표와 n차원 교차표(n-way cross table) 등이 있다. 도수분포표는 계급(class), 대표값, 도수(frequency), 상대도수(relative frequency), 누적도수(cumulative frequency), 상대누적도수(relative cumulative frequency)를 나타냄.
2.2. 체크시트
2.2.1. 계수표
2.2.2. 분할표
2.3. 히스토그램
히스토그램(histogram): 계량치 데이터의 분포를 파악하고 집단으로서의 정보(분포형태(shape), 중심위치(location), 산포(spread) 등)를 얻기 위한 시각적 도구임. 히스토그램을 그리는 목적은 표본 데이터로부터 모집단 분포의 특성을 추측해내기 위함. 불안정(이상) 프로세스
낙도형 | 프로세스가 불안정해 오염된 분포가 소량 혼합된 경우 |
쌍봉우리형 | 두 가지 특성을 갖는 하부프로세스로 분리된 경우 |
이빠진형 | 계측기에 문제가 있어 특정 영역의 값이 측정되지 않는 경우 |
절벽형 | 전수검사 후 경계치 이하(이상)의 제품을 제외한 경우 |
2.4. 각종 그래프
2.4.1. 줄기-잎 그림
줄기-잎 그림(stem-and-leaf plot): 데이터를 분해해 개별 데이터의 수치를 히스토그램 형태로 나타낸 그림이다. 줄기는 마지막 한자리를 제외한 윗자리 숫자를, 잎은 마지막 한 자리 숫자를 나타냄. 히스토그램과 같이 모집단 분포의 형태를 알아봄과 동시에 각각의 관측치도 살펴볼 수 있는 장점이 있음.
2.4.2. 상자그림
상자그림(box plot): 관측 데이터를 수평축에 점으로 나타내며, 중앙값(median)과 사분위수(quartile)를 상자로 표시하고, 사분위수 범위의 1.5배 거리에 상한 및 하한 안쪽울타리(inner fence)를 나타낸 그림. 필요에 따라 사분위수 범위의 3배 거리에 상한 및 하한 바깥울타리(outer fence)를 나타내기도 함. 상자그림을 통해 분포의 중심위치와 치우침 정도, 그리고 이상치(outlier)의 유무를 판단할 수 있음. 이상치란 비정상적으로 크거나 작은 관측치를 말함. 여러 계층의 데이터를 동시에 비교하고자 할 때 유용함.
2.4.3. 산점도
산점도(scatter diagram chart): 두 변수의 상관관계를 연구하는데 사용되는 그림임. 하나의 변수가 다른 변수의 원인이 됨을 증명하지는 못하지만, 관계의 존재 여부와 그 정도는 나타낼 수 있음. 2차원 평면상에서 두 변수의 측정치를 좌표 형태로 그린 그림임. 한 변수의 값이 변했을 때 다른 변수가 어떻게 변하는지 보여주기 위함. 상관관계는 오직 직선관계만을 따짐.
- 산점도의 유형
양의 상관(positive correlation) | 변수 x의 값이 증가하면 변수 y의 값도 뚜렷하게 증가하는 형태. |
음의 상관(positive correlation) | 변수 x의 값이 증가하면 변수 y의 값도 뚜렷하게 감소하는 형태. |
희박한 상관관계 | 변수 x가 증가해도 변수 y의 증감이 나타나지 않는 경우. 산점도에서 점들의 분포는 타원형 또는 직사각형 등으로 랜덤하게 나타남. |
곡선관계 | 변수 y는 변수 x에 따라 어느 지점까지 증가하다가 그 이후에는 감소하는 것. |
이상점(outlier) | 집단에서 벗어난 점이 있다면, 그 점을 이상점이라 함. 이상점은 분석에서 제외시키고 별도로 그 원인을 조사할 필요가 있음. |
층화 | 두 개 이상의 집단이 나타나면, 이들을 구분하는 원인을 조사할 필요가 있다. 전체를 분석하면 상관관계가 모호하지만, 층별로 각각 분석하면 강한 양의 상곤관계를 발견할 수 있다. |
2.5. 중심위치의 척도
- 대푯값: 데이터가 어떤 값을 중심으로 분포되어 있는가를 타나내는 양. 평균, 중앙값, 최빈값(mode), 기하평균(geometric mean), 조화평균(harmonic mean), 절사평균(trimmed mean) 등이 있음.
- 평균:
- 중앙값: 데이터를 크기에 따라 늘어놓을 때의 가운데에 놓이는 값. 0.5(n + 1)번째 데이터 값으로 계산함. 단, 0.5(n + 1)이 정수가 아닌 경우(데이터 개수가 짝수일 때)에는 2개의 중앙의 값의 평균으로 중앙값을 계산한다. 평균은 이상치에 의해 영향을 받지만 중앙값은 이상치의 영향을 적게 받는다. 따라서 분포상태가 극도로 비대칭일 때에는 중앙값이 평균치보다 대푯값으로서 더 큰 의미를 갖는다. 그러나 중앙값은 통계적 처리가 어렵고 분산도 크기 때문에 분포가 어느 정도 대칭이면 평균을 사용하는 것이 좋다.
- 중심위치의 대푯값을 선정하는 기준
- 명목척도로 측정된 데이터는 최빈값을 사용한다.
- 분포가 대칭이고 이상점이 존재하지 않으면 표본평균을 사용한다.
- 비대칭이거나 이상점이 존재하면 중앙값을 사용하고, 표본평균을 참고로 한다.
- 순위 척도로 측정된 데이터는 중앙값을 사용한다.
2.6. 산포의 척도
산포(variation): 데이터의 퍼짐 정도.
표본분산(sample variance) | |
표본표준편차(sample standard deviation) | |
범위(range) | |
사분위수 범위(inter-quartile range) | |
변동계수(coefficient of variation) |
3. 확률
3.1. 표본공간과 사상
- 확률실험(random experiment)/시행(trial): 동일한 조건에서 독립적으로 반복할 수 있는 실험이나 관측. 즉, 결과는 바뀔 수 있지만, 각각의 결과가 나올 가능성을 같아야 함.
- 표본공간(S): 확률실험을 실시해 나타날 수 있는 모든 결과의 집합
- 원소(element)/근원사상(elementary event): 표본공간을 구성하고 있는 요소, 즉 확률실험에서 나올 수 있는 각각의 결과들.
- 여사상: A’
- 교사상: A ⋂ B
- 합사상: A ⋃ B
- 상호배반(mutually exclusive): A ⋂ B = ∅
3.2. 확률의 정의
고전적 확률(classical probability)
3.2.1. 확률의 개념
대수의 법칙(law of large numbers): 상대도수의 극한