• Home
  • About
    • PI photo

      PI

      Beginner's Blog

    • Learn More
    • Github
  • Posts
    • All Posts
    • All Tags
    • All Categories
  • Projects

[APPLICATION STATISTICS] 응용통계학 정리

📆 Created: 2022.10.23 Sun

🗓️ Updated: 2024.11.08 Fri

Reading time ~5 minutes

목차

  • 1. 통계학
    • 1.1. 통계학이란
    • 1.2. 모집단과 표본
    • 1.3. 데이터의 종류
    • 1.4. 기술통계와 추측통계
  • 2. 데이터의 정리와 요약
    • 2.1. 도수분포표
    • 2.2. 체크시트
    • 2.3. 히스토그램
    • 2.4. 각종 그래프
    • 2.5. 중심위치의 척도
    • 2.6. 산포의 척도
  • 3. 확률
    • 3.1. 표본공간과 사상
    • 3.2. 확률의 정의

1. 통계학

1.1. 통계학이란

통계학(statistics): 불확실한 상황 하에서 데이터에 근거해 과학적인 의사결정을 도출하기 위한 이론과 방법의 체계

1.2. 모집단과 표본

  1. 모집단과 모수
    1. 모집단(population): 올바른 의사결정을 도출하기 위해 관심을 갖고 연구해야 할 대상. 즉 통계분석의 연구 대상이 되는 모든 개체들의 집합
    2. 모수(parameter): 모집단의 특성을 나타내는 수치로서, 평균, 표준편차, 분산, 비율 등 다양함. 통계학에서는 의사결정을 위해 특별히 관심을 갖는 모수만을 선택해 분석 대상으로 함.
  2. 표본과 통계향
    1. 표본(sample): 모집단의 특성을 파악하기 위해 모집단으로부터 일정한 규칙에 의해 추출한 모집단의 부분집합

1.3. 데이터의 종류

실험설계(design of experiment): 데이터를 수집하기 전에 미리 어떻게 실험할 것인지를 계획해, 원하는 데이터를 정확하게 수집하고 기록할 수 있도록 하는 것. 데이터의 수집 규모와 대상, 할당 방법을 바르게 결정하고 적절한 데이터를 수집할 수 있도록 검토함. 이공학적 실험설계 뿐 아니라 설문 작성법 등도 여기에 포함됨.

  • 데이터의 척도(측정수준)
척도 특징 예시
명목척도(nominal scale) 데이터가 순서나 크기의 의미를 갖지 않음. 전화번호, 등록번호, 성별, 혈액형, 주소 등
순서척도(ordinal scale) 데이터가 순서나 차례, 서열 등의 의미를 갖지만 간격에는 의미가 없음. 직급, 계급, 순위, 등급 등
구간척도(interval scale) 데이터의 순서뿐만 아니라 간격에도 의미가 있지만, 절대 영점이 없어 비율의 의미가 없음. 섭씨온도, 지능지수 등
비율척도(ratio scale) 데이터에 절대 영점이 있으며, 간격뿐만 아니라 비율에도 의미를 갖음. 절대온도, 농도, 몸무게, 키 등

1.4. 기술통계와 추측통계

  • 기술통계학(descriptive statistics): 수집된 데이터를 정리하고 그 내용을 특정 짓는 몇 가지의 대표치를 산정하거나 그래프로 나타내서, 모집단의 특성을 파악하는 방법을 다루는 분야.
  • 기술통계: 측정이나 실험에서 수집한 데이터의 정리, 표현, 요약, 해석 등을 통해 데이터의 특성을 규명하는 통계적 방법이다.
  • 추측통계학(inferential statistics): 실험이나 조사를 통해 얻은 데이터를 어떤 모집단에서 얻어낸 확률표본이라고 보고, 그 통계량으로부터 모집단의 분포를 특정 짓는 모수를 추측하려는 것이다. 즉, 데이터에 내포되어 있는 정보를 분석해 불확실한 사실에 대한 추론을 하는 분야이다.
  • 추측통계: 기술통계로 구한 표본정보를 이용해 모집단의 특성 및 가설의 진위 등을 추론해내는 통계적 방법이다.

2. 데이터의 정리와 요약

2.1. 도수분포표

도수분포표(frequency table): 관측된 데이터의 구간별 도수, 상대도수 등을 알기 쉽게 표로 정리한 것. 일원(one way) 도수분포표와 n차원 교차표(n-way cross table) 등이 있다. 도수분포표는 계급(class), 대표값, 도수(frequency), 상대도수(relative frequency), 누적도수(cumulative frequency), 상대누적도수(relative cumulative frequency)를 나타냄.

2.2. 체크시트

2.2.1. 계수표

2.2.2. 분할표

2.3. 히스토그램

히스토그램(histogram): 계량치 데이터의 분포를 파악하고 집단으로서의 정보(분포형태(shape), 중심위치(location), 산포(spread) 등)를 얻기 위한 시각적 도구임. 히스토그램을 그리는 목적은 표본 데이터로부터 모집단 분포의 특성을 추측해내기 위함. 불안정(이상) 프로세스

낙도형 프로세스가 불안정해 오염된 분포가 소량 혼합된 경우
쌍봉우리형 두 가지 특성을 갖는 하부프로세스로 분리된 경우
이빠진형 계측기에 문제가 있어 특정 영역의 값이 측정되지 않는 경우
절벽형 전수검사 후 경계치 이하(이상)의 제품을 제외한 경우

2.4. 각종 그래프

2.4.1. 줄기-잎 그림

줄기-잎 그림(stem-and-leaf plot): 데이터를 분해해 개별 데이터의 수치를 히스토그램 형태로 나타낸 그림이다. 줄기는 마지막 한자리를 제외한 윗자리 숫자를, 잎은 마지막 한 자리 숫자를 나타냄. 히스토그램과 같이 모집단 분포의 형태를 알아봄과 동시에 각각의 관측치도 살펴볼 수 있는 장점이 있음.

2.4.2. 상자그림

상자그림(box plot): 관측 데이터를 수평축에 점으로 나타내며, 중앙값(median)과 사분위수(quartile)를 상자로 표시하고, 사분위수 범위의 1.5배 거리에 상한 및 하한 안쪽울타리(inner fence)를 나타낸 그림. 필요에 따라 사분위수 범위의 3배 거리에 상한 및 하한 바깥울타리(outer fence)를 나타내기도 함. 상자그림을 통해 분포의 중심위치와 치우침 정도, 그리고 이상치(outlier)의 유무를 판단할 수 있음. 이상치란 비정상적으로 크거나 작은 관측치를 말함. 여러 계층의 데이터를 동시에 비교하고자 할 때 유용함.

2.4.3. 산점도

산점도(scatter diagram chart): 두 변수의 상관관계를 연구하는데 사용되는 그림임. 하나의 변수가 다른 변수의 원인이 됨을 증명하지는 못하지만, 관계의 존재 여부와 그 정도는 나타낼 수 있음. 2차원 평면상에서 두 변수의 측정치를 좌표 형태로 그린 그림임. 한 변수의 값이 변했을 때 다른 변수가 어떻게 변하는지 보여주기 위함. 상관관계는 오직 직선관계만을 따짐.

  • 산점도의 유형
양의 상관(positive correlation) 변수 x의 값이 증가하면 변수 y의 값도 뚜렷하게 증가하는 형태.
음의 상관(positive correlation) 변수 x의 값이 증가하면 변수 y의 값도 뚜렷하게 감소하는 형태.
희박한 상관관계 변수 x가 증가해도 변수 y의 증감이 나타나지 않는 경우. 산점도에서 점들의 분포는 타원형 또는 직사각형 등으로 랜덤하게 나타남.
곡선관계 변수 y는 변수 x에 따라 어느 지점까지 증가하다가 그 이후에는 감소하는 것.
이상점(outlier) 집단에서 벗어난 점이 있다면, 그 점을 이상점이라 함. 이상점은 분석에서 제외시키고 별도로 그 원인을 조사할 필요가 있음.
층화 두 개 이상의 집단이 나타나면, 이들을 구분하는 원인을 조사할 필요가 있다. 전체를 분석하면 상관관계가 모호하지만, 층별로 각각 분석하면 강한 양의 상곤관계를 발견할 수 있다.

2.5. 중심위치의 척도

  • 대푯값: 데이터가 어떤 값을 중심으로 분포되어 있는가를 타나내는 양. 평균, 중앙값, 최빈값(mode), 기하평균(geometric mean), 조화평균(harmonic mean), 절사평균(trimmed mean) 등이 있음.
  • 평균:
  • 중앙값: 데이터를 크기에 따라 늘어놓을 때의 가운데에 놓이는 값. 0.5(n + 1)번째 데이터 값으로 계산함. 단, 0.5(n + 1)이 정수가 아닌 경우(데이터 개수가 짝수일 때)에는 2개의 중앙의 값의 평균으로 중앙값을 계산한다. 평균은 이상치에 의해 영향을 받지만 중앙값은 이상치의 영향을 적게 받는다. 따라서 분포상태가 극도로 비대칭일 때에는 중앙값이 평균치보다 대푯값으로서 더 큰 의미를 갖는다. 그러나 중앙값은 통계적 처리가 어렵고 분산도 크기 때문에 분포가 어느 정도 대칭이면 평균을 사용하는 것이 좋다.
  • 중심위치의 대푯값을 선정하는 기준
    1. 명목척도로 측정된 데이터는 최빈값을 사용한다.
    2. 분포가 대칭이고 이상점이 존재하지 않으면 표본평균을 사용한다.
    3. 비대칭이거나 이상점이 존재하면 중앙값을 사용하고, 표본평균을 참고로 한다.
    4. 순위 척도로 측정된 데이터는 중앙값을 사용한다.

2.6. 산포의 척도

산포(variation): 데이터의 퍼짐 정도.

표본분산(sample variance)
표본표준편차(sample standard deviation)
범위(range)
사분위수 범위(inter-quartile range)
변동계수(coefficient of variation)

3. 확률

3.1. 표본공간과 사상

  • 확률실험(random experiment)/시행(trial): 동일한 조건에서 독립적으로 반복할 수 있는 실험이나 관측. 즉, 결과는 바뀔 수 있지만, 각각의 결과가 나올 가능성을 같아야 함.
  • 표본공간(S): 확률실험을 실시해 나타날 수 있는 모든 결과의 집합
  • 원소(element)/근원사상(elementary event): 표본공간을 구성하고 있는 요소, 즉 확률실험에서 나올 수 있는 각각의 결과들.
  • 여사상: A’
  • 교사상: A ⋂ B
  • 합사상: A ⋃ B
  • 상호배반(mutually exclusive): A ⋂ B = ∅

3.2. 확률의 정의

고전적 확률(classical probability)

3.2.1. 확률의 개념

대수의 법칙(law of large numbers): 상대도수의 극한



APPLICATION STATISTICS Share Tweet +1
/#disqus_thread