Contents

[-]
1 개요
2 집중경향치(measure of central tendency)
2.1 산술평균(arithemtic mean)
3 중앙치(median)
4 최빈치(mode)
5 대표치의 선택
6 산포도의 측정치
7 범위(range)
8 중간범위(mid-range)
9 평균절대편차(mean absolute deviation:MAD)
10 분산(variance)과 표준편차(standard deviation)
11 체비셰프의 정리
12 변동계수
13 위치의 측정치


1 개요 #

  • 표와 그래프는 자료분포에 관한 전체적인 정보를 시각적으로 제시하는 기능을 수행
  • 자료의 분포가 내포하는 특성들을 하나의 요약 수치(summary measure)로 나타낼 때 통계분석이 의미 있는 결과
  • 요약된 하나의 수치를 요약통계량 or 기술 수치(descriptive measure)라고 함
  • 자료의 특성을 요약하는 지표
    • 집중경향치
    • 산포도의 측정치
    • 위치의 측정치
    • 형태의 측정치

2 집중경향치(measure of central tendency) #

정의
  • 자료의 집중되어 있는 중심위치(center)
  • 자료의 중심으로서 자료 전체를 대표할 수 있는 값
  • 종류
    • 산술평균
    • 중앙치
    • 최빈치
    • 기타등등

2.1 산술평균(arithemtic mean) #
자료 A = {x1, x2,...xn}}이 있을 경우

평균 = (x1 + x2 + ... + xn) / n

단, 각 개별치가 똑같이 중요다든지 또는 두 개 이상의 집단을 비교하는 경우 각 집단의 평균이 똑같이 중요하다는 가정하에 사용할 수 있다. 만약 중요성에 차이가 있다면 가중평균(weighted mean)을 계산하게 된다. 예를 들어 다음과 같이 학점을 받은 경우

학점과목수
A=42
B=31
C=21
D=11

평균 = (2*4 + 1*3 + 1*2 + 1*1) / 5 = 2.8

3 중앙치(median) #

median은 양적 자료에만 사용된다. 자료를 순서대로 나열했을 때에 중앙에 위치한 관측치를 말한다. 중앙값 또는 중위수라고도 말한다. 중앙값을 구하는 방법은 다음과 같다.

  • 자료를 크기 순서로 나열한다.
  • 홀수이면, (n+1)/2 번째 값이 메디안
  • 짝수이면, n/2번째와 (n/2 + 1) 번째의 평균값이 메디안이다.

대량의 데이터라면 굳이 복잡하게 따지지 말고, 그냥 n/2번째 값이 메디안이라고 생각해도 된다. 어차피 대충 맞으면 되는 것이니..

4 최빈치(mode) #

최빈치는 자료의 수가 가장 많은 관측치를 말한다. 두 개의 최빈치를 갖는 경우는 쌍봉(bimodal), 세 개 이상의 최빈치를 갖는 경우는 다봉(multimodal)이라고 한다.

5 대표치의 선택 #


중앙치와 최빈치 평균
자료의 일부만 이용 자료크기와 도수까지 고려(모든 자료의 정보를 이용)
수학연산 불가능수학연산 가능
가중평균 구할 수 없음가중평균 구할 수 있음

평균은 분산을 계산하고, 모평균 추정, 가설검정 등 통계분석의 대표치로서 가장 널리 사용된다. 하지만 극단적인 이상치(outlier)가 있는 경우에는 크게 영향받는 평균보다는 이에 덜 민감한 중앙치를 대표치로써 사용한다. 자료의 분포가 비대칭적인 경우, 평균과 함께 중앙치를 대표치로 사용한다.

6 산포도의 측정치 #

  • 집중경향치는 자료의 중심을 구하는 것. 분산도(dispersion)이라고도 함.
  • 자료의 흩어짐 정도는 구할 수 없음.
  • 수치들의 크고 작음을 변동(variation)이라고 함
  • 산포도는 수치들의 변동의 정도를 측정
  • 산포도가 크면 클수록 평균과 같은 대표치의 신뢰도는 낮아짐
  • 분산의 요약특성치
    • 범위
    • 중간범위
    • 평균절대편차
    • 분산
    • 표준편차
    • 변동계수

7 범위(range) #

  • 최대치 - 최소치
  • 두 극단 관측치만 가지고 계산하므로 다른 관측치에 대해서는 아무것도 말해주지 않음
  • 자료속의 극단적인 이상치(outlier)에 크게 영향 받음.

8 중간범위(mid-range) #

  • 자료의 중간 50%인 3사분위수 - 1사분위수
  • 자료의 중간 80%인 90백분위수 - 10백분위수

9 평균절대편차(mean absolute deviation:MAD) #

  • 편차(deviation), 평균으로부터 떨어진 정도 (편차의 합은 항상 0)
  • 편차의 합이 0 이되므로 이를 극복하기 위해서 모든 편차의 절대값(|편차|)에 대한 평균 -> 평균절대편차
  • 절대값을 계산해야 하므로 통계분석에서는 별로 사용하지 않음

10 분산(variance)과 표준편차(standard deviation) #

  • 분산, 주어진 각 자료가 그들 자료의 평균주위로 얼마나 집중되어 있는가를 측정
    • 분산이 작으면, 변동성이 적음
    • 분산이 크면, 변동성이 많음(평균 주위에 분포됨)
  • 모분산 = 편차(평균-자료)의 제곱(squared deviation) / N
  • 표본분산 = 편차(평균-자료)의 제곱(squared deviation) / (N-1)
  • 모분산이 N이고, 표본분산이 N-1인 이유
    • 표본분산에 N을 사용하면 모분산을 과소평가하여 편의추정치(biased estimate)를 제공
    • 그러므로 어느 한쪽으로 치우치게 하지 않기 위해서 N-1을 사용한다.
  • 분산은 제곱을 하므로 원 자료보다 큰 단위로 표시가 됨. 그래서 제곱근을 구함 -> 표준편차

11 체비셰프의 정리 #

경험법칙(자료의 분포가 종모양으로 좌우대칭 형태이면)
  • -1σ ~ 1σ에는 약 68%의 자료가 있다.
  • -2σ ~ 2σ에는 약 95%의 자료가 있다.
  • -3σ ~ 3σ에는 약 99%의 자료가 있다.

만약 정규분포가 아니거나 분포를 모를 경우에는 체비셰프의 정리(Chebyshev's theorem)가 적용됨

-kσ ~ kσ 내에 포함될 자료의 비율은 적어도 전체 자료의 1 - (1/k2)이다. 단, k > 1


12 변동계수 #

두 집단의 단위가 다르거나(연령과 달러의 표준편차 비교) 평균이 큰 차이를 보이는 경우 표준편차를 비교 할 수 없다. 이런 경우 상대적 표준편차 또는 변동계수 (coefficient of variation: CV)를 이용한다.

CV = 표준편차 / 평균

13 위치의 측정치 #