ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [통계학] 자료 검정 기초
    자료실 2023. 5. 20. 15:28
    반응형

    자료 검정 기초

      자료 검정은 통계학에서 자료 분석의 핵심이다. 가설을 설정하고, 이를 통계적으로 검증함으로써 의사 결정을 지원하고 합리적인 결론을 도출한다. 자료 검정은 의학, 마케팅, 사회과학, 경제학, 환경과학 등 다양한 분야에서도 활용된다. 본고에서는 자료의 대푯값, 자료의 표현, 자료의 검증, 심프슨의 역설 순서대로 서술한다.


     

    • 자료의 대푯값 : 자료의 분포를 파악하기 위해 사용되는 지표


    (모)평균
     자료의 총합을 자료의 개수로 나누는 것으로 자료의 양을 전체적으로 고르게 추정하는 대푯값이다. 자료의 중심값이라고도 하며 이상치(너무 크거나 작은 값, 아웃라이어)에 의해 왜곡되기 쉽다. 그럼에도 평균은 통계학에서 가장 중요한 대푯값이다.
     수식 : $\frac{\sum_{1}^{n} x_i}{n}$

    (모)분산
    자료가 평균으로부터 떨어져 있는 거리를 표현하는 대푯값이다. 각 자료와 평균의 차이에 제곱을 하여 더하고 자료의 개수로 나눈 것이다. 
     수식 : $\frac{\sum_{1}^{n}(\mu-x_i)^2}{n}$

    (모)표준편차
     분산과 마찬가지로 자료가 평균으로부터 떨어져 있는 거리를 표현하는 대푯값이다. 분산에 루트를 씌워 구한다.
     수식 : $\sqrt{\sigma^2}$

    중앙값
     전체 자료에서 순서상 중앙을 나타내는 대푯값이다.
    수식 : 자료의 개수가 홀수이면 $X_{\frac{n+1}{2}}$,
    짝수이면 $\frac{(X_{\frac{n}{2}}$ + $X_{\frac{n}{2}+1})}{2}$

    최빈값
     전체 자료에서 가장 많이 중복되는 자료를 나타내는  대푯값이다.

    최대, 최솟값
     전체 자료 중 가장 큰 값과 작은 값을 나타내는 대푯값으로 자료의 범위를 파악하는 데에 유용하다.

    표본평균
     전체 자료 중 일부로 구성된 표본에서의 평균이다.

    표본분산
     전체 자료 중 일부로 구성된 표본에서의 분산이다. 특히, 표본분산을 공식의 분모가 (n-1)이라는 부분에 주목해야 한다.
     수식 : $\frac{\sum_{1}^{n}(\overline{x}-x_i)^2}{n-1}$

    표본표준편차
     전체 자료 중 일부로 구성된 표본에서의 표준편차이다.
    더보기

    ※ 표본분산과 자유도(n-1)
     모분산에서와는 달리 표본분산의 공식에서 분모가 (n-1)인 이유는 표본에서는 자료의 분산이 감소하는 경향이 있기 때문이다. 또한 표본분산은 표본평균에서 얼마나 떨어져 있는지를 나타내는 것이기 때문에 모평균에 대한 모분산을 정확하게 추정할 수 없다. 이러한 이유로 자유도라는 개념을 도입하여 표본평균을 늘리는 방향으로 조정한다. 자유도의 정의는 다음과 같다.
     자유도 = 독립적인 자료의 개수 - 종속적인 자료(추정할 수 있는 자료)
    다시 표본분산을 구하는 공식을 보면 $\frac{\sum_{1}^{n}(\overline{x}-x_i)^2}{n-1}$인데 자료는 1~n개까지 있고 표본평균  $\overline{x}$은 n개의 자료로 추정 가능하기 때문에 1을 빼줘야 한다.

     

    • 자료의 표현

    1. 정규분포

    - 정규분포
     자연계의 여러 자료를 분석할 때 비슷한 분포가 발견되는 것에서 착안되었다. 평균을 중심으로 좌우 대칭의 종 모양을 가지며 평균이 클수록 그래프는 양의 x축으로 평행이동하게 된다. 또한, 정규분포에서는 왜도와 첨도라는 지표를 이용하여 분포의 형태를 설명할 수 있다.
    - 왜도
     자료의 분포가 좌우로 얼마나 치우쳐져 있는지를 나타내는 지표이다. 왜도가 양수이면 왼쪽으로, 음수이면 오른쪽으로 치우쳐져 있는 것이다. 왜도가 0일 때 완전한 정규분포이며 왜도의 절댓값이 3을 초과하지 않으면 정규분포를 따른다고 간주한다.
    - 첨도
     정규분포의 그래프가 얼마나 뾰족한지를 나타내는 지표이다. 첨도는 3을 기준으로 완전한 정규분포, 3보다 크면 뾰족하고, 3보다 작으면 평탄하다. 첨도가 클수록 이상치가 많은 것을 뜻한다. 상황에 따라 다르지만 첨도에서 3을 빼고 절댓값을 씌웠을 때 7~10을 초과하지 않으면 정규분포를 따른다고 간주한다.
     왜도와 첨도 모두 절댓값이 너무 크면 표본에 결함(이상치 등)이 있는지 확인해야 한다.


    2. 정규화와 표준화
    - 정규화 : 각 통계자료의 차이를 왜곡하지 않기 위해 자료를 공통 척도로 변경한다. 자료 내에서 특정 자료가 가지는 위치를 쉽게 비교할 수 있다. 단, 이상치에 취약하고 자료의 분포가 보존되지 않을 수 있다.
     $\frac{X-X_{min}}{X_{max}-X_{min}}$
    - 표준화 : 평균이 0, 표준편차가 1인 표준정규분포의 속성을 갖도록 변경한다. 각 자료가 평균을 기준으로 얼마나 떨어져 있는지를 쉽게 비교할 수 있다.
     $\frac{X-\overline{X}}{\sigma }$

    3. 박스 플롯(BoxPlot)

     박스플롯은 자료의 분포와 이상치를 동시에 보여주면서 서로 다른 자료군을 쉽게 비교할 수 있는 그래프이다. 다섯 개의 대푯값으로 자료의 분포를 요약해준다.(최댓값, 3사분위값, 중위값, 1사분위값, 최솟값)

    - IQR : 중앙에 모여있는 50%에 해당하는 자료로 박스로 표시한다. (1st Quartile ~ 3rd Quartile)
    - UpperWhisker : 3분위 값에 1.5 × IQR을 더한 값이다.
    - LowerWhisker : 1분위 값에 1.5 × IQR을 뺀 값이다.
    - Outlier : 상·하의의 Whisker의 바깥에 있는 값으로 이상치를 의미한다.

     

     

     

     

    • 자료의 통계적 검정

    1. 귀무가설(H0)과 대립가설(H1)
     자료 검정에서 귀무가설과 대립가설은 중요한 개념이다. 귀무가설은 새로운 가설에 반대되는 것으로 설정하고, 대립가설은 참으로 밝히고자 하는 가설로 설정한다. 실험을 수행한 후 귀무가설이 옳지 않음을 증명하여 대립가설을 채택한다. 이때, 1종 오류와 2종 오류를 범하지 않도록 주의해야 한다.

     
     1종 오류 : 귀무가설(H0)가 참임에도 기각한 것
     2종 오류 : 귀무가설(H0)가 거짓임에도 채택한 것

     

     

     

     

    2. p-value
     조사한 자료가 귀무가설에 들어맞을 확률을 0~1 사이의 값으로 표현하는 지표이다. 일반적으로 p-value가 0.05보다 작으면 귀무가설을 기각하고 대립가설을 채택한다. p-value는 다음과 같이 계산한다.
     p-value = 가설이 맞을 확률 + 가설이 맞을 확률과 동일한 확률 + 가설보다 극단적인 사례가 발생할 확률
     위의 공식은 어떤 가설이 유의미한지 확인하기 위한 목적이 있다. 검증하려는 가설과 같거나 더 극단적 확률의 사례가 있다면 그 가설의 희소함(특별함 내지 유의미함)은 줄어들기 때문이다.
     예를 들어, 동전을 5개를 던져서 앞면이 하나, 뒷면이 넷이 나온다는 가설을 세우면 p-value는 앞면이 한 개 나올 확률 + 뒷면이 한 개 나올 확률 + 모두 같은 면이 나올 확률로 계산한다. 이를 계산하면 0.375가 나오고 0.05보다 크기 때문에 귀무가설을 채택하여 앞선 가설은 무의미하다는 결과가 도출된다.
    - 한계점 : p-value의 기준값
     p-value 값이 0.05 이하일 때 귀무가설을 기각하는 것에 위험성이 제기되었다. 예를 들어 암을 일으키는 유전자를 찾기 위해 10만개의 유전자와 암의 상관관계를 연구한다. 그런데 p-value 기준값을 0.05로 설정하면 10개의 유전자 중 5%는 잘못된 결과를 도출하고 1종 오류를 범하게 된다. 유전학자들이 0.05를 10만으로 나눈 값을 기준으로 제안했다. 이 경우 모든 유전자가 암과 관련이 없다는 결과가 나왔다. 분명 특정 유전자는 암에 영향을 줌에도 불구하고 2종 오류를 범한 것이다. 이렇듯 p-value의 기준값에는 변수가 많고 활용 분야마다 적절한 기준도 다르다는 어려움이 있다.
    - 한계점 : p-hacking
     이오디니스(Ioannidis)의 논문 "왜 대부분의 발표된 연구 결과가 거짓인가?"는 통계 분석에서 p-value와 자료의 조작 문제를 제기한다. p-value는 통계적 유의성을 나타내지만 연구자의 부적절한 통계 분석으로 조작될 수 있기 때문에 자료의 신뢰성을 보장하지 않는다. 예를 들어 이상치(아웃라이어)에 대한 기준을 조절하여 p-value를 낮추는 것이 있다. 이러한 p-해킹은 순수한 목적의 연구 결과 또한 왜곡할 수 있다. 이것을 예방하기 위해 연구 계획을 사전에 등록하고 통계 분석 방법을 공개함으로써 연구 결과의 신뢰성과 재현성을 높이는 노력이 있지만 어려움이 따르고 있다.

    3. t-value
     두 자료에 유의미한 차이가 있는지를 검정하기 위해 사용되는 통계적 분석 방법이다. 모집단의 분산을 알지 못할 때 표본의 분산으로 표본 통계량을 가공한다.
    - 계산
     t value는 두 자료 간의 평균의 차이를 불확실도(표준편차)로 나눈 것으로 구한다.
    $\textit{t-value} = \frac{평균의 차}{불확실도} = \frac{\overline{X_{1}} - \overline{X_{2}}}{S_{X_1+X_2}} = \frac{\overline{X_{1}} - \overline{X_{2}}}{\sqrt{\frac{s_1^2}{n_1^2}+\frac{s_2^2}{n_2^2}}}$
     
    위의 기본적인 수식에서 세부적으로 3개의 식을 더 도출할 수 있다. ($S_p$는 공통분산)
     case1) 두 자료의 분산과 표본의 수가 같을 때
    $\frac{\overline{X_{1}} - \overline{X_{2}}}{S_p\sqrt{\frac{2}{n}}}$
    $S_p=\sqrt{\frac{S_1^2+S_2^2}{2}}$

     case2)  두 자료의 분산이 같고 표본의 수가 다를 때
    $\frac{\overline{X_{1}} - \overline{X_{2}}}{S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$
    $S_p=\sqrt{\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}}$

     case3) 서로 다른 두 독립적인 자료의 추정분산이 같지 않을 때 (이 경우 welch’s test를 적용한다.)
    $\frac{\overline{X_{1}} - \overline{X_{2}}}{\sqrt{\frac{S_A^2}{n_1}+\frac{S_B^2}{n_2}}}$

    - t 분포와 해석

    t-value가 클수록 불확실도가 낮고 자료 간의 유의미한 차이가 있다. 단, 자료의 개수가 증가할수록 불확실성이 감소한다는 것에 주의해야 한다.


    4. f-value
     여러 자료에 유의미한 차이가 있는지를 검정하기 위해 사용되는 통계적 분석 방법이다. 각 자료의 분산과 공통분산을 이용하여 표본 통계량을 가공한다.
    -계산
    자료 간의 차이 정도 / 불확실도 = 표본 평균 간의 유의미한 차이(분산) / 표본 내 존재하는 차이(분산)
    $f = \frac{s_{between}^2}{s_{within}^2}$

    두 자료를 합쳐서 새로운 표본을 만들었을 때(between)
    해당 표본 평균의 표준 오차 = $\frac{\sigma^2}{n}$
    $\overline{\sigma}^2 = \frac{\sigma^2}{n}$
    $s_{between}^2=n\overline{s}^2$

    표본 내 존재하는 차이는 각 표본의 분산 중 최대와 최소의 평균으로 구한다.
    $s_{within}^2=\frac{s_{min}^2+s_{max}^2}{2}$

    - f 분포와 해석

    f-value가 클수록 서로 다른 자료 간의 퍼진 정도가 크고 이는 곧 같은 성격의 자료일 확률이 낮다는 뜻이다. 즉 유의미한 차이가 있다고 해석할 수 있다.

    더보기

    - 공통분산(pooled variance)
     공통분산은 주어진 자료 집합의 여러 자료 간에 공통으로 나타나는 분산을 측정하는 지표이다. 자료들 간의 공통분산이 높을수록 해당 변수들은 서로 연관성이 있을 가능성이 크다. 이는 자료의 패턴을 이해하고 자료 간의 관계를 파악하는 데에 유용하다. 단, 두 자료의 분산이 2배 이하의 차이를 보일 때만 사용한다.
    자료가 2개일 때
    $s^2 = \frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{(n_1-1)+(n_2-1)}$
    자료가 2개이고 표본 수가 같을 때 
    $s^2=\sqrt{\frac{s_1^2+s_2^2}{2}}$
    자료가 3개 이상일 때
    $s^2 = \frac{(n_1-1)s_1^2+(n_2-1)s_2^2+(n_3-1)s_3^2\cdots}{(n_1-1)+(n_2-1)+(n_3-1)\cdots}$

    - t-value와 f-value의 관계( $f \propto t^2$ )
    $f\propto S_{bet}^2\propto S_{\overline{x}}^2 = (\overline{X_1}-\overline{X})^2+(\overline{X_2}-\overline{X})^2$
    $\overline{X} = \frac{\overline{X_1}-\overline{X_2}}{2}$ 이므로
    $S_{\overline{x}}^2 = (\frac{1}{2}\overline{X_1}-\frac{1}{2}\overline{X_2})^2+(\frac{1}{2}\overline{X_2}-\frac{1}{2}\overline{X_1})^2=(\overline{X_1}-\overline{X_2})^2
    t\propto(\overline{X_1}-\overline{X_2})$

    $f \propto (\overline{X_1}-\overline{X_2})^2$
    $t \propto \overline{X_1}-\overline{X_2}$
    $f \propto t^2$


    5. 피어슨 상관계수
    두 자료의 표본 수가 같고 정규 분포를 따를 때 선형관계를 확인하기 위해 사용하는 지표이다. 1에서 -1까지의 범위로 나타나며 1일 때 완전한 양의 선형 관계, -1일 때 완전한 음의 선형 관계, 0일 때는 선형 관계가 없음을 의미한다.
    자료 X와 자료 Y가 있을 때
    피어슨 상관 계수 = (X와 Y의 공분산)/(X의 표준편차 × Y의 표준편차) = $\frac{\frac{\sum_{i}^{n}(X_i-\overline{X})(Y_i-\overline{Y})}{n-1} }{\sqrt{\frac{\sum_{i}^{n}(X_i-\overline{X})^2}{n-1}}\sqrt{\frac{\sum_{i}^{n}(Y_i-\overline{Y})^2}{n-1}}} = 
    \frac{\sum_{i}^{n}(X_i-\overline{X})(Y_i-\overline{Y})}{\sqrt{\sum_{i}^{n}(X_i-\overline{X})^2}\sqrt{\sum_{i}^{n}(Y_i-\overline{Y})^2}}$이다.

    이때, $X_i-\overline{X}=a_i, Y_i-\overline{Y}=b_i$이라 하자.
    $\frac{(a_1b_1+a_2b_2\cdots)}{(\sqrt{a_1^2+a_2^2\cdots})(\sqrt{b_1^2+b_2^2\cdots })} = k$ 코시-슈바르츠 꼴로 정리할 수 있다. (k는 피어슨상관계수)
    $k^2 \leq 1$
    $-1 \leq k \leq 1$ 이다.

    - 피어슨 상관계수 해석

    피어슨 상관 계수는 오로지 자료가 얼마나 선형적으로 분포하는가에 대한 지표이다. 피어슨 상관계수가 낮게 나와도 서로 다른 두 자료가 2차 곡선, 혹은 비선형적인 비례관계에 있다면 그 관계를 무시해서는 안 된다. 마찬가지로 피어슨 상관계수가 높게 나와도 선형 관계의 기울기가 크지 않다면 두 자료 사이에 유의미한 가치가 없다고 판단할 수 있다.



    더보기

    - 벡터 코사인 유사도와의 관계
     각 자료를 벡터로 바라보면 각 벡터의 원소에서 벡터의 원소들의 평균을 빼고 그렇게 필터링한 벡터들 사이의 코사인 유사도를 계산할 수 있다.

    $\overrightarrow{A} = (a_1, a_2, \cdots a_n)$
    $\overrightarrow{B} = (b_1, b_2, \cdots b_n) $
    $cos\theta = \frac{\overrightarrow{A}\cdot\overrightarrow{B}}{\left| \overrightarrow{A}\right|\left| \overrightarrow{B}\right|} =  \frac{\sum_{i}^{n}a_ib_i}{\sqrt{\sum_{i}^{n}a_i^2}\sqrt{\sum_{i}^{n}b_i^2}}$

     

    • 4. 심프슨의 역설

    전체적인 추세는 우하향이지만 자료으로 나누어 보면 우상향이다.

     심프슨의 역설은 자료 각각의 결과가 전체 자료와 반대의 결과를 보이는 현상이다. 이는 자료를 분석할 때 주의해야 할 부분이며, 잘못된 해석과 판단으로 이어질 수 있다. 따라서, 우리는 통계에 대한 경각심을 가져야 한다. 자료를 수집하고 분석할 때는 철저한 방법론과 통계적 기법을 사용하여 신뢰성을 확보해야 한다. 또한, 통계의 한계와 오류를 인지하고 과도한 일반화나 잘못된 상관관계에 주의해야 한다.

    반응형

    댓글

Designed by Tistory.
wordok38@gmail.com