정의
- 두 집단 간의 평균을 비교하는 통계적 검정 방법입니다.
- 단순히 차이의 존재 여부를 떠나 그 정도의 통계적 유의미성까지 검정하는 방법입니다.
- 모집단의 평균 등 실제 정보를 모를 때 현재의 데이터만으로 두 집단의 차이에 대해 검정할 수 있는 방법입니다.
- 두 집단의 데이터 개수가 비슷하면서 두 데이터가 정규 분포를 보이는 경우에 신뢰도가 높은 검정 방식입니다.
T-test 정의를 보고 궁금한 점이 너무 많았습니다.
'왜 평균을 비교할까? 통계적 유의미성은 무슨 뜻일까? 현재의 데이터만으로 의미 있는 결과를 도출할 수 있을까? 정규 분포를 보이면 왜 신뢰도가 높을까?'
궁금한 점을 하나씩 해결해 보록 하겠습니다.
왜 평균을 비교할까?
평균을 비교하는 이유는 단순했습니다. 평균은 한 집단을 대표할 수 있는 대푯값 중 하나이며, 실제로 해당 집단의 특성을 파악할 때 주로 사용하기 때문에 T-test에서는 두 집단 간의 평균을 사용한다고 생각할 수 있습니다.
통계적 유의미성은 무슨 뜻일까?
통계적 유의미성 검정은 평균을 비교했을 때 그 차이가 통계적으로 의미 있는지 없는지 파악하는 것입니다. 예를 들어 A반의 1학기 평균 점수와 2학기 평균 점수가 1점 차이가 난다면 그다지 유의하지 않다는 결과를 도출할 수 있습니다.
현재의 데이터만으로 의미 있는 결과를 도출할 수 있을까?
실제로 모집단의 데이터를 모두 알고 있는 경우에는 Z-test를 이용합니다. 하지만 모집단의 분산을 알고 있는 경우는 거의 없기 때문에 t-test를 사용하는 경우가 많습니다. 또한 T-test는 추리 통계이기 때문에 모집단이 아니라 현재의 데이터만으로 통계를 낸다고 생각할 수 있습니다. 그리고 의미 있는 결과는 p-value를 통해서 판단할 수 있습니다. 보통 p-value가 0.05보다 작으면 귀무가설을 기각합니다. 귀무가설 기각을 통해서 두 집단 간에는 독립성이 아닌 유의한 관계를 보인다는 결론을 낼 수 있습니다.
정규 분포를 보이면 왜 신뢰도가 높을까?
정규 분포는 좌우대칭을 이루는 종 모양의 형태를 보입니다. 다른 말로 가우스 분포라고 부르기도 합니다. 평균값에 가장 많은 데이터가 분포되어 있고 평균과 떨어질수록 데이터가 적게 분포하는 특징을 가지고 있습니다. 따라서 정규 분포를 가질수록 평균이 더욱더 집단을 대표하는 대푯값이라고 볼 수 있기 때문에 신뢰도가 높다는 결론이 나옵니다.
4가지 질문에 대해 조사하면서 추가적으로 궁금한 점이 생겼습니다.
'p-value는 어떻게 구하는 것일까? 왜 0.05를 기준으로 할까?'
p-value란?
p-value - 귀무가설이 맞다는 전제 하에, 통계 값이 실제로 관측된 값 이상일 확률
귀무가설 - 모집단의 특성에 대해 옳다고 제안하는 가설
평균이 100인 데이터가 있다고 가정하겠습니다. 대부분 해당 데이터에서 샘플링된 데이터의 평균은 100 근처에 있을 것이라고 생각할 것입니다. 반대로 샘플링된 데이터 평균이 100에서 멀면 모 분포의 평균이 100이 아닐지도 모른다고 생각할 수 있습니다. 이것이 p-value가 나온 논리입니다. 100에서 멀수록 p-value의 값은 점점 작아집니다.
즉 "모분포의 평균이 100이다"라는 귀무가설이 참이라는 가정 하에서, 100개의 데이터를 샘플링할 때 이론적으로 나올 수 있는 평균의 분포에서, 지금 내가 갖고 있는 값인 95보다 큰 값이 나올 수 있는 확률, 그것이 p-value입니다. p-value가 0.05여야 하는 과학적인 근거는 없다고 합니다.
'Data Engineering > 데이터 분석' 카테고리의 다른 글
konlpy를 이용해 형태소 추출하기 (0) | 2020.09.04 |
---|---|
상관 분석 (0) | 2020.09.02 |
외부 파일 읽어오기 - 2 (Excel, JSON) (0) | 2020.05.29 |
외부 파일 읽어오기- 1 (CSV) (0) | 2020.05.29 |
데이터프레임(Data Frame) 연산 (0) | 2020.05.29 |