5  펭귄 검정

통계학에서의 추론이란, 관측된 데이터를 바탕으로 더 큰 모집단에 대한 일반화된 결론을 도출하는 과정이다. 표본 데이터를 사용하여 모집단의 매개변수(예: 평균, 분산)에 대해 추정하거나 가설을 검정하는 것이 포함된다. 탐색적 데이터 과정을 통해 결측값을 식별하여 적절한 처리를 수행했으며 기술통계량과 시각화를 통해 데이터의 특성을 파악했다. 이제 이러한 데이터를 바탕으로 추론을 수행해보자.

5.1 t-검정

성별에 따른 형태학적 특징 차이를 검정하기 위해 젠투를 제외한 턱끈 펭귄과 이델리 펭귄에 대해서 독립 표본 t-검정을 사용하여 수컷과 암컷 간의 차이를 검정한다.

5.2 카이제곱 검정

생물 종과 환경 간의 상호작용, 종의 서식지 선호도, 생태적 지위 등을 이해하는 데 카이제곱 검정은 중요한 역할을 한다. 이번에는 펭귄종과 서식지인 섬 간의 연관성을 검정한다.

귀무가설은 펭귄 종과 서식섬 간에 연관성이 없다는 것이고 대립가설은 펭귄 종과 서식섬 사이에 연관성이 있다는 것이다. 검정 결과, \(\chi^2\) 통계량은 284.59이고 자유도는 4, p-값은 2.2e-16보다 작은 것으로 나타났기 때문에 귀무가설을 기각하고 대립가설을 채택할 수 있음을 의미한다.

따라서, 펭귄 종과 서식섬 간에 통계적으로 유의한 연관성이 있음을 나타낸다. 즉, 특정 종의 펭귄은 특정 섬에서 더 많이 또는 더 적게 발견될 가능성이 있다는 것이다. 이는 각 펭귄 종의 서식지 선호도나 생태적 특성이 다를 수 있음을 시사한다.

#> 
#>  Pearson's Chi-squared test
#> 
#> data:  peng_table
#> X-squared = 284.59, df = 4, p-value < 2.2e-16

펭귄 종(아델리, 턱끈, 젠투)과 서식 섬(비스코, 드림, 토르거센) 간의 관계를 모자이크 플롯 시각화를 통해서 카이제곱 검정 결과를 재확인할 수 있다. 각 섬을 나타내는 열(column)은 펭귄 종의 비율에 따라 세로로 분할되어 있다. 만약 펭귄 종과 서식 섬이 완전히 독립적이라면, 각 섬에서 펭귄 종의 비율이 동일할 것이므로 모든 열이 동일한 패턴을 보일 것이지만, 모자이크 플롯에서 각 섬마다 펭귄 종의 구성비가 다른 것을 볼 수 있다.

  • 비스코 섬에서는 젠투 펭귄 비율이 매우 높고, 아델리 펭귄은 상대적으로 적은 편이고, 턱끈 펭귄은 거의 없다.
  • 드림 섬에서는 턱끈 펭귄의 비율이 가장 높고, 그 다음으로 아델리 펭귄이 많지만, 젠투 펭귄은 거의 없다.
  • 토르거센 섬에서는 아델리 펭귄만 관찰되었다.

이러한 패턴은 펭귄 종과 서식 섬 사이에 어떤 연관성이 있음을 강력히 시사한다. 만약 두 변수가 완전히 독립적이라면, 각 섬에서 펭귄 종의 구성비는 동일할 것이기 때문이다.