3  펭귄 EDA

그림 3.1: 탐색적 데이터 분석 과정

3.1 데이터 가져오기

palmerpenguins 패키지가 영어로 되어 있어 한글로 번역한 https://raw.githubusercontent.com/bit2r/bitData/main/data-raw/penguins.csv 파일을 다운로드 해서 사용한다. tidyverse 생태계글 구성하는 readr 패키지를 불러오고, data라는 이름의 새로운 디렉토리를 dir.create() 함수로 생성하고, 웹사이트에서 “https://raw.githubusercontent.com/bit2r/bitData/main/data-raw/penguins.csv” 데이터 파일을 다운로드 하여 다운받은 파일을 “data/penguins.csv”에 저장한다.

3.2 자료구조 확인

dplyr 패키지 glimpse() 함수를 사용해서 제공된 데이터는 펭귄에 대한 정보를 담고 있는 데이터프레임을 살펴본다. 총 333개의 관측치(행)와 8개의 변수(열)로 구성되어 있다.

종명칭은 펭귄의 종을 나타내는 문자형 변수로 “아델리” 등이 있다. 섬이름은 펭귄이 서식하는 섬의 이름을 나타내는 문자형 변수로 “토르거센” 섬 등이 있다. 부리_길이는 펭귄 부리의 길이를 나타내는 숫자형 변수로 단위는 명시되어 있지 않지만 밀리미터(mm)다. 부리_깊이는 펭귄 부리의 깊이를 나타내는 숫자형 변수로 단위는 명시되어 있지 않지만 밀리미터(mm)다. 물갈퀴_길이는 펭귄 물갈퀴의 길이를 나타내는 숫자형 변수로 단위는 명시되어 있지 않지만 밀리미터(mm)다. 체중은 펭귄의 체중을 나타내는 숫자형 변수로 단위는 명시되어 있지 않지만 그램(g)이다. 성별은 펭귄의 성별을 나타내는 문자형 변수로 “수컷”과 “암컷”으로 구분된다. 연도는 데이터가 수집된 연도를 나타내는 숫자형 변수다.

3.3 결측치 확인

#> 총 결측값 수: 19 
#> 결측값이 있는 행의 수: 5 
#> 결측값이 있는 열의 수: TRUE
#> [1] 19

3.4 변수별 분석

Data summary
Name select_if(k_penguins_tbl,…
Number of rows 333
Number of columns 5
_______________________
Column type frequency:
numeric 5
________________________
Group variables None

Variable type: numeric

skim_variable mean sd p0 p25 p50 p75 p100 hist
부리_길이 43.99 5.47 32.1 39.5 44.5 48.6 59.6 ▃▇▇▆▁
부리_깊이 17.16 1.97 13.1 15.6 17.3 18.7 21.5 ▅▆▇▇▂
물갈퀴_길이 200.97 14.02 172.0 190.0 197.0 213.0 231.0 ▂▇▃▅▃
체중 4207.06 805.22 2700.0 3550.0 4050.0 4775.0 6300.0 ▃▇▅▃▂
연도 2008.04 0.81 2007.0 2007.0 2008.0 2009.0 2009.0 ▇▁▇▁▇
Data summary
Name select_if(k_penguins_tbl,…
Number of rows 333
Number of columns 3
_______________________
Column type frequency:
factor 3
________________________
Group variables None

Variable type: factor

skim_variable ordered n_unique top_counts
종명칭 FALSE 3 아델리: 146, 젠투: 119, 턱끈: 68
섬이름 FALSE 3 비스코: 163, 드림: 123, 토르거: 47
성별 FALSE 2 수컷: 168, 암컷: 165

3.5 변수간 관계

3.5.1 숫자형과 범주형

3.5.2 그룹별 평균비교

#> # A tibble: 3 × 5
#>   종명칭 부리_길이 부리_깊이 물갈퀴_길이  체중
#>   <fct>      <dbl>     <dbl>       <dbl> <dbl>
#> 1 아델리      38.8      18.3        190. 3706.
#> 2 턱끈        48.8      18.4        196. 3733.
#> 3 젠투        47.6      15.0        217. 5092.

3.6 시각화