3 펭귄 EDA
3.1 데이터 가져오기
palmerpenguins
패키지가 영어로 되어 있어 한글로 번역한 https://raw.githubusercontent.com/bit2r/bitData/main/data-raw/penguins.csv 파일을 다운로드 해서 사용한다. tidyverse
생태계글 구성하는 readr
패키지를 불러오고, data
라는 이름의 새로운 디렉토리를 dir.create()
함수로 생성하고, 웹사이트에서 “https://raw.githubusercontent.com/bit2r/bitData/main/data-raw/penguins.csv” 데이터 파일을 다운로드 하여 다운받은 파일을 “data/penguins.csv”에 저장한다.
3.2 자료구조 확인
dplyr
패키지 glimpse()
함수를 사용해서 제공된 데이터는 펭귄에 대한 정보를 담고 있는 데이터프레임을 살펴본다. 총 333개의 관측치(행)와 8개의 변수(열)로 구성되어 있다.
종명칭
은 펭귄의 종을 나타내는 문자형 변수로 “아델리” 등이 있다. 섬이름
은 펭귄이 서식하는 섬의 이름을 나타내는 문자형 변수로 “토르거센” 섬 등이 있다. 부리_길이
는 펭귄 부리의 길이를 나타내는 숫자형 변수로 단위는 명시되어 있지 않지만 밀리미터(mm)다. 부리_깊이
는 펭귄 부리의 깊이를 나타내는 숫자형 변수로 단위는 명시되어 있지 않지만 밀리미터(mm)다. 물갈퀴_길이
는 펭귄 물갈퀴의 길이를 나타내는 숫자형 변수로 단위는 명시되어 있지 않지만 밀리미터(mm)다. 체중
은 펭귄의 체중을 나타내는 숫자형 변수로 단위는 명시되어 있지 않지만 그램(g)이다. 성별
은 펭귄의 성별을 나타내는 문자형 변수로 “수컷”과 “암컷”으로 구분된다. 연도
는 데이터가 수집된 연도를 나타내는 숫자형 변수다.
3.3 결측치 확인
#> 총 결측값 수: 19
#> 결측값이 있는 행의 수: 5
#> 결측값이 있는 열의 수: TRUE
#> [1] 19
3.4 변수별 분석
Name | select_if(k_penguins_tbl,… |
Number of rows | 333 |
Number of columns | 5 |
_______________________ | |
Column type frequency: | |
numeric | 5 |
________________________ | |
Group variables | None |
Variable type: numeric
skim_variable | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
---|---|---|---|---|---|---|---|---|
부리_길이 | 43.99 | 5.47 | 32.1 | 39.5 | 44.5 | 48.6 | 59.6 | ▃▇▇▆▁ |
부리_깊이 | 17.16 | 1.97 | 13.1 | 15.6 | 17.3 | 18.7 | 21.5 | ▅▆▇▇▂ |
물갈퀴_길이 | 200.97 | 14.02 | 172.0 | 190.0 | 197.0 | 213.0 | 231.0 | ▂▇▃▅▃ |
체중 | 4207.06 | 805.22 | 2700.0 | 3550.0 | 4050.0 | 4775.0 | 6300.0 | ▃▇▅▃▂ |
연도 | 2008.04 | 0.81 | 2007.0 | 2007.0 | 2008.0 | 2009.0 | 2009.0 | ▇▁▇▁▇ |
Name | select_if(k_penguins_tbl,… |
Number of rows | 333 |
Number of columns | 3 |
_______________________ | |
Column type frequency: | |
factor | 3 |
________________________ | |
Group variables | None |
Variable type: factor
skim_variable | ordered | n_unique | top_counts |
---|---|---|---|
종명칭 | FALSE | 3 | 아델리: 146, 젠투: 119, 턱끈: 68 |
섬이름 | FALSE | 3 | 비스코: 163, 드림: 123, 토르거: 47 |
성별 | FALSE | 2 | 수컷: 168, 암컷: 165 |
3.5 변수간 관계
3.5.1 숫자형과 범주형
3.5.2 그룹별 평균비교
#> # A tibble: 3 × 5
#> 종명칭 부리_길이 부리_깊이 물갈퀴_길이 체중
#> <fct> <dbl> <dbl> <dbl> <dbl>
#> 1 아델리 38.8 18.3 190. 3706.
#> 2 턱끈 48.8 18.4 196. 3733.
#> 3 젠투 47.6 15.0 217. 5092.