데이터 X-레이

분석 데이터를 일별하는 기법을 일별합니다.
저자
소속
이광춘

TCS

공개

2022년 12월 20일

1 skimr

skimr 패키지를 사용하여 분석할 데이터와 친숙해진다.

library(tidyverse)

bitData::penguins %>% 
  skimr::skim()
Data summary
Name Piped data
Number of rows 333
Number of columns 8
_______________________
Column type frequency:
factor 3
numeric 5
________________________
Group variables None

Variable type: factor

skim_variable n_missing complete_rate ordered n_unique top_counts
종명칭 0 1 FALSE 3 아델리: 146, 젠투: 119, 턱끈: 68
섬이름 0 1 FALSE 3 비스코: 163, 드림: 123, 토르거: 47
성별 0 1 FALSE 2 수컷: 168, 암컷: 165

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
부리_길이 0 1 43.99 5.47 32.1 39.5 44.5 48.6 59.6 ▃▇▇▆▁
부리_깊이 0 1 17.16 1.97 13.1 15.6 17.3 18.7 21.5 ▅▆▇▇▂
물갈퀴_길이 0 1 200.97 14.02 172.0 190.0 197.0 213.0 231.0 ▂▇▃▅▃
체중 0 1 4207.06 805.22 2700.0 3550.0 4050.0 4775.0 6300.0 ▃▇▅▃▂
연도 0 1 2008.04 0.81 2007.0 2007.0 2008.0 2009.0 2009.0 ▇▁▇▁▇

2 dataxray

dataxray 패키지를 사용해서 데이터에 대한 이해를 더욱 높일 수 있다.

library(dataxray)

bitData::penguins %>% 
   make_xray() %>% 
   view_xray()

3 Hmisc::describe()

Hmisc 패키지를 통해 과거 20년전 데이터 분석방법을 음미합니다.

Hmisc::describe(bitData::penguins)
bitData::penguins 

 8  Variables      333  Observations
--------------------------------------------------------------------------------
종명칭 
       n  missing distinct 
     333        0        3 
                                     
Value        아델리     턱끈     젠투
Frequency    146       68      119   
Proportion 0.438    0.204    0.357   
--------------------------------------------------------------------------------
섬이름 
       n  missing distinct 
     333        0        3 
                                     
Value        비스코     드림 토르거센
Frequency    163      123       47   
Proportion 0.489    0.369    0.141   
--------------------------------------------------------------------------------
부리_길이 
       n  missing distinct     Info     Mean      Gmd      .05      .10 
     333        0      163        1    43.99    6.284     35.7     36.6 
     .25      .50      .75      .90      .95 
    39.5     44.5     48.6     50.8     52.0 

lowest : 32.1 33.1 33.5 34.0 34.4, highest: 55.1 55.8 55.9 58.0 59.6
--------------------------------------------------------------------------------
부리_깊이 
       n  missing distinct     Info     Mean      Gmd      .05      .10 
     333        0       79        1    17.16     2.26    13.90    14.32 
     .25      .50      .75      .90      .95 
   15.60    17.30    18.70    19.50    20.00 

lowest : 13.1 13.2 13.3 13.4 13.5, highest: 20.7 20.8 21.1 21.2 21.5
--------------------------------------------------------------------------------
물갈퀴_길이 
       n  missing distinct     Info     Mean      Gmd      .05      .10 
     333        0       54    0.999      201    15.97      181      185 
     .25      .50      .75      .90      .95 
     190      197      213      221      225 

lowest : 172 174 176 178 180, highest: 226 228 229 230 231
--------------------------------------------------------------------------------
체중 
       n  missing distinct     Info     Mean      Gmd      .05      .10 
     333        0       93        1     4207    915.3     3150     3300 
     .25      .50      .75      .90      .95 
    3550     4050     4775     5440     5670 

lowest : 2700 2850 2900 2925 3000, highest: 5850 5950 6000 6050 6300
--------------------------------------------------------------------------------
성별 
       n  missing distinct 
     333        0        2 
                          
Value         수컷    암컷
Frequency    168     165  
Proportion 0.505   0.495  
--------------------------------------------------------------------------------
연도 
       n  missing distinct     Info     Mean      Gmd 
     333        0        3    0.888     2008   0.8857 
                            
Value       2007  2008  2009
Frequency    103   113   117
Proportion 0.309 0.339 0.351
--------------------------------------------------------------------------------