챗GPT 확률통계

인공지능 데이터 사이언스 기본기

저자

소속

이광춘

공익법인 한국 R 사용자회

공개

2024년 05월 09일

서문

통계학은 데이터를 이해하고 분석하는 데 필수적인 도구이며, 이를 통해 현실 세계를 이해하고 예측하는 데 도움이 된다. 데이터는 선거 여론조사를 통해 국가와 지방자치단체장을 선출하는 데 사용되며, 의료 데이터는 질병을 예방하고 치료하는 데 사용되고, 기업은 소비자의 선호도를 파악하고 제품을 개발하는 데 데이터를 활용하고, 정부는 사회복지 정책을 수립하고 예산을 편성하는 데 데이터를 활용하고, 학교는 학생들의 학업 성취도를 평가하고 교육과정을 개선하는 데 데이터를 활용하고, 연구자들은 새로운 지식을 발견하고 이를 활용하는 데 데이터를 활용하고, 인생의 가장 큰 투자인 주택을 구매하거나 자동차를 비교하여 최적의 구매결정을 하는데 데이터를 활용한다.

통계학은 우리 삶의 모든 영역에서 중요한 역할을 하고 있음에도 불구하고, 많은 사람들에게는 여전히 어렵고 복잡한 분야로 여겨진다. 통계학 입문을 처음 접한 후 30년이 지난 지금, 그동안 출판된 수많은 통계학 서적들을 살펴보면서 통계학 교육에 대해 많은 고민을 하게 되었다.

지난 30년 동안 통계학은 급격한 변화를 겪었다. 컴퓨터와 인터넷의 발달로 대용량 데이터 처리가 가능해졌고, 이에 따라 데이터 마이닝, 기계학습 등 새로운 분석기법들이 등장했다. 또한 데이터 시각화 기술의 발달로 복잡한 통계 분석 결과를 쉽게 이해할 수 있게 되었다. 최근에는 MOOC(Massive Open Online Course)와 같은 온라인 교육 플랫폼의 발달로 전 세계의 누구나 양질의 통계학 교육을 받을 수 있게 되었다.

하지만 이런 변화에도 불구하고 여전히 많은 사람들이 통계학을 어려워한다. 복잡한 수식과 전문용어들로 인해 통계학의 진입장벽이 높다고 느끼는 것이다. 따라서 앞으로의 통계학 교육은 이론보다는 실제 데이터 분석 사례 중심으로, 수식보다는 직관적인 그래프와 차트를 통해 통계 개념을 설명하는 방식으로 변화되어야 할 것이다.

이에 본서는 현대 통계학의 주요 개념과 기법들을 실제 데이터와 사례를 통해 설명하고자 한다. 데이터셋으로는 팔머펭귄(Palmer Penguins) 데이터를 활용하였다. 팔머펭귄 데이터는 남극에서 수집된 펭귄의 종, 부리 길이, 체중 등의 정보를 담고 있는 데이터로, 통계학 입문자들이 배우기에 적합한 데이터셋이다.

본서를 집필하는데 있어 고민했던 또 하나의 문제는 프로그래밍 언어를 어떻게 다룰 것인가였다. 최근 데이터 분석에는 R, 파이썬 등 다양한 프로그래밍 언어가 사용되고 있지만, 이 책에서는 R로 통일하여 사용하기로 했다. 또한 웹 브라우저에서 바로 R 코드를 실행해 볼 수 있는 WASM Web-R과 대화형 웹앱을 만들 수 있는 Shinylive를 활용하여, 독자들이 다양한 접근법으로 통계 개념을 학습할 수 있도록 하였다.

이를 통해 독자들은 복잡한 프로그래밍 언어 사용법을 배우는 데 시간을 낭비하지 않고, 통계 개념에 집중하여 학습할 수 있을 것이다. 또한 WASM Web-R과 Shinylive를 통해 실행 결과를 바로 확인함으로써 통계 개념에 대한 이해도를 높일 수 있을 것으로 기대한다.

통계학의 빠른 변화 속도를 고려할 때 10~20년 전에 나온 통계학 서적을 그대로 사용하기에는 무리가 있다. 최신 통계학 서적들(Çetinkaya-Rundel & Hardin, 2020; Downey, 2014; Ismay & Kim, 2019)을 참고하여 현대 통계학의 경향과 주요 주제들을 반영하고자 노력하였다.

본서가 통계학을 처음 접하는 분들에게 통계의 기본 개념을 익히고 데이터 분석의 즐거움을 느낄 수 있는 밑거름이 되기를 기대한다.

책의 구성

감사의 글

이 책이 탄생할 수 있도록 도움을 주신 여러분께 깊은 감사의 마음을 표합니다.

공익법인 한국 R 사용자회가 없었다면 데이터 과학분야 챗GPT 시리즈가 세상에 나오지 못했을 것입니다. 한국 R 사용자회의 유충현 회장님, 신종화 사무처장님, 홍성학 감사님, 올해부터 새롭게 공익법인 한국 R 사용자를 이끌어주실 형환희 회장님께 감사드립니다.

이 책은 2014년 처음 몸담게 된 소프트웨어 카펜트리의 그렉 윌슨 박사님과 “Python for Informatics”의 저자인 미시건 대학 찰스 세브란스 교수님을 비롯한 전 세계 수많은 익명의 기여자들의 노력과 지원 덕분에 가능했습니다. 또한 후원해 주신 디플래닉스 장석호 대표님, 나이스디앤알의 박정우 대표님, 남영민 본부장님과 서울 R 미트업에서 발표해 주시고 참여해 주신 수많은 분들의 격려와 영감도 큰 힘이 되었습니다.

국내외 오픈소스 커뮤니티 활동 이전에 먼저 저에게 전산 통계를 가르쳐 주신 연세대 김철응 교수님을 비롯한 수많은 선생님들의 가르침 덕분에 이 책을 완성할 수 있었습니다. 아울러 다양한 형태의 공공데이터를 마음껏 누릴 수 있는 디지털 환경과 뉴질랜드에서 탄생한 R 언어가 유럽에서 통계 프로그래밍 언어로 자리 잡고 미국에서 꽃필 수 있도록 도와주신 R Core Team, R Foundation, Posit(구 RStudio) 및 수많은 개발자와 익명의 기여자분들께 감사의 말씀을 전합니다.

이 책이 출간되는데 있어 이들 모든 분들의 도움 없이는 어려웠을 것입니다. 그동안의 관심과 지원에 깊은 감사를 드리며, 이 책이 데이터 과학의 발전과 독자들에게 도움이 될 수 있기를 바라는 마음으로 마무리하겠습니다.

2024년 5월 건봉사

이광춘