챗GPT와 데이터 사이언스
비영리법인 한국 R 사용자회
2023년 7월 4일
강사소개 및 미트업 안내
(디지털) 지표로 보는 대한민국
공공데이터 현황
공공데이터 사례: 선거 공공데이터
[광명시] : 어린이 교통사고, 유동인구, 카드사용
데이터 문해력
(챗GPT) 데이터 과학
오피스 → 챗GPT 디지털 글쓰기
질의응답!
주요경력 및 학력
(현) 공익법인 한국 R 사용자회: 기술 이사
(현) 국가교육위원회 전문위원: 과학/기술 분과
(현) 건국대학교 챗GPT 데이터 사이언스 과정: 외래교수
(현) 경기도 빅데이터 위원회 자문위원
(전) TCS: GS 칼텍스 디지털 아카데미 강사
(전) 연세대학교 데이터 사이언스: 겸임교수
(전) 삼정 KPMG: Lighthouse AI 기술총괄
(전) 웹젠: 데이터 과학자 TD
(전) 현대모비스: 차량용 반도체 개발구매
(전) 현대자동차: VAATZ / FTA
KAIST, CMU, 연세대 응용통계 및 컴퓨터 과학 전공
RStudio Instructor - Tidyverse
강의상세
2022년 7월 열린세미나를 개최합니다. 이번 주제는 선거관련 데이터의 개방현황과 사법기관 공공데이터의 개방현황 그리고 개선방안을 함께 살펴보는 시간을 준비했습니다 관심있는 분들의 많은 참여와 의견 바랍니다.
일시: 2022. 7. 28.(목) 14~17시
참여방법:
주제: 선거관련 데이터 및 사법기관의 공공데이터 개방현황과 개선방안
참가신청 : https://www.onoffmix.com/event/259343
온·오프라인 사전 신청자에 한에서 이벤트를 통해 소정의 기념품 을 준비했으므로, 많은 관심과 참여 부탁드리겠습니다
krvote
데이터 패키지광명시 보행 어린이 교통사고 | ||||
TAAS 교통사고분석시스템 (2014~2022) |
||||
사고유형 | 교통사고 어린이 구분 | 합계 | ||
---|---|---|---|---|
사망자수 | 중상자수 | 경상자수 | ||
차대사람 - 기타 | 0 | 11 | 34 | 45 |
차대사람 - 길가장자리구역통행중 | 0 | 3 | 12 | 15 |
차대사람 - 보도통행중 | 0 | 2 | 5 | 7 |
차대사람 - 차도통행중 | 0 | 3 | 8 | 11 |
차대사람 - 횡단중 | 3 | 33 | 59 | 95 |
차대차 - 기타 | 0 | 1 | 2 | 3 |
차대차 - 측면충돌 | 0 | 3 | 0 | 3 |
합계 | 3 | 56 | 120 | 179 |
연도별
year | births | deaths | clinic |
---|---|---|---|
1841 | 3,036 | 237 | clinic 1 |
1842 | 3,287 | 518 | clinic 1 |
1843 | 3,060 | 274 | clinic 1 |
1844 | 3,157 | 260 | clinic 1 |
1845 | 3,492 | 241 | clinic 1 |
1846 | 4,010 | 459 | clinic 1 |
1841 | 2,442 | 86 | clinic 2 |
1842 | 2,659 | 202 | clinic 2 |
1843 | 2,739 | 164 | clinic 2 |
1844 | 2,956 | 68 | clinic 2 |
1845 | 3,241 | 66 | clinic 2 |
1846 | 3,754 | 105 | clinic 2 |
월별
statistic | p.value | parameter | conf.low | conf.high | method | alternative |
---|---|---|---|---|---|---|
-9.610071 | 0 | 92.43544 | -0.1013066 | -0.0666066 | Welch Two Sample t-test | two.sided |
데이터 사이언스(Data Science)는 데이터를 다루는 과학이다. 따라서 자연법칙을 다루는 자연과학과 맥이 닿아있다. 자연법칙을 측정하여 데이터프레임(
DataFrame
)으로 나타내면 변수(Variable), 관측점(Observation), 값(Value)으로 표현된다.
tidyverse
회사 | 손실 | 날짜 | 영향 | 참사 개요 |
---|---|---|---|---|
Mouchel | £ 4.3백만 | ’10.11월 | CEO 사임, 주가폭락 | 연금펀드평가 £ 4.3백만 엑셀 오류 |
C&C Group | £ 9 백만 | ’09.7월 | 주가 15% 하락 등 | 매출 3% 상승이 아니고 5% 하락, 엑셀 오류 |
King 펀드 | £ 130 백만 | ’11.05월 | 브래드 이미지 하락 | 웨일즈 지방 NHS 지출 엑셀 오류 |
AXA Rosenberg | £ 150 백만 | ’11.02월 | 은폐, 벌금, 브래드 이미지 하락 | 엑셀 오류를 감춰서 $242 백만 벌금 |
JP Morgan Chase | £ 250 백만 | ’13.01월 | 명성, 고객 신뢰도 저하 | 바젤 II VaR 위험 평가 엑셀 오류 |
Magellan 펀드 | £ 1.6 십억 | ’95.01월 | 투자자에게 약속한 배당금 지급 못함 | 음수 부호 누락으로 자본이득 과대계상 |
미연방준비위원회 | £ 2.5 십억 | ’10.10월 | 명확하지 않음 | 리볼빙 카드 신용액 산출 과정에 엑셀 오류 |
스프레드쉬트 사용 이유
- 항상 엑셀을 사용했다: 항상 데이터를 엑셀로 저장하고 분석해서 사용했다. 하지만, 버튼 하나로 데이터를 내보내기 쉽다.
- 데이터베이스를 사용할 만큼 데이터가 충분하지 않다: 데이터가 작아서 데이터베이스를 사용할 이유를 찾지 못하지만, 사업이 커지고, 업무량이 늘어나면서 엑셀 작업량이 높아지고, 복잡성도 커지고, 엑셀 자체에서 처리되는 시간도 늘어난다.
신의 축복으로 태어난 그는 인생의 \(\frac{1}{6}\)을 소년으로 보냈다. 그리고 다시 인생의 \(\frac{1}{12}\) 이 지난 뒤에는 얼굴에 수염이 자라기 시작했다. 다시 \(\frac{1}{7}\)이 지난 뒤 그는 아름다운 여인을 맞이하여 화촉을 밝혔으며, 결혼한 지 5년 만에 귀한 아들을 얻었다. 아! 그러나 그의 가엾은 아들은 아버지의 반 밖에 살지 못했다. 아들을 먼저 보내고 깊은 슬픔에 빠진 그는 그 뒤 4년간 정수론에 몰입하여 스스로를 달래다가 일생을 마쳤다. [^1]
디오판토스가 정확히 언제 태어나고 언제 죽었는지는 명확하지 않지만, 그가 죽었을 때의 나이는 정확히 알 수 있다. 이를 방정식을 통해 풀어보자. 수식을 \(x\)에 대해 정리해서 풀면 84가 나온다.
\[\frac {x} {6} + \frac {x} {12} + \frac {x} {7} + 5 + \frac {x} {2} + 4 = x\]
[{x: 84}]
항목 | MS 오피스 1 | 구글 오피스 2 | 리브레 오피스 3 | 한컴 오피스 4 |
---|---|---|---|---|
문서 작성 및 편집 | 워드, 엑셀, 파워포인트 등의 데스크톱 및 웹 앱 제공 | 구글 문서, 스프레드시트, 프레젠테이션 등의 웹 앱 제공 | 라이터, 캘크, 임프레스 등의 데스크톱 앱 제공 | 한글, 한셀, 한쇼 등의 데스크톱 및 모바일 앱 제공 |
협업 및 공유 | 원드라이브를 통해 문서를 클라우드에 저장하고 공유 가능. 여러 사람이 동시에 문서를 수정할 수 있으나 실시간으로 보기 어려움 | 구글 드라이브를 통해 문서를 클라우드에 저장하고 공유 가능. 여러 사람이 동시에 문서를 수정하고 실시간으로 확인 가능 | 드롭박스나 구글 드라이브와 연동하여 문서를 클라우드에 저장하고 공유 가능. 여러 사람이 동시에 문서를 수정할 수 있으나 실시간으로 보기 어려움 | 넷프리즘을 통해 문서를 클라우드에 저장하고 공유 가능. 여러 사람이 동시에 문서를 수정할 수 있으나 실시간으로 보기 어려움 |
이메일 및 채팅 | Outlook을 통해 비즈니스 메일 제공. Teams을 통해 채팅 및 화상 회의 가능 | Gmail을 통해 비즈니스 메일 제공. Chat과 Meet을 통해 채팅 및 화상 회의 가능 | 이메일 및 채팅 기능 없음 | 이메일 및 채팅 기능 없음 |
가격 | 1인당 월 5~20달러 다양한 요금제 제공. 데스크톱 앱 사용 가능한 요금제는 12.5달러부터 시작 | 1인당 월 6~18달러까지 다양한 요금제 제공 | 완전 무료 | 개인용은 무료로 사용 가능하며 업무용은 별도로 견적 요청 필요 |
flowchart TB subgraph A["사용자 인터페이스"] direction LR CLI["CLI<br>Command Line Interface<br> 1950~"] --> GUI["GUI <br> Graphic User Inferface<br> 1970~"] GUI --> WI["Web Interface <br> 1994~"] WI --> MI["Mobile Interface <br> 2007~"] MI --> NUI["LUI <br> Language User Interface <br> 2023~"] end class A nodeStyle classDef nodeStyle fill:#fcfbfa,stroke:#000000,stroke-width:0.7px,font-weight:bold,font-size:14px;
graph LR subgraph "소프트웨어" direction LR sourcecode[소스코드] --> package1[패키지] package1 --> product1["제품(S/W)"] product1 --> distribute1[배포] distribute1 --> service1["서비스<br>(앱)"] end subgraph "문서" direction LR text[텍스트] --> package2[패키지] package2 --> product2["제품(문서)"] product2 --> distribute2[배포] distribute2 --> service2["서비스<br>(출판)"] end style 소프트웨어 fill:#f5f5f5,stroke:#333,stroke-width:3px style 문서 fill:#b5b5b5,stroke:#111,stroke-width:3px style sourcecode fill:#ffeeee,stroke:#f66,stroke-width:2px style package1 fill:#eeffee,stroke:#6f6,stroke-width:2px style product1 fill:#eeeeff,stroke:#66f,stroke-width:2px style distribute1 fill:#eefeee,stroke:#6ff,stroke-width:2px style service1 fill:#ffeeee,stroke:#f66,stroke-width:2px style text fill:#ffeeee,stroke:#f66,stroke-width:2px style package2 fill:#eeffee,stroke:#6f6,stroke-width:2px style product2 fill:#eeeeff,stroke:#66f,stroke-width:2px style distribute2 fill:#eefeee,stroke:#6ff,stroke-width:2px style service2 fill:#ffeeee,stroke:#f66,stroke-width:2px