공공데이터 이해, 데이터 활용역량

챗GPT와 데이터 사이언스

이광춘/신종화

비영리법인 한국 R 사용자회

2023년 7월 4일

목차

  1. 강사소개 및 미트업 안내

  2. (디지털) 지표로 보는 대한민국

  3. 공공데이터 현황

  4. 공공데이터 사례: 선거 공공데이터

  5. [광명시] : 어린이 교통사고, 유동인구, 카드사용

  6. 데이터 문해력

  7. (챗GPT) 데이터 과학

  8. 오피스 → 챗GPT 디지털 글쓰기

  9. 질의응답!

강사소개 & 강의 개요

AI 아바타

주요경력 및 학력

  • (현) 공익법인 한국 R 사용자회: 기술 이사

  • (현) 국가교육위원회 전문위원: 과학/기술 분과

  • (현) 건국대학교 챗GPT 데이터 사이언스 과정: 외래교수

  • (현) 경기도 빅데이터 위원회 자문위원

  • (전) TCS: GS 칼텍스 디지털 아카데미 강사

  • (전) 연세대학교 데이터 사이언스: 겸임교수

  • (전) 삼정 KPMG: Lighthouse AI 기술총괄

  • (전) 웹젠: 데이터 과학자 TD

  • (전) 현대모비스: 차량용 반도체 개발구매

  • (전) 현대자동차: VAATZ / FTA




  • KAIST, CMU, 연세대 응용통계 및 컴퓨터 과학 전공

  • RStudio Instructor - Tidyverse

  • Seoul R Meetup Organizer

강의상세

  • 날짜 : 2023. 7. 04.(월) 16:00~17:30
  • 장소 : 광명시청
  • 대상 : 광명시 소속 공무원
  • 내용
    • “공공데이터”
    • “데이터 역량강화”
    • “데이터 과학”
    • “광명시 어린이 교통사고/유동인구”
    • “사무 자동화/지능화”
    • “챗GPT”
    • “Text-to-X”

4차 산업혁명을 넘어서 …

디지털 뉴딜

디지털 전환 지표
ㄴ 전통 지표

전통적 지표



전통 지표 기준 강대국

확장 전통 지표



확장 지표 기준 선진국

디지털 전환 지표
ㄴ 디지털 지표

디지털 강대국 지표

디지털 강대국 지표 - 디지털 정부 순위

디지털 강대국 지표 - 인공지능 준비지수

디지털 강대국 지표 - 데이터 경제

디지털 강대국 지표 - 산업용 로봇

디지털 강대국 지표 - WEF 세계 경쟁력

디지털 강대국 지표 - IMD 디지털 경쟁력

디지털 강대국 지표 - 종합

디지털 강대국 지표 - 종합 시각화

공공데이터
현황

공공데이터 포털

공공데이터 자료 제공 형식

공공데이터 정해진 미래(?)

선거 공공데이터

오픈 데이터 포럼

선거관련 데이터 및 사법기관의 공공데이터 개방현황과 개선방안

2022년 7월 열린세미나를 개최합니다. 이번 주제는 선거관련 데이터의 개방현황과 사법기관 공공데이터의 개방현황 그리고 개선방안을 함께 살펴보는 시간을 준비했습니다 관심있는 분들의 많은 참여와 의견 바랍니다.

  • 일시: 2022. 7. 28.(목) 14~17시

  • 참여방법:

    1. 서울창업허브(서울특별시 마포구 공덕동 백범로31길 21) 본관 10층 대강당
    2. 웹세미나 (유튜브/오픈데이터포럼 공식채널)
  • 주제: 선거관련 데이터 및 사법기관의 공공데이터 개방현황과 개선방안

  • 참가신청 : https://www.onoffmix.com/event/259343

  • 온·오프라인 사전 신청자에 한에서 이벤트를 통해 소정의 기념품 을 준비했으므로, 많은 관심과 참여 부탁드리겠습니다

주요 선거 일정




중앙선관위 데이터 제공방식

중앙선관위 제공 데이터

데이터 사이언스 사례

krvote 데이터 패키지

어린이 교통사고
광명시

보도자료

초등학교 주변 CCTV 현황

어린이 교통사고 통계

광명시 보행 어린이 교통사고
TAAS 교통사고분석시스템 (2014~2022)
사고유형 교통사고 어린이 구분 합계
사망자수 중상자수 경상자수
차대사람 - 기타 0 11 34 45
차대사람 - 길가장자리구역통행중 0 3 12 15
차대사람 - 보도통행중 0 2 5 7
차대사람 - 차도통행중 0 3 8 11
차대사람 - 횡단중 3 33 59 95
차대차 - 기타 0 1 2 3
차대차 - 측면충돌 0 3 0 3
합계 3 56 120 179

광명시 유동인구(KT)

광명시 카드사용금액(BC) → 작업중

데이터 문해력이라고 쓰고
데이터 활용역량이라고 읽는다.

러시아 월드컵 (독일전)


1854년 런던 코로나19

지진해일 대피소

손씻기 역사

연도별

year births deaths clinic
1841 3,036 237 clinic 1
1842 3,287 518 clinic 1
1843 3,060 274 clinic 1
1844 3,157 260 clinic 1
1845 3,492 241 clinic 1
1846 4,010 459 clinic 1
1841 2,442 86 clinic 2
1842 2,659 202 clinic 2
1843 2,739 164 clinic 2
1844 2,956 68 clinic 2
1845 3,241 66 clinic 2
1846 3,754 105 clinic 2

월별



statistic p.value parameter conf.low conf.high method alternative
-9.610071 0 92.43544 -0.1013066 -0.0666066 Welch Two Sample t-test two.sided

정규분포

나폴레옹 러시아 침공

생존병사 수

후퇴 기온

나이팅게일 - 백의천사

회귀분석 - MLB 투수 유전자는 유전이 될까?

폭격비행기

데이터 과학

데이터 과학

데이터 사이언스(Data Science)는 데이터를 다루는 과학이다. 따라서 자연법칙을 다루는 자연과학과 맥이 닿아있다. 자연법칙을 측정하여 데이터프레임(DataFrame)으로 나타내면 변수(Variable), 관측점(Observation), 값(Value)으로 표현된다.

데이터 과학 (넓은 의미)

데이터 과학 욕구단계설

가치

  • 기술 분석(Descriptive Analytics): 무슨 일이 있었나? (What happened?)
  • 진단 분석(Diagnostic Analytics): 왜 일어났나? (Why did it happen?)
  • 예측 분석(Predictive Analytics): 무슨 일이 일어날까? (What will happen?)
  • 처방 분석(Prescriptive Analytics): 어떻게 그런 일을 일으킬까? (How can we make it happen?)

30년의 변화를 그림으로 표현

데이터 경제와 산업

데이터 자원

파이프라인

AI/ML/DL 그리고 데이터 과학


tidyverse

  • 기존 자료구조를 재사용
  • 파이프 연산자로 간단한 함수를 조합
  • 함수형 프로그래밍을 적극 사용
  • 기계가 아닌 인간을 위한 설계
  • Reuse existing data structures.
  • Compose simple functions with the pipe.
  • Embrace functional programming.
  • Design for humans.

엑셀 선 넘네!!!

  • 스프레드쉬트는 데이터, 서식, 수식으로 구성된다.
  • 숫자 데이터를 엑셀로 가져오게 되면 엑셀 내장 함수를 통해 수식 계산을 수행한다.
  • 엑셀 사용자 본인 혹은 외부 사람을 위해 서식을 입히는 과정을 거쳐 비로소 완성된 스프레드쉬트가 된다.

회사 손실 날짜 영향 참사 개요
Mouchel £ 4.3백만 ’10.11월 CEO 사임, 주가폭락 연금펀드평가 £ 4.3백만 엑셀 오류
C&C Group £ 9 백만 ’09.7월 주가 15% 하락 등 매출 3% 상승이 아니고 5% 하락, 엑셀 오류
King 펀드 £ 130 백만 ’11.05월 브래드 이미지 하락 웨일즈 지방 NHS 지출 엑셀 오류
AXA Rosenberg £ 150 백만 ’11.02월 은폐, 벌금, 브래드 이미지 하락 엑셀 오류를 감춰서 $242 백만 벌금
JP Morgan Chase £ 250 백만 ’13.01월 명성, 고객 신뢰도 저하 바젤 II VaR 위험 평가 엑셀 오류
Magellan 펀드 £ 1.6 십억 ’95.01월 투자자에게 약속한 배당금 지급 못함 음수 부호 누락으로 자본이득 과대계상
미연방준비위원회 £ 2.5 십억 ’10.10월 명확하지 않음 리볼빙 카드 신용액 산출 과정에 엑셀 오류




스프레드쉬트 사용 이유

  • 항상 엑셀을 사용했다: 항상 데이터를 엑셀로 저장하고 분석해서 사용했다. 하지만, 버튼 하나로 데이터를 내보내기 쉽다.
  • 데이터베이스를 사용할 만큼 데이터가 충분하지 않다: 데이터가 작아서 데이터베이스를 사용할 이유를 찾지 못하지만, 사업이 커지고, 업무량이 늘어나면서 엑셀 작업량이 높아지고, 복잡성도 커지고, 엑셀 자체에서 처리되는 시간도 늘어난다.

엑셀 → 다른 도구

  1. 한번에 한사람만 작업이 가능하다.
  2. 데이터 감사는 데이터베이스에서만 가능
  3. 데이터베이스는 정형화된 작업흐름을 지원한다.
  4. 데이터베이스는 엑셀보다 모형을 보다 잘 지원한다.
  5. 데이터베이스로 보고서 생성이 수월하다.
  6. 데이터베이스는 보안이 강력하고 규제하기 좋다.

  1. R은 시각화와 통계 데이터 전처리에 좋다.
  2. 파이썬은 AI 기능 도입에 좋다.
  3. Git/GitHub 은 재현성과 버젼제어에 좋다.

openAI 마이크로소프트 3 대장 + \(\alpha\)

chatGPT 3대장

chatGPT 3대장 + \(\alpha\) 추론

디오판토스 묘비

신의 축복으로 태어난 그는 인생의 \(\frac{1}{6}\)을 소년으로 보냈다. 그리고 다시 인생의 \(\frac{1}{12}\) 이 지난 뒤에는 얼굴에 수염이 자라기 시작했다. 다시 \(\frac{1}{7}\)이 지난 뒤 그는 아름다운 여인을 맞이하여 화촉을 밝혔으며, 결혼한 지 5년 만에 귀한 아들을 얻었다. 아! 그러나 그의 가엾은 아들은 아버지의 반 밖에 살지 못했다. 아들을 먼저 보내고 깊은 슬픔에 빠진 그는 그 뒤 4년간 정수론에 몰입하여 스스로를 달래다가 일생을 마쳤다. [^1]

디오판토스가 정확히 언제 태어나고 언제 죽었는지는 명확하지 않지만, 그가 죽었을 때의 나이는 정확히 알 수 있다. 이를 방정식을 통해 풀어보자. 수식을 \(x\)에 대해 정리해서 풀면 84가 나온다.

\[\frac {x} {6} + \frac {x} {12} + \frac {x} {7} + 5 + \frac {x} {2} + 4 = x\]

from sympy import *
x = Symbol('x')
Diophantus_puzzle = x/6 + x/12 + x/7 + 5 + x/2 + 4 - x
solve(Diophantus_puzzle, x, dict = True)
[{x: 84}]

AutoGPT: Text-to-Task


데이터 분석: Text-to-Analytics

Pandas AI는 널리 사용되는 데이터 분석 및 조작 도구인 Pandas에 생성 인공 지능 기능을 추가한 Python 라이브러리다. Pandas AI는 판다스와 함께 사용하도록 설계되었으며, 판다스를 대체할 수 없다.



챗GPT 인터페이스
오피스 전쟁

구글 검색의 종말(?)

글쓰기 역사


오피스 전쟁

항목 MS 오피스 1 구글 오피스 2 리브레 오피스 3 한컴 오피스 4
문서 작성 및 편집 워드, 엑셀, 파워포인트 등의 데스크톱 및 웹 앱 제공 구글 문서, 스프레드시트, 프레젠테이션 등의 웹 앱 제공 라이터, 캘크, 임프레스 등의 데스크톱 앱 제공 한글, 한셀, 한쇼 등의 데스크톱 및 모바일 앱 제공
협업 및 공유 원드라이브를 통해 문서를 클라우드에 저장하고 공유 가능. 여러 사람이 동시에 문서를 수정할 수 있으나 실시간으로 보기 어려움 구글 드라이브를 통해 문서를 클라우드에 저장하고 공유 가능. 여러 사람이 동시에 문서를 수정하고 실시간으로 확인 가능 드롭박스나 구글 드라이브와 연동하여 문서를 클라우드에 저장하고 공유 가능. 여러 사람이 동시에 문서를 수정할 수 있으나 실시간으로 보기 어려움 넷프리즘을 통해 문서를 클라우드에 저장하고 공유 가능. 여러 사람이 동시에 문서를 수정할 수 있으나 실시간으로 보기 어려움
이메일 및 채팅 Outlook을 통해 비즈니스 메일 제공. Teams을 통해 채팅 및 화상 회의 가능 Gmail을 통해 비즈니스 메일 제공. Chat과 Meet을 통해 채팅 및 화상 회의 가능 이메일 및 채팅 기능 없음 이메일 및 채팅 기능 없음
가격 1인당 월 5~20달러 다양한 요금제 제공. 데스크톱 앱 사용 가능한 요금제는 12.5달러부터 시작 1인당 월 6~18달러까지 다양한 요금제 제공 완전 무료 개인용은 무료로 사용 가능하며 업무용은 별도로 견적 요청 필요

오피스 전쟁: 패러다임 충돌

챗GPT 시대 사무실

챗GPT가 이룬 대통합

인터페이스 (Interface)




flowchart TB
    
    subgraph A["사용자 인터페이스"]
    direction LR
        CLI["CLI<br>Command Line Interface<br> 1950~"]     --> GUI["GUI <br> Graphic User Inferface<br> 1970~"]
        GUI               --> WI["Web Interface <br> 1994~"]
        WI --> MI["Mobile Interface <br> 2007~"]
        MI --> NUI["LUI <br> Language User Interface <br> 2023~"]

    end


class A nodeStyle

classDef nodeStyle fill:#fcfbfa,stroke:#000000,stroke-width:0.7px,font-weight:bold,font-size:14px;



챗GPT NUI

  • 챗GPT (ChatGPT)

  • OpenAI Playground

Command Palette 역사

  • 60년대로 거슬러 올라가는 명령 팔레트는 최근 기술 업계에서 다시 인기를 얻고 있으며 사용자 중심 소프트웨어의 필수적인 부분으로 간주됨.
  • CLI는 개인용 컴퓨터가 대중화되기 전 초기 컴퓨팅을 지배했으며 사용자가 시스템을 작동하기 위해 특정 명령을 알아야 했다. 1984년 Apple의 매킨토시와 함께 도입된 그래픽 사용자 인터페이스(GUI)는 중요한 혁신으로 여겨졌지만, 소프트웨어의 복잡성이 증가함에 따라 GUI만으로는 탐색하기가 점점 더 어려워졌다.
  • 사용자가 항목 이름의 짧은 약어입력하여 앱과 파일을 검색할 수 있는 런처가 점점 더 보편화 되었다. 예를 들어 2001년에 출시된 Mac OS X용 LaunchBar, Quicksilver, 2005년에 출시된 Apple의 시스템 전체 Spotlight가 있다. 검색과 CLI의 결합은 Command Palette의 탄생으로 이어졌다.
  • 오늘날 우리가 알고 있는 현대식 명령 팔레트는 2011년 Sublime Text 2 베타 Joe Skinner가 처음 소개. 명령줄 사용에 익숙한 프로그래머들이 단축키를 모두 외울 필요 없이 더 빠르게 작업할 수 있어 중요한 발전이 됨.

도구(문서)의 인간

글쓰기(문서 제작) 현재와 미래

현재


미래


문서제작 → 글쓰기 기본기

(행정) 글쓰기 진화

문서화 프로그래밍



graph LR

    subgraph "소프트웨어"
        direction LR
        sourcecode[소스코드] --> package1[패키지]
        package1 --> product1["제품(S/W)"]
        product1 --> distribute1[배포]
        distribute1 --> service1["서비스<br>(앱)"]
    end
    
    subgraph "문서"
        direction LR
        text[텍스트] --> package2[패키지]
        package2 --> product2["제품(문서)"]
        product2 --> distribute2[배포]
        distribute2 --> service2["서비스<br>(출판)"]
    end

    style 소프트웨어 fill:#f5f5f5,stroke:#333,stroke-width:3px
    style 문서 fill:#b5b5b5,stroke:#111,stroke-width:3px

    style sourcecode fill:#ffeeee,stroke:#f66,stroke-width:2px
    style package1 fill:#eeffee,stroke:#6f6,stroke-width:2px
    style product1 fill:#eeeeff,stroke:#66f,stroke-width:2px
    style distribute1 fill:#eefeee,stroke:#6ff,stroke-width:2px
    style service1 fill:#ffeeee,stroke:#f66,stroke-width:2px

    style text fill:#ffeeee,stroke:#f66,stroke-width:2px
    style package2 fill:#eeffee,stroke:#6f6,stroke-width:2px
    style product2 fill:#eeeeff,stroke:#66f,stroke-width:2px
    style distribute2 fill:#eefeee,stroke:#6ff,stroke-width:2px
    style service2 fill:#ffeeee,stroke:#f66,stroke-width:2px

참고문헌

Cummings, M. M. (2014). Man versus machine or man+ machine? IEEE Intelligent Systems, 29(5), 62–69.
이광춘. (2019). 데이터 사이언스 운영체제 - tidyverse. 한국통계학회 소식지, 10월호, 20–24.
이광춘. (2020). 디지털 뉴딜, 지역균형 문제 해결과 지역균형 발전방안. 지방자치이슈와 포럼, 33, 88–101.