공개 패키지

외산 패키지에 의존하지 않고 R 개발자와 사용자의 작업 효율을 극대화하려는 목표 하에 다양한 분야별 핵심 패키지를 개발하고 있습니다. 데이터 과학 분야에서 CRAN에 등록된 dlookralookr 패키지를 비롯하여, 오픈 통계 패키지 bitStat, 텍스트 자연어처리 bitNLP, 공간 데이터 bitSpatial, 보고서 자동화 bitReport, 출판 bitPublish 패키지가 특화된 기능을 제공하고 있다. 또한, 최근에 인기를 얻고 있는 생성형 AI 챗GPT를 손쉽게 활용할 수 있도록 bitGPT 패키지도 출시하하여 지속적 기여를 하고 있습니다.

bitReport

휴먼 리소스 낭비를 없애는 보고서 자동화 도구

bitPublish

XeLaTeX 기반으로 한글 책을 PDF 파일로 조판

bitGPT

챗GPT를 보다 쉽게 사용할 수 있는, 그리고 한국어를 지원하는 bitGPT

bitNLP

텍스트 데이터를 탐색하고, 자연어 처리 및 형태소분석, 감성분석을 수행하는, 한글 텍스트 분석 도구모음

bitSpatial

공간정보 데이터를 지탱하는 기본 패키지

dlookr

데이터셋의 품질 진단, 탐색적 데이터 분석(EDA) 및 데이터의 변환을 지원하는 데이터분석 도구

alookr

이진 분류 모델 개발의 전체 프로세스를 지원하는 데이터분석 도구

bitStat

오픈 통계 패키지(BitStat)


오픈 통계 패키지

Data Literacy 역량 강화를 위해 컴퓨터를 처음 접하거나 데이터 작업이 처음인 대한민국 국민 누구나 쉽게 통계 패키지를 접할 수 있도록 하고 데이터 프로그래밍 역량도 수준별로 강화할 수 있도록 새로운 형태의 블록 통계 분석을 포함한 오픈 통계 패키지 개발을 목표로 합니다.

프로젝트 개요

코로나19로 인해 심화된 디지털 불평등디지털 전환(Digital Transformation)으로 인해 시민의 필수 역량이 된 Data Literacy 역량 강화와 통계 대중화를 위해 오픈 통계 패키지 - 빛스탯(BitStat) - 를 개발하게 되었습니다. 데이터 리터러시 역량은 결국 디지털 불평등과 맥이 닿아 있고 이후 교육불평등, 취업불평등, 소득불평등, 자산불평등으로 이어져 사회 양극화를 심화시키는 주범으로 지목되고 있다.

기대 효과

  • 기술적 측면
    • 기하급수적으로 증가하는 데이터를 분석하여 가치를 창출하는 데이터 경제가 급부상하고 있으나, 인력 육성이나 도구는 선형적 증가 상황을 타개할 수 있는 혁신적인 기술이 요구됨
    • 폭발적으로 늘어나는 데이터를 일반국민도 활용할 수 있도록 하는 공개SW 통계 패키지는 다분야에서도 활용 가능한 Auto-X 기술을 기반으로 통계분석 생산성과 품질을 큰 폭을 높일 수 있는 혁신적인 기술임
  • 경제적, 산업적 측면
    • ’22년 글로벌 빅데이터, 분석시장 규모는 전년 대비 27% 성장한 $2,740억 달러 규모 전망
      • IDC, “Revenue from big data and business analytics worldwide from 2015 to 2022”, 2021년 9월
    • 오픈 통계 패키지에 내장된 Auto-X 기술을 포함하여 공개SW로 개방하여 중소기업 및 데이터 기반 의사결정을 지원하고, 공개SW 활용 스타트업을 통한 신규 부가가치 창출
  • 사회적 측면
    • 지속적인 공공데이터 확대, 데이터3법 통과에 따라 데이터가 늘어나고 데이터 경제가 급속도로 커짐에 따라 데이터 리터러시(Data Literacy) 능력과 디지털 불평등의 양극화가 확대됨에 따라 오픈통계 패키지 SW를 공급하고 서비스로 제공함으로써 사회통합과 통계 대중화에 기여할 수 있음

BitStat 아키텍처

데이터 통계 분석의 대중화를 위해서는 통계 비전공자 및 일반인이 쉽게 사용할 수 있는 통계 패키지 소프트웨어 개발 취지에 맞춰 데이터를 입력하면 이를 인식하여 통계 분석 후 산출물을 자동 생성할 수 있는 오픈소스 기반의 클라우드 통계 패키지 소프트웨어.

BitStat 시연

BitStat 통계 패키지는 지속적으로 개발을 이어나가고 있으며 2021년 12월 기준 개발버전을 업그레이드하여 2022년 7월 대대적인 업그레이드가 예정되어 있다.

참고자료