chatGPT

챗GPT 최신 동향

이광춘/신종화

비영리법인 한국 R 사용자회

2023년 5월 18일

목차

  1. 들어가며

  2. 컴퓨터 기본지식과 역사

  3. 체험 삶의 현장

  4. 챗GPT 시대 오피스 전쟁

  5. 챗GPT 사용자 : Text-to-X

  6. 챗GPT 개발방법론 : DT, Agile, DevOps

  7. 챗GPT 개발자 : 프롬프트 디자인/엔지니어링

  8. chatGPT와 LLM

  9. chatGPT 한계와 새시대(?)

  10. 사례: 챗GPT와 오정보

  11. 질의응답

강사소개 & 강의 개요

AI 아바타

주요경력 및 학력

  • (현) 비영리법인 한국 R 사용자회: 기술 이사

  • (현) 국가교육위원회 전문위원: 과학/기술 분과

  • (전) TCS: GS 칼텍스 디지털 아카데미 강사

  • (전) 삼정 KPMG: Lighthouse AI 기술총괄

  • (전) 웹젠: 데이터 과학자 TD

  • (전) 현대자동차: 차량용 반도체 개발구매




  • KAIST, CMU, 연세대 응용통계 및 컴퓨터 과학 전공

  • RStudio Instructor - Tidyverse

  • Seoul R Meetup Organizer

강의상세

  • 날짜 : 2023. 5. 18.(목) 19:00~21:00
  • 장소 : 교보타워 노블리에홀 또는 다목적홀
  • 대상 : 교보 비즈니스 파트와 테크닉 파트 실무자
  • 내용 : chatGPT 활용(비즈니스 - 테크닉 사이드)

서울 R 미트업

참여와 연대

  • 서울R미트업 meetup.com: link
    • 23년 4월 서울 R 미트업: link
    • 23년 5월 서울 R 미트업: link
    • 23년 6월 서울 R 미트업: link
    • 23년 7월 서울 R 미트업: 준비중
  • 세계 R 미트업 현황 (Global R Meetup Dashboard): link
  • 한국 R 사용자회 (Korea R User Group): link
  • 한국 R 컨퍼런스 (Korea R Conference): link
  • 유튜브 채널 (Youtube Channel): link
  • 페이스북 그룹 (Facebook Group): link

기본기와 역사

컴퓨터 하드웨어

컴퓨터 소프트웨어 (Meeker, 2017)

오픈소스 소프트웨어

라이선스 문제

라이선스 호환과 선택

콘텐츠와 데이터

데이터 라이선스

graph TD
  A["Data Licenses"] --> B["Open Data Licenses"]
  B --> C["Creative Commons Zero<br> (CC0)"]
  B --> D["Open Data Commons<br> Open Database License (ODbL)"]
  A --> E["Proprietary Data Licenses"]
  A --> F["Public Domain Data"]  

콘텐츠 라이선스

graph TD;
    A["Content Licenses"] --> B[Public domain]
    A --> C[Creative Commons licenses]
    A --> D[All rights reserved]
    C --> E[CC0]
    C --> F[Attribution]
    C --> G[Non-commercial]
    C --> H[Share-alike]
    C --> I[Custom]
    D --> J[No use without permission]
    D --> K[No copying without permission]
    D --> L[No distribution without permission]  

유닉스 vs 리눅스

연도별 추세

역사
  • 1969년: 켄 톰슨, 데니스 리치, 루그 도나우와 같은 AT&T 벨 연구소의 연구원들에 의해 유닉스 운영 체제의 초기 버전이 개발되었다. 이들은 이전에 실패한 Multics 프로젝트에서 배운 경험을 바탕으로 새로운 운영 체제를 설계하다.
  • 1970년대 초: 유닉스는 C 언어로 재작성되었다. 이는 운영 체제를 더욱 쉽게 이식할 수 있게 만들었으며, 이것이 유닉스가 다양한 하드웨어에서 실행될 수 있게 된 중요한 이유 중 하나다. 유닉스는 대학과 연구 기관으로 확산되었다.
  • 1970년대 후반 ~ 1980년대: 유닉스의 확산은 이 시기에 가속화되었다. AT&T는 유닉스를 상업적으로 판매하기 시작했고, 다른 기업들이 자체 유닉스 버전을 개발하기 시작했다. 이로 인해 BSD, SunOS, HP-UX 등 다양한 유닉스 변형이 생겨났고, 리처드 스톨만이 자유 S/W 운동을 시작하고 GNU 프로젝트를 개시하여, 리눅스와 결합하여 GNU/Linux를 만들게 된다.
  • 1990년대 ~ 현재: 1990년대에 들어서며 유닉스 계열의 운영 체제가 더욱 다양해졌다. BSD 계열의 운영 체제와 리눅스가 각광받았다. 리눅스는 핀란드의 리누스 토르발스에 의해 개발되었고, GNU 프로젝트의 여러 컴포넌트와 결합되어 오늘날 가장 널리 사용되는 유닉스 계열의 운영 체제 중 하나가 되었다.
  • 1990년대 ~ 현재 (계속): 퓨터, 임베디드 시스템, 스마트폰 등 매우 다양한 시스템에서 사용되고 있습니다. 특히, 유닉스 기반의 리눅스는 오픈 소스 운영 체제로서 세계의 많은 서버와 슈퍼 컴퓨터에서 사용되고 있으며, Android라는 가장 널리 사용되는 스마트폰 운영 체제의 핵심 부분도 되었다.
  • 2000년대 ~ 현재: MacOS 또한 BSD 유닉스를 기반으로 하여 개발된 유닉스 계열의 운영 체제다. 이를 통해 유닉스는 데스크톱 시스템에서도 널리 사용되고 있다.

R vs S-Plus

S/S-Plus
  • 1976: S 프로그래밍 언어는 당시 범용 언어로는 잘 지원되지 않았던 데이터 분석을 위해 특별히 고안된 언어로, 벨 연구소의 존 챔버스와 그의 동료들에 의해 만들어졌다. S는 데이터프레임을 처리하는 능력과 함수를 일급 객체로 사용할 수 있다는 점에서 독보적이었다.

  • 1988년: 통계 과학 회사에서 S-PLUS라는 상용 버전의 S 언어를 출시했다. 이 버전에는 그래픽 사용자 인터페이스와 향상된 데이터 처리 기능 등 원래 S 언어에 없던 새로운 기능이 추가되었다.

  • 1993년: 회사가 MathSoft에 매각되었고, S-PLUS는 계속 개발되어 상업적으로 판매되었습니다.

R 언어
  • 1993: R은 뉴질랜드 오클랜드 대학교의 로스 이하카와 로버트 젠틀맨이 만들었다. R은 S 언어의 오픈 소스 구현으로 설계되었지만 빠르게 독자적인 정체성을 발전시켰다. R은 개발자의 이니셜을 따서 ’R’로 명명되었다.

  • 1995: R이 공개적으로 사용 가능해졌고, 오픈 소스였기 때문에 기능을 확장하기 위해 패키지를 기여하는 개발자 커뮤니티가 빠르게 모였다.

  • 1997년: R의 추가 개발을 감독하기 위해 R 개발 핵심 팀이 구성되었다. 이를 통해 R은 빠르게 진화하는 통계 컴퓨팅 분야에서 최신 상태를 유지하고 관련성을 유지할 수 있었다.

  • 2000년대와 그 이후: R의 인기는 지난 20년 동안 빠르게 성장했다. 포괄적인 통계 및 그래픽 기법과 오픈 소스 특성으로 인해 학계, 연구계는 물론 산업계에서도 인기가 높아졌다. 또한 패키지를 제공하는 방대한 커뮤니티의 도움을 받아 생물정보학, 머신러닝 등 다양한 분야로 기능을 확장하고 있다.

삶의 현장
사용자 / 개발자

백만~1억 사용자

백만, 5천만, 1억 가입자를 가질 때까지 걸린 소요시간

AI를 바라보는 관점

3 대장 + \(\alpha\)

체험 삶의 현장




  • 신규 코드의 40%가 Copilot으로 작성
  • 75%의 개발자가 업무에 더 큰 성취감을 느꼈습니다.
  • 87%의 개발자가 정신적 노력을 절약하는 데 도움이 되었다고 답했습니다.



시장 와해 사례: 서점

공상과학 및 판타지 잡지 클라크스월드(Clarkesworld)는 AI가 생성한 소설라는 비난을 받은 후 신규 공상과학소설이 급증한 것이 AI 기계로 작성된 원인을 큰 것으로 파악하고 2월 20일부터 공식적으로 투고를 중단했다.

2023-02-15 기준

2023-02-20 기준

Neil Clark (2023-02-15), “A Concerning Trend”, CLARKESWORLD MAGAZINE

시장 와해 사례: 병원


일본과 미국의 국제 연구팀에 따르면 미국에 본사를 둔 OpenAI가 개발한 인공지능 모델의 최신 버전이 일본의 의사 국가시험에 합격할 수 있는 능력을 입증했다고 합니다.

그러나 AI는 인간 수험생의 평균 점수보다 낮은 점수를 받았고 환자의 안락사를 유도하는 옵션을 선택하는 등 일부 부적절한 답변을 제공했습니다.

워싱턴 대학의 자연어 처리 전문 연구원 정고 카사이(Jungo Kasai)를 포함한 연구팀은 2018년부터 2022년까지 5년간 OpenAI의 대화형 AI 시스템인 ChatGPT와 GPT-4를 사용하여 국가 의사 자격시험을 치렀습니다.

ChatGPT는 모든 시험에서 불합격했습니다. 하지만 최신 시스템인 GPT-4는 모든 시험에서 합격점을 넘겼습니다.

시장 와해 사례: 사교육

ChatGPT가 비즈니스를 죽이고 있다고 회사가 말한 후 Chegg 주가는 40 % 이상 하락했다.

Chegg의 주가는 온라인 교육 회사가 ChatGPT가 성장을 저해하고 있다고 밝힌 후 폭락했습니다.

“올해 상반기에는 ChatGPT가 신규 계정 성장에 눈에 띄는 영향을 미치지 않았고 신규 가입에 대한 기대치를 충족하고 있었습니다.”라고 월요일 저녁 실적 발표에서 댄 로젠스웨이그 CEO는 말했습니다. “하지만 3월부터 ChatGPT에 대한 학생들의 관심이 크게 급증했습니다. 이제 신규 고객 성장률에 영향을 미치고 있다고 생각합니다.”

Chegg, Inc.는 캘리포니아주 산타클라라에 본사를 둔 미국 교육 기술 회사로 숙제 도움, 디지털 및 실제 교과서 대여, 교과서, 온라인 튜터링 및 기타 학생 서비스를 제공.

시장 와해 사례: 미디어 광고 그룹

OpenAI와 펜실베이나 대학교

인공 지능이 개방되고 제너레이티브 AI를 제공하는 플랫폼을 통해 대중화됨에 따라 전체 직업의 최소 80%에서 업무가 변화할 것으로 예측된다. 대학 교육이 필요한 직업이 가장 큰 영향을 받을 것이며, 많은 경우 사람들이 수행하는 업무의 절반 이상이 AI의 영향을 받을 수 있다. 중요한 점은 영향을 받는 직업은 대체되는 것이 아니라 생성형 AI에 의해 크게 영향을 받거나 증강될 것이라는 점이다. (Eloundou 기타, 2023)

  • 통역사 및 번역가
  • 설문 조사 연구원
  • 시인, 작사가 및 창작 작가
  • 동물 과학자
  • 홍보 전문가
  • 수학자 / 세무사 / 금융 정량 분석가
  • 웹 및 디지털 인터페이스 디자이너

설문조사와 광고기업

중국 최대 미디어 광고 그룹이 카피라이터와 디자이너 등에 대한 아웃소싱(외주)을 무기한 중단하고 챗GPT 같은 생성형 인공지능(AI) 기구로 대체를 선언했다. 14일 홍콩 사우스차이나모닝포스트(SCMP)에 따르면, 광고회사 블루포커스는 내부 이메일을 통해 “생성형 AI를 전적으로 수용하기 위해 카피라이터, 디자이너, 단기 계약직 등 특정 분야의 아웃소싱 비용을 즉시 절감할 것”이라고 밝혔다.

시장 와해 사례: 에너지 기업


전 영국 지도자 보리스 존슨과 함께한 옥토퍼스 에너지 CEO 그렉 잭슨(Greg Jackson)
AI가 에너지 회사에서 250명의 업무를 수행하고 숙련된 직원보다 고객을 더 잘 만족시키고 있다.

영국에 본사를 둔 가정용 에너지 공급업체인 옥토퍼스 에너지의 CEO는 인공지능이 회사 직원 250명의 업무를 대신하고 있다고 말했다.

런던 타임즈에 기고한 글에서 Greg Jackson은 회사가 몇 달 동안 AI를 실험해 왔다고 말했다. 그는 이 기술이 회사 시스템에 통합되어 2월부터 직원들이 일부 고객 이메일에 답장을 보내도록 허용하기 시작했다고 말했다.

현재 AI는 고객 이메일의 3분의 1 이상에 답장하고 있으며, 이는 약 250명의 직원이 처리하는 업무라고 CEO는 말했다.

“AI가 작성한 이메일의 고객 만족도는 80%로, 숙련되고 훈련된 사람이 작성한 65%보다 훨씬 높았다.”

시장 와해 사례: Stackoverflow


개발자들은 점점 더 많은 조언을 Stackoverflow 게시판이 아닌 AI 챗봇과 GitHub CoPilot에서 얻고 있다.
  • 스택 오버플로의 트래픽은 2022년 1월 이후 매월 평균 6%씩 감소하고 있으며, 3월에는 13.9% 감소했다.
  • ChatGPT는 11월 말에 출시되어 전년 대비 실적은 없지만, 웹사이트는 그 짧은 시간 동안 전 세계 트래픽에서 Microsoft의 Bing 검색 엔진보다 더 많은 트래픽을 기록하며 세계에서 가장 인기 있는 디지털 자산 중 하나로 자리 잡았다. 3월에는 16억 건, 4월 상반기에는 9억 2,070만 건이 방문했다.
  • GitHub 웹사이트도 3월에 전년 대비 26.4% 증가한 5억 2,400만 건의 트래픽을 기록하는 등 강력한 성장세를 보이고 있는데, 일반적으로 Visual Studio Code와 같은 코드 편집기 내에서 이루어지는 CoPilot의 모든 사용량이 반영되어 있지는 않지만, 서비스 구독을 위해 웹사이트를 방문하는 사람들도 포함된다.
  • 2월부터 3월까지 GitHub CoPilot 무료 평가판 가입 페이지 방문 수는 3배 이상 증가하여 80만 건을 돌파했다.

챗GPT 인터페이스
오피스 전쟁

구글 검색의 종말(?)

글쓰기 역사


오피스 전쟁

항목 MS 오피스 1 구글 오피스 2 리브레 오피스 3 한컴 오피스 4
문서 작성 및 편집 워드, 엑셀, 파워포인트 등의 데스크톱 및 웹 앱 제공 구글 문서, 스프레드시트, 프레젠테이션 등의 웹 앱 제공 라이터, 캘크, 임프레스 등의 데스크톱 앱 제공 한글, 한셀, 한쇼 등의 데스크톱 및 모바일 앱 제공
협업 및 공유 원드라이브를 통해 문서를 클라우드에 저장하고 공유 가능. 여러 사람이 동시에 문서를 수정할 수 있으나 실시간으로 보기 어려움 구글 드라이브를 통해 문서를 클라우드에 저장하고 공유 가능. 여러 사람이 동시에 문서를 수정하고 실시간으로 확인 가능 드롭박스나 구글 드라이브와 연동하여 문서를 클라우드에 저장하고 공유 가능. 여러 사람이 동시에 문서를 수정할 수 있으나 실시간으로 보기 어려움 넷프리즘을 통해 문서를 클라우드에 저장하고 공유 가능. 여러 사람이 동시에 문서를 수정할 수 있으나 실시간으로 보기 어려움
이메일 및 채팅 Outlook을 통해 비즈니스 메일 제공. Teams을 통해 채팅 및 화상 회의 가능 Gmail을 통해 비즈니스 메일 제공. Chat과 Meet을 통해 채팅 및 화상 회의 가능 이메일 및 채팅 기능 없음 이메일 및 채팅 기능 없음
가격 1인당 월 5~20달러 다양한 요금제 제공. 데스크톱 앱 사용 가능한 요금제는 12.5달러부터 시작 1인당 월 6~18달러까지 다양한 요금제 제공 완전 무료 개인용은 무료로 사용 가능하며 업무용은 별도로 견적 요청 필요

오피스 전쟁: 패러다임 충돌

챗GPT 시대 사무실

챗GPT가 이룬 대통합

챗GPT 사용자
Text-to-X

openAI 마이크로소프트 3 대장 + \(\alpha\)

chatGPT 3대장

chatGPT 3대장 + \(\alpha\) 추론

디오판토스 묘비

신의 축복으로 태어난 그는 인생의 \(\frac{1}{6}\)을 소년으로 보냈다. 그리고 다시 인생의 \(\frac{1}{12}\) 이 지난 뒤에는 얼굴에 수염이 자라기 시작했다. 다시 \(\frac{1}{7}\)이 지난 뒤 그는 아름다운 여인을 맞이하여 화촉을 밝혔으며, 결혼한 지 5년 만에 귀한 아들을 얻었다. 아! 그러나 그의 가엾은 아들은 아버지의 반 밖에 살지 못했다. 아들을 먼저 보내고 깊은 슬픔에 빠진 그는 그 뒤 4년간 정수론에 몰입하여 스스로를 달래다가 일생을 마쳤다. [^1]

디오판토스가 정확히 언제 태어나고 언제 죽었는지는 명확하지 않지만, 그가 죽었을 때의 나이는 정확히 알 수 있다. 이를 방정식을 통해 풀어보자. 수식을 \(x\)에 대해 정리해서 풀면 84가 나온다.

\[\frac {x} {6} + \frac {x} {12} + \frac {x} {7} + 5 + \frac {x} {2} + 4 = x\]

from sympy import *
x = Symbol('x')
Diophantus_puzzle = x/6 + x/12 + x/7 + 5 + x/2 + 4 - x
solve(Diophantus_puzzle, x, dict = True)
[{x: 84}]

AutoGPT: Text-to-Task


데이터 분석: Text-to-Analytics

Pandas AI는 널리 사용되는 데이터 분석 및 조작 도구인 Pandas에 생성 인공 지능 기능을 추가한 Python 라이브러리다. Pandas AI는 판다스와 함께 사용하도록 설계되었으며, 판다스를 대체할 수 없다.



챗GPT 개발방법론
DT, Agile, DevOps

디자인 씽킹

graph TD
style A fill:#F5A623,stroke:#F5A623,stroke-width:2px;
style B fill:#EFEFEF,stroke:#000,stroke-width:2px;
style C fill:#EFEFEF,stroke:#000,stroke-width:2px;
style D fill:#EFEFEF,stroke:#000,stroke-width:2px;
style E fill:#EFEFEF,stroke:#000,stroke-width:2px;
style F fill:#EFEFEF,stroke:#000,stroke-width:2px;

A[공감하기] --> B[문제 정의]
B[문제 정의] --> C[해결방법 찾기]
C[해결방법 찾기] --> D[시제품 제작]
D[시제품 제작] --> E[시험평가]
E[시험평가] --> F[반복하기]
F[반복하기] --> B[문제정의]

classDef mainNode fill:#F5A623,stroke:#EFEFEF,stroke-width:2px;
class A mainNode;

애자일 개발

graph TD
style A fill:#F5A623,stroke:#F5A623,stroke-width:1px;
style B fill:#EFEFEF,stroke:#000,stroke-width:1px;
style C fill:#EFEFEF,stroke:#000,stroke-width:1px;
style D fill:#EFEFEF,stroke:#000,stroke-width:1px;
style E fill:#EFEFEF,stroke:#000,stroke-width:1px;


A[Product Backlog] -->|Sprint Planning| B[Sprint Backlog]
B[Sprint Backlog] -->|Daily Scrum| C[Development]
C[Development] -->|Sprint Review| D[Product Increment]
D[Product Increment] -->|Sprint Retrospective| E[Process Improvement]
E[Process Improvement] -->|Backlog Refinement| A[Product Backlog]

classDef mainNode fill:#4DB6AC,stroke:#000,stroke-width:1px;
class A mainNode;
classDef subNode fill:#FFF,stroke:#000,stroke-width:1px;
class B,C,D,E subNode;
classDef arrow stroke:#000,stroke-width:1px;
class B,C,D,E arrow;

데브옵스(DevOps)

graph TD
style A fill:#F5A623,stroke:#F5A623,stroke-width:1px;
style B fill:#EFEFEF,stroke:#000,stroke-width:1px;
style C fill:#EFEFEF,stroke:#000,stroke-width:1px;
style D fill:#EFEFEF,stroke:#000,stroke-width:1px;
style E fill:#EFEFEF,stroke:#000,stroke-width:1px;
style F fill:#EFEFEF,stroke:#000,stroke-width:1px;

A["계획 (Plan)"] -->|Code| B[Code]
B[Code] -->|Build| C[Build]
C[Build] -->|Test| D[Test]
D[Test] -->|Deploy| E[Deploy]
E[Deploy] -->|Operate| F["운영 (Operate)"]
F["운영 (Operate)"] -->|Monitor| A["계획 (Plan)"]

classDef mainNode fill:#4DB6AC,stroke:#000,stroke-width:1px;
class A mainNode;
classDef subNode fill:#FFF,stroke:#000,stroke-width:1px;
class B,C,D,E,F subNode;
classDef arrow stroke:#000,stroke-width:1px;
class B,C,D,E,F arrow;

DT → Agile → DevOps


챗GPT 개발자
프롬프트 디자인/엔지니어링

소프트웨어 3.0

Andrej Karpathy

  • 소프트웨어 1.0: 코드 작성을 통한 프로그래밍
  • 소프트웨어 2.0: 데이터셋 큐레이팅을 통한 프로그래밍
  • 소프트웨어 3.0: 프롬프트 엔지니어링을 통한 프로그래밍 (LLM에 입력으로 제공, GPT 스타일)

프롬프트 공학




프롬프트 공학 사례

개발자를 위한 프롬프트 공학

배경 - 프롬프트 엔지니어링


프롬프트 엔지니어링 (Context Stuffing)

보안사고

삼성전자

삼성전자 DS 부문 임직원 A씨는 반도체 설비 계측 데이터베이스(DB) 다운로드 프로그램의 소스 코드를 실행 중 오류를 확인했다. 문제가 된 소스 코드 전부를 복사해 챗GPT에 입력, 해결 방법을 문의했다. 삼성전자 설비 계측과 관련한 소스 코드가 오픈AI 학습 데이터로 입력된 셈이다.

임직원 B씨는 수율·불량 설비 파악을 위해 작성한 프로그램 코드를 챗GPT에 입력하는 사고를 냈다. 관련 소스 전체를 챗GPT에 입력하고 코드 최적화를 요청했다. 임직원 C씨는 스마트폰으로 녹음한 회의 내용을 네이버 클로바 애플리케이션(앱)을 통해 문서 파일로 변환한 뒤 챗GPT에 입력했다. 회의록 작성 요청이 목적이다.

이탈리아

로이터 통신 등에 따르면 이탈리아 데이터 보호청은 “챗GPT가 이탈리아의 개인정보 보호 기준과 규정을 충족할 때까지 서비스 접속을 일시적으로 차단할 것”이라고 밝혔다.

접속 차단 이유는 개인정보 침해 우려 때문이다. 이탈리아 당국은 챗GPT가 알고리즘 학습을 이유로, 개인정보를 대량으로 수집하고 저장하는 행위를 정당화할 법적 근거가 없다고 지적했다. 보호청은 챗GPT 개발사 오픈AI가 20일 이내에 해결책을 내놓지 않으면 전 세계 매출액의 최대 4%에 달하는 벌금을 물게 될 것이라고 경고하기도 했다.

보안 vs 효율 을 높고 많은 공공기관을 비롯한 기업들이 고민을 하고 있다. 거대언어모형(LLM)에 기반하여 모든 것을 자체 개발하면 상관이 없으나 현실적으로 GPT-3/3.5/4 모형을 갖춘 조직이 전무하지만, 이미 대다수의 사람이 오픈AI 챗GPT를 맛보았기 때문에 생산성 향상을 그냥 두고 넘어가기도 어려운 상황이다. 이런 점에서 챗GPT 제한적 사용이 현재시점(’23년 3월) 최선으로 보이며 점차 오픈소스 거대언어모형(LLM)과 전략적 제휴를 통한 챗GPT 사용이 중장기적 추진방향으로 자리 잡고 있다.

AI 앱 개발

개발방법론 진화

graph TD
    A[요구사항] --> B[아키텍쳐/디자인]
    B --> C[구현]
    C --> D[검증/테스트]
    D --> E[유지보수]

그림 1: ?(caption)

LangChain

chatGPT → 챗GPT → LLM

챗GPT 란?

거대 언어모형(LLM)

현재 나의 모습

LLM 진화

공개형 GPT vs 폐쇄형 GPT

LLM

토큰 크기 (Context Length)

회사명 LLM 모형 Context 길이 (토큰 크기) 텍스트 크기
OpenAI GPT-1 512 1 쪽, 4 단락, 36줄
구글 PaLM 512
OpenAI GPT-2 1024 2 쪽, 8 단락, 68줄
OpenAI GPT-3 2048 1500 영단어, 4쪽, 139줄
OpenAI GPT-4 2048
Meta Llama 2048
OpenAI GPT-3.5-Turbo 4096 9쪽, 369줄
구글 PaLM2 8192 13쪽, 단편 소설, 기술 문서
OpenAI GPT-4 8K 8192
OpenAI GPT-4 32K 32000 48쪽, 대학학위논문
MosaicML MPT-7B-StoryWriter 65000 98쪽
Anthropic Claude 100000 150쪽, 소설책 반권

HuggingGPT

챗GPT 한계와 새시대(?)

한계(?) 1

챗GPT시대 공부(?)

인터페이스 (Interface)




flowchart TB
    
    subgraph A["사용자 인터페이스"]
    direction LR
        CLI["CLI<br>Command Line Interface<br> 1950~"]     --> GUI["GUI <br> Graphic User Inferface<br> 1970~"]
        GUI               --> WI["Web Interface <br> 1994~"]
        WI --> MI["Mobile Interface <br> 2007~"]
        MI --> NUI["LUI <br> Language User Interface <br> 2023~"]

    end


class A nodeStyle

classDef nodeStyle fill:#fcfbfa,stroke:#000000,stroke-width:0.7px,font-weight:bold,font-size:14px;



챗GPT NUI

  • 챗GPT (ChatGPT)

  • OpenAI Playground

Command Palette 역사

  • 60년대로 거슬러 올라가는 명령 팔레트는 최근 기술 업계에서 다시 인기를 얻고 있으며 사용자 중심 소프트웨어의 필수적인 부분으로 간주됨.
  • CLI는 개인용 컴퓨터가 대중화되기 전 초기 컴퓨팅을 지배했으며 사용자가 시스템을 작동하기 위해 특정 명령을 알아야 했다. 1984년 Apple의 매킨토시와 함께 도입된 그래픽 사용자 인터페이스(GUI)는 중요한 혁신으로 여겨졌지만, 소프트웨어의 복잡성이 증가함에 따라 GUI만으로는 탐색하기가 점점 더 어려워졌다.
  • 사용자가 항목 이름의 짧은 약어입력하여 앱과 파일을 검색할 수 있는 런처가 점점 더 보편화 되었다. 예를 들어 2001년에 출시된 Mac OS X용 LaunchBar, Quicksilver, 2005년에 출시된 Apple의 시스템 전체 Spotlight가 있다. 검색과 CLI의 결합은 Command Palette의 탄생으로 이어졌다.
  • 오늘날 우리가 알고 있는 현대식 명령 팔레트는 2011년 Sublime Text 2 베타 Joe Skinner가 처음 소개. 명령줄 사용에 익숙한 프로그래머들이 단축키를 모두 외울 필요 없이 더 빠르게 작업할 수 있어 중요한 발전이 됨.

챗GPT와 오정보

챗GPT API 가격

OpenAI 임베딩

Models Use Cases
Text similarity: Captures semantic similarity between pieces of text. text-similarity-{ada, babbage, curie, davinci}-001 Clustering, regression, anomaly detection, visualization
Text search: Semantic information retrieval over documents. text-search-{ada, babbage, curie, davinci}-{query, doc}-001 Search, context relevance, information retrieval
Code search: Find relevant code with a query in natural language. code-search-{ada, babbage}-{code, text}-001 Code search and relevance

(코사인) 유사도


두 임베딩 벡터 \(\mathbf{u}\)\(\mathbf{v}\) 는 다음 공식을 사용하여 두 벡터간의 유사도를 구할 수 있다.



\[ \begin{equation*} \text{코사인 유사도}(\mathbf{u},\mathbf{v}) = \frac{\mathbf{u} \cdot \mathbf{v}}{\|\mathbf{u}\| \|\mathbf{v}\|} = \frac{\sum_{i=1}^n u_i v_i}{\sqrt{\sum_{i=1}^n u_i^2} \sqrt{\sum_{i=1}^n v_i^2}} \end{equation*} \]

NLI 자사 검색 엔진 (구글 X)


사례: 챗GPT와 오정보


flowchart LR
    
    subgraph SeoulR["서울 R 미트업: 챗GPT와 오정보"]
    direction LR
        Youtube["챗GPT 오정보"] --> STT["STT: Whisper"]
        Youtube                 --> Embedding["임베딩: OpenAI"]
        Youtube                 --> Summary["요약: Langchain"]
        Youtube                 --> Pinecone["벡터 DB: Pinecone"]
        Youtube                 --> ETC["검색: 코사인 유사도"]
    end

    STT -.-> Moat["We Have No Moat,<br> And Neither Does OpenAI"] 
    Embedding -.->  Moat
    Summary -.-> Moat 
    Pinecone -.->  Moat
    ETC -.->  Moat

click SeoulR href "https://r2bit.com/seoul-r/"

click Youtube href "https://youtu.be/3t9nPopr0QA"
click STT href "https://r2bit.com/chatGPT/whisper.html"
click Summary href "https://r2bit.com/chatGPT/news_release.html"
click Embedding href "https://r2bit.com/chatGPT/misinfo_embedding.html"

click Moat href "https://www.semianalysis.com/p/google-we-have-no-moat-and-neither"


class A nodeStyle
class AB,AC,AD,AE theoryStyle
class B,C,D,E practiceStyle
class F taskStyle

classDef nodeStyle fill:#93c47d,stroke:#000000,stroke-width:0.7px,font-weight:bold,font-size:14px;
classDef theoryStyle fill:#f59542,stroke:#000000,stroke-width:0.7px,font-weight:bold,font-size:14px;
classDef practiceStyle fill:#4287f5,stroke:#000000,stroke-width:0.7px,font-weight:bold,font-size:14px;
classDef taskStyle fill:#42f548,stroke:#000000,stroke-width:0.7px,font-weight:bold,font-size:12px;

“why misinformation is dangerous?”

186 And we know that, you know, our surgeon general and other major leaders around the world have recognized the ways in which misinformation can affect our health, and they can affect the health of democracies

130 And bullshit is a part of the misinformation story

16   We've studied misinformation during the pandemic and during elections and all sorts of other topics

R 컨퍼런스 (2021)

참고문헌

Charles Frye, J. T., Sergey Karayev. (2023). LLM Bootcamp 2023. https://fullstackdeeplearning.com/llm-bootcamp/spring-2023/augmented-language-models/
"ChatGPT활용연구TFT. (2023). [업무활용편] ChatGPT 활용사례 및 활용 팁. 서울디지털재단. https://sdf.seoul.kr/research-report/2003
ChatGPT활용연구TFT. (2023). [일상생활·창작활동·교육분야편] ChatGPT 활용사례 및 팁. 서울디지털재단. https://sdf.seoul.kr/research-report/2059
Eloundou, T., Manning, S., Mishkin, P., & Rock, D. (2023). GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models. https://arxiv.org/abs/2303.10130
Meeker, H. (2017). Open Source For Business: A Practical Guide to Open Source Software Licensing. Createspace Independent Publishing Platform. https://books.google.co.kr/books?id=aKHGswEACAAJ
OpenAI. (2023). GPT-4 Technical Report. https://arxiv.org/abs/2303.08774
Reimers, N. (2022). OpenAI GPT-3 Text Embeddings - Really a new state-of-the-art in dense text embeddings? Medium.com. https://medium.com/@nils_reimers/openai-gpt-3-text-embeddings-really-a-new-state-of-the-art-in-dense-text-embeddings-6571fe3ec9d9
Shen, Y., Song, K., Tan, X., Li, D., Lu, W., & Zhuang, Y. (2023). HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace. https://arxiv.org/abs/2303.17580
Skrabut, S. (2023). 80 Ways to Use ChatGPT in the Classroom: Using AI to Enhance. Stan Skrabut.
Song, A. K. (2019). The Digital Entrepreneurial Ecosystem—a critique and reconfiguration. Small Business Economics, 53(3), 569–590.
Yang, J., Jin, H., Tang, R., Han, X., Feng, Q., Jiang, H., Yin, B., & Hu, X. (2023). Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond. https://arxiv.org/abs/2304.13712
Zhao, W. X., Zhou, K., Li, J., Tang, T., Wang, X., Hou, Y., Min, Y., Zhang, B., Zhang, J., Dong, Z., Du, Y., Yang, C., Chen, Y., Chen, Z., Jiang, J., Ren, R., Li, Y., Tang, X., Liu, Z., … Wen, J.-R. (2023). A Survey of Large Language Models. https://arxiv.org/abs/2303.18223
김현진. (2021). 웹툰 이미지 제작공정 단계별 활용 가능한 스케치 관련 인공지능 기술. 한국정보과학회.
양정애. (2023). 챗GPT 이용 경험 및 인식 조사. 한국언론진흥재단. https://www.kpf.or.kr/front/board/boardContentsListPage.do?board_id=246