graph TD A["Data Licenses"] --> B["Open Data Licenses"] B --> C["Creative Commons Zero<br> (CC0)"] B --> D["Open Data Commons<br> Open Database License (ODbL)"] A --> E["Proprietary Data Licenses"] A --> F["Public Domain Data"]
챗GPT 최신 동향
비영리법인 한국 R 사용자회
2023년 5월 18일
들어가며
컴퓨터 기본지식과 역사
체험 삶의 현장
챗GPT 시대 오피스 전쟁
챗GPT 사용자 : Text-to-X
챗GPT 개발방법론 : DT, Agile, DevOps
챗GPT 개발자 : 프롬프트 디자인/엔지니어링
chatGPT와 LLM
chatGPT 한계와 새시대(?)
사례: 챗GPT와 오정보
질의응답
주요경력 및 학력
(현) 비영리법인 한국 R 사용자회: 기술 이사
(현) 국가교육위원회 전문위원: 과학/기술 분과
(전) TCS: GS 칼텍스 디지털 아카데미 강사
(전) 삼정 KPMG: Lighthouse AI 기술총괄
(전) 웹젠: 데이터 과학자 TD
(전) 현대자동차: 차량용 반도체 개발구매
KAIST, CMU, 연세대 응용통계 및 컴퓨터 과학 전공
RStudio Instructor - Tidyverse
강의상세
graph TD A["Data Licenses"] --> B["Open Data Licenses"] B --> C["Creative Commons Zero<br> (CC0)"] B --> D["Open Data Commons<br> Open Database License (ODbL)"] A --> E["Proprietary Data Licenses"] A --> F["Public Domain Data"]
graph TD; A["Content Licenses"] --> B[Public domain] A --> C[Creative Commons licenses] A --> D[All rights reserved] C --> E[CC0] C --> F[Attribution] C --> G[Non-commercial] C --> H[Share-alike] C --> I[Custom] D --> J[No use without permission] D --> K[No copying without permission] D --> L[No distribution without permission]
1976: S 프로그래밍 언어는 당시 범용 언어로는 잘 지원되지 않았던 데이터 분석을 위해 특별히 고안된 언어로, 벨 연구소의 존 챔버스와 그의 동료들에 의해 만들어졌다. S는 데이터프레임을 처리하는 능력과 함수를 일급 객체로 사용할 수 있다는 점에서 독보적이었다.
1988년: 통계 과학 회사에서 S-PLUS라는 상용 버전의 S 언어를 출시했다. 이 버전에는 그래픽 사용자 인터페이스와 향상된 데이터 처리 기능 등 원래 S 언어에 없던 새로운 기능이 추가되었다.
1993년: 회사가 MathSoft에 매각되었고, S-PLUS는 계속 개발되어 상업적으로 판매되었습니다.
1993: R은 뉴질랜드 오클랜드 대학교의 로스 이하카와 로버트 젠틀맨이 만들었다. R은 S 언어의 오픈 소스 구현으로 설계되었지만 빠르게 독자적인 정체성을 발전시켰다. R은 개발자의 이니셜을 따서 ’R’로 명명되었다.
1995: R이 공개적으로 사용 가능해졌고, 오픈 소스였기 때문에 기능을 확장하기 위해 패키지를 기여하는 개발자 커뮤니티가 빠르게 모였다.
1997년: R의 추가 개발을 감독하기 위해 R 개발 핵심 팀이 구성되었다. 이를 통해 R은 빠르게 진화하는 통계 컴퓨팅 분야에서 최신 상태를 유지하고 관련성을 유지할 수 있었다.
2000년대와 그 이후: R의 인기는 지난 20년 동안 빠르게 성장했다. 포괄적인 통계 및 그래픽 기법과 오픈 소스 특성으로 인해 학계, 연구계는 물론 산업계에서도 인기가 높아졌다. 또한 패키지를 제공하는 방대한 커뮤니티의 도움을 받아 생물정보학, 머신러닝 등 다양한 분야로 기능을 확장하고 있다.
백만, 5천만, 1억 가입자를 가질 때까지 걸린 소요시간
공상과학 및 판타지 잡지 클라크스월드(Clarkesworld)는 AI가 생성한 소설라는 비난을 받은 후 신규 공상과학소설이 급증한 것이 AI 기계로 작성된 원인을 큰 것으로 파악하고 2월 20일부터 공식적으로 투고를 중단했다.
Neil Clark (2023-02-15), “A Concerning Trend”, CLARKESWORLD MAGAZINE
일본과 미국의 국제 연구팀에 따르면 미국에 본사를 둔 OpenAI가 개발한 인공지능 모델의 최신 버전이 일본의 의사 국가시험에 합격할 수 있는 능력을 입증했다고 합니다.
그러나 AI는 인간 수험생의 평균 점수보다 낮은 점수를 받았고 환자의 안락사를 유도하는 옵션을 선택하는 등 일부 부적절한 답변을 제공했습니다.
워싱턴 대학의 자연어 처리 전문 연구원 정고 카사이(Jungo Kasai)를 포함한 연구팀은 2018년부터 2022년까지 5년간 OpenAI의 대화형 AI 시스템인 ChatGPT와 GPT-4를 사용하여 국가 의사 자격시험을 치렀습니다.
ChatGPT는 모든 시험에서 불합격했습니다. 하지만 최신 시스템인 GPT-4는 모든 시험에서 합격점을 넘겼습니다.
Chegg의 주가는 온라인 교육 회사가 ChatGPT가 성장을 저해하고 있다고 밝힌 후 폭락했습니다.
“올해 상반기에는 ChatGPT가 신규 계정 성장에 눈에 띄는 영향을 미치지 않았고 신규 가입에 대한 기대치를 충족하고 있었습니다.”라고 월요일 저녁 실적 발표에서 댄 로젠스웨이그 CEO는 말했습니다. “하지만 3월부터 ChatGPT에 대한 학생들의 관심이 크게 급증했습니다. 이제 신규 고객 성장률에 영향을 미치고 있다고 생각합니다.”
Chegg, Inc.는 캘리포니아주 산타클라라에 본사를 둔 미국 교육 기술 회사로 숙제 도움, 디지털 및 실제 교과서 대여, 교과서, 온라인 튜터링 및 기타 학생 서비스를 제공.
인공 지능이 개방되고 제너레이티브 AI를 제공하는 플랫폼을 통해 대중화됨에 따라 전체 직업의 최소 80%에서 업무가 변화할 것으로 예측된다. 대학 교육이 필요한 직업이 가장 큰 영향을 받을 것이며, 많은 경우 사람들이 수행하는 업무의 절반 이상이 AI의 영향을 받을 수 있다. 중요한 점은 영향을 받는 직업은 대체되는 것이 아니라 생성형 AI에 의해 크게 영향을 받거나 증강될 것이라는 점이다. (Eloundou 기타, 2023)
중국 최대 미디어 광고 그룹이 카피라이터와 디자이너 등에 대한 아웃소싱(외주)을 무기한 중단하고 챗GPT 같은 생성형 인공지능(AI) 기구로 대체를 선언했다. 14일 홍콩 사우스차이나모닝포스트(SCMP)에 따르면, 광고회사 블루포커스는 내부 이메일을 통해 “생성형 AI를 전적으로 수용하기 위해 카피라이터, 디자이너, 단기 계약직 등 특정 분야의 아웃소싱 비용을 즉시 절감할 것”이라고 밝혔다.
영국에 본사를 둔 가정용 에너지 공급업체인 옥토퍼스 에너지의 CEO는 인공지능이 회사 직원 250명의 업무를 대신하고 있다고 말했다.
런던 타임즈에 기고한 글에서 Greg Jackson은 회사가 몇 달 동안 AI를 실험해 왔다고 말했다. 그는 이 기술이 회사 시스템에 통합되어 2월부터 직원들이 일부 고객 이메일에 답장을 보내도록 허용하기 시작했다고 말했다.
현재 AI는 고객 이메일의 3분의 1 이상에 답장하고 있으며, 이는 약 250명의 직원이 처리하는 업무라고 CEO는 말했다.
“AI가 작성한 이메일의 고객 만족도는 80%로, 숙련되고 훈련된 사람이 작성한 65%보다 훨씬 높았다.”
항목 | MS 오피스 1 | 구글 오피스 2 | 리브레 오피스 3 | 한컴 오피스 4 |
---|---|---|---|---|
문서 작성 및 편집 | 워드, 엑셀, 파워포인트 등의 데스크톱 및 웹 앱 제공 | 구글 문서, 스프레드시트, 프레젠테이션 등의 웹 앱 제공 | 라이터, 캘크, 임프레스 등의 데스크톱 앱 제공 | 한글, 한셀, 한쇼 등의 데스크톱 및 모바일 앱 제공 |
협업 및 공유 | 원드라이브를 통해 문서를 클라우드에 저장하고 공유 가능. 여러 사람이 동시에 문서를 수정할 수 있으나 실시간으로 보기 어려움 | 구글 드라이브를 통해 문서를 클라우드에 저장하고 공유 가능. 여러 사람이 동시에 문서를 수정하고 실시간으로 확인 가능 | 드롭박스나 구글 드라이브와 연동하여 문서를 클라우드에 저장하고 공유 가능. 여러 사람이 동시에 문서를 수정할 수 있으나 실시간으로 보기 어려움 | 넷프리즘을 통해 문서를 클라우드에 저장하고 공유 가능. 여러 사람이 동시에 문서를 수정할 수 있으나 실시간으로 보기 어려움 |
이메일 및 채팅 | Outlook을 통해 비즈니스 메일 제공. Teams을 통해 채팅 및 화상 회의 가능 | Gmail을 통해 비즈니스 메일 제공. Chat과 Meet을 통해 채팅 및 화상 회의 가능 | 이메일 및 채팅 기능 없음 | 이메일 및 채팅 기능 없음 |
가격 | 1인당 월 5~20달러 다양한 요금제 제공. 데스크톱 앱 사용 가능한 요금제는 12.5달러부터 시작 | 1인당 월 6~18달러까지 다양한 요금제 제공 | 완전 무료 | 개인용은 무료로 사용 가능하며 업무용은 별도로 견적 요청 필요 |
신의 축복으로 태어난 그는 인생의 \(\frac{1}{6}\)을 소년으로 보냈다. 그리고 다시 인생의 \(\frac{1}{12}\) 이 지난 뒤에는 얼굴에 수염이 자라기 시작했다. 다시 \(\frac{1}{7}\)이 지난 뒤 그는 아름다운 여인을 맞이하여 화촉을 밝혔으며, 결혼한 지 5년 만에 귀한 아들을 얻었다. 아! 그러나 그의 가엾은 아들은 아버지의 반 밖에 살지 못했다. 아들을 먼저 보내고 깊은 슬픔에 빠진 그는 그 뒤 4년간 정수론에 몰입하여 스스로를 달래다가 일생을 마쳤다. [^1]
디오판토스가 정확히 언제 태어나고 언제 죽었는지는 명확하지 않지만, 그가 죽었을 때의 나이는 정확히 알 수 있다. 이를 방정식을 통해 풀어보자. 수식을 \(x\)에 대해 정리해서 풀면 84가 나온다.
\[\frac {x} {6} + \frac {x} {12} + \frac {x} {7} + 5 + \frac {x} {2} + 4 = x\]
[{x: 84}]
graph TD style A fill:#F5A623,stroke:#F5A623,stroke-width:2px; style B fill:#EFEFEF,stroke:#000,stroke-width:2px; style C fill:#EFEFEF,stroke:#000,stroke-width:2px; style D fill:#EFEFEF,stroke:#000,stroke-width:2px; style E fill:#EFEFEF,stroke:#000,stroke-width:2px; style F fill:#EFEFEF,stroke:#000,stroke-width:2px; A[공감하기] --> B[문제 정의] B[문제 정의] --> C[해결방법 찾기] C[해결방법 찾기] --> D[시제품 제작] D[시제품 제작] --> E[시험평가] E[시험평가] --> F[반복하기] F[반복하기] --> B[문제정의] classDef mainNode fill:#F5A623,stroke:#EFEFEF,stroke-width:2px; class A mainNode;
graph TD style A fill:#F5A623,stroke:#F5A623,stroke-width:1px; style B fill:#EFEFEF,stroke:#000,stroke-width:1px; style C fill:#EFEFEF,stroke:#000,stroke-width:1px; style D fill:#EFEFEF,stroke:#000,stroke-width:1px; style E fill:#EFEFEF,stroke:#000,stroke-width:1px; A[Product Backlog] -->|Sprint Planning| B[Sprint Backlog] B[Sprint Backlog] -->|Daily Scrum| C[Development] C[Development] -->|Sprint Review| D[Product Increment] D[Product Increment] -->|Sprint Retrospective| E[Process Improvement] E[Process Improvement] -->|Backlog Refinement| A[Product Backlog] classDef mainNode fill:#4DB6AC,stroke:#000,stroke-width:1px; class A mainNode; classDef subNode fill:#FFF,stroke:#000,stroke-width:1px; class B,C,D,E subNode; classDef arrow stroke:#000,stroke-width:1px; class B,C,D,E arrow;
graph TD style A fill:#F5A623,stroke:#F5A623,stroke-width:1px; style B fill:#EFEFEF,stroke:#000,stroke-width:1px; style C fill:#EFEFEF,stroke:#000,stroke-width:1px; style D fill:#EFEFEF,stroke:#000,stroke-width:1px; style E fill:#EFEFEF,stroke:#000,stroke-width:1px; style F fill:#EFEFEF,stroke:#000,stroke-width:1px; A["계획 (Plan)"] -->|Code| B[Code] B[Code] -->|Build| C[Build] C[Build] -->|Test| D[Test] D[Test] -->|Deploy| E[Deploy] E[Deploy] -->|Operate| F["운영 (Operate)"] F["운영 (Operate)"] -->|Monitor| A["계획 (Plan)"] classDef mainNode fill:#4DB6AC,stroke:#000,stroke-width:1px; class A mainNode; classDef subNode fill:#FFF,stroke:#000,stroke-width:1px; class B,C,D,E,F subNode; classDef arrow stroke:#000,stroke-width:1px; class B,C,D,E,F arrow;
프롬프트 엔지니어링 (Context Stuffing)
삼성전자 DS 부문 임직원 A씨는 반도체 설비 계측 데이터베이스(DB) 다운로드 프로그램의 소스 코드를 실행 중 오류를 확인했다. 문제가 된 소스 코드 전부를 복사해 챗GPT에 입력, 해결 방법을 문의했다. 삼성전자 설비 계측과 관련한 소스 코드가 오픈AI 학습 데이터로 입력된 셈이다.
임직원 B씨는 수율·불량 설비 파악을 위해 작성한 프로그램 코드를 챗GPT에 입력하는 사고를 냈다. 관련 소스 전체를 챗GPT에 입력하고 코드 최적화를 요청했다. 임직원 C씨는 스마트폰으로 녹음한 회의 내용을 네이버 클로바 애플리케이션(앱)을 통해 문서 파일로 변환한 뒤 챗GPT에 입력했다. 회의록 작성 요청이 목적이다.
로이터 통신 등에 따르면 이탈리아 데이터 보호청은 “챗GPT가 이탈리아의 개인정보 보호 기준과 규정을 충족할 때까지 서비스 접속을 일시적으로 차단할 것”이라고 밝혔다.
접속 차단 이유는 개인정보 침해 우려 때문이다. 이탈리아 당국은 챗GPT가 알고리즘 학습을 이유로, 개인정보를 대량으로 수집하고 저장하는 행위를 정당화할 법적 근거가 없다고 지적했다. 보호청은 챗GPT 개발사 오픈AI가 20일 이내에 해결책을 내놓지 않으면 전 세계 매출액의 최대 4%에 달하는 벌금을 물게 될 것이라고 경고하기도 했다.
보안 vs 효율 을 높고 많은 공공기관을 비롯한 기업들이 고민을 하고 있다. 거대언어모형(LLM)에 기반하여 모든 것을 자체 개발하면 상관이 없으나 현실적으로 GPT-3/3.5/4 모형을 갖춘 조직이 전무하지만, 이미 대다수의 사람이 오픈AI 챗GPT를 맛보았기 때문에 생산성 향상을 그냥 두고 넘어가기도 어려운 상황이다. 이런 점에서 챗GPT 제한적 사용이 현재시점(’23년 3월) 최선으로 보이며 점차 오픈소스 거대언어모형(LLM)과 전략적 제휴를 통한 챗GPT 사용이 중장기적 추진방향으로 자리 잡고 있다.
chatGPT
→ 챗GPT → LLM회사명 | LLM 모형 | Context 길이 (토큰 크기) | 텍스트 크기 |
---|---|---|---|
OpenAI | GPT-1 | 512 | 1 쪽, 4 단락, 36줄 |
구글 | PaLM | 512 | ↑ |
OpenAI | GPT-2 | 1024 | 2 쪽, 8 단락, 68줄 |
OpenAI | GPT-3 | 2048 | 1500 영단어, 4쪽, 139줄 |
OpenAI | GPT-4 | 2048 | ↑ |
Meta | Llama | 2048 | ↑ |
OpenAI | GPT-3.5-Turbo | 4096 | 9쪽, 369줄 |
구글 | PaLM2 | 8192 | 13쪽, 단편 소설, 기술 문서 |
OpenAI | GPT-4 8K | 8192 | ↑ |
OpenAI | GPT-4 32K | 32000 | 48쪽, 대학학위논문 |
MosaicML | MPT-7B-StoryWriter | 65000 | 98쪽 |
Anthropic | Claude | 100000 | 150쪽, 소설책 반권 |
— Dan Fu (realDanFu?) March 29, 2023
flowchart TB subgraph A["사용자 인터페이스"] direction LR CLI["CLI<br>Command Line Interface<br> 1950~"] --> GUI["GUI <br> Graphic User Inferface<br> 1970~"] GUI --> WI["Web Interface <br> 1994~"] WI --> MI["Mobile Interface <br> 2007~"] MI --> NUI["LUI <br> Language User Interface <br> 2023~"] end class A nodeStyle classDef nodeStyle fill:#fcfbfa,stroke:#000000,stroke-width:0.7px,font-weight:bold,font-size:14px;
Models | Use Cases | |
---|---|---|
Text similarity: Captures semantic similarity between pieces of text. | text-similarity-{ada, babbage, curie, davinci}-001 | Clustering, regression, anomaly detection, visualization |
Text search: Semantic information retrieval over documents. | text-search-{ada, babbage, curie, davinci}-{query, doc}-001 | Search, context relevance, information retrieval |
Code search: Find relevant code with a query in natural language. | code-search-{ada, babbage}-{code, text}-001 | Code search and relevance |
두 임베딩 벡터 \(\mathbf{u}\) 와 \(\mathbf{v}\) 는 다음 공식을 사용하여 두 벡터간의 유사도를 구할 수 있다.
\[ \begin{equation*} \text{코사인 유사도}(\mathbf{u},\mathbf{v}) = \frac{\mathbf{u} \cdot \mathbf{v}}{\|\mathbf{u}\| \|\mathbf{v}\|} = \frac{\sum_{i=1}^n u_i v_i}{\sqrt{\sum_{i=1}^n u_i^2} \sqrt{\sum_{i=1}^n v_i^2}} \end{equation*} \]
flowchart LR subgraph SeoulR["서울 R 미트업: 챗GPT와 오정보"] direction LR Youtube["챗GPT 오정보"] --> STT["STT: Whisper"] Youtube --> Embedding["임베딩: OpenAI"] Youtube --> Summary["요약: Langchain"] Youtube --> Pinecone["벡터 DB: Pinecone"] Youtube --> ETC["검색: 코사인 유사도"] end STT -.-> Moat["We Have No Moat,<br> And Neither Does OpenAI"] Embedding -.-> Moat Summary -.-> Moat Pinecone -.-> Moat ETC -.-> Moat click SeoulR href "https://r2bit.com/seoul-r/" click Youtube href "https://youtu.be/3t9nPopr0QA" click STT href "https://r2bit.com/chatGPT/whisper.html" click Summary href "https://r2bit.com/chatGPT/news_release.html" click Embedding href "https://r2bit.com/chatGPT/misinfo_embedding.html" click Moat href "https://www.semianalysis.com/p/google-we-have-no-moat-and-neither" class A nodeStyle class AB,AC,AD,AE theoryStyle class B,C,D,E practiceStyle class F taskStyle classDef nodeStyle fill:#93c47d,stroke:#000000,stroke-width:0.7px,font-weight:bold,font-size:14px; classDef theoryStyle fill:#f59542,stroke:#000000,stroke-width:0.7px,font-weight:bold,font-size:14px; classDef practiceStyle fill:#4287f5,stroke:#000000,stroke-width:0.7px,font-weight:bold,font-size:14px; classDef taskStyle fill:#42f548,stroke:#000000,stroke-width:0.7px,font-weight:bold,font-size:12px;
“why misinformation is dangerous?”
186 And we know that, you know, our surgeon general and other major leaders around the world have recognized the ways in which misinformation can affect our health, and they can affect the health of democracies
130 And bullshit is a part of the misinformation story
16 We've studied misinformation during the pandemic and during elections and all sorts of other topics