시대 | 도구 | 핵심특징 | 장점 | 한계 |
---|---|---|---|---|
1세대 (2000-2010) |
• R + LaTeX • Python + Word • MATLAB + PPT |
분리된 워크플로우 | • 전문적 출력 • 정밀한 제어 |
• 복사-붙여넣기 반복 • 재현성 부족 • 버전 관리 어려움 |
2세대 (2010-2020) |
• R Markdown • Jupyter Notebook • Sweave |
통합 실행 환경 | • 코드-결과 통합 • 재현 가능성 • 동적 문서 |
• 단일 언어 중심 • 출력 형식 제한 • 협업 어려움 |
3세대 (2020-2023) |
• Quarto • Jupyter Book • Observable |
다중 언어/출력 | • 언어 독립적 • 다양한 출력 형식 • 웹 네이티브 |
• 수동 코딩 필요 • 디버깅 복잡 • 학습 곡선 |
4세대 (2023-현재) |
• Quarto + AI • Cursor + Notebook • ChatGPT + 코드 • Claude + 분석 |
AI 네이티브 통합 | • 자연어 인터페이스 • 자동 코드 생성 • 실시간 검증 |
• 할루시네이션 • 재현성 도전 • 검증 부담 |
1 저작 패러다임 진화
초기 현생인류는 손가락, 물감, 동굴 벽화를 통해 자신의 생각과 감정을 표현했다. 이러한 원시적인 도구들을 활용해 사람들은 상상의 세계를 현실로 구현할 수 있었다. 시간이 흐르면서 손가락과 물감은 연필로, 동굴 벽화는 종이로 대체되었고 이렇게 진화된 도구들 덕분에 저자들은 이제 자신의 의도와 생각을 종이 위에 문자와 그림으로 자유롭게 표현할 수 있게 되었다. (Wilson, 2016) 1
처음으로 인쇄기가 등장했을 때 자신의 의도를 문자와 그림으로 자유롭게 표현하는 자유는 크게 변화하지 않았다. 목판을 이용한 인쇄 방식이었지만, 작가는 여전히 원하는 내용을 원하는 위치에 놓을 수 있었고, 1370년경 한국에서 가동활자가 발명되고, 1440년경 유럽에서 구텐베르그가 금속활자가 대중화되면서 인쇄술이 급속히 확산되었다. 이로 인해 수기로 글을 쓰는 필경사에 대한 존경은 점차 감소하기 시작했다.
활자를 사용하면 인쇄업자가 목판을 제작하는 것보다 훨씬 신속하게 인쇄면를 설정할 수 있는 장점이 있었지만 유연성이 떨어졌다. 이유는 조판업자는 일정한 크기 글자를 일렬로 배치해야 했기 때문이다. 필경사도 원하는 곳 어디에나 글씨를 써 넣든 그림을 그려 넣던 자유로웠던 시절은 점차 사라지기 시작했다. 도표는 여전히 가능했지만, 글자 비용이 낮아지면서 상대적으로 몇 배나 더 비쌌다.
1860년대에 발명된 타자기는 중산층 수백만 명에게 ’인쇄’를 가능하게 했다. 기계식, 전기식, 전자식 컴퓨터는 모두 타자기 기술을 재활용하여 인쇄출력물을 생성했다. 1950년대 등장한 펜 플롯터 2는 라인 프린터를 대체하기에는 너무 느리고 비쌌다. 더 큰 문제는 두 기술 모두 완벽하게 작동하지 않았다는 것이었다. 아스키 예술로 그림을 표현하거나, 펜플롯터로 문자를 작성하는 것은 가능했지만, 어느 것도 특별히 매력적이라고 할 수 없었다.
1.1 과학기술 저작의 특별한 진화
일반적인 문서 저작과 달리, 과학기술 저작은 독특한 요구사항을 가진다:
- 재현가능성(Reproducibility): 동일한 데이터와 코드로 동일한 결과를 얻을 수 있어야 함
-
투명성(Transparency): 분석 과정의 완전한 공개로 검증 가능해야 함
- 통합성(Integration): 데이터 + 코드 + 서술의 일체화된 문서
이러한 요구사항으로 인해 과학기술 저작은 일반 문서와는 다른 진화 과정을 거쳤다.
1.1.1 문학적 프로그래밍의 등장
1984년 도널드 크누스(Donald Knuth)가 제안한 문학적 프로그래밍(Literate Programming)은 “프로그램을 컴퓨터가 아닌 인간이 읽기 위해 작성”하는 패러다임이었다. 이는 코드와 설명을 하나의 문서에 통합하여, 프로그램의 로직과 의도를 명확히 전달하고자 했다.
이 혁신적 아이디어는 30년 후 R Markdown(2012)과 Jupyter Notebook(2014)으로 실현되면서, 현대 과학기술 저작의 기초가 되었다.
1.2 과학기술 저작의 두 가지 대전환
그런데 지난 20년간 과학기술 저작 도구의 진화를 자세히 살펴보면, 두 가지 핵심적인 대전환이 있었다는 것을 알 수 있다. 첫 번째는 플랫폼의 대전환이고, 두 번째는 저작 패러다임의 대전환이다.
1.2.1 첫 번째 대전환: Desktop에서 Web으로 (2010년대)
2002년 Sweave의 등장은 분명 혁신적이었다. R 코드와 LaTeX을 하나의 문서에 결합하여 재현가능한 연구를 가능하게 했다. 하지만 Sweave는 Desktop 시대의 산물이었다. LaTeX 기반이라 PDF만 생성할 수 있었고, 로컬 PC에서만 작업할 수 있었다. 결과물을 공유하려면 파일을 이메일로 전송해야 했고, 협업은 여전히 까다로웠다.
2012년 knitr의 등장은 단순한 도구 교체가 아니라 플랫폼 대전환이었다. knitr는 HTML 출력을 지원하면서 문서가 웹페이지가 되고, 웹페이지가 문서가 되는 새로운 시대를 열었다. 이제 연구자들은 브라우저에서 직접 결과를 확인할 수 있었고, URL 하나로 전 세계와 즉시 공유할 수 있게 되었다.
Desktop 시대 (Sweave):
PC에서 작성 → LaTeX 처리 → PDF 생성 → 파일 전송 → 로컬에서 열람
Web 시대 (knitr):
어디서나 작성 → 웹 서버 처리 → HTML 생성 → URL 공유 → 브라우저에서 실시간 열람
이러한 플랫폼 변화는 단순히 기술적 편의성을 넘어서서 과학 소통의 본질을 바꾸었다. 정적인 PDF 문서에서 인터랙티브한 웹 문서로, 일방향 소통에서 실시간 협업으로, 제한적 접근에서 글로벌 공유로 패러다임이 완전히 전환되었다.
1.2.2 두 번째 대전환: 코딩에서 생성 언어로 (2023년)
2023년 ChatGPT의 등장은 또 다른 차원의 변화를 가져왔다. 이전까지는 아무리 도구가 발전해도 연구자가 직접 코드를 작성해야 했다. R을 배우고, Python을 익히고, ggplot2 문법을 암기하는 것이 필수였다. 프로그래밍 능력이 없으면 복잡한 분석이나 시각화는 포기해야 했다.
하지만 생성형 AI의 등장으로 이제 연구자는 프로그래머가 아니어도 된다. “이 데이터를 계절별로 분석하고 ANOVA 검정을 해서 시각화해줘”라고 자연어로 말하면, AI가 적절한 코드를 생성하고 실행한다. 이는 저작 패러다임의 근본적 전환이다.
코딩 시대 (2000-2023):
문법 학습 → 코드 작성 → 디버깅 → 실행 → 결과 해석
생성 언어 시대 (2023-현재):
의도 표현 → AI 코드 생성 → 자동 실행 → 결과 검증 → 인사이트 도출
이 변화의 의미는 진입장벽의 완전한 해소이다. 이제 통계학 교수도, 생물학자도, 심지어 인문학 연구자도 복잡한 데이터 분석과 시각화를 자연어만으로 수행할 수 있다. “무엇을 하고 싶은가?”가 중요해졌고, “어떻게 코딩하는가?”는 더 이상 핵심이 아니다.
1.2.3 과학기술 저작 도구의 4세대 진화
1세대 (2000-2010): Desktop 분리 워크플로우 시대
- 플랫폼: Desktop 중심, 로컬 파일 기반
- 저작 방식: 완전 수동 코딩 + 분리된 도구 사용
-
주요 도구:
- R: 통계 분석 + 기본 플롯 생성
-
Python: 스크립트 실행 + matplotlib 시각화
- LaTeX: 논문 작성 및 조판
- Sweave(2002): R + LaTeX 통합의 시초
- 출력: PDF, PostScript 등 정적 문서
- 공유: 파일 전송, 이메일 첨부
- 문제점: 분석과 문서가 완전 분리, 복사-붙여넣기 반복 작업
2세대 (2010-2020): Web 전환기 - 문학적 프로그래밍 실현
- 플랫폼: Desktop → Web 전환기 (knitr 혁명)
- 저작 방식: 수동 코딩이지만 통합 환경 제공
- 핵심 변화: Sweave → knitr로 HTML 시대 개막
-
주요 도구:
- knitr(2012): HTML 출력 지원, 웹 네이티브 문서 생성
- R Markdown: R 코드와 Markdown을 하나의 문서로 통합
- IPython/Jupyter(2014): 대화형 노트북 환경
- 출력: HTML, PDF 동시 지원 → 웹 공유 가능
- 공유: URL 링크, GitHub Pages, 웹 호스팅
- 혁신: 브라우저에서 직접 실행 가능한 동적 문서
- 문제점: 여전히 언어별 제한, 협업 도구 부족
3세대 (2020-2023): Web 완성 시대 - 통합 출판 시스템
- 플랫폼: 완전한 Web 네이티브 환경
- 저작 방식: 고도화된 수동 코딩 (멀티 언어 지원)
-
주요 도구:
- Quarto(2022): R Markdown의 후계자, 언어 독립적
- 다중 언어: R, Python, Julia, Observable JS 통합
- 다중 출력: HTML, PDF, Word, 슬라이드, 웹사이트, 책
- Jupyter Book: 노트북 → 웹사이트 자동 변환
- 출력: “Write Once, Publish Anywhere” 실현
- 공유: 실시간 협업, 클라우드 기반, 버전 관리 통합
- 혁신: 진정한 크로스 플랫폼 과학 출판
- 문제점: 여전히 상당한 프로그래밍 실력 요구
4세대 (2023-현재): AI-Native 시대 - 생성 언어 혁명
- 플랫폼: Web + AI 클라우드 통합
- 저작 방식: 자연어 → AI 자동 생성 (코딩 패러다임 완전 전환)
- 핵심 변화: 코딩 지식 불필요, 진입장벽 완전 해소
-
주요 도구:
- AI 코딩: GitHub Copilot, Cursor IDE, Jupyter AI
- AI 저작: ChatGPT + Code Interpreter, Claude + Artifacts
- 통합 플랫폼: Quarto + AI, NotebookLM
- 워크플로우: 의도 표현 → AI 코드 생성 → 자동 실행 → 결과 검증
- 혁신: 모든 연구자가 프로그래머 없이도 복잡한 분석 가능
- 새로운 도전: 할루시네이션, 재현성 위기, 검증 부담 증가
1.3 네 가지 언어 패러다임
문자전용 도구와 그림을 위한 도구 사이 간격을 보여주는 한가지 흔적이 문자와 그림을 제어하기 위한 별도 언어개발에서 찾아볼 수 있다. 그림 1.2 에서 보는 바와 같이, 과학기술 저작에는 네 가지 주요 언어 패러다임이 존재한다.
플로터는 일반적으로 제도 언어(drawing language) 로 제어된다. 다음 예를 보면 이해가 쉽다.
“펜을 위로, (x, y) 위치로 이동, 펜을 아래로, 다시 해당 위치만큼 이동한다”
PU;
PA200,150;
PD;
PA250,250;
반면에, 라인 프린터는 조판 언어(Typesetting language)를 사용하여 제어된다. 이 언어를 통해 저자는 컴퓨터에게 “문서 제목을 설정하라”나 “섹션 헤딩을 만들어라”, “새 문단을 시작하라”, “특정 단어를 이탤릭체로 표시하라”와 같은 지시를 할 수 있다. 이러한 지시를 받은 컴퓨터는 단어 위치와 형식을 자동으로 결정한다. 조판 언어를 통해 문자 배치와 스타일을 정교하게 제어할 수 있게 되었다.
.TH PAPER 1 # 문서 제목을 설정
.SH NAME # 섹션 헤딩을 만들어라
paper \\- scientific document # 내용 텍스트
.PP # 새 문단을 시작하라
This paragraph has # 문단 내용
.I italic # 특정 단어를 이탤릭체로 표시
이 기간 동안, 문서 외양이 아닌 콘텐츠(content)에 중점을 둔 세 번째 유형의 언어가 등장했다. 의사나 변호사들은 환자 진료기록이나 판례를 효율적으로 검색하고자 했으나, 1970년 당시 컴퓨터는 자연어 처리 능력이 턱없이 부족했다. 당시 최고의 기술력을 자랑하던 IBM과 같은 컴퓨터 기업들이 마크업 언어를 개발했다. 마크업 언어를 통해 사람들은 문서 의미, 즉 시맨틱(semantic)을 명시적으로 표현할 수 있게 되었다. 마크업 언어는 문서 내용과 구조를 명확하게 기술하게 되면서, 정보 검색과 데이터 관리에 있어 새로운 가능성을 열었다.
<person>Derstmann</person> still questions the importance of <chemical>methane</chemical> release
in <event>the Fukuyama disaster</event>.
마지막으로, 2023년 대규모 언어 모델(LLM)의 등장으로 네 번째 패러다임이 등장했다. 생성 언어(Generative Language)는 자연어로 의도를 표현하면 AI가 자동으로 코드를 생성하고 실행하는 새로운 방식이다.
"climate_data.csv 파일을 읽어서 월별 평균 기온을 계산하고
시각적으로 매력적인 그래프를 만들어 주세요.
제목과 축 라벨을 한국어로 설정해주세요."
이 자연어 프롬프트를 받은 AI는 자동으로 적절한 Python 코드를 생성하고 실행하여, 결과를 문서에 통합한다. 이는 과학자가 의도를 표현하면, AI가 구현을 담당하는 완전히 새로운 분업 체계를 의미한다.
1.4 패러다임의 진화와 융합
네 가지 패러다임은 각각 다른 시대에 등장했지만, 1970년대 레이저 프린터 발명 이후 제도, 조판, 마크업 언어가 충돌했고, 그 긴장감은 1980년대 고해상도 컴퓨터 화면과 1990년대 월드 와이드 웹에 의해 더욱 확대되었다. 그리고 2020년대 들어 생성 언어의 등장으로 모든 패러다임이 AI를 통해 융합되는 새로운 국면을 맞이했다. 한편으로 대부분의 사람들은 단순히 글을 저작하는 것이 목표다. 예를 들어, 이 단어는 여기에, 저 단어는 저기에 놓거나, 일부 단어는 녹색으로, 다른 단어는 이탤릭체로 만들고 싶어하는 것이 전부다. 우리나라에서 아래아한글, 전세계적으로 맥사용자는 맥라이트, 윈도우 사용자는 마이크로소프트 워드, 리눅스 사용자는 리브레오피스 라이터(LibreOffice Writer)나 오픈오피스 라이터(OpenOffice Writer)와 같은 위즈윅(WYSIWIG) 편집기가 이러한 저자들의 욕구를 충족시켰지만, 이런 방식으로 만들어진 문서는 두가지 결점을 갖고 있다.
융통성이 없다(rigid). 누군가 수작업으로 배치를 바꾸고 나서, 페이지 크기를 변경하면, 수고로운 작업을 다시 해야 한다.
불분명하다. 컴퓨터에 무언가 이택릭으로 표현하도록 지시하면, 해당 문구가 책제목인지, 혹은 새로운 용어를 정의하는지 분간할 수 없다.
즉, 아래아한글과 워드 같은 위지윅 편집기로 생성된 문서는 종종 특정 플랫폼이나 소프트웨어에 종속되어 다른 시스템에서 문서를 편집하거나 여는 것조차 불가능하다. 이유는 위지윅 편집기가 주로 시각적인 표현에 중점을 두다보니 아래아한글, 워드 문서파일 자체적으로 복잡한 내부 구조를 가지고 있고 문서 내용과 구조를 명확하게 구분하지 않아서 문서 내용을 다른 형식으로 변환하거나 자동화하는 것이 어렵다.
조판 언어와 마크업 언어는 앞서 언급한 두 가지 문제를 해법을 제시한다. 저자는 텍스트나 그림 외관과 페이지 내 위치에 대한 직접적인 지시를 내리는 대신, 그것들이 어떤 유형인지—예를 들어 제목이나 새로운 용어인지—컴퓨터에게 알려준다. 컴퓨터는 입력을 받은 후에 그것들의 외관과 위치를 결정하여 표현한다. 이러한 방식으로 의미(시맨틱)와 외관을 분리하면, 저자는 “모든 두 번째 제목을 16포인트 나눔고딕체로 왼쪽 정렬하라”와 같이 지시를 내리면, 스타일도 일관되게 쉽고 빠르게 변경시킬 수 있다.
하지만, 이런 접근법도 결점은 있다:
컴퓨터는 텍스트를 이해하지 못하기 때문에 항상 인간과 같은 방식으로 텍스트를 배치하지는 않는다. 따라서 사람들은 나중에 문서 유연성이 떨어지더라도 직접 변경하고 싶어 하는 경우가 많다. 예를 들어, 논문을 작성할 때 컴퓨터가 자동으로 생성한 목차나 참고문헌 위치가 저자 의도와 맞지 않을 수 있다. 이런 경우, 저자가 수동으로 목차를 조정하면, 나중에 문서 다른 부분을 수정할 때 목차도 다시 수동으로 조정해야 하는데 이렇게 되면 원래 자동화를 통해 얻을 수 있던 유연성이 사라지게 된다.
문서의 의미를 지정하는 것은 대부분의 사람들에게 낯선 일이며 제목을 몇 번 확대하는 것보다 훨씬 더 많은 작업이 필요하다. 예를 들어, 연구 논문을 작성하고 제목과 부제목을 강조하고 싶다고 가정해 보자. 아래아한글을 사용한다면 제목 텍스트를 선택하고 “굵게”와 “글자 크기 키우기” 버튼을 클릭하기만 하면 된다. 하지만, \(\LaTeX\)이나 마크다운 같은 마크업 언어를 사용한다면, 제목을 특정 코드로 감싸서 그것이 ’제목’임을 \(\LaTeX\)에서
\title{나의 연구 논문}
과 같이 작성해야 한다. 마크업 언어에 익숙하지 않은 저자는 불필요한 추가 작업처럼 느껴지고 전혀 직관적이지 않다.저자가 입력한 내용을 해석하고 표시할 내용을 파악하는 데는 컴퓨터 시간이 오래 걸린다. 왜 문서가 의도한 바를 반영하지 못하는지 알아내는데는 몇배 시간이 든다. 이것이 정확하게 프로그램을 디버깅하는 것과 같은 상황이고 디버깅은 대체로 쉽지 않은 작업이다. 예를 들어, PPT 슬라이드에 제목과 몇 개의 항목을 넣었을 때 컴퓨터가 자동으로 항목 크기를 줄인다. 이에 불만족해 수동으로 크기를 다시 조절하게 되는데, 원인은 컴퓨터가 사용자 의도를 완벽히 이해하지 못하기 때문에 발생된다.
앞서 살펴본 네 가지 언어 패러다임(제도, 조판, 마크업, 생성)의 충돌과 융합은 과학기술 저작 분야에서 특히 극명하게 나타났다. 일반적인 문서와 달리, 과학기술 문서는 데이터, 코드, 텍스트, 시각화가 복합적으로 결합되어야 하기 때문에 각 패러다임의 장단점이 더욱 뚜렷하게 드러났던 것이다.
지금까지 그 누구도 상기 문제를 모두 피하는 무언가를 발명하지는 못했다. 하지만 AI 시대에 들어서면서 이러한 문제들에 대한 새로운 해법이 제시되고 있다. 특히 과학기술 저작 분야는 일반 문서보다 훨씬 빠른 속도로 AI-Native 도구들을 수용하고 있다. 오늘날 과학기술 연구자들은 다음과 같은 진화된 선택지를 가지게 되었다:
1.5 과학기술 저작 도구 진화
한국의 연구자 김박사가 2003년 박사과정 학생이었을 때를 떠올려보자. 그는 Excel에서 기후 데이터를 정리하고, R에서 분석을 실행한 후 결과를 복사해서 Word 문서에 붙여넣었다. 그런데 실험 데이터에 오류가 발견되어 Excel 파일을 수정하자, 모든 그래프를 다시 만들고 Word 문서의 표와 그림을 하나씩 교체해야 했다. 논문 심사 과정에서 이런 수정이 여러 번 반복되면서, “논문_최종.doc”, “논문_진짜최종.doc”, “논문_제출용_final.doc” 같은 파일들이 폴더를 가득 채웠다.
2024년 같은 김박사는 이제 교수가 되어 Quarto에서 ChatGPT와 함께 논문을 작성한다. 자연어로 “기후 데이터를 시계열 분석하고 ARIMA 모델로 예측해서 시각적으로 매력적인 그래프를 만들어줘”라고 요청하면, AI가 코드를 생성하고 실행한다. 데이터가 업데이트되면 문서 전체가 자동으로 재생성된다. 불과 20년 만에 과학기술 저작은 완전히 다른 세계가 되었다.
이러한 급격한 변화는 과학기술 저작이 일반적인 문서와 근본적으로 다른 요구사항을 갖기 때문이다. 데이터와 코드와 텍스트가 유기적으로 결합되어야 하고, 재현가능성이 보장되어야 하며, 다양한 출력 형식을 지원해야 한다. 이런 복잡한 요구사항 때문에 과학기술 저작 도구들은 일반 문서 도구보다 훨씬 빠르게 진화해왔다.
특히 한국 연구 환경에서는 추가적인 도전이 있었다. HWP와 MS Word 중심의 제출 문화, 영어와 한국어 혼재 문서의 복잡성, 그리고 LaTeX의 높은 진입 장벽은 연구자들을 더욱 어렵게 만들었다. 하지만 R Markdown(2012)에서 시작된 문학적 프로그래밍의 르네상스는 이 모든 문제들을 점진적으로 해결해왔고, 이제는 AI와의 협업이라는 완전히 새로운 차원에 도달했다.
표 1.1 에서 보는 바와 같이, 지난 20여 년간 과학기술 저작 도구는 뚜렷한 4세대로 진화해왔다. 각 세대는 이전 세대의 핵심 문제를 해결하면서도 새로운 도전과제를 제시했다.
1.5.1 1세대 (2000-2010): 복사-붙여넣기 고통
2000년대 초반 연구자들의 일상은 끊임없는 복사-붙여넣기의 연속이었다. 통계학과 박사과정생이었던 이교수는 당시를 회상하며 이렇게 말한다: “SPSS에서 분석 결과를 캡처해서 PowerPoint에 붙이고, 그걸 다시 Word로 복사했어요. 데이터 하나만 바뀌어도 모든 그래프를 다시 만들어야 했죠.”
이 시대의 대표적인 워크플로우는 다음과 같았다: Excel/CSV에서 데이터 정리 → SPSS/R/MATLAB에서 분석 → 결과를 이미지로 저장 → Word/PowerPoint에서 수동 삽입 → 메일로 공유하며 “track changes” 기능으로 협업. 특히 한국에서는 아래아한글의 복잡한 수식 편집기와 표 기능 때문에 연구자들의 고통이 더욱 심했다.
가장 큰 문제는 재현가능성의 완전한 부재였다. 6개월 후 같은 분석을 다시 실행하려면 어떤 데이터를 어떻게 전처리했는지, 어떤 매개변수를 사용했는지 기억해내는 것이 불가능했다. “이 그래프가 어떤 코드로 만들어진 거지?”라는 질문에 답할 수 없었던 것이다.
1.5.2 2세대 (2010-2020): 문학적 프로그래밍 부활
2012년 R Markdown의 등장은 말 그대로 혁명이었다. 1984년 도널드 크누스가 제안했던 문학적 프로그래밍이 드디어 실용적인 도구로 구현된 것이다. 이제 연구자들은 하나의 문서 안에서 텍스트, 코드, 결과를 통합할 수 있게 되었다.
# 2세대의 혁신적 변화
Before: 분석.R → 결과.png → 논문.docx (3개 분리된 파일)
After: 논문.Rmd → 통합된 HTML/PDF (1개 파일에서 모든 것)
같은 시기 IPython Notebook(2014년 Jupyter로 발전)은 Python 연구자들에게 대화형 분석의 새로운 경험을 선사했다. 셀 단위로 코드를 실행하며 즉시 결과를 확인하는 방식은 특히 기계학습과 데이터 사이언스 분야에서 폭발적 인기를 얻었다.
하지만 2세대도 한계가 있었다. R Markdown은 R 중심적이었고, Jupyter는 Python에 최적화되어 있었다. 언어 간 장벽이 존재했고, 출력 형식도 제한적이었다. 무엇보다 협업이 여전히 어려웠다. Git으로 노트북을 관리하려고 하면 JSON 형식 때문에 diff가 불가능했고, 동시 편집은 꿈도 꿀 수 없었다.
1.5.3 3세대 (2020-2023): 통합 출판 시스템 완성
2022년 Posit(구 RStudio)에서 발표한 Quarto는 과학기술 저작 분야의 iPhone이라 할 수 있다. R, Python, Julia, Observable JavaScript를 하나의 문서에서 자유롭게 사용하고, HTML, PDF, Word, 슬라이드, 웹사이트, 책까지 다양한 형태로 출력할 수 있게 되었다.
특히 한국 연구자들에게는 반가운 소식이었다. 이제 R로 통계 분석을 하고, Python으로 딥러닝을 실행하고, Observable JS로 인터랙티브 시각화를 만든 후, 모든 것을 HWP나 Word 형식으로 출력할 수 있게 되었다. “Write Once, Publish Anywhere” 패러다임이 드디어 현실이 된 것이다.
# Quarto의 다중 출력 혁신
하나의 .qmd 파일에서:
→ 학회 발표용 HTML 슬라이드
→ 논문 제출용 Word 문서
→ 연구실 홈페이지용 웹사이트
→ 교육용 PDF 교재
→ 인터랙티브 대시보드
하지만 3세대에서도 여전한 문제가 있었다. 복잡한 분석이나 시각화를 위해서는 상당한 프로그래밍 실력이 필요했다. 통계학과 교수라도 ggplot2의 복잡한 문법을 익히거나 Plotly의 인터랙티브 차트를 만드는 것은 쉽지 않았다. “분석하고 싶은 것은 많은데 코딩 실력이 따라주지 않는다”는 것이 연구자들의 공통된 고민이었다.
1.5.4 4세대 (2023-현재): AI와 공진화 시대
2023년 ChatGPT의 대중화와 함께 과학기술 저작에 완전히 새로운 패러다임이 등장했다. 이제 연구자는 자연어로 의도를 표현하고, AI가 구현을 담당하는 분업 체계가 가능해졌다.
실제 사례를 살펴보자. 환경공학과 김교수는 대기오염 데이터 분석을 위해 ChatGPT에게 다음과 같이 요청했다:
“서울시 25개 구별 미세먼지 농도 데이터를 읽어서, 계절별 변화 패턴을 분석하고, 통계적으로 유의한 차이가 있는지 ANOVA로 검정한 후, 색맹 친화적이면서 한국어 라벨이 있는 시각화를 만들어 주세요. 그래프는 논문에 사용할 예정이니 고해상도로 설정해주세요.”
AI는 이 요청을 받아 적절한 R 코드를 생성하고, 데이터를 불러오고, 통계 검정을 실행하고, ggplot2로 시각화까지 완성했다. 연구자는 단 한 줄의 코드도 직접 작성하지 않았지만, 전문적인 수준의 분석과 시각화를 얻을 수 있었다.
하지만 4세대는 새로운 종류의 도전을 가져왔다. 환각 문제로 인해 존재하지 않는 논문을 인용하거나 잘못된 통계 수치를 제시하는 경우가 발생했다. 재현가능성도 새로운 위기에 직면했다. 같은 프롬프트로도 매번 다른 코드가 생성되기 때문이다. 무엇보다 AI 생성 내용의 검증 부담이 연구자에게 새로운 책임으로 떠안겨졌다.
노트🔧 전통 도구들의 역할과 한계
4세대 AI-Native 도구가 급부상하고 있지만, 기존 도구들이 하루아침에 사라지지는 않는다. 현실적으로 많은 연구자들은 하이브리드 워크플로우를 사용하고 있다.
아래아한글과 MS Word
여전히 한국 연구 생태계에서 핵심적인 역할을 한다. 대부분의 학술지, 연구 보고서, 정부 과제 제안서는 여전히 HWP나 DOCX 형식을 요구한다. 하지만 이제 연구자들은 Quarto에서 분석과 초안을 완성한 후, 최종 단계에서만 이들 형식으로 변환하는 전략을 취한다.
💡 새로운 표준: “작업은 Quarto에서, 제출은 HWP로”
구글 독스
실시간 협업과 댓글 기능에서는 여전히 독보적이다. 특히 다학제 연구팀에서 비전문가와의 소통이 필요할 때는 구글 독스만한 것이 없다. 하지만 수식, 참고문헌, 코드 통합 등 과학기술 문서의 핵심 기능에서는 명백한 한계를 보인다.
💡 이중 구조: “기획과 피드백은 구글 독스에서, 실제 작업은 Quarto에서”
LaTeX
수학과 물리학 분야에서는 여전히 절대적인 표준이다. 특히 arXiv 프리프린트 서버나 수학 저널들은 LaTeX을 선호하거나 의무화하고 있다. 하지만 학습 진입장벽이 높아 새로운 연구자들이 접근하기 어렵다.
💡 AI 시대의 양상: “LaTeX 코드를 ChatGPT가 생성해주지만, 오류 디버깅은 여전히 인간의 몫”
마크다운
단순함과 가독성에서는 여전히 최고지만, 과학기술 문서의 복잡한 요구사항(상호참조, 인용, 수식, 표)을 충족하기에는 부족하다. 하지만 GitHub 기반 협업이나 기술 문서 작성에서는 여전히 널리 사용되고 있다. Quarto가 마크다운 확장 문법을 사용하는 것도 이런 친숙함 때문이다.
이러한 도구들은 각각의 생태계와 사용자층을 가지고 있어서 완전히 대체되기보다는 특화된 영역에서 공존하는 방향으로 진화하고 있다. 중요한 것은 연구자가 상황에 맞게 적절한 도구를 선택하고, 필요시 도구 간 변환을 자유롭게 할 수 있는 능력을 기르는 것이다.
지금까지 과학기술 저작 도구의 4세대 진화 과정을 살펴보았다. 하지만 도구만으로는 진정한 변화가 일어나지 않는다. 각 세대가 어떤 실제 워크플로우를 만들어내고, 연구자의 일상을 어떻게 바꾸었는지 구체적으로 살펴보는 것이 필요하다. 특히 현재 우리가 맞닥뜨린 AI 시대의 새로운 워크플로우는 이전과 완전히 다른 패러다임을 요구한다.
1.6 현대 과학기술 저작 워크플로우 비교
1.6.1 전통적 방식 (1세대, 2000년대)
연구 프로세스:
1. 데이터 수집 → Excel/CSV 저장
2. 분석 → R/Python 스크립트 별도 실행
3. 시각화 → 그래프를 이미지 파일로 저장
4. 논문 작성 → LaTeX/Word에서 이미지 삽입
5. 버전 관리 → 수동으로 파일명 변경 (v1, v2, final, final_final...)
문제점:
- 데이터 변경 시 모든 과정 수동 반복
- 분석과 문서가 완전 분리
- 재현 불가능
- 협업 시 파일 충돌
1.6.2 R Markdown/Jupyter 방식 (2세대, 2010년대)
---
title: "기후 변화 분석"
output: html_document
---
```{r setup, include=FALSE}
library(tidyverse)
library(ggplot2)
```
# 데이터 분석
```{r data-analysis}
climate_data <- read_csv("temperature.csv")
climate_data %>%
group_by(year) %>%
summarize(avg_temp = mean(temperature)) %>%
ggplot(aes(year, avg_temp)) +
geom_line() +
theme_minimal()
```
분석 결과에 따르면...
장점: 코드와 결과가 통합, 재현 가능 한계: R 중심, 출력 형식 제한
1.6.3 Quarto 방식 (3세대, 2020년대)
---
title: "다국어 기후 분석"
format:
html:
code-fold: true
pdf:
documentclass: article
docx: default
---
```{r}
#| label: fig-temperature
#| fig-cap: "연도별 기온 변화"
library(tidyverse)
climate_data <- read_csv("temperature.csv")
# R로 데이터 전처리
```
```{python}
#| label: fig-prediction
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
# Python으로 머신러닝 예측
model = LinearRegression()
# ...예측 모델 코드
```
```{js}
//| echo: false
// Observable JS로 인터랙티브 차트
Plot.plot({
marks: [
Plot.line(data, {x: "year", y: "temperature"})
]
})
```
장점: 다중 언어, 다양한 출력, 웹 네이티브 한계: 여전히 수동 코딩 필요
1.6.4 AI-Native 방식 (4세대, 2024년)
---
title: "AI 지원 기후 분석"
ai-assistant:
provider: openai
model: gpt-4
temperature: 0.1
cache: true
---
```{ai-prompt}
temperature.csv 파일을 분석해서 다음을 수행해주세요:
1. 연도별 기온 변화 트렌드 분석
2. 통계적 유의성 검정 (t-test, ANOVA)
3. 시각적으로 매력적인 그래프 3개 생성:
- 시계열 플롯 (한국어 라벨)
- 상관관계 히트맵
- 예측 모델 결과 시각화
4. 주요 인사이트를 학술논문 스타일로 서술
출력은 HTML과 PDF 모두 적합하도록 해주세요.
```
```{python}
#| echo: false
#| ai-generated: true
#| cache: true
# AI가 자동 생성한 분석 코드
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
# 자동 생성된 데이터 분석 및 시각화 코드
plt.rcParams['font.family'] = 'Malgun Gothic' # 한국어 폰트
# ... (AI가 생성한 상세 분석 코드)
```
혁신점: - 자연어로 분석 요구사항 명시 - AI가 적절한 통계기법 자동 선택 - 코드 자동 생성 및 최적화 - 다국어 출력 자동 지원 - 캐싱으로 재현성 보장
1.7 AI 시대의 새로운 도전과 기회
1.7.1 새로운 문제점들
AI 통합이 가져온 혁신적 변화에도 불구하고, 완전히 새로운 문제들이 등장했다:
1. 진실성과 신뢰성 위기
-
할루시네이션(Hallucination): AI가 그럴듯하지만 완전히 잘못된 정보를 생성
- 존재하지 않는 논문 인용
- 잘못된 통계 수치 제시
- 가상의 연구 결과 생성
- 출처 불명확성: AI가 학습한 데이터의 원본 추적 불가능
- 검증 부담 증가: AI 생성 내용의 사실 확인에 소요되는 시간
2. 재현가능성의 새로운 위기
-
비결정적 출력: 동일한 프롬프트로도 매번 다른 결과 생성
# 같은 프롬프트, 다른 결과 예시 프롬프트: "기후 데이터를 분석해주세요" 실행 1: 선형 회귀 모델 사용 실행 2: ARIMA 시계열 분석 사용 실행 3: 신경망 모델 사용
모델 버전 의존성: AI 모델 업데이트로 인한 결과 변화
하이퍼파라미터 민감성: temperature, top_p 등 설정값에 따른 출력 변화
3. 지적 재산권과 윤리적 딜레마
-
저작권 모호성:
- AI 생성 코드/텍스트의 소유권은 누구에게?
- 학습 데이터의 저작권 침해 가능성
- 기존 코드와의 유사성 판단 어려움
-
학술 진실성:
- AI 사용 공개 의무의 범위와 정도
- 인간과 AI의 기여도 구분
- 표절 검사 도구의 한계
4. 기술적 의존성과 격차
-
API 의존성:
- 서비스 중단 시 연구 중단 위험
- 비용 증가에 따른 접근성 문제
- 특정 기업에 대한 종속성
-
디지털 격차:
- AI 도구 접근성의 불평등
- 언어별, 지역별 성능 차이
- 고성능 AI 모델의 고비용 문제
1.7.2 해결책과 대응 전략
1. 검증 시스템의 강화
AI 검증 파이프라인:
1. 자동 팩트체킹
- 인용 논문 존재 여부 확인
- 통계 수치 검증
- 외부 데이터베이스와 대조
2. 교차 검증
- 다중 AI 모델 결과 비교
- 전문가 리뷰 필수화
- 커뮤니티 검증 시스템
3. 투명성 확보
- 모든 AI 사용 기록
- 프롬프트 버전 관리
- 결과 생성 과정 문서화
2. 재현가능성 프레임워크
# _quarto.yml AI 설정 예시
ai:
provider: "openai"
model: "gpt-4-0125-preview" # 특정 버전 고정
temperature: 0.1 # 낮은 온도로 일관성 확보
seed: 42 # 시드값 고정
max_tokens: 2000
cache: true # 응답 캐싱
# 검증 설정
verification:
fact_check: true
citation_verify: true
peer_review: required
3. 윤리적 가이드라인
-
투명한 AI 사용 공개:
- 어떤 AI 도구를 언제 사용했는지 명시
- 인간의 검토와 수정 과정 기록
- 최종 책임은 인간 저자가 담당
-
적절한 크레딧 부여:
- AI 어시스턴트를 공동 기여자로 인정
- 사용한 AI 모델과 버전 명시
- 프롬프트 엔지니어링의 창의적 기여 인정
4. 하이브리드 접근법
AI의 장점을 활용하면서도 인간의 전문성을 보장하는 Human-in-the-Loop 시스템:
하이브리드 워크플로우:
1. AI 초안 생성 (30%)
↓
2. 전문가 검토 및 수정 (40%)
↓
3. AI 보조 개선 (20%)
↓
4. 최종 인간 승인 (10%)
이러한 접근을 통해 AI의 효율성과 인간의 신뢰성을 균형있게 결합할 수 있다.
1.8 엎친 데 덮친 격
위지윅과 조판/마크업 구분은 실제 파일형식보다 도구로 작업하는 것과 더 연관되어 있다. .docx
파일은 실제로 \(\LaTeX\), HTML, 마크다운 파일처림 조판 명령어와 텍스트가 혼재되어 있다. 차이점은 조판/마크업 언어로 작성된 명령어는 사람이 읽을 수 있는 텍스트로 저장된다는 것이다. 이것이 함의하는 바는 유닉스 명령-라인 유틸리티가 처리할 수 있다는 점이다. (스택오버플로우에서 지적한 것처럼, 실제로 얼마나 많은 작업 수행할지에 대해 한계가 존재한다) 이와 비교해서, 아래아한글, 마이크로소프트 워드, 리브레오피스에 내장된 서식 명령어는 특정한 전용 프로그램을 위해, 특정 프로그램에 의해서 제작되었다. 따라서, grep
같은 일반-텍스트 도구로는 처리가 되지 않는다.
구글 독스도 마찬가지다. 서식 명령어가 문서에 내장되어서 사용자 브라우저 자바스크립트에 의해 실행되어 사용자가 상호 작용하는 렌더링 페이지를 생성한다. 저장형식이 \(\LaTeX\)이라는 점을 제외하면, Authorea와 Overleaf 도 동일하다.
강성 프로그래머는 위지윅 도구와 텍스트가 아닌 형식을 조롱할 수도 있지만, 그들도 완벽하지 않다. 마이크로소프트 워드와 한글과 컴퓨터 아래아한글은 수십년 동안 존재해왔고, 그 기간 동안 문서 형식이 몇 번이나 바뀌었다. 그럼에도 불구하고, 명령줄을 선호하는 개발자는 이를 대체할 도구를 개발하지 못했다. 결과적으로, 버전제어 시스템 대부분은 세계에서 가장 널리 사용되는 문서 형식을 처리할 수 없다. 예를 들어, Git 같은 시스템은 두개 다른 버전의 마이크로소프트 워드 파일 혹은 아래아한글 파일을 만났을 때 “차이가 있음” 정도만 제시할 수 있을 뿐이다. 이러한 상황은 미래 더 큰 생산성을 희망하며 수년 동안 효율적으로 사용해온 도구를 포기해야 한다는 것을 의미한다. 결국 버전 관리 도입은 미래의 생산성 향상을 위해 자신과 동료들이 수년간 생산적으로 사용해 온 도구를 버려야 하는 결과를 초래한다.
상기 논의는 저자가 논문과 편지만 작성하다고 가정했지만, 과학연구자는 자주 본인 작업을 시연하는데, 포스터와 슬라이드를 만들어야 하는 경우가 많다. 파워포인트는 말이 필요없는 발표도구의 여왕으로 많은 사람들이 파워포인트 때문에 발표가 엉망이 되어다고 비판하지만, 이것은 마치 시적 표현이 좋지 못한 것을 만연필 핑계를 대는 것에 비견된다. 파워포인트와 파워포인트 유사도구는 컴퓨터 화면을 마치 칠판처럼 사람들이 쉽게 사용할 수 있게 만들었다. 글머리표 목록으로 구성된 너무나도 지루한 슬라이드를 쭉 생성할 수도 있지만, 쉽고 자유롭게 이미지, 도표, 텍스트를 섞어 사용할 수도 있다. \(\LaTeX\)과 HTML로 그런 작업을 수행할 수 있지만, 어느 쪽도 그다지 쉽지는 않다. 사실, \(\LaTeX\)이나 HTML 모두 어려워서 대부분 사람들은 신경도 쓰지 않는다. 설사 그런 작업을 수행하더도, 그래픽적 요소는 문서의 중요부분이라기 보다 외부 삽입에 불과하다.
논문과 발표자료를 함께 생각하면 다소 불편한 상황에 있음을 인지하게 된다. 다른 한편으로, 논문과 발표자료는 연구 프로젝트에서 핵심적인 부분으로 코드와 데이터처럼 공유되고 추적관리되어야 한다. 다른 한편으로 스테픈 터너(Stephen Turner)는 다음과 같이 언급했다:
공동작업하는 지친 물리연구원에게 문서를 컴파일하는 개념을 설명하려고 한다고 보자. 그전에 일반 텍스트와 워드 프로세싱 사이 차이점을 설명해야 된다. 그리고 텍스트 편집기도 잊으면 안된다. 그리고 나서 마크다운/\(\LaTeX\) 컴파일러. 그리고 BibTEX Git 그리고 GitHub 등등. 그러는 동안에 연구원은 다른 곳에서 호출 연락을 받을 것이다…
… 달리 설득시킬만큼 노력하지만, 과학컴퓨팅 외부 사람들과 협업할 때, 이러한 얼개를 갖고 논문 협업을 하는 장벽이 너무나도 높아서 단순히 극복이 되지 않는다. 좋은 취지는 제쳐두고, 항상 “검토 메뉴에 변경내용 추적을 갖는 워드 문서만 주세요” 혹은 그와 유사하게 끝나게 된다.
1.9 과학기술 저작의 미래
1.9.1 단기 전망 (2025-2027): AI-Native 통합의 확산
기술적 진화 - Quarto + AI 네이티브 통합: Quarto에서 AI 어시스턴트 기본 탑재 - IDE 통합: VS Code, RStudio, JupyterLab에 AI 코딩 어시스턴트 표준화 - 프롬프트 언어의 표준화: 과학기술 분야별 특화된 프롬프트 템플릿 개발
워크플로우 변화 - 하이브리드 저작이 주류: AI 초안 생성 → 인간 검증 → AI 개선의 순환 과정 - 실시간 검증 시스템: 자동 팩트체킹, 인용 검증, 통계 검증 도구 보편화 - 다국어 동시 출판: AI 번역으로 영어, 한국어, 중국어, 일본어 동시 발행
1.9.2 중기 전망 (2027-2030): 자율 연구 보조의 시대
연구 과정의 AI 참여
AI 연구 파이프라인:
1. 가설 생성: 문헌 리뷰 → AI가 새로운 가설 제안
2. 실험 설계: AI가 최적 실험 방법론 추천
3. 데이터 분석: 완전 자동화된 분석 및 해석
4. 논문 작성: 구조화된 학술 글쓰기 자동 생성
5. 피어 리뷰: AI 리뷰어의 사전 검토 후 인간 리뷰
새로운 출판 모델 - 리빙 페이퍼(Living Paper): 데이터 업데이트 시 논문 내용 자동 갱신 - 인터랙티브 출판: 독자가 파라미터 변경하여 결과 실시간 확인 - 검증 가능 출판: 모든 분석 과정이 클라우드에서 재실행 가능
1.9.3 장기 전망 (2030+): 집단 지성과 AI의 융합
과학 지식 생산 방식의 혁신 - AGI(Artificial General Intelligence) 연구 파트너: - AI가 독립적인 연구 아이디어 제안 - 인간-AI 공동 연구가 표준 - 과학적 발견의 가속화 (현재 대비 10-100배)
글로벌 지식 통합 플랫폼 - 실시간 지식 동기화: 전 세계 연구 결과가 실시간으로 통합 - 언어 장벽 완전 소거: 모든 과학 문헌이 150개 언어로 동시 제공 - 개인 맞춤 학습: AI가 개인의 배경지식에 맞춰 내용 자동 조절
1.9.4 현실적 도전과 대응
기존 시스템과의 공존 - 아래아한글/워드: 여전히 최종 제출용으로 필요하지만 중간 과정은 AI-Native - \(\LaTeX\): 수학 분야에서는 지속적으로 사용되나 AI가 코드 자동 생성 - 학술지 시스템: 점진적으로 AI 생성 내용 허용하되 검증 기준 강화
인간 역할의 재정의
미래 과학자의 역할:
- 창의적 사고와 직관 (30%)
- AI 결과 검증 및 해석 (25%)
- 윤리적 판단 및 사회적 함의 고려 (25%)
- 연구 방향 설정 및 전략 수립 (20%)
교육 시스템의 변화 - 프롬프트 엔지니어링: 새로운 핵심 역량으로 부상 - AI 리터러시: 과학도의 필수 소양 - 비판적 검증 능력: AI 결과를 판단하는 메타 인지 능력
이러한 미래에서 성공하려면, 기술적 도구의 활용뿐 아니라 인간 고유의 창의성과 판단력을 지속적으로 개발하는 것이 핵심이다.
💭 생각해볼 점
동굴벽화에 그림을 그리던 원시 인류부터 AI와 함께 코드를 작성하는 현재까지, 우리는 표현 도구의 끊임없는 진화를 목격해왔다. 특히 과학기술 저작 분야에서는 R + LaTeX의 분리된 워크플로우에서 시작해, R Markdown과 Jupyter의 통합 환경을 거쳐, Quarto의 다중 언어 지원에 이르기까지 불과 20여 년 만에 놀라운 변화를 경험했다. 그리고 이제 우리는 자연어로 의도를 표현하면 AI가 구현을 담당하는 4세대 AI-Native 시대에 들어섰다. 이러한 패러다임 전환은 단순한 도구의 교체를 넘어서, 창의성과 전문성의 본질에 대한 근본적 질문을 던진다.
하지만 AI 시대의 과학기술 저작은 장밋빛 미래만을 약속하지는 않는다. 할루시네이션으로 인한 거짓 정보 생성, 비결정적 출력으로 인한 재현성 위기, 저작권과 윤리적 딜레마 등은 우리가 반드시 해결해야 할 과제들이다. 더욱 중요한 것은 Human-in-the-Loop 시스템에서 인간의 역할을 어떻게 재정의할 것인가의 문제다. AI가 코드를 생성하고 분석을 수행하는 시대에, 인간 연구자는 창의적 사고와 직관, 비판적 검증 능력, 윤리적 판단력을 더욱 예리하게 갈고닦아야 한다. 동시에 기존 도구들(HWP, Word, LaTeX)과 새로운 AI-Native 도구들 사이의 현실적 공존 전략도 마련해야 한다.
그렇다면 한국의 문서 문화는 어떻게 변화해야 할까? 아직도 많은 조직에서 HWP와 DOCX 파일을 주고받으며 “최종본_진짜최종_검토완료.hwp” 같은 파일명으로 버전을 관리하고 있다. 하지만 이제는 문서 코드화(Document as Code) 패러다임을 통해 문서를 코드처럼 버전 관리하고, AI와 협업하며, 다양한 형태로 자동 출력하는 시대가 도래했다. 다음 장에서는 기존의 HWP/DOCX 중심 문화를 넘어서서, 재현 가능하고 협업이 용이한 새로운 문서 시스템을 어떻게 구축할 수 있는지 구체적으로 살펴보겠다.
카펜트리 현대 과학기술 저작(Modern Scientific Authoring)을 번역한 것입니다.↩︎
플로터(plotter): 그래프나 도형, CAD, 도면 등을 출력하기 위한 대형 출력장치다.↩︎