2 HWP/DOCX를 넘어서
김 박사는 3년 전 작성한 연구보고서의 업데이트 작업을 앞두고 있었다. 프로젝트 연장으로 동일한 방법론을 사용해 새로운 데이터를 분석해야 하는 상황이었다. 하지만 문제는 곧 명확해졌다.
보고서 파일 이름은 ‘최종보고서_진짜최종_v3.hwp’였다. 문서를 열어보니 아름다운 그래프와 정교한 분석표가 가득했지만, 이것들이 어떻게 만들어졌는지는 알 수 없었다. 데이터 폴더에는 ’data_0315.xlsx’, ‘data_modified.csv’, ‘final_data_backup.xlsx’ 등 유사한 파일명이 혼재했다. 어떤 파일이 실제로 사용된 데이터인지, 어떤 프로그램으로 분석했는지, 어떤 설정값을 사용했는지에 대한 기록은 전혀 남아있지 않았다.
이는 한국의 과학기술 연구자들이 일상적으로 마주하는 현실이다. 연구 과정에서 생성되는 그래프, 표, 계산 결과들이 최종 문서에는 완벽하게 정리되어 있지만, 그 생성 과정과 방법론은 연구자 개인의 기억에만 의존하고 있다. 연구의 재현성과 검증가능성이 강조되는 시대에 이런 방식의 문서 작성은 과학적 투명성의 심각한 걸림돌이 되고 있다.
2.1 파일 구조로 보는 두 방식의 차이
그림 2.1 은 기존 HWP 방식과 문서 코드화 방식의 실제 파일 구조를 비교한 것이다. 김 박사가 마주한 상황이 왜 발생하는지, 그리고 어떻게 해결할 수 있는지 명확하게 보여준다.
그림 2.1 에서 볼 수 있듯이, 기존 방식은 파일들이 체계 없이 흩어져 있어 3년 후 어떤 파일이 실제로 사용된 것인지 파악하기 어렵다. 반면 문서 코드화(Document as Code) 방식은 모든 구성요소가 명확한 역할과 위치를 가지며, Git을 통해 완전한 이력 추적이 가능하다.
2.2 HWP 생태계 도구
그림 2.2 은 현재 한국 연구 환경에서 일반적으로 사용되는 소프트웨어 도구 체인을 보여준다. 각 단계마다 서로 다른 상용 소프트웨어를 사용하며, 단계 간 연결은 전적으로 수동 작업에 의존한다.
그림 2.2 에서 볼 수 있듯이, 한국의 연구 워크플로우는 4개의 독립된 단계로 구성된다. 각 단계는 마치 섬처럼 고립되어 있으며, 단계 간 이동은 오직 연구자의 수작업에 의해서만 가능하다. 이러한 단절된 구조는 데이터에서 시작하여 최종 보고서에 이르기까지 수많은 파일 변환과 형식 전환을 요구한다. 더 심각한 것은 각 단계별로 전혀 다른 기업의 소프트웨어를 사용해야 한다는 점이다. Microsoft의 Excel, IBM의 SPSS, OriginLab의 Origin, 한글과컴퓨터 HWP까지 - 이들은 서로 전혀 호환되지 않는 독자적인 파일 형식을 사용한다. 그림 2.3 은 이러한 파편화된 워크플로우가 실제로 어떻게 진행되는지, 각 전환 과정에서 어떤 문제들이 발생하는지를 구체적으로 보여준다.
연구의 첫 단계인 데이터 수집에서는 주로 Excel을 사용한다. 연구자들은 설문지 데이터를 입력하고 기초적인 정리 작업을 수행하지만, 원본 데이터와 가공 데이터가 동일한 파일에 혼재되어 있어 추후 원시 데이터를 추적하기 어렵다. 더욱 심각한 것은 데이터 검증과 정제 과정에 대한 어떠한 기록도 남지 않는다는 점이다.
두 번째 단계인 통계 분석에서는 연 200만원의 SPSS나 연 300만원의 SAS와 같은 고가의 상용 소프트웨어를 사용한다. SPSS는 GUI 기반 통계 분석을, SAS는 고급 통계 모델링을 제공하지만, 분석 과정이 마우스 클릭 위주로 진행되어 동일한 분석을 재현하기가 극히 어렵다. 분석에 사용된 설정값과 옵션들이 전혀 기록되지 않아, 몇 개월 후에는 연구자 본인조차 어떻게 분석했는지 기억하지 못하는 경우가 빈번하다.
세 번째 단계인 시각화에서는 연 100만원의 Origin이나 Excel 차트 기능을 활용한다. Origin은 과학기술 분야에 특화된 전문 그래프 도구이며, Excel은 간단한 시각화에 사용된다. 하지만 이렇게 생성된 그래프들은 PNG나 JPG 이미지 파일로 저장되면서 원본 데이터와의 연결이 완전히 끊어진다. 데이터가 수정되어도 그래프를 자동으로 업데이트할 방법이 없다.
마지막 단계인 문서 작성에서는 연 15만원의 HWP를 사용하여 최종 보고서를 작성한다. 앞선 세 단계에서 생성된 모든 결과물들을 수동으로 복사하여 붙여넣기 방식으로 통합해야 한다. 만약 데이터를 업데이트해야 한다면, 이 모든 단계를 처음부터 다시 수행해야 하는 비효율적인 구조다. 각 단계 사이의 연결은 오직 연구자의 수작업에 의존하며, 이 과정에서 오류가 발생하거나 정보가 손실될 가능성이 매우 높다.
그림 2.2 에서 보듯이 개인 연구자 한 명이 완전한 연구를 수행하려면 Excel(연 15만원), SPSS(연 200만원), Origin(연 100만원), HWP(연 15만원) 등 연간 총 630만원의 라이선스 비용을 지불해야 한다. 조직 규모별로는 연구실(10명) 약 6,300만원, 학과(50명) 약 3억원, 대학(500명) 약 30억원의 라이선스 비용이 매년 발생한다.
하지만 진짜 문제는 직접적인 라이선스 비용이 아니다. 교육과 훈련의 무한 반복에서 각 소프트웨어마다 별도의 교육이 필요하며, 신입 연구원은 4개의 서로 다른 도구를 모두 습득해야 한다. 더욱 문제인 것은 버전이 업그레이드될 때마다 기존 사용법이 바뀌어 재교육이 필요하다는 점이다.
호환성 지옥도 큰 문제다. SPSS 2023에서 만든 파일이 SPSS 2022에서 열리지 않고, Excel 365와 Excel 2019 간에는 차트 호환 문제가 발생한다. HWP는 버전이 다르면 서식이 완전히 깨져버리는 경우가 일상적이다.
데이터 손실의 공포는 연구자들이 가장 두려워하는 부분이다. “3년간 작업한 SPSS 파일이 갑자기 열리지 않습니다. 백업도 모두 손상된 상태고… 졸업 논문이 위험합니다.” 이는 대학원생 A씨가 연구실에 보낸 절망적인 이메일의 내용이다. 바이너리 파일 형식의 특성상 파일이 손상되면 복구가 거의 불가능하며, 이러한 단일 지점 실패(Single Point of Failure)는 수년간의 연구 성과를 한 순간에 무너뜨릴 수 있다.
2.3 재현 불가능한 연구
갈릴레이가 망원경으로 목성의 위성을 관찰한 후 다른 천문학자들이 같은 결과를 재현할 수 있었기에 지동설이 정설이 되었고, 뉴턴의 만유인력의 법칙이 전 세계 어디서나 동일하게 검증될 수 있었기에 현대 물리학의 기초가 되었다. 재현성(Reproducibility)은 단순히 연구 방법론의 하나가 아니라 과학 그 자체의 핵심이다. 재현할 수 없는 연구 결과는 과학이 아니라 일화에 불과하며, 재현성 없는 연구에 투입된 시간과 예산은 모두 낭비가 된다.
2.3.1 무서운 일화
김 박사와 유사한 상황은 전 세계적으로 빈번하게 발생하고 있다. 과학기술 연구자들이 국가 예산을 받아 밤낮으로 연구하여 훌륭한 결과를 얻게 되어 유명한 저널에 논문을 제출했다. 심사 과정에서 심사자들이 새로운 그래프와 연관된 추가 분석을 요구했다. 연구자들은 심사자들 의견을 반영하여 수정 작업에 들어가 새로운 그래프를 만들었지만, 이전 그래프와 일관성이 없다는 것을 파악하게 되었고, 더 문제가 되는 것은, 원래 결과를 만들 때 사용했던 일부 데이터를 유실했을 뿐만 아니라, 분석에 사용된 핵심 변수도 기억나지 않는다는 것이다. 그렇게 원고는 서랍 속에 방치된 채로 현재까지 남아 있다.
2.3.2 재현성 위기의 실태
최근 몇 년 사이, 많은 과학연구에서 재현이 어렵다는 사실이 밝혀지면서 이 문제가 점점 더 큰 관심을 끌고 있다. 실제로, 2016년 ’네이처’에서 실시한 설문 조사 결과에 따르면, 모든 과학 영역에서 재현 불가능한 실험이 주요한 문제로 지적되고 있다.(Baker, 2016)
2011년 버지니아 대학교 브라이언 노섹(Brian Nosek) 교수가 이끄는 270명의 연구자들이 심리학계를 발칵 뒤집을 실험에 착수했다. Science지에 발표된 100편의 논문을 그대로 재현해보는 것이었다. 결과는 충격적이었다. 오리지널 논문에서 97%가 통계적으로 유의한 결과를 보고했지만, 재현 시도에서는 단 36%만 유의한 결과가 나왔다. 의학 분야는 더 심각했다. 2012년 바이엘 제약의 연구진이 53편의 암 연구 논문을 재현하려 했지만 단 6편(11%)만 성공했다. “믿을 수 있는 과학”의 근간이 흔들린 것이다.
- 실험 수행방법과 데이터 생성 과정에 대한 상세한 문서화 부족
- 연구에서 원래 결과를 도출하기 위해 사용된 데이터에 접근 불가능.
- 결과를 만들어낸 원본 소프트웨어 접근 불가능.
- 원본 결과를 생성할 때 사용된 소프트웨어 환경(예: 패키지, 버전) 재현 어려움.
그런데 현재 한국의 HWP 생태계는 이러한 과학의 기본 원칙을 근본적으로 파괴하고 있다. 연구자가 SPSS에서 마우스 클릭을 통해 통계 분석을 수행할 때, 정확히 어떤 옵션을 선택했는지, 어떤 설정값을 사용했는지에 대한 기록이 전혀 남지 않는다. 연구자 본인조차도 6개월 후에는 자신이 어떻게 분석했는지 기억하지 못한다. “T-검정을 했다”는 것은 기억하지만, 등분산성 검정을 했는지, 양측 검정인지 단측 검정인지, 유의수준은 얼마로 설정했는지는 완전히 사라진다. 결국 같은 데이터로 같은 분석을 하려고 해도 미묘하게 다른 결과가 나오거나, 아예 재현이 불가능한 상황이 발생한다.
Origin에서 생성한 그래프도 마찬가지다. 아름다운 과학 그래프가 PNG 이미지로 저장되는 순간, 해당 그래프를 만든 원본 데이터와 설정 정보는 모두 사라진다. 6개월 후 데이터가 업데이트되어 그래프를 수정해야 할 때, 연구자는 “이 축의 범위를 어떻게 설정했더라? 이 색깔은 왜 선택했더라?”라는 질문 앞에서 무력해진다. 결국 처음부터 다시 그래프를 그리게 되고, 이번에는 또 다른 스타일이 되어버린다.
새로운 연구원이나 대학원생이 기존 연구에 참여하려 할 때 상황은 더욱 절망적이다. 우선 모든 소프트웨어 라이선스를 구매해야 하는데, 이는 연간 630만원이라는 거대한 진입 장벽을 의미한다. 설령 비용 문제를 해결했다 하더라도, 각 도구별 사용법을 학습하는 데만 수개월이 걸린다. 그런데 가장 치명적인 것은 기존 분석 과정을 역추적하는 것이 사실상 불가능하다는 점이다. 선배 연구자가 아무리 친절하게 설명해도 “SPSS에서 이렇게 클릭하고 저렇게 클릭했다”는 설명으로는 정확한 재현이 불가능하다. 결국 새로운 연구원은 기존 연구를 이어받지 못하고 처음부터 새로 시작해야 한다.
이러한 재현성 위기는 과학기술의 근간을 흔들고 있다. 동료 검토(Peer review) 과정에서 심사위원이 연구 방법을 검증하려 해도 “SPSS로 분석했다”는 막연한 설명 외에는 구체적인 검증 방법이 없다. 연구 부정행위 의혹이 제기되어도 원본 분석 과정을 추적할 방법이 없어 진실 규명이 어렵다. 국제 공동연구에서 해외 연구자들이 “당신들의 분석 과정을 공유해 달라”고 요청해도 HWP 파일과 한글로 작성된 불투명한 분석 노트만 전달할 수 있을 뿐이다. 결국 연구는 국제적으로 고립되고, 글로벌 과학 공동체에서 신뢰받지 못하는 결과를 낳는다.
2.4 국제적 고립 문제
한국 연구자들이 국제 학술지에 논문을 발표한 후 경험하는 일들은 충격적이다. 해외 연구기관에서 관심을 보이며 협업을 제안해오지만, 연구 자료를 공유하는 단계에서 걸림돌이 발생한다. HWP 파일은 대부분의 해외 기관에서 열 수 없고, SPSS나 SAS 같은 고가 소프트웨어의 라이선스를 보유하지 않은 연구기관이 많다. “파일을 다른 형식으로 변환해 달라”는 요청이 반복되면서 협업의 열정은 점차 식어간다.
더 심각한 것은 현재 글로벌 과학 연구의 패러다임이 완전히 바뀌고 있다는 점이다. Nature와 Science 같은 최상위 학술지들은 이미 코드와 데이터 공개를 의무화했다. 미국의 NIH(국립보건원)와 NSF(국립과학재단)는 연구비 지원 조건으로 재현가능한 연구를 요구하고 있으며, 유럽연합(EU)의 ‘호라이즌 유럽(Horizon Europe)’ 프로그램도 오픈사이언스 원칙을 강력히 추진한다. 전 세계 연구 공동체가 투명성과 재현성을 바탕으로 한 새로운 연구 문화로 이동하고 있다(European Commission, 2021; National Institutes of Health, 2020; Nature Portfolio, 2023; Perkel, 2016).
그러나 한국의 연구 환경은 여전히 바이너리 파일 형식과 상용 소프트웨어에 의존하며 이러한 국제 표준에서 멀어지고 있다. 한국 연구자들이 아무리 훌륭한 연구를 수행해도, 그 결과를 국제적으로 검증 가능한 형태로 공유할 수 없다면 글로벌 과학 공동체에서 고립될 수밖에 없다. 이는 단순히 기술적 불편함이 아니라 한국 과학기술의 국제 경쟁력을 근본적으로 훼손하는 구조적 문제다.
2.5 차세대 과학기술 연구원 딜레마
대학원에 갓 입학한 김 모 씨(26세)는 연구실에서 전달받은 소프트웨어 목록을 보고 경악했다. Excel, SPSS, Origin, HWP까지 연간 총 630만원의 라이선스 비용이 필요하다는 것이다. 최저임금 아르바이트로 3개월 이상 쉬지 않고 일해야 마련할 수 있는 돈이다. 부모님께 손을 벌리기에는 너무 큰 금액이고, 그렇다고 연구를 포기할 수도 없는 상황이다. 결국 김 씨는 연구실의 공용 라이선스에 의존하며 연구를 시작했지만, 언제든 라이선스가 만료되거나 동시 사용자가 초과되면 작업이 중단될 수 있다는 불안감에 시달린다.
더욱 기가 막힌 것은 이렇게 비싼 비용을 들여 습득한 기술이 졸업 후에는 거의 쓸모가 없다는 점이다. 김 씨가 희망하는 데이터 과학 직군에서는 파이썬과 R이 표준이고, 분석 결과는 주피터 노트북이나 R/쿼토 마크다운으로 공유한다. 그런데 3년간 SPSS의 마우스 클릭에만 익숙해진 김 씨는 코딩 한 줄 작성할 줄 모른다. 동기들은 이미 GitHub에서 오픈소스 프로젝트에 기여하며 포트폴리오를 쌓아가는데, 김 씨의 컴퓨터에는 HWP 파일과 SPSS 결과창 스크린샷만 가득하다.
국제 학회에서의 경험은 더욱 충격적이었다. 해외 연구자들은 발표 후 즉석에서 주피터 노트북을 열어 분석 과정을 실시간으로 보여주며 질문에 답변한다. 데이터를 바꿔서 다시 분석해보자는 요청도 몇 분 만에 처리한다. 반면 김 씨는 “SPSS에서 이렇게 클릭했다”는 애매한 설명밖에 할 수 없었고, 재현성에 대한 질문에는 답변조차 하지 못했다. 그 순간 김 씨는 자신이 글로벌 연구 환경에서 얼마나 뒤처져 있는지 깨달았다.
이런 상황은 김 씨만의 문제가 아니다. 전국의 수많은 대학원생들이 동일한 딜레마에 빠져 있으며, 일부는 해외 대학원으로 진학하거나 아예 연구를 포기하고 있다. 한국이 자랑하는 우수한 젊은 인재들이 낡은 도구 생태계 때문에 국제 경쟁에서 도태되고 있는 것이다. AI와 빅데이터가 과학 연구의 핵심이 되어가는 시대에, 여전히 마우스 클릭에 의존하는 연구 환경은 한국 과학기술의 미래를 심각하게 위협하고 있다. 변화하지 않으면 10년 후 한국은 글로벌 연구 네트워크에서 완전히 소외될 수 있다.
2.6 결과물 중심 문화의 명과 암
김 박사의 사례는 우연히 발생한 개인적 실수가 아니다. 이는 지난 60년간 한국이 추구해온 성공 방정식의 필연적 결과다. 1960년대부터 2020년까지 한국이 세계 최빈국에서 GDP 10위권 경제대국으로 성장한 핵심 전략은 바로 패스트 팔로워(Fast Follower) 방식이었다. 선진국이 만든 제품을 빠르게 벤치마킹하고, 더 나은 품질의 결과물을 더 저렴하게 생산하는 것이 한국식 성장 모델이었다.
이 전략에서는 프로세스보다 결과물이 절대적으로 중요했다. 일본이 어떤 과정을 거쳐 전자제품을 만들었는지는 중요하지 않았다. 완성된 제품을 분해해서 리버스 엔지니어링하고, 더 효율적으로 대량생산할 수 있다면 그것으로 충분했다. 삼성과 LG가 소니를 추월하고, 현대가 일본 자동차 업체들과 경쟁할 수 있었던 것도 이런 결과물 중심 문화 덕분이었다. 빠른 의사결정과 실행력, 가시적 성과 중심의 평가 시스템, 완성도 높은 최종 산출물로 국제 시장에 진출하는 전략이 먹혔다.
연구 문화에서도 이러한 방식이 그대로 적용되었다. HWP로 작성된 아름다운 보고서가 한국 연구의 상징이 되었고, 그래프와 표가 “예쁘게” 나오는 것이 연구의 품질을 좌우했다. 결과 도출 과정은 개인의 노하우로 치부되었고, 원시 데이터와 분석 코드는 “부산물”로 인식되었다. 보고서의 시각적 완성도가 연구의 투명성이나 재현가능성보다 훨씬 중요했다.
그런데 2020년대 들어 상황이 완전히 바뀌었다. 한국이 더 이상 추격자가 아닌 선도자 위치에 서게 된 것이다. 반도체 메모리에서 삼성은 세계 1위이고, 배터리 분야에서는 LG에너지솔루션과 SK이노베이션이 글로벌 톱3에 들어있다. BTS와 넷플릭스 오리지널 K-드라마는 전 세계 문화 콘텐츠를 선도하고 있다. 이제 한국이 길을 만들어야 하는 시대가 온 것이다.
퍼스트 무버(First Mover)가 되려면 게임의 룰이 완전히 달라진다. ’무엇’보다 ’어떻게’가 중요해진다. 시행착오와 실험 과정 자체가 혁신의 원천이 되고, 과정을 투명하게 공유하는 것이 신뢰의 기초가 된다. ChatGPT를 개발한 OpenAI가 연구 과정과 모델 아키텍처를 공개한 덕분에 전 세계 연구자들이 함께 AI를 발전시킬 수 있었던 것처럼, 투명한 프로세스가 국제 협력의 전제조건이 된다.
더 결정적인 것은 AI 시대가 도래한 것이다. ChatGPT가 몇 초 만에 완벽한 보고서를 작성하는 시대에, 인간의 가치는 결과물 생산에 있지 않다. 문서 작성보다는 문서 생성 과정을 설계하는 능력이 핵심 역량이 되었다. 데이터를 어떻게 수집하고, 어떤 가정을 세우고, 어떤 방법론을 선택할지 결정하는 프로세스가 AI보다 중요한 인간의 영역이다. 그런데 한국의 연구자들은 여전히 SPSS 마우스 클릭과 HWP 서식 맞추기에 시간을 쏟고 있다.
변화하지 않으면 “패스트 팔로워의 저주”에 빠질 수 있다. 추격할 때는 강했지만 선도할 때는 약한, 영원한 2등의 함정 말이다. 이제 한국이 만든 연구 프로세스가 글로벌 표준이 되어야 하고, 한국 연구자들의 방법론을 전 세계가 배워야 하는 시대가 왔다. 그러려면 무엇보다 연구의 모든 과정이 투명하고 재현 가능해야 한다.
2.7 버전 관리 개념 부재
“최종_진짜최종_v2.hwp” - 이 절망적인 파일명을 본 적이 있는가? 3년 전 김 박사가 겪었던 그 상황이 지금도 전국의 연구실에서 반복되고 있다. 연구자들은 여전히 파일명에 날짜와 버전 번호를 붙여가며 스스로를 속이고 있다. “이번이 정말 마지막 수정”이라고 다짐하지만, 며칠 후 또 다른 수정 요청이 들어오고, 파일명은 점점 더 비참해진다.
소프트웨어 개발자들은 이런 상황을 20년 전에 해결했다. 리누스 토발즈가 Git을 만든 것은 Linux 커널 개발에 참여하는 수천 명의 개발자들이 서로 충돌하지 않고 협업할 방법이 필요했기 때문이다. 지금 Linux 커널은 전 세계 수만 명의 개발자가 동시에 작업하지만, 모든 변경사항의 누가, 언제, 왜를 완벽하게 추적한다. 어떤 줄을 누가 언제 왜 바꿨는지 모든 기록이 남아있고, 필요하면 10년 전 버전으로도 단숨에 돌아갈 수 있다.
반면 한국의 연구 현실은 처참하다. HWP의 바이너리 파일 형식 때문에 누가 무엇을 바꿨는지 추적할 방법이 없다. “김 교수님이 수정한 부분이 어디죠?”라는 질문에 답할 수 없다. 여러 명이 동시에 작업하면 파일이 충돌하고, 누군가의 작업은 사라진다. 이전 버전으로 돌아가려면 백업 폴더를 뒤져야 하고, 그마저도 확실하지 않다. 연구 과정에서 벌어진 모든 시행착오와 의사결정 과정은 연구자의 기억 속에서만 존재한다.
Git과 텍스트 기반 문서가 가져온 혁명을 상상해보자. 모든 변경사항이 한 줄 단위로 추적되고, 6개월 전 특정 시점의 버전으로 언제든 돌아갈 수 있다. 10명의 연구자가 동시에 같은 문서를 수정해도 자동으로 병합된다. 누가 언제 어떤 이유로 특정 문장을 추가했는지 모든 기록이 남아있다. 실수를 했다면? 한 번의 명령으로 되돌린다. 새로운 아이디어를 실험해보고 싶다면? 브랜치를 만들어 마음껏 시도한 후 성공하면 합치고, 실패하면 버린다.
실제로 발표된 한 연구(Wilson 기타, 2017)는 다양한 국적을 갖는 16명 연구자가 Git을 사용해 공동으로 작성했다. 총 324개 커밋이 기록되었고, 각 연구자의 기여도가 투명하게 드러났다. 만약 이 작업을 HWP로 했다면? “최종_진짜최종_김교수_박교수_이교수_리교수_스미스교수_v27.hwp” 같은 악몽 같은 파일명이 탄생했을 것이다. 그리고 누가 무엇을 기여했는지, 어떤 아이디어가 언제 어떻게 발전했는지 추적할 방법이 전혀 없었을 것이다.
버전 관리는 단순한 기술적 편의성을 넘어 연구 문화를 근본적으로 바꾼다. 실수를 두려워하지 않는 실험 문화가 생긴다. 언제든 되돌릴 수 있으니까 과감한 시도가 가능하다. 투명한 기여도 평가로 공정한 저자권 분배가 이루어진다. 그리고 AI 시대에는 프롬프트 자체도 버전 관리 대상이 된다. “이 결과를 생성한 정확한 프롬프트가 뭐였지?” 하는 질문에 즉답할 수 있어야 한다.
한국 연구자들이 여전히 “최종_진짜최종” 파일명 게임을 하고 있는 동안, 전 세계는 이미 완전히 다른 차원에서 협업하고 있다. 변화하지 않으면 영원히 따라잡을 수 없는 격차가 벌어질 것이다.
2.8 오픈 사이언스 시대
2020년 1월, COVID-19 바이러스의 유전자 서열이 공개되자 전 세계 연구자들이 즉시 백신 개발에 착수했다. 11개월 만에 백신이 개발된 기적의 배경에는 오픈 사이언스가 있었다. 데이터, 코드, 연구 과정 모두가 실시간으로 공유되었고, 지구 반대편의 연구자가 새벽에 올린 결과를 아침에 다른 대륙의 연구자가 이어받아 발전시켰다.
그런데 한국의 김 박사는 이러한 거대한 협업의 물결에 제대로 참여할 수 없었다. 왜일까? 그의 연구 데이터는 SPSS 파일로, 분석 스크립트는 없고, 결과는 HWP 문서에 이미지로만 존재했다. GitHub에 올릴 수도, Docker 컨테이너로 재현 환경을 만들 수도 없었다. 오픈 사이언스 시대에 그는 여전히 폐쇄된 섬에 갇혀 있었던 것이다.
2.8.1 오픈 사이언스 시대의 도래
전 세계는 이미 오픈 사이언스 혁명을 겪고 있다. 2020년 COVID-19 팬데믹 때 11개월 만에 백신이 개발될 수 있었던 것은 연구 데이터와 코드가 실시간으로 공유되었기 때문이다. GitHub, bioRxiv 같은 플랫폼을 통해 전 세계 연구자들이 24시간 릴레이로 협업했다.
선진국들은 이미 10년 전부터 이 변화를 준비했다. 유럽연합의 ‘Horizon Europe’ 프로그램은 950억 유로(약 130조원)의 연구비 지원 조건으로 모든 데이터와 코드의 공개를 의무화했다. 미국 NIH는 2023년부터 연구비 신청 시 데이터 관리 및 공유 계획(Data Management and Sharing Plan)을 의무 제출하도록 했다. 영국의 웰컴 트러스트는 2025년부터 지원하는 모든 연구의 출판물과 데이터를 완전 공개하도록 정책을 변경했다.
반면 한국의 현실은 절망적이다. 2024년 현재도 국가 R&D 과제 최종보고서의 95% 이상이 여전히 HWP 파일로 제출되고, 연구 데이터는 개인 컴퓨터에 SPSS나 Excel 파일로 방치된다. 분석 과정은 “재료 및 방법” 섹션에 “SPSS 25.0을 이용하여 t-검정을 시행하였다”는 한 줄로 끝난다. 3년간 30억원이 투입된 국가 프로젝트조차 “재현 불가능”한 일회성 보고서로 끝나는 것이다.
2.8.2 HWP 생태계가 만든 장벽
오픈 사이언스의 핵심은 접근성과 재현성이다. 그런데 HWP 중심 한국 연구 생태계는 정확히 그 반대로 작동한다. 해외 유수 대학의 연구자들이 종종 “한국의 연구를 검증하고 싶다”고 요청하는 상황을 가정해보자. 오픈 사이언스 환경이라면 GitHub에서 코드를 다운받고, requirements.txt로 환경을 구축하고, 데이터를 불러와 30분 안에 결과를 재현할 수 있었을 것이다. 하지만 현실은 달랐다.
먼저 HWP 파일을 열기 위해 한글과컴퓨터 소프트웨어를 구매해야 했다(15만원). 그런데 논문에서 언급한 SPSS 분석을 재현하려면 또 다른 200만원짜리 라이선스가 필요했다. 설령 소프트웨어 문제를 해결했다 하더라도, 정작 분석에 사용된 구체적인 코드는 어디에도 없었다. “SPSS 25.0으로 일원분산분석을 시행하였다”는 한 줄의 설명만 있을 뿐, 어떤 사후 검정을 사용했는지, 결측치는 어떻게 처리했는지, 이상치 제거 기준은 무엇인지 알 수 없었다. 결국 해외 연구자들은 “재현 불가능”이라는 냉정한 결론을 내릴 수밖에 없었다.
반대로 개발도상국의 한 대학원생이 보여준 사례는 감동적이다. 그는 열대병 백신 개발에 대한 혁신적 아이디어를 떠올렸지만, 상용 소프트웨어를 살 돈이 없었다. 그러나 GitHub에 공개된 해외 유수 대학의 연구 코드를 발견했다. 파이썬과 R로 작성된 이 코드를 무료로 다운받아 자신의 아이디어를 구현했고, 결국 국제 학술지에 연구 성과를 발표할 수 있었다. 경제적 제약이 있었음에도 불구하고 세계 최고 수준의 연구에 참여할 수 있었던 것은 오픈 사이언스 생태계 덕분이었다.
만약 이런 개발도상국 연구자들이 한국의 HWP 기반 연구만 참고할 수 있었다면 어떻게 되었을까? 애초에 접근조차 할 수 없었을 것이다. 우리는 스스로 지식의 장벽을 쌓고, 뛰어난 인재들을 배제하며, 글로벌 혁신의 기회를 놓치고 있는 셈이다. 한국의 연구가 세계적 수준임에도 불구하고 그 영향력이 제한적인 이유가 바로 여기에 있다.
2.8.3 한국 연구의 국제 경쟁력 위기
하지만 변화하지 않으면 도태는 불가피하다. 2024년 “가장 영향력 있는 연구 100선”을 보면 97개가 GitHub에 코드를 공개했고, 94개가 데이터를 공유했으며, 89개가 Docker나 Binder로 재현 환경을 제공했다. 한국 연구는? 상위 100개 중 단 3개만 포함되었고, 그마저도 재현성 측면에서 낮은 점수를 받았다.
2025년부터 Nature와 Science는 코드 공개 없는 논문의 게재를 거부하기로 결정했다. EU와 미국의 주요 연구비 지원 기관들도 재현 가능한 연구만을 지원한다. 한국이 계속 HWP 생태계에 머물러 있다면, 10년 후에는 글로벌 과학 공동체에서 완전히 소외될 수 있다.
김 박사가 3개월 전에 제출한 연구 보고서에서 데이터 오류가 발견되었다. 원본 Excel 파일의 몇 개 셀에 잘못된 값이 입력되어 있었던 것이다. 단순한 수정처럼 보이지만, 실제로는 악몽의 시작이다.
데이터를 수정하고 나서 김 박사는 혼란에 빠진다. “이 그래프들을 어떤 설정으로 만들었더라?” 당시 사용한 Excel 차트 옵션, 색상 설정, 축 범위 등을 정확히 기억하지 못한다. 더 심각한 것은 어떤 그래프가 어떤 데이터에서 나온 건지조차 불분명하다는 점이다.
결국 모든 그래프를 처음부터 다시 만들어야 하고, HWP 문서에서 기존 이미지를 찾아 하나씩 교체해야 한다. 하지만 새로 만든 그래프가 기존과 정확히 같은 모양일 보장은 없다. 레이아웃이 미묘하게 달라지면 보고서 전체의 형식이 깨진다.
이런 상황이 바로 재현성 위기의 실상이다. 연구자 본인조차 자신의 연구를 제대로 재현할 수 없는 것이다.
💭 생각해볼 점
연구실 컴퓨터에 저장된 파일 목록을 한 번 떠올려 본다. ‘최종_진짜최종_v3.hwp’, ‘data_modified_20240315.xlsx’, ‘그래프_수정본2.png’ 같은 파일명들이 떠오를 것이다. 각 파일이 언제 만들어졌고 어떤 과정을 거쳐 지금의 모습이 되었는지는 아무도 모른다. 이것이 바로 매일 마주하는 현실이다. 연간 630만원 소프트웨어 라이선스 비용을 지불하면서도 3개월 전 분석을 재현할 수 없고, 국제 공동연구 제안이 와도 HWP 파일 때문에 협업이 막힌다. 한국의 연구가 글로벌 과학 공동체에서 고립되는 것은 언어 장벽이 아니라 도구 장벽 때문이다.
이제 선택의 순간이다. 계속해서 ’패스트 팔로워’의 안전지대에 머물 것인가, 아니면 ’퍼스트 무버’로서 새로운 길을 개척할 것인가. ChatGPT가 보고서를 대신 작성하는 시대가 왔다. 이제 중요한 것은 문서를 예쁘게 만드는 능력이 아니라, 연구 과정을 투명하게 설계하고 재현 가능하게 만드는 능력이다. Git으로 모든 변경사항을 추적하고, 코드로 분석 과정을 기록하며, 플레인 텍스트로 100년 후에도 읽을 수 있는 문서를 만드는 것. 이것이 바로 문서 코드화가 가져올 변화다.
다음 장에서는 이러한 문제들을 해결할 수 있는 구체적인 방법론인 재현가능한 연구(Reproducible Research)를 다룬다. 데이터, 코드, 내러티브를 하나로 통합하여 10년 후에도, 지구 반대편에서도, 누구나 완벽하게 재현할 수 있는 연구를 만드는 방법을 배운다. HWP 생태계의 구조적 한계를 넘어 진정한 오픈 사이언스의 세계로 나아가는 첫걸음이 될 것이다.