창고에서 발견된 상자
2023년 11월 쌀쌀한 오후, 연세대학교 지질학과 대학원생 이민수는 신촌 캠퍼스 구석에 자리한 오래된 창고에서 청소 작업을 하고 있었다. 학과 이전을 앞두고 수십 년간 쌓인 자료들을 정리하는 것은 지겨운 일이었다. 먼지투성이 상자들 대부분은 1970년대와 80년대 학회 자료나 오래된 교재들로 가득했다.
그런데 창고 가장 깊숙한 곳, 벽 모퉁이에서 다른 상자들과는 확연히 다른 물건을 발견했다. 짙은 갈색의 가죽 케이스였는데, 크기는 서류 가방 정도였지만 훨씬 더 두꺼워 보였다. 가죽 표면은 세월의 흔적으로 여기저기 갈라져 있었고, 금속 잠금장치는 녹이 슬어있었다. 하지만 놀라운 것은 케이스 윗면에 희미하게 남아있는 글씨였다.
“Antarctic Survey Expedition 1930-1931”
“Property of Yonhi College Geological Department”
민수의 손이 떨렸다. 연세대학교 전신, 연희전문학교 시절 1930년대 남극 탐사에 참여했다는 이야기를 들어본 적이 있었지만, 그것이 단순한 전설 정도로 여겼었다. 하지만 눈앞에 있는 상자는 분명히 실제였다.
상자를 조심스럽게 열어보는 순간, 민수는 숨을 멈췄다. 그 안에는 마치 타임캡슐처럼 90년 전의 시간이 고스란히 봉인되어 있었다. 누렇게 변색되었지만 놀랍도록 정교한 필체로 쓰여진 측정 노트들, 손으로 그린 지도에 정확하게 표시된 위도와 경도 좌표들, 그리고 무엇보다 가장 흥미로운 것은 수백 페이지에 걸쳐 체계적으로 기록된 과학적 측정 데이터들이었다.
각 페이지마다 날짜, 위치, 측정자, 측정 항목, 수치가 마치 현대의 데이터시트처럼 정확하게 기록되어 있었다. 1930년 2월 8일 DR-1 지점에서 시작된 기록은 1932년 3월까지 계속되었고, 방사선 수치, 염분 농도, 온도 등의 데이터가 빠짐없이 정리되어 있었다. 이는 단순한 탐험 일지가 아니라, 당시로서는 매우 선진적인 과학적 조사 프로젝트의 증거였다.
더욱 놀라운 사실은 이 모든 것이 1930년대 초 연희전문학교가 미국 미스카토닉(Miskatonic) 대학1과의 국제 학술 교류 프로그램의 일환으로 참여한 남극 탐사 프로젝트의 기록이라는 점이었다. 일제강점기라는 어려운 시기에도 한국의 고등 교육기관이 이런 국제적 과학 프로젝트에 참여할 수 있었다는 사실 자체가 역사적 발견이었다.
종이에서 픽셀로
상자 발견 후 민수가 직면한 첫 번째 도전은 이 귀중한 자료들을 어떻게 보존하고 활용할 것인가 하는 문제였다. 노트들은 놀라울 정도로 잘 보존되어 있었지만, 90년의 세월은 결코 무시할 수 없었다. 일부 페이지들은 가장자리가 부서져 있었고, 몇몇 부분의 잉크는 희미해져 판독이 어려웠다. 특히 남극의 혹독한 환경에서 작성된 기록들 중 일부는 눈물이나 습기로 인해 번진 흔적이 있었다.
학과 교수진과의 협의 끝에, 민수는 체계적인 디지털화 프로젝트를 시작하기로 했다. 첫 번째 단계는 물리적 보존이었다. 연세대학교 도서관 고문헌 보존팀과 협력하여 각 페이지를 산성화 방지 처리하고, 온습도가 조절되는 환경에서 보관했다. 일부 찢어진 페이지들은 특수 접착제로 조심스럽게 복원했다.
보존 작업이 완료된 후, 본격적인 디지털 변환 작업이 시작되었다. 각 페이지를 600dpi 이상의 고해상도로 스캔하는 것부터 시작했다. 하지만 단순한 스캔만으로는 충분하지 않았다. 1930년대의 필기체를 현대 기술로 읽어내는 것은 생각보다 복잡한 작업이었다.
OCR(광학 문자 인식) 소프트웨어는 인쇄물에는 효과적이었지만, 90년 전 펜으로 쓰인 필기체에는 한계가 있었다. 특히 극한 환경에서 두꺼운 장갑을 끼고 쓴 부분들은 글씨가 떨리거나 비뚤어져 있어서 자동 인식률이 60% 정도에 그쳤다. 더군다나 각 탐사대원의 필체가 달랐다. Dyer 교수의 글씨는 정교하고 읽기 쉬웠지만, Pabodie의 기록 중 일부는 거의 판독 불가능했고, Roerich의 특이한 숫자 쓰기 방식은 여러 번의 검증이 필요했다.
가장 어려운 부분은 측정값들이었다. “41.6”인지 “4.16”인지, “22.5”인지 “2.25”인지 구분하는 것이 때로는 불가능해 보였다. 이런 경우 민수는 다른 맥락적 단서들을 활용했다. 같은 날의 다른 측정값들, 동일한 측정자의 다른 기록들, 그리고 과학적 상식을 종합하여 가장 합리적인 값을 추정했다. 예를 들어, 일반 해수의 염분 농도가 3.5% 정도라는 점을 고려할 때, Roerich가 기록한 “41.6”이라는 수치는 극단적으로 높았지만, 남극의 특수한 지질 환경을 고려하면 완전히 불가능한 것은 아니었다.
수개월에 걸친 작업 끝에, 민수와 프로젝트 팀은 마침내 완전한 디지털 데이터셋을 구축할 수 있었다. 원본의 구조를 분석한 결과, 데이터들은 자연스럽게 네 가지 범주로 분류되었다: 탐사대원 정보(Person), 측정 지점 좌표(Site), 방문 기록(Visited), 실제 측정 데이터(Survey). 이를 현대적인 관계형 데이터베이스 구조로 설계하여 SQLite 형식 survey.db
파일로 저장했다.
탐사대 기록
디지털화된 기록들을 통해 탐사대의 구성을 재구성할 수 있었다. 1927년부터 1932년까지 약 5년간 진행된 이 프로젝트에는 다섯 명의 핵심 인물들이 참여했다.
첫 번째 이름은 김대영(William Dyer) 교수였다. 연희전문학교 지질학과 교수이자 탐사대의 총책임자였던 그의 이름은 거의 모든 공식 문서에 등장했다. 그의 필기체는 매우 정교했고, 초기 측정 기록들 대부분이 그의 손으로 작성되었다. 1927년 2월 8일 DR-1 지점에서 시작된 최초의 측정값들—방사선 9.82, 염분 농도 0.13—도 모두 Dyer 교수가 기록한 것이었다. 그는 탐사 초기 단독으로 활동하며 기본적인 측정 프로토콜을 확립한 것으로 보인다.
두 번째로 주목할 인물은 박봉식(Frank Pabodie)이었다. 엔지니어 출신인 그는 주로 장비 관리와 기술적 측정을 담당했다. 그의 기록에서 특징적인 것은 온도 측정에 대한 독점적 담당이었다. 1930년대 기록을 보면 모든 온도 측정값이 Pabodie의 이름으로 기록되어 있었는데, 이는 그가 온도 측정 장비의 전문가였음을 시사한다. 그의 필체는 다소 거칠었지만, 수치의 정확성만큼은 의심할 여지가 없었다.
가장 수수께끼 같은 인물은 로이치(Valentina Roerich)였다. 그녀의 이름이 등장하는 것은 1932년부터였는데, 흥미롭게도 그녀가 기록한 측정값들은 다른 탐사대원들과 확연히 달랐다. 22.5와 41.6이라는 극단적인 염분 농도 측정값들이 모두 그녀의 기록에 나타났다. 이 수치들은 일반적인 해수 염분 농도의 6-10배에 해당하는 극값이었다. 처음에는 기록 오류로 의심했지만, 여러 차례 교차 검증 결과 실제 측정값으로 확인되었다.
레이크(Anderson Lake) 박사는 고고학자로서 특별한 지역들을 전담했다. 그의 이름은 주로 MSK-4 지점과 연관되어 나타났는데, 이 지역에서의 염분 농도 측정을 집중적으로 수행했다. 그의 측정값들은 대체로 정상 범위 내에 있었지만, Roerich의 극값들과 같은 시기, 같은 장소에서 측정되어 서로 대조를 이뤘다.
마지막으로 단포스(Frank Danforth)는 대학원생으로서 주로 보조 업무를 담당했다. 그의 이름은 기록에 자주 등장하지 않았지만, 일부 중요한 측정값들이 그의 이름으로 기록되어 있었다. 특히 1932년 말의 몇몇 기록들은 Danforth만이 담당했는데, 이는 다른 탐사대원들에게 무슨 일이 일어났는지 궁금증을 자아냈다.
이들 다섯 명은 각자의 전문 분야에 따라 남극 대륙의 세 지점—DR-1, DR-3, MSK-4—에서 체계적인 측정과 조사를 수행했다. 놀라운 것은 1930년대라는 시대적 한계에도 불구하고 모든 데이터가 현대적 기준으로도 손색없는 과학적 방법론에 따라 정확하게 기록되어 있다는 점이었다. 각 측정마다 날짜, 시간, 위치, 측정자, 측정 방법까지 빠짐없이 기재되어 있어, 90년 후 디지털 분석을 가능하게 만들었다.
90년이 지난 지금: 과거 데이터, 현재 기술
디지털화 작업이 완료되자 민수는 깊은 생각에 잠겼다. survey.db 파일에 담긴 수백 개의 데이터는 90년 전 Dyer 교수가 손으로 한 줄 한 줄 적었던 바로 그 기록들이었다. 1930년 12월, Dyer 교수는 일지에 이렇게 적었다: “Roerich의 측정값이 다른 모든 기록과 상이함. 장비 오류인가, 아니면 특별한 현상인가?” 당시에는 이 질문에 답하기 위해 수백 개의 데이터를 일일이 대조해야 했고, 그것은 몇 주가 걸리는 작업이었다. 패턴을 찾고 통계를 내는 것은 거의 불가능에 가까웠다.
하지만 2025년 현재, 민수에게는 Dyer 교수가 상상도 못했을 두 가지 혁명적인 도구가 있었다. 첫 번째는 SQL이라는 데이터베이스 질의 언어였다. SELECT, WHERE, GROUP BY 같은 명령어로 몇 초 만에 패턴을 찾고, JOIN으로 흩어진 정보를 연결하며, 집계 함수로 복잡한 통계 분석까지 수행할 수 있었다. Dyer 교수가 몇 주에 걸쳐 고민했던 “Roerich의 측정값이 정말 특별한가?”라는 질문에 단 한 줄의 쿼리로 답할 수 있는 것이다.
두 번째는 최근 급부상한 AI 도구들이었다. ChatGPT나 Claude 같은 대화형 AI는 마치 똑똑한 동료처럼 자연어로 질문하면 복잡한 패턴을 직관적으로 찾아주었다. “1930년대 남극 탐사 데이터에서 이상한 점을 찾아줘”라고 물으면, AI가 알아서 여러 가지 가설을 제시해줄 수도 있었다. SQL 문법을 모르는 사람도 쉽게 데이터를 탐색할 수 있게 된 것이다.
그런데 여기서 흥미로운 것은 이 두 도구가 서로 대립하는 것이 아니라 완벽한 보완 관계라는 점이었다. AI는 창의적인 가설을 생성하고 예상치 못한 연결고리를 찾아내는 데 탁월했지만, 때로는 그럴듯하지만 틀린 답을 제시했다. 반면 SQL은 항상 정확하고 검증 가능한 결과를 제공했지만, 올바른 질문을 정확한 문법으로 작성해야만 했다. 민수는 직감적으로 깨달았다. 이 두 도구를 함께 사용하면 90년 전 탐사대가 놓쳤을 수도 있는 진실에 훨씬 더 가까이 다가갈 수 있을 것이라고. AI로 가설을 세우고 SQL로 검증하는 방식이었다. 이것이야말로 2025년 현시점 가능한 새로운 데이터 탐정 방법론이었다.
이 책을 통해 1930년대 남극 탐사대의 데이터를 통해 두 가지를 동시에 배운다. 하나는 SQL의 정확하고 체계적인 데이터 분석 능력이고, 다른 하나는 AI의 직관적 패턴 발견 능력과 그 한계다. 결국 우리는 90년 전 과학자들이 놓쳤을지도 모를 중요한 발견을 하게 될 것이다. 그리고 그 과정에서 현대 데이터 분석의 진정한 지혜—언제 AI를 믿고, 언제 SQL로 검증해야 하는지—를 터득하게 된다.
이 책의 모든 예제는 탐사대 데이터베이스 survey.db
를 사용합니다. SQLite 형식으로 제공되며, 다음과 같은 테이블들을 포함합니다:
- Person: 탐사대원 정보
- Site: 측정 지점 좌표
- Visited: 방문 기록
- Survey: 실제 측정 데이터
각 테이블이 어떻게 연결되어 있는지, 그리고 여기에 숨겨진 이야기가 무엇인지는 다음 장부터 차근차근 알아볼 것이다.
1930년대 남극의 빙하 속에 묻혀있던 비밀들이 이제 우리 앞에 놓여있다. 90년 전 Dyer 교수가 종이와 펜으로 풀지 못했던 수수께끼를, 이제 AI와 SQL이라는 21세기의 도구로 풀어볼 시간이다.
H.P. 러브크래프트의 크툴루 신화에 등장하는 가상의 대학. 1931년 발표된 소설 『광기의 산맥(At the Mountains of Madness)』에서 남극 탐사대를 파견하는 대학으로 등장한다. Software Carpentry의 survey.db 데이터셋이 이 소설에서 영감을 받아 만들어졌기에 대학 이름도 차용했다. 따라서 이 책의 스토리는 허구와 교육적 목적이 결합된 내러티브이다.↩︎