arXiv(아카이브)란 무엇인가?
학계 관련된 뉴스를 보면 ‘논문이 아카이브에 올라왔다’ 그런 표현을 듣지?
최근에 상온 초전도체 뉴스가 이슈화되자, ‘이제 막 아카이브에 올라왔을 뿐’이라는 얘기도 들려오고 말야.
도대체 아카이브란 뭘까? 오늘은 그 아카이브에 대한 이야기 + 논문에 대한 이야기를 해볼까 해.
참고로 나는 수학과 대학원생이고, 다른 학계의 분위기에 대해서는 잘 몰라. 이 글은 어디까지나 수학과 입장에서 쓰였다는 점을 명심해줘.
논문은 연구 및 실험 보고서야. 하지만 세상 만사 모든 일들이 그렇듯 보고서의 내용이 항상 정확하다는 법은 없어.
누군가가 악의를 갖고 의도적으로 조작했을 수도 있고, 아니면 정말 연구자 본인도 모르는 변수가 발생했을 수도 있지.
그래서 논문은 다 쓰였다고 ‘끝났다’가 아니고, 다른 학자들과 함께 꼼꼼히 검토하는 수순을 밟아야 해.
오죽하면 학자는 연구 전에도 쓰고 (연구 제안서), 연구 중에도 쓰고 (논문), 연구 끝나고도 쓴다 (검토 및 학술지 투고 등)는 농담이 있지.
수학 논문같은 경우는 저널(학술지)에 투고할 때, 이런 검토 과정에 들어가. 근데 이 과정이 애지간히 오래 걸린단 말이지. 보통 5~6개월 정도?
저널의 편집위원단이 꼼꼼히 검토한 뒤에 ‘음, 이 논문은 우리 저널에 싣기 적합하군’하고 결론지으면 저널에 게재되지만, 부적합하다고 판단하면 빠꾸를 당하게 되는거야.
물론 빠꾸를 당했다고 그 논문이 틀렸거나 가치가 없다는 것은 아니야. ‘이 논문은 훌륭하지만 우리 저널의 주 관심사와는 다르다' 싶은 이유일 수도 있고 ‘이 논문은 오류가 없지만, 그 결과는 우리 학술지에 싣기엔 부족하다’ 같은 이유일 수도 있지.
그런데 논문은 한 번에 한 저널에만 투고할 수 있어. 논문을 여러 곳에 문어발처럼 냈다가 두 군데에서 게재 승인이 나면 판권에 문제가 생기기 때문이야.
그래서 수학자들은 자신의 논문을 게재 신청할 때 ‘가능성이 낮지만 유명한 저널' vs ‘가능성은 높지만 덜 유명한 저널’ 사이에서 치열한 눈치게임을 해.
가능성이 낮은데에 도전했다가 탈락하면, 그만큼 출간 시점이 늦춰지지. 반대로 덜 유명한 곳에 올렸다가 단번에 붙으면 ‘아차, 조금 더 좋은 곳에 지원할걸’ 후회하고.
이런 이유로 논문 완성 시점과 논문 게재 시점 사이의 큰 시간 간격이 생겨. 그러다보니 ‘언제 증명했나’라는 문제에 봉착하는거야.
예컨대 두 수학자가 비슷한 결과를 증명했는데, 한 명은 재작년에 완성했지만 번번히 저널 심사에 탈락하고 있고, 다른 한명은 올해 초에 완성했고 이름도 안 알려진 저널에 게재됐다면, 둘 중 누구를 최초 증명자로 간주해야할까? 물론 전자가 ‘내가 재작년에 증명했어요’라고 말할 수 있겠지, 하지만 그걸 어떻게 증명해?
그래서 학자들은 ‘논문이 완성된 시점’과 ‘논문이 저널에 공개되는 시점’ 사이에 ‘내가 이 논문을 이 날짜에 완성했다’라고 말뚝을 박는 작업이 필요해. 그것이 바로 아카이브(arXiv)지.

예컨대 이건 내가 작년에 지도교수와 같이 쓴 논문의 아카이브 페이지야.
제목 아래 이름이 있고, 초록이 있어. 그 아래에는 Subjects, 분야가 있고 (분야는 당연히 정수론이지.) 가장 아래에는 Submission history로 version 1, version 2의 공개 날짜가 기록되어 있지. 물론 옛날 버전도 확인할 수 있고 말야. (오른쪽의 pdf를 누르면 논문 전문도 확인할 수 있어.)
이렇게 몇년 몇월 며칠에 등록되었다는 사실이 기록되어있으니 비슷한 결과가 비슷한 시점에 저널에 실리더라도 누가 더 일찍 증명했는지를 판가름할 수 있어.
이렇게 아카이브에만 등록된 논문을 Preprint라고 불러. 아직 출판되기 전의 논문이라는 뜻이야.
반면 출판된 논문은 Publications 혹은 Paper라고 부르지.
또한 논문을 냈는데, 저널이 ‘이거 게재합시다’ 하고 확답을 한 경우 approved 혹은 submitted 라고 불러.
즉 요약하자면 preprint → under review → approved → paper가 되는 셈이지.
아카이브에 실린 논문은 아직 저널 게재 심사를 통과하지 못한 것이므로 인용할 때 주의해야 해.
저널에 게재된 논문이 100% 다 맞다고 할 수는 없지만, 적어도 저널에 실렸다면 나름의 엄중한 검토 과정을 거쳤다는 뜻이지. (물론 그런 검토도 하지 않고 돈만 주면 승인해주는 저질 저널도 있긴 해.) 하지만 아카이브 논문은 막말로 옆집 쥐돌이가 챗지피티로 실험과 데이터를 조작해 아무렇게나 찍어냈을 수도 있으니, 인용하는데 더욱 조심스러울 수 밖에.
반면 수학의 경우는 조금 달라. 증명을 하는 학문이다보니, 논문이 틀렸다면 그 증명 과정 중에 오류가 있단 뜻이거든. 즉 이론적으로는, 논문을 아주 꼼꼼히 읽으면 그 진위여부를 판가름 할 수 있어. 그래서 아카이브 논문을 인용하는데 조금 더 관대하지.
수학의 경우는 다음과 같은 이유로 아카이브 논문을 인용하곤 해
- 이 사람의 연구가 나의 연구와 관련이 있어서. 그것을 소개하는 목적에서.
- 이 사람의 결과를 인용하고자 하는데, 적어도 내가 꼼꼼히 살펴본 바 하자가 없는 것 같아서.
그래서 아카이브에 올라왔다는 건, 원작자는 ‘내가 할만큼은 다 했어, 이제 다른 사람들이 검토해줄 차례야’ 정도의 뜻으로 보면 될 것 같아.
조금 사족을 얘기하면, 그리고리 페렐만 같은 경우는 푸앵카레 추측의 증명을 아카이브에만 올리고, 그 어떤 저널에도 투고하지 않았대. 심지어 아카이브 초록은 물론 논문 어디에도 푸앵카레 추측에 대한 언급이 없었지.
나중에 수학자들이 아카이브를 뒤적이다가 이 논문을 보고는 ‘잠깐만… 이거 푸앵카레 추측을 증명한 거 아냐?’하고 입소문을 탔고, 수학자들이 이례적으로 모여 학술대회를 갖고 논문을 검토했다고 해. 아무리 꼼꼼히 살펴봤지만 논문에는 하자가 없었고, 푸앵카레 추측이 증명되었다고 공표했대. (그 논문이면 수학계 최고존엄 악타 매스매티카(Acta Mathematica)에도 프리패스일텐데.)