2026년 새해 벽두부터 국내 AI 업계에 뜨거운 논쟁이 불거졌습니다. Upstage의 초대형 언어모델 Solar-Open-100B가 중국 칭화대 연구팀이 개발한 GLM-4.5-Air를 기반으로 파생되었다는 의혹입니다. 국민 세금이 투입된 프로젝트에서 중국 모델을 복사했다는 주장이라 파장이 상당했습니다. 그러나 Upstage가 즉각 공개 검증에 나서면서 논란은 빠르게 마무리됐습니다.
논쟁의 타임라인
- 1월 1일 - 문제 제기: Sionic AI 고석현 대표가 LinkedIn에 Solar와 GLM의 LayerNorm 가중치 코사인 유사도가 비정상적으로 높다는 글을 올리며 “Solar는 GLM에서 파생됐다”고 주장했습니다. 분석 코드는 GitHub에 공개됐습니다.
- 1월 1일 - Upstage 반박: 김성현(Sung Kim) 대표가 Facebook을 통해 공개 검증을 제안하며 강하게 부인했습니다.
- 논쟁 중 - 커뮤니티 반박: 카카오 ML 개발자 고현웅(Kevin Ko)씨가 “코사인 유사도만으로 파생 여부를 단정할 수 없다”는 반박 리포트를 공개했습니다.
- 논쟁 중 - 전문가 개입: 뉴욕대 조경현 교수가 sionic-ai 리포에 “코사인 대신 Pearson 상관관계를 쓰자”는 PR을 제안했습니다.
- 공개 검증회 개최: Upstage가 공개검증회를 열어 전체 학습 기록을 공개했습니다. 현장에 AI 전문가 90명, 온라인으로 2,000명이 참석했습니다.
- 1월 3일 - 사과: 고석현 대표가 사과글을 게재하며 논란이 종료됐습니다.
주장 측(sionic-ai)의 논거
sionic-ai 리포의 논리 구조는 다음과 같습니다.
Solar-Open-100B와 GLM-4.5-Air의 같은 레이어에서 RMSNorm/LayerNorm 가중치의 코사인 유사도를 측정했더니 약 0.989로 매우 높았습니다. 반면 같은 모델 내 서로 다른 레이어끼리의 유사도는 0.377 수준에 불과했습니다.
텐서 타입별로도 흥미로운 패턴이 발견됐습니다. LayerNorm 계열 텐서는 유사도가 0.949~0.986으로 매우 높은 반면, 임베딩·K/V projection·MoE gate 등은 유사도가 0에 가까웠습니다. 이 “선택적 보존” 패턴을 두고 “일부 파라미터만 원본 모델에서 가져오고 나머지는 재학습한 파생 모델”이라고 해석했고, p-value 등 통계 수치를 제시하며 “우연일 가능성은 사실상 0”이라고 강조했습니다.
반박 측(hyunwoongko)의 핵심 지적
카카오 ML 개발자 고현웅씨의 반박 리포트는 sionic-ai의 분석을 정면으로 반박합니다.
핵심은 비교 대상을 늘렸다는 점입니다. Solar, GLM, Phi-3.5-MoE-instruct 세 모델의 LayerNorm 파라미터를 비교했더니, 같은 레이어끼리 비교했을 때 세 모델 모두 코사인 유사도가 0.9 이상으로 높게 나왔습니다. sionic-ai의 논리대로라면 GLM과 Phi도 파생 관계가 성립해야 하지만, GLM은 칭화대(THUDM)가 2021년부터 독자적으로 개발한 모델이고 Phi는 Microsoft가 2023년에 내놓은 경량 모델로 계보가 전혀 다릅니다. 시간 순서상 불가능한 파생 관계가 도출되는 것입니다.
MAD(Mean Absolute Difference) 기준으로 비교하면 Solar–GLM의 차이(≈ 0.4121)가 GLM–Phi의 차이(≈ 0.2159)보다 오히려 더 큽니다. sionic-ai의 메트릭을 그대로 적용하면 “Solar가 GLM에서 파생됐다”는 주장보다 “GLM이 Phi에서 파생됐다”는 주장이 더 쉽게 성립하는 모순이 발생합니다.
이 현상의 원인은 RMSNorm 가중치의 구조적 특성에 있습니다. RMSNorm 가중치는 rank-1 벡터로 정보량이 적고, 대부분 1.0 근처로 초기화된 뒤 학습 후에도 분산이 크게 늘지 않습니다. 코사인 유사도는 방향만 보고 크기는 무시하기 때문에, 이런 “스케일링 벡터”류에서는 서로 다른 모델 사이에서도 높게 나오는 경향이 있습니다.
조경현 교수의 PR: “Pearson 상관관계를 써라”
뉴욕대 조경현 교수는 sionic-ai 리포에 직접 PR을 올려 코사인 유사도 대신 Pearson 상관관계를 사용하자고 제안했습니다.
Pearson 상관관계는 벡터에서 평균을 제거하고 분산으로 정규화한 뒤 계산합니다. “값이 비슷한가”가 아니라 “패턴이 비슷한가”를 보는 방식으로, LayerNorm의 초기화 편향(initialization artifact)을 제거할 수 있다는 것이 핵심 논지입니다.
실제로 Pearson을 적용하면 Solar–GLM의 유사도는 특별히 높지 않게 나옵니다. 코사인 기준으로는 GLM과 Qwen2(완전히 다른 모델) 사이에서도 유사도가 0.94 이상 나온다는 점을 고려하면, 코사인 유사도가 “파생 여부를 판단하는 지표”로 적합하지 않다는 결론이 도출됩니다.
공개 검증 결과
Upstage는 공개검증회를 즉각 개최하고 전체 학습 기록을 공개했습니다. 검증 현장에는 AI 전문가 90명이 참석했고, 온라인으로는 2,000명이 지켜봤습니다.
김성훈 대표는 검증회에서 “대부분의 거대언어모델은 트랜스포머나 MoE 기반으로 표준화되어 있기 때문에, LayerNorm의 유사도는 어떤 모델과 비교해도 비슷하게 나올 수밖에 없다”고 설명했습니다. 이는 앞서 커뮤니티 반박과 조경현 교수의 PR에서 제기된 내용과 맥락을 같이합니다.
검증 결과 의혹은 해소됐고, 고석현 대표는 1월 3일 사과글을 게재하며 이번 논란이 마무리됐습니다. 배경훈 부총리는 이번 공개 검증에 대해 “한국 AI의 밝은 미래를 보았다”고 평가하며 환영 입장을 밝혔습니다. 이 과정은 “건전한 AI 생태계의 건강한 토론”이라는 평가를 받기도 했습니다.
내 생각
이번 논란에서 흥미로웠던 건 기술적 주장이 아니라 그것이 소비되는 방식이었습니다. 코사인 유사도 하나를 “DNA 수준의 일치”로 비유한 순간, 논쟁은 기술적 검증의 영역을 벗어났습니다.
결과적으로 sionic-ai의 방법론은 부적절한 지표를 사용했고, 결론은 과장됐습니다. Upstage가 전체 학습 기록을 공개하고 공개 검증에 나선 것은 올바른 대응이었다고 생각합니다. 의혹을 제기한 측도 검증 결과를 받아들이고 사과한 것 역시 깔끔한 마무리였습니다.
다만 이번 사건이 남긴 더 중요한 질문이 있습니다. AI 모델의 파생 관계를 판단하는 엄밀한 기준이 아직 업계에 정립되어 있지 않다는 점입니다. 앞으로 비슷한 논쟁이 반복될 가능성이 높은 만큼, Pearson 상관관계처럼 더 신뢰할 수 있는 방법론을 커뮤니티 차원에서 정립해나갈 필요가 있다고 생각합니다.