Solar vs GLM 논란: 공개 검증으로 마무리된 코사인 유사도 논쟁

2026년 새해 벽두부터 국내 AI 업계에 뜨거운 논쟁이 불거졌다. Upstage의 초대형 언어모델 Solar-Open-100B가 중국 칭화대 연구팀이 개발한 GLM-4.5-Air를 기반으로 파생되었다는 의혹이다. 국민 세금이 투입된 프로젝트에서 중국 모델을 복사했다는 주장이라 파장이 상당했다. 그러나 Upstage가 즉각 공개 검증에 나서면서 논란은 빠르게 마무리됐다.

논쟁의 타임라인

1월 1일 - 문제 제기: Sionic AI 고석현 대표가 LinkedIn에 Solar와 GLM의 LayerNorm 가중치 코사인 유사도가 비정상적으로 높다는 글을 올리며 “Solar는 GLM에서 파생됐다”고 주장했다. 분석 코드는 GitHub에 공개됐다.
1월 1일 - Upstage 반박: 김성현(Sung Kim) 대표가 Facebook을 통해 공개 검증을 제안하며 강하게 부인했다.
논쟁 중 - 커뮤니티 반박: 카카오 ML 개발자 고현웅(Kevin Ko)씨가 “코사인 유사도만으로 파생 여부를 단정할 수 없다”는 반박 리포트를 공개했다.
논쟁 중 - 전문가 개입: 뉴욕대 조경현 교수가 sionic-ai 리포에 “코사인 대신 Pearson 상관관계를 쓰자”는 PR을 제안했다.
공개 검증회 개최: Upstage가 공개검증회를 열어 전체 학습 기록을 공개했다. 현장에 AI 전문가 90명, 온라인으로 2,000명이 참석했다.
1월 3일 - 사과: 고석현 대표가 사과글을 게재하며 논란이 종료됐다.

주장 측(sionic-ai)의 논거

sionic-ai 리포의 논리 구조는 다음과 같다.

Solar-Open-100B와 GLM-4.5-Air의 같은 레이어에서 RMSNorm/LayerNorm 가중치의 코사인 유사도를 측정했더니 약 0.989로 매우 높았다. 반면 같은 모델 내 서로 다른 레이어끼리의 유사도는 0.377 수준에 불과했다.

텐서 타입별로도 흥미로운 패턴이 발견됐다. LayerNorm 계열 텐서는 유사도가 0.949~0.986으로 매우 높은 반면, 임베딩·K/V projection·MoE gate 등은 유사도가 0에 가까웠다. 이 “선택적 보존” 패턴을 두고 “일부 파라미터만 원본 모델에서 가져오고 나머지는 재학습한 파생 모델”이라고 해석했고, p-value 등 통계 수치를 제시하며 “우연일 가능성은 사실상 0”이라고 강조했다.

반박 측(hyunwoongko)의 핵심 지적

카카오 ML 개발자 고현웅씨의 반박 리포트는 sionic-ai의 분석을 정면으로 반박한다.

핵심은 비교 대상을 늘렸다는 점이다. Solar, GLM, Phi-3.5-MoE-instruct 세 모델의 LayerNorm 파라미터를 비교했더니, 같은 레이어끼리 비교했을 때 세 모델 모두 코사인 유사도가 0.9 이상으로 높게 나왔다. sionic-ai의 논리대로라면 GLM과 Phi도 파생 관계가 성립해야 하지만, GLM은 칭화대(THUDM)가 2021년부터 독자적으로 개발한 모델이고 Phi는 Microsoft가 2023년에 내놓은 경량 모델로 계보가 전혀 다르다. 시간 순서상 불가능한 파생 관계가 도출되는 것이다.

MAD(Mean Absolute Difference) 기준으로 비교하면 Solar–GLM의 차이(≈ 0.4121)가 GLM–Phi의 차이(≈ 0.2159)보다 오히려 더 크다. sionic-ai의 메트릭을 그대로 적용하면 “Solar가 GLM에서 파생됐다”는 주장보다 “GLM이 Phi에서 파생됐다”는 주장이 더 쉽게 성립하는 모순이 발생한다.

이 현상의 원인은 RMSNorm 가중치의 구조적 특성에 있다. RMSNorm 가중치는 rank-1 벡터로 정보량이 적고, 대부분 1.0 근처로 초기화된 뒤 학습 후에도 분산이 크게 늘지 않는다. 코사인 유사도는 방향만 보고 크기는 무시하기 때문에, 이런 “스케일링 벡터”류에서는 서로 다른 모델 사이에서도 높게 나오는 경향이 있다.

조경현 교수의 PR: “Pearson 상관관계를 써라”

뉴욕대 조경현 교수는 sionic-ai 리포에 직접 PR을 올려 코사인 유사도 대신 Pearson 상관관계를 사용하자고 제안했다.

Pearson 상관관계는 벡터에서 평균을 제거하고 분산으로 정규화한 뒤 계산한다. “값이 비슷한가”가 아니라 “패턴이 비슷한가”를 보는 방식으로, LayerNorm의 초기화 편향(initialization artifact)을 제거할 수 있다는 것이 핵심 논지다.

실제로 Pearson을 적용하면 Solar–GLM의 유사도는 특별히 높지 않게 나온다. 코사인 기준으로는 GLM과 Qwen2(완전히 다른 모델) 사이에서도 유사도가 0.94 이상 나온다는 점을 고려하면, 코사인 유사도가 “파생 여부를 판단하는 지표”로 적합하지 않다는 결론이 도출된다.

공개 검증 결과

Upstage는 공개검증회를 즉각 개최하고 전체 학습 기록을 공개했다. 검증 현장에는 AI 전문가 90명이 참석했고, 온라인으로는 2,000명이 지켜봤다.

김성훈 대표는 검증회에서 “대부분의 거대언어모델은 트랜스포머나 MoE 기반으로 표준화되어 있기 때문에, LayerNorm의 유사도는 어떤 모델과 비교해도 비슷하게 나올 수밖에 없다”고 설명했다. 이는 앞서 커뮤니티 반박과 조경현 교수의 PR에서 제기된 내용과 맥락을 같이한다.

검증 결과 의혹은 해소됐고, 고석현 대표는 1월 3일 사과글을 게재하며 이번 논란이 마무리됐다. 배경훈 부총리는 이번 공개 검증에 대해 “한국 AI의 밝은 미래를 보았다”고 평가하며 환영 입장을 밝혔다. 이 과정은 “건전한 AI 생태계의 건강한 토론”이라는 평가를 받기도 했다.

내 생각

이번 논란에서 흥미로웠던 건 기술적 주장이 아니라 그것이 소비되는 방식이었다. 코사인 유사도 하나를 “DNA 수준의 일치”로 비유한 순간, 논쟁은 기술적 검증의 영역을 벗어났다.

결과적으로 sionic-ai의 방법론은 부적절한 지표를 사용했고, 결론은 과장됐다. Upstage가 전체 학습 기록을 공개하고 공개 검증에 나선 것은 올바른 대응이었다고 생각한다. 의혹을 제기한 측도 검증 결과를 받아들이고 사과한 것 역시 깔끔한 마무리였다.

다만 이번 사건이 남긴 더 중요한 질문이 있다. AI 모델의 파생 관계를 판단하는 엄밀한 기준이 아직 업계에 정립되어 있지 않다는 점이다. 앞으로 비슷한 논쟁이 반복될 가능성이 높은 만큼, Pearson 상관관계처럼 더 신뢰할 수 있는 방법론을 커뮤니티 차원에서 정립해나갈 필요가 있다고 생각한다.