조이의 연습장 (Blog)

AI도 혼자 생각하면 틀린다? 이제는 토론하는 AI 시대 (Society of Thought)

조이
카테고리
  1. 개념정리
오늘 AI 코리아 커뮤니티 뉴스레터를 보다가 굉장히 흥미로운 논문을 발견했습니다. AI의 머릿속에는 '작은 사회'가 있다는 내용이었는데, 너무 재미있어서 내용을 더 찾아보고 정리해 보았습니다.
제목부터 심상치 않은데요. 바로 Reasoning Models Generate Societies of Thought (추론 모델은 사고의 사회를 형성한다) 입니다.
그동안 우리는 AI에게 '차근차근 생각해봐(Step-by-step)'라고 주문을 외우면 똑똑해진다고 믿었습니다. 이를 CoT(Chain of Thought)라고 하죠. 그런데 이 논문은 단순히 단계적으로 생각하는 것을 넘어, 머릿속에서 다양한 관점들이 치열하게 토론하고 검증해야 진짜 똑똑해진다는 새로운 사실을 밝혀냈습니다.

조용히 혼자 풀기 vs 치열하게 토론하며 풀기

기존에 우리가 알던 Chain of Thought (CoT)방식은 '독백(Monologue)'에 가깝습니다.
마치 도서관 구석에 앉은 모범생이 혼자 연습장에 묵묵히 수식을 써 내려가는 것과 같죠.
사진출처 : orq.ai // 생각에 꼬리에 꼬리에 꼬리에 꼬리에 꼬리를 물어라..!!!
CoT의 한계 (Tunnel Vision):
묵묵히 문제를 풀다가 중간에 전제를 잘못 설정하거나 계산 실수를 하면, 그 뒤로는 아무리 논리를 전개해도 결국 오답에 도달하게 됩니다.
혼자만의 생각에 갇혀서 스스로 오류를 발견하기 어려운 것이죠.
반면, 이번 논문에서 제시한 Society of Thought (SoT)는 '열띤 토론이 오가는 회의실'이에요.
내 머릿속에 까칠한 비평가, 신중한 검토자, 저돌적인 실행가가 모여서 끊임없이 의견을 교환하는 것입니다.
👀
SoT 모델의 내면적 대화 (Reasoning Trace)

- 자아 1 (제안자)
: "이 문제의 답은 42가 아닐까?"
- 자아 2 (비평가)
: "잠깐만, 조건 B를 간과했어. 그 조건에 따르면 42는 불가능해. 다시 계산해봐."
- 자아 1 (수용)
: "아, 맞다. 그 부분을 놓쳤네. 다시 계산해볼게."
-
자아 3 (중재자): "그럼 조건 B를 반영해서 40으로 수정하는 게 논리적으로 타당해."
이렇게 내부적으로 충돌과 합의(Conflict & Reconciliation) 과정을 거치는 것이 단순히 길게 생각하는 것보다 정답률을 비약적으로 높인다는 것이 이 논문의 핵심 발견입니다.

DeepSeek-R1이 똑똑한 진짜 이유: 내면의 '다중 인격'

최근 주목받는 DeepSeek-R1이나 QwQ같은 고성능 추론 모델들을 분석해보니, 단순히 연산량이 많은 것이 아니었습니다.
연구진이 기계적 해석(Mechanistic Interpretability) 방법을 통해 모델의 내부를 들여다본 결과, 추론 과정에서 서로 다른 성격과 전문성을 가진 자아(Persona)들이 충돌하는 패턴이 발견되었습니다.
이 모델들의 추론 로그(Reasoning Trace)에서는 마치 사회적 상호작용과 같은 특징들이 나타납니다.
관점 전환 (Perspective Shift): "반대 입장에서 생각해보면 어떨까?"
자가 수정 (Self-Correction): "방금 논리는 비약이 있었어. 취소하고 다시 접근하자."
사회-정서적 역할 (Socio-emotional Roles): 단순히 정보만 주고받는 것이 아니라, 때로는 공격적인 비평가가 되기도 하고, 때로는 중재하는 리더가 되기도 하며 격렬한 논쟁(Sharp back-and-forth)을 벌입니다.
가장 흥미로운 점은, 개발자가 명시적으로 "사회적으로 행동해"라고 코딩하지 않았음에도, 어려운 문제를 풀기 위해 정답에 대한 보상(Reinforcement Learning)을 주었더니 모델 스스로 이런 '내면의 사회'를 형성했다는 사실입니다.
논문에서는 이를 '관점의 다양성(Perspective Diversity)'이라고 표현하며, 마치 인간이 생존과 문제 해결을 위해 집단 지성을 발달시킨 과정과 유사하다고 설명합니다.

당장 내일부터 적용할 수 있는 3가지 Action Item

이론적인 내용을 넘어, 실제 AI 프로덕트나 업무 프로세스에 어떻게 적용할 수 있을지 정리해봤습니다.

① 프롬프트: "비판적 토론을 유도하라"

이제 AI에게 단순히 "생각해봐"라고 요청하는 것을 넘어, 내부적인 토론을 유도해보세요.
기존: Let's think step by step. (차근차근 생각해봐)
추천: Act as 3 experts with different views. Debate and converge. (서로 다른 관점을 가진 3명의 전문가로서 토론하고, 합의된 결론을 도출해.)
특히 복잡한 기획안이나 코드 리뷰를 맡길 때, "이 안건을 공격하는 사람(Red Team)과 방어하는 사람(Blue Team)이 되어 토론해줘"라고 지시하면 훨씬 날카롭고 빈틈없는 피드백을 받을 수 있습니다.
생각해보니 회사 회의실에서 일어나는 일들을 그대로 AI에서도 일어나게 하면 될 것 같아요.

② 데이터: "대화 구조(Conversational Scaffolding)를 세워라"

사내용 LLM을 파인튜닝(Fine-tuning)할 때, 흔히 정제된 '정답(Golden Data)'만 넣으려고 합니다. 하지만 논문에 따르면, '대화 구조(Conversational Scaffolding)' 방식이 모델의 지능을 훨씬 빠르게 성장시킵니다.
단순히 독백하는 데이터보다는, 여러 에이전트가 대화를 주고받으며 문제를 해결해 나가는 형태의 데이터를 학습시켰을 때 추론 능력이 비약적으로 상승했습니다.
기존 방식: (질문) -> (완벽한 정답)
SoT 방식: (질문) -> (A: 의견 제시) -> (B: 반박 및 오류 지적) -> (A: 수정 및 재제안) -> (합의된 정답)
그래야 모델이 "나도 틀릴 수 있구나. 그럴 땐 이렇게 검증하고 수정하면 되는구나"라는 메타 인지를 학습하게 됩니다.

③ 시스템: "견제와 균형의 멀티 에이전트"

AI 에이전트 시스템을 설계할 때도 단일 모델에게 모든 의사결정을 맡기기보다, 역할이 분담된 에이전트 간의 상호작용을 설계하기.
Agent A (Generator): 창의적인 아이디어와 초안 생성
Agent B (Critic): A의 결과물에 대한 논리적 허점 지적 및 리스크 검토
Agent C (Mediator): 비판을 수용하여 최종안 확정
이러한 '비판적 멀티 에이전트' 구조가 단일 천재 에이전트보다 훨씬 강력하고 안정적인 성능을 발휘합니다. 이건 이미 멀티 에이전트로 익숙할 것이라 생각.

AI도, 인간도 결국 '비판적 사고'가 답인가

결국 AI의 진화 방향은 '고독한 천재의 사색'에서 '집단 지성의 치열한 토론'으로 나아가고 있습니다.
우리도 이제 AI를 단순히 '똑똑한 비서' 한 명으로 대하기보다, '시끌벅적한 전문가 팀'을 운영한다는 관점으로 접근해보는 게 좋을 것 같습니다.
그러면서 또 인간 생각도 나게 되네요. AI조차도 더 똑똑해지기 위해 내면에 '비판하는 자아'를 만드는 데 하물며 인간은...🤔
건강한 비판이 오가는 문화가 되도록 저부터 비판적 사고를 열심히 장착해보도록 하겠습니다.
아무튼 오늘부터 당장 프롬프트 창에 "내 의견에 반박해봐!" 라고 입력해보세요. AI의 새로운 지능을 경험하게 되실 겁니다.
Subscribe to 'zoeylog'
Subscribe to my site to be the first to receive notifications and emails about the latest updates, including new posts.
Join Slashpage and subscribe to 'zoeylog'!
Subscribe
👍
1