# AI로 만든 블로그 글, 정말 쓰레기일까

_부제: AI 자동화 블로그 글에 싫어요 3개를 받고 나서_

어제 [Claude Code로 블로그 자동화 시스템을 만든 이야기](https://zoey.day/claude-code-agents-blog-automation)를 올렸습니다. 그리고 싫어요를 3개 받았습니다. 왜 싫어요가 3개가 달렸는지 너무 궁금해졌습니다.

![Image](https://upload.cafenono.com/image/slashpagePost/20260120/112809_n68YAG7JhTODjlILUa?q=80&s=1280x180&t=outside&f=webp)

## 왜 싫어요가 달렸을까

가장 먼저 든 생각은 이거였습니다. "AI가 만든 쓰레기 글을 양산하는 내용이잖아. **가비지 데이터, AI Slop이라고 생각한 거 아닐까?**"

![https://www.downtoearth.org.in/science-technology/slop-vibe-coding-and-glazing-ai-dominates-2025s-words-of-the-year#google_vignette](https://upload.cafenono.com/image/slashpagePost/20260120/112943_1CCBAnSLufD0SCeCYO?q=80&s=1280x180&t=outside&f=webp)

솔직히 저도 동의합니다. AI 생성 콘텐츠가 폭발적으로 늘어나고 있고, 그에 따라 인간이 만든 고유한 관점과 경험은 더욱 중요해집니다. **저 역시 저에게서 [인간의 관점]이 사라지지 않도록 노력을 합니다.**

그런데 한편으로는 이런 생각도 들었습니다. 우리가 저런 자동화 블로그 글을 쓸 때 정말 엄청난 깊이 있는 생각을 해서, 많은 노력을 들여서 작성했었나?

제 관점과 의견을 제공하는 글, 제 이야기를 담은 글에는 당연히 100% 제 인풋이 들어갑니다. **_이건 자동화 하려고 해도 되지도 않습니다. _**

그런데 단순 정보 전달, 포맷이 정해진 '양산'에 포커싱이 된 정보성 글들은? 이전에도 그렇게 큰 힘을 들이지 않았습니다.(물론 이건 SEO 전문가 아닌 저의 관점입니다.) ROI 관점에서 보면, 그냥 시간을 잡아먹던 일을 더 수월하게 하는 것 아닐까요.

하지만 이건 너무 개인적인 생각이기는 해서 관련 내용들을 좀 찾아봤습니다.

## Model Collapse: 쓰레기가 쓰레기를 낳는다

[2024년 7월 Nature 저널에 발표된 연구](https://www.nature.com/articles/s41586-024-07566-y)가 있더라구요. AI 모델이 AI가 생성한 데이터로 학습할 때 품질이 저하되는 'model collapse' 현상을 실증적으로 증명한 논문입니다.

그리고 연구진들은 이 현상을 'Model Autophagy Disorder (MAD)'라고 명명했어요. **AI 모델이 자신이 생성한 데이터를 재학습하면서 스스로를 잡아먹는 현상인거죠. 단 몇 세대만 지나도 품질이 급격히 저하됩니다.**

![갈수록 이상해지는 데이터 / https://news.rice.edu/news/2024/breaking-mad-generative-ai-could-break-internet](https://upload.cafenono.com/image/slashpagePost/20260120/113225_0UTTdzcriWhkxKE6ZT?q=80&s=1280x180&t=outside&f=webp)

문제는 이게 '나 혼자 잘하면 돼'로 해결되지 않는다는 겁니다. AI 모델들이 웹에서 크롤링할 때 선택적으로 좋은 콘텐츠만 가져올 수 없습니다. **쓰레기가 10%, 20%, 50%로 늘어나면 전체 훈련 데이터가 오염됩니다.**

> 부록: 인간 데이터(Human-generated Data)가 더 귀해진다
> 
> - 원본 데이터의 중요성: 모델 붕괴를 막기 위해서는 진짜 인간이 만든 데이터에 접근하는 것이 필수적입니다. 특히 데이터 분포의 '꼬리' 부분(희귀하고 독창적인 정보)을 유지하려면 인간 데이터가 반드시 필요합니다.
> - 인터넷 데이터의 오염: 앞으로 인터넷은 AI가 쓴 글로 채워질 것입니다. 이는 미래의 AI 모델을 훈련시킬 '깨끗한 물'이 점점 사라진다는 뜻입니다.
> - 선점 효과: 오염되기 전의 데이터(Pre-AI data)를 많이 확보한 기업이나 모델이 장기적으로 우위를 점할 것입니다.

## 악화가 양화를 구축한다

Gresham's Law(그레셤의 법칙)가 여기서도 적용됩니다. 나쁜 돈이 좋은 돈을 시장에서 몰아내듯이, 저품질 대량 생산 콘텐츠가 고품질 콘텐츠를 검색 결과에서 밀어낼 수 있습니다.

왜냐하면 규모의 경제학이 작동하기 때문입니다.

- 쓰레기 콘텐츠 양산자들은 검증 비용을 들이지 않아서 더 싸고 빠르게 생산합니다

- 저처럼 검증하고 품질을 유지하는 사람은 비용이 더 듭니다

- 검색 엔진과 알고리즘은 '품질'보다 '양'과 '최신성'에 더 반응하는 경우가 많습니다

## 집단행동 문제

이건 집단행동 문제(Collective Action Problem)입니다. 제가 혼자 품질을 유지해도, 다른 1000명이 쓰레기를 양산하면 생태계 전체가 나빠집니다. 이건 개인 윤리로 해결 안 되는 구조적 문제입니다.

마치 "기후변화도 개인이 분리수거 잘하면 되지?"라고 말하는 것과 같습니다. 개인 실천은 중요하지만, 시스템 변화 없이는 불충분합니다.

![Image](https://upload.cafenono.com/image/stockImage/r1BS0pzlr1M?q=80&s=1440x180&t=outside&f=webp)

## Google도 답을 찾는 중입니다

Google의 [2025년 8월 Spam Update](https://www.notion.so/baeefd70b77d4f41b06e7492f6c96d97?pvs=21)의 내용을 보면, 검색 순위 조작을 위해 대량으로 제작된 콘텐츠(저품질 AI 기반 콘텐츠 포함)의 순위를 낮췄습니다.

그리고 [SpamBrain이라는 시스템](https://www.linkedin.com/pulse/spambrain-ai-inside-googles-spam-update-2025-wildnet-technologies-uv8pc/)을 사용해 스팸을 탐지하도록 강화했습니다. SpamBrain은 단순히 "AI로 만들었나?"를 체크하는 게 아닙니다. 콘텐츠의 패턴을 분석합니다. 링크 스팸, 키워드 stuffing, 얇은(thin) 콘텐츠, 자동 번역된 글, 스크레이핑된 내용 같은 스팸 특징들을 학습해서 찾아냅니다. 그리고 계속 진화합니다. 새로운 스팸 패턴이 나타나면 SpamBrain도 학습해서 적응합니다.

![Image](https://upload.cafenono.com/image/slashpagePost/20260120/113551_mZn8v6HSGFkpDIDzwJ?q=80&s=1280x180&t=outside&f=webp)

이번 업데이트에서 타격을 받은 건 대량으로 자동 생성한 얇은 콘텐츠들이었습니다. 반면 인간의 전문성과 실제 가치가 담긴 AI 활용 콘텐츠는 문제가 되지 않았습니다. **Google이 처벌한 건 'AI 사용 여부'가 아니라 '독자에게 가치를 주지 않는 대량 생산'이었습니다.**

## 그래서 답은 뭘까요

개인만으로는 부족합니다. 제가 아무리 검증해도, 다른 1000명이 쓰레기를 양산하면 생태계 전체가 오염됩니다.

플랫폼만으로도 부족합니다. Google의 SpamBrain이 아무리 정교해져도, '좋은 AI 활용'과 '나쁜 AI spam'의 경계선은 여전히 흐릿합니다.

결국 둘 다 필요합니다. (너무 뻔한가요?ㅎㅎ)

플랫폼은 계속 발전하고 있습니다. Google 알고리즘은 실제로 저품질 콘텐츠를 걸러냅니다. 독자들도 점점 품질을 구분합니다. 이탈률, 체류시간 같은 지표가 시그널이 되죠.

동시에 개인도 책임져야 합니다. 저는 AI로 콘텐츠를 만들더라도 검증하고, 제 관점을 넣고, 가치를 주려고 합니다. 블로그 자동화 시스템 글을 읽은 사람들이 "검증 프로세스를 이렇게 넣어야 하는구나"를 생각한다면, 그게 좋은 사례가 됩니다. "AI로 막 찍어내면 되겠네"가 아니라요.

싫어요 3개를 누른 분들의 우려를 이해합니다. 저도 같은 우려를 합니다. 하지만 답은 AI 자동화를 멈추는 게 아니라, 올바르게 사용하는 방법을 함께 만들어가는 겁니다.

## 발행 전 확인하는 'AI 콘텐츠 품질 체크리스트'

저 역시 이번 생각을 계기로, 제 자동화 시스템이 '쓰레기'를 생산하지 않도록 아래 5가지 기준을 더 엄격하게 적용하기로 했습니다. 여러분도 AI로 글을 쓸 때 이 체크리스트를 활용해 보세요.

1. **[희소성] 나만 아는 '고유한 데이터'가 포함되었는가?**

AI는 웹에 있는 데이터만 조합합니다. 나의 개인적인 에피소드, 직접 겪은 시행착오, 혹은 나만의 통찰이 단 한 문장이라도 들어갔는지 확인합니다. (Model Collapse를 막는 유일한 방법입니다.)

1. **[정확성] 수치와 고유명사를 직접 검증했는가?**

AI의 할루시네이션(환각)은 생태계를 오염시키는 주범입니다. 언급된 날짜, 논문 이름, 통계 수치는 반드시 원문을 대조해 봅니다.**.**

1. **[가독성] 인간의 언어로 '재편집'했는가?**

AI 특유의 딱딱하고 반복적인 말투를 걷어냈는지, 독자가 읽기 편하게 문장 구조와 문단을 다듬었는지 점검합니다.

1. **[목적성] 이 글이 독자에게 '시간 절약' 혹은 '새로운 정보'를 주는가?**

단순히 키워드를 선점하기 위한 '양 늘리기'용 글은 아닌지, 읽고 난 독자가 얻어갈 실질적인 가치(Action Item)가 있는지 자문해 봅니다.

1. **[책임감] '발행인' 이름에 부끄럽지 않은가?**

AI 뒤에 숨지 않고, 이 글의 내용에 대해 내가 끝까지 답변하고 책임질 수 있는지 확인합니다.

For the site tree, see the [root Markdown](https://zoey.day/.md).
