합성 페르소나 시뮬레이션은 실제 한국 여론과 얼마나 비슷한가요?

한국 공신력 조사기관(통계청·한국갤럽·한국리서치·엠브레인·농촌경제연구원)의 가치관·태도 문항 10건을 같은 모집단 조건의 페르소나에게 다시 물은 결과, 8건이 실제 분포와 10% 이내, 5건이 5% 이내로 일치했습니다. 이는 특정 질문에 맞춘 별도 학습 없이 일반론적 기본 설정만 적용한 수치입니다.

페르소나를 모델에 그대로 넣으면 왜 결과가 왜곡되나요?

보기 위치에 따라 답이 달라지는 위치 편향, 모든 페르소나가 비슷한 답으로 수렴하는 다양성 붕괴, 질문 표현 한두 개에 결과가 크게 흔들리는 표현 민감성 등이 LLM-페르소나 시뮬레이션에서 반복적으로 지적된 문제입니다. 이를 보정하지 않으면 분포가 한쪽으로 쏠리거나 가짜로 평탄해집니다.

왜 어떤 질문은 100명이 아니라 62명만 응답했나요?

원 조사가 만 19–59세를 대상으로 한 경우, 같은 모집단 조건을 맞추기 위해 100명 페르소나 풀에서 해당 연령대 페르소나만 응답에 사용합니다. 결과적으로 약 62명이 유효 표본이 되며, 원 조사의 모집단을 그대로 따르는 것이 비교의 공정성을 유지하는 방식입니다.

신뢰도 리포트 · 10문항

공신력 있는 한국 조사를, 같은 조건의 페르소나에게 다시 물었습니다.

10개의 가치관·태도 질문에서 실제 조사 결과와 답이 10%대 안쪽으로 일치했습니다.

페르소나 데이터를 모델에 그대로 넣기만 해선 답이 한쪽으로 쏠리거나, 모든 응답자가 비슷한 답만 내거나, 단어 한두 개에 결과가 크게 흔들립니다. 본 결과는 합성 페르소나가 자기 역할을 충실히 응답하도록 기본 설정을 마친 뒤, 원 조사와 같은 모집단 조건으로 질문했을 때의 비교입니다.

비교한 공신력 조사 질문

8/10

차이 10% 이내

5/10

차이 5% 이내 (거의 일치)

한눈에 보기 · 10문항 결과

거의 일치근접약간 차이

10개 질문, 실제 vs 시뮬

각 카드는 공신력 있는 조사기관의 원문 질문과 분포를, 같은 모집단 조건을 만족하는 합성 페르소나 응답 분포와 나란히 둡니다.

"결혼하면 자녀를 가져야 한다고 생각하십니까?"

거의 일치

통계청 사회조사 2024

만 13세 이상 · n≈36,000

실제 조사 · "그렇다 (자녀가 있어야 한다)"

68%

시뮬레이션 · "그렇다 (자녀가 있어야 한다)"

67%

같은 모집단 조건(만 13세 이상)을 만족하는 페르소나 100명에게 동일 질문을 던졌습니다.

"자식 세대가 본인 세대보다 사회·경제적 지위가 더 높아질 수 있다고 보십니까?"

거의 일치

통계청 사회조사 2023 (모름 응답 제외 후 재정규화)

만 19세 이상 · n≈36,000

실제 조사 · "높아질 수 있다"

35%

시뮬레이션 · "높아질 수 있다"

33%

같은 모집단 조건(만 19세 이상)을 만족하는 페르소나 100명에게 동일 질문을 던졌습니다.

"혈액형에 따라 성격이나 능력이 다를 수 있다고 생각하십니까?"

거의 일치

한국갤럽 2026-03 발표

만 19세 이상 (모름 응답 제외 후 재정규화) · n=1,507

실제 조사 · "영향을 준다"

50%

시뮬레이션 · "영향을 준다"

51%

같은 모집단 조건(만 19세 이상 (모름 응답 제외 후 재정규화))을 만족하는 페르소나 100명에게 동일 질문을 던졌습니다.

"사랑하는 사이라면 결혼을 해야 한다고 생각하십니까?"

거의 일치

한국리서치 여론속의여론 2026-04

만 18세 이상 (모름 7% 제외) · n=1,000

실제 조사 · "그렇다"

68%

시뮬레이션 · "그렇다"

72%

같은 모집단 조건(만 18세 이상 (모름 7% 제외))을 만족하는 페르소나 100명에게 동일 질문을 던졌습니다.

"예전에 비해 영화관에 가는 횟수가 어떻게 됐습니까?"

거의 일치

엠브레인 트렌드모니터 2025-09

만 19–59세 · n=1,000

실제 조사 · "줄었다"

78%

시뮬레이션 · "줄었다"

73%

같은 모집단 조건(만 19–59세)을 만족하는 페르소나 62명에게 동일 질문을 던졌습니다. 전체 100명 풀 중 이 조건을 충족한 62명만 응답에 사용되었습니다.

"당신의 가정은 평소 식사를 주로 어떻게 합니까?"

근접

농촌경제연구원 식품소비행태조사 2024

전국 가구 단위 · n=3,188 가구

실제 조사 · "대부분 집에서 직접 만들어 먹는다"

60%

시뮬레이션 · "대부분 집에서 직접 만들어 먹는다"

68%

같은 모집단 조건(전국 가구 단위)을 만족하는 페르소나 100명에게 동일 질문을 던졌습니다.

"한국 사회의 세대갈등이 심각하다고 보십니까?"

근접

한국리서치 여론속의여론 2025-02

만 18세 이상 · n=1,000

실제 조사 · "심각하다"

84%

시뮬레이션 · "심각하다"

75%

같은 모집단 조건(만 18세 이상)을 만족하는 페르소나 100명에게 동일 질문을 던졌습니다.

"직장 정년은 어떻게 해야 한다고 보십니까?"

근접

한국갤럽 데일리 오피니언 제615호 (2025-03)

만 18세 이상 (의견없음 8% 제외) · n=1,001

실제 조사 · "60세로 유지"

45%

시뮬레이션 · "60세로 유지"

54%

같은 모집단 조건(만 18세 이상 (의견없음 8% 제외))을 만족하는 페르소나 100명에게 동일 질문을 던졌습니다.

"인간관계를 유지하는 것이 피곤하다고 느낍니까?"

약간 차이

엠브레인 트렌드모니터 2025-09 (인간관계·연애관 조사)

만 19–59세 · n=1,000

실제 조사 · "피곤하다"

48%

시뮬레이션 · "피곤하다"

59%

"결혼을 반드시 해야 한다고 생각하십니까?"

약간 차이

한국리서치 여론속의여론 2026-04 (결혼인식조사)

만 18세 이상 · n=1,000

실제 조사 · "반드시 해야 한다"

51%

시뮬레이션 · "반드시 해야 한다"

38%

같은 모집단 조건(만 18세 이상)을 만족하는 페르소나 100명에게 동일 질문을 던졌습니다.

"이 정도면 기획 단계에서 직관을 검증하기에 충분합니다."

— 합성 페르소나의 의의는 100% 정답이 아니라, 의사결정 전에 빠르고 저렴하게 분포를 사전 점검하는 데 있습니다.

왜 어떤 질문은 62명이 답했나요?

원 조사가 만 19–59세를 대상으로 한 경우, 같은 모집단 조건을 맞추기 위해 100명 페르소나 풀에서 해당 연령대에 속하는 페르소나만 응답에 사용합니다. 결과적으로 약 62명이 유효 표본이 됩니다. 모든 질문을 100명으로 통일하지 않고 원 조사의 모집단을 그대로 따르는 것이 비교의 공정성을 유지하는 방식입니다.

단순히 페르소나를 넣기만 했을 때 생기는 일들

LLM-페르소나 시뮬레이션 분야에서 반복적으로 지적되어 온 알려진 문제들입니다. 위 10문항 결과는 이런 문제들을 의식하며 최대한 개선하려 노력한 끝에 나온 비교입니다.

알려진 문제 1

보기 위치에 따라 답이 달라집니다

같은 질문이라도 A·B 순서를 바꿔 적으면 모델이 첫 번째 보기를 70% 이상 선호하는 경향이 보고됩니다 (Pezeshkpour & Hruschka, NAACL 2024).

알려진 문제 2

모든 페르소나가 비슷한 답을 합니다

인구학적 라벨만 넣으면 페르소나 간 답이 단조롭게 수렴해, 실제 사회 분포보다 훨씬 좁은 결과가 나옵니다 (Salecha et al., 2024 등).

알려진 문제 3

단어 한두 개에 결과가 크게 흔들립니다

질문 표현이나 시점(1인칭 vs 3인칭)을 살짝 바꾸기만 해도 결과가 크게 달라지고, 사회적으로 바람직한 답으로 쏠리는 경향도 함께 관찰됩니다 (Tjuatja et al., 2024).

알려진 문제 4

모집단을 안 맞추면 평균이 가짜로 평탄해집니다

원 조사가 19–59세 대상이었는데 페르소나 풀에 10대·70대가 섞여 있으면, 평균은 매끄러워 보여도 실제 조사와 다른 모집단의 답이 됩니다.

이 수치는 "일반론적 기본 설정" 결과입니다

위 10문항 결과는 특정 질문군에 맞춘 별도 학습이나 미세조정 없이, 합성 페르소나가 자기 인구학적·직업적 배경에 충실히 응답하도록 기본 그라운딩만 적용한 상태에서 측정한 수치입니다. 가치관·태도 영역에 초점을 두고 비교했습니다.

고객사의 도메인이나 조사 목적에 맞춘 추가 커스터마이징(질문 표현 조정·맥락 보강·반응 스타일 정렬·전용 모델 매칭 등)을 적용하면, 본 일반 적용에서 잘 안 맞았던 빠른 트렌드 변화나 좁은 세대 specific 질문에서도 일치도를 끌어올릴 수 있습니다.

· 결과는 표본 구성·질문 표현·기반 모델·조사 시점에 따라 자연스럽게 달라질 수 있습니다. 본 페이지의 비교는 단일 시점 측정값입니다.

· 모든 시뮬 응답은 directional 추정이며 결과는 confidence band를 함께 해석해야 합니다.

이 정도면 어디에 쓸 수 있을까요?

기획 단계 직관 검증 · 설문 문항 사전 테스트 · 세대·지역별 반응 비교

Study 신청하기 데모 대시보드