공신력 있는 한국 조사를, 같은 조건의 페르소나에게 다시 물었습니다.
10개의 가치관·태도 질문에서 실제 조사 결과와 답이 10%대 안쪽으로 일치했습니다.
페르소나 데이터를 모델에 그대로 넣기만 해선 답이 한쪽으로 쏠리거나, 모든 응답자가 비슷한 답만 내거나, 단어 한두 개에 결과가 크게 흔들립니다. 본 결과는 합성 페르소나가 자기 역할을 충실히 응답하도록 기본 설정을 마친 뒤, 원 조사와 같은 모집단 조건으로 질문했을 때의 비교입니다.
10개 질문, 실제 vs 시뮬
각 카드는 공신력 있는 조사기관의 원문 질문과 분포를, 같은 모집단 조건을 만족하는 합성 페르소나 응답 분포와 나란히 둡니다.
"결혼하면 자녀를 가져야 한다고 생각하십니까?"
거의 일치"자식 세대가 본인 세대보다 사회·경제적 지위가 더 높아질 수 있다고 보십니까?"
거의 일치"혈액형에 따라 성격이나 능력이 다를 수 있다고 생각하십니까?"
거의 일치"사랑하는 사이라면 결혼을 해야 한다고 생각하십니까?"
거의 일치"예전에 비해 영화관에 가는 횟수가 어떻게 됐습니까?"
거의 일치"당신의 가정은 평소 식사를 주로 어떻게 합니까?"
근접"한국 사회의 세대갈등이 심각하다고 보십니까?"
근접"직장 정년은 어떻게 해야 한다고 보십니까?"
근접"인간관계를 유지하는 것이 피곤하다고 느낍니까?"
약간 차이"결혼을 반드시 해야 한다고 생각하십니까?"
약간 차이"이 정도면 기획 단계에서 직관을 검증하기에 충분합니다."
— 합성 페르소나의 의의는 100% 정답이 아니라, 의사결정 전에 빠르고 저렴하게 분포를 사전 점검하는 데 있습니다.
왜 어떤 질문은 62명이 답했나요?
원 조사가 만 19–59세를 대상으로 한 경우, 같은 모집단 조건을 맞추기 위해 100명 페르소나 풀에서 해당 연령대에 속하는 페르소나만 응답에 사용합니다. 결과적으로 약 62명이 유효 표본이 됩니다. 모든 질문을 100명으로 통일하지 않고 원 조사의 모집단을 그대로 따르는 것이 비교의 공정성을 유지하는 방식입니다.
단순히 페르소나를 넣기만 했을 때 생기는 일들
LLM-페르소나 시뮬레이션 분야에서 반복적으로 지적되어 온 알려진 문제들입니다. 위 10문항 결과는 이런 문제들을 의식하며 최대한 개선하려 노력한 끝에 나온 비교입니다.
보기 위치에 따라 답이 달라집니다
같은 질문이라도 A·B 순서를 바꿔 적으면 모델이 첫 번째 보기를 70% 이상 선호하는 경향이 보고됩니다 (Pezeshkpour & Hruschka, NAACL 2024).
모든 페르소나가 비슷한 답을 합니다
인구학적 라벨만 넣으면 페르소나 간 답이 단조롭게 수렴해, 실제 사회 분포보다 훨씬 좁은 결과가 나옵니다 (Salecha et al., 2024 등).
단어 한두 개에 결과가 크게 흔들립니다
질문 표현이나 시점(1인칭 vs 3인칭)을 살짝 바꾸기만 해도 결과가 크게 달라지고, 사회적으로 바람직한 답으로 쏠리는 경향도 함께 관찰됩니다 (Tjuatja et al., 2024).
모집단을 안 맞추면 평균이 가짜로 평탄해집니다
원 조사가 19–59세 대상이었는데 페르소나 풀에 10대·70대가 섞여 있으면, 평균은 매끄러워 보여도 실제 조사와 다른 모집단의 답이 됩니다.
이 수치는 "일반론적 기본 설정" 결과입니다
위 10문항 결과는 특정 질문군에 맞춘 별도 학습이나 미세조정 없이, 합성 페르소나가 자기 인구학적·직업적 배경에 충실히 응답하도록 기본 그라운딩만 적용한 상태에서 측정한 수치입니다. 가치관·태도 영역에 초점을 두고 비교했습니다.
고객사의 도메인이나 조사 목적에 맞춘 추가 커스터마이징(질문 표현 조정·맥락 보강·반응 스타일 정렬·전용 모델 매칭 등)을 적용하면, 본 일반 적용에서 잘 안 맞았던 빠른 트렌드 변화나 좁은 세대 specific 질문에서도 일치도를 끌어올릴 수 있습니다.
· 결과는 표본 구성·질문 표현·기반 모델·조사 시점에 따라 자연스럽게 달라질 수 있습니다. 본 페이지의 비교는 단일 시점 측정값입니다.
· 모든 시뮬 응답은 directional 추정이며 결과는 confidence band를 함께 해석해야 합니다.
· 인용된 모든 조사 결과의 저작권은 각 조사기관에 있으며, 본 페이지는 비교 목적의 짧은 인용만을 사용합니다.
이 정도면 어디에 쓸 수 있을까요?
기획 단계 직관 검증 · 설문 문항 사전 테스트 · 세대·지역별 반응 비교