자료 글....

[찌라시 잘 보기 1] - 여론조사의 경우

노둣돌 2010. 10. 1. 08:55

[찌라시 잘 보기 1] - 여론조사의 경우
(서프라이즈 / 바우돌리노 / 2010-09-29)


말도 많고 탈도 많은 여론조사잖아. 민감한 선거, 투표권자들이 예의주시하고 있는 선거에선 여론조사가 실제 선거에 영향을 미치는 사례가 비일비재하지. 그리고 사실 민감한 선거일수록 맞지도 않잖아? ^^;

이론상으로 말하자면, 오마이뉴스에 잘 정리되어 있군. 일단 링크할게. 오마이뉴스 박주현 기자님이 쓰셨군.

빗나간 여론조사, 언론사에 책임을 묻자
[이것이 정치다 35] ‘밴드왜건 효과’ 노리는 ‘정치 여론조사’

밴드왜건 효과, 즉 ‘강자나 다수파가 택하는 것을 추종해 결정하는 현상’이 발생하지. 유권자들이 결정될 ‘강자’와 관계되어야 한다면 이 현상은 더 심하게 나타날 거야. 그쥐? 그러므로 민주당 전당대회 같은 여론조사에서는 이 현상에 더욱 민감하지. 그래서 빅3 캠프에서 난리치고 있는 거고 말이지.


‘신뢰도 95% 표집오차 +- 3%, 30%의 지지’

와~ 표집오차(표본오차)가 3%래. 그렇다면 거의 맞는다는 이야기자나. 위 말을 해석하면 이래. 조사를 100번 돌릴 경우 95번은 27-33%의 지지율이 나온다는 이야기야. 5번은 10%가 나올 수도, 70%의 지지가 나올 수도 있단 이야기지. 머 정상적인 방식의 정상적인 여론조사라면 가능한 이야기야.


1000명의 응답, 응답률 2%

응답률이 2%란 이야기야. 선거 때는 여론조사가 정신없이 오잖아. 그러면 유권자들은 응대를 피해. 그러면 결과의 신뢰도도 떨어지게 마련인 것 같잖아? 하지만 그렇지 않아. 이게 바로 문제인 점인데, 동일조사에서 응답률이 70%건 2%건 결과에서 나타내는 수치는 신뢰도 95%에 표집오차 +-3%, 30%의 지지율이 되는 것이지.

5만 명을 돌려 1000명이 응답한 조사한 것이지. 4,9000명은 ‘거부’한 거야. 말이 안 되잖아. 사실은 이래. 보통 통계 프로그램은 표집오차 계산은 응답률 50%로 계산되는 거야. 언론에서 발표되는 대부분 조사가 그렇다는 것이지. 하지만 생각해봐. 응답률 50%인 조사는 거의 없어.

그렇기 때문에 유럽에서는 ‘여론조사위원회’인지 ‘법’인지 자세히 모르겠지만 뭐 그런 것이 있다나 봐. 그래서 통제를 하지. 미국의 경우도 20% 이하의 조사는 별로 신뢰하지 않고 말이야. 그리고 통상적으로 자동응답기로 돌려 조사하는 것보다는 ‘숙련된 면접원’이 대화를 통해 하는 직접조사가 신뢰도를 높게 보는 경향이 있어.

우리나라는 현재 상황이 좀 다른데, 리얼미터 대표는 공안정국 같은 분위기 속에서는 자신을 드러내지 않기 위해서 전화면접원이 하면 자신이 드러날 것 같은 심리상태가 되어 회피하거나 자신의 생각을 말하지 않고 기계가 물어보면 더 속내를 드러낸다는 견해야.

하지만 난 이 역시 틀렸다고 생각해. 그만큼 표본추출된 집단이 답하는 것을 꺼린다면 전화면접원이 직접 조사하는 것이나 기계로 하는 방식(ARS)나 모두 광범위한 오차가 존재한다는 것을 가정하기 때문에 조사가 의미가 없어져.

이 문제를 해결하는 것은 좀 복잡해. 법으로 제정하거나 응대율을 높이는 사회적인 노력들이 필요한 것이지.

어쨌거나 위의 조사가 맞으려면 모집단이 무한이어야 하고 응답률은 최소 20%는 되어야 할 것 같아.


표집오차와 비표집오차

그런데 언론에서 보도하는 표본오차(표집오차)라는 건 무슨 의미야? 그건 모집단 전체를 조사하지 않고 ‘표본을 추출해서 하는 조사’이기 때문에 생기는 ‘기계적인 오차’를 의미하는 거쥐. 응대율이 높고 조사 외적인 측면이 모두 맞는다고 가정할 때 표본을 추출함으로써 생기는 표본조사의 자연스런 오차라는 것이지.

하지만 문제는 비표집오차라는 것이 있어. 설계상의 문제, 면접원의 실수 등등 그 종류와 행태는 거의 ‘무한’하다고 봐야지. 예를 들어, 위에 리얼미터 대표의 칼럼이 맞는다고 할 경우 수치상으로 표현되지 않은 비표집오차가 많이 발생했다는 말이야. 그래서 오마이뉴스 박주현 기자의 기사처럼 지난 지방선거의 여론조사 오차는 커지게 된 셈이구.

그리고 기사를 쓸 때에 두 후보의 격차를 7% 격차라고 쓰면 틀린 표현이야. 7%포인트라고 써야 맞는 것이지. 모집단의 7%가 아니라 답변자의 점수환산 시 7점의 차이란 말이지. 소비자들이 오해하는 부분인 게지.


전수조사와 표본조사

민주당 대의원 상대 여론조사 보도가 한창이었어. 공직선거법에 따라 며칠 전까진 보도가 가능했거든. 각 캠프들도 언론사들도 아주 예민하고 민감하게 반응하지.

그런데 결과가 들쭉날쭉이야. 어디엔 정동영, 여기엔 정세균, 저기엔 손학규가 우세하다고 나와. 며칠 전 한겨레 기사가 현실적으로 제일 근접한 기사였지만 말이지. 어쨌거나 틀린 결과들이 나오네. 왜 그런거쥐?

이 부분을 알려면 ‘표본조사’와 ‘전수조사’의 차이를 알아야 해. 표본조사의 조사대상은 모집단을 모방한 표본집단을 만들어 놓고 표본집단을 조사하는 방식이야. 때문에 표본조사에서는 지역별 연령별 성별 등등의 비율을 계산해서 모집단과 유사한 표본집단을 만들지.

민주당 대의원은 모집단이 그리 크지 않아. 많아도 2만이 채 안 될 거야. 그런데 그런 집단을 전수조사를 하지. 전수조사를 해도 응답률은 상당히 낮아. 보도들을 스크린해보면 2000-3000 정도의 추세지. 결국 ‘전수조사’에서 20-40%가 응답한다는 이야기야.

그런데 간혹 표본추출조사가 아닌데 표본오차를 발표하는 언론사들이 있어. 전수조사는 표본오차가 없는 것인데 말이지. 음, 아무래도 사꾸라들 같아. 위에 표본오차(표집오차)를 설명했지만 표본조사를 하기 때문에 생기는 것이 표본오차잖아. 때문에 전수조사엔 표집오차의 개념이 없걸랑.

그렇다면 전수조사는 정확할까? 그건 매우 그렇지 않아. 비표집오차가 발생할 확률이 더 높기 때문이지. 특히 민주당 전당대회 조사 같은 것이 특히 그런 경우야. 대의원 중 상당수는 투표에 참여할 것이지만 그중 상당수는 자신이 누굴 지지하는지 노출이 되는 것을 싫어해. 정치하려는 사람들이 대부분인데 좀 뭉개고 가야 하잖아. 그래서 2000-3000명 정도의 지지자를 드러내야 할 사람들 말고는 혹시 모를 사태에 대비하고 싶은 것이지.

즉, 70-80%는 답변을 안 한 것이 아니라 ‘거부’하고 있는 상황이지. 공개되기 싫어서. 아까 리얼미터 대표의 ‘의견을 밝히는 것을 꺼린다’는 말이 극대화된 상황인 셈이야. 때문에 ‘비표집오차’도 상당하지. 결국 통계학상으로 민주당 대의원 여론조사의 정확성은 수치로 설명할 수 없는 조사라는 얘기야.

손학규 정동영 야합의 결과로 만들어진 ‘486 죽이는 전당대회 룰’의 전당대회에서 486이 컷오프에서 모두 살아나는 ‘이변’이 연출된 것도 그런 셈이지. 여론조사 같은 것에 휘말려 ‘손학규 + 정동영 + 쇄신연대’의 세가 무지하게 쎄서 다 떨어질 줄 알았지. 그래서 486이 연대하고 단일화하자고 했던 거고. 486을 옹호하던 세균이 형이 컷오프에서 압도적인 1위를 했다는 소문은 이래서 더 신빙성이 커진 것이지.


아, 이 아래 글을 쭈욱 썼었는데 지웠어. 현실이 좀 슬퍼서. 뱀발로 대신해야지. 그냥 여론조사를 어찌 보는지 참고했으면 좋겠어. 우리는 좀 더 스마트한 독자가 되어야 할 것 같아. 언론풍토가 안 좋으니까. 아, 위의 통계(여론조사) 이야기는 대충 썼는데 아마 대충 맞을 거야. 소소한 부분은 대충 넘어가 줘.


뱀발

  1. 브레이크뉴스 - 까고 싶지는 않아. 원래 그런 곳이니까.
  2. 뷰스앤뉴스 - 노무현 대통령 때부터 나쁜 감정이 많아. 자중해 줬으면 좋겠어.
  3. 오마이뉴스 - 당신들은 인터넷언론의 신뢰를 등에 지고 있어. 진짜 잘해야 해. 소중하니까. 지금까지 것은 용서해 줄게. 언론은 선거법 지켜야 하고 특정후보에게 받아서 쓰는 것은 도덕적으로 용납이 안 되는 문제야.
  4. 미디어오늘 – 감시 좀 잘해주세요. 부탁드려요. 특히 류정민 기자님.
  5. 민중의 소리 - 좀 빨랑 크세요.
  6. 딴지일보 - 너부리아저씨, 아뉘 딴지에 당부할 건 없고. 잘하시니까. 독자들이 후원이나……

 

바우돌리노


원문 주소 - http://www.seoprise.com/board/view.php?table=seoprise_12&uid=202970