Планирование методов статистического анализа

Определение методов социологического анализа на этапе планирования исследования является, пожалуй, основной характеристикой уровня профессионализма социо-лога, который, проектируя эмпирическое исследование, не забывает, что последующий анализ является не более чем математико-статистической проверкой гипотез, заложенных на этапе подготовки программы и инструментария (анкеты) конкретного социологического исследования.

К сожалению, слишком часто встречаются опубликованные данные, свидетельствующие о том, что автор при планировании не только не учитывал последующую обработку и методы анализа, но даже и не догадывается о том, что он приводит данные, недостоверность которых слишком очевидна.

Поскольку, на наш взгляд, именно по этой причине (несоответствие методов анализа возможностям, заложен-ным в программе исследования) возникают основные ошибки и погрешности выводов, интерпретации и широкого публичного освещения полученного материала, остановимся подробнее на проблеме планирования методов анализа и разборе ошибок, которые наиболее часто бросаются в глаза в публикуемых результатах социологических опросов.

В тех случаях, когда исследователь приступает к опросу, не имея программы анализа полученных данных, обычно в процессе спонтанного анализа возникают трудности (у квалифицированного социолога) или ошибки (у неквалифицированного социолога) по двум основным причинам:

  • социально-демографические группы, которые интересуют исследователя, слишком малочисленны для возможности статистической проверки различий, ко-торые они показывают в своих ответах на поставленные в анкете вопросы;
  • шкала (перечень ответов на вопрос), предложенная в анкете, не позволяет применять эффективные методы анализа, так как в период подготовки ан-кеты автор не задумывался о том, каким именно образом он будет анализировать полученные результаты.

Наиболее часто в средствах массовой информации встречаются ошибки, допускаемые непрофессиональными социологами по первой причине авторы социологических опросов приводят результаты сравнительного анализа социальных групп, численность которых в выборке явно недостаточна для уверенности в том, что полученные различия статистически значимы.

Например, автор исследования, посвященного отношению населения к экономическим реформам, пишет, что «молодежь в возрасте от 18 до 20 лет значительно чаще поддерживает радикальные рыночные реформы, чем другие возрастные группы населения, поскольку, если среди населения в среднем 36% выразили поддержку радикальным рыночным преобразованиям в экономике страны, то среди молодежи 18-20 лет 53% высказались за подобные преобразования», при этом з преамбуле к приведенным данным и соответствующему выводу сообщается, что исследование проводилось по ре-презентативной выборке взрослого населения г. Киева, и в обшей сложности было опрошено 400 человек.

В данном случае сам по себе вывод не вызывает ни удивления, ни, тем более, принципиальных возражений, поскольку не противоречит ни жизненному опыту читателя, ни распространенным стереотипам общественного мнения. Однако а какой мере, высказывая подобный тезис» правомерно ссылаться на результаты данного конкретного исследования?

Даже не владея точной статистической информацией о демографическом составе населения г.Киева, внимательный читатель может предположить, что лица в возрасте 18-20 лет составляют 2-3% взрослого населения. Поскольку автор указал, что выборка была репрезентативной, то, следовательно, в числе опрошенных им людей возрастная группа 18-20 лет включает 8-12 человек. Даже неискушенному в социологии читателю ясно, что 8-12 человек вряд ли могут представлять молодежь Киева данной возрастной группы в целом.

Мы не будем здесь останавливаться на подробном изложении того, как надо было планировать и строить выбор-ку, если бы автора исследования действительно на этапе проектирования интересовал сравнительный анализ именно данной возрастной группы населения (этот вопрос подробно изложен в разделе, посвященном построению выборки). Однако с большой долей вероятности можно предположить, что подобное приведение данных является результатом не ошибки расчетов на этапе планирования исследования, а отсутствия планирования анализа вообще.

К сожалению, в эмпирической социологии все большее распространение получает практика анализа социологических данных, когда заказываются двумерные таблицы, содержащие демографические данные — на все вопросы анкеты, а «социолог» просматривает их все подряд, выбирая таблицы, в которых «бросается в глаза» разброс данных.

После этого начинается объяснительный «анализ» и логическая интерпретация. Не случайно в тех случаях, когда автор публикаций результатов опросов общественного мнения касается проблемы различий в ответах социально-демографических групп, чаще всего он обращает внимание на такие социальные фуппы, как «предприниматели», «военнослужащие», «домохозяйки».

Как правило, именно эти группы по своим ответам «выбиваются» из общего ряда распределения. Но собранный материал, обычно, не позволяет сделать выводы о том, являются ли отклонения в их ответах особенностями сознания данных социальных групп населения, или это результат малочисленности этих групп я репрезентативной выборке населения.

Даже не владея, знаниями в области математической статистики, но проявив необходимый для научного анализа здоровый скептицизм, можно догадаться, что если на по-ставленный s анкете вопрос (имеющий 3-5 вариантов ответа) отвечали 20-30 человек, то определенный вариант могли отметить 4-10 человек.

В таком случае даже случайная ошибка только одного респондента (если он невнимательно отвечал на вопрос), или интервьюера, который его опрашивал, или оператора, который вводил данные в ЭВМ, изменяет результаты на 10-25%.

Именно поэтому немногочисленные группы населения резко выбиваются при сравнительном сопоставлении полученных данных, и именно поэтому они привлекают внимание неискушенного социолога при том методе анализа, который упоминался выше, когда исследователь, не имея ни гипотез, ни плана анализа, заказывает сотни таблиц и «смотрит» — какие именно результаты представляют интерес.

Фактически из этого «творческого процесса» автоматически исключается главный компонент анализа, ради которого проводился выборочный опрос — статистическая проверка гипотез. В приведенном примере, как минимум, требовалось проверить — является ли различие между 53% и 36% статистически значимым с учетом численности опрошенных.

Мы умышленно в качестве примера некомпетентного анализа привели иллюстрацию с достаточно «безобидными» в социально-политическом и научном отношении выводами (в данном случае, если бы исследование и анализ были проведены достаточно грамотно, автор скорее всего — с теми или иными различиями в числовых данных — пришел бы к тем же выводам).

К сожалению, во многих случаях необоснован-ные выводы не столь безобидны с социально-политической точки зрения (например, один из авторов политологического анализа ситуации в Чечне во время проведения военных действий Российским правительством на территории Чечни, ссылаясь на данные социологического опроса ВЦИОМ, характеризует бедственное положение русских в Чечне в период, предшествующий развязыванию войны).

В публикации, несомненно имеющей острое политическое и гражданское значение, не приводится необходимая описательная характеристика исследования, на данные которого ссылается автор анализа. Однако описание исследований, приводимое этим социологическим центром в других публикациях, позволяет предположить, что группа «русские, проживающие в Чечне» слишком малочисленна во всероссийской выборке, чтобы можно было делать столь многозначительные выводы, в определенной степени направленные на оправдание силовых акций. В данном случае спекуляция статистически не обоснованными цифрами имеет слишком неприглядный конь-юнктурно-политический характер.

Два примера, приведенные выше, различаются по своему политическому значению, но они сходны в одном — авторы, приводя данные социологических исследований, руководствовались статистически не обоснованными данными. Необоснованность в данном случае определяется прежде всего тем, что на этапе подготовки к исследованию приводимый анализ (сравнение малочисленных в общем объеме генеральной совокупности групп населения с другими) не планировался автором.

Ошибки другого рода, когда при подготовке анкеты, формулируя ответы на вопрос, автор не задумывается, какие методы анализа он будет применять к полученным результатам опроса, встречаются реже, так как непрофессиональные социологи редко используют удобные и эффективные методы анализа, ограничиваясь представлением процентных распределений. Однако в последнее время появились публикации с грубыми ошибками, вызванными неправомерными и, естественно, непредусмотренными манипуляциями со шкалами ответов.

Чаше всего это связано с острыми и вызывающими всеобщий интерес данными, касающимися рейтингов политических деятелей. Достаточно распространенным является следующий подход к определению рейтинга. Сначала автор, не задумываясь о том, каким образом он будет не только анализировать, но и представлять данные, предлагает в анкете вопрос со следующим веером вариантов ответов: «В какой степени

Вы доверяете политическому лидеру N?»

  • 1 — совершенно не доверяю;
  • 2 — в определенной степени не доверяю;
  • 3 — в определенной степени доверяю;
  • 4 — полностью доверяю;
  • 5 — затрудняюсь ответить.

В дальнейшем, при описании данных, он, в лучшем случае, публикует результаты опроса именно в таком виде.

Но исходная форма приведения данных представляет наименьший интерес, поскольку рейтинги интересны в сравнении (или это мониторинговое сравнение — изменение степени доверия конкретному лидеру в течение какого-либо промежутка времени, или сравнение рейтингов раз-личных политических фигур).

Данные же, представленные в таком виде, неудобно сравнивать, потому что визуально сравниваются лишь крайние группы («полностью доверяю» или «совершенно не доверяю»). Исходные данные надо перерассчитывать: (складывать процент «полностью доверяющих» с «доверяющими в определенной степени» и ту же процедуру проводить с недоверяющими.

Но если автор исследования не планировал ничего иного, кроме представления разделения опрошенных на доверяющих и не доверяющих, то зачем было предлагать пять вариантов ответа, когда уже в анкете их можно было преобразовать в три группы и сразу получить материал, подготовленный к такого рода анализу. В данном случае исследователь (или читатель) сталкивается лишь с лишней работой.

Значительно хуже, когда исследователь, недостаточно подготовленный к социологическому анализу, пользуясь возможностями программы обработки и анализа социологических данных, но не понимая сути и содержания операций с числовым материалом, заказывает по сформулированному именно таким образом вееру ответов подсчет индекса — среднего арифметического полученных данных.

Он не осознает, что в этом случае порядковый номер варианта ответа является баллом (в приведенном примере — выражающим степень доверия), и, по его шкале, вариант ответа «затрудняюсь ответить» при подсчете среднего значения засчитывается как 5 баллов. Эта ошибка (с различными вариантами) является достаточно распространенной, когда анализ результатов социологического исследования проводят лица, недостаточно знакомые с азами статистического и социологического анализа.

Своевременное планирование обработки и анализа данных позволяет профессиональному социологу более эффективно подготовить анкету, а социологу с недостаточным опытом — своевременно осознать проблемы и трудности, с которыми он столкнется при обработке и анализе данных.

Планируя анализ, он может проконсультироваться со спе-циалистом, или упростить анкету, осознавая, что его основная задача — получение общих распределений результатов опроса общественного мнения, поэтому, получив данные, не будет углубляться в анализ, с математическими основами которого он недостаточно хорошо знаком.

В этом случае ему следует помнить — чем меньше, вариантов ответов на альтернативный вопрос (напомним, что альтернативным называется вопрос, на который можно дать только один вариант ответа), тем более наполненными будут полученные группы, и, соответственно, больше- вероятность, что обнаруженные различия в ответах различных групп населения будут статистически значимыми.

Следует, однако, заметить, что сокращать число ответов следует не механически, а обобщая и укрупняя близкие по значению варианты ответов таким образом, чтобы полученные в конечном результате варианты в достаточно обобщенном виде охватывали все множество возможных ответов. Например, в приведенной выше иллюстрации нельзя просто изъять какой-либо (или какие-либо) варианты ответов, а следует обобщить близкие по значению, преобразовав веер ответов в следующий вид:

  • 1 — в общем не доверяю;
  • 2 — трудно сказать, дозеряю или кет;
  • 3 — в общем доверяю.

В любом .случае планирование анализа на этапе проектирования исследования поможет социологу осознать свои возможности и достаточно корректно ограничить свои задачи.
Планирование анализа включает в себя:

  • формулирование гипотез, которые будут проверяться на основании эмпирического исследования;
  • оценку каждого пункта (вопроса) анкеты под уг-лом зрения возможности математико-статистической про-верки гипотезы адекватными методами.

Планирование анализа на этапе проектирования исследования позволяет еще до начала опроса, во-первых, откорректировать выборку; а во-вторых, отредактировать анкету таким образом, чтобы максимально эффективно и адекватно возможностям исследователя использовать полученные данные.

Своевременно сформулированные гипотезы позволяют исследователю откорректировать выборку таким образом, чтобы при анализе демографические группы, характеристика которых, по мнению автора, является фактором, влияющим на изучаемое явление, были достаточно наполнены, чтобы можно было проводить статистический анализ (по общепринятым в эмпирической социологии стандартам, численность таких групп должна быть 50-100 человек — будь то «молодежь в возрасте 18-20 лет», или «предприниматели», или «военнослужащие», или другие социально-демографические группы, численность которых в обычной репрезентативной выборке, как правило, недостаточна для того, чтобы можно было проводить корректный, со статистической точки зрения, сравнительный анализ) с другими социальными группами по их отношению к различным социальным явлениям.

Если при подготовке анкеты исследователь основное внимание уделяет вопросам (их содержанию, формулировкам, структуре, последовательности), то при планировании анализа в поле его зрения главным компонентом становится шкала (веер ответов). Здесь необходимо, во-первых, определить тип шкалы (номинальная, порядковая, метрическая), а затем критически оценить, соответствуют ли варианты ответов типу шкалы. Другими словами, при планировании анализа каждый пункт предварительно подготовленной анкеты необходимо оценить с точки зрения определения методов его анализа и представления в заключительном научном документе, учитывая как собственные возможности (уровень подготовки), так и возможности программы обработки данных, которая будет использована.

Окончательную подготовку к обработке и анализу данных целесообразно проводить в период полевого этапа исследования (сбора интервьюерами первичной социологической информации). После получения первого комплекта заполненных анкет можно начинать пробный ввод данных по подготовленной программе.

Это лучше начинать до получения всего массива анкет, так как довольно часто даже у опытных социологов после начала ввода анкет обнаруживаются некоторые недоработки программы ввода. На этом этапе (пока продолжается полевой этап по сбору данных) еще есть время и возможности откорректировать паспорт ввода или разработать дополнительные инструкции по перекодировке данных

Узнай цену консультации

"Да забей ты на эти дипломы и экзамены!” (дворник Кузьмич)