Главная » Справочник » Аналитика маркетинговых данных и эффективное управление » SPSS кодирование переменных

SPSS кодирование переменных

После того как файл данных в SPSS сформирован, необходимо приступить к следующему шагу формирования базы данных, а именно к кодированию переменных. К этому действию следует отнестись весьма серьезно, так как именно в этот момент устанавливается соответствие переменных и меток их значений, от четкости этого соответствия будет зависеть качество интерпретации результатов самого статистического анализа. Путаница в названиях и кодировании переменных приведет к совершенно бесполезному результату на выходе!

Приступая к процессу кодирования следует помнить, что если данные в SPSS импортируются из других программ, то будут видны имена переменных и их значения. Если данные вводим вручную и без предварительного кодирования, то будут видны также имена переменных и их значения. Соответственно, правила кодирования и для импортированных данных, и для введенных вручную одинаковы.

Рабочее окно SPSS (см. рис. 2) содержит специальные вкладки для перемещения между видом файла данных «Представление Данные» и таблицей переменных «Представление Переменные». Кодирование переменных осуществляется на вкладке «Представление Переменные». Общий вид окна программы после щелчка на вкладке «Представление Переменные» показан на рисунке 9.

Заполнение данной таблицы происходит таким образом, что если в поле «Имя», которое предназначено для ввода имени переменной, ввести какую-либо переменную, то все остальные поля будут заполнены автоматически значениями по умолчанию.

При импорте данных из другого источника данное поле заполняется теми значениями, которые были указаны в исходной базе данных. Все остальные поля таблицы заполняются программой автоматически, причем SPSS сама определяет, к какому типу относится та или иная переменная, а в качестве меток дублирует имена переменных.

Поле «Имя» должно состоять только из латинских букв и цифр, имя переменной не может начинаться с цифры. Поле «Тип» служит для указания типа переменной. Установленный по умолчанию тип «Числовой» можно изменить, установив курсор в данную ячейку и щелкнув на появившейся кнопке со значком. Типы переменных представлены на рисунке 10.

Поле «Ширина» служит для указания количества разрядов числовых переменных или букв, если переменные текстовые, но указывать следует только в том случае, если этого не было сделано в диалоговом окне указания типа переменной.

SPSS кодирование переменных

Поле «Знаков после запятой» служит для указания количества цифр после запятой для числовых переменных. Поле «Метка» служит для задания метки переменной. Указанные в нем значения появляются на графиках и в таблицах при проведении всех видов статистического анализа.

В анкетах, используемых при проведении маркетинговых исследований, содержатся как одновариантные вопросы, когда респонденты могут указать только один вариант ответа, так и многовариантные, когда респонденты могут указать несколько вариантов ответа.

Подход к кодированию следующий: одновариантные вопросы представляются одной переменной, которая может принимать столько значений, сколько имеется вариантов ответа; многовариантные вопросы кодируются количеством одновариантных переменных, равным числу вариантов ответа.

Каждая такая одновариантная переменная всегда принимает только два значения «выбрано / не выбрано», которые кодируются соответственно двумя цифрами (обычно 1 и 0). При кодировании одновариантных переменных поле «Метка» используется для указания формулировки вопроса анкеты. Варианты ответа на него кодируются в другом поле.

При кодировании многовариантных переменных, представленных вариантами ответа, формулировка самого вопроса не отражается в таблице: кодируются только варианты ответа как дихотомические переменные «выбрано / не выбрано».

Наглядным примером, подходящим для маркетингового анализа для ООО «Буренка» одновариантного вопроса будет вопрос о поле респондента. И эта формулировка вопроса «Ваш пол?» отражается в поле «Метка», а переменной присваивается имя по принципу ql. Формулировка многовариантного вопроса «При выборе сметаны что для Вас самое главное?» не будет фигурировать в таблице «Представление Переменные».

Интересно

Вместо него будет указан набор одновариантных дихотомических переменных, равных числу вариантов ответа. В поле «Метка» будут указаны названия вариантов ответа, а в поле «Имя» — имена переменных, кодирующие каждый из вариантов ответа (например, в данном случае переменная q2_l — Цена; q2_2 — Вкус и т. д.).

Поле «Значения» служит для указания вариантов ответа в одновариантных вопросах. Общий вид соответствующего диалогового окна представлен на рисунке 11. Это поле не заполняется для многовариантных переменных. В окне «Метки значений» в поле «Значения» указываются числовые коды вариантов ответа, а в поле «Метка» — вербальные формулировки вариантов ответа.

Здесь следует помнить о том, что насколько грамотно и точно будут созданы вербальные формулировки, настолько читаемы и понятны будут графики и таблицы, полученные в ходе анализа данных. Классический пример с половой принадлежностью респондентов: вербальная формулировка может быть «Мужской» и «Женский» или «Мужчины» и «Женщины».

Поле «Пропущенные» используется очень редко, поскольку не является важным. В нем указываются коды, которые исключаются из анализа. Может быть два типа пропущенных значений: «пользовательские пропуски» — значения, специально пропущенные исследователем; «системное пропущенное» — значения, которые должны были присутствовать, но которых не оказалось в базе данных в связи с причинами случайного характера.

По умолчанию все пропущенные одновариантные вопросы или неотмеченные варианты ответа многовариантных вопросов представляются в SPSS как «Системное пропущенное».

SPSS кодирование переменных

На рассматриваемом примере анализа маркетинговых данных ООО «Буренка» работу с полем «Пропущенные» можно продемонстрировать следующим образом. Предположим, что для исследования нам нужна сметана только с жирностью 15–25 %. Тогда в начале анкеты зададим респондентам закрытый фильтрационный вопрос: «Какой жирности Вы предпочитаете покупать сметану?».

При этом респондент может выбрать один из шести вариантов ответа:

до 10 %;
11–15 %;
16–20 %;
21–25 %;
26–30 %;
более 30 %.

Очевидно, что для дальнейшего анализа подходят респонденты, указавшие варианты ответа 2–4. Теперь эти три варианта ответа, которые необходимы для дальнейшей аналитической обработки, заносим в поле «Значения», а оставшиеся три варианта 1, 5 и 6 заносим в поле «Пропущенные». Три последних варианта исключаются из дальнейшего анализа и будут представляться как значение «Системное пропущенное».

Интересно

В дальнейшем, если возникнет необходимость проведения какой-либо другой аналитической обработки данных, например, построение общего линейного распределения по всему фильтрационному вопросу, который включает все категории, нужно будет просто убрать три пропущенных значения из поля «Пропущенные» и добавить их в поле «Значения».

Поле «Ширина» столбца служит для указания ширины столбца при отображении переменной в окне «Представление Данные». Поле «Выравнивание» предназначено для выбора выравнивания значений переменной в столбце: по левому краю, по правому краю, по центру.

Поле «Мера» служит в SPSS для определения типа шкалы переменных. Шкала переменной может быть номинальной, порядковой или интервальной. И от исследователей здесь требуется четкое понимание того, какой тип шкалы у той или иной переменной в базе данных. От этого опять же во многом зависит выбор используемой статистической процедуры и, соответственно, правдивость выходных аналитических результатов.

Ниже приведена краткая характеристика трех типов шкалы переменных, используемых в SPSS:

Порядковая. Порядковые переменные кодируют такие закрытые вопросы, варианты ответа на которые подчиняются логическому числовому порядку. Другими словами, варианты ответа на такие вопросы представляют собой связанные между собой группы значений. Опираясь на рассматриваемый вариант с анализом данных для ООО «Буренка», примером может стать вопрос «Как часто Вы покупаете сметану?» с вариантами ответа: 1 раз в неделю, 2 раза в неделю, больше 2-х раз в неделю и т. д. Варианты ответа здесь кодируются переменной с порядковой шкалой.
Интервальная. К интервальным относятся переменные, не имеющие выделенных категорий. Они содержат только число-вые данные. Этот тип шкал широко используется в практике про-ведения маркетинговых исследований и аналитической обработки собранной информации. Ими часто кодируют открытые вопросы. В привязке к ООО «Буренка» — это номер анкеты в базе данных.
Номинальная. Переменные этой шкалы могут принимать дискретные, не связанные друг с другом значения. Вопросы анкеты, кодируемые номинальными переменными, могут быть как закрытыми с вариантами ответов, так и открытыми с текстовым полем для ответа.

В рассматриваемом примере маркетингового анализа для ООО «Буренка» можно выделить вопрос анкеты «Какую сметану Вы предпочитаете покупать?» с вариантами ответа «упакованную производителем», «расфасованную в магазине» и «затрудняюсь ответить». Ответ на данный вопрос будет закодирован в базе данных SPSS номинальной переменной, так как между вариантами ответа на данный вопрос не существует логического порядка, это просто возможные варианты ответа.

Дихотомические переменные, которые имеют только два варианта ответа, часто встречаются в маркетинговых исследованиях, относятся к номинальному типу шкал. Дихотомические переменные (номинальная шкала) в SPSS также являются вариантами ответа на многовариантные вопросы.

Этим переменным в SPSS отводится особая роль, так как их варианты ответа могут рассматриваться в статистических процедурах как вероятность выбора одной категории или не выбора другой. Дихотомические переменные могут кодировать как открытые, так и закрытые вопросы, содержащиеся в опроснике анкеты.

Предыдущая статья SPSS ввод данных Следующая статья SPSS линейные распределения для многовариантных вопросов

Статьи по теме