ГЛАВА 3 ПСИХОМЕТРИЧЕСКИЕ ПСИХОДИАГНОСТИКИ
3.1. РЕПРЕЗЕНТАТИВНОСТЬ ТЕСТОВЫХ НОРМ
Основные статистические принципы построения тестов достаточно полно освещены в появившейся в начале 80-х годов на русском языке литературе по дифференциальной психометрике (Аванесов В. С., 1982; Анастази А., 1982; Гайда В. К., Захаров В. П., 1982). Тем не менее в указанных руководствах центральная проблема психометрики тестов - вопрос о тестовых нормах - еще не получила последовательного освещения. Прежде всего это относится к руководству известной представительницы американской тестологии А. Анастази.
В руководстве Анастази не получают достаточного критического обсуждения две основополагающие предпосылки традиционной западной тестологии: вопрос о применении статистических норм (квантилей распределения баллов) в качестве диагностических норм и вопрос о сведении всех эмпирических распределений к нормальной модели. Ниже эти предпосылки будут проанализированы в контексте краткой реконструкции системы основных понятий дифференциальной психометрики.
Статистическая природа тестовых шкал. Типичный измерительный тест в психодиагностике - это последовательность кратких заданий, или пунктов, дающая в результате ее выполнения испытуемым последовательность исходов, которая затем подвергается однозначной количественной интерпретации. Примеры интерпретации в интеллектуальных тестах, состоящих из отдельных задач: «правильное решение», «ошибочное решение», «отсутствие ответа» (пропуск задачи из-за нехватки времени). Примеры интерпретации в случае личностных опросников, состоящих из высказываний, предлагаемых для подтверждения испытуемым: «подтверждение» (ответ «верно»), «отвержение» (ответы «не согласен», «неверно»).
Суммарный балл по тесту подсчитывается с помощью ключа: ключ устанавливает числовое значение исхода по каждому пункту. Например, за правильное решение задания дается «+1», за неправильное решение или пропуск - «О». Тогда балл буквально выражает количество правильных ответов.
Исход по отдельному заданию подвержен воздействию не только со стороны измеряемого фактора - способности или черты личности испытуемого, но и побочных шумовых факторов, которые являются иррелевантными по отношению к задаче измерения. Примеры случайных факторов: колебания внимания, вызванные неожиданными отвлекающими событиями (шум на улице, стук в дверь и т. п.), трудности в понимании смысла задания (вопроса), вызванные особенностями опыта данного конкретного испытуемого, и т. п. Последовательность исходов оказывается последовательностью событий, содержащей постоянный и случайный компоненты. Как известно, основным приемом, позволяющим устранить искажающее влияние случайных факторов на результат (суммарный балл), Является балансировка этого влияния с помощью повторения. При этом фактически предполагается, что повторение обеспечивает рандомизацию (случайное варьирование) неконтролируемого фактора, в результате чего при суммировании исходов Положительные и негативные эффекты случайных факторов взаимопоглощаются (о механизме рандомизации см.: Готтсданкер Р., 1982).
В оптимальном тесте набор и последовательность заданий организуются таким образом, чтобы повысить долю постоянного компонента и сократить долю случайного в величине суммарного балла. Тем не менее, несмотря на различные статистические ухищрения, суммарный балл в психологических измерениях содержит несравненно большую долю случайного компонента, чем в обычных физических измерениях. В силу этого суммарный балл оказывается определенным лишь в известных пределах, заданных ошибкой измерения.
Для того чтобы оценить эффективность, дифференциальную ценность всей процедуры измерения, необходимо соотнести размеры ошибки измерения с размерами разброса суммарных баллов, вызванных индивидуальными различиями в измеряемой характеристике между испытуемыми. В терминах Статистики речь идет о сравнении так называемой истинной дисперсии распределения суммарных баллов с дисперсией ошибки. Именно этим обусловлен необходимый интерес психометристов к распределению суммарных баллов. Поэтому анализ распределения необходим не только при использовании статистических норм, но и в случае абсолютных и критериальных норм.
Как известно, частотное распределение суммарных баллов имеет удобную графическую интерпретацию в виде кривых распределений: гистограммы и кумуляты (см., в частности, удачное популярное введение в описание распределений в книге: Кимбл Г., 1982, с. 55-70). В случае гистограммы по оси абсцисс откладываются «сырые очки» -первичные показатели суммарных баллов, возможных для данного теста, по оси ординат - относительные частоты (или проценты) встречаемости баллов в выборке стандартизации (Анастази А., 1982, с. 66). Как известно, для «колоколообразной» кривой нормального распределения дисперсия визуализируется как параметр, ответственный за «распластанность» графика плотности вероятности (теоретического аналога эмпирической кумуляты) вдоль оси X. Чтобы визуализировать дисперсию ошибки измерения, нужно было бы многократно провести тест с одним испытуемым и построить графическое распределение частот его индивидуальных баллов (рис. 1).
Очевидно, что дифференцирующая способность теста сводится к нулю, если кривые, иллюстрирующие «истинную» и «ошибочную» дисперсии» совпадают. Как видим, анализ распределения тестовых баллов необходим уже для анализа надежности теста (см. раздел 3.2).
Проблема меры в психометрике и свойства пунктов теста. В физических измерениях калибровка шкалы производится на основе контроля за равномерным варьированием измеряемого свойства в эталонных объектах. Носителем меры является эталон- физический объект, стабильно сохраняющий заданную величину измеряемого свойства. В дифференциальной психометрике такие физические эталоны отсутствуют: мы не располагаем индивидами, которые были бы постоянными носителями заданной величины измеряемого свойства.
Рис. 1.Соотношение индивидуальной и общей вариации тестовых баллов
Роль косвенных эталонов в психометрике выполняют сами тесты: в том смысле, в каком трудность задач можно рассматривать как величину, прямо пропорционально сопряженную со способностью (чем труднее задача, тем выше должен быть уровень способности, требуемый для ее решения). Аналогом понятия «трудность» для «ли-вопросов»1 опросника является «сила»: более «сильные» высказывания (в логическом смысле) вызывают подтверждение (согласие) у меньшего числа испытуемых. Ни трудность, ни силу пунктов теста нельзя выявить иначе, чем с помощью проведения теста. Операциональным определением трудности оказывается «процентильная мера»: процент испытуемых, справившихся с заданием теста (или ответивших «верно» на «ли-вопрос»). Чем меньше процент, тем выше трудность.
Кривая распределения тестовых баллов отражает свойства пунктов, из которых составлен тест. Если кривая имеет правостороннюю асимметрию, то в тесте преобладают трудные задания; если кривая имеет левостороннюю асимметрию, значит, большинство пунктов в тесте - легкие (слабые) (рис. 2).
Рис. 2.Асимметрии распределения тестовых баллов
Тесты первого типа плохо дифференцируют испытуемых с низким уровнем способностей: все эти испытуемые получают примерно одинаковый низкий балл. Тесты второго типа, наоборот, хуже дифференцируют испытуемых с высоким уровнем способностей.
Если пункты обладают оптимальным уровнем трудности (силы), то кривая распределения зависит от того, насколько пункты однородны. Если пункты разнородны (исход по одному пункту не предопределяет исход по другому), то мы получаем тест в виде последовательности независимых испытаний Бернулли. Как известно из математической статистики, при достаточно большом количестве независимых испытаний с двумя разновероятными исходами кривая биномиального распределения (кривая суммарного балла) по закону больших чисел автоматически приближается к кривой нормального распределения (центральная предельная теорема Муавра - Лапласа). Если тест содержит разнородные задания примерно равного уровня трудности (именно такие задания и подбираются для измерения интегральных свойств личности), то нормальность распределения суммарных баллов возникает автоматически - как артефакт самой процедуры подсчета суммарных баллов. При этом, конечно, форма кривой распределения баллов не позволяет говорить о реальной форме распределения измеряемого свойства, каким оно является само по себе - в широкой популяции испытуемых. Нормальность распределения есть артефакт, прямое следствие направленного отбора пунктов с заданными свойствами.
Если подбираются пункты, тесно положительно коррелирующие между собой (испытания не являются статистически независимыми), то в распределении баллов возникает отрицательный эксцесс (рис. 3,а), Максимальных значений отрицательный эксцесс достигает по мере возрастания вогнутости вершины распределения - до образования двух вершин -двух мод (с «провалом» между ними -рис. 3,6). Бимодальная конфигурация распределения баллов указывает на то, что выборка испытуемых разделилась на две категории (с плавными переходами между ними): одни справились с большинством заданий (согласились с большинством «ли-вопросов»), другие - не справились.
Рис. 3. Отрицательные (а, б) положительный (в) эксцессы распределения тестовых баллов
Такая конфигурация распределения свидетельствует о том, что в основе пунктов лежит какой-то один общий им всем признак, соответствующий определенному свойству испытуемых: если у испытуемых есть это свойство (способность, умение, знание), то они справляются с большинством пунктов, если этого свойства нет - то не справляются. В некоторых редких ситуациях пункты могут отрицательно коррелировать друг с другом. В этом случае на кривой возникает положительный эксцесс (рис. 3, в): вся масса эмпирических точек собирается вблизи среднего значения. Такое возможно в двух случаях: 1) когда ключ составлен неверно -объединены при подсчете отрицательно связанные признаки, которые обусловливают взаимоуничтожение баллов; 2) когда испытуемые применяют, разгадав направленность опросника, специальную тактику «медианного балла» - искусственно балансируют ответы «за» и «против» одного из полюсов измеряемого качества.
Итак, когда в качестве единственного эталона измерения психодиагностами рассматривается сам тест, то в качестве меры измеряемого свойства выступает положение балла на кривой распределения. Применяется процентильная шкала. В качестве универсальной меры, пригодной для разных (по своей качественной направленности и количеству пунктов) тестов, используется «процентильная мера». Процентилъ — процент испытуемых из выборки стандартизации, которые получили равный или более низкий балл, чем балл данного испытуемого. Таким образом, в качестве источника данной меры выступает нормативная выборка (выборка стандартизации), на которой построено нормативное распределение тестовых баллов. Процентильные шкалы лежат в основе всех традиционных шкал, применяемых в тестологии (Т-очки MMPI, баллы IQ, стены 16 PF и др.).
Подчеркнем, что с точки зрения теории измерений, процентильные шкалы относятся к порядковым шкалам: они дают информацию о том, у кого из испытуемых сильнее выражено измеряемое свойство, но не позволяют говорить о том, во сколько раз сильнее. Для того чтобы строить на базе таких шкал количественный прогноз, нужно повысить уровень измерения (популярное изложение представлений о теории измерений см. в книге: Клигер С. А. и др., 1978). Переход к шкалам интервалов производят либо на базе эмпирического распределения, либо на базе произвольной модели теоретического распределения. В абсолютном большинстве случаев в роли такой теоретической модели оказывается модель нормального распределения (хотя в принципе может быть использована любая модель).
В целом кроме статистических, процентильных шкал следует отличать нередко используемые в дифференциальной психометрике еще 2 вида шкал (и соответственно 2 вида тестовых норм). Это, во-первых, то, что можно условно назвать «абсолютными тестовыми нормами» — в роли шкалы для вынесения диагноза выступает сама шкала «сырых» очков, во-вторых, «критериальные» тестовые нормы. Применение таких норм можно считать оправданным в двух случаях: 1) когда сама тестовая «сырая» шкала имеет практический смысл (например, студент, изучающий иностранный язык, должен знать как можно больше слов этого языка, и сырой показатель лексического теста имеет практический смысл); 2) когда сырой балл по тесту в результате эмпирических исследований связывается с заданной вероятностью успешности какой-либо практической деятельности (вероятность успеха «критериальной» деятельности, каковой для упомянутого выше примера может быть синхронный перевод монолога в течение 30 минут).
Процентильная нормализация шкалы. Выше Показано, что нормальность распределения достигается искусственным подбором пунктов теста с заданными статистическими свойствами: Опишем еще ряд процедур, которые также широко используются для искусственной нормализации.
1. Нормализация пунктов. Ключ для данного пункта корректируется на базе нормальной модели. Если среди нормативной выборки с данным заданием справились только 16 % испытуемых, то данному пункту на интервальной шкале «трудности» (при условии априорного принятия нормальной модели с параметрами М = 0 и а = 1) соответствует значение +1 (см. график в книге: Анастазй А., 1982, с. 181). Если справились 75 % испытуемых, то балл пункта на сигма-шкале равен-0,67. В результате суммирования по пунктам баллов, скорректированных нормализацией, суммарные баллы лучше приближаются к нормальному распределению.
2. Нормализация распределения суммарных баллов (или интервальная нормализация). В этом случае по таблице нормального распределения (нормального интеграла) производится переход от процентильной шкалы к сигма-шкале: используется функция, обратная интегральной, - от ординаты производится переход к абсциссе нормального распределения.
Рис. 4. Преобразование процентильной шкалы (по оси X) в нормализованную сигма-шкалу (по оси Y)
На рис. 4 дана условная графическая иллюстрация этого перехода (кривая, обратная традиционной S-образной интегральной кривой нормального распределения).
Приведем пример интервальной нормализации (табл. 3). Пусть строка X содержит сырые баллы (не нормализованные) по тесту, полученные простым подсчетом правильных ответов. В строке Р - частоты встречаемости сырых баллов в выборке из 62 испытуемых. В строке F - кумулятивные частоты:=. В строке F* - кумулятивные баллы: . В строке PR - процентильные ранги: . В строке σ даются нормализованные баллы, полученные из соответствующих процентильных рангов по таблицам, а -оценки часто называются в зарубежной литературе также z-оценками.
Таблица 3
X
P
F
F*
PR
σ
|
3
2
2
1
1,6
-2,1
|
4
18
20
11
17,7
-0,9
|
5
13
33
26,5
42,7
-0,2
|
6
8
41
37
59,7
0,2
|
7
10
51
46
74,2
0,6
|
8
6
57
54
87,1
1,1
|
9
4
61
59
95,2
1.7
|
10
1
62
61.5
99.2
2.4
|
n=62
Σ=100
M=0
σ =1
|
|