Рассмотрим основные достоинства и недостатки обеих теорий.
Классическая теория тестирования
Безусловным достоинством классической теории тестирования являются доступность, наглядность и интерпретации вычислений: уровень подготовленности испытуемого (значение латентной переменной) определяется по доле правильных ответов.
Однако этой теории присущи существенные недостатки.
1. Оценка уровня подготовленности испытуемого зависит от трудности теста. Так, если тест состоит из трудных тестовых заданий, то доля правильных ответов у испытуемого будет низкой. Если же тест состоит из легких тестовых заданий, то доля правильных ответов у того же самого испытуемого будет высокой.
2. Оценка трудности тестового задания зависит от уровня подготовленности испытуемых. Так, если выборка состоит из хорошо подготовленных испытуемых, то трудность тестовых заданий будет невысокой. Если же выборка состоит из плохо подготовленных испытуемых, то трудность тестовых заданий будет высокой.
3. Шкала измерения уровня подготовленности является нелинейной. Например, одна и та же разница в баллах (5 баллов) на краях и в середине шкалы соответствует разному приращению в уровне подготовленности (100 баллов – 95 баллов) ≠ (50 баллов – 45 баллов).
4. Дисперсия оценки уровня подготовленности наибольшая в середине диапазона измерения и наибольшая по краям, что противоречит логике построения доверительных интервалов.
5. Тестовый балл испытуемого нелинейно зависит от уровня его подготовленности.
Необходимо отметить еще один способ «измерения», а точнее, оценивания латентной переменной, близкий к классической теории тестирования. Речь идет о вычислении интегральных показателей.
Традиционная методика вычисления интегрального показателя сводится к следующей процедуре:
– на основе экспертных оценок каждой индикаторной переменной приписывается вес: чем выше важность индикаторной переменной, тем больше вес;
– абсолютные значения индикаторных переменных переводятся в относительные. Это осуществляется следующим образом. Для каждой индикаторной переменной ищется ее максимальное значение, которое и принимается за единицу; остальные значения индикаторной переменной выражаются в долях максимального значения;
– относительные значения индикаторной переменной умножаются на вес этой индикаторной переменной, интегральный показатель вычисляется суммированием взвешенных значений всех индикаторных переменных;
– объекты ранжируются на основе этого интегрального показателя.
Однако и эта методика обладает многими существенными недостатками:
1. Экспертные оценки являются субъективными (варьируя весами, можно получить любое ранжирование объектов).
2. Используемый набор индикаторов может характеризовать не одну переменную, а несколько, что искажает получаемые оценки.
3. Получаемые оценки не измеряются на линейной шкале, что затрудняет мониторинг и сравнение объектов.
Теория измерения латентных переменных
Эта теория отличается от наиболее часто используемой классической по многим аспектам:
– результаты измерений являются объективными, т. е. не зависят ни от того, кто измеряет, ни от того, какой измерительный инструмент (тест или опросник) используется;
– обязательным требованием является совместимость набора индикаторных переменных, т.е. проверяется, действительно ли все индикаторные переменные определяют одну и ту же латентную переменную;
– уровень подготовленности и трудность задания измеряются на одной и той же интервальной шкале в логитах. Поскольку мера измерения параметров модели Раша является линейной, то это позволяет использовать широкий спектр статистических процедур для анализа результатов измерений;
– модель измерения (модель Раша) является вероятностной;
– латентная переменная определяется операционально, через набор индикаторных переменных;
– чем больше индикаторных переменных, тем выше точность измерения латентной переменной;
– модель Раша превращает измерения, сделанные в дихотомических и порядковых шкалах, в линейные измерения, в результате качественные данные анализируются с помощью количественных методов;
– оценка индикаторных переменных не зависит от выборки испытуемых, на которых была получена;
– оценка уровня подготовленности испытуемых не зависит от используемого набора тестовых заданий (пунктов опросника);
– пропуск данных для некоторых комбинаций (испытуемый – индикаторная переменная) не является критическим;
– благодаря простой структуре модели существуют удобные вычислительные процедуры для многоаспектной проверки адекватности модели: для всего набора тестовых результатов, для каждого испытуемого, для каждой индикаторной переменной и для каждой комбинации «испытуемый – индикаторная переменная».
Выделим наиболее важные аспекты измерений, получаемых на основе модели Раша: объективность измерений, совместимость индикаторных переменных, линейная шкала измерений и вероятностный характер модели измерений.
Объективность измерений латентных переменных
Безусловно, наиболее известной и широко используемой латентной переменной в образовании является «уровень знаний» или «уровень подготовленности» учащегося. Как измеряется эта латентная переменная на практике, и каково же качество измерения этой переменной?
Например, при использовании обычной 5-балльной системы оценивания оценка «3» по физике в сельской школе соответствует одному уровню знаний, оценка «3» по физике в городской школе соответствует другому уровню знаний, и та же самая оценка «3» соответствует третьему уровню знаний в физико-математическом лицее. Или, например, оценка «3» у одного преподавателя может соответствовать большему уровню знаний, чем оценка «4» у другого преподавателя. Необъективность такого рода измерений очевидна: результат измерений зависит от преподавателя (от того, кто измеряет).
При использовании традиционной, или классической, системы тестирования «латентная переменная» этой необъективности уже нет.
Уровень подготовленности испытуемого измеряется как доля правильных ответов. Однако, как было показано ранее, оценка уровня подготовленности зависит от набора тестовых заданий.
Спрашивается: как можно использовать такого рода измерения для управления качеством образования?
Результаты же объективных измерений не должны зависеть ни от того, кто измеряет (преподавателя), ни от используемого измерительного инструмента (набора тестовых заданий). Именно эту объективность и обеспечивает теория измерения латентных переменных, краеугольным камнем которой является модель Раша.
Совместимость индикаторных переменных
Для наглядности рассмотрим очень показательную ситуацию, когда один студент правильно ответил на половину тестовых заданий, которые являются наиболее трудными, а на оставшиеся, легкие задания ответил неправильно. Второй студент, наоборот, на трудную половину заданий ответил неправильно, а на оставшиеся, легкие, задания ответил правильно.
Спрашивается: какой из студентов, обладает большим уровнем подготовленности? Естественно, возникает ответ, что первый, но как тогда это согласовать с тем, что он не знает элементарных вещей? В классической системе тестирования этот вопрос решается просто: поскольку и тот и другой студент ответили правильно на одно и то же число вопросов (50 %), то оценки их уровня подготовленности одинаковы.
В теории измерения латентных переменных этот вопрос решается принципиально по-другому. Прежде всего, проверяется, можно ли использовать полученные результаты тестирования для измерения уровня подготовленности. Для данной ситуации наверняка будет получен вывод, что полученные результаты тестирования невозможно аппроксимировать моделью Раша и поэтому их нельзя использовать для измерения латентной переменной «уровень подготовленности». Следовательно, вопрос о том, у кого выше уровень подготовленности, останется открытым.
Единственное конструктивное решение здесь – это анализ причин, обусловивших такую ситуацию. Одна из возможных причин, приведших к таким результатам тестирования, может состоять в том, что набор тестовых заданий плохо отработан и сами тестовые задания являются несовместимыми. Как следствие, необходимо улучшать тест: корректировать, исключать или добавлять тестовые задания. Другая причина может заключаться в неадекватном тестировании: плохо организован сам процесс тестирования, в частности, не исключены были списывания и т. д.
Линейность шкалы
Еще раз подчеркнем важное свойство измерительной шкалы – ее линейность. Латентная переменная отображается на прямой, называемой линейным континуумом.
Результаты же измерения при использовании классической системы тестирования являются существенно нелинейными. Так, одна и та же разность в числе правильных ответов по краям шкалы и в середине шкалы соответствует различной разнице в уровне подготовленности. Например, при общем числе тестовых заданий, равном 100, разница между числом правильных ответов 100 и 95 соответствует большей разнице в уровне подготовленности, чем разность между 53 и 48.
Модель измерения является вероятностной
Существенная особенность модели Раша заключается в том, что она является вероятностной. Целесообразность использования вероятностной модели объясняется следующим. Дело в том, что невозможно описать и предсказать поведение отдельного индивида. Например, хорошо подготовленный студент может «провалиться» на легкой задаче, и, наоборот, плохо подготовленный студент может решить трудную задачу. Мы никогда не можем предсказать, решит или не решит студент задачу, но мы можем сказать, какие у него шансы (высокие или низкие) решить задачу. Поведение студента описывается вероятностной моделью, вероятностью того, что данный i-й студент (с известным уровнем подготовленности βi) решит j-е тестовое задание, имеющее трудность δj).
Так, из приведенной выше модели измерения следует, что если уровень знаний i-ого студента точно равен трудности j-ого тестового задания, т.е. βi = δj, то вероятность правильного ответа студента на такое задание равна 0,5. Если уровень знаний студента значительно превышает трудность задания, т.е. βi >> δj, то вероятность правильного ответа будет стремиться к 1, но никогда не будет равна 1. Таким образом, эта вероятностная модель допускает, что даже отличник может ответить неправильно на очень легкое задание (правда, вероятность неправильного ответа очень мала). С другой стороны, если трудность задания значительно превосходит уровень знания студента, т.е. βi << δj, то вероятность правильного ответа будет стремиться к 0, но никогда не будет равна 0. Следовательно, даже в такой ситуации модель допускает небольшую вероятность правильного ответа. Это означает, что модель является достаточно гибкой и позволяет описывать широкий круг ситуаций.
Измерение как процесс определения места расположения объекта на линейном континууме по необходимости включает работу с числами. Использование чисел в этом и других контекстах свидетельствует о некоторой точности. Однако применительно к латентным переменным всегда есть побочные эффекты при таком использовании чисел, поскольку им может придаваться слишком большое значение. При интерпретации таких чисел выделяются две основные проблемы – валидность и надежность.
Первая проблема — эта проблема надежности (reliability). Дело в том, что в любом измерении присутствует ошибка измерения, и поэтому мы всегда должны знать реальную точность измерений.
Вторая проблема заключается в том, что наш измерительный инструмент может не измерять то, что мы хотим измерить или думаем, что измеряем. Этот аспект называется валидностью (validity) измерений.
Рассмотрим эти важные аспекты измерения латентных переменных.