Научная электронная библиотека
Монографии, изданные в издательстве Российской Академии Естествознания

2.5 Валидность и надежность

Валидность измерительного инструмента

Измерительным инструментом для измерения латентной переменной является набор индикаторных переменных, в частности, это может быть тест или опросник. Валидность теста показывает, насколько хорошо тест измеряет то свойство, для измерения которого он разрабатывался.

На первый взгляд, кажется, что это тавтология. Что же еще может измерить тест, как не то, для измерения чего он разрабатывался? Оказывается, намного проще сформулировать цель, предмет измерения теста, чем подобрать тестовые задания таким образом, чтобы тест действительно измерял именно то, что хочет разработчик.

Например, одним из умений, необходимых школьнику при изучении химии, является умение решать задачи на концентрацию растворов и смесей, но, разрабатывая тест, проверяющий наличие и сформированность этого умения, следует подбирать такие задачи, которые не требовали бы сложных математических вычислений. В противном случае учащийся может получить неправильный ответ не потому, что он не умеет решать задачи данного вида, а потому что он запутается в сложных математических вычислениях.

Выделяют несколько видов валидности [86]. Между собой эти виды слабо связаны, то есть по одному типу валидности тест может быть вполне удовлетворительным, а по другому – непригодным.

Наиболее часто используются следующие типы валидности:

– содержательная валидность (content validity);

– согласованная валидность (concurrent validity);

– предсказательная валидность (predictive validity);

– конструктная валидность (construct validity).

Рассмотрим эти типы валидности применительно к измерению уровня подготовленности учащихся.

Содержательная валидность (валидность по содержанию). Содержательная валидность теста – это степень, в которой тест соответствует заявленным целям.

Применительно к образованию содержательная валидность имеет четыре взаимосвязанных аспекта:

– адекватность теста учебному плану и программе;

– соответствие теста структуре учебного предмета;

– отражение в тесте доминирующих концепций, трактующих так или иначе диагностируемую систему знаний и умений;

– адекватность теста развивающим целям и задачам.

Как правило, содержательная валидность оценивается с помощью экспертных методов.

При проведении содержательной экспертизы теста используются следующие критерии:

– полнота отображения материала образовательной программы при отборе содержания теста;

– правильность пропорций, выбранных при отображении разделов предмета;

– отражение в тесте «концепции учебного предмета», того, что в учебном материале (какие разделы, темы) является более или менее значимым;

– полнота охвата требований государственных образовательных стандартов в тесте;

– соответствие содержания заданий знаниям, умениям и навыкам;

– значимость содержания каждого задания теста для целей проверки.

Согласованная валидность. Этот вид валидности определяется по степени близости результатов, полученных по данному тесту, с результатами, полученными по другим релевантным тестам. Например, можно ожидать, что тест, определяющий математические способности, будет хорошо коррелировать с тестом, оценивающим успеваемость по математике.

Так, дидактические тесты могут валидизироваться на основе критерия школьной успеваемости. В этом случае определяется коэффициент корреляции тестового результата с оценкой школьной успеваемости. Чем выше коэффициент корреляции, тем более высокой считается валидность теста. Для дидактических тестов в качестве внешнего критерия могут выступать оценка успеваемости по предмету, результаты ранее разработанного теста, контрольной работы, экспертные оценки и другие показатели.

Предсказательная валидность. Эта валидность определяется по степени согласованности результатов исследуемого теста с результатами этого же теста в будущем. Например, результаты вступительных экзаменов абитуриентов должны коррелировать с успеваемостью студентов на протяжении обучения их в университете.

Конструктная валидность. Конструктная валидность определяется на основе того, что результаты по исследуемому тесту хорошо согласуются с результатами других, теоретически обоснованных тестов.

Может возникнуть вопрос: действительно, зачем создавать новый инструмент, когда уже есть готовый тест для измерения данного качества? Такая разработка может быть обусловлена тем, что создаваемый тест качественно отличается от существующих: более прост, более технологичен для обработки и проведения и т. д.

В теории латентных переменных считается, что конструктная валидность является определяющей (стоит во главе иерархии) и что остальные три вида валидности являются ее составляющими.

Надежность теста

Надежность теста показывает, насколько точно тест измеряет изучаемое явление, его «помехоустойчивость». Понятие надежности подразумевает согласованность результатов тестирования на одной и той же группе тестируемых в разных условиях. Чем выше надежность, тем точнее результаты тестирования.

Существует несколько способов оценивания надежности тестов:

– повторное тестирование (ретестирование);

– параллельное тестирование (тестирование параллельной формой теста);

– расщепление (метод деления теста на части).

Соотношение между надежностью и валидностью теста

Надежность теста – это одна из характеристик качества теста (опросника), показывающая, насколько точно измеряет данный тест изучаемую латентную переменную. Категория надежности тесно связана с точностью измерения, то есть чем выше надежность, тем точнее результаты тестирования.

Валидность теста выражает степень, в которой тест измеряет именно то, что он должен измерить. Валидность теста означает пригодность, или его обоснованность для достижения поставленной цели.

Надежность теста и валидность теста – взаимно независимые качества.

Аналоги надежности и валидности теста.

Допустим, имеются два стрелка: А и В. Стрелок А регулярно выбивает 90 очков из 100, а стрелок В только 70. Соответственно, надежность стрелка В только 0,70. Однако стрелок А всегда стреляет по чужим мишеням, поэтому на соревнованиях его результаты не засчитываются. Второй стрелок всегда правильно выбивает мишени. Поэтому валидность стрелка А нулевая, а стрелка В – высокая. Если стрелок А станет правильно выбирать мишени, то он будет предпочтительнее стрелка В.

Здесь аналогом надежности является меткость стрелка, а аналогом валидности – точность стрельбы по строго определенной своей мишени.

Известны случаи, когда тест, признанный невалидным для измерения одних свойств, признавался валидным по отношению к другим.

Определение конструктов (латентных переменных)

Как уже было отмечено выше, определение одних терминов через другие помогает в общих чертах понять его содержание. Но этого недостаточно для количественной оценки уровня проявления этого качества. Это можно сделать только через наблюдаемые проявления (индикаторы) исследуемого конструкта и тогда конструкт может быть измерен.

Например, для обеспечения измерения конструкта «уровень подготовленности по математике» необходимо выяснить, что студент знает. Тестовые задания (индикаторы) в соответствующей предметной области предоставляет информацию об уровне подготовленности студента. Таким образом, нельзя «увидеть» уровень подготовленности студента, точно так же, как мы видим высоту здания. Уровень подготовленности студентов можно измерить только через индикаторы, которые в данном случае являются тестовыми заданиями. Более того, набор тестовых заданий и определяет, что мы понимаем под уровнем подготовленности по математике.

Поскольку латентная переменная (уровень подготовленности, патриотизм, толерантность, антиципатия и др.) конструируются нами, то возникает непростая задача: а как их формализовать, т. е. каким набором индикаторов описать эту латентную переменную? Это неформализованный процесс, и каждый исследователь может предложить свой набор индикаторов. Какой набор лучше описывает латентную переменную, с точки зрения валидности и надежности, можно определить только на основе экспериментальной апробации этих наборов индикаторов.

В социальных системах латентными переменными часто являются «понятия» (термины), которым не хватает четких определений. Естественно, что такие переменные должны быть прояснены до проведения измерений. Определение таких понятий должно осуществляться не через другие понятия, а через набор проявления этих понятий (индикаторов). Чем больше зафиксировано этих проявлений (индикаторов), тем точнее определено содержание этих понятий.

Так, содержание понятия «антиципатия» должно быть определено до проведения измерений с помощью набора проявления этого понятия (набора индикаторов). После проведения экспериментальной апробации происходит уточнение этого понятия. Все эти задачи решаются в рамках теории латентных переменных.

Ключевые характеристики измерения латентных переменных

Линейный континуум

Ключевое свойство измерений состоит в том, что измеряемую латентную переменную необходимо отобразить на прямой, называемой линейным континуумом. Причем эта прямая может быть разделена на равные единицы, большие или меньшие, начиная от некоторой точки отсчета. Примером является измерение длины. Однако все измерения представляются в таком виде.

Одним из аналогов являются рычажные весы, где единицы одинакового веса добавляются на одну сторону весов, пока не будет достигнут баланс объекта, находящегося на другой стороне весов. Можно построить прямую, представляющую континуум веса, на которой можно отобразить вес различных объектов. Усовершенствованные весы, например рычажные и электронные, сразу показывают вес в измеряемых единицах.

Инструмент измерения латентных переменных

Построение измерительного инструмента является принципиально важным для понимания самой латентной переменной и факторов, которые влияют на построение такого инструмента. Измерительным инструментом является набор проявлений (индикаторов) латентной переменной, который формализуется как набор тестовых заданий или набор пунктов опросника.

Прежде всего, необходимо отметить, что формализация конструкта (латентной переменной) является неоднозначной и зависит от цели исследования. Например, рассмотрим конструкт «успеваемость школьников». Это означает, что мы рассматриваем успехи учащихся по всем предметам: русскому языку, иностранному языку, математике, физике и т.д. Однако при более детальном рассмотрении одни учащиеся могут хорошо учиться по всем этим предметам, а другие могут хорошо учиться только по некоторым предметам.

Некоторые студенты могут иметь большие успехи в науке, а другие – в английском языке и наоборот. Рассмотрим, например, студентов, имеющих успехи в науке. Но на более детальном уровне рассмотрения некоторые школьники могут быть одинаково успешны во всех областях науки, а другие могут быть более успешны в биологических науках, чем в естественных науках, например в физике или химии. Повышая детальность рассмотрения, мы можем обнаружить, что одни студенты более успешны в экспериментальной работе, а другие в теоретической. Можно идти дальше и получать все более детализированные конструкты.

Поэтому формализация конструкта зависит от цели использования результатов измерений. Уровень детализации конструкта задается набором индикаторов. Сам набор индикаторов указывает на уровень рассмотрения, который мы ожидаем. Например, если тест по английскому языку включает задания на понимание прочитанного и на написание эссе, мы можем определить уровень детализации конструкта. Конструкт будет более узким, если он будет включать только задания на понимание прочитанного и не включать эссе или состоять только из заданий на написание эссе и не включать задания на понимание прочитанного.


Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»
(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1,674