ПОСТРОЕНИЕ ИНФОРМАЦИОННЫХ СИСТЕМ НЕПРЕРЫВНОГО ОБРАЗОВАНИЯ НА ОСНОВЕ ИНТЕРНЕТ-ТЕХНОЛОГИЙ
Дьяченко А. В., Манжула В. Г., Попов А. Э., Семенихин И. Н., Толстобров А. П.,
Широкое использование электронных систем управления обучением не в последнюю очередь обусловлено наличием в них средств, позволяющих сделать более технологичной важнейшую составляющую процесса обучения, связанную с оценкой уровня освоения учащимися изучаемого учебного материала. Речь идет об использовании автоматизированных тестовых систем в качестве средства измерения уровня подготовки учащихся.
Для этих целей в системе Moodle, как и в других современных системах аналогичного назначения, имеется подсистема, позволяющая формировать банки тестовых заданий всех основных форм - «в закрытой форме», «вычисляемые», «короткий ответ», «числовые», «на соответствие», «вложенные ответы», и строить из них тесты, предназначенные для самоконтроля и тренинга, тематические тесты, тесты для текущей и итоговой оценок уровня обучаемых и др.
Для преподавателя, использующего такого рода средства при преподавании своих учебных курсов, большая доля его труда состоит в создании банка тестовых заданий, обеспечивающего решение задачи оценки успешности освоения обучаемыми представляемого им учебного материала. При этом неизбежно возникает вопрос о качестве разработанных и используемых тестовых заданий с точки зрения их способности адекватно решать задачу измерения уровня подготовки испытуемых, правильно дифференцировать их в соответствии с действительным уровнем их подготовки. Дело в том, что тестовые задания, удовлетворяющие формальным требованиям, например, правильность формы, логическая точность и непротиворечивость высказываний и др., на практике могут не обладать качествами, позволяющими рассматривать их как полноценное средство измерения уровня подготовки испытуемых.
Вообще говоря, вопрос о способности конкретных контрольно-измерительных материалов в действительности служить средством измерения уровня подготовки обучаемых, имеет место при использовании любой системы оценивания, в том числе и при использовании традиционных экзаменационных испытаний в устной или письменной форме. Но именно при использовании автоматизированных тестовых систем возникает возможность реального применения для оценки качества используемых контрольно-измерительных материалов формализованных подходов, основанных на методологии теории педагогических измерений. Становятся возможными накопление и статистическая обработка результатов испытаний и получение количественных характеристик, позволяющих оценивать качество тестовых контрольно-измерительных материалов.
Один из известных подходов для такого анализа базируется на известной в теории педагогических измерений однопараметрической модели Раша.
Практическое использование предлагаемых этой теорией подходов облегчается тем, что в системе управления обучением Moodle имеются развитые встроенные средства для автоматизации вычисления по результатам выполнения тестовых заданий статистических показателей, позволяющих осуществлять объективную оценку качества тестовых заданий с точки зрения их способности служить средством измерения уровня подготовки испытуемых.
Для осуществления Moodle такой обработки результатов тестирования необходимо на вкладке просмотра результатов тестирования (рис. 44) перейти к пункту Анализ вопросов.
Рис. 44. Скриншот системы Moodle со списком испытуемых, прошедших тестирование, и полученных ими результатов
Обработка результатов испытаний, необходимая для получения характеристик качества тестовых заданий состоит в следующем.
В соответствии с педагогической теорией измерений полученные испытуемыми результаты испытаний представляются в виде матрицы следующего вида (рис. 45).
Рис. 45. Матрица результатов тестовых заданий
В столбцах этой матрицы находятся результаты, полученные конкретными испытуемыми по каждому тестовому заданию, а по строкам размещаются результаты каждого испытуемого по соответствующему тестовому заданию. В нижней строке представлены суммарные значения баллов, набранных каждым испытуемым за тест в целом (Si = ∑xi j). Эти значения используются для формирования оценки уровня подготовки испытуемых по проверяемому данным тестом учебному материалу. В правом столбце приведены суммы баллов, полученных всеми испытуемыми для каждого тестового задания (для j-го задания - Pj = ∑xi j). По величине значений Pj уже можно судить о степени реальной легкости (трудности) конкретных тестовых заданий для испытуемых в данной группе - чем больше испытуемых правильно ответило на конкретное задание, тем это задание в среднем легче для выполнения. Для практического использования, однако, в качестве меры легкости (трудности) заданий более пригодны относительные значения такого рода показателей. Это - индекс легкости задания (ИЛ) и индекс трудности задания (ИТ):
где xср j - среднее значение баллов, набранных всеми испытуемыми за выполнение j-го задания, xмакс j - максимально возможное количество баллов за выполнение j-го задания.
Эта характеристики (ИЛ и ИТ) тестовых заданий являются мерой легкости (трудности) заданий для конкретной группы испытуемых. Значения этих параметров зависят от уровня подготовки испытуемых и не зависят от их числа. Одно из положений педагогической теории измерений состоит в том, что в тесте не должно быть заданий неизвестной трудности. Важность получения количественных характеристик легкости (трудности) предлагаемых испытуемым заданий состоит в том, что для того, чтобы эти задания обладали способностью дифференцировать испытуемых по уровню их подготовки, т.е. служить средством измерения этого уровня, их сложность должна соответствовать среднему уровню подготовки испытуемых в группе. Тест в целом должен включать в себя комплекс заданий различной сложности - от достаточно простых до трудных, однако очевидно, что слишком простые задания, на которые правильно отвечают все до одного испытуемых, и слишком сложные задания, на которые не может ответить никто из испытуемых, не обладают способностью дифференцировать их по уровню подготовки и в этом смысле они не являются настоящими тестовыми заданиями. Такие задания должны «отбраковываться» и исключаться из теста.
Располагая упорядоченные значения индекса легкости (трудности) заданий теста, как это представлено на рис. 46, можно оценить степень соответствия составляющих тест заданий среднему уровню подготовки испытываемой группы.
Рис. 46. Значения индекса лекости заданий для тестируемой группы
Представленные данные свидетельствует о том, что используемая в примере база тестовых заданий достаточно равномерно представляет вопросы различного уровня сложности, при этом очень легких - «очевидных для всех» и очень сложных - «никем не решаемых» (т.е. не тестовых заданий) практически нет, что говорит о соответствии комплекса заданий этого теста среднему уровню подготовки испытуемой группы.
Другой характеристикой, которую позволяют вычислять встроенные в систему Moodle средства анализа результатов тестовых заданий, является дисперсия of этих результатов (или их среднеквадратичное отклонение о). Дисперсия результатов выполнения тестовых заданий вычисляется по формуле:
Дисперсия результатов of (или среднеквадратичное отклонение о) характеризует разброс баллов полученных всеми N испытуемыми при ответе на конкретное (/-е) задание теста. Если все испытуемые отвечают на задание одинаково, то характеризуемый этим параметром разброс полученных испытуемыми баллов будет равен нулю. Нулевое или низкое значение разброса получаемых при выполнении конкретных тестовых заданий результатов в группе испытуемых свидетельствует о низкой дифференцирующей способности этих заданий, т. е. их слабой способности разделять испытуемых в группе по степени их подготовки. Такие задания подлежат исключению из теста. Чем выше дифференцирующая способность тестовых заданий (больше величина разброса результатов), входящих в тест, тем выше качество теста.
На рисунке 47 приведен пример графика упорядоченных значений среднеквадратичного отклонения oj результатов тестирования, нормированное на максимально возможное количество баллов хмакс 7, т. е. oJxMaKCj, которое можно получить за выполнением-го задания.
Рис. 47. Среднеквадратичное отклонение результатов выполнения заданий
Как видно из рис. 46, для большинства использованных в примере тестовых заданий значение среднеквадратичное отклонение имеет значение больше 0,3, что в соответствии с требованиями педагогической теории измерений является хорошим показателем дифференцирующей способности тестовых заданий. Задания же, для которых это значение меньше 0,3, такой способностью не обладают, и, поэтому, они должны исключаться из теста.
Еще одной важной статистической характеристикой качества тестовых заданий, которую позволяют вычислять средства Moodle, является коэффициент корреляции множества значений ответов, полученных испытуемыми при выполнении конкретного задания, с результатами выполнения этими же испытуемыми теста в целом, который рассчитывается по следующей формуле:
Os - дисперсия суммарных результатов испытуемых за выполнение всех заданий теста,
5ср - среднее значение баллов, полученных всеми N испытуемыми за тест в целом,
Si - сумма баллов i-го испытуемого за выполнение всех заданий теста.
Этот показатель может принимать значения между -1 и +1 и в системе Moodle называется Коэффициентом Дифференциации (КД). Его использование в качестве характеристики способности конкретного тестового задания правильно дифференцировать испытуемых по степени их подготовки, основано на том, что в качественном тесте в среднем более высокие баллы при ответе на каждое конкретное задание теста должны получать испытуемые, набирающие более высокую сумму баллов за выполнение теста в целом. То есть, между этими значениями должна быть положительная корреляция. Отрицательные же значения этого коэффициента свидетельствует о том, что при ответе на данное задание более «слабые» испытуемые в среднем получают более высокие баллы, чем более «сильные» испытуемые. Очевидно, что такие задания, возможно в силу допущенных ошибок в их формулировке или каких-либо иных причин, не являются настоящими тестовыми заданиями, и их также следует удалять из теста.
На рис. 47 приведен пример упорядоченных по величине значений коэффициента дифференциации, полученные для тех же тестовых заданий, что и в примерах на рис. 48 и 49.
Рис. 48. Коэффициент дифференциации тестовых заданий
Cчитается приемлемым, если значение этого коэффициента превышает +0,3. Из приведенных в примере на рисунке 48 данных видно, что около 30-ти использованных в эксперименте тестовых заданий не удовлетворяют этим требованиям (КД < 0,3), более того, у нескольких заданий значения этого коэффициента имеют отрицательные значения, что свидетельствует об их явных дефектах.
Встроенные в Moodle средства анализа позволяют также получать важную статистическую информацию, позволяющую улучшать внутреннюю структуру тестового задания. В частности, для одного из часто используемого типа тестовых заданий, так называемых заданий в закрытой форме (выбор одного или нескольких правильных ответов из множества предлагаемых), можно получить данные, характеризующие эффективность работы каждого дистрактора такого тестового задания. Дистракторы (от англ. to distract - от влекать) это неправильные, но правдоподобные ответы, предлагаемые в заданиях такого типа наряду с правильными ответами. Moodle позволяет определять относительную частоту выбора испытуемыми тех или иных дистрак-торов при выполнении конкретного тестового задания. Очевидно, что дист-ракторы, которые выбираются редко или совсем не выбираются испытуемыми, являются неэффективными и, следовательно, должны быть изменены или удалены из списка дистракторов задания.
На рис. 48 представлен пример скриншота Moodle со статистическими характеристиками одного из тестовых заданий.
Рис. 49. Скриншот Moodle со статистическими характеристиками дистракторов тестового задания
Приведенные выше примеры показывают, что имеющиеся в системе Moodle средства не только дают возможность практической реализации автоматизированного контроля уровня подготовки обучаемых, но и предоставляют преподавателю эффективный механизм улучшения качества тестовых заданий и повышения точности и объективности оценки уровня испытуемых.
Возможность выявления не отвечающих необходимым требованиям заданий теста, а именно:
- слишком легких и слишком трудных заданий,
- заданий с малой дисперсией результатов,
- заданий с низким или отрицательным значением коэффициента дифференциации, не только позволяет улучшать качество теста за счет исключения из него таких проблемных заданий. Сам по себе анализ таких заданий, выяснение причин из-за которых они попали в «проблемную» группу, также обладает для разрабатывающего тест преподавателя большим методическим потенциалом. Например, обнаружение того, что некоторое задание оказалось слишком трудным для группы испытуемых, может говорить не о дефекте самого задания, а о недостатках в проработке преподавателем на занятиях или в предлагаемых студентам учебно-методических методических материалах соответствующего раздела учебного курса. Анализ самих «проблемных» тестовых заданий или их не эффективных дистракторов может побуждать к переработке формы и содержания таких заданий с целью устранения их дефектов.
Факторы, влияющие на погрешности измерения уровня подготовки обучаемых при использовании тестовых технологий
Говоря о влиянии качества тестовых заданий на способность теста служить средством для измерения уровня подготовки учащихся, следует иметь в виду, что на погрешности теста, как средства измерения, на практике могут значительно влиять внешние факторы, связанные с самой процедурой тестирования. Это, в первую очередь, факторы, связанные с нарушением принципа равенства требований и условий проведения тестирования для всех испытуемых.
Одним из таких факторов является угадывание испытуемыми результатов тестовых заданий. Для тестовых заданий, в особенности для заданий закрытого вида (выбор одного или нескольких правильных ответов из конечного числа предлагаемых вариантов) существует ненулевая вероятность угадывания испытуемым правильных ответов при их случайном выборе. Очевидно, что чем больше такая вероятность, тем выше погрешность измерения при использовании теста, приводящая к дискриминации добросовестных испытуемых, то есть испытуемых, не прибегающих к угадыванию. В высказывается гипотеза о том, что чем ниже уровень знаний испытуемого, тем сильнее он мотивирован на угадывание, и для компенсации этого эффекта предлагается введение поправок на угадывание в исходный тестовый балл испытуемого.
В связи с этим, одной из важных задач, решаемых при составлении тестового задания, должно быть максимальное снижение вероятности угадывания правильного ответа на него. Этим целям служит, в частности увеличение числа дистракторов в тестовых заданиях закрытого типа, так как, очевидно, что наибольшей уязвимостью в этом плане обладают тестовые задания с малым числом дистракторов, в особенности задания с выбором одного правильного ответа из двух предлагаемых, для которых вероятность угадывания составляет ½. Это является серьезным недостатком такого типа тестовых заданий, вследствие которого их использование в тесте является крайне нежелательным. Проблема, однако, состоит в том, что в целом ряде случаев специфика предметной области конкретного тестового задания не позволяет выйти за рамки выбора одного из двух состояний. Например, в случае проверки знания испытуемым функционирования цифровых логических схем, сигналы на входах и выходах которых принципиально могут находиться в одном из двух состояний - 0 или 1 (true или false). В таких случаях, можно рекомендовать объединение в одном тестовом задании нескольких вопросов с выбором одного из двух состояний. Система Moodle позволяет строить такого рода усложненные задания, пример которого приводится на рис. 50.
Рис. 50. Пример объединения в одном тестовом задании нескольких вопросов с выбором одного из двух состояний
Большие возможности с точки зрения составления тестовых заданий с низкой возможностью угадывания правильных ответов в системе Moodle предоставляет тип задания, называемый Вложенные ответы, позволяющий объединять в одном задании вопросы с ответами разных типов. Задания типа Вложенные ответы состоят из текста, непосредственно в который вставляются ответы на вложенные в этот текст вопросы типов - Множественный выбор, Короткие ответы и Числовые (рис. 51).
Рис. 51. Пример тестового задания типа Вложенные ответы
Другим практически значимым фактором, нарушающим принцип равенства требований и условий проведения тестирования для всех испытуемых, является возможность получения испытуемыми во время прохождения тестирования доступа к правильным ответам на задания теста. Каналами такого доступа могут быть подсказки других испытуемых, подсматривание ответов у соседа, использование шпаргалок, а сейчас и использование сторонней дистанционной помощи с применением современных технических средств компьютерной и мобильной связи.
Для противодействия возможностям такой компрометации процедуры тестирования используется целый ряд известных средств.
Во-первых, это использование в тестовых заданиях типа Множественный выбор опции случайного перемешивания ответов при каждом предъявлении задания испытуемым. Это устраняет связывание правильных ответов с порядковым номером предъявляемых ответов, исключая использование порядкового номера правильных ответов при составлении шпаргалок и списывании.
Опыт использования тестовых технологий показывает, что при формировании набора тестовых заданий составляющих тест, предназначенный для многократного использования для разных тестируемых, является совершенно не оправданным предположение о том, что используемый в тесте фиксированный набор заданий может оставаться неизвестным и неожиданным для испытуемых сколько-нибудь продолжительное время. Для обеспечения действительно надежного фактора новизны предлагаемого конкретному испытуемому набора тестовых заданий наиболее эффективным является формирование сценария теста путем случайного выбора каждого конкретного тестового задания из множества однотипных заданий однородных по уровню сложности. Такое формирование тестов может быть обеспечено только при наличии достаточно большого исходного банка тестовых заданий по каждому разделу учебной дисциплины, по которой осуществляется контроль знаний испытуемых.
При этом следует, однако, учитывать следующее обстоятельство. Выше были рассмотрены показатели тестовых заданий - мера трудности задания, вариация результатов его выполнения в группе испытуемых, его дифференцирующая способность, характеризующие качество тестового задания, как средства измерения уровня подготовки испытуемого. Важно иметь в виду, что эти показатели являются статистическими величинами, получаемыми путем усреднения по выборке выполняющих их испытуемых, и, следовательно, обеспечение точности их экспериментального определения принципиально требует их апробации на возможно большем количестве испытуемых. При этом, однако, оказывается, что это требование вступает в противоречие с необходимостью практического формирования сценария тестирования путем случайного выбора предъявляемых конкретному испытуемому тестовых заданий из более или менее обширного банка заданий, целью которого является снижение вероятности включения одних и тех же тестовых заданий в разных сеансах тестирования по одному и тому же тесту. Очевидно, что в этом случае, даже при большом общем количестве реально участвующих в тестировании испытуемых, количество испытуемых, которым реально достанутся одинаковые тестовые задания, будет существенно ниже, что неизбежно снижает надежность вычисляемых показателей качества тестовых заданий при их анализе. Это противоречие обязательно следует учитывать как при формировании сценариев тестирования, так и при интерпретации автоматически рассчитываемых системой статистических показателей качества тестовых заданий для поиска необходимого компромисса.