Файл: Диагностика учебных достижений младших школьников как педагогическая проблема.docx
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 16.03.2024
Просмотров: 90
Скачиваний: 0
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
СОДЕРЖАНИЕ
Научная новизна и теоретическая значимость исследования состоят:
Глава 1. Диагностика учебных достижений младших школьников как педагогическая проблема
КОНТРОЛЬ И ОЦЕНКА В НАЧАЛЬНОЙ ШКОЛЕ
Глава 2. Особенности организации тестирования в процессе обучения младших школьников
Приложение 2 Планируемые образовательные результаты как учебные
Вася налил ежу тёплого молока.
Предложение состоит из, связанных между собой по смыслу
На опушке леса растут душистые ландыши а ты любишь цветы берегите лес
вносятся изменения в текст задания.
До формирования окончательного варианта теста необходимо проверить показатели качества теста. Наиболее признанными показателями качества теста являются валидность и надёжность.
Под валидностъю (от англ. valid — имеющий значение, ценный), назы- ваемой иногда действенностью (И.П. Подласый), адекватностью, пригодно- стью, понимается полнота охвата всех планируемых результатов и адекват- ность оценки их достижения [59, с. 40]. А. Анастази даёт такое определение валидности: «Валидность теста - понятие, указывающее нам, что тест изме- ряет и насколько хорошо он это делает» [8; с. 126]. В таком же ключе валид- ность трактуют В.А. Хлебников, Ю.М. Нейман, B.C. Панфёров, А.И. Самы- ловский, И.Ф. Шарыгин: «Исследование валидности должно дать ответ на вопрос о том, действительно ли данный тест измеряет то, для измерения чего он предназначен...» [82, с. 123].
На современном этапе исследователи выделяют три основных вида валидности, которые имеют существенный отличающийся смысл: валидность по содержанию (содержательную); конструктную (концептуальную) валидность; валидность по критерию (критериальную или эмпирическую валидность).
Надёжностьтестов (reliability) является одним из критериев качества и показывает, насколько точно измеряет данный тест изучаемое явление. Как считают многие исследователи, степень надёжности характеризуется стабильностью, устойчивостью показателей при повторных измерениях с помощью того же теста или его равноценного заменителя. Например, В.А. Хлебников,
Ю.М. Нейман, B.C. Панфёров, А.И. Самыловский, И.Ф.
Шарыгин утверждают, что надёжность по существу означает
««согласованность» оценок у обследуемых лиц при их повторном тестировании тем же самым тестом или его эквивалентной формой» [82, с. 123]. Количественно этот показатель характеризуется вероятностью достижения запроектированных результатов (правильностью значений). Грамотно составленные и апробированные тестовые задания позволяют достичь коэффициента надёжности.
На практике чаще всего используются три основных метода оценки надёжности тестов: повторное тестирование (ретестирование); метод взаимозаменяемых форм; метод расщепления.
Анализ имеющейся литературы позволяет выделить основные факторы, влияющие на надёжность тестовых заданий:
Следует подчеркнуть, что легко усмотреть прямую связь валидности с надёжностью. Тестовые задания с низкой надёжностью не могут обладать высокой валидностью. Как отмечает В.Г. Максимов, низкая надёжность означает, что неверен измерительный инструмент и нестабилен тот признак, который он измеряет [89, с. 91]. К тому же, ненадёжное средство не может быть, как утверждают Б.П. Битинас и Л.И. Катаева [11, с. 14], валидным.
Как было отмечено выше, валидность и надёжность — два основных критерия, по которым оценивается качество тестовых заданий. Среди других, описанных в психолого-педагогической литературе, выделим следующие: практичность, экономичность, репрезентативность, трудность, дискриминативность, эффективность.
Практичность(practicality) тестов. Под практичностью тестов исследователи понимают следующие их качества: доступность инструкций и содержания заданий теста для понимания детьми, сравнительную простоту организации тестирования, возможность проведения тестов в обычных для школы условиях и, наконец, сравнительную простоту проверки, подсчёта результатов тестовых заданий и подведения итогов [67, с. 39].
Экономичность (economy) тестовых заданий. Б. Керолл [45] считает экономичным тест, в случае которого можно положительно ответить на вопрос: даёт ли тест так много информации, как необходимо, с минимальными расходами времени, усилий и ресурсов? Экономичными
следует считать такие тесты, которые при заданных условиях — цели, планируемые результаты, уровень подготовки учащихся - дают максимум достоверной информации о достижении планируемых результатов с минимальными затратами времени и усилий на их составление, проведение и
обработку.
Репрезентативность(фр. representatif — представительный, показательный). В самом общем виде репрезентативность — представленность в тесте тех или иных параметров. Репрезентативность объектов тестирования означает более точное отражение необходимого знания в тесте. В тест включены наиболее важные элементы, части пройденной программы. Репрезентативность тестов по своему содержанию близка к требованию полноты, всесторонности проверки, пропорционального представления всех элементов изучаемых знаний, умений, другими словами,
«покрываемости программного материала (или его части) его выборкой в тесте» (В.А. Коккота) [70, с. 40].
Трудностьтестов (item difficulty). Содержание теста связано с его трудностью. Трудность теста зависит от подбора лёгких или, наоборот, трудных заданий, и тогда содержание теста становится преимущественно лёгким или трудным. Некоторые авторы, особенно зарубежные, не делают различий между понятиями трудности и сложности задания, понимая под сложностью количество действий или интеллектуальных операций, которые необходимо выполнить для решения задания. Для составления тестовых заданий, по мнению А.Н. Майорова, как и большинства отечественных учёных, использовать такое понятие сложности практически невозможно, что объясняется низкой информативностью этого понятия. По мысли учёного, задание может требовать нескольких действий, но каждое из них настолько элементарно, что учащиеся без труда справятся с ним, а может быть задание в одно действие, но очень трудное, только малый процент учащихся с
ним справляется [85, с. 185].
Дискриминативность (другое синонимичное название: дифференцирующая способность) (discrimination power, item discrimination) обозначает различительную способность теста. Характеристика дискриминативности связана с использованием таких тестов, где нужно выбирать правильный ответ из нескольких возможных ответов. Как отмечается в научно методической литературе, если все учащиеся безошибочно находят правильный ответ на один вопрос и также дружно не могут ответить, на другой, то это сигнал для совершенствования, теста в целом. Его необходимо сделать различимым, дифференцировать, так как указанные задания не помогут отделить тех, кто усвоил материал на необходимом уровне, от тех, кто заданного уровня не достиг. Практически дифференцируют тесты по результатам статистического анализа, сравнивая результаты выполнения теста в целом с результатом выполнения отдельных заданий [85, с. 560].
Кроме рассмотренных показателей используется и показатель эффективноститестов. Эффективность определяется, как понятие, производное от результата (эффекта). Эффективным B.C. Аванесов называет тесты, которые лучше, чем другие измеряют знания детей, с меньшим числом заданий, качественнее, быстрее, дешевле, и всё это ˗ по возможности, одновременно [3; с. 98]. В определении эффективности тестовых заданий выделяются два ключевых момента - это число заданий теста и уровень подготовленности учащихся. Если из какого-либо теста с большим числом заданий сделать оптимальный выбор меньшего числа, то может образоваться система, не уступающая заметно по своим свойствам тесту со сравнительно большим числом заданий. Тест с меньшим числом заданий в таком случае
-
Формирование окончательного варианта теста. На этом этапе оформляется итоговый вариант теста.
До формирования окончательного варианта теста необходимо проверить показатели качества теста. Наиболее признанными показателями качества теста являются валидность и надёжность.
Под валидностъю (от англ. valid — имеющий значение, ценный), назы- ваемой иногда действенностью (И.П. Подласый), адекватностью, пригодно- стью, понимается полнота охвата всех планируемых результатов и адекват- ность оценки их достижения [59, с. 40]. А. Анастази даёт такое определение валидности: «Валидность теста - понятие, указывающее нам, что тест изме- ряет и насколько хорошо он это делает» [8; с. 126]. В таком же ключе валид- ность трактуют В.А. Хлебников, Ю.М. Нейман, B.C. Панфёров, А.И. Самы- ловский, И.Ф. Шарыгин: «Исследование валидности должно дать ответ на вопрос о том, действительно ли данный тест измеряет то, для измерения чего он предназначен...» [82, с. 123].
На современном этапе исследователи выделяют три основных вида валидности, которые имеют существенный отличающийся смысл: валидность по содержанию (содержательную); конструктную (концептуальную) валидность; валидность по критерию (критериальную или эмпирическую валидность).
Надёжностьтестов (reliability) является одним из критериев качества и показывает, насколько точно измеряет данный тест изучаемое явление. Как считают многие исследователи, степень надёжности характеризуется стабильностью, устойчивостью показателей при повторных измерениях с помощью того же теста или его равноценного заменителя. Например, В.А. Хлебников,
Ю.М. Нейман, B.C. Панфёров, А.И. Самыловский, И.Ф.
Шарыгин утверждают, что надёжность по существу означает
««согласованность» оценок у обследуемых лиц при их повторном тестировании тем же самым тестом или его эквивалентной формой» [82, с. 123]. Количественно этот показатель характеризуется вероятностью достижения запроектированных результатов (правильностью значений). Грамотно составленные и апробированные тестовые задания позволяют достичь коэффициента надёжности.
На практике чаще всего используются три основных метода оценки надёжности тестов: повторное тестирование (ретестирование); метод взаимозаменяемых форм; метод расщепления.
Анализ имеющейся литературы позволяет выделить основные факторы, влияющие на надёжность тестовых заданий:
-
Величина теста. Установлено, что надёжность теста повышается при увеличении количества тестовых заданий. Чем длиннее тест, тем более надёжными и адекватными будут результаты. -
Содержательное разнообразие тестовых заданий. Установлено также, что чем выше тематическое, содержательное разнообразие тестовых заданий, тем ниже надёжность теста. Например, тестовые задания, направленные на проверку усвоения конкретной темы, всегда будут более надёжными, чем тестовые задания, сориентированные на проверку всего раздела (курса), охватывающие значительное количество- материала. Это происходит потому, что содержательное разнообразие последних выше. -
Трудность заданий. Надёжность тестовых заданий значительно зависит от трудности их выполнения. Трудность определяется по соотношению правильных и неправильных ответов на тестовые вопросы. Включение в состав тестов таких заданий, на которые все обучаемые отвечают правильно или же наоборот, неправильно, резко снижает надёжность теста в целом. -
Непонятность и двусмысленность заданий. Непонятные и двусмысленные задания приводят к тому, что ответы на них даются случайным образом. -
Случайное угадывание верных ответов [87, с. 209] также является причиной снижения надёжности по причинам, рассмотренным нами выше. -
Стабильность внешних условий тестирования — времени, отведённого на решение, понятности инструкций и т.п. -
Стабильность и стандартизация оценки тестов [70, с. 39].
Следует подчеркнуть, что легко усмотреть прямую связь валидности с надёжностью. Тестовые задания с низкой надёжностью не могут обладать высокой валидностью. Как отмечает В.Г. Максимов, низкая надёжность означает, что неверен измерительный инструмент и нестабилен тот признак, который он измеряет [89, с. 91]. К тому же, ненадёжное средство не может быть, как утверждают Б.П. Битинас и Л.И. Катаева [11, с. 14], валидным.
Как было отмечено выше, валидность и надёжность — два основных критерия, по которым оценивается качество тестовых заданий. Среди других, описанных в психолого-педагогической литературе, выделим следующие: практичность, экономичность, репрезентативность, трудность, дискриминативность, эффективность.
Практичность(practicality) тестов. Под практичностью тестов исследователи понимают следующие их качества: доступность инструкций и содержания заданий теста для понимания детьми, сравнительную простоту организации тестирования, возможность проведения тестов в обычных для школы условиях и, наконец, сравнительную простоту проверки, подсчёта результатов тестовых заданий и подведения итогов [67, с. 39].
Экономичность (economy) тестовых заданий. Б. Керолл [45] считает экономичным тест, в случае которого можно положительно ответить на вопрос: даёт ли тест так много информации, как необходимо, с минимальными расходами времени, усилий и ресурсов? Экономичными
следует считать такие тесты, которые при заданных условиях — цели, планируемые результаты, уровень подготовки учащихся - дают максимум достоверной информации о достижении планируемых результатов с минимальными затратами времени и усилий на их составление, проведение и
обработку.
Репрезентативность(фр. representatif — представительный, показательный). В самом общем виде репрезентативность — представленность в тесте тех или иных параметров. Репрезентативность объектов тестирования означает более точное отражение необходимого знания в тесте. В тест включены наиболее важные элементы, части пройденной программы. Репрезентативность тестов по своему содержанию близка к требованию полноты, всесторонности проверки, пропорционального представления всех элементов изучаемых знаний, умений, другими словами,
«покрываемости программного материала (или его части) его выборкой в тесте» (В.А. Коккота) [70, с. 40].
Трудностьтестов (item difficulty). Содержание теста связано с его трудностью. Трудность теста зависит от подбора лёгких или, наоборот, трудных заданий, и тогда содержание теста становится преимущественно лёгким или трудным. Некоторые авторы, особенно зарубежные, не делают различий между понятиями трудности и сложности задания, понимая под сложностью количество действий или интеллектуальных операций, которые необходимо выполнить для решения задания. Для составления тестовых заданий, по мнению А.Н. Майорова, как и большинства отечественных учёных, использовать такое понятие сложности практически невозможно, что объясняется низкой информативностью этого понятия. По мысли учёного, задание может требовать нескольких действий, но каждое из них настолько элементарно, что учащиеся без труда справятся с ним, а может быть задание в одно действие, но очень трудное, только малый процент учащихся с
ним справляется [85, с. 185].
Дискриминативность (другое синонимичное название: дифференцирующая способность) (discrimination power, item discrimination) обозначает различительную способность теста. Характеристика дискриминативности связана с использованием таких тестов, где нужно выбирать правильный ответ из нескольких возможных ответов. Как отмечается в научно методической литературе, если все учащиеся безошибочно находят правильный ответ на один вопрос и также дружно не могут ответить, на другой, то это сигнал для совершенствования, теста в целом. Его необходимо сделать различимым, дифференцировать, так как указанные задания не помогут отделить тех, кто усвоил материал на необходимом уровне, от тех, кто заданного уровня не достиг. Практически дифференцируют тесты по результатам статистического анализа, сравнивая результаты выполнения теста в целом с результатом выполнения отдельных заданий [85, с. 560].
Кроме рассмотренных показателей используется и показатель эффективноститестов. Эффективность определяется, как понятие, производное от результата (эффекта). Эффективным B.C. Аванесов называет тесты, которые лучше, чем другие измеряют знания детей, с меньшим числом заданий, качественнее, быстрее, дешевле, и всё это ˗ по возможности, одновременно [3; с. 98]. В определении эффективности тестовых заданий выделяются два ключевых момента - это число заданий теста и уровень подготовленности учащихся. Если из какого-либо теста с большим числом заданий сделать оптимальный выбор меньшего числа, то может образоваться система, не уступающая заметно по своим свойствам тесту со сравнительно большим числом заданий. Тест с меньшим числом заданий в таком случае