Анализ данных в образовании
Анализ данных в образовании (АДО) — исследовательская область, связанная с применением анализа данных, машинного обучения и статистики к информации из образовательных учреждений (например, университетов и онлайн-платформ обучения). Эта область знаний стремится развивать и улучшать методы исследования данных для более детального понимания того, как люди учатся в таких учреждениях[1].
Определение
Анализ данных в образовании относится к методам, предназначенным для автоматического извлечения значений из больших баз данных, генерируемых или связанных с учебной деятельностью людей в образовательных учреждениях.[2] Например, несколько систем управления обучением (LMS) отслеживают действия пользователя на платформе, например время, посвященное той или иной дисциплине, количетво кликов при взаимодействии с информацией, и т.п. Кроме того, интеллектуальная система обучения фиксирует данные каждый раз, когда учащийся подает решение задачи. Они могут собирать время подачи, совпадает ли решение с ожидаемым, сколько времени прошло с последней подачи, порядок ввода компонентов решения в интерфейс и т. д. В результате даже довольно короткая сессия с компьютерной системой обучения (например, 30 минут) может дать большое количество данных для анализа.
В других случаях данные менее детализированы. Например, транскрипт студента может содержать упорядоченный по времени список курсов, пройденных студентом, оценка за каждый курс, а также моменты, когда студент выбрал или изменил свою специальность. АДО использует оба типа данных для выявления значимой информации о различных типах учащихся и их способах обучения, структуре предметных знаний и эффекте образовательных стратегий, встроенных в различные обучающие среды. Эти анализы предоставляют новую информацию, которую трудно обнаружить, просто просматривая сырые данные. Например, анализ данных из систем управления образованием может выявить связь между учебными объектами, к которым обращался студент во время курса, и его финальной оценкой. Точно так же анализ данных транскрипта студента может выявить связь между оценкой студента по конкретному курсу и его решением сменить учебную специальность. Такая информация дает представление о проектировании образовательных сред, что позволяет студентам, преподавателям, школьным администраторам, и политикам принимать решения о том, как управлять образовательными ресурсами.
История
Хотя анализ образовательных данных сам по себе не является новой практикой, недавние достижения в образовательных технологиях, включая увеличение вычислительных мощностей и возможность регистрировать подробные данные о том, как студенты используют компьютерные образовательные среды, привели к росту интереса к разработке методов анализа больших объемов данных, генерируемых в образовательных учреждениях. Этот интерес вылился в серию семинаров по ОДО, проведенных с 2000 по 2007 годы в рамках нескольких международных научных конференций.[3] In 2008, a group of researchers established what has become an annual international research conference on EDM, the first of which took place in Montreal, Quebec, Canada.[4]
По мере того как интерес к ОДО продолжал расти, исследователи по ОДО в 2009 году учредили научный журнал, Journal of Educational Data Mining, для обмена и распространения результатов исследований. В 2011 году исследователи по ОДО основали Международное общество по образовательному анализу данных, чтобы объединить исследователей по ОДО и продолжить развитие области.
С введением публичных репозиториев образовательных данных в 2008 году, таких как DataShop Pittsburgh Science of Learning Centre (PSLC) и Национальный центр статистики образования (NCES), публичные наборы данных сделали образовательный анализ данных более доступным и осуществимым, что способствовало его росту.[5]
Цели
Райан С. Бейкер и Калина Яцеф[6] определили следующие цели анализа данных в образовании (АДО):
Предсказание будущего поведения студентов в обучении – с помощью моделирования можно создать модели студентов, учитывающие информацию об их знаниях, поведении и мотивации к обучению. Также измеряется пользовательский опыт учащегося и его общая удовлетворенность обучением.
Открытие или улучшение моделей предметной области – через различные методы и приложения АДО возможно открытие новых и улучшение существующих моделей. Примеры включают иллюстрацию учебного контента для вовлечения учащихся и определение оптимальных последовательностей обучения, которые поддерживают стиль обучения студента.
Изучение эффектов образовательной поддержки – это может быть достигнуто через обучающие системы.
Продвижение научных знаний об обучении и учащихся – через построение и интеграцию моделей студентов, а также с помощью исследований в области АДО, технологий и программного обеспечения.
Пользователи и заинтересованные стороны
Существует четыре основных группы пользователей и заинтересованных сторон, участвующих в анализе образовательных данных. Это:
Учащиеся – учащиеся заинтересованы в понимании своих потребностей и удовлетворённости образованием[7]. Например, учащиеся могут также извлечь пользу из открытых знаний, используя инструменты АДО для предложения активностей и ресурсов, которые они могут использовать на основе своих взаимодействий с онлайн-обучением и инсайтов от предыдущих или схожих учащихся[8]. В случае учеников младших классов, анализ образовательных данных может информировать родителей о прогрессе их ребёнка в обучении[9]. Также необходимо эффективно группировать учащихся в онлайн-среде. Проблема заключается в использовании сложных данных для изучения и интерпретации этих групп через разработку практических моделей[10].
Преподаватели – преподаватели стремятся понять процесс обучения и методы, которые могут использовать для улучшения своих методов преподавания. Преподаватели могут использовать приложения АДО, чтобы определить, как организовать и структурировать учебный план, какие методы лучше всего использовать для подачи информации и какие инструменты применять для вовлечения учащихся для достижения оптимальных результатов обучения[11]. В частности, методика извлечения данных для человеческой оценки предоставляет преподавателям возможность быстро выявлять поведенческие шаблоны, что может поддержать их методы преподавания в ходе курса или помочь улучшить будущие курсы. Преподаватели могут определить индикаторы, показывающие удовлетворенность студентов и вовлеченность в курс, а также отслеживать прогресс в обучении.
Исследователи – исследователи сосредоточены на разработке и оценке эффективности методов анализа данных. С 2008 года проводится ежегодная международная конференция для исследователей. Широкий круг тем в АДО охватывает от использования анализа данных для улучшения эффективности учебных заведений до производительности студентов.
Администраторы – администраторы отвечают за распределение ресурсов для реализации приложений в учебных заведениях. Поскольку учебные заведения все больше несут ответственность за успехи студентов, использование приложений для анализа данных становится все более распространенным в образовательных учреждениях. Преподаватели и консультанты становятся более проактивными в определении и решении проблемных студентов.
Фазы
Анализ данных в образовании можно разделить на четыре ключевые фазы:[12][13]
Первая фаза анализа данных в образовании (не считая предобработку) — это обнаружение связей в данных. Для выявления таких связей были использованы широко, включая классификацию, регрессионный анализ, кластерный анализ, факторный анализ, анализ социальных сетей, и проч. Далее обнаруженные связи должны быть валидированы, чтобы избежать переобучения модели (например, на новой выборке). Валидированные связи применяются для предсказаний развития обучения в образовательной среде. Затем, на основе полученных выводов принимаются те или иные решния для улучшения качества образовния. В последних двух фазах данные часто визуализируются или каким-то другим способом обрабатываются для более наглядной демонстрации выводов.[12]
Основные подходы
Из упомянутых общих категорий методов предсказание, кластерный анализ и поиск связей считаются универсальными методами во всех типах анализа данных, однако Открытие с использованием моделей и Дистилляция данных для человеческой оценки считаются более важными подходами в образовательном анализе данных.[14]
Открытие с использованием моделей
В методе Открытия с использованием моделей модель разрабатывается с помощью предсказания, кластеризации или человеческого рассуждения инженерия знаний, а затем используется как компонент в другом анализе, а именно для предсказания и поиска связей.[14] В методе предсказания используются предсказания созданной модели для прогнозирования новой зависимой и независимой переменной.[14] Для использования поиска связей созданная модель позволяет анализировать взаимодействие между новыми предсказаниями и дополнительными переменными в исследовании.[14] В большинстве случаев метод Открытия с использованием моделей использует валидированные предсказательные модели, которые показали свою универсальность в разных контекстах.
Ключевые применения этого метода включают обнаружение связей между поведением студентов, характеристики и контекстуальными переменными в образовательной среде.[14] Также можно исследовать широкие и специфические исследовательские вопросы в различных контекстах с использованием этого метода.
Дистилляция данных для человеческой оценки
Люди могут делать выводы о данных, которые могут выходить за рамки того, что автоматизированный метод анализ данных может предоставить.[15] В контексте образовательного анализа данных, данные дистиллируются для человеческой оценки с двумя ключевыми целями: идентификация и классификация.[15]
Для цели идентификации данные дистиллируются таким образом, чтобы люди могли выявлять известные паттерны, которые иначе могут быть трудны для интерпретации. Например, кривая обучения, классическая для образовательных исследований, является паттерном, который ясно отражает взаимосвязь между обучением и опытом с течением времени.
Данные также дистиллируются с целью классификации признаков данных, что для образовательного анализа данных используется для поддержки разработки модели предсказания. Классификация помогает ускорить процесс разработки модели предсказания, что является важным фактором.
Цель этого метода — обобщить и представить информацию в удобном, интерактивном и визуально привлекательном виде, чтобы понять большие объемы образовательных данных и поддержать принятие решений.[16] В частности, этот метод полезен для преподавателей, помогающих понять информацию об использовании и эффективности образовательных активностей.[16] Ключевые применения дистилляции данных для человеческой оценки включают идентификацию паттернов в обучении студентов, их поведении, возможности для сотрудничество и маркировку данных для будущего использования в моделях предсказания.[15]
Применения
Список основных применений ЭАД предоставлен Кристобалем Ромеро и Себастьяном Вентурой.[17] В их таксономии области применения ЭАД включают:
Анализ и визуализация данных
Предоставление обратной связи для поддержки преподавателей
Рекомендации для студентов
Прогнозирование успеваемости студентов
Моделирование студентов
Обнаружение нежелательных видов поведения студентов
Группировка студентов
Анализ социальных сетей
Разработка концептуальных карт
Создание учебных материалов – ЭАД можно применить к системам управления курсами, таким как открытая система Moodle. Moodle содержит данные об использовании, включая результаты тестов, количество прочитанных материалов и участие в форумам обсуждений. Инструменты анализа данных могут быть использованы для персонализации учебной деятельности для каждого пользователя и адаптации темпа прохождения курса. Это особенно полезно для онлайн-курсов с различными уровнями компетенции.
Планирование и расписание
Недавние исследования в области мобильных образовательных сред также предполагают, что анализ данных может быть полезным. Анализ данных может помочь в предоставлении персонализированного контента пользователям мобильных устройств, несмотря на различия в управлении контентом между мобильные устройства и стандартными ПК и веб-браузеры.
Новые приложения ЭАД будут сосредоточены на том, чтобы позволить пользователям без технических знаний использовать и взаимодействовать с инструментами анализа данных и активностями, делая сбор данных и их обработку более доступными для всех пользователей ЭАД. Примеры включают статистические и визуализирующие инструменты, которые анализируют социальные сети и их влияние на результаты обучения и продуктивность.[18]
Курсы
В октябре 2013 года Coursera предложила бесплатный онлайн-курс "Big Data in Education", который обучал, как и когда использовать ключевые методы для анализа данных в образовании.[19] Этот курс был перенесен на edX летом 2015 года,[20] и с тех пор продолжает проводиться ежегодно на платформе edX. Архив курса теперь доступен онлайн.[21] Teachers College, Columbia University предлагает магистратуру по аналитике обучения.[22]
Места публикации
Значительное количество работ по образовательному дата-майнингу публикуются на рецензируемой Международной конференции по образовательному дата-майнингу, организованной Международным обществом образовательного дата-майнинга.
1-я Международная конференция по образовательному дата-майнингу (2008)[23] – Монреаль, Канада
2-я Международная конференция по образовательному дата-майнингу (2009)[24] – Кордова, Испания
3-я Международная конференция по образовательному дата-майнингу (2010)[25] – Питтсбург, Пенсильвания, США
4-я Международная конференция по образовательному дата-майнингу (2011)[26] – Эйндховен, Нидерланды
5-я Международная конференция по образовательному дата-майнингу (2012)[27] – Ханья, Греция
6-я Международная конференция по образовательному дата-майнингу (2013)[28] – Мемфис, Теннесси, США
7-я Международная конференция по образовательному дата-майнингу (2014)[29] – Лондон, Великобритания
8-я Международная конференция по образовательному дата-майнингу (2015)[30] – Мадрид, Испания
9-я Международная конференция по образовательному дата-майнингу (2016)[31] – Роли, Северная Каролина, США
10-я Международная конференция по образовательному дата-майнингу (2017)[32] – Ухань, Китай
11-я Международная конференция по образовательному дата-майнингу (2018)[33] – Буффало, Нью-Йорк, США
12-я Международная конференция по образовательному дата-майнингу (2019)[34] – Монреаль, Квебек, Канада
13-я Международная конференция по образовательному дата-майнингу (2020)[35] – виртуальная
14-я Международная конференция по образовательному дата-майнингу (2021)[36] – Париж, Франция
Работы по образовательному дата-майнингу также публикуются в Журнале образовательного дата-майнинга (JEDM).
Множество работ по образовательному дата-майнингу регулярно публикуются на смежных конференциях, таких как Искусственный интеллект и образование, Интеллектуальные учебные системы и Моделирование пользователей, адаптация и персонализация.
В 2011 году издательства Chapman & Hall / CRC Press, Taylor and Francis Group опубликовали первый Справочник по образовательному дата-майнингу. Этот ресурс был создан для тех, кто интересуется участием в сообществе образовательного дата-майнинга.
Конкурсы
В 2010 году Кубок KDD Ассоциации вычислительной техники был проведен с использованием данных из образовательной среды.[37] Набор данных был предоставлен DataShop и состоял из более чем 1 000 000 точек данных от студентов, использующих когнитивного репетитора.[38] Шестьсот команд соревновались за более чем 8 000 долларов США призовых средств (которые были пожертвованы Facebook). Целью участников было разработать алгоритм, который, обучившись на предоставленных данных, сделает наиболее точные прогнозы на новых данных. Победители представили алгоритм, который использовал генерацию признаков (форму обучения представления), случайные леса и байесовские сети.[39]
Затраты и проблемы
Помимо технологических достижений, существуют затраты и проблемы, связанные с внедрением приложений образовательного дата-майнинга. Это включает в себя затраты на хранение журналируемых данных и затраты, связанные с наймом сотрудников, ответственных за управление системами данных.[40] Более того, системы данных не всегда могут интегрироваться друг с другом, и даже с поддержкой статистических и визуализационных инструментов создание одной упрощенной версии данных может быть сложной задачей.[40] Кроме того, выбор данных для майнинга и анализа также может быть сложным, что делает начальные этапы процесса трудоемкими и времязатратными.[40] От начала до конца стратегия и внедрение образовательного дата-майнинга требуют соблюдения конфиденциальности и этических норм для всех участников процесса.
Критика
Обобщаемость – Исследования в области EDM могут быть специфичны для конкретного образовательного контекста и времени, в которое они проводились, и, следовательно, результаты могут быть не применимы к другим учебным заведениям. Исследования также показывают, что область образовательного анализа данных сконцентрирована в западных странах и культурах, в результате чего другие страны и культуры могут быть недостаточно представлены в исследованиях и выводах. Разработка будущих моделей должна учитывать приложения в разных контекстах.
Конфиденциальность – Личная конфиденциальность продолжает оставаться актуальной проблемой для применения инструментов анализа данных. С появлением доступных, бесплатных и удобных инструментов на рынке, студенты и их семьи могут оказаться под угрозой из-за информации, которую учащиеся предоставляют учебной системе в надежде получить обратную связь, которая поможет улучшить их будущие результаты. С увеличением осведомленности пользователей в вопросах онлайн-конфиденциальности, администраторы инструментов образовательного анализа данных должны быть проактивными в защите конфиденциальности своих пользователей и быть прозрачными в том, как и с кем будет использоваться и распространяться информация. Разработка инструментов EDM должна учитывать защиту личной конфиденциальности, не останавливая при этом развитие исследований в этой области.
Плагиат – Обнаружение плагиата является текущей проблемой для преподавателей как в классе, так и в онлайн-формате. Однако из-за сложности в выявлении и предотвращении цифрового плагиата, образовательные инструменты анализа данных на данный момент не достаточно совершенны для точного решения этой проблемы. Таким образом, разработка предсказательных возможностей для решения вопросов, связанных с плагиатом, должна стать областью будущих исследований.
Принятие – Неизвестно, насколько широко применяется EDM и в какой степени учебные заведения применяют и рассматривают возможность внедрения стратегии EDM. Поэтому остается неясным, существуют ли барьеры, препятствующие пользователям в принятии EDM в их образовательных контекстах.
См. также
Интеллектуальный анализ данных
Ссылки
- ↑ EducationalDataMining.org (2013). Дата обращения: 15 июля 2013.
- ↑ educationaldatamining.org (амер. англ.). Дата обращения: 14 ноября 2020.
- ↑ C. Romero, S. Ventura. Educational Data Mining: A Review of the State-of-the-Art. IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews. 40(6), 601-618, 2010.
- ↑ "http://educationaldatamining.org/EDM2008/" Retrieved 2013-09-04
- ↑ Baker, Ryan. Data Mining for Education . oxford, UK: Elsevier. Дата обращения: 9 февраля 2014.
- ↑ Baker, R.S.; Yacef, K (2009). The state of educational data mining in 2009: A review and future visions. JEDM-Journal of Educational Data Mining. 1 (1): 2017.
- ↑ Romero, Cristobal; Ventura, Sebastian (January-February 2013). WIREs Data Mining Knowl Discov. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 3 (1): 12–27. doi:10.1002/widm.1075. S2CID 18019486.
{{cite journal}}
: Википедия:Обслуживание CS1 (формат даты) (ссылка) - ↑ Romero, Cristobal; Ventura, Sebastian (2007). Educational data mining: A survey from 1995 to 2005. Expert Systems with Applications. 33 (1): 135–146. doi:10.1016/j.eswa.2006.04.005.
- ↑ Assessing the Economic Impact of Copyright Reform in the Area of Technology-Enhanced Learning . Industry Canada. Дата обращения: 6 апреля 2014. Архивировано 13 апреля 2014 года.
- ↑ Azarnoush, Bahareh, et al. "Toward a Framework for Learner Segmentation." JEDM-Journal of Educational Data Mining 5.2 (2013): 102-126.
- ↑ U.S. Department of Education, Office of Educational Technology. Enhancing Teaching and Learning Through Educational Data Mining and Learning Analytics: An Issue Brief . Дата обращения: 30 марта 2014. Архивировано 11 июня 2014 года.
- ↑ 1 2 Ошибка в сносках?: Неверный тег
<ref>
; для сносок:0
не указан текст - ↑ Ошибка в сносках?: Неверный тег
<ref>
; для сносок:22
не указан текст - ↑ 1 2 3 4 5 Ошибка в сносках?: Неверный тег
<ref>
; для сносокBaker2
не указан текст - ↑ 1 2 3 Ошибка в сносках?: Неверный тег
<ref>
; для сносокBaker3
не указан текст - ↑ 1 2 Ошибка в сносках?: Неверный тег
<ref>
; для сносокRomero 12–272
не указан текст - ↑ Ошибка в сносках?: Неверный тег
<ref>
; для сносок:23
не указан текст - ↑ Romero, C. Handbook of educational data mining / Romero, C., Ventura, S., Pechenizkiy, M. … [и др.]. — CRC Press, 2010.
- ↑ Big Data in Education . Coursera. Дата обращения: 30 марта 2014.
- ↑ Big Data in Education . edXedxed. Дата обращения: 13 октября 2015.
- ↑ Big Data in Education . Дата обращения: 17 июля 2018.
- ↑ Learning Analytics | Teachers College Columbia University . www.tc.columbia.edu. Дата обращения: 13 октября 2015.
- ↑ Home . www.educationaldatamining.org. Дата обращения: 1 июля 2022.
- ↑ EDM'09 - Home . www.educationaldatamining.org. Дата обращения: 1 июля 2022.
- ↑ EDM2010 (20 октября 2011). Дата обращения: 2 июля 2022. Архивировано из оригинала 20 октября 2011 года.
- ↑ EDM2011 (20 октября 2011). Дата обращения: 1 июля 2022. Архивировано из оригинала 9 мая 2021 года.
- ↑ EDM2012 . Дата обращения: 1 июля 2022. Архивировано из оригинала 8 мая 2013 года.
- ↑ EDM2013 . Дата обращения: 1 июля 2022. Архивировано из оригинала 29 декабря 2013 года.
- ↑ EDM2014 . Дата обращения: 1 июля 2022. Архивировано из оригинала 30 января 2014 года.
- ↑ EDM2015 . Дата обращения: 1 июля 2022. Архивировано из оригинала 8 октября 2014 года.
- ↑ EDM2016 . Дата обращения: 1 июля 2022. Архивировано из оригинала 13 мая 2022 года.
- ↑ EDM2017 . Дата обращения: 1 июля 2022. Архивировано из оригинала 30 апреля 2017 года.
- ↑ EDM2018 . Дата обращения: 1 июля 2022. Архивировано из оригинала 13 мая 2022 года.
- ↑ EDM2019 . Дата обращения: 1 июля 2022. Архивировано из оригинала 13 мая 2022 года.
- ↑ EDM2020 . Дата обращения: 1 июля 2022. Архивировано из оригинала 22 января 2022 года.
- ↑ EDM2021 . Дата обращения: 1 июля 2022. Архивировано из оригинала 15 августа 2021 года.
- ↑ KDD Cup 2010 . KDD. Дата обращения: 1 июля 2022. Архивировано из оригинала 15 июля 2010 года.
- ↑ PLCS DataShop . DataShop. Дата обращения: 1 июля 2022. Архивировано из оригинала 26 июня 2010 года.
- ↑ Lin, Hsuan-Tien; Change, Chun-Fu; Wei, Yin-Hsuan; Weng, Jui-Yu; Lou, Jing-Kai; Yan, En-Syu; Yu, Hsaing-Fu; Hsieh, Hsun-Ping; McKenzie, Todd; Lin, Shou-De; Lin, Chih-Jen. Feature Engineering and Classifier Ensemble for KDD Cup 2010 . DataShop (2010). Дата обращения: 1 июля 2022. Архивировано из оригинала 3 марта 2022 года.
- ↑ 1 2 3 How Can Educational Data Mining and Learning Analytics Improve and Personalize Education? EdTechReview (18 июня 2013). Дата обращения: 9 апреля 2014.