Junior machine learning engineer: инженер машинного обучения
Приоритет - 2030
Аналитика и Data Science

Образовательный центр МГТУ им. Н.Э. Баумана в целях выполнения программы стратегического академического лидерства «Приоритет-2030» разработал курс по направлению анализа данных: «Junior machine learning engineer: инженер машинного обучения».

К 2030 году более 30% данных будут критически важными и это только для повседневной жизни. Особое внимание сейчас обращено не только на хранение данных, но и их обработку, в том числе с использованием алгоритмов машинного обучения. Для того, чтобы разбираться в массивах больших данных недостаточно обладать навыками программирования на Python и знать основы языка SQL. Эти базовые навыки необходимо дополнить умением грамотно составлять описательный анализ, разбираться в алгоритмах машинного обучения и ориентироваться в преимуществах и недостатках алгоритмов машинного обучения. Данный курс охватывает все эти вопросы и научит подбирать модель машинного обучения, обучать и использовать в дальнейшей работе, анализируя результат. Курс подойдет специалистам, которые обладают базовыми знаниями в анализе больших данных и хотят изучать эту область углубленно.

Продолжительность курса составляет 51 академический час. Занятия включают в себя лекционные материалы, решение практикоориентированных кейсов, домашние задания и итоговое тестирование. Преподаватели – не только ведущие ученые – практики, но и специалисты в области больших данных (Big Data) и науке о данных (Data science).

По окончании курса слушатель получит удостоверение о повышении квалификации установленного образца.

Для кого
подойдет этот курс
начинающим аналитикам

узнаете основные задачи и методы машинного обучения, научитесь ставить и решать задачи машинного обучения и подбирать модели для решения разного рода задач

начинающим программистам

углубите свои знания Python, математики и статистики, освоите основные алгоритмы машинного обучения и отработаете навыки на практических задачах.

Чему вы научитесь

выполнять препроцессинг данных, с использованием математических приёмов

снимать метрики качества модели

обучать и использовать модели

подбирать модели машинного обучения для решения практических задач

навыкам парсинга данных

ставить и решать элементарные задачи машинного обучения. Прогнозировать значения, определять категории объектов, делать кластеризацию и оценку вероятности

Программа курса
В этом курсе вас ожидает
19 тематических
модулей
29 академических
часов
В этом курсе вас ожидает
19 тематических
модулей
29 академических
часов
Обзор библиотеки sklearn
    • Библиотека scikit-learn (sklearn), назначение, разделы, способы работы, импорт библиотеки в python.
    • Практическая работа (0,5 часа). Работа с библиотекой scikit-learn (sklearn).
    • Самостоятельная работа (0,5 часа)
Метод главных компонент PCA. Метод t-SNE для линейно разделимой выборки
    • Методы уменьшения размерности PCA и t-SNE, даны определения линейно-разделимой и неразделимой выборки, в каких датасетах и в каких данных необходимо уменьшение размерность.
    • Практическая работа (1 час). Изменение размерности датасета.
    • Самостоятельная работа (2 часа).
Кластеризация. Метод k-means, c-means
    • Алгоритмы кластеризации k-mean и c-means, как примеры обучения без учителя, основные особенности. Написание кода алгоритма на python.
    • Практическая работа (1 час). Кластеризация датасета используя алгоритмы k-means, c-means.
    • Самостоятельная работа (2 часа).
Иерархическая кластеризация - hierarchical clustering. Алгоритм кластеризации DBSCAN
    • Алгоритмы иерархической кластеризации и алгоритм DBSCAN. Преимущества и недостатки.
    • Практическая работа (1 час). Кластеризация научных патентов с применением hierarchical clustering и DBSCAN.
    • Самостоятельная работа (1 час).
Ключевые задачи в подготовке датасетов и их важность
    • Подготовка датасетов, проверка на полноту, оценка пропущенных значений, валидация данных и источников, достоверность, многообразие.
    • Самостоятельная работа (0,5 часа).
Разбалансированные датасеты и методы балансировки
    • Разбалансированный датасет и балансировка, миноритарный класс, мажоритарный класс. Применение методов увеличения миноритарного класса (upsampling) и уменьшения мажоритарного класса (downsampling).
    • Практическая работа (0,5 часа). Применение методов балансировки датасетов.
    • Самостоятельная работа (1 час).
Библиотека Beautifulsoup. Парсинг данных из html страниц
    • Метод и реализация парсинга (сбора) данных из открытых источников в интернете с применением библиотеки beautifulsoup. Будет предложен вариант навигации по коду html страниц.
    • Практическая работа (1 час). Выполнить парсинг двух страниц с сайта https://zakupki.gov.ru/ по каждой закупке.
    • Самостоятельная работа (2 часа).
Обработка категориальных признаков. LabelEncoder, One Hot encoding
    • Категориальные и числовые признаки, а также методы обработки категориальных признаков LaberlEncoder, One Hot encoding. Будут разобраны условия. когда оптимально применять методы обработки категориальных признаков.
    • Практическая работа (0,5 часа). Загрузить и собрать датасет (датасет описывает классические автомобили), определить категориальные признаки, применить методы LabelEncoder, One Hot Encoding.
    • Самостоятельная работа (1 часа).
Полная и условная вероятность, теорема Байеса
    • Понятия полной и условной вероятности, а также теорема Байеса, зависимые и независимые события.
    • Самостоятельная работа (0,5 часа)
Байесовский вероятностный классификатор
    • Вероятностные классификаторы Байеса (Gaussian Naive Bayes, Multinomial Naive Bayes, Complement Naive Bayes, Bernoulli Naive Bayes, Categorical Naive Bayes) для решения задач классификации.
    • Практическая работа (1 час). Обучить два Байесовских классификатора, спрогнозировать вероятность возникновения лесных пожаров. Выполнить прогноз на проверочных данных.
    • Самостоятельная работа (1,5 часа).
Метрики классификации. Матрица ошибок (Confusion -matrix) Precision, recall, f1. ROC-AUC
    • Метрики ошибок при решении задач классификации, даны определения для метрик precision, recall, f1-мера, построение ROC Кривой.
    • Практическая работа (0,5 часа). Комплексная оценка работы алгоритма по набору метрик.
    • Самостоятельная работа (0,5 часа).
Кросс-валидация. Особенности применения
    • Понятие кросс-валидации, преимущества при оценке и проверке качества алгоритмов машинного обучения.
    • Самостоятельная работа (0,5 часа).
Метод ближайших соседей k-NN. Метрики подсчета расстояния. Плюсы и минусы алгоритма
    • Алгоритм машинного обучения - метод ближайших соседей (k-NN), для решения задач классификации. Область решаемых задач. Плюсы и минусы алгоритма.
    • Практическая работа (1 час). Обучить алгоритм k-NN, используя две разные метрики близости. Выполнить прогноз на проверочных данных. Снять метрики и ошибки модели. Написать выводы.
    • Самостоятельная работа (1 час).
Метод опорных векторов (SVM). Линейно разделимые и неразделимые выборки, методы обработки. Плюсы и минусы алгоритма
    • Алгоритм - метод опорных векторов, проблема линейно не разделимой выборки и методы её решения. Область решаемых задач, плюсы и минусы алгоритма.
    • Практическая работа (1 час). Обучить алгоритм SVM. Выполнить прогноз на проверочных данных. Выполнить прогноз на проверочных данных. Снять метрики и ошибки модели.
    • Самостоятельная работа (1 час).
Линейная регрессия. Логистическая регрессия (4 часа)
    • Основные термины и понятия линейной регрессии, логистической регрессии, регуляризации, смещения и дисперсии (разброса).
    • Практическая работа (1 час). Обучить алгоритм линейной регрессии для прогнозирования значений. Выполнить прогноз на проверочных данных. Выполнить прогноз на проверочных данных. Снять метрики и ошибки модели.
    • Самостоятельная работа (2 часа).
Метод наименьших квадратов. Средняя квадратичная ошибка, средняя абсолютная ошибка
    • Метрики оптимизации и ошибок для задач регрессии, такие как метод наименьших квадратов, средняя абсолютная и квадратичная ошибки, будут даны определения.
    • Практическая работа (0,5 часов). Решение задач методом наименьших квадратов.
    • Самостоятельная работа (0,5 часов).
Решающие деревья (Decision tree)
    • Алгоритм решающих деревьев (Decision tree), для решения прикладных задач, области решаемых задач, плюсы и минусы алгоритма.
    • Практическая работа (1 час). Обучить алгоритм Decision tree. Выполнить прогноз на проверочных данных. Снять метрики и ошибки модели.
    • Самостоятельная работа (2 часа).
Случайный лес (Random forest)
    • Алгоритм случайного леса (Random forest), ключевые отличия от decision tree, области решаемых задач, плюсы и минусы алгоритма.
    • Практическая работа (1 час). Обучить алгоритм Random forest. Выполнить прогноз на проверочных данных. Выполнить прогноз на проверочных данных. Снять метрики и ошибки модели.
    • Самостоятельная работа (1,5 часа).
Ансамбли алгоритмов. Bagging, boosting, stacking
    • Ансамблевые алгоритмы для повышения точности. bagging - параллельный, boosting - последовательный, stacking - совместный запуск алгоритмов. Области решаемых задач, плюсы и минусы подхода.
    • Практическая работа (0,5 часа). Обучить алгоритм. Применить Boosting и bagging ансамбль. Выполнить прогноз на проверочных данных. Выполнить прогноз на проверочных данных. Снять метрики и ошибки модели. Написать выводы.
    • Самостоятельная работа (2 часа).
Требования к подготовке

Среднее профессиональное или высшее образование. Знание основ языков программирования Python и SQL, базовые знания статистики.

Связанные курсы
Задать свой вопрос
+7 495 182-83-85
edu@bmstu.ru Мы работаем ежедневно с 9:00 до 21:00
+7 495 182-83-85
edu@bmstu.ru Мы работаем ежедневно с 9:00 до 21:00