Junior machine learning engineer: инженер машинного обучения
Аналитика и Data Science
Приоритет - 2030

Образовательный центр МГТУ им. Н.Э. Баумана в целях выполнения программы стратегического академического лидерства «Приоритет-2030» разработал курс по направлению анализа данных: «Junior machine learning engineer: инженер машинного обучения».

К 2030 году более 30% данных будут критически важными и это только для повседневной жизни. Особое внимание сейчас обращено не только на хранение данных, но и их обработку, в том числе с использованием алгоритмов машинного обучения. Для того, чтобы разбираться в массивах больших данных недостаточно обладать навыками программирования на Python и знать основы языка SQL. Эти базовые навыки необходимо дополнить умением грамотно составлять описательный анализ, разбираться в алгоритмах машинного обучения и ориентироваться в преимуществах и недостатках алгоритмов машинного обучения. Данный курс охватывает все эти вопросы и научит подбирать модель машинного обучения, обучать и использовать в дальнейшей работе, анализируя результат. Курс подойдет специалистам, которые обладают базовыми знаниями в анализе больших данных и хотят изучать эту область углубленно.

Продолжительность курса составляет 52 академический час. Занятия включают в себя лекционные материалы, решение практикоориентированных кейсов, домашние задания и итоговое тестирование. Преподаватели – не только ведущие ученые – практики, но и специалисты в области больших данных (Big Data) и науке о данных (Data science).

По окончании курса слушатель получит удостоверение о повышении квалификации установленного образца.

Записаться на курс

Ближайший старт групп

10 октября

Длительность курса

52 ак. часа

Стоимость курса

16 020 руб.

Форматы обучения

онлайн
Для кого
подойдет этот курс
начинающим аналитикам

узнаете основные задачи и методы машинного обучения, научитесь ставить и решать задачи машинного обучения и подбирать модели для решения разного рода задач

начинающим программистам

углубите свои знания Python, математики и статистики, освоите основные алгоритмы машинного обучения и отработаете навыки на практических задачах.

Чему вы научитесь

выполнять препроцессинг данных, с использованием математических приёмов

снимать метрики качества модели

обучать и использовать модели

подбирать модели машинного обучения для решения практических задач

навыкам парсинга данных

ставить и решать элементарные задачи машинного обучения. Прогнозировать значения, определять категории объектов, делать кластеризацию и оценку вероятности

Программа курса
В этом курсе вас ожидает
20 тематических
модулей
52 академических
часа
В этом курсе вас ожидает
20 тематических
модулей
52 академических
часа
Обзор библиотеки sklearn
    • Библиотека scikit-learn (sklearn), назначение, разделы, способы работы, импорт библиотеки в python.
    • Практическая работа (0,5 часа). Работа с библиотекой scikit-learn (sklearn).
    • Самостоятельная работа (0,5 часа)
Метод главных компонент PCA. Метод t-SNE для линейно разделимой выборки
    • Методы уменьшения размерности PCA и t-SNE, даны определения линейно-разделимой и неразделимой выборки, в каких датасетах и в каких данных необходимо уменьшение размерность.
    • Практическая работа (1 час). Изменение размерности датасета.
    • Самостоятельная работа (2 часа).
Кластеризация. Метод k-means, c-means
    • Алгоритмы кластеризации k-mean и c-means, как примеры обучения без учителя, основные особенности. Написание кода алгоритма на python.
    • Практическая работа (1 час). Кластеризация датасета используя алгоритмы k-means, c-means.
    • Самостоятельная работа (2 часа).
Иерархическая кластеризация - hierarchical clustering. Алгоритм кластеризации DBSCAN
    • Алгоритмы иерархической кластеризации и алгоритм DBSCAN. Преимущества и недостатки.
    • Практическая работа (1 час). Кластеризация научных патентов с применением hierarchical clustering и DBSCAN.
    • Самостоятельная работа (1 час).
Ключевые задачи в подготовке датасетов и их важность
    • Подготовка датасетов, проверка на полноту, оценка пропущенных значений, валидация данных и источников, достоверность, многообразие.
    • Самостоятельная работа (0,5 часа).
Разбалансированные датасеты и методы балансировки
    • Разбалансированный датасет и балансировка, миноритарный класс, мажоритарный класс. Применение методов увеличения миноритарного класса (upsampling) и уменьшения мажоритарного класса (downsampling).
    • Практическая работа (0,5 часа). Применение методов балансировки датасетов.
    • Самостоятельная работа (1 час).
Библиотека Beautifulsoup. Парсинг данных из html страниц
    • Метод и реализация парсинга (сбора) данных из открытых источников в интернете с применением библиотеки beautifulsoup. Будет предложен вариант навигации по коду html страниц.
    • Практическая работа (1 час). Выполнить парсинг двух страниц с сайта https://zakupki.gov.ru/ по каждой закупке.
    • Самостоятельная работа (2 часа).
Обработка категориальных признаков. LabelEncoder, One Hot encoding
    • Категориальные и числовые признаки, а также методы обработки категориальных признаков LaberlEncoder, One Hot encoding. Будут разобраны условия. когда оптимально применять методы обработки категориальных признаков.
    • Практическая работа (0,5 часа). Загрузить и собрать датасет (датасет описывает классические автомобили), определить категориальные признаки, применить методы LabelEncoder, One Hot Encoding.
    • Самостоятельная работа (1 часа).
Полная и условная вероятность, теорема Байеса
    • Понятия полной и условной вероятности, а также теорема Байеса, зависимые и независимые события.
    • Самостоятельная работа (0,5 часа)
Байесовский вероятностный классификатор
    • Вероятностные классификаторы Байеса (Gaussian Naive Bayes, Multinomial Naive Bayes, Complement Naive Bayes, Bernoulli Naive Bayes, Categorical Naive Bayes) для решения задач классификации.
    • Практическая работа (1 час). Обучить два Байесовских классификатора, спрогнозировать вероятность возникновения лесных пожаров. Выполнить прогноз на проверочных данных.
    • Самостоятельная работа (1,5 часа).
Метрики классификации. Матрица ошибок (Confusion -matrix) Precision, recall, f1. ROC-AUC
    • Метрики ошибок при решении задач классификации, даны определения для метрик precision, recall, f1-мера, построение ROC Кривой.
    • Практическая работа (0,5 часа). Комплексная оценка работы алгоритма по набору метрик.
    • Самостоятельная работа (0,5 часа).
Кросс-валидация. Особенности применения
    • Понятие кросс-валидации, преимущества при оценке и проверке качества алгоритмов машинного обучения.
    • Самостоятельная работа (0,5 часа).
Метод ближайших соседей k-NN. Метрики подсчета расстояния. Плюсы и минусы алгоритма
    • Алгоритм машинного обучения - метод ближайших соседей (k-NN), для решения задач классификации. Область решаемых задач. Плюсы и минусы алгоритма.
    • Практическая работа (1 час). Обучить алгоритм k-NN, используя две разные метрики близости. Выполнить прогноз на проверочных данных. Снять метрики и ошибки модели. Написать выводы.
    • Самостоятельная работа (1 час).
Метод опорных векторов (SVM). Линейно разделимые и неразделимые выборки, методы обработки. Плюсы и минусы алгоритма
    • Алгоритм - метод опорных векторов, проблема линейно не разделимой выборки и методы её решения. Область решаемых задач, плюсы и минусы алгоритма.
    • Практическая работа (1 час). Обучить алгоритм SVM. Выполнить прогноз на проверочных данных. Выполнить прогноз на проверочных данных. Снять метрики и ошибки модели.
    • Самостоятельная работа (1 час).
Линейная регрессия. Логистическая регрессия (4 часа)
    • Основные термины и понятия линейной регрессии, логистической регрессии, регуляризации, смещения и дисперсии (разброса).
    • Практическая работа (1 час). Обучить алгоритм линейной регрессии для прогнозирования значений. Выполнить прогноз на проверочных данных. Выполнить прогноз на проверочных данных. Снять метрики и ошибки модели.
    • Самостоятельная работа (2 часа).
Метод наименьших квадратов. Средняя квадратичная ошибка, средняя абсолютная ошибка
    • Метрики оптимизации и ошибок для задач регрессии, такие как метод наименьших квадратов, средняя абсолютная и квадратичная ошибки, будут даны определения.
    • Практическая работа (0,5 часов). Решение задач методом наименьших квадратов.
    • Самостоятельная работа (0,5 часов).
Решающие деревья (Decision tree)
    • Алгоритм решающих деревьев (Decision tree), для решения прикладных задач, области решаемых задач, плюсы и минусы алгоритма.
    • Практическая работа (1 час). Обучить алгоритм Decision tree. Выполнить прогноз на проверочных данных. Снять метрики и ошибки модели.
    • Самостоятельная работа (2 часа).
Случайный лес (Random forest)
    • Алгоритм случайного леса (Random forest), ключевые отличия от decision tree, области решаемых задач, плюсы и минусы алгоритма.
    • Практическая работа (1 час). Обучить алгоритм Random forest. Выполнить прогноз на проверочных данных. Выполнить прогноз на проверочных данных. Снять метрики и ошибки модели.
    • Самостоятельная работа (1,5 часа).
Ансамбли алгоритмов. Bagging, boosting, stacking
    • Ансамблевые алгоритмы для повышения точности. bagging - параллельный, boosting - последовательный, stacking - совместный запуск алгоритмов. Области решаемых задач, плюсы и минусы подхода.
    • Практическая работа (0,5 часа). Обучить алгоритм. Применить Boosting и bagging ансамбль. Выполнить прогноз на проверочных данных. Выполнить прогноз на проверочных данных. Снять метрики и ошибки модели. Написать выводы.
    • Самостоятельная работа (2 часа).
Итоговая аттестация
    • Тестирование
Требования к подготовке

Среднее профессиональное или высшее образование. Знание основ языков программирования Python и SQL, базовые знания статистики.

Связанные курсы
Расписание
Даты проведения
Время проведения курса
Дни недели
Формат обучения
10 окт
10 ноя
10:00 - 10:00
Задать свой вопрос
+7 495 182-83-85
edu@bmstu.ru Мы работаем ежедневно с 9:00 до 21:00
+7 495 182-83-85
edu@bmstu.ru Мы работаем ежедневно с 9:00 до 21:00