Junior machine learning engineer: инженер машинного обучения

Анализ данных и искусственный интеллект

Центр дополнительного образования МГТУ им. Н.Э. Баумана в целях выполнения программы стратегического академического лидерства «Приоритет-2030» разработал курс по направлению анализа данных: «Junior machine learning engineer: инженер машинного обучения».

К 2030 году более 30% данных будут критически важными и это только для повседневной жизни. Особое внимание сейчас обращено не только на хранение данных, но и их обработку, в том числе с использованием алгоритмов машинного обучения. Для того, чтобы разбираться в массивах больших данных недостаточно обладать навыками программирования на Python и знать основы языка SQL. Эти базовые навыки необходимо дополнить умением грамотно составлять описательный анализ, разбираться в алгоритмах машинного обучения и ориентироваться в преимуществах и недостатках алгоритмов машинного обучения. Данный курс охватывает все эти вопросы и научит подбирать модель машинного обучения, обучать и использовать в дальнейшей работе, анализируя результат. Курс подойдет специалистам, которые обладают базовыми знаниями в анализе больших данных и хотят изучать эту область углубленно.

Продолжительность курса составляет 52 академический часа. Занятия включают в себя лекционные материалы, решение практико-ориентированных кейсов, домашние задания и итоговое тестирование. Преподаватели – не только ведущие ученые – практики, но и специалисты в области больших данных (Big Data) и науке о данных (Data science).

Для успешного освоения курса нашим слушателям предоставляются уникальные опции:

оперативная поддержка куратора по всем вопросам обучения в чате Telegram, где слушатель может задать вопросы как во время обучения, так и в неограниченный период времени после завершения курса,
онлайн-консультация эксперта-преподавателя по пройденным темам и выполнению практических заданий.

По окончании курса слушатель получит удостоверение о повышении квалификации МГТУ им. Н.Э. Баумана.

Записаться на курс Связаться и узнать подробнее

Программа курса

20 тематических
модулей

52 академических
часа

52 аудиторных
часа

Приоритет - 2030

Junior machine learning engineer: инженер машинного обучения

Программа курса в PDF

Записаться на курс Связаться и узнать подробнее

В этом курсе вас ожидает

20 тематических
модулей

52 академических
часа

Обзор библиотеки sklearn

Библиотека scikit-learn (sklearn), назначение, разделы, способы работы, импорт библиотеки в Python.
Работа с библиотекой scikit-learn (sklearn).

Метод главных компонент PCA. Метод t-SNE для линейно разделимой выборки

Методы уменьшения размерности PCA и t-SNE, даны определения линейно-разделимой и неразделимой выборки, в каких датасетах и в каких данных необходимо уменьшение размерность.
Изменение размерности датасета.

Кластеризация. Метод k-means, c-means

Алгоритмы кластеризации k-mean и c-means, как примеры обучения без учителя, основные особенности. Написание кода алгоритма на Python.
Кластеризация датасета используя алгоритмы k-means, c-means.

Иерархическая кластеризация — hierarchical clustering. Алгоритм кластеризации DBSCAN

Алгоритмы иерархической кластеризации и алгоритм DBSCAN. Преимущества и недостатки.
Кластеризация научных патентов с применением hierarchical clustering и DBSCAN.

Ключевые задачи в подготовке датасетов и их важность

Подготовка датасетов, проверка на полноту, оценка пропущенных значений, валидация данных и источников, достоверность, многообразие.

Разбалансированные датасеты и методы балансировки

Разбалансированный датасет и балансировка, миноритарный класс, мажоритарный класс. Применение методов увеличения миноритарного класса (upsampling) и уменьшения мажоритарного класса (downsampling).
Применение методов балансировки датасетов.

Библиотека Beautifulsoup. Парсинг данных из html страниц

Метод и реализация парсинга (сбора) данных из открытых источников в интернете с применением библиотеки beautifulsoup. Будет предложен вариант навигации по коду html страниц.
Выполнить парсинг двух страниц с сайта https://zakupki.gov.ru/ по каждой закупке.

Обработка категориальных признаков. LabelEncoder, One Hot encoding

Категориальные и числовые признаки, а также методы обработки категориальных признаков LaberlEncoder, One Hot encoding. Оптимальные методы обработки категориальных признаков.
Загрузить и собрать датасет (датасет описывает классические автомобили), определить категориальные признаки, применить методы LabelEncoder, One Hot Encoding.

Полная и условная вероятность, теорема Байеса

Понятия полной и условной вероятности, теорема Байеса, зависимые и независимые события.

Байесовский вероятностный классификатор

Вероятностные классификаторы Байеса (Gaussian Naive Bayes, Multinomial Naive Bayes, Complement Naive Bayes, Bernoulli Naive Bayes, Categorical Naive Bayes) для решения задач классификации.
Обучение двух Байесовских классификаторов, прогнозирование вероятностей возникновения лесных пожаров. Выполнение прогноза на проверочных данных.

Метрики классификации. Матрица ошибок (Confusion -matrix) Precision, recall, f1. ROC-AUC

Метрики ошибок при решении задач классификации, даны определения для метрик precision, recall, f1-мера, построение ROC Кривой.
Комплексная оценка работы алгоритма по набору метрик.

Кросс-валидация. Особенности применения

Понятие кросс-валидации, преимущества при оценке и проверке качества алгоритмов машинного обучения.

Метод ближайших соседей k-NN. Метрики подсчета расстояния. Плюсы и минусы алгоритма

Алгоритм машинного обучения - метод ближайших соседей (k-NN), для решения задач классификации. Область решаемых задач. Плюсы и минусы алгоритма.
Обучение алгоритма k-NN, с использованием двух разных метрик близости. Прогнозирование на проверочных данных. Снятие метрик и ошибок модели.

Метод опорных векторов (SVM). Линейно разделимые и неразделимые выборки, методы обработки. Плюсы и минусы алгоритма

Алгоритм - метод опорных векторов, проблема линейно не разделимой выборки и методы её решения. Область решаемых задач, плюсы и минусы алгоритма.
Обучение алгоритма SVM. Прогнозирование на проверочных данных. Снятие метрик и ошибок модели.

Линейная регрессия. Логистическая регрессия

Основные термины и понятия линейной регрессии, логистической регрессии, регуляризации, смещения и дисперсии (разброса).
Обучение алгоритма линейной регрессии для прогнозирования значений. Прогнозирование на проверочных данных. Снятие метрик и ошибок модели.

Метод наименьших квадратов. Средняя квадратичная ошибка, средняя абсолютная ошибка

Метрики оптимизации и ошибок для задач регрессии: метод наименьших квадратов, средняя абсолютная и квадратичная ошибки.
Решение задач методом наименьших квадратов.

Решающие деревья (Decision tree)

Алгоритм решающих деревьев (Decision tree), для решения прикладных задач, области решаемых задач, плюсы и минусы алгоритма.
Обучение алгоритма Decision tree. Прогнозирование на проверочных данных. Снятие метрик и ошибок модели.

Случайный лес (Random forest)

Алгоритм случайного леса (Random forest), ключевые отличия от decision tree, области решаемых задач, плюсы и минусы алгоритма.
Обучение алгоритма Random forest. Прогнозирование на проверочных данных. Снятие метрик и ошибок модели.

Ансамбли алгоритмов. Bagging, boosting, stacking

Ансамблевые алгоритмы для повышения точности. bagging - параллельный, boosting - последовательный, stacking - совместный запуск алгоритмов. Области решаемых задач, плюсы и минусы подхода.
Обучение алгоритма. Применение Boosting и bagging ансамбля. Прогнозирование на проверочных данных. Снятие метрик и ошибок модели.

Итоговая аттестация

Тестирование.

Записаться на курс Связаться и узнать подробнее

Junior machine learning engineer: инженер машинного обучения

Записаться на курс

Курс подойдет

Чему вы научитесь

Программа курса

Расписание

Преподаватели курса

Резюме «Инженер машинного обучения»

Знания и навыки

Документы об окончании