Data Science. Уровень 2: Машинное обучение
Аналитика и Data Science

Машинное обучение (machine learning) — один из основным методов для дата-сайентиста, специалиста по работе с большими данными.

Основная идея машинного обучения — на основе методов математической статистики и оптимизации создать самообучающийся алгоритм, который будет находить связи и закономерности в больших массивах неструктурированных данных.

Записаться на курс

Ближайший старт групп

12 июля
20 сентября
26 ноября

Длительность курса

40 ак.часов

Стоимость курса

38 090 руб.
Для кого
подойдет этот курс
начинающим дата сайентистам

для получения практических знаний и навыков построения математических моделей: от нейронных сетей до кластеризации, от факторного до корреляционного анализов

начинающим ML-специалистам

для получения базовых знаний в сфере обучения искусственного интеллекта

Чему вы научитесь

основам работы машинного обучения

использовать метод ближайших соседенй (kNN)

работать по основным метрикам в задачах бинарной классификации

подготавливать и нормализовать данные для последующей обработки

работать с атрибутами методом опорных векторов SVM

работать с методами регрессивного и кластерного анализов

разрабатывать рекомендательные системы

Программа курса
В этом курсе вас ожидает
14 тематических
модулей
40 академических
часов
В этом курсе вас ожидает
14 тематических
модулей
40 академических
часов
Введение в машинное обучение
    • Понятие «машинное обучение». Обоснованность использования. Подразделы машинного обучения. Обучение с учителем, обучение без учителя, обучение с подкреплением.
Метод ближайших соседей (kNN)
    • Описание метода kNN.
    • Область решаемых задач.
    • Метрики качества.
    • Разбор кода с примером реализации алгоритма.
Метрики и их практическое применение
    • Что такое метрики.
    • Метрики в задачах бинарной классификации.
    • Применение метрик. Разбор основных метрик качества для различных типов задач.
Подготовка и нормализация данных. Уменьшение размерности данных – Метод главных компонент
    • Этапы подготовки данных.
    • Понятие нормализация.
    • Почему данные нужно нормализовывать.
    • Уменьшение размерности – методы PCA, t-SNE.
    • Разбор кода с примерами реализации метода главных компонент.
Выбор атрибутов при решении задачи. Метод опорных векторов SVM
    • Выбор атрибутов для анализа.
    • Метод SVM, предсказание вероятности принадлежности классу.
    • Суть алгоритма, линейно разделимые и неразделимые выборки.
    • Плюсы и минусы алгоритма. Разбор кода с реализацией алгоритма SVM.
Регрессия (прогнозирование конкретного значения)
    • Задача регрессии.
    • Линейная регрессия, логистическая регрессия.
    • Регрессии: разбор кода с реализацией алгоритма.
Decision trees, random forest
    • Решающие деревья и случайный лес.
    • Суть алгоритмов. Плюсы и минусы.
    • Decision trees, random forest: разбор кода с реализацией алгоритма.
Разбалансированные датасеты и методы их балансировки
    • Понятие разбалансировки.
    • Причины возникновения.
    • Методы балансировки датасетов.
    • Разбор кода – работа с разбалансированным датасетом.
Bagging, boosting, stacking – алгоритмы повышения точности
    • Цели и задачи повышения точности.
    • Bagging, boosting, stacking.
    • Разбор кода с реализацией алгоритмов.
Кластеризация, метод k-mean. Полная и условная вероятность, теорема Байеса
    • Понятие кластеризация.
    • Алгоритм k-mean, c-mean.
    • Полная и условная вероятность, теорема Байеса.
    • Алгоритм k-mean, c-mean: разбор кода с алгоритмами кластеризации и байесовскими классификаторами.
Рекомендательные системы. Персонализированные и неперсонализированные, проблема холодного старта
    • Что такое рекомендательная система.
    • Типы рекомендательных систем.
    • Области применения.
    • Понятие холодного старта.
    • Рекомендательная система: разбор кода с рекомендательными системами.
Внедрение моделей в production
    • Сохранение моделей машинного обучения.
    • Библиотека Flask для веб-приложений.
    • Библиотека git для контроля версионности.
    • Пошаговый алгоритм действий по выведению модели в Production.
    • Учебный хостинг heroku.com.
Построение модели и внедрение в Production
    • Создание веб приложения – анализ сердечно-сосудистых заболеваний.
    • Обучение модели и выведение в Production.
Итоговая аттестация
    • Итоговая аттестация
Требования к подготовке

Среднее профессиональное или высше образование, знания в области Data Science.

Связанные курсы

В качестве подготовки к данному курсу Вы можете пройти обучение по программам:

Основы программирования и баз данных

Data Science. Уровень 1: Основные технологии. Python для анализа данных


После прохождения данного обучения Вы можете продолжить своё развитие в данной сфере на курсах:

Data Science. Уровень 3: Нейронные сети

Data Science. Уровень 4: Нейронные сети. Продвинутый уровень

 

 

Расписание
Даты проведения
Время проведения курса
Дни недели
Формат обучения
12 июл
11 авг
18:30 - 21:40
вт чт
20 сен
20 окт
18:30 - 21:40
вт чт
26 ноя
24 дек
10:00 - 17:10
сб
Задать свой вопрос
+7 495 182-83-85
edu@bmstu.ru Мы работаем ежедневно с 9:00 до 21:00
+7 495 182-83-85
edu@bmstu.ru Мы работаем ежедневно с 9:00 до 21:00