Junior data analyst: младший аналитик данных
Приоритет - 2030
Аналитика и Data Science

Образовательный центр МГТУ им. Н.Э. Баумана в целях выполнения программы стратегического академического лидерства «Приоритет-2030» разработал курс по направлению анализа данных: «Junior data analyst: младший аналитик данных».

За ближайшие 10 лет мировой объем данных вырастет более чем в 10 раз, именно область Big Data и информация, будет обладать критически важными свойствами во всех областях, соответственно, спрос на специалистов по аналитике данных также будет расти. Наш курс будет актуальным для тех, кто хочет развить навыки первичной обработки данных, основы языка SQL, языка программирования Python, познакомиться с библиотеками программирования: matplotlib, pandas, sklearn и другими, создавать базы данных в PGAdmin. Обучение на курсе подходит для тех, кто решил освоить новую профессию, начать разбираться в анализе больших данных.

Продолжительность курса составляет 43 академических часа. Занятия включают в себя лекционные материалы, решение практикоориентированных кейсов, домашние задания и итоговое тестирование. Преподаватели – не только ведущие ученые – практики, но и специалисты в области больших данных (Big Data) и науке о данных (Data science).

По окончании курса слушатель получит удостоверение о повышении квалификации установленного образца.

Для кого
подойдет этот курс
начинающим аналитикам

курс расширит ваши компетенции: вы научитесь структурировать "сырые" массивы данных и выдвигать гипотезы на их основе

начинающим программистам

курс позволит Вам расширить компетенции и улучшить знания языков Python и SQL

новичкам

для получения стартовых знаний в сфере Big Data, статистики, понимания языков SQL и Python

Чему вы научитесь

сформировать простой запрос в базе данных с использованием SQL

сделать описательный анализ Big Data и визуализацию

создать базу данных Postgres через приложение PGAdmin4

структурировать, анализировать большие массивы данных и принимать решения на их основе

Программа курса
В этом курсе вас ожидает
16 тематических
модулей
25 академических
часов
В этом курсе вас ожидает
16 тематических
модулей
25 академических
часов
Введение в Big Data и Data science. Data science в различных секторах экономики
    • В рамках данной темы будут рассмотрены основные термины, типы задач, которые решаются с помощью Data Science. Обоснованность применения.
Данные и источники, характеристики, корреляция. Структурированные, полуструктурированные и неструктурированные данные
    • Данные и источники, характеристики, корреляция. Структурированные, полуструктурированные и неструктурированные данные.
Введение в статистику. Закон больших чисел. Нормальное распределение. Проверка гипотез
    • В рамках данной темы будут рассмотрены определения статистической науки, законы больших чисел, нормальное распределение и его роль в описании и анализе данных. Будет рассмотрено понятие нулевая гипотеза и проверка нулевой гипотезы, ошибки первого и второго рода.
Типы данных
    • В рамках данной темы будут рассмотрены основные типы данных, которые применяются в data science, программировании и базах данных. Целочисленные, логические, строки, числа с плавающей точкой, дата и время, timestamp.
Введение в Python, среды исполнения (IDE). Типы данных в Python
    • В рамках данной темы будут рассмотрены основные среды и продукты PyCharm, Anaconda, Google Colaboratory. Язык программирования - Python, как стандарт для работы с большими данными основные функции, типы данных в Python.
Базовые конструкции и структуры
    • Основные конструкции, списки, словари, множества, кортежи, стеки, очереди, логические условия, арифметические операции.
    • пользовательских функций, классов, наследование и полиморфизм.
Циклы и условия. Функции и классы
    • Синтаксис построения циклов, условных операторов, пользовательских функций, классов, наследование и полиморфизм.
Библиотеки Numpy, Scipy для научных вычислений
    • Библиотека NumPy, типы данных, массивы и операции с ними, Матричные операции, семплирование, чтение файлов. Библиотека SciPy. Научные вычисления. Практическое применение. Работа с данными. Тестирование данных.
Библиотека Pandas, как стандарт исследования данных
    • Библиотека Pandas, загрузка и запись данных, срезы данных, мульти индексация, group by, datetime, статистические функции, стандартная визуализация. Преимущества и недостатки библиотеки Pandas.
Визуализация в Python и срезы данных. Библиотеки Matplotlib, seaborn, plotly
    • Библиотека Matplotlib, варианты отрисовки графиков и изображений. Библиотека Seaborn, визуализация парных взаимосвязей, heatmap, диаграммы, тепловая карта корреляции. Библиотека Plotly. Продвинутая визуализация. Динамические графики.
Поиск бизнес решений и анализ датасетов
    • В рамках данной темы будет рассмотрен и описан общий подход к описательному анализу данных, для выявления скрытых закономерностей и корреляций, для принятия бизнес решений.
Системы хранения данных. Базы данных
    • В рамках данной темы будут рассмотрены основные подходы к хранению данных, горизонтально и вертикально масштабируемые системы хранения данных, реляционные и NoSQL. Key-Value хранилища.
Реляционные базы данных и их моделирование
    • Будут рассмотрены реляционные базы данных, для хранения структурированных данных. Основные определения и признаки реляционных баз данных. Понятие и создание моделей (схем) баз данных и установление связей один-ко-многим (one2many), многие-ко-многим (many2many), многие-к-одному (many2one).
Функционал PGAdmin для PostgreSQL
    • В рамках данной темы будет рассмотрен процесс установки реляционных базы данных PostgreSQL, и интерфейс - оболочки PGAdmin, а также разобран основной функционал PGAdmin, для удобной навигации по реляционным базам данных. Будет разобран процесс восстановления и развертывания базы данных из файла.
Язык структурированных запросов SQL. Синтаксис
    • В рамках данной темы будет рассмотрен SQL - язык структурированных запросов. Общий подход. Базовая концепция, фильтрация, функции. Функционал PgAdmin. Подзапросы, Join, Табличные операции.
Обращение к базе данных PostgreSQL с помощью языка SQL
    • В рамках данной темы будут рассмотрены задачи создания новых таблиц, внешних и внутренних ключей их связей. Формирование аналитических запросов в реляционной базе данных PostgreSQL.
Требования к подготовке

Среднее профессиональное или высшее образование: предварительная подготовка не требуется. 

Связанные курсы
Задать свой вопрос
+7 495 182-83-85
edu@bmstu.ru Мы работаем ежедневно с 9:00 до 21:00
+7 495 182-83-85
edu@bmstu.ru Мы работаем ежедневно с 9:00 до 21:00