Аналитик данных

О ПРОГРАММЕ

Категория слушателей: лица, желающие освоить дополнительную профессиональную программу, должны иметь среднее профессиональное или высшее образование.

Срок обучения: 360 академических часов (4 месяца). Группы приступают к занятиям по мере формирования.

Форма обучения: очная с применением дистанционных образовательных технологий (электронного образовательного ресурса).

Программа «Аналитик данных» направлена на формирование компетенций в области сбора, обработки, анализа и интерпретации результатов анализа данных. В рамках программы рассматриваются различные аналитические подходы, которые понадобятся при работе над реальными задачами, включая технологии парсинга данных из открытых источников информации, процедуры валидации и кросс-валидации, построения моделей и ансамблирования алгоритмов машинного обучения, MapReduce подход для работы с большими данными и т.д. По итогам прохождения программы будут получены навыки формулирования и проверки гипотез, поиска закономерностей с применением различных методов в среде R, визуализации результатов и формирования выводов.

По итогам обучения выдаётся диплом о профессиональной переподготовке установленного образца.

По всем возникшим вопросам, связанным с записью, оплатой и обучением, обращайтесь по телефону: 8(347)229-96-75, KarasevaLM@uust.ru. Адрес г. Уфа, ул. Заки Валиди,  32, каб. 306.

ЦЕЛЬ ПРОГРАММЫ

формирование у слушателей профессиональных компетенций:

  • ПК-1 «Способность разрабатывать продукты на основе встроенной аналитики больших данных»,
  • ПК-2 «Способность проводить первоначальную обработку первичных статистических данных»,
необходимых в том числе для выполнения профессиональной деятельности в соответствии со следующими профессиональными стандартами ПС 06.042 «Специалист по большим данным» и ПС 08.022 «Статистик». 

МЕТОДЫ ОБУЧЕНИЯ

курс реализован в виде электронного ресурса с качественными видео-лекциями, и видео практических заданий. В курсе предусмотрено полное методическое сопровождение всех занятий, предоставление доступа к скриптам практических кейсов, каждая лекция заканчивается электронным опросом по материалу в виде теста. Кроме того 2-3 раза в неделю проводятся онлайн-консультации в вечернее время. Также есть чат с поддержкой слушателей и для ответа на все вопросы, возникающие у слушателя.

стоимость обучения

45 000 рублей.

РЕЗУЛЬТАТЫ ОБУЧЕНИЯ

После обучения что слушатель должен:

знать:

  • классификацию типов наборов данных;
  • методы сбора и подготовки исходных данных;
  • технологии семплирования для получения сбалансированных выборок;
  • основные современные методы анализа количественных и факторных данных;
  • методы валидации и кросс-валидации при обучении алгоритмов машинного обучения;
  • алгоритмы машинного обучения – бинарные модели регрессии, модели регрессии (метод лассо и гребневой регрессии); байесовские классификаторы, алгоритмы бустинга, методы деревьев решений и случайного леса);
  • ансамблевые процедуры в машинном обучения;
  • алгоритмы обработки входной информации, с применением современных инструментальных средств;
  • методы предварительной обработки информации (метод главных компонент, кластерный анализ) для возможности применения продвинутых методов анализа данных;
  • метрики качества для оценки алгоритмов машинного обучения;
  • методы опорных векторов для решения задач классификации;
  • методы подбора нелинейного ядра для решения задач методом опорных векторов;
  • методы парсинга данных в сети интернет;
  • структуру HTML документа, структуру и параметры HTML тегов, объектную модель DOM;
  • принципы работы с большими данными;
  • модель распределенной обработки данных MapReduce и Экосистему Hadoop;

уметь:

  • проводить качественную чистку данных, проводить восполнение данных;
  • восполнять выборку до сбалансированного объема;
  • проводить процедуры валидации и кросс-валидации для обучения алгоритмов машинного обучения;
  • использовать метрики качества для оценки алгоритмов машинного обучения;
  • использовать алгоритмы машинного обучения для решения задач классификации;
  • использовать алгоритмы машинного обучения для решения задач регрессии;
  • проводить ансамблирование алгоритмов машинного обучения для повышения точности решения задач классификации и регрессии;
  • применять техники сэмплирования для восполнения баланса выборок, используя средства среды R Studio;
  • строить модели на основе алгоритмов машинного обучения для решения задач регрессии и классификации;
  • использовать методы машины опорных векторов для задач классификации;
  • использовать наивный байесовский классификатор для классификации текстовых сообщений;
  • проводить оценку качества алгоритмов машинного обучения;
  • ориентироваться в стандарте исключений для роботов сайта;
  • извлекать HTML тексты и анализировать их содержимое с помощью библиотек R;
  • реализовывать различные математические алгоритмы для разделения задачи на небольшие части и назначения их нескольким системам в рамках парадигмы MapReduce.

владеть:

  • методами проведения качественной чистки, восполнения данных;
  • методами проведения процедуры валидации и кросс-валидации для обучения алгоритмов машинного обучения;
  • методами проведения ансамблирования алгоритмов машинного обучения для повышения точности решения задач классификации и регрессии;
  • методами проведения техники сэмплирования для восполнения баланса выборок, используя средства среды R Studio;
  • методами построения моделей на основе алгоритмов машинного обучения для решения задач регрессии и классификации;
  • методами оценки качества алгоритмов машинного обучения;
  • методами сбора данных из открытых источников информации в сети Интернет.  

содержание программы


МОДУЛЬ 1. Введение в курс анализа больших данных


МОДУЛЬ 2. Основные задачи и работа с данными


МОДУЛЬ 3. Парсинг информации


МОДУЛЬ 4. Методы регрессии


МОДУЛЬ 5. Методы классификации


МОДУЛЬ 6. Байесовский классификатор


МОДУЛЬ 7. Деревья решений, случайный лес и бустинги


МОДУЛЬ 8. Балансирование выборок


МОДУЛЬ 9. Машина опорных векторов


МОДУЛЬ 10. Стажировка


МОДУЛЬ 11. MapReduce-подход в анализе больших данных и экосистема Hadoop


Итоговая аттестация


итоговый документ

руководитель и преподаватели

Image Description

Лакман Ирина Александровна

Руководитель программы

Образование: высшее, квалификация – математика, к.т.н., доцент, заведующая лабораторией исследования социально- экономических проблем регионов.
Стаж работы в вузе: 23 года.
Победитель (трижды в 2018 -2020 гг.) всероссийского грантового конкурса среди преподавателей по машинному обучению от фонда Botan Investment.
Победитель Всероссийского конкурса Национальной ассоциации инноваций и развития информационных технологий (НАИРИТ) при поддержке РАН.
Член Российской ассоциации статистиков, эксперт Рособрнадзора Российской Федерации с 2014 г.
Более 160 научных трудов, из них 36 – Web of Science и Scopus (8 публикаций -Q1-Q2).
Преподаваемые дисциплины: Анализ неструктурированной информации, Анализ данных (продвинутый уровень), Прогнозирование социально-экономических и бизнес-процессов, Продвинутые эконометрические методы и модели. 


 
Image Description

Тимирьянова Венера Маратовна

Преподаватель

Образование: высшее, квалификация – экономист, д.э.н., доцент, зам. заведующего лаборатории исследования социально-экономических проблем регионов.
Стаж работы в вузе: 19 лет.
Более 100 научных трудов, из них 25 – Web of Science и Scopus (6 публикаций -Q1-Q2).
Преподаваемые дисциплины: Анализ данных, Геомаркетинг на основе инструментов пространственной статистики. 


 

оставить заявку

CRM-форма появится здесь
Cookie-файлы
Настройка cookie-файлов
Детальная информация о целях обработки данных и поставщиках, которые мы используем на наших сайтах
Аналитические Cookie-файлы Отключить все
Технические Cookie-файлы
Другие Cookie-файлы
Мы используем файлы Cookie для улучшения работы, персонализации и повышения удобства пользования нашим сайтом. Продолжая посещать сайт, вы соглашаетесь на использование нами файлов Cookie. Подробнее о нашей политике в отношении Cookie.
Подробнее Понятно
Cookies