Data Science c экспертом от Сбербанка [Skill-Branch] [Часть 1]

stclaus · 9 сен 2020

Складчина: Data Science c экспертом от Сбербанка [Skill-Branch] [Часть 1]
Онлайн-курс с экспертом от СберБанка
Data Science

01.Введение в машинное обучение

- Что такое машинное обучение?

- Для чего используется машинное обучение?

- Какие типы задач можно решать с помощью машинного обучения?

- Основные проблемы машинного обучения

- Почему будем использовать python?

- Обзор основных инструментов и библиотек (Jupyter Notebook, sklearn, NumPy, SciPy, matplotlib, pandas).

02. Основы Python

- типы данных

- ссылки на объекты

- коллекции данных

- логические операции

- инструкции управления потоком выполнения

- арифметические операторы

- ввод / вывод

- создание и вызов функций

Практика

Работа с объектами в Python, написание функций для работы с данными

03. Математика, необходимая в DS / ML

- функция

- производная, частная производная, градиент функции

- теория вероятности: основные определения

- определение вероятности, вычисление вероятностей сложных событий

- распределение вероятностей, независимые и зависимые переменные

- генеральные совокупности и выборки

- центральная предельная теорема

- меры центральной тенденции, меры разброса

- выбросы

Практика

реализация указанных математических сущностей на Python

04. Управление данными и их интерпретация

- введение в массивы библиотеки NumPy

- выполнение вычислений над массивами NumPy

- сравнения, макси и булева логика в NumPy

- сортировка массивов NumPy

- введение в библиотеку pandas

- операции над данными в библиотеке pandas

- объединение наборов данных: конкатенация, слияние и соединение

- агрегирование и группировка в pandas

- сводные таблицы в pandas

- векторизованные операции и методы повышения производительности pandas

- визуализация данных с помощью matplotlib

- линейные графики и диаграммы рассеяния в matplotlib

- графики плотности, гистограммы в matplotlib

- настройка легенды на графикам, тексты и поясняющие надписи

- множественные графики

Практика

векторные вычисление с помощью NumPy, операции над векторами и матрицами, анализ данных с помощью pandas, вычисление основных статистик, фильтрация и отбор данных с помощью pandas, визуализация данных с помощью matplotlib / seaborn

05. Линейные модели

- измерение ошибки в задачах регрессии

- обучение линейной регрессии

- градиентный спуск и модификация градиентного спуска

- интерпретация коэффициентов линейной регрессии

- подготовка данных для линейной модели

- оценка качества моделей

- регуляризация линейной модели и гиперпараметры

Практика

реализация метрик качества для задачи регрессии, анализ их слабых и сильных сторон, реализация классического решения для модели линейной регрессии, реализация алгоритма градиентного спуска, визуализация траекторий градиентного спуска и стохастического градиентного спуска, сравнение скорости схождения алгоритма градиентного спуска и стохастического градиентного спуска, реализация L1, L2 регуляризации для линейной модели. Опционально: реализация более сложных методов оптимизации для поиска решения линейной регрессии.

06. Логистическая регрессия

- измерение ошибки в задачах бинарной классификации

- оценивание вероятностей

- переобучение, кривые обучения, кривые валидации

- интерпретация коэффициентов логистической регрессии

- границы решения

Практика

реализация метрик качества для задачи классификации, анализ их слабых и сильных сторон, реализация модели логистической регрессии, построение и анализ кривых обучения и валидационных кривых. Применение модели логистической регрессии для реальных данных, оценка качества модели. Реализация собственных элементов пайплайнов, объединение элементов предобработки данных и обучения модели в единый пайплайн.

Опционально

самостоятельная реализация модели логистической регрессии.

07. Решающие деревья

- обучение и визуализация дерева принятия решений

- применение дерева для получения прогнозов

- оценивание вероятностей классов

- оценивание непрерывной величины

- алгоритм обучения CART

- вычислительная сложность деревьев решений

- выбор критериев разбиения

- гиперпараметры, регуляризация, неустойчивость деревьев решений

Практика

обучение решающих деревьев для задачи классификации и регрессии, сравнение критериев информативностей деревьев решений, сравнение критериев останова деревьев решений, визуализация плоскостей решения при различных значениях гиперпараметров деревьев решений, сравнение способов регуляризации деревьев решений на практике. Сравнение решающих деревьев с линейными моделями, сравнение качества решения и устойчивости решения.

Опционально

самостоятельная реализация модели решающего дерева для задачи классификации и регрессии.

08. Бэггинг, случайный лес

- разложение ошибки на смещение и дисперсию

- бутстрап, бэггинг, out-of-bag ошибка

- метод случайных подпространств

- случайный лес

- экстремально случайные деревья

- работа с текстовыми данными

- оценка важности признаков

Практика

самостоятельная реализация модели бэггинга с использованием решающих деревьев и линейных моделей. Векторизоация текстовых данных, использования TF-IDF для текстовых данных. Использование лемматизации и стемминга для улучшения качества текстовых данных. Использование модели случайного леса и линейных моделей для работы с текстовыми данными. Использование методов для оценки важности признаков для модели случайного леса.

Опциональносамостоятельная реализация модели случайного леса для задачи классификации и регрессии.
09. Градиентный бустинг

- бустинг как направленная композиция алгоритмов

- AdaBoost

- XGBoost

- LightGBM

- CatBoost

Практика

сравнение градиетного бустинга и случайного леса, анализ смещения и дисперсии модели градиетного бустинга, Сравнение реализация алгоритма градиентного бустинга (AdaBoost, XGBoost, LightGBM, CatBoost) на задачах бинарной классификации и регрессии.

10. Важность признаков и методы снижения размерности

- Встроенные методы оценки важности признаков, + / -

- Оценка важности признаков на основе перестановок

- SHAP для оценки важности признаков и интерпретации blackbox-моделей

- Проблема проклятия размерности

- PCA для снижения размерности

- Анализ главных компонент

Практика

использование встроенных методов оценки важности признаков для линейных моделей, решающих деревьев, случайного леса и градиентного бустинга, анализ их плюсов и минусов. Использование универсальных методов оценки важности, анализ их преимуществ перед встроенными методами оценки важности признаков, отбора признаков. Использование SHAP, PCA для отбора признаков.

11. Обучение без учителя (кластеризация)

- [опциональная лекция]

12. Основы А-Б тестирования

- распределение вероятностей

- независимые и зависимые переменные

- проверка гипотез

- доверительные интервалы

- p-value, z-статистика

- проверка гипотез с помощью t - критерия

- проверка гипотез для долей

Практика

моделирование распределения вероятностей с помощью python, проверка одновыборочных гипотез, двухвыбороных гипотез для независимых выборок и двухвыборочных гипотез для зависимых выборок с помощью python.

13. Полный проект машинного обучения (основные этапы + демонстрация)

- работа с реальными данными

- постановка задачи

- получение данных

- обнаружение и визуализация данных для понимания их сущности

- подготовка данных для алгоритмов машинного обучения

- выбор и обучение модели

- настройка гиперпараметров модели

- анализ ошибок / поиск возможностей для улучшения качества модели

- проверка модели на реальных данных

- запуск и сопровождение модели

Продажник

stclaus · 11 сен 2020

У курса рассрочка на 24 месяца - 2160 ₽/мес (хоть и написано что для первых 10, но скорее всего для всех)

stclaus · 6 ноя 2020

25 января начнется новый поток