Практический курс по машинному обучению и Data Science [2022] [bigdata team] [А. Драль, Д. Игнатов, Н. Корепанова, К. Власов, П. Клеменков, А. Ашуха]

Toxich · 24 ноя 2021

Практический курс по машинному обучению и Data Science [2022]
bigdata team
Алексей Драль, Дмитрий Игнатов, Наталья Корепанова, Кирилл Власов, Павел Клеменков, Арсений Ашуха

Лучший способ погрузиться в Data Science для IT-специалистов. Получите практические навыки по машинному обучению и реализуйте итоговый проект при поддержке наставников из отрасли.

Кому подойдет этот курс:
1. Разработчикам
Вы программируете, но хотите расширить профессиональные возможности и получить практические навыки в машинном обучении? Вы научитесь строить модели машинного обучения и нейронные сети, правильно использовать инструменты для работы с большими данными.
2. Аналитикам
Хотите освоить машинное обучение, чтобы решать более сложные и интересные аналитические задачи?
Вы научитесь строить модели машинного обучения и использовать инструменты работы с большими данными для решения ваших задач.

Часть 1 - Классическое машинное обучение

Вы научитесь строить модели машинного обучения, решать задачи регрессии и классификации, создавать ансамбли решающих деревьев, а аббревиатуры RF, GBDT, XGBoost и LightGBM станут родными и понятными.

1.1 Введение в машинное обучение и библиотеки ML для Python

Совершать базовые операции с данными в numpy,

Cтроить графики функций с matplotlib,

Оптимизировать функции с scipy,

Визуализировать данные с seaborn.

А еще вы построите свою первую модель с помощью sklearn

1.2 Линейные модели, регуляризация, SVM, метрики качества

Применение алгоритмов Scikit-learn к синтетическому набору данных и к данным соревнования Kaggle Inclass (классификация, регрессия),

Логистическую регрессию и обучение моделей с помощью SGD,

Метод опорных векторов (Support Vector Machine) и ядра,

Настройку параметров и кросс-валидацию,

Предобработку данных (строки, пропуски, категориальные признаки).

1.3 Деревья

Обучать деревья на наборах данных (MNIST, UCI, кредитный скоринг),

Визуализировать деревья,

Работать с признаками и пропущенными значениями в деревьях,

Оценивать время работы и "стричь" деревья (прунинг).

1.4 Ансамбли решающих деревьев

Общие методы построения композиций: усреднение, бустинг, блендинг, стекинг,

Бустинг и GBM,

Выбор параметров в ансамблях решающих деревьев, сравним Random Forest и GBDT с демонстрацией,

Связь между ответами моделей и качеством модели в бэггинге,

Bias-variance trade-off на примере бэггинга и бустинга. Обсудим преимущества и недостатки RF и GBDT, разберем XGBoost и LightGBM.

Часть 2 - Нейронные сети и Deep learning

Вы познакомитесь с нейронными сетям (Deep learning) и Unsupervised learning, а также поработаете с большими данными. На протяжении этой части курса вы будете работать над итоговым проектом при поддержке наставников. Вы сможете реализовать собственный проект или проект, который предложат кураторы курса.

2.1 Нейронные сети и введение в глубокое обучение (Deep learning)

Нейронные сети и сверточные нейронные сети, общие веса, локальность иерархичность,

Слои в сверточных сетях, функции потерь для классификации, регуляризация нейросетей,

Эффективные методы вычисления градиентов, проверка реализации разностным дифференцированием.

2.2 Deep Learning: CNN, RNN, Attention

Рекуррентные нейронные сети в задаче анализа сигналов и естественного языка,

Генеративные модели на основе RNN,

Механизм внимания (Attention mechanism) в задаче машинного перевода и других задачах,

Сверточные нейронные сети в задачах обработки текста, сравнение с рекуррентными нейронными сетями,

DNN на практике: инициализация, предобработка данных, модельный зоопарк, дообучение, вычисления на видеокартах, визуализация.

2.3 Обучение без учителя (Unsupervised learning)

Разберемся с определением координат дома и работы по GPS-треку (определение регулярных координат

с помощью DBSCAN).

Освоим метод главных компонент на практике,

Научимся применять PCA и tSNE для визуализации данных, сжатия данных и предобработки датасета.

2.4 Погружение в большие данные (Big Data)

Изучите основы работы с большими данными: Hadoop, HDFS, MapReduce, Spark и многое другое!

2.5 Защита проекта

Финальное испытание – защита проекта, над которым вы работали на протяжении второй части курса.

Продажник