Python для Data Science [2021] [robot dreams] [Анна Пылева]

Toxich · 6 авг 2021

Python для Data Science [2021]
robot dreams
Анна Пылева

Освойте ключевой инструмент в сфере аналитики и машинного обучения.

Наиболее эффективный способ заставить данные «говорить» ― освоить Python и его библиотеки. С этим вам поможет курс от robot_dreams. Вы научитесь парсить сайты, работать с сырыми данными, автоматизировать процесс анализа и визуализации, валидировать гипотезы и строить простые ML-модели.

1. Работать с разными типами и структурами данных
2. Использовать библиотеки NumPy, Pandas, Matplotlib, Seaborn, Plotly, Sweetviz, Pandas Profiling, SciPy, Scikit-learn, CatBoost и XGBoost
3. Строить продвинутые и интерактивные визуализации
4. Проводить Exploratory Data Analysis и находить взаимосвязи в данных
5. Проводить Exploratory Data Analysis и находить взаимосвязи в данных
6. Заполнять пробелы в данных
7. Валидировать гипотезы и анализировать результаты А/В-тестирования
8. Строить простые ML-модели
9. Начать путь в Data Science

1. Analysts / Data Analysts / Product Analysts

Вы откроете новый подход к аналитике больших данных благодаря Python. Научитесь пользоваться библиотеками языка и с помощью простого кода проводить манипуляции над данными: парсить сайты и находить информацию, очищать данные и заполнять пробелы в массивах, строить интерактивные визуализации и на основе глубокого анализа предлагать бизнес-решения, которые точно сработают.

После курса вы сможете начать свой путь в Data Science.

2. Developers

Вы научитесь использовать Python для работы с данными. Будете проводить Exploratory Data Analysis, решать задачи прогнозирования и строить простые ML-модели. Узнаете, как находить инсайты в графиках и диаграммах, а потом на основе анализа формулировать и валидировать статистические гипотезы.

В результате ― вы освоите инструменты аналитики и заложите фундамент развития в Data Science.

Модуль 1 - Введение в Data Science. Знакомство с задачами и инструментами

Разберитесь, какие задачи входят в область Data Science.

Освойте инструменты для интерактивной работы с Python [IPython, Jupyter Notebook и Google Collaboratory].

Ознакомьтесь с библиотекой NumPy и разберитесь в ее преимуществах перед обычными списками.

Научитесь создавать массивы и выполнять базовые операции над ними в NumPy.

Модуль 2 - NumPy. Линейная алгебра и статистика

Возобновите знания по линейной алгебре и статистике.

Научитесь вызывать векторное умножение, поэлементное сложение OR вычитание и другие функции в NumPy.

Научитесь вводить и выводить матрицы и массивы разной величины, находить std и mean, выводить гистограмму одномерного массива.

Модуль 3 - Pandas. Работа с табличными данными

Узнайте, какие задачи Data Science помогает решить библиотека Pandas.

Научитесь создавать, импортировать и экспортировать табличные данные в Pandas Dataframe, манипулировать данными, обновлять их значения по индексу.

Узнайте, что делать, чтобы не перегружать оперативку.

Модуль 4 - Matplotlib и Seaborn. Визуализация данных

Разберите базовые типы визуализации [line chart, scatter plot, bar plot, histogram].

Постройте базовые визуализации с помощью Python в Matplotlib и Seaborn.

Узнайте о трех способах визуализации данных из Pandas в Dataframe.

Модуль 5 - Plotly. Продвинутые и интерактивные визуализации

Разберитесь в типах продвинутых визуализаций [heatmap, box plot, pair plot, cumulative plot].

Постройте базовую интерактивную визуализацию в Plotly.

Научитесь быстро и удобно анализировать отсутствующие значения в наборе данных с помощью визуализации.

Модуль 6 - Exploratory Data Analysis и очистка данных

Научитесь быстро понимать структуру набора данных любого размера и решать проблему наличия выбросов и дубликатов в наборе данных.

Проведите Exploratory Data Analysis (EDA) с помощью Pandas, а затем ― с помощью библиотек Sweetviz и Pandas Profiling.

Модуль 7 - Поиск и устранение отсутствующих значений

Научитесь выявлять отсутствующие значения в наборе данных, отделять случайно отсутствующие значения от значений, отсутствующих ввиду системной ошибки.

Обучитесь нескольким техникам заполнения отсутствующих значений.

Модуль 8 - Статистический анализ данных

Ознакомьтесь с библиотекой SciPy.

Научитесь генерировать случайные величины разных вероятностных распределений, проводить тесты нормальности и сравнивать распределения двух случайных величин.

Изучите основы проверки статистических гипотез.

Проведите статистический тест в SciPy и проанализируйте результаты А/В-тестирования.

Модуль 9 - Задача прогнозирования. Линейная регрессия

Подготовьте данные для задачи линейной регрессии.

Ознакомьтесь с моделью многомерной линейной регрессии и библиотекой Scikit-learn.

Постройте многомерную линейную регрессию с помощью NumPy и с помощью Scikit-learn.

Научитесь оценивать качества линейной регрессии с помощью метрик MSE, RMSE, MAE.

Модуль 10 - Задача прогнозирования. Другие виды регрессий

Ознакомьтесь с моделями полиномиальной регрессии, гребневой регрессии, регрессии по методу LASSO и регрессии «эластичная сеть».

Научитесь улучшать качество линейной регрессии с помощью регуляризации.

Узнайте, что делать в случае высокого bias OR высокого variance модели.

Модуль 11 - Задача классификации. Логистическая регрессия

Ознакомьтесь с задачей бинарной классификации и моделью логистической регрессии.

Обучите модель логистической регрессии для классификации данных и оцените ее качество.

Научитесь оценивать качество модели мультиклассовой классификации.

Модуль 12 - Деревья принятия решений

Изучите принцип работы модели «Деревья принятия решений».

Определите отличия этой модели от остальных.

Обучите модель «Деревья принятия решений» для решения задач регрессии и классификации.

Модуль 13 - Ансамбли моделей

Изучите базовые техники построения ансамблей.

Научитесь строить и обучать разные типы ансамблей моделей.

Определите, какой способ ансамблирования необходимо использовать в случае high bias, а какой ― в случае high variance.

Модуль 14 - Библиотеки CatBoost и XGBoost

Ознакомьтесь с библиотеками CatBoost и XGBoost.

Узнайте, какие задачи они решают и чем отличаются друг от друга.

Научитесь улучшать XGBoost-модель за счет оптимальных гиперпараметров модели.

Модуль 15 - Кластерный анализ данных

Узнайте, как обучить модель без учителя с помощью кластеризации.

Изучите теорию и разберите на примерах, как работают методы кластеризации в моделях K-Means, DBSCAN и Agglomerative Clustering.

Найдите группы похожих экземпляров в массиве данных с помощью кластеризации.

Модуль 16 - Отбор признаков и уменьшение соразмерности данных

Изучите простые способы выбора признаков.

Выберите признаки так, чтобы оставить только самые значимые для модели.

Научитесь применять методы уменьшения соразмерности данных для ML-модели [Singular Value Decomposition, Principal Component Analysis, Linear Discriminant Analysis].

Примечание: на момент создания темы актуальная цена не известна.

Продажник