#2 – Основы статистики и вероятности

#2 – Основы статистики и вероятности

За урок мы познакомимся с понятием статистики и понятием вероятностей. Это ключевые аспекты при анализе данных. Мы научимся выполнять простой анализ входных данных.

Видеоурок

Что такое статистика и почему она важна?

Сперва поговорим о статистике. Для Data Scientist статистика является основным инструментом, который помогает принимать решения на основе данных. Это фундаментальный инструмент, позволяющий анализировать данные, находить закономерности и делать выводы. Понимание основ статистики критически важно, так как оно позволяет интерпретировать данные и строить модели на их основе.


Например, если у вас есть данные о продажах продукта, статистика поможет ответить на вопросы:

  • Какие товары продаются чаще всего?
  • Какой диапазон цен максимально привлекателен для покупателей?
  • Есть ли значимые отличия в продажах между разными регионами?


Давайте разберём ключевые концепции статистики, которые мы будем применять на практике.


Центральная тенденция

Первое, что мы хотим понять при анализе данных, – это их "среднее" поведение. Представьте, что у вас есть данные о доходах сотрудников компании. Чтобы описать их, можно использовать три основные характеристики центральной тенденции: среднее, медиану и моду.

  • Среднее значение (или "среднее арифметическое") показывает общий уровень доходов. Например, вы складываете все зарплаты и делите на их количество. Однако, если в компании работает топ-менеджер с зарплатой, в десять раз превышающей остальные, среднее значение может быть смещено.
  • Медиана – это центральное значение, которое делит данные на две равные части. Она устойчивее к выбросам и часто используется, когда распределение данных асимметрично.
  • Если же вы хотите узнать, какая зарплата встречается чаще всего, полезно вычислить моду.


Распределения данных

Распределение данных показывает, как значения "распространяются" внутри набора. Например, если вы визуализируете рост людей, вы, скорее всего, увидите "колокол" – это называется нормальным распределением. Оно симметричное и наиболее часто встречающееся в природе.


Примеры нормального распределения включают:

  • результаты экзаменов;
  • время, которое пользователи проводят на веб-сайте.


Другой тип распределения – биномиальное, которое описывает вероятность успеха в серии испытаний. Представьте, что вы подбрасываете монету 10 раз и хотите узнать, как часто выпадет орёл. Это пример биномиального распределения, которое полезно в маркетинговых исследованиях и анализе вероятностей.


Проверка гипотез: как принимать решения на основе данных?

Проверка гипотез – это важная часть анализа данных, которая позволяет подтвердить или опровергнуть утверждения. Например, представьте, что вы владелец интернет-магазина и хотите понять, действительно ли средний доход от продажи товара составляет 300 долларов.

Вы выдвигаете нулевую гипотезу, которая утверждает, что средний доход равен 300 долларам. Проверка гипотезы – это процесс, позволяющий решить, достаточно ли данных, чтобы отклонить эту гипотезу.


Здесь на помощь приходит p-value – показатель, который отражает вероятность случайного получения ваших данных при условии, что нулевая гипотеза верна. Если p-value меньше порогового значения (обычно 0,05), это говорит о том, что данные достаточно убедительны. В нашем примере это может означать, что средний доход действительно отличается от 300 долларов.


Важно помнить, что p-value не указывает на "правильность" гипотезы, а лишь на силу данных против неё.


Проверка нормальности данных

Когда мы анализируем данные, важно понимать, как они распределены. Многие статистические тесты, такие как проверка гипотез, предполагают, что данные подчиняются нормальному распределению.


Проверка нормальности – это способ оценить, насколько ваши данные соответствуют этой модели. Если данные не подчиняются нормальному распределению, нужно использовать другие методы анализа или преобразовать данные. Например, в реальной жизни продажи товаров могут быть неравномерными – одни товары продаются часто, другие редко. Проверка нормальности помогает выбрать правильный подход для анализа.

Исходный код

Весь код будет доступен после подписки на проект!

Задание к уроку

Необходимо оформить подписку на проект, чтобы получить доступ ко всем домашним заданиям

Большое задание по курсу

Вам необходимо оформить подписку на сайте, чтобы иметь доступ ко всем большим заданиям. В задание входит методика решения, а также готовый проект с ответом к заданию.
PS: подобные задания доступны при подписке от 1 месяца

Также стоит посмотреть

Нейронные сети / Изучение Python OpenCV
9 уроков
Python FastAPI / Изучение библиотеки с нуля
8 уроков
Изучение Python до профи / Основы, Django, TKinter
Уроки Python Django / Создание сайта
12 уроков
Изучение PyQt5 / Графический интерфейс на Python
6 уроков
Курс Machine Learning / Машинное обучение с нуля
8 уроков
Комментарии
Добавить комментарий

Пока комментариев нет