itProger Видеокурсы Курс Machine Learning / Машинное обучение с нуля #3 – Как работает машинное обучение изнутри?

#3 – Как работает машинное обучение изнутри?

В уроке вы узнаете из чего состоит само понятие машинное обучение и что находится у него под капотом. Вы узнаете про метрики для нахождения правильных ответов, а также узнаете про способ обучения - градиентный спуск.

Видеоурок

Что происходит внутри модели?

Когда вы слышите «машинное обучение», за этим обычно стоит очень простая цепочка: данные → модель → предсказание. Модель — это как математическая формула или алгоритм. Она учится находить закономерности в данных и использовать их для предсказания результата на новых примерах.

Представьте, что вы хотите научить программу отличать медведей от слонов. Вы показываете ей множество картинок, и к каждой прикладываете подпись: «медведь» или «слон». Эти изображения — входные данные, а подписи — это цель, или по-другому — target. Модель анализирует изображения, находит общие черты (например, цвет, форму, наличие шерсти) и постепенно учится определять, кто есть кто.

Что такое признаки и цель?

В машинном обучении каждое наблюдение состоит из признаков (features) и цели (target). Признаки — это факты или характеристики, описывающие объект. Например, если мы хотим предсказывать цену квартиры, признаки могут быть: площадь, количество комнат, район, наличие балкона и т.д. Цель — это то, что мы хотим предсказать. В этом случае — цена.

Важно понимать, что признаки должны быть понятными и полезными для модели. Если вы дадите модели бессмысленные или случайные признаки, она ничему не научится. Поэтому в реальных проектах очень много времени уходит на подбор и подготовку признаков.

Обучение и тестирование

После того как у нас есть данные, мы делим их на две части: обучающую выборку и тестовую выборку. Обучающая — та, на которой модель учится. Тестовая — это данные, которых модель ранее не видела. С их помощью мы проверяем, насколько хорошо она справляется.

Это как в школе: вы сначала решаете задачи по учебнику — это обучающая часть. А потом пишете контрольную, где задачи похожие, но новые — это тестовая часть. Если вы хорошо усвоили материал, то справитесь и на контрольной.

Что такое loss и accuracy?

Когда модель делает предсказание, ей нужно понять — правильно оно или нет. Для этого существует метрика ошибки, называемая втрата или loss. Это просто число, показывающее, насколько сильно предсказание модели отличается от правильного ответа.

Цель обучения — минимизировать эту ошибку, сделать так, чтобы предсказания модели были как можно ближе к реальным значениям.

Существует также метрика accuracy — точность. Она используется в задачах классификации. Например, модель должна определить, является ли письмо спамом. Если из 100 писем модель правильно классифицировала 90, то точность составит 90%. Чем выше точность — тем лучше.

Что такое эпохи?

Когда модель обучается, она не делает это за один проход по данным. Обычно данные показываются модели много раз, и каждый полный проход по обучающей выборке называется эпохой.

С каждой эпохой модель немного улучшается: анализирует свои ошибки, подстраивает внутренние параметры и старается предсказывать точнее. Но важно не переборщить с количеством эпох — если обучать слишком долго, модель может начать запоминать конкретные примеры и плохо работать на новых. Это называется переобучение.

Градиентный спуск — простыми словами

Теперь один из самых интересных моментов — как модель обучается? То есть как она понимает, в каком направлении нужно двигаться, чтобы стать лучше? Для этого используется метод, называемый градиентный спуск.

Представьте, что вы стоите на вершине холма и хотите спуститься в самую низкую точку. Но у вас закрыты глаза. Единственное, что вы умеете — почувствовать, в какую сторону земля наклоняется больше всего, и сделать один маленький шаг туда. Потом снова почувствовать и снова сделать шаг. Так, шаг за шагом, вы дойдёте до самой низкой точки.

В обучении моделей происходит то же самое. Модель делает предсказание, вычисляет ошибку (loss), а затем немного корректирует свои внутренние параметры так, чтобы ошибка уменьшилась. Этот процесс повторяется множество раз, и со временем модель становится всё точнее. Это и есть градиентный спуск.

Задание к уроку

Необходимо оформить подписку на проект, чтобы получить доступ ко всем домашним заданиям

Python

Unity