#4 – Практика в Python: первая модель
Видеоурок
В качестве основы мы будем использовать библиотеку scikit-learn, одну из самых популярных и удобных для новичков. С её помощью можно создавать модели, обучать их, тестировать, а также быстро запускать эксперименты без необходимости писать много вспомогательного кода.
В этом уроке мы разберём классическую задачу классификации: попробуем определить вид цветка ириса на основе его параметров. Почему именно ирисы? Потому что существует готовый и широко используемый набор данных Iris (или Iris Dataset) — он небольшой, легко воспринимается и идеально подходит для обучения и первых экспериментов в машинном обучении.
Что мы будем делать?
Представьте, что у вас есть таблица, в которой каждая строка — это отдельный цветок. У каждого цветка есть четыре измерения: длина и ширина лепестка, а также длина и ширина чашелистика (это часть цветка, находящаяся под лепестками). Также в таблице указано, к какому виду принадлежит каждый цветок. Всего есть три вида ирисов: Setosa, Versicolor и Virginica.
Наша задача — научить модель по этим четырём числовым признакам предсказывать, к какому виду относится данный цветок. Это классическая задача многоклассовой классификации.
Что такое набор данных Iris?
Набор данных Iris был впервые представлен статистиком Рональдом Фишером в 1936 году. Он содержит 150 наблюдений — по 50 на каждый из трёх видов ирисов. Для каждого наблюдения записаны четыре числовых признака:
- Длина чашелистика (sepal length)
- Ширина чашелистика (sepal width)
- Длина лепестка (petal length)
- Ширина лепестка (petal width)
Этот датасет включён в библиотеку scikit-learn и может быть загружен всего одной командой. Он считается идеальным для демонстрации базовых алгоритмов машинного обучения.
Установка библиотек
Приступим к написанию кода. Сперва откройте вашу среду разработки, например Visual Studio Code. В ней откройте терминал и выполните установку необходимых библиотек. Установите scikit-learn — для работы с моделями и датасетами.
Также нам понадобятся pandas и matplotlib. Первая библиотека поможет удобно работать с таблицами и обрабатывать данные, а вторая — визуализировать результаты обучения и строить графики.
Вот команда для установки:
pip install scikit-learn pandas matplotlibИсходный код
Весь код будет доступен после подписки на проект! Задание к уроку
Необходимо оформить подписку на проект, чтобы получить доступ ко всем домашним заданиям
Также стоит посмотреть