it Новости 6 крупных Data Science проектов с открытым исходным кодом

6 крупных Data Science проектов с открытым исходным кодом

13 181

06 декабря 2019 в 19:47

Data Science – это не просто новое модное IT-направление, а наука, которая совсем скоро кардинально изменит наш мир. В статье мы узнаем про 6 крутых проектов в этой сфере.

Человек уже не справляется с обработкой многих видов данных, особенно если речь идет о колоссальных объемах, поэтому в дальнейшем без помощи самообучающегося ИИ нам никак не обойтись.

JS-библиотека для визуализации данных

RoughViz представляет данные в виде картинки, которая выглядит так, будто ее нарисовали от руки.

Вот команда для установки RoughViz:

npm install rough-viz

В репозитории GitHub есть много подробных примеров кода, показывающих, как применять библиотеку. С ее помощью можно сгенерировать линейные графики, гистограмму, кольцевую, круговую и точечную диаграммы.

Простой, легкий и быстрый распознаватель лиц

Пусть вас не смущает описание на китайском языке – оно прекрасно переводится в Google Translate. Зато эта модель детектора лиц весит всего-навсего 1 Мб!

Архитектура, используемая в детекторе, основана на libfacedetection.

Библиотека представлена в двух версиях:

RFB (более точная)
slim (шустрая, но попроще)

С такой легковесной библиотекой очень удобно разрабатывать более сложные и совершенные системы компьютерного зрения.

Самая масштабная карта знаний

Теории графов используются во многих научных дисциплинах, в том числе в Data Science. Особенный интерес сейчас вызывают еще не приевшиеся тематические карты, диаграммы концептов и ассоциативные карты.

Этот проект стал своеобразным гигантом среди таких систем. Он был создан в Китае и представляет собой наибольшую из всех существующих карту знаний: число ее узлов превышает 140 миллионов. Содержимое карты имеет расширение csv.

Все данные этого проекта, сгруппированы в тройки моделей вида «Сущность-Атрибут-Значение» и «Сущность-Отношение-Сущность». Простота и размер карты дают уникальную возможность вдоволь поэкспериментировать с разными алгоритмами из теории графов, а также попрактиковаться в обработке огромных объемов данных.

Генерация сложных видео по простым моделям

Vid2vid превращает семантически простой входной ролик в мегареалистичное выходное видео. Фактически нейросеть переносит отличительные черты одной модели на другую. Чтобы лучше понять, о чем идет речь, посмотрите на несколько наглядных примеров использования этой системы:

Сейчас есть два значительных ограничения моделей few-shot vid2vid:

Для обучения необходимо большое количество данных.
Модели стремятся обобщать обучающие данные.

Репозиторий GitHub является реализацией vid2vid с использованием PyTorch. Если вы хотите подробнее узнать о возможностях нейросети, ознакомьтесь с научной статьей по ссылке.

Детектор объектов при автономном вождении

Автономное управление автомобилями возможно благодаря технологиям обнаружения объектов. И чтобы эта система была безопасной для участников дорожного движения, она обязана работать быстро и выдавать очень точный результат.

Архитектура детектора Gaussian YOLOv3 обеспечивает высокую точность обнаружения в режиме реального времени, т.е. соответствует главным требованиям к автопилотам.

По сравнению со стандартным YOLOv3, эта версия демонстрирует лучшие значения параметров на датасетах, которые непосредственно связаны с управлением транспортом: KITTI и Berkeley DeepDrive.

Преобразователь текста от Google Research

Разве может Google не попасть в рейтинг новейших достижений? Конечно же, нет. Компания выделяет впечатляющие суммы на развитие многих разновидностей машинного обучения, в том числе глубокого и с подкреплением. К счастью разработчиков всего мира, иногда Google выпускает open source проекты, и у них можно многому поучиться.

Ярким примером подобных решений является Text-to-Text Transfer Transformer или кратко Т5. Идея программы заключается в переносе обучения при обработке естественного человеческого языка. Т5 прекрасно справляется с задачами, которые касаются текста: поиск ответа на вопросы, обобщение, классификация и т.д.

Установить преобразователя для Python можно с помощью системы pip:

pip install t5[gcp]

Больше интересных новостей

Распознавание текста с картинки. Python Tesseract ORC + OpenCV

Новый год для программиста!

Поисковая оптимизация сайтов: 7 важных компонентов SEO

Правила создания резюме для программиста

Комментарии