it Новости 6 крупных Data Science проектов с открытым исходным кодом
6 крупных Data Science проектов с открытым исходным кодом

6 крупных Data Science проектов с открытым исходным кодом

6 427
06 декабря 2019 в 19:47

Data Science – это не просто новое модное IT-направление, а наука, которая совсем скоро кардинально изменит наш мир. В статье мы узнаем про 6 крутых проектов в этой сфере.

Человек уже не справляется с обработкой многих видов данных, особенно если речь идет о колоссальных объемах, поэтому в дальнейшем без помощи самообучающегося ИИ нам никак не обойтись.

JS-библиотека для визуализации данных

RoughViz представляет данные в виде картинки, которая выглядит так, будто ее нарисовали от руки.



Вот команда для установки RoughViz:

npm install rough-viz

В репозитории GitHub есть много подробных примеров кода, показывающих, как применять библиотеку. С ее помощью можно сгенерировать линейные графики, гистограмму, кольцевую, круговую и точечную диаграммы. 

Простой, легкий и быстрый распознаватель лиц

Пусть вас не смущает описание на китайском языке – оно прекрасно переводится в Google Translate. Зато эта модель детектора лиц весит всего-навсего 1 Мб!


 

Архитектура, используемая в детекторе, основана на libfacedetection

Библиотека представлена в двух версиях: 

  1. RFB (более точная)
  2. slim (шустрая, но попроще)

С такой легковесной библиотекой очень удобно разрабатывать более сложные и совершенные системы компьютерного зрения. 

Самая масштабная карта знаний

Теории графов используются во многих научных дисциплинах, в том числе в Data Science. Особенный интерес сейчас вызывают еще не приевшиеся тематические карты, диаграммы концептов и ассоциативные карты


Этот проект стал своеобразным гигантом среди таких систем. Он был создан в Китае и представляет собой наибольшую из всех существующих карту знаний: число ее узлов превышает 140 миллионов. Содержимое карты имеет расширение csv.


 

Все данные этого проекта, сгруппированы в тройки моделей вида «Сущность-Атрибут-Значение» и «Сущность-Отношение-Сущность». Простота и размер карты дают уникальную возможность вдоволь поэкспериментировать с разными алгоритмами из теории графов, а также попрактиковаться в обработке огромных объемов данных.

Генерация сложных видео по простым моделям

Vid2vid  превращает семантически простой входной ролик в мегареалистичное выходное видео. Фактически нейросеть переносит отличительные черты одной модели на другую. Чтобы лучше понять, о чем идет речь, посмотрите на несколько наглядных примеров использования этой системы:


Сейчас есть два значительных ограничения моделей few-shot vid2vid:

  1. Для обучения необходимо большое количество данных.
  2. Модели стремятся обобщать обучающие данные.


Репозиторий GitHub является реализацией vid2vid с использованием PyTorch. Если вы хотите подробнее узнать о возможностях нейросети, ознакомьтесь с научной статьей по ссылке.

Детектор объектов при автономном вождении

Автономное управление автомобилями возможно благодаря технологиям обнаружения объектов. И чтобы эта система была безопасной для участников дорожного движения, она обязана работать быстро и выдавать очень точный результат.


Архитектура детектора Gaussian YOLOv3 обеспечивает высокую точность обнаружения в режиме реального времени, т.е. соответствует главным требованиям к автопилотам.

 


По сравнению со стандартным YOLOv3, эта версия демонстрирует лучшие значения параметров на датасетах, которые непосредственно связаны с управлением транспортом: KITTI и Berkeley DeepDrive.

Преобразователь текста от Google Research

Разве может Google не попасть в рейтинг новейших достижений? Конечно же, нет. Компания выделяет впечатляющие суммы на развитие многих разновидностей машинного обучения, в том числе глубокого и с подкреплением. К счастью разработчиков всего мира, иногда Google выпускает open source проекты, и у них можно многому поучиться.


Ярким примером подобных решений является Text-to-Text Transfer Transformer или кратко Т5. Идея программы заключается в переносе обучения при обработке естественного человеческого языка. Т5 прекрасно справляется с задачами, которые касаются текста: поиск ответа на вопросы, обобщение, классификация и т.д.



Установить преобразователя для Python можно с помощью системы pip:

pip install t5[gcp]

Больше интересных новостей

Комментарии для сайта Cackle