it Новости Who is who в data science: разбираемся в тонкостях профессии
Who is who в data science: разбираемся в тонкостях профессии

Who is who в data science: разбираемся в тонкостях профессии

470
21 ноября 2020 в 14:45

Часто data scientist воспринимают как представителей одной профессии. Но ведь в этой сфере есть много разных специализаций! Давайте выясним, какие все-таки существуют направления и как их изучать.

Чтобы попасть в мир науки о данных, вам нужно хорошо знать универсальные базовые вещи, и только потом выбрать узкую специализацию для дальнейшего более глубокого изучения. Сейчас мы с вами попробуем обрисовать примерный круг основных направлений, чтобы вы могли в них ориентироваться. Потому что для удачного трудоустройства нужно хорошо понимать, какие возможности предлагает рынок труда, на какую должность вы хотите претендовать и какими навыками должны для этого обладать.


Состав команды

Данные проходят через сложную многоэтапную обработку, прежде чем лицо, принимающее решения, увидит их в форме красивой, структурированной и понятной презентации. Специализации мы расположили в том же порядке, в котором они взаимодействуют с данными. 

Итак, самые распространенные вакансии:


Data architect

Что понимается под архитектурой данных? Это все правила, модели, техники и стандарты, которые определяют вид, применение и хранение собранной информации. Сюда же относится интеграция данных внутри организации и вопросы безопасности. Все эти задачи находятся в зоне ответственности архитектора данных. 


Если дело касается big data, без этого специалиста никак не обойтись. В крупных компаниях он часто играет и роль дата-инженера. 


Классические задачи: составление детального плана работы с данными,  предоставление нужных инструментов для data engineer. 


Что необходимо знать: SQL, noSQL, XML, Hive, Pig, Hadoop, Spark, машинное обучение, визуализацию, моделирование и хранение данных, а также ETL (extraction transformation and loan).


Data engineer

Инженеру не обязательно знать статистику и machine learning. Но это все равно очень важный член любой команды в data science. Без инженеров не будет никаких данных, а значит и материала для работы, и даже самой отрасли.


Классические  задачи: получение данных, все виды обработки информации, а также ее хранение. Создание, тестирование и изменение ИТ-инфраструктуры. Приведение в действие всех проектов дата-архитектора, благодаря чему у дата-сайентист появляется доступ к данным и возможность запускать собственные алгоритмы.


Требования к знаниям: отличные навыки программирования, владение SQL, пакетом Matlab, языками C++, Python и Perl, а также Java и Ruby, ходовыми инструментами API и средствами ETL и пр.



Data analyst

Специальность, очень похожая на предыдущую, поэтому их часто не различают. Тем не менее, data analyst – менее технический персонаж.


Классические  задачи: поиск ответов на вопросы команды, анализ данных, их визуализация и составление отчетов, презентаций. Этот специалист не занимается поиском новых тенденций и прогнозами. 


Требования к знаниям: статистика, методы визуализации данных, программирование на среднем уровне (Python, R) понимание SQL-запросов, владение MS Excel и другими подобными инструментами.


Data scientist

Так как роли в data science не имеют четких разграничений, есть довольно много компаний, которые стремятся найти себе т.н. «единорогов». Единорогами называют специалистов, прекрасно разбирающихся практически во всем: начиная математикой и заканчивая визуализацией, машинным обучением и бизнес-менеджментом. Конечно, такие люди существуют, но их совсем мало.


Обыкновенный дата-сайентист – это тот же аналитик, просто чуть глубже погруженный в математические науки. Он обладает большей свободой для экспериментов и может исследовать тренды, находящиеся вне поля зрения менеджмента. 


Дата-сайентист проходит через огромное поле неструктурированных данных, чтобы найти в нем информацию, в которой заложены необходимые правильные ответы. При этом очень важно понимать бизнес-задачи. А еще этот специалист делает предиктивный анализ, что и отличает его от data analyst. Не зря же он scientist: этот человек занимается научными исследованиями, а именно тестирует гипотезы, чтобы получить практические знания.


Классические задачи: переработка данных, машинное обучение, оценивание результатов и визуализация этой оценки, формирование предсказаний и отчетов. Пример типичной задачи – предсказать, какова вероятность, что клиент откажется от подписки (группировка клиентов на смысловые группы). 


Требования к знаниям: навыки data analyst и хорошая база знаний в сфере машинного обучения, статистика, умение давать оценку статистическим моделям, программирование на продвинутом уровне.


Machine Learning Engineer

По сути, это дата-сайентист, который специализируется на machine learning. 


Классические задачи: ПО для автоматизации систем и моделей ML, их проектирование, создание и тестирование, а также последующая поддержка.


Требования к знаниям: статистика, хорошие математические навыки, из языков – Java, Python и JavaScript, ходовые фреймворки машинного обучения, Hadoop или его аналоги.



Business Intelligence Developer (BI-разработчик)

Главная задача этих специалистов – структурировать и презентовать полученные данные так, чтобы они были понятны для менеджмента. Как правило, анализ не входит в число их обязанностей.


Технический бэкграунд BI-разработчикам не требуется, так как в этом направлении необходимо в первую очередь хорошо понимать бизнес-операции и эффективную коммуникацию.


Классические задачи: вырабатывание стратегий для других специалистов, как эффективно использовать информацию и как вовремя получать ее, чтобы принимать требуемые решения. Кроме того BI-разработчик создает проекты и хранилища, поддерживает их, разрабатывает пакеты ETL, dashboard, аналитические отчеты.


Требования к знаниям: SQL, способы хранения данных, SSRS-SSAS-SSIS, методы ETL, построитель отчетов Report Builder, Microsoft Power BI, язык запросов DAX, MS Excel/Tableau, основы безопасности, дашборды и такие языки программирования, как VB, C# и JavaScript.


Database administrator 

За готовой базой данных кто-то должен присматривать. Этот специалист занимается тем, что выявляет неисправности, быстро находит выход в экстренных случаях и решает все проблемы, связанные с работой с данными.


Классические задачи: выполнение резервного копирования информации, ее восстановление, обеспечение безопасности, а также моделирование. Этот специалист следит, чтобы все сотрудники имели нужные доступы, система корректно работала и все версии баз данных были связаны друг с другом.


Требования к знаниям: языки БД и ЯП, с которыми работают в конкретной организации, облачные сервисы.


Заключение

В data science есть и много других ролей – все зависит от того, насколько крупная компания. Так, в ней еще могут работать статик, менеджер, журналист, специалисты по визуализации и качеству данных, пр. Порой команда наоборот сужается за счет слияния обязанностей, например, Data engineer и Data architect.

Больше интересных новостей

Комментарии для сайта Cackle