Кто такой Data Scientist?
27.06.2019
Data Scientist сегодня называют экспертов по аналитическим данным, обладающих техническими навыками, которые необходимы для того, чтобы решать сложные задачи, плюс Data Scientist обладает и необходимым любопытством, позволяющим такие задачи ставить. Data Scientist частично являются математиками, а частично это компьютерные ученые, и частично еще и трендспоттеры.
Профессия Data Scientist требует практических знаний в сфере статистического анализа информации. Для этой профессии также важны навыки создания математических моделей (начиная от нейронных сетей и заканчивая кластеризацией, и начиная с факторного и заканчивая корреляционным анализами), навыки работы с большим количеством информации и способность определять закономерности.
Средние зарплаты Data Scientist в США составляют около 91 тысяча долларов в год. В России же это примерно 60-70 тысяч рублей за месяц для совсем уж «зеленых» новичков, а для опытных специалистов зарплата может составлять до 220 тысяч.
DJ Patil, ранее работавший главным научным сотрудником отдела научно-технической политики США, так характеризует эту профессию:«Data scientist является специалистом с уникальным сплавом навыков, делающим невероятные находки, воплощающим в жизнь фантастические истории — и все это ему удается делать благодаря информации».
Чем же на самом деле заняты специалисты в сфере Big Data? Эти сотрудники в своей работе постоянно имеют дело с ограничениями, которые могут быть методологическими, техническими, а также любыми другими — и они в этих условиях определяют пути для новых решений. Они совершают события, прогнозируя и анализируя. В Data Science место также находится творчеству: специалисты работают над элегантными решениями сложных задач, кроме того, они могут качественно визуализировать информацию, делают шаблоны убедительными и понятными.
Приведем пример работы Data Scientist: «Джонатант Голдман, физик, учившийся в Стэнфорде, пришел на работу в соцсеть LinkedIn. Здесь он работал над чем-то, что невозможно измерить в KPI либо увидеть конечный результат: работал над сайтом, исправлял баги, внедрял фичи. Пока разработчики напряженно думали, как можно модернизировать сайт, справившись с наплывом его посетителей, Голдман смог создать прогностическую модель, подсказывающую владельцу аккаунта в LinkedIn, кто из людей, зарегистрированных в данной сети, также может быть его знакомым. Голдман убедил руководство компании опробовать его модель, что принесло сети много новых просмотров, а также сильно ускорило ее рост».
Определенного описания профессии нет, все определяется конкретной сферой использования навыков работы с информацией. Однако можно назвать некоторые вещи, которыми будет заниматься абсолютно любой Data Scientist:
- сбор множества неуправляемых данных, а также преобразование этой информации в более удобный формат;
- решение различных бизнес-задач с применением данных;
- работа с разными языка программирования, в том числе с R, SAS и Python;
- использование статистики, в том числе статистических тестов и распределений;
- применение аналитических методов, как пример можно привести машинное обучение, а также текстовую аналитику и глубокое обучение;
- проведение сотрудничества в равной мере с бизнесом и с IT;
- определение порядка и шаблонов данных, плюс определение тенденций, которые способны пригодиться в достижении конечного бизнес-результата.
Далее мы перечислим технологии и термины, которые необходимо знать специалисту Data Scientist:
Визуализация данных: речь идет о представлении информации в графическом формате, это позволит легче анализировать данные.
Машинное обучение: сфера искусственного интеллекта, которая основывается на различных математических алгоритмах, а также на автоматизации.
Глубокое обучение: это сфера изучения машинного обучения, применяющая в работе данные для создания сложных абстракций.
Распознавание образов: специальная технология, позволяющая распознавать шаблоны в данных (она часто применяется взаимозаменяемо с машинным обучением).
Подготовка данных: это процесс перевода необработанной информации в иной формат, чтобы эти данные проще было потреблять.
Текстовая аналитика: речь идет о процессе анализа неструктурированной информации, которая нужна для получения важных бизнес-идей.
Кроме того, необходимо понимать:
Машинное обучение и статистику.
Языки программирования R, SAS, Python.
Базы данных MySQL, а также Postgres.
Технологии для визуализации информации и отчетности.
Hadoop and MapReduce.
Еще один пример – как Beeline проводит собеседование на данную должность: «Процесс собеседования стартует с телефонного интервью, которое включает вопросы из некоторых разделов математики. Далее кандидату предлагается тестовая задача — это конкретная задача из области машинного обучения, она аналогична задачам на ресурсе kaggle.com. Выстроивший хороший алгоритм, а также получивший высокий уровень качества на тестовой выборке, кандидат переходит на следующий этап — непосредственно собеседование, где устанавливается знание кандидатом методов анализа информации и машинного обучения, также на этом этапе предусмотрены задачи на логику и вопросы из практики».
Стоит знать, что в Data Scientist вполне можно прийти не с нуля, однако с довольно хорошей базой. По словам одного из специалистов, который пришел в Big Data из науки: «Контора Bidgely, предложила ему позицию Data Scientist, оклад на которой составлял $130k в год «грязными» (чистыми это получалось около $7400 в месяц)». Ему было предложено трудиться в офисе, который находился в небольшом городе Sunnyvale, расположенном в Кремниевой Долине, всего в нескольких километрах от штаб-квартир таких компаний, как Apple, Google и Linkedin, Apple. В январе он принял решение уйти в Data Science, и при этом уже в октябре он трудился в этой сфере в США, закончив университет в июне.
Также отметим, что тем, кто желает заниматься Data Science по-настоящему, нужно «заготовить» не просто Excel, но и знать Python, изучить учебник по математическому анализу, и иметь готовность учиться. Если вас интересуют Data Scientist вакансии, то найти их вы легко сможете на специализированных ресурсах. Data Scientist курсы предлагает IT-академия «TOP». У нас вы найдете для Data Scientist обучение, которое осуществляется настоящими профессионалами.