. 데이터 과학이란 무엇이고 어떻게 작동하나요? 데이터베이스 몰입

10.09.2023

데이터 과학, 기계 학습 - 이런 거창한 단어를 들어보셨을 것입니다. 그러나 그 의미가 당신에게 얼마나 명확했습니까? 어떤 사람들에게는 아름다운 미끼가 됩니다. 어떤 사람들은 데이터 과학이 기계가 명령받은 것은 무엇이든 무료로 수행하게 만드는 마법이라고 생각합니다. 다른 사람들은 이것이 엄청난 돈을 벌 수 있는 쉬운 방법이라고 믿기까지 합니다. IRELA의 R&D 책임자인 Nikita Nikitinsky와 데이터 과학자인 Polina Kazakova가 이것이 무엇인지 간단하고 이해하기 쉬운 언어로 설명합니다.

저는 데이터 과학을 응용한 자동 자연어 처리 분야에서 일하며 사람들이 이러한 용어를 잘못 사용하는 것을 종종 보므로 조금 더 명확하게 설명하고 싶었습니다. 이 글은 데이터 과학이 무엇인지 잘 모르고 개념을 이해하고 싶은 사람들을 위한 것입니다.

용어를 정의해보자

실제로 데이터 과학이 무엇인지 정확히 아는 사람은 아무도 없고 엄격한 정의도 없다는 사실부터 시작하겠습니다. 데이터 과학은 매우 광범위하고 학제간 개념입니다. 따라서 여기서는 다른 사람의 의견과 반드시 일치하지는 않는 내 비전을 공유하겠습니다.

데이터 과학이라는 용어는 러시아어로 "데이터 과학"으로 번역되며, 전문적인 환경에서는 단순히 "데이터 과학"으로 음역되는 경우가 많습니다. 공식적으로 이는 컴퓨터 과학 및 수학 분야의 상호 연관된 학문 및 방법의 집합입니다. 너무 추상적인 것 같죠? 그것을 알아 봅시다.

첫 번째 부분: 데이터

전체 추가 프로세스가 불가능한 데이터 과학의 첫 번째 구성 요소는 실제로 데이터 자체입니다. 데이터를 수집, 저장 및 처리하는 방법과 일반 데이터 배열에서 유용한 정보를 추출하는 방법입니다. 전문가들은 작업 시간의 최대 80%를 데이터를 정리하고 원하는 형식으로 가져오는 데 투자합니다.

이 지점에서 중요한 부분은 대용량 및/또는 다양성으로 인해 표준적인 저장 및 처리 방법이 적합하지 않은 데이터, 즉 소위 빅 데이터를 어떻게 처리하는가입니다. 그런데 혼동하지 마십시오. 빅 데이터와 데이터 과학은 동의어가 아닙니다. 오히려 첫 번째는 두 번째의 하위 섹션입니다. 동시에 실제로 데이터 분석가가 항상 큰 데이터로 작업할 필요는 없습니다. 작은 데이터도 유용할 수 있습니다.

데이터를 수집해보자

직장 동료가 낮에 마시는 커피의 양과 전날 밤에 잠을 잔 양 사이에 어떤 관계가 있는지에 관심이 있다고 상상해 보십시오. 사용할 수 있는 정보를 적어 보겠습니다. 동료 Gregory가 오늘 4시간 동안 잠을 자서 커피 3잔을 마셔야 한다고 가정해 보겠습니다. Ellina는 9시간 동안 잠을 자고 커피를 전혀 마시지 않았습니다. Polina는 10시간 동안 잠을 잤지만 커피를 2.5잔 마셨습니다.

획득한 데이터를 그래프로 표시해 보겠습니다(시각화도 데이터 과학 프로젝트의 중요한 요소입니다). X축에 시간(시간)을 표시하고 Y축에 밀리리터 단위의 커피를 표시해 보겠습니다. 우리는 다음과 같은 것을 얻게 될 것입니다:

두 번째 부분: 과학

데이터가 있는데 이제 그걸로 무엇을 할 수 있나요? 맞습니다. 유용한 패턴을 분석하고 추출하여 어떻게든 활용해보세요. 여기서는 통계, 기계 학습, 최적화와 같은 분야가 도움이 될 것입니다.

이는 데이터 과학의 다음이자 아마도 가장 중요한 구성 요소인 데이터 분석을 형성합니다. 기계 학습을 사용하면 기존 데이터에서 패턴을 찾아 새로운 개체에 대한 관련 정보를 예측할 수 있습니다.

데이터를 분석해보자

우리의 예로 돌아가 보겠습니다. 눈에는 두 매개변수가 어떻게든 상호 연결된 것처럼 보입니다. 잠을 덜 자면 다음날 더 많은 커피를 마실 것입니다. 동시에 이러한 추세에서 눈에 띄는 예도 있습니다. 바로 잠을 자고 커피를 마시는 것을 좋아하는 Polina입니다. 그럼에도 불구하고 결과 패턴을 일반적인 직선으로 근사화하여 모든 점에 최대한 가깝게 접근할 수 있습니다.

녹색 선은 우리의 기계 학습 모델로, 데이터를 일반화하고 수학적으로 설명할 수 있습니다. 이제 그것의 도움으로 우리는 새로운 물건의 값을 결정할 수 있습니다. 오늘 사무실에 들어온 Nikita가 커피를 얼마나 마실지 예측하고 싶을 때 우리는 그가 얼마나 잤는지 물어볼 것입니다. 답변으로 7.5시간의 값을 받은 후 이를 모델로 대체합니다. 이는 300ml보다 약간 적은 양으로 소비되는 커피의 양에 해당합니다. 빨간색 점은 우리의 예측을 나타냅니다.

이것은 대략적인 머신러닝의 작동 방식이며, 아이디어는 매우 간단합니다. 패턴을 찾고 이를 새로운 데이터로 확장하는 것입니다. 실제로 기계 학습에는 이 예에서처럼 일부 값을 예측할 필요가 없지만 데이터를 특정 그룹으로 나누는 또 다른 작업 클래스가 있습니다. 하지만 이에 대해서는 다음에 더 자세히 이야기하겠습니다.

결과를 적용해보자

하지만 제 생각에는 데이터 과학은 데이터의 패턴을 식별하는 것으로 끝나지 않습니다. 모든 데이터 과학 프로젝트는 응용 연구이므로 가설 설정, 실험 계획, 결과 평가 및 특정 사례 해결에 대한 적합성을 잊지 않는 것이 중요합니다.

후자는 데이터 과학에서 찾은 솔루션이 프로젝트에 도움이 될지 여부를 이해해야 하는 실제 비즈니스 문제에서 매우 중요합니다. 우리의 예에서 구성된 모델의 유용성은 무엇입니까? 아마도 그것의 도움으로 우리는 사무실에 커피를 전달하는 것을 최적화할 수 있을 것입니다. 동시에 우리는 위험을 평가하고 우리 모델이 기존 솔루션(제품 구매를 담당하는 사무실 관리자 Mikhail)보다 이에 더 잘 대처할 수 있는지 판단해야 합니다.

예외를 찾아보자

물론 우리의 예는 최대한 단순화되었습니다. 실제로는 사람이 원칙적으로 커피를 좋아하는지 여부와 같은 몇 가지 다른 요소를 고려하는 더 복잡한 모델을 구축하는 것이 가능할 것입니다. 또는 모델이 직선으로 표현된 것보다 더 복잡한 관계를 찾을 수도 있습니다.

먼저 데이터에서 Polina와 같이 대부분의 다른 개체와 매우 다른 개체인 이상값을 찾을 수 있습니다. 사실 실제 작업에서 이러한 예는 모델 구축 과정과 품질에 나쁜 영향을 미칠 수 있으므로 다른 방식으로 처리하는 것이 합리적입니다. 예를 들어, 사기를 방지하기 위해 비정상적인 은행 거래를 탐지하는 작업과 같이 이러한 개체는 때로는 주요 관심사가 됩니다.

또한 Polina는 기계 학습 알고리즘의 불완전성이라는 또 다른 중요한 아이디어를 보여줍니다. 우리 모델은 10시간 동안 잠을 잔 사람에 대해 단 100ml의 커피만 예측하지만 실제로 Polina는 500ml를 마셨습니다. 데이터 과학 솔루션 고객은 이것을 결코 믿지 않을 것이지만 기계가 모든 것을 완벽하게 예측하도록 가르치는 것은 여전히 불가능합니다. 세상에서: 데이터의 패턴을 아무리 잘 식별하더라도 항상 예측할 수 없는 요소가 있기 마련입니다.

이야기를 계속하자

따라서 데이터 과학은 데이터를 처리하고 분석하여 실제 문제에 적용하는 일련의 방법입니다. 동시에, 각 전문가는 이 분야에 대해 자신만의 견해를 갖고 있으며 의견이 다를 수 있다는 점을 이해해야 합니다.

데이터 과학은 상당히 단순한 아이디어를 기반으로 하지만 실제로는 명확하지 않은 미묘한 부분이 많이 발견되는 경우가 많습니다. 데이터 과학이 일상 생활에서 우리를 어떻게 둘러싸고 있는지, 어떤 데이터 분석 방법이 존재하는지, 데이터 과학 팀이 누구로 구성되어 있는지, 연구 과정에서 발생할 수 있는 어려움에 대해서는 다음 기사에서 이야기하겠습니다.

우리는 노동 시장의 기술 수요에 대한 일련의 분석 연구를 계속합니다. 이번에는 Pavel Surmenok sharky 덕분에 새로운 직업인 데이터 과학자에 대해 살펴보겠습니다.

최근에는 데이터 사이언스(Data Science)라는 용어가 인기를 얻기 시작했습니다. 그들은 이것에 대해 많은 글을 쓰고 회의에서 그것에 대해 이야기합니다. 일부 회사에서는 데이터 과학자라는 이름의 직위에 사람을 고용하기도 합니다. 데이터 과학이란 무엇입니까? 데이터 과학자는 누구입니까?

데이터 과학자는 누구입니까?

샌프란시스코 거주자에게 이 질문을 하면 데이터 사이언티스트는 샌프란시스코에 거주하는 통계학자라는 답을 얻을 수 있다. 재미 있지만 샌프란시스코에 거주하지 않는 사람들에게는 그리 안심할 수는 없습니다. 그렇죠? 그럼 또 다른 정의를 내리겠습니다. 데이터 과학자는 어떤 프로그래머보다 통계를 더 잘 이해하고 어떤 통계학자보다 프로그래밍을 더 잘 이해하는 사람입니다. 그러나 이 옵션은 이미 본질에 가깝습니다. 데이터 과학자(Data Scientist)는 일종의 통계학자와 프로그래머의 하이브리드입니다. 게다가 통계학자와 프로그래머는 매우 다를 수 있으므로 이 직업을 순수 통계학자부터 순수 프로그래머까지 폭넓은 스펙트럼으로 간주하는 것이 좋습니다.

Twitter의 데이터 과학자인 Robert Chang은 자신의 직업을 A형 데이터 과학자와 A형 데이터 과학자의 두 그룹으로 나눕니다. B형 데이터 과학자.

A를 입력합니다. 여기서 A는 분석입니다. 이 사람들은 주로 정적 데이터에서 의미를 추출하는 사업에 종사하고 있습니다. 그들은 통계학자와 매우 유사하며 통계학자가 될 수도 있고 직위를 데이터 과학자로 변경할 수도 있습니다. 우리가 알고 있듯이 직위를 변경하는 것만으로도 급여가 크게 증가하고 명예와 존경을 받을 수 있습니다. 그러나 통계 외에도 데이터를 정리하는 방법, 대규모 데이터 세트로 작업하는 방법, 데이터를 시각화하고 작업 결과를 설명하는 방법 등 실용적인 측면도 알고 있습니다.

B를 입력합니다. 여기서 B는 건물입니다. 그들은 또한 통계에 대한 지식을 가지고 있지만 강력하고 경험이 풍부한 프로그래머이기도 합니다. 그들은 실제 시스템에 데이터를 적용하는 데 더 관심이 있습니다. 제품, 영화, 광고 추천 시스템과 같이 사용자와 상호 작용하는 모델이 구축되는 경우가 많습니다.

데이터 사이언스 역시 머신러닝, 인공지능 등 활동 분야와 살짝 겹치는데, 이 분야의 대표자는 B형 데이터 사이언스에 가깝다.

데이터 사이언티스트가 되고 싶은 사람은 무엇을 공부하고, 어떤 능력이 필요한가요? 데이터 과학 및 기계 학습 분야의 직위 후보자에 대해 미국 고용주가 어떤 요구 사항을 가지고 있는지 살펴 보겠습니다.

데이터 과학자 하드 스킬

전문 기술(하드 스킬)을 보유하기 위한 요구 사항에 대한 분석부터 시작하겠습니다.

순위에서 볼 수 있듯이 가장 인기 있는 것은 수학, 통계, 컴퓨터 과학 및 기계 학습에 대한 기초 지식입니다. 데이터 과학자는 이론적 지식 외에도 데이터를 마이닝, 정리, 모델링 및 시각화할 수 있어야 합니다. 소프트웨어 개발 및 품질 관리 경험도 중요합니다.

데이터 과학 도구 및 기술

데이터 과학자의 주요 도구는 Python 및 R 프로그래밍 언어입니다.

R은 통계 컴퓨팅을 위한 전문 프로그래밍 언어이므로 통계학자와 데이터 과학자들에게 사랑을 받고 있습니다. 이를 통해 데이터 세트를 빠르게 로드하고, 기본 통계 특성을 계산하고, 데이터를 시각화하고, 데이터 모델을 구축할 수 있습니다.

Python은 범용 프로그래밍 언어이기는 하지만 데이터 과학 및 기계 학습을 위한 수많은 고품질 라이브러리와 프레임워크를 갖추고 있습니다.

주목할만한 점은 취업자의 39%가 R과 Python에 대한 지식을 동시에 요구하기 때문에 둘 중 하나를 선택하려고 하기보다는 두 언어를 동시에 배우는 것이 좋습니다.

빅데이터로 작업하기 위해 고용주는 Hadoop과 Spark를 사용하는 것을 선호합니다. 널리 사용되는 데이터베이스로는 MySQL과 MongoDB가 있습니다.

데이터 과학자 소프트 스킬

일반 역량(소프트 스킬)은 공석에서 언급되는 빈도가 절반도 되지 않기 때문에 전문 기술에 비해 수요가 적습니다. 소프트 스킬이 필요한 공석의 평균 급여도 하드 스킬과 기술 지식이 필요한 공석보다 약 20% 정도 낮습니다.

그러나 접하게 되는 소프트 스킬 중에서 가장 중요한 것은 의사소통, 데이터 시각화, 프레젠테이션 작성, 효과적인 글쓰기 및 말하기 능력입니다. 팀워크, 관리 및 문제 해결 기술도 유용합니다.

데이터 과학자 도메인 지식

일부 직업에는 물리학, 생물학, 부동산, 숙박업 등 다양한 분야의 지식이 필요합니다. 여기서 리더는 경제, 마케팅 및 의학입니다.

데이터 과학자 전문 분야

연구를 시작하기 전에 우리는 데이터 과학자라는 직업의 하위 전문 분야를 파악하려고 했습니다. 예를 들어 주로 데이터 분석 및 시각화에 참여하는 사람과 예측 분석 모델 또는 기계 학습 알고리즘을 구축하는 사람을 분리하세요. 그러나 데이터 분석 과정에서 밝혀진 바와 같이 대부분의 공석에 대한 요구 사항은 매우 동일하며 전문 분야에 대한 명확한 구분이 없습니다.

일부 패턴은 흥미로워 보이지만. 예를 들어, 공석에 Python 또는 C++에 대한 지식이 필요한 경우 의사소통 및 관리 기술이 필요할 가능성은 낮으며 그 반대의 경우도 마찬가지입니다.

기술이 임금에 미치는 영향

O'Reilly 2015 데이터 과학 급여 설문조사는 채용 시장에 대한 다른 관점을 제공합니다. 이 연구는 600명의 데이터 과학자를 대상으로 한 설문 조사를 기반으로 하며, 수집된 데이터에는 급여 수준, 인구 통계 정보 및 데이터 과학자가 다양한 유형의 작업에 소비하는 시간이 포함됩니다. 이 연구의 주요 결과는 다음과 같습니다.

SQL, Excel, R, Python이 핵심 도구이며 이 목록은 3년 동안 변경되지 않았습니다.
Spark와 Scala의 인기가 높아지고 있습니다.
이전에 전문적인 상용 도구를 사용하던 사람들의 관심이 R을 사용하는 쪽으로 옮겨가고 있습니다.
하지만 이전에 R을 사용하던 사람들이 Python으로 전환하고 있는데, Python이 선두에 있습니다.
모든 산업 중에서 소프트웨어 개발 분야의 급여가 가장 높습니다.
클라우드 컴퓨팅에 대한 수요는 계속해서 증가하고 있습니다.

보고서 전체를 읽어 보시기 바랍니다. 무엇보다도 그는 데이터 과학자의 급여가 거주지, 교육 수준, 업무에 따라 달라지는 수학적 모델을 설명합니다. 예를 들어 회의에 더 많은 시간을 보내는 데이터 과학자는 더 많은 수익을 얻습니다. 그리고 하루에 4시간 이상 데이터를 연구하는 사람들은 수입이 더 적습니다.

데이터 과학을 공부하는 방법?

최근 몇 년 동안 이 주제에 관한 많은 온라인 강좌가 등장했습니다. 그리고 이것은 시작하는 아주 좋은 방법입니다!

데이터 분석에 더 관심이 있다면 Coursera의 데이터 과학 전문 과정인 데이터 과학 분야에서 경력을 시작하는 것이 좋은 선택입니다. 전문 분야가 무료는 아니지만, 수료증이 필요하지 않은 경우 이 모든 강좌를 무료로 수강할 수 있습니다. 강좌 이름을 보고 검색을 사용하여 강좌를 찾으세요.

머신러닝에 관심이 있는 분들은 Baidu Research의 수석 과학자이자 Stanford의 시간강사이자 Coursera의 창립자인 Andrew Ng의 과정인 Computer Learning을 추천합니다.

데이터 과학이란 무엇입니까?

데이터 과학은 새로운 활동 분야이므로 데이터 과학자에 대한 요구 사항이 아직 완전히 형성되지 않았습니다. 우리 시대의 역동성을 고려할 때, 데이터 과학은 결코 대학에서 가르치는 독립적인 직업이 되지 않고 일련의 관행과 기술로 남을 가능성이 있습니다. 그러나 이것이 바로 앞으로 몇 년 동안 큰 수요가 있을 관행과 기술입니다.

데이터 과학은 매우 트렌디한 주제입니다. 이 분야의 전문가인 데이터 사이언티스트는 이미 21세기 가장 섹시한 직업으로 꼽힌다. SkillFactory의 동료들은 이 주제를 독립적으로 이해하고 자신의 인상을 형성하는 데 도움이 되는 유용한 기사, 마스터 클래스 및 온라인 코스를 찾아 수집했습니다.

데이터 과학 폭발

데이터 과학이 왜 그렇게 관심을 받는가? 가장 큰 이유는 데이터에 담긴 숨겨진 효율성 때문이다. 모든 회사는 데이터를 수집합니다. 그리고 그들의 분석을 통해 우리는 더욱 발전된 제품을 만들고, 더 많은 대상 고객을 유치하고 유지하며, 비즈니스 프로세스를 개선하는 등의 작업을 수행할 수 있습니다. 데이터 과학이 일종의 "마법의 약"으로 인식되는 이유는 무엇입니까? 기본 원칙은 데이터 과학을 통해 인간의 편견이나 편견 없이 이용 가능한 데이터로부터 객관적인 결론을 도출할 수 있다는 것입니다. 기업의 수요는 또한 전문가에 대한 큰 수요를 창출합니다. 미국에서만 향후 3년간 약 19만명의 데이터 과학자가 부족할 것으로 예상된다. 지원자들의 관심도 그리 오래 걸리지 않았습니다.

데이터 과학자는 누구입니까?

데이터 과학자는 데이터를 조사하여 숨겨진 패턴을 찾고 사건이 미래에 어떻게 전개될 것인지 예측합니다. 데이터 과학자는 필요한 전문 분야(금융, 은행 등)와 관련된 수학적 모델, 프로그래밍 및 통계를 다루고 사기 거래 인식, 특정 질병에 해당하는 유전자 세트와 같은 특정 문제를 해결합니다. , 기업의 재정적 위험 등. 이러한 문제를 해결하려면 그러한 전문가는 여러 분야에 대한 지식과 기술을 보유해야 합니다. 가장 중요한 것은 수학, 프로그래밍, 비즈니스와 전략에 대한 이해입니다.

어떤 전문가가 데이터를 다루나요?

데이터 분석가- 내부 분석 시스템의 구조화된 형태로 데이터를 사용하여 비즈니스가 이 데이터를 요약하고 해석하는 데 도움을 줍니다. Excel, SQL 및 내부 분석 시스템과 함께 작동합니다. BI 개발자(비즈니스 인텔리전스 개발자)- 내부 데이터 웨어하우스 설계, 다양한 시스템의 데이터 연결, 대시보드 및 분석 보고서 생성 작업에 참여하고 있습니다. BI 시스템(Oracle, IBM 및 기타), SQL, ETL 도구 및 프로그래밍 언어를 사용합니다. 데이터 엔지니어- 데이터 인프라, 특히 빅데이터의 생성 및 지원에 참여하고 있습니다. 실시간으로 데이터 흐름을 수집, 저장 및 관리합니다. Linux 서버 클러스터, 클라우드 시스템, Hadoop, Spark 등과 같은 빅데이터 처리 시스템을 다루는 고급 IT 전문가입니다. 데이터 과학자- 구조화된 데이터와 구조화되지 않은 데이터에 대한 지적 분석을 다룹니다. 통계, 기계 학습 및 고급 예측 분석을 사용하여 주요 비즈니스 문제를 해결합니다. 데이터 분석가에 비해 데이터 사이언티스트는 받은 정보를 분석할 수 있을 뿐만 아니라 뛰어난 프로그래밍 능력, 새로운 알고리즘 개발 능력, 대량의 정보 처리 능력, 해당 분야에 대한 이해도가 높아야 한다. 그는 자신의 지식을 적용합니다.

원본: http://www.marketingdistillery.com/wp-content/uploads/2014/08/mds.png

데이터 과학 및 빅 데이터 소개

“빅데이터 전문가: 어디서 공부하고 어디서 일할지”

데이터 과학자와 데이터 엔지니어의 차이점은 무엇입니까
공부할 곳 : 강좌, 석사 프로그램 등
구직 방법에 대한 인생 꿀팁

인기 있는 노예 제도 반대 서비스의 빅 데이터 직업 소개
빅데이터와 관련된 모든 직업 개요
해당 직업에 입사하려면 어떤 능력이 필요한가요?

YouTube의 비공식 DataTalks 회의에서 선별된 비디오.

주최: 워게이밍
주제: 데이터와 머신러닝으로 수익을 창출하는 방법, 데이터 시각화
발표자: 데이터 분석가, 비즈니스 분석가

“데이터가 비즈니스를 어떻게 변화시킬 것인가” (TED)

데이터가 어떻게 비즈니스 전략을 완전히 변화시켰는지에 대한 간결하고 강력한 설명입니다.
발표자: Boston Consulting Group 부사장 Philip Evans
러시아어로 된 강의 내용이 있습니다

인공지능은 누가, 왜 만드는가?

App-in-the-Air 및 Empatika의 창립자 Bayram Annakov의 강의
인공지능이 어떻게 발전했는지에 대한 매우 재미있고 시각적인 설명

기계 학습

Bayram Annakov의 두 번째 강의
기계 학습 및 인공 지능 기술의 유형
다양한 사례와 실용적인 팁

기계 지능과 기계 학습

Yandex 서비스 마케팅 이사 Andrey Sebrant의 강의
많은 설득력 있는 사례를 통해 주제에 대한 흥미로운 소개입니다.

신경망: 단지에 대한 접근 가능한 정보

신경망과 딥러닝의 작동 방식에 대한 매우 자세하고 이해하기 쉬운 기사

좋은 코스 선택

온라인 강좌 “머신러닝과 데이터 분석”

러시아어 Coursera의 Yandex 및 MIPT 전문화
Python을 사용한 데이터 과학 및 기계 학습에 대한 완전한 소개
이론은 무료로 시청할 수 있으며, 과제와 수료증은 유료입니다.

Dataquest.io

Python을 중심으로 한 데이터 과학의 대화형 단계별 학습
실습을 통한 학습: 처음부터 실제 데이터와 코드로 작업하기
선택할 수 있는 3가지 방향: 데이터 과학자, 데이터 분석가 또는 데이터 엔지니어

데이터캠프

R에 중점을 둔 데이터 과학에 대한 대화형 온라인 과정
기계 학습, 데이터 분석 및 통계 분야의 66개 과정
이 과정은 실제적인 문제 해결을 기반으로 합니다.

데이터 분석

특별 교육이 필요하지 않은 러시아 과학 아카데미 생물정보학 연구소 및 상트페테르부르크 학술 대학교의 온라인 전문 재교육 프로그램
훈련 기간: 1년. 2017년 여름부터 - 속성 프로그램(6개월)
비용: 월 1999루블

통계의 기초

모든 사람을 위한 수학적 통계에 대한 자유롭고 명확한 소개

기계 학습

Coursera 창립자이자 최고의 인공지능 전문가 중 한 명인 Andrew Ng의 전설적인 코스
이 과정은 기계 학습 입문을 위한 업계 표준으로 간주될 수 있습니다.
친절한 사람이 작업을 Python으로 "번역"했습니다(원본에서는 모든 작업을 Octave에서 수행해야 함).

기계 학습 소개

Yandex 및 HSE 과정
기계 학습에 대한 매우 훌륭한 이론적 소개

Yandex School of Data Analysis 강의 비디오 녹화

전설적인 Yandex School of Data Analysis 수업 비디오 녹화
강좌: 기계 학습, 알고리즘 및 데이터 구조, 병렬 컴퓨팅, 이산 분석 및 확률 이론 등

“머신러닝에 관한 10가지 온라인 강좌”

"사회 기술 온실" 프로젝트로 편집된 원격 교육 프로그램 모음

SQL로 유지관리

러시아어로 된 몇 안 되는 무료 SQL 온라인 강좌 중 하나
분석가, 마케팅 담당자, 제품 관리자를 위해 실제로 구축된 대화형 과정
필요한 최소값, JOIN, GROUP BY 등을 포함한 가장 중요한 모든 연산자

참여하는 기업 대표자, 연구원, 과학자 및 신기술 제작자입니다.

대회, 과학 세미나, 전시회 포함

Strata+하둡 세계

오늘 산호세, 뉴욕, 런던 등 주요 기술 중심지에서 개최되는 최대 규모의 국제 컨퍼런스
모든 스타와 모든 새로운 아이템이 여기에 있습니다
컨퍼런스 외에도 워크숍, 교육 등이 진행되며, 온라인 참여도 가능합니다.

데이터 과학 주간

모스크바에서 데이터 분석을 위한 연례 축제 및 IT 포럼 개최
이 분야의 빅데이터 전문가 및 초보자를 위한
빅데이터, 인공지능, 딥러닝 등 다양한 비즈니스 사례

데이터 페스티벌?

데이터 과학에 관한 연례 회의는 모스크바에서 1년에 한 번 개최됩니다.
개발자, 엔지니어, 연구원을 위한
현미경으로 못을 망치면 안되는 이유를 명확하게 보여주는 사례

개방형 데이터 과학

RuNet에서 가장 크고 활발한 데이터 분석 커뮤니티 중 하나
Slack 그룹 채팅 기반
여기에서 조언을 얻고, 새로운 기술에 대해 배우고, 일자리를 찾고, 데이터 과학자를 찾을 수 있습니다.

모스크바 데이터 사이언스

모스크바에서 데이터 과학 모임을 전담하는 그룹
데이터 과학을 주제로 한 회의, 강의, 마스터 클래스, 연설, 토론 발표
데이터 분석, 시각화 및 마이닝에 참여하고 관심이 있는 사람들을 위한

데이터 과학자- 소위 "빅 데이터"라고 불리는 대량의 데이터 처리, 분석 및 저장 전문가. 이 직업은 물리학, 수학, 컴퓨터 과학에 관심이 있는 사람들에게 적합합니다(학교 과목에 대한 관심을 바탕으로 직업 선택 참조).

데이터 과학 - 다양한 학문 분야의 교차점에 있는 데이터 과학: 수학과 통계; 정보학 및 컴퓨터 과학; 비즈니스와 경제.

(S. Maltseva, V. Kornilov 국립 연구 대학 "고등 경제 학교")

이 직업은 새롭고 관련성이 높으며... 빅데이터라는 용어 자체는 2008년에 등장했다. 그리고 데이터 과학자라는 직업인 "데이터 과학자"는 2010년 초에 학계 및 학제간 학문으로 공식 등록되었습니다. "데이터 과학"이라는 용어가 처음 언급된 것은 1974년 Peter Naur의 책에서 언급되었지만 다른 문맥.

이러한 직업의 출현에 대한 필요성은 울트라 빅 데이터의 경우 데이터 배열이 너무 커서 표준 수학 통계 수단으로 처리할 수 없다는 사실에 의해 결정되었습니다. 매일 수천 페타바이트(10 15바이트 = 1024테라바이트)의 정보가 전 세계 기업의 서버를 통과합니다. 이러한 데이터의 양 외에도 데이터의 이질성과 빠른 업데이트 속도로 인해 문제가 복잡해집니다.

데이터 배열은 3가지 유형으로 나뉩니다.

구조화된(예: 거래 중인 금전 등록기의 데이터)

반구조적(이메일 메시지)

구조화되지 않았습니다(비디오 파일, 이미지, 사진).

대부분의 빅 데이터는 구조화되어 있지 않으므로 처리가 훨씬 더 어렵습니다.

개별적으로 통계학자, 시스템 분석가 또는 비즈니스 분석가는 이러한 양의 데이터로 문제를 해결할 수 없습니다. 이를 위해서는 수학과 통계, 경제 및 비즈니스, 컴퓨터 과학 및 컴퓨터 기술에 능숙한 학제간 교육을 받은 사람이 필요합니다.

데이터 과학자의 주요 임무는 실시간 정보 흐름을 사용하여 다양한 소스에서 필요한 정보를 추출하는 능력입니다. 데이터 세트에서 숨겨진 패턴을 식별하고 통계적으로 분석하여 현명한 비즈니스 결정을 내립니다. 그러한 전문가의 작업장은 컴퓨터 1대나 서버 1대가 아니라 서버 클러스터입니다.

직업의 특징

데이터 과학자는 데이터 작업을 할 때 다양한 방법을 사용합니다.

통계적 방법;
데이터베이스 모델링;
채굴 방법;
데이터 작업을 위한 인공 지능 애플리케이션;
데이터베이스를 설계하고 개발하는 방법.

데이터 과학자의 직무는 활동 분야에 따라 다르지만 일반적인 기능 목록은 다음과 같습니다.

후속 운영 처리를 위해 다양한 소스로부터 데이터 수집
소비자 행동 분석;
고객 기반 모델링 및 제품 개인화;
기지 내부 프로세스의 효율성 분석
다양한 위험 분석;
의심스러운 거래를 연구하여 사기 가능성을 식별합니다.
예측 및 데이터 프리젠테이션을 포함하는 정기 보고서 작성.

실제 과학자와 마찬가지로 데이터 과학자는 데이터를 수집하고 분석할 뿐만 아니라 다양한 맥락과 각도에서 데이터를 연구하여 어떤 가정에도 의문을 제기합니다. 데이터 사이언티스트의 가장 중요한 자질은 수집된 정보 시스템의 논리적 연결을 확인하고 정량적 분석을 기반으로 효과적인 비즈니스 솔루션을 개발하는 능력입니다. 오늘날 경쟁이 치열하고 빠르게 변화하는 세상, 끊임없이 증가하는 정보 흐름 속에서 데이터 과학자는 올바른 비즈니스 결정을 내리는 측면에서 경영에 없어서는 안 될 존재입니다.

직업의 장점과 단점

찬성

이 직업은 수요가 매우 많을 뿐만 아니라, 이 수준의 전문가가 급격히 부족합니다. McKinsey Global Institute에 따르면 2018년까지 미국에서만 19만 명 이상의 데이터 과학자가 필요할 것으로 예상됩니다. 이것이 바로 데이터 과학자 교육을 위한 가장 명망 높은 대학의 교수진이 매우 빠르고 광범위하게 자금을 지원받고 개발되는 이유입니다. 러시아에서도 데이터 과학자에 대한 수요가 증가하고 있습니다.
급여가 높은 직업.
IT 기술의 발전을 지속적으로 개발하고 보조하며 데이터 처리, 분석 및 저장을 위한 새로운 방법을 창출해야 할 필요성.

마이너스

모든 사람이 이 직업을 마스터할 수 있는 것은 아닙니다. 특별한 사고방식이 필요합니다.
작업 과정에서 잘 알려진 방법과 60% 이상의 아이디어가 작동하지 않을 수 있습니다. 많은 솔루션이 실패할 수 있으므로 만족스러운 결과를 얻으려면 많은 인내심이 필요합니다. 과학자는 “안돼!”라고 말할 권리가 없습니다. 문제. 그는 문제를 해결하는 데 도움이 되는 방법을 찾아야 합니다.

일하는 장소

데이터 과학자는 다음 분야에서 주요 위치를 차지합니다.

기술 산업(자동차 내비게이션 시스템, 의약품 생산 등);
IT 영역(검색 엔진 최적화, 스팸 필터, 뉴스 체계화, 자동 텍스트 번역 등)
의학(질병의 자동 진단);
재무 구조(대출 발행에 대한 결정) 등
텔레비전 회사;
대규모 소매 체인;
선거 캠페인.

중요한 자질

분석적인 마음;
힘든 일;
고집;
꼼꼼함, 정확성, 세심함;
실패한 중간 결과에도 불구하고 연구를 완료할 수 있는 능력;
의사 소통 능력;
복잡한 것을 간단한 단어로 설명하는 능력;
비즈니스 직관.

전문 지식 및 기술:

수학, 수학적 분석, 수학적 통계, 확률 이론에 대한 지식;
영어 지식;
대규모 데이터 세트 작업을 위한 구성 요소가 있는 주요 프로그래밍 언어에 대한 지식: Java(Hadoop), C++(BigARTM, Vowpel Wabbit, XGBoost), Python(Matplotlib, Numpy, Scikit, Skipy)
SPSS, R, MATLAB, SAS Data Miner, Tableau 등 통계 도구에 대한 지식;
데이터 과학자가 일하는 산업에 대한 철저한 지식 제약 산업이라면 기본 생산 공정과 약품 성분에 대한 지식이 필요합니다.
데이터 과학자의 주요 기본 기술은 대량의 데이터를 위한 클러스터 스토리지 시스템을 구성하고 관리하는 것입니다.
사업 개발법에 대한 지식;
경제지식.

대학

모스크바 주립대학교의 이름을 따서 명명됨 Lomonosov, 계산 수학 및 사이버네틱스 학부, Mail.Ru 그룹 "Technosphere"의 특수 교육 프로그램, 대용량 데이터의 지능적 분석 방법, C++ 프로그래밍, 멀티스레드 프로그래밍 및 정보 검색 시스템 구축을 위한 기술 교육.
MIPT, 데이터 분석부.
National Research University Higher School of Economics의 비즈니스 정보학 학부에서는 시스템 분석가, 복잡한 정보 시스템의 설계자 및 구현자, 기업 정보 시스템 관리 조직자를 교육합니다.
데이터 분석 학교 Yandex.
이노폴리스 대학교, 던디 대학교, 서던 캘리포니아 대학교, 오클랜드 대학교, 워싱턴 대학교: 빅 데이터 석사 프로그램.
Imperial College London Business School, 데이터 과학 및 관리 석사.

다른 직업과 마찬가지로 여기에서도 자기 교육이 중요하며, 이는 의심할 여지 없이 다음과 같은 자원으로부터 이익을 얻을 것입니다.

세계 주요 대학의 온라인 강좌 COURSERA;
머신러닝 채널 MASHIN LEARNING;
edX 과정 선택;
유다시티 코스;
데이터 과학 분야의 진정한 전문가가 될 수 있는 Dataquest 과정
6단계 데이터캠프 과정;
O'Reilly 교육 비디오;
초보자와 고급 데이터 오리가미를 위한 스크린캐스트;
분기별 전문가 컨퍼런스 Moscow Data Scientists Meetup;
데이터 분석 대회 Kaggle.сom

샐러리

2019년 7월 4일 기준 급여

러시아 50000—200000 ₽

모스크바 60000—300000 ₽

데이터 과학자 직업은 가장 높은 급여를 받는 직업 중 하나입니다. 웹사이트 hh.ru의 정보 - 월 급여는 $8.5,000에서 $9,000입니다. 미국에서 그러한 전문가의 급여는 연간 $110,000 - $140,000입니다.

Superjob 연구소의 조사에 따르면 데이터 과학자 전문가의 급여는 업무 경험, 책임 범위 및 지역에 따라 다릅니다. 초보 전문가는 70,000 루블을 믿을 수 있습니다. 모스크바에서는 57,000 루블입니다. 상트페테르부르크에서. 최대 3년의 근무 경험으로 급여는 11만 루블로 인상됩니다. 모스크바에서는 9 만 루블입니다. 상트페테르부르크에서. 과학 출판물을 보유한 숙련된 전문가의 급여는 220,000 루블에 달할 수 있습니다. 모스크바에서는 180,000 루블입니다. 피터스버그에서.

경력 단계 및 전망

데이터 사이언티스트라는 직업 자체는 높은 성취를 의미하며, 이를 위해서는 여러 직업에 대한 진지한 이론적 지식과 실무 경험이 필요합니다. 어떤 조직에서든 그러한 전문가는 핵심 인물입니다. 이 높이에 도달하려면 직업의 기초를 형성하는 모든 영역에서 열심히, 의도적으로, 지속적으로 개선해야 합니다.

데이터 과학자에 대한 농담이 있습니다. 그는 어떤 통계학자보다 더 잘 프로그래밍하고 어떤 프로그래머보다 통계를 더 잘 아는 제너럴리스트입니다. 그리고 그는 회사의 수장보다 비즈니스 프로세스를 더 잘 이해합니다.

무슨 일이 일어났나요?"큰 데이터"실수로요?

이틀마다 데이터의 양은 그리스도의 탄생부터 2003년까지 인류가 생성한 정보의 양만큼 증가합니다.
현재 존재하는 모든 데이터의 90%는 지난 2년 동안의 데이터입니다.
2020년에는 정보의 양이 3.2제타바이트에서 40제타바이트로 증가할 것입니다. 1제타바이트 = 10 21바이트.
1분 만에 페이스북에는 사진 20만 장, 편지 2억 500만 개, 좋아요 180만 개가 올라왔다.
Google은 1초 안에 4만 개의 검색어를 처리합니다.
1.2년마다 모든 산업의 데이터 총량은 두 배로 늘어납니다.
2020년까지 Hadoop 서비스 시장은 500억 달러 규모로 성장할 것입니다.
2015년 미국에서는 빅 데이터 프로젝트에 참여하는 전문가를 위해 190만 개의 일자리가 창출되었습니다.
빅데이터 기술은 소매 체인의 수익을 연간 60% 증가시킵니다.
예측에 따르면 빅데이터 시장 규모는 2014년 285억 달러에서 2020년 687억 달러로 증가할 것으로 예상된다.

이러한 긍정적인 성장 지표에도 불구하고 예측에는 오류도 있습니다. 예를 들어, 2016년 가장 악명 높은 실수 중 하나는 미국 대통령 선거에 관한 예측이 실현되지 않았다는 것입니다. 미국의 유명한 데이터 과학자인 Nate Silver, Kirk Bourne 및 Bill Schmarzo가 Hillary Clinton을 지지하는 예측을 제시했습니다. 이전 선거운동에서도 그들은 정확한 예측을 했고, 한 번도 실수한 적이 없었다.

예를 들어 올해 네이트 실버(Nate Silver)는 41개 주에 대해 정확한 예측을 내놓았지만 9개 주에 대해서는 틀렸고 이것이 트럼프의 승리로 이어졌다. 2016년 오류의 원인을 분석한 후 그들은 다음과 같은 결론을 내렸습니다.

수학적 모델은 생성 당시의 그림을 객관적으로 반영합니다. 그러나 반감기가 있으며, 반감기가 끝나면 상황이 극적으로 변할 수 있습니다. 모델의 예측 품질은 시간이 지남에 따라 저하됩니다. 예를 들어, 이 경우에는 불법 행위, 소득 불평등 및 기타 사회적 격변이 중요한 역할을 했습니다. 따라서 모델은 새로운 데이터를 고려하여 정기적으로 조정되어야 합니다. 이것은 완료되지 않았습니다.
예측에 큰 영향을 미칠 수 있는 추가 데이터를 찾고 고려할 필요가 있습니다. 따라서 클린턴과 트럼프 선거 운동의 집회 영상을 볼 때 집회에 참여한 전체 참가자 수는 고려되지 않았습니다. 수백 명 정도였습니다. 각 집회에는 트럼프 지지자가 400~600명, 클린턴 지지자는 150~200명에 불과해 결과에 영향을 미친 것으로 드러났다.
선거 캠페인의 수학적 모델은 연령, 인종, 성별, 소득, 사회 지위 등 인구통계학적 데이터를 기반으로 합니다. 각 그룹의 가중치는 지난 선거에서 어떻게 투표했는지에 따라 결정됩니다. 이 예측은 3~4%의 오차가 있으며 후보 간 격차가 클 때 안정적으로 작동합니다. 하지만 이번 경우에는 클린턴과 트럼프의 격차가 작았고, 이 오류가 선거 결과에 적지 않은 영향을 미쳤다.
사람들의 비합리적인 행동은 고려되지 않았습니다. 실시된 여론조사는 사람들이 여론조사에 응답한 대로 투표할 것이라는 착각을 불러일으킵니다. 하지만 때로는 그 반대의 행동을 하기도 합니다. 이 경우 투표에 대한 부정직한 태도를 식별하기 위해 얼굴 및 음성 분석을 추가로 수행해야 합니다.

대체적으로 후보 간 격차가 작아 예측이 틀린 것으로 드러났다. 격차가 큰 경우에는 이러한 오류가 그다지 결정적이지 않습니다.

비디오: 새로운 전문화 "빅 데이터" - Mikhail Levin

인포그래픽의 데이터 과학자. 이 직업은 신선하고 급여가 높으며 잘 알려져 있습니다. 그러면 그러한 전문가는 어떤 기술을 갖추어야 합니까? 고려해 봅시다.

스킬에 대해 이야기해보자

데이터 과학자는 분석 및 정보 처리를 다루는 종합 전문가입니다. 데이터 과학자는 통계와 프로그래밍을 이해합니다. 유용하지 않나요? 각 개별 데이터 과학자의 역량 범위는 단계적이며 코딩이나 순수 통계 쪽으로 이동할 수 있습니다.

샌프란시스코에 거주하는 데이터 분석가입니다. 일부 회사에서는 실제로 데이터 과학자를 분석가와 비교합니다. 이러한 전문가의 작업은 데이터베이스에서 정보를 추출하고 Excel과 상호 작용하며 기본 시각화를 수행하는 것입니다.
엄청난 트래픽과 많은 양의 데이터로 인해 일부 회사는 긴급하게 적절한 전문가를 찾아야 합니다. 그들은 종종 동일한 직함을 염두에 두고 엔지니어, 분석가, 프로그래머 또는 과학자를 찾는 광고를 게시합니다.
데이터를 상품으로 삼는 회사가 있습니다. 이 경우 집중적인 분석과 머신러닝이 필요합니다.
다른 회사의 경우 데이터는 제품이 아니지만 관리나 워크플로우 자체가 이를 기반으로 구축됩니다. 회사 데이터를 구조화하기 위해 데이터 과학자도 찾고 있습니다.

헤드라인에는 '21세기 가장 섹시한 직업'이라는 제목이 가득하다. 이것이 사실인지는 알 수 없지만 데이터 과학자가 다음을 이해해야 한다는 것은 알고 있습니다.

수학과 통계.
주제 영역 및 소프트웨어.
프로그래밍 및 데이터베이스.
데이터 교환 및 시각화.

각 항목을 더 자세히 살펴보겠습니다.

데이터 과학자 및 수리 통계

통계 데이터를 활용한 수학적 방법의 개발은 작업의 기본 부분입니다. 수학적 통계는 확률 이론을 기반으로 하므로 정확한 결론을 도출하고 그 신뢰성을 평가할 수 있습니다.

1. AI의 하위 섹션인 머신러닝. 훈련 프로그램과 패턴이 있는 데이터의 예가 있습니다. 패턴 모델을 구성하고 이를 구현하며, 프로그램을 이용하여 새로운 데이터에서 패턴을 찾아볼 수 있는 기회를 얻습니다.

2. 데이터 과학자는 특정 확률 밀도의 무작위 신호로 모델을 테스트하기 위해 통계 모델링을 알아야 합니다. 목표는 얻은 결과를 통계적으로 결정하는 것입니다.

3. 실험적 디자인. 실험 중에는 차이점을 확인하기 위해 하나 이상의 변수가 변경됩니다. 이 경우에는 중재그룹과 통제그룹이 있어 테스트가 진행된다.

4. 베이지안 추론은 가설의 확률을 조정하는 데 도움이 됩니다.

5. 지도 교육:

의사결정 트리;
랜덤 포레스트;
로지스틱 회귀.

6. 비지도 학습:

클러스터링;
차원 감소.

7. 최적화: 경사하강법 및 변형.

도메인 및 소프트웨어 기술

공부하고 실천하세요! 이것이 이 전문 분야의 기초입니다. 데이터 과학자는 과학이 영향을 미치는 주제 영역을 잘 이해하고 소프트웨어에도 익숙해야 합니다.

필요한 기술 목록은 이상하지만 그다지 유용하지는 않습니다.

프로그래밍과 데이터베이스

Python, XaaS, 관계 대수 및 SQL에 대한 기초부터 지식까지. 일반적으로 데이터를 질적으로 처리하려는 시도가 없으면 모든 것이 쓸모가 없습니다.

1. 삶을 프로그래밍 및 프로세스 자동화와 연결하는 모든 사람을 위한 출발점인 컴퓨터 과학의 기초.

. 데이터 과학이란 무엇이고 어떻게 작동하나요? 데이터베이스 몰입

용어를 정의해보자

첫 번째 부분: 데이터

데이터를 수집해보자

두 번째 부분: 과학

데이터를 분석해보자

결과를 적용해보자

예외를 찾아보자

이야기를 계속하자

데이터 과학자는 누구입니까?

데이터 과학자 하드 스킬

데이터 과학 도구 및 기술

데이터 과학자 소프트 스킬

데이터 과학자 도메인 지식

데이터 과학자 전문 분야

기술이 임금에 미치는 영향

데이터 과학을 공부하는 방법?

데이터 과학이란 무엇입니까?

데이터 과학 폭발

데이터 과학자는 누구입니까?

어떤 전문가가 데이터를 다루나요?

데이터 과학 및 빅 데이터 소개

좋은 코스 선택

직업의 특징

직업의 장점과 단점

일하는 장소

중요한 자질

대학

샐러리

2019년 7월 4일 기준 급여

경력 단계 및 전망

비디오: 새로운 전문화 "빅 데이터" - Mikhail Levin

스킬에 대해 이야기해보자

데이터 과학자 및 수리 통계

도메인 및 소프트웨어 기술

프로그래밍과 데이터베이스

오타 신고

편집자에게 전송될 텍스트:

귀하의 의견(선택사항):