. Qu'est-ce que la science des données et comment ça marche ? Immersion dans les bases de données

Science des données, apprentissage automatique : vous avez probablement entendu ces grands mots, mais leur signification était-elle claire pour vous ? Pour certains, ce sont de beaux appâts. Certaines personnes pensent que la science des données est une magie qui permettra à une machine de faire gratuitement tout ce qui lui est demandé. D’autres pensent même que c’est un moyen facile de gagner énormément d’argent. Nikita Nikitinsky, responsable R&D chez IRELA et Polina Kazakova, Data Scientist, expliquent de quoi il s'agit dans un langage simple et compréhensible.

Je travaille dans le traitement automatique du langage naturel, une application de la science des données, et je vois souvent des gens utiliser ces termes de manière incorrecte, je voulais donc clarifier un peu. Cet article s'adresse à ceux qui n'ont aucune idée de ce qu'est la science des données et qui souhaitent comprendre les concepts.

Définissons la terminologie

Commençons par le fait que personne ne sait vraiment exactement ce qu'est la science des données, et qu'il n'y a pas de définition stricte : il s'agit d'un concept très large et interdisciplinaire. Je vais donc partager ici ma vision, qui ne coïncide pas nécessairement avec les opinions des autres.

Le terme science des données est traduit en russe par « science des données » et, dans un environnement professionnel, il est souvent simplement translittéré par « science des données ». Formellement, il s'agit d'un ensemble de disciplines et de méthodes interdépendantes issues du domaine de l'informatique et des mathématiques. Cela semble trop abstrait, non ? Voyons cela.

Première partie : les données

Le premier élément de la science des données, sans lequel tout le processus ultérieur est impossible, est en fait les données elles-mêmes : comment les collecter, les stocker et les traiter, ainsi que comment extraire des informations utiles de l'ensemble général des données. Les spécialistes consacrent jusqu'à 80 % de leur temps de travail au nettoyage des données et à leur mise sous la forme souhaitée.

Une partie importante de ce point concerne la manière de traiter les données pour lesquelles les méthodes de stockage et de traitement standard ne conviennent pas en raison de leur énorme volume et/ou diversité - ce que l'on appelle le big data. D’ailleurs, ne vous y trompez pas : big data et data science ne sont pas synonymes : le premier est plutôt une sous-section de la seconde. Dans le même temps, dans la pratique, les analystes de données ne sont pas toujours obligés de travailler avec du Big Data : les petites données peuvent également être utiles.

Collectons des données

Imaginez que nous cherchions à savoir s'il existe une relation entre la quantité de café que vos collègues de travail boivent pendant la journée et la quantité de sommeil qu'ils ont dormi la nuit précédente. Notons les informations dont nous disposons : disons que votre collègue Grégory a dormi 4 heures aujourd'hui, il a donc dû boire 3 tasses de café ; Ellina a dormi 9 heures et n'a pas bu de café du tout ; et Polina a dormi 10 heures, mais a bu 2,5 tasses de café - et ainsi de suite.

Affichons les données obtenues sur un graphique (la visualisation est également un élément important de tout projet de science des données). Traçons le temps en heures sur l'axe X et le café en millilitres sur l'axe Y. Nous obtiendrons quelque chose comme ceci :

Deuxième partie : la science

Nous avons les données, que pouvons-nous en faire maintenant ? C'est vrai, analysez, extrayez des modèles utiles et utilisez-les d'une manière ou d'une autre. Ici, des disciplines telles que les statistiques, l'apprentissage automatique et l'optimisation nous aideront.

Ils constituent le composant suivant et peut-être le plus important de la science des données : l’analyse des données. L'apprentissage automatique vous permet de trouver des modèles dans les données existantes afin que vous puissiez ensuite prédire des informations pertinentes pour de nouveaux objets.

Analysons les données

Revenons à notre exemple. À l’œil nu, il semble que les deux paramètres soient en quelque sorte liés : moins une personne a dormi, plus elle boira de café le lendemain. En même temps, nous avons également un exemple qui se démarque de cette tendance : Polina, qui adore dormir et boire du café. Néanmoins, vous pouvez essayer de approximer le motif obtenu avec une ligne droite générale afin qu'il se rapproche le plus possible de tous les points :

La ligne verte est notre modèle d'apprentissage automatique, elle généralise les données et peut être décrite mathématiquement. Désormais, avec l'aide de celui-ci, nous pouvons déterminer les valeurs de nouveaux objets : lorsque nous voulons prédire combien de café Nikita qui est entré dans le bureau boira aujourd'hui, nous lui demanderons combien de temps il a dormi. Après avoir reçu la valeur de 7,5 heures comme réponse, nous la substituons dans le modèle - elle correspond à la quantité de café consommée dans un volume légèrement inférieur à 300 ml. Le point rouge représente notre prédiction.

C’est à peu près ainsi que fonctionne le machine learning, dont l’idée est très simple : trouver un modèle et l’étendre à de nouvelles données. En fait, dans l'apprentissage automatique, il existe une autre classe de tâches dans lesquelles vous n'avez pas besoin de prédire certaines valeurs, comme dans notre exemple, mais de diviser les données en certains groupes. Mais nous en reparlerons plus en détail une autre fois.

Appliquons le résultat

Cependant, à mon avis, la science des données ne se limite pas à l’identification de modèles dans les données. Tout projet de science des données est une recherche appliquée, où il est important de ne pas oublier des éléments tels que la formulation d'une hypothèse, la planification d'une expérience et, bien sûr, l'évaluation du résultat et de son adéquation à la résolution d'un cas spécifique.

Ce dernier est très important dans les problèmes commerciaux réels, lorsque vous devez comprendre si la solution trouvée par la science des données profitera ou non à votre projet. Quelle serait l’utilité du modèle construit dans notre exemple ? Peut-être qu'avec son aide, nous pourrions optimiser la livraison du café au bureau. Dans le même temps, nous devons évaluer les risques et déterminer si notre modèle y répondrait mieux que la solution existante - le chef de bureau Mikhail, responsable de l'achat du produit.

Trouvons des exceptions

Bien entendu, notre exemple est aussi simplifié que possible. En réalité, il serait possible de construire un modèle plus complexe qui prendrait en compte d'autres facteurs, par exemple si une personne aime en principe le café. Le modèle pourrait également trouver des relations plus complexes que celles représentées par une ligne droite.

Nous pourrions d’abord rechercher des valeurs aberrantes dans nos données – des objets qui, comme Polina, sont très différents de la plupart des autres. Le fait est que dans le travail réel, de tels exemples peuvent avoir un impact négatif sur le processus de construction d'un modèle et sur sa qualité, et il est logique de les traiter d'une autre manière. Et parfois, ces objets présentent un intérêt primordial, par exemple pour détecter des transactions bancaires anormales afin de prévenir la fraude.

De plus, Polina nous montre une autre idée importante : l'imperfection des algorithmes d'apprentissage automatique. Notre modèle ne prédit que 100 ml de café pour une personne qui a dormi 10 heures, alors qu'en fait Polina en a bu jusqu'à 500. Les clients de solutions de science des données ne le croiront jamais, mais il est toujours impossible d'apprendre à une machine à tout prédire parfaitement. dans le monde : Même si nous parvenons à identifier des modèles dans les données, il y aura toujours des éléments imprévisibles.

Continuons l'histoire

Ainsi, la science des données est un ensemble de méthodes permettant de traiter et d'analyser des données et de les appliquer à des problèmes pratiques. Dans le même temps, vous devez comprendre que chaque spécialiste a son propre point de vue sur ce domaine et que les avis peuvent différer.

La science des données repose sur des idées assez simples, mais dans la pratique, de nombreuses subtilités non évidentes sont souvent découvertes. Comment la science des données nous entoure dans la vie quotidienne, quelles méthodes d'analyse des données existent, qui est composé de l'équipe de science des données et quelles difficultés peuvent survenir au cours du processus de recherche - nous en parlerons dans les articles suivants.

Nous poursuivons une série d'études analytiques sur la demande de compétences sur le marché du travail. Cette fois, grâce à Pavel Surmenok Sharky, nous nous intéresserons à un nouveau métier : Data Scientist.

Ces dernières années, le terme Data Science a commencé à gagner en popularité. Ils écrivent beaucoup à ce sujet et en parlent lors de conférences. Certaines entreprises embauchent même des personnes pour des postes portant le titre sonore Data Scientist. Qu’est-ce que la science des données ? Et qui sont les Data Scientists ?

Qui sont les Data Scientists ?

Si vous posez cette question à un résident de San Francisco, vous obtiendrez peut-être la réponse qu'un Data Scientist est un statisticien vivant à San Francisco. C’est drôle, quoique pas très rassurant pour ceux qui n’habitent pas à San Francisco, non ? D'accord, alors une autre définition : un Data Scientist est quelqu'un qui comprend les statistiques mieux que n'importe quel programmeur et comprend mieux la programmation que n'importe quel statisticien. Mais cette option est déjà proche de l'essentiel. Data Scientist, un data scientist, est une sorte d'hybride d'un statisticien et d'un programmeur. De plus, les statisticiens et les programmeurs peuvent être très différents, il est donc préférable de considérer cette profession comme un large éventail allant des purs statisticiens aux purs programmeurs.

Robert Chang, Data Scientist de Twitter, divise les représentants de sa profession en 2 groupes : Type A Data Scientist vs. Scientifique des données de type B.

Tapez A, où A est Analyse. Ces personnes ont principalement pour mission d’extraire du sens à partir de données statiques. Ils ressemblent beaucoup aux statisticiens, ils peuvent même être statisticiens et simplement changer leur titre de poste en Data Scientist, et, comme nous le savons, le simple fait de changer le titre de poste peut donner une augmentation significative de salaire, ainsi que de l'honneur et du respect. Mais en plus des statistiques, ils connaissent également des aspects pratiques : comment nettoyer les données, comment travailler avec de grands ensembles de données, comment visualiser les données et décrire les résultats de leur travail.

Type B, où B – Bâtiment. Ils ont également des connaissances en statistiques, mais sont également des programmeurs solides et expérimentés. Ils sont davantage intéressés par l’application des données à des systèmes réels. Des modèles sont souvent construits qui fonctionnent en interaction avec les utilisateurs, par exemple des systèmes de recommandation de produits, de films et de publicités.

La Data Science recoupe également légèrement des domaines d’activité tels que le Machine Learning et l’Intelligence Artificielle, les représentants de ce domaine sont proches de la Data Science de Type B.

Que doivent étudier ceux qui souhaitent devenir Data Scientist, quelles sont les compétences nécessaires ? Jetons un coup d'œil aux exigences des employeurs américains pour les candidats à des postes dans les domaines de la science des données et de l'apprentissage automatique.

Compétences techniques du data scientist

Commençons par une analyse des exigences pour posséder des compétences professionnelles (hard skills).

Comme le montre le classement, les connaissances fondamentales en mathématiques, en statistiques, en informatique et en apprentissage automatique sont les plus populaires. En plus des connaissances théoriques, un Data Scientist doit être capable d’exploiter, nettoyer, modéliser et visualiser des données. Une expérience en développement de logiciels et en gestion de la qualité est également importante.

Outils et technologies de science des données

Les principaux outils d’un Data Scientist sont les langages de programmation Python et R.

R est un langage de programmation spécialisé pour le calcul statistique, c'est pourquoi il est si apprécié des statisticiens et des data scientists. Il vous permet de charger rapidement un ensemble de données, de calculer des caractéristiques statistiques de base, de visualiser des données et de créer des modèles de données.

Python, bien qu'il s'agisse d'un langage de programmation à usage général, dispose d'un grand nombre de bibliothèques et de frameworks de qualité pour la science des données et l'apprentissage automatique.

Ce qui est remarquable, c’est que 39 % des postes vacants nécessitent une connaissance simultanée de R et de Python. Il est donc préférable d’apprendre les deux langages en même temps plutôt que d’essayer d’en choisir un.

Pour travailler avec le Big Data, les employeurs préfèrent utiliser Hadoop et Spark. Les bases de données populaires incluent MySQL et MongoDB.

Compétences générales des data scientists

Les compétences générales (soft skills) sont moins demandées que les compétences professionnelles, car elles sont mentionnées deux fois moins souvent dans les postes vacants. Les salaires moyens pour les postes vacants qui nécessitent des compétences générales sont également nettement inférieurs, environ 20 %, à ceux qui nécessitent des compétences techniques et des connaissances technologiques.

Cependant, parmi les soft skills rencontrées, les plus importantes sont les suivantes : la capacité à communiquer, visualiser des données, faire des présentations, écrire et parler efficacement. Les compétences en travail d’équipe, en gestion et en résolution de problèmes sont également utiles.

Connaissance du domaine Data Scientist

Certains emplois nécessitent des connaissances dans des domaines allant de la physique et de la biologie à l'immobilier et à l'hôtellerie. Ici, les leaders sont l'économie, le marketing et la médecine.

Spécialisations des scientifiques des données

Avant de démarrer l’étude, nous avions prévu d’identifier les surspécialisations du métier de Data Scientist. Par exemple, séparez ceux qui s'engagent principalement dans l'analyse et la visualisation de données de ceux qui créent des modèles d'analyse prédictive ou des algorithmes d'apprentissage automatique. Mais, comme il s'est avéré lors de l'analyse des données, les exigences pour la plupart des postes vacants sont assez homogènes et il n'y a pas de division claire en spécialités.

Même si certains modèles semblent intéressants. Par exemple, si un poste vacant nécessite des connaissances en Python ou en C++, il est peu probable qu'il nécessite des compétences en communication et en gestion, et vice versa.

L'impact de la technologie sur les salaires

L'enquête sur les salaires O'Reilly 2015 Data Science nous donne une perspective différente sur le marché du travail. Cette étude est basée sur une enquête menée auprès de 600 Data Scientists, et les données collectées incluent les niveaux de salaire, les informations démographiques et le temps que les data scientists consacrent à différents types de tâches. Les principales conclusions de cette étude sont les suivantes :
  • SQL, Excel, R, Python sont les outils clés, et cette liste n'a pas changé depuis 3 ans.
  • Spark et Scala gagnent en popularité.
  • Ceux qui utilisaient auparavant des outils commerciaux spécialisés se tournent désormais vers l'utilisation de R.
  • Mais ceux qui utilisaient auparavant R passent à Python, Python étant en tête.
  • Parmi tous les secteurs, les salaires dans le développement de logiciels sont les plus élevés.
  • Le Cloud Computing continue d'être demandé.
Nous vous recommandons de lire le rapport dans son intégralité. Entre autres choses, il décrit un modèle mathématique de la dépendance du salaire d’un Data Scientist selon son lieu de résidence, sa formation et les tâches sur lesquelles il travaille. Par exemple, les Data Scientists qui passent plus de temps en réunion gagnent plus. Et ceux qui passent plus de 4 heures par jour à étudier les données gagnent moins.

Comment étudier la science des données ?

Ces dernières années, de nombreux cours en ligne sur ce sujet sont apparus. Et c'est une très bonne façon de commencer !

Si vous vous penchez davantage vers l'analyse des données, les cours de spécialisation en science des données sur Coursera : lancez votre carrière en science des données sont une bonne option. La spécialisation n'est pas gratuite, mais si vous n'avez pas besoin de certificat, vous pouvez suivre tous ces cours gratuitement : il suffit de regarder le nom du cours et d'utiliser la recherche pour trouver le cours.

Pour ceux qui s'intéressent à l'apprentissage automatique, nous recommandons le cours d'Andrew Ng, scientifique en chef chez Baidu Research, maître de conférences à temps partiel à Stanford et fondateur de Coursera : Computer Learning.

Qu’est-ce que la science des données ?

La science des données est un nouveau domaine d'activité, les exigences pour les Data Scientists ne sont donc pas encore complètement définies. Compte tenu du dynamisme de notre époque, il est possible que la Data Science ne devienne jamais un métier indépendant qui sera enseigné dans les universités, mais restera un ensemble de pratiques et de compétences. Mais ce sont précisément ces pratiques et compétences qui seront très demandées dans les années à venir.

La Data Science est un sujet très tendance. Spécialiste du domaine, le Data Scientist a déjà été qualifié de métier « le plus sexy » du 21e siècle. Les collègues de SkillFactory ont trouvé et rassemblé des articles utiles, des master classes et des cours en ligne qui vous aideront à comprendre ce sujet de manière indépendante et à vous faire votre propre impression.

Explosion de la science des données

Pourquoi la science des données présente-t-elle un tel intérêt ? La raison principale est l’efficacité cachée contenue dans les données. Chaque entreprise collecte des données. Et leur analyse nous permet de créer des produits plus avancés, d’attirer et de fidéliser davantage de clients cibles, d’améliorer les processus commerciaux et bien plus encore. Pourquoi la science des données est-elle perçue comme une sorte de « pilule magique » ? Le principe de base est que la science des données permet de tirer des conclusions objectives à partir des données disponibles, exemptes de préjugés ou de préjugés humains. La demande des entreprises crée également une forte demande de spécialistes. Rien qu’aux États-Unis, on s’attend à une pénurie d’environ 190 000 data scientists au cours des trois prochaines années. L’intérêt des candidats ne s’est d’ailleurs pas fait attendre :

Qui est un data scientist ?

Un data scientist examine les données pour trouver des modèles cachés et faire des prédictions sur la façon dont les événements se dérouleront dans le futur. Data Scientist s'occupe de modèles mathématiques, de programmation et de statistiques en relation avec le domaine professionnel requis (finance, banque, etc.), ainsi que de résoudre des problèmes spécifiques, tels que : la reconnaissance de transactions frauduleuses, un ensemble de gènes correspondant à une certaine maladie , les risques financiers pour les entreprises, etc. Pour résoudre ces problèmes, un tel spécialiste doit posséder des connaissances et des compétences dans plusieurs domaines. Les plus importants sont les mathématiques, la programmation et la compréhension des affaires et de la stratégie.

Quels spécialistes travaillent avec des données ?

Analyste de données- travaille avec des données sous une forme structurée provenant de systèmes d'analyse internes, aide l'entreprise à résumer et à interpréter ces données. Fonctionne avec Excel, SQL et les systèmes d'analyse internes. Développeur BI (Développeur Business Intelligence)- est engagé dans la conception d'entrepôts de données internes, reliant les données de divers systèmes, ainsi que dans la création de tableaux de bord et de rapports analytiques. Utilise les systèmes BI (Oracle, IBM et autres), SQL, les outils ETL et les langages de programmation. Ingénieur de données- est engagé dans la création et le support d'infrastructures de données, en particulier Big Data. Engagé dans la collecte, le stockage et la gestion des flux de données en temps réel. Spécialiste informatique de haut niveau travaillant avec des clusters de serveurs Linux, des systèmes cloud, des systèmes de traitement de big data tels que Hadoop, Spark et autres. Scientifique des données- traite de l'analyse intellectuelle de données structurées et non structurées. Utilise les statistiques, l'apprentissage automatique et l'analyse prédictive avancée pour résoudre les problèmes commerciaux clés. Par rapport à un analyste de données, un data scientist doit non seulement être capable d'analyser les informations reçues, mais également posséder d'excellentes compétences en programmation, être capable de développer de nouveaux algorithmes, de traiter de grandes quantités d'informations et d'avoir une bonne compréhension du domaine dans lequel il applique ses connaissances.


Original : http://www.marketingdistillery.com/wp-content/uploads/2014/08/mds.png

Introduction à la science des données et au Big Data

« Spécialiste du Big Data : où étudier et où aller travailler »
  • Quelle est la différence entre Data Scientist et Data Engineer
  • Où étudier : cours, programmes de master, etc.
  • Astuces pour trouver un emploi
  • Introduction au métier du Big Data par le populaire service Anti-Slavery
  • Tour d'horizon de tous les métiers liés au Big Data
  • Quelles sont les compétences nécessaires pour accéder au métier ?
Une sélection de vidéos de réunions informelles DataTalks sur Youtube.
  • Organisateur : Wargaming
  • Sujets : comment gagner de l'argent grâce aux données et à l'apprentissage automatique, visualisation des données
  • Intervenants : analystes de données, analystes commerciaux
« Comment les données vont changer le business » (TED)
  • Une explication succincte et puissante de la façon dont les données ont complètement changé la stratégie commerciale.
  • Intervenant : Vice-président du Boston Consulting Group, Philip Evans
  • Il y a une transcription de la conférence en russe
Qui crée l’intelligence artificielle et pourquoi ?
  • Conférence de Bayram Annakov, fondateur d'App-in-the-Air et d'Empatika
  • Une description très amusante et visuelle de l'évolution de l'intelligence artificielle
Apprentissage automatique
  • Deuxième conférence de Bayram Annakov
  • Types de techniques d’apprentissage automatique et d’intelligence artificielle
  • De nombreux cas et conseils pratiques
Intelligence artificielle et apprentissage automatique
  • Conférence d'Andrey Sebrant, directeur du marketing pour Yandex Services
  • Une introduction fascinante au sujet avec de nombreux exemples convaincants.
Réseaux de neurones : informations accessibles sur le complexe
  • Un article très détaillé et facile à comprendre sur le fonctionnement des réseaux de neurones et du Deep Learning

Une sélection de bons cours

Cours en ligne « Machine learning et analyse de données »
  • Spécialisation de Yandex et MIPT sur Coursera en russe
  • Une introduction complète à la science des données et à l'apprentissage automatique à l'aide de Python
  • La théorie peut être regardée gratuitement, les devoirs et les certificats sont payants
Dataquest.io
  • Apprentissage interactif étape par étape de la science des données avec un accent sur Python
  • Apprendre par la pratique : travailler avec des données et du code réels dès le début
  • 3 orientations au choix : Data Scientist, Data Analyst ou Data Engineer
Camp de données
  • Cours interactif en ligne sur la science des données avec un focus sur R
  • 66 cours en apprentissage automatique, analyse de données et statistiques
  • Le cours est basé sur la résolution de problèmes pratiques
L'analyse des données
  • Programme de reconversion professionnelle en ligne de l'Institut de bioinformatique et de l'Université académique de Saint-Pétersbourg de l'Académie des sciences de Russie, qui ne nécessite pas de formation particulière
  • Durée de la formation : 1 an. A partir de l'été 2017 - programme accéléré (six mois)
  • Coût : 1999 roubles par mois
Bases des statistiques
  • Une introduction gratuite et claire aux statistiques mathématiques pour tous
Apprentissage automatique
  • Cours légendaire du fondateur de Coursera et l'un des meilleurs spécialistes de l'intelligence artificielle, Andrew Ng
  • Ce cours peut être considéré comme la norme de l’industrie pour une introduction à l’apprentissage automatique.
  • Une personne gentille a "traduit" les tâches en Python (dans l'original, vous devez tout faire dans Octave)
Introduction à l'apprentissage automatique
  • Cours de Yandex et HSE
  • Très bonne introduction théorique à l'apprentissage automatique
Enregistrements vidéo de conférences de la Yandex School of Data Analysis
  • Enregistrements vidéo des cours de la légendaire école d'analyse de données Yandex
  • Cours : machine learning, algorithmes et structures de données, calcul parallèle, analyse discrète et théorie des probabilités, etc.
"10 cours en ligne sur l'apprentissage automatique"
  • Une sélection de programmes éducatifs à distance compilés par le projet « Greenhouse of Social Technologies »
Maintenir en SQL
  • L'un des rares cours en ligne gratuits sur SQL en russe
  • Un cours interactif construit en pratique pour les analystes, les spécialistes du marketing et les chefs de produits
  • Le minimum requis, tous les opérateurs les plus importants dont JOIN, GROUP BY, etc.
  • Y participent des représentants d'entreprises, des chercheurs, des scientifiques et des créateurs de nouvelles technologies.
  • Comprend des concours, un séminaire scientifique, une exposition
  • Strata+Hadoop Monde
    • La plus grande conférence internationale, qui se tient aujourd'hui dans les grands centres technologiques tels que San José, New York, Londres et d'autres
    • Toutes les stars et toutes les nouveautés sont là
    • En plus de la conférence, des ateliers et des formations sont organisés, et la participation en ligne est également possible
    Semaine de la science des données
    • Festival annuel et forum informatique dédiés à l'analyse des données, organisés à Moscou
    • Pour les professionnels du Big Data et les débutants dans ce domaine
    • Big data, intelligence artificielle, deep learning, de nombreuses business cases
    Fête des données ?
    • Conférence annuelle sur la science des données, organisée une fois par an à Moscou
    • Pour les développeurs, ingénieurs, chercheurs
    • Des cas qui montrent clairement pourquoi il ne faut pas enfoncer des clous avec un microscope
    Science des données ouvertes
    • L'une des communautés d'analyse de données les plus importantes et les plus animées de RuNet
    • Basé sur le chat de groupe Slack
    • Ici, vous pouvez obtenir des conseils, découvrir les nouvelles technologies, trouver un emploi et trouver un data scientist
    Science des données de Moscou
    • Groupe dédié aux rencontres Data Science à Moscou
    • Annonces de réunions, conférences, master classes, discours, discussions - le tout sur le thème de la Data Science
    • Pour les personnes impliquées et intéressées par l’analyse, la visualisation et l’exploration de données

    Scientifique des données- spécialiste du traitement, de l'analyse et du stockage de grandes quantités de données, dites « Big Data ». Le métier convient à ceux qui s'intéressent à la physique, aux mathématiques et à l'informatique (voir choisir un métier en fonction de l'intérêt pour les matières scolaires).

    Data Science - la science des données à l'intersection de différentes disciplines : mathématiques et statistiques ; Informatique et informatique ; affaires et économie.

    (S. Maltseva, Université nationale de recherche V. Kornilov « École supérieure d'économie »)

    Le métier est nouveau, pertinent et... Le terme « Big Data » lui-même est apparu en 2008. Et la profession de Data Scientist - « Data Scientist » a été officiellement enregistrée comme discipline académique et interdisciplinaire début 2010. Bien que la première mention du terme « science des données » ait été notée dans le livre de Peter Naur en 1974, mais dans un sens différent contexte.

    La nécessité de l'émergence d'un tel métier a été dictée par le fait qu'en matière d'Ultra Big Data, les tableaux de données s'avèrent trop volumineux pour être traités par les moyens standards de statistiques mathématiques. Chaque jour, des milliers de pétaoctets (10 15 octets = 1 024 téraoctets) d'informations transitent par les serveurs d'entreprises du monde entier. Outre ces volumes de données, le problème est compliqué par leur hétérogénéité et leur vitesse de mise à jour élevée.

    Les tableaux de données sont divisés en 3 types :

    structuré (par exemple, données des caisses enregistreuses du commerce) ;

    semi-structuré (messages électroniques);

    non structurés (fichiers vidéo, images, photographies).

    La plupart des Big Data ne sont pas structurées, ce qui rend leur traitement beaucoup plus difficile.

    Individuellement, un statisticien, un analyste de systèmes ou un analyste commercial ne peut pas résoudre les problèmes liés à de tels volumes de données. Cela nécessite une personne ayant une formation interdisciplinaire, compétente en mathématiques et statistiques, économie et commerce, informatique et technologie informatique.

    La tâche principale d'un Data Scientist est la capacité d'extraire les informations nécessaires à partir d'une grande variété de sources, en utilisant des flux d'informations en temps réel ; identifiez les modèles cachés dans les ensembles de données et analysez-les statistiquement pour prendre des décisions commerciales intelligentes. Le lieu de travail d'un tel spécialiste n'est pas 1 ordinateur ni même 1 serveur, mais un cluster de serveurs.

    Caractéristiques du métier

    Lorsqu’il travaille avec des données, un Data Scientist utilise différentes méthodes :

    • Méthodes statistiques;
    • modélisation de bases de données ;
    • méthodes d'extraction minière;
    • applications d'intelligence artificielle pour travailler avec des données ;
    • méthodes de conception et de développement de bases de données.

    Les responsabilités professionnelles d'un data scientist dépendent de son domaine d'activité, mais la liste générale des fonctions est la suivante :

    • collecte de données provenant de diverses sources pour un traitement opérationnel ultérieur ;
    • analyse du comportement des consommateurs;
    • modélisation de la clientèle et personnalisation des produits ;
    • analyse de l'efficacité des processus internes de la base ;
    • analyse de divers risques;
    • identifier les fraudes possibles en étudiant les transactions douteuses ;
    • établir des rapports périodiques avec prévisions et présentation des données.

    Un data scientist, comme un vrai scientifique, non seulement collecte et analyse des données, mais les étudie également dans différents contextes et sous différents angles, remettant en question toutes les hypothèses. La qualité la plus importante d'un data scientist est la capacité de voir des connexions logiques dans le système d'informations collectées et, sur la base d'une analyse quantitative, de développer des solutions commerciales efficaces. Dans le monde compétitif et en évolution rapide d'aujourd'hui, dans un flux d'informations toujours croissant, un Data Scientist est indispensable au management pour prendre les bonnes décisions commerciales.

    Avantages et inconvénients du métier

    avantages

    • La profession est non seulement extrêmement demandée, mais il existe également une grave pénurie de spécialistes de ce niveau. Selon le McKinsey Global Institute, d’ici 2018, plus de 190 000 Data Scientists seront nécessaires rien qu’aux États-Unis. C’est pourquoi les facultés des universités les plus prestigieuses chargées de former des data scientists sont si rapidement et largement financées et développées. La demande de Data Scientists augmente également en Russie.
    • Profession bien rémunérée.
    • La nécessité de développer constamment, de suivre l'évolution des technologies informatiques et de créer de nouvelles méthodes de traitement, d'analyse et de stockage des données.

    Inconvénients

    • Tout le monde ne peut pas maîtriser ce métier, cela nécessite un état d'esprit particulier.
    • Au cours du travail, des méthodes bien connues et plus de 60 % des idées peuvent ne pas fonctionner. De nombreuses solutions échoueront et il faudra faire preuve de beaucoup de patience pour obtenir des résultats satisfaisants. Un scientifique n’a pas le droit de dire : « NON ! » problème. Il doit trouver un moyen qui aidera à résoudre le problème.

    Lieu de travail

    Les Data Scientists occupent des postes clés dans :

    • industries technologiques (systèmes de navigation automobile, production de médicaments, etc.) ;
    • Sphère informatique (optimisation des moteurs de recherche, filtre anti-spam, systématisation des actualités, traductions automatiques de textes et bien plus encore) ;
    • médecine (diagnostic automatique des maladies);
    • structures financières (prise de décisions sur l'octroi de prêts), etc.;
    • les sociétés de télévision ;
    • grandes chaînes de vente au détail ;
    • campagnes électorales.

    Qualités importantes

    • Esprit analytique;
    • un dur travail;
    • persistance;
    • scrupule, précision, attention;
    • la capacité de mener à bien une recherche malgré des résultats intermédiaires infructueux ;
    • compétences en communication;
    • la capacité d'expliquer des choses complexes avec des mots simples ;
    • intuition commerciale.

    Connaissances et compétences professionnelles :

    • connaissance des mathématiques, de l'analyse mathématique, des statistiques mathématiques, de la théorie des probabilités ;
    • connaissance de l'anglais;
    • connaissance des principaux langages de programmation dotés de composants permettant de travailler avec de grands ensembles de données : Java (Hadoop), C++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy) ;
    • connaissance des outils statistiques - SPSS, R, MATLAB, SAS Data Miner, Tableau ;
    • connaissance approfondie du secteur dans lequel travaille le data scientist ; s'il s'agit de l'industrie pharmaceutique, une connaissance des processus de production de base et des composants des médicaments est nécessaire ;
    • La principale compétence de base d'un data scientist est l'organisation et l'administration de systèmes de stockage en cluster pour de grandes quantités de données ;
    • connaissance des lois sur le développement des affaires;
    • connaissances économiques.

    Les universités

    • Université d'État de Moscou nommée d'après Lomonosov, Faculté de mathématiques computationnelles et de cybernétique, programme éducatif spécial du groupe Mail.Ru « Technosphère », avec une formation aux méthodes d'analyse intelligente de grands volumes de données, à la programmation C++, à la programmation multithread et à la technologie pour la construction de systèmes de recherche d'informations.
    • MIPT, Département d'Analyse des Données.
    • La Faculté d'informatique de gestion de l'École supérieure d'économie de l'Université nationale de recherche forme des analystes de systèmes, des concepteurs et des implémenteurs de systèmes d'information complexes et des organisateurs de la gestion des systèmes d'information d'entreprise.
    • École d'analyse de données Yandex.
    • Université d'Innopolis, Université de Dundee, Université de Californie du Sud, Université d'Auckland, Université de Washington : programmes de master en Big Data.
    • Imperial College London Business School, MSc Science et gestion des données.

    Comme dans toute profession, l'auto-formation est ici importante, qui bénéficiera sans aucun doute de ressources telles que :

    • cours en ligne dispensés par les plus grandes universités du monde COURSERA ;
    • canal d'apprentissage automatique MASHIN LEARNING ;
    • sélection de cours edX ;
    • Cours Udacity ;
    • Cours Dataquest, où vous pourrez devenir un véritable pro de la Data Science ;
    • Cours Datacamp en 6 étapes ;
    • vidéos de formation O'Reilly ;
    • des screencasts pour les débutants et les avancés Data Origami ;
    • conférence trimestrielle de spécialistes Meetup des Data Scientists de Moscou ;
    • Concours d'analyse de données Kaggle.сom

    Salaire

    Salaire au 04/07/2019

    Russie 50 000—200 000 ₽

    Moscou 60 000—300 000 ₽

    Le métier de Data Scientist est l’un des mieux rémunérés. Informations provenant du site Web hh.ru - le salaire mensuel varie de 8 500 à 9 000 dollars. Aux États-Unis, le salaire d'un tel spécialiste est de 110 000 à 140 000 dollars par an.

    Selon une enquête du centre de recherche Superjob, le salaire des spécialistes Data Scientist dépend de l'expérience professionnelle, de l'étendue des responsabilités et de la région. Un spécialiste novice peut compter sur 70 000 roubles. à Moscou et 57 mille roubles. à Saint-Pétersbourg. Avec jusqu'à 3 ans d'expérience professionnelle, le salaire passe à 110 000 roubles. à Moscou et 90 mille roubles. à Saint-Pétersbourg. Pour les spécialistes expérimentés ayant publié des publications scientifiques, le salaire peut atteindre 220 000 roubles. à Moscou et 180 mille roubles. A Saint-Pétersbourg.

    Étapes de carrière et perspectives

    Le métier de Data Scientist en soi est une réussite de haut niveau, qui nécessite de sérieuses connaissances théoriques et une expérience pratique de plusieurs métiers. Dans toute organisation, un tel spécialiste est un personnage clé. Pour atteindre cette hauteur, vous devez travailler dur et vous améliorer de manière ciblée et constante dans tous les domaines qui constituent la base de la profession.

    Il y a une blague à propos d'un Data Scientist : c'est un généraliste qui programme mieux que n'importe quel statisticien et connaît les statistiques mieux que n'importe quel programmeur. Et il comprend mieux les processus commerciaux que le chef d'entreprise.

    CE QUI S'EST PASSÉ "GRAND DONNÉES« en chiffres réels ?

    1. Tous les 2 jours, le volume de données augmente de la quantité d'informations créées par l'humanité depuis la naissance du Christ jusqu'en 2003.
    2. 90 % de toutes les données existantes aujourd’hui sont apparues au cours des 2 dernières années.
    3. D’ici 2020, le volume d’informations passera de 3,2 à 40 zettaoctets. 1 zettaoctet = 10 21 octets.
    4. En une minute, 200 000 photos sont téléchargées sur Facebook, 205 millions de lettres sont envoyées et 1,8 million de likes sont postés.
    5. En 1 seconde, Google traite 40 000 requêtes de recherche.
    6. Tous les 1,2 ans, le volume total de données dans chaque secteur double.
    7. D’ici 2020, le marché des services Hadoop atteindra 50 milliards de dollars.
    8. Aux États-Unis, en 2015, 1,9 million d'emplois ont été créés pour des spécialistes travaillant sur des projets Big Data.
    9. Les technologies Big Data augmentent les bénéfices des chaînes de vente au détail de 60 % par an.
    10. Selon les prévisions, la taille du marché du Big Data atteindra 68,7 milliards de dollars en 2020, contre 28,5 milliards de dollars en 2014.

    Malgré ces indicateurs de croissance positifs, des erreurs subsistent dans les prévisions. Par exemple, l’une des erreurs les plus notoires de 2016 : les prévisions concernant l’élection présidentielle américaine ne se sont pas réalisées. Les prévisions ont été présentées par les célèbres data scientists américains Nate Silver, Kirk Bourne et Bill Shmarzo en faveur d'Hillary Clinton. Lors des campagnes électorales précédentes, ils ont donné des prévisions précises et ne se sont jamais trompés.

    Cette année, Nate Silver, par exemple, a donné des prévisions précises pour 41 États, mais des prévisions erronées pour 9 États, ce qui a conduit à la victoire de Trump. Après avoir analysé les causes des erreurs de 2016, ils ont conclu que :

    1. Les modèles mathématiques reflètent objectivement l'image au moment de leur création. Mais ils ont une demi-vie, à la fin de laquelle la situation peut changer radicalement. Les qualités prédictives du modèle se détériorent avec le temps. Dans ce cas, par exemple, les malversations, les inégalités de revenus et d’autres bouleversements sociaux ont joué un rôle. Le modèle doit donc être régulièrement ajusté pour prendre en compte de nouvelles données. Cela n'a pas été fait.
    2. Il est nécessaire de rechercher et de prendre en compte des données supplémentaires pouvant avoir un impact significatif sur les prévisions. Ainsi, lors du visionnage de vidéos de rassemblements lors des campagnes électorales Clinton et Trump, le nombre total de participants aux rassemblements n'a pas été pris en compte. Il s'agissait d'environ des centaines de personnes. Il s’est avéré que 400 à 600 personnes ont assisté à chaque rassemblement en faveur de Trump, et seulement 150 à 200 en faveur de Clinton, ce qui a affecté les résultats.
    3. Les modèles mathématiques des campagnes électorales sont basés sur des données démographiques : âge, race, sexe, revenu, statut dans la société, etc. Le poids de chaque groupe est déterminé par la manière dont il a voté lors de la dernière élection. Cette prévision comporte une erreur de 3 à 4 % et fonctionne de manière fiable lorsqu'il existe un écart important entre les candidats. Mais dans ce cas, l’écart entre Clinton et Trump était faible, et cette erreur a eu un impact significatif sur les résultats des élections.
    4. Le comportement irrationnel des gens n'a pas été pris en compte. Les sondages d’opinion publics créent l’illusion que les gens voteront comme ils l’ont répondu dans les sondages. Mais parfois, ils font le contraire. Dans ce cas, il serait nécessaire de procéder en outre à des analyses faciales et vocales pour identifier les attitudes malhonnêtes à l'égard du vote.

    En général, la prédiction s'est avérée fausse en raison du faible écart entre les candidats. Dans le cas d'un écart important, ces erreurs ne seraient pas aussi décisives.

    Vidéo : Nouvelle spécialisation « Big Data » - Mikhail Levin

    Data Scientist en infographie. La profession est nouvelle, bien rémunérée et réputée. Mais quelles compétences doit posséder un tel spécialiste ? Considérons.

    Parlons de compétences

    Un Data Scientist est un généraliste couvrant l’analyse et le traitement de l’information. Un data scientist comprend les statistiques et la programmation. Utile, n'est-ce pas ? L'éventail des capacités de chaque Data Scientist individuel est une gradation et peut évoluer vers le codage ou les statistiques pures.

    • Analyste de données basé à San Francisco. Certaines entreprises comparent en fait les Data Scientists aux analystes. Le travail d'un tel spécialiste se résume à l'extraction d'informations de la base de données, à l'interaction avec Excel et à la visualisation de base.
    • Un trafic énorme et une grande quantité de données obligent certaines entreprises à rechercher de toute urgence le bon spécialiste. Ils publient souvent des annonces recherchant des ingénieurs, des analystes, des programmeurs ou des scientifiques, tous ayant le même titre de poste en tête.
    • Il existe des entreprises pour lesquelles les données sont un produit. Dans ce cas, une analyse intensive et un apprentissage automatique seront nécessaires.
    • Pour d’autres entreprises, les données ne sont pas un produit, mais la gestion ou le flux de travail lui-même repose sur elles. Des Data Scientists sont également recherchés afin de structurer les données des entreprises.

    Les gros titres regorgent de titres dans le style de « Le métier le plus sexy du 21e siècle ». Nous ne savons pas si cela est vrai, mais nous savons qu’un data scientist doit comprendre :

    1. Mathématiques et statistiques.
    2. Domaine et logiciel.
    3. Programmation et base de données.
    4. Échange de données et visualisation.

    Examinons chaque point plus en détail.

    Data Scientist et Statistiques Mathématiques

    Le développement de méthodes mathématiques utilisant des données statistiques constitue une partie fondamentale du travail. Les statistiques mathématiques reposent sur la théorie des probabilités, qui permet de tirer des conclusions précises et d'évaluer leur fiabilité.

    1. L’apprentissage automatique, en tant que sous-section de l’IA. Il existe un programme de formation et des exemples de données avec des modèles. Nous formons un modèle de modèle, le mettons en œuvre et avons la possibilité de rechercher des modèles dans de nouvelles données à l'aide du programme.

    2. Data Scientist doit connaître la modélisation statistique afin de tester le modèle avec des signaux aléatoires avec une certaine densité de probabilité. Le but est de déterminer statistiquement les résultats obtenus.

    3. Conception expérimentale. Au cours des expériences, une ou plusieurs variables sont modifiées pour voir la différence. Dans ce cas, il existe un groupe d'intervention et un groupe témoin, grâce auxquels le test est effectué.

    4. L'inférence bayésienne permet d'ajuster la probabilité d'une hypothèse.

    5. Formation supervisée :

    • arbres de décision;
    • forêts aléatoires ;
    • régression logistique.

    6. Apprentissage non supervisé :

    • regroupement ;
    • réduction des dimensions.

    7. Optimisation : descente de gradient et variations.

    Compétences dans le domaine et les logiciels

    Étudiez et pratiquez ! C'est le fondement de cette spécialité. Un Data Scientist doit avoir une bonne compréhension du domaine concerné par la science et être également familier avec le logiciel.

    La liste des compétences requises est étrange, mais non moins utile :

    Programmation et bases de données

    Des bases à la connaissance de Python, XaaS, algèbre relationnelle et SQL. En général, tout ce sans quoi les tentatives de traitement qualitatif des données sont inutiles.

    1. Fondamentaux de l'informatique, comme point de départ pour quiconque relie la vie à la programmation et à l'automatisation des processus.



    Avoir des questions?

    Signaler une faute de frappe

    Texte qui sera envoyé à nos rédacteurs :