Le Big Data et la blockchain constituent une avancée majeure dans le domaine de l’analyse des données. Qu'est-ce que le Big Data : nous avons rassemblé toutes les informations les plus importantes sur le Big Data. Technologie Big Data

13.02.2021

Le Big Data est un terme général désignant les stratégies et technologies non conventionnelles nécessaires pour collecter, organiser et traiter des informations provenant de grands ensembles de données. Même si le défi de travailler avec des données qui dépassent la capacité de traitement ou de stockage d'un seul ordinateur n'est pas nouveau, la portée et la valeur de ce type d'informatique se sont considérablement développées ces dernières années.

Cet article vous présentera les concepts de base que vous pourriez rencontrer en explorant le Big Data. Il aborde également certains des processus et technologies actuellement utilisés dans ce domaine.

Qu’est-ce que le Big Data ?

Une définition précise du « big data » est difficile à articuler car les projets, les fournisseurs, les praticiens et les professionnels l'utilisent de manières très différentes. Dans cette optique, le Big Data peut être défini comme :

Grands ensembles de données.
Catégorie de stratégies et de technologies informatiques utilisées pour traiter de grands ensembles de données.

Dans ce contexte, « grand ensemble de données » désigne un ensemble de données trop volumineux pour être traité ou stocké à l'aide d'outils traditionnels ou sur un seul ordinateur. Cela signifie que l’échelle globale des grands ensembles de données évolue constamment et peut varier considérablement d’un cas à l’autre.

Systèmes de mégadonnées

Les exigences de base pour travailler avec le Big Data sont les mêmes que pour tout autre ensemble de données. Cependant, l’échelle massive, la vitesse de traitement et les caractéristiques des données rencontrées à chaque étape du processus présentent de nouveaux défis importants pour le développement d’outils. L’objectif de la plupart des systèmes Big Data est de comprendre et de communiquer avec de grands volumes de données hétérogènes, ce qui ne serait pas possible avec les méthodes conventionnelles.

En 2001, Doug Laney de Gartner a présenté les « trois V du Big Data » pour décrire certaines des caractéristiques qui distinguent le traitement du Big Data des autres types de traitement de données :

Volume (volume de données).
Vélocité (vitesse d'accumulation et de traitement des données).
Variété (variété des types de données traitées).

Volume de données

L’ampleur des informations traitées contribue à définir les systèmes Big Data. Ces ensembles de données peuvent être plusieurs fois plus volumineux que les ensembles de données traditionnels, nécessitant une plus grande attention à chaque étape du traitement et du stockage.

Étant donné que les demandes dépassent les capacités d'un seul ordinateur, le problème de la mise en commun, de la distribution et de la coordination des ressources de groupes d'ordinateurs se pose souvent. La gestion des clusters et les algorithmes capables de diviser les tâches en parties plus petites deviennent de plus en plus importants dans ce domaine.

Vitesse d’accumulation et de traitement

La deuxième caractéristique qui distingue considérablement le Big Data des autres systèmes de données est la vitesse à laquelle les informations circulent dans le système. Les données entrent souvent dans un système à partir de plusieurs sources et doivent être traitées en temps réel pour mettre à jour l'état actuel du système.

Cet accent mis sur la rétroaction instantanée a conduit de nombreux praticiens à abandonner l'approche orientée lots au profit d'un système de streaming en temps réel. Les données sont constamment ajoutées, traitées et analysées pour suivre l’afflux de nouvelles informations et fournir des informations précieuses dès le début, au moment où elles sont les plus pertinentes. Cela nécessite des systèmes robustes dotés de composants hautement disponibles pour se protéger contre les pannes le long du pipeline de données.

Variété de types de données traitées

Le Big Data présente de nombreux défis uniques en raison du large éventail de sources traitées et de leur qualité relative.

Les données peuvent provenir de systèmes internes tels que les journaux d'applications et de serveurs, de canaux de réseaux sociaux et d'autres API externes, de capteurs d'appareils physiques et d'autres sources. L’objectif des systèmes Big Data est de traiter des données potentiellement utiles, quelle qu’en soit l’origine, en combinant toutes les informations en un seul système.

Les formats et types de médias peuvent également varier considérablement. Les fichiers multimédias (images, vidéo et audio) sont combinés avec des fichiers texte, des journaux structurés, etc. Les systèmes de traitement de données plus traditionnels s'attendent à ce que les données entrent dans le pipeline déjà étiquetées, formatées et organisées, mais les systèmes Big Data ingèrent et stockent généralement des données, en essayant de les conserver. leur état d'origine. Idéalement, toute transformation ou modification des données brutes se produira en mémoire pendant le traitement.

Autres caractéristiques

Au fil du temps, les praticiens et les organisations ont proposé des extensions des « trois V » originaux, même si ces innovations ont tendance à décrire les problèmes plutôt que les caractéristiques du Big Data.

Véracité : La variété des sources et la complexité du traitement peuvent entraîner des problèmes dans l'évaluation de la qualité des données (et donc de la qualité de l'analyse qui en résulte).
Variabilité : les modifications apportées aux données entraînent de grandes variations de qualité. Des ressources supplémentaires peuvent être nécessaires pour identifier, traiter ou filtrer les données de faible qualité afin d'améliorer la qualité des données.
Valeur : Le but ultime du Big Data est la valeur. Parfois, les systèmes et les processus sont très complexes, ce qui rend difficile l’utilisation des données et l’extraction des valeurs réelles.

Cycle de vie du Big Data

Alors, comment le Big Data est-il réellement traité ? Il existe plusieurs approches différentes de mise en œuvre, mais il existe des points communs dans les stratégies et les logiciels.

Saisir des données dans le système
Sauvegarde des données dans le stockage
Calcul et analyse de données
Visualisation des résultats

Avant d'examiner ces quatre catégories de flux de travail en détail, parlons du cluster computing, une stratégie importante utilisée par de nombreux outils Big Data. La mise en place d'un cluster informatique est la technologie de base utilisée à chaque étape du cycle de vie.

Informatique en grappes

En raison de la qualité du Big Data, les ordinateurs individuels ne sont pas adaptés au traitement des données. Les clusters sont plus adaptés à cela car ils peuvent gérer les besoins de stockage et de calcul du Big Data.

Un logiciel de clustering Big Data combine les ressources de nombreuses petites machines, dans le but d'offrir de nombreux avantages :

Mise en commun des ressources : le traitement de grands ensembles de données nécessite de grandes quantités de ressources CPU et mémoire, ainsi que beaucoup d'espace de stockage disponible.
Haute disponibilité : les clusters peuvent fournir différents niveaux de tolérance aux pannes et de disponibilité afin que les pannes matérielles ou logicielles n'aient pas d'impact sur l'accès et le traitement des données. Ceci est particulièrement important pour les analyses en temps réel.
Évolutivité : les clusters prennent en charge une mise à l'échelle horizontale rapide (ajout de nouvelles machines au cluster).

Pour travailler dans un cluster, vous avez besoin d'outils pour gérer l'adhésion au cluster, coordonner la distribution des ressources et planifier le travail avec des nœuds individuels. L'adhésion au cluster et l'allocation des ressources peuvent être gérées à l'aide de programmes tels que Hadoop YARN (Yet Another Resource Négociateur) ou Apache Mesos.

Un cluster informatique préfabriqué agit souvent comme une épine dorsale avec laquelle d'autres logiciels interagissent pour traiter les données. Les machines participant à un cluster de calcul sont également généralement associées à la gestion d'un système de stockage distribué.

Réception de données

L'ingestion de données est le processus d'ajout de données brutes au système. La complexité de cette opération dépend en grande partie du format et de la qualité des sources de données ainsi que de la mesure dans laquelle les données répondent aux exigences du traitement.

Vous pouvez ajouter du Big Data au système à l'aide d'outils spéciaux. Des technologies telles qu'Apache Sqoop peuvent extraire des données existantes de bases de données relationnelles et les ajouter à un système Big Data. Vous pouvez également utiliser Apache Flume et Apache Chukwa, des projets conçus pour agréger et importer des journaux d'applications et de serveurs. Les courtiers de messages tels qu'Apache Kafka peuvent être utilisés comme interface entre différents générateurs de données et un système Big Data. Des frameworks comme Gobblin peuvent combiner et optimiser le résultat de tous les outils à la fin du pipeline.

Lors de l’ingestion des données, l’analyse, le tri et l’étiquetage sont généralement effectués. Ce processus est parfois appelé ETL (extraire, transformer, charger), qui signifie extraire, transformer et charger. Bien que le terme fasse généralement référence aux processus d’entreposage de données existants, il est parfois appliqué aux systèmes Big Data. Les opérations typiques incluent la modification des données entrantes pour le formatage, la catégorisation et l'étiquetage, le filtrage ou la validation des données pour leur conformité.

Idéalement, les données reçues subissent un formatage minimal.

Stockage des données

Une fois reçues, les données sont transférées vers les composants qui gèrent le stockage.

En règle générale, les systèmes de fichiers distribués sont utilisés pour stocker les données brutes. Des solutions telles que HDFS d'Apache Hadoop permettent d'écrire de grandes quantités de données sur plusieurs nœuds d'un cluster. Ce système fournit aux ressources de calcul un accès aux données, peut charger des données dans la RAM du cluster pour les opérations de mémoire et gérer les pannes de composants. D'autres systèmes de fichiers distribués peuvent être utilisés à la place de HDFS, notamment Ceph et GlusterFS.

Les données peuvent également être importées dans d'autres systèmes distribués pour un accès plus structuré. Les bases de données distribuées, en particulier les bases de données NoSQL, sont bien adaptées à ce rôle car elles peuvent gérer des données hétérogènes. Il existe de nombreux types de bases de données distribuées, le choix dépend de la manière dont vous souhaitez organiser et présenter vos données.

Calcul et analyse de données

Une fois les données disponibles, le système peut commencer le traitement. La couche informatique est peut-être la partie la plus libre du système, car les exigences et les approches ici peuvent différer considérablement selon le type d'informations. Les données sont souvent traitées de manière répétée, soit à l’aide d’un seul outil, soit à l’aide de plusieurs outils pour traiter différents types de données.

Le traitement par lots est l’une des méthodes permettant de calculer de grands ensembles de données. Ce processus implique de diviser les données en parties plus petites, de planifier le traitement de chaque partie sur une machine distincte, de réorganiser les données en fonction de résultats intermédiaires, puis de calculer et de collecter le résultat final. MapReduce d'Apache Hadoop utilise cette stratégie. Le traitement par lots est particulièrement utile lorsque vous travaillez avec de très grands ensembles de données qui nécessitent beaucoup de calculs.

D'autres charges de travail nécessitent un traitement en temps réel. Toutefois, les informations doivent être traitées et préparées immédiatement, et le système doit réagir en temps opportun dès que de nouvelles informations deviennent disponibles. Une façon de mettre en œuvre le traitement en temps réel consiste à traiter un flux continu de données composé d'éléments individuels. Une autre caractéristique commune des processeurs temps réel est qu'ils calculent les données dans la mémoire du cluster, évitant ainsi d'avoir à écrire sur le disque.

Apache Storm, Apache Flink et Apache Spark proposent différentes manières de mettre en œuvre le traitement en temps réel. Ces technologies flexibles vous permettent de choisir la meilleure approche pour chaque problème individuel. En général, le traitement en temps réel est mieux adapté à l’analyse de petits éléments de données qui changent ou sont rapidement ajoutés au système.

Tous ces programmes sont des frameworks. Cependant, il existe de nombreuses autres façons de calculer ou d’analyser des données dans un système Big Data. Ces outils se connectent souvent aux frameworks ci-dessus et fournissent des interfaces supplémentaires pour interagir avec les couches sous-jacentes. Par exemple, Apache Hive fournit une interface d'entrepôt de données à Hadoop, Apache Pig fournit une interface de requête et les interactions de données SQL sont fournies par Apache Drill, Apache Impala, Apache Spark SQL et Presto. L'apprentissage automatique utilise Apache SystemML, Apache Mahout et MLlib d'Apache Spark. Pour la programmation analytique directe, largement prise en charge par l'écosystème de données, R et Python sont utilisés.

Visualisation des résultats

Souvent, la reconnaissance des tendances ou des changements dans les données au fil du temps est plus importante que les valeurs qui en résultent. La visualisation des données est l'un des moyens les plus utiles d'identifier les tendances et d'organiser un grand nombre de points de données.

Le traitement en temps réel est utilisé pour visualiser les métriques des applications et des serveurs. Les données changent fréquemment et de grandes variations dans les mesures indiquent généralement un impact significatif sur la santé des systèmes ou des organisations. Des projets comme Prometheus peuvent être utilisés pour traiter des flux de données et des séries chronologiques et visualiser ces informations.

La pile Elastic, anciennement connue sous le nom de pile ELK, est un moyen populaire de visualiser les données. Logstash est utilisé pour la collecte de données, Elasticsearch pour l'indexation des données et Kibana pour la visualisation. La pile Elastic peut fonctionner avec du Big Data, visualiser les résultats de calculs ou interagir avec des métriques brutes. Une pile similaire peut être obtenue en combinant Apache Solr pour l'indexation avec un fork de Kibana appelé Banana pour la visualisation. Cette pile s'appelle Silk.

Les documents sont une autre technologie de visualisation permettant d'interagir avec les données. De tels projets permettent une exploration et une visualisation interactives des données dans un format facile à partager et à présenter. Des exemples populaires de ce type d'interface sont Jupyter Notebook et Apache Zeppelin.

Glossaire du Big Data

Le Big Data est un terme général désignant des ensembles de données qui ne peuvent pas être correctement traitées par des ordinateurs ou des outils conventionnels en raison de leur volume, de leur vitesse et de leur variété. Le terme est également couramment appliqué aux technologies et aux stratégies permettant de travailler avec de telles données.
Le traitement par lots est une stratégie informatique qui implique le traitement de données en grands ensembles. En règle générale, cette méthode est idéale pour travailler avec des données non urgentes.
L'informatique en cluster consiste à mettre en commun les ressources de plusieurs machines et à gérer leurs capacités partagées pour effectuer des tâches. Dans ce cas, une couche de gestion de cluster est requise pour gérer la communication entre les nœuds individuels.
Un lac de données est un vaste référentiel de données collectées dans un état relativement brut. Le terme est souvent utilisé pour désigner des données volumineuses non structurées et fréquemment changeantes.
L'exploration de données est un terme général désignant différentes pratiques de recherche de modèles dans de grands ensembles de données. Il s’agit d’une tentative d’organiser une masse de données en un ensemble d’informations plus compréhensible et cohérent.
Un entrepôt de données est un vaste référentiel organisé destiné à l'analyse et au reporting. Contrairement à un lac de données, un entrepôt est constitué de données formatées et bien organisées qui sont intégrées à d'autres sources. Les entrepôts de données sont souvent évoqués en relation avec le Big Data, mais ils sont souvent des composants de systèmes de traitement de données conventionnels.
ETL (extraire, transformer et charger) – extraire, transformer et charger des données. Il s'agit du processus d'obtention et de préparation des données brutes à utiliser. Il est associé aux entrepôts de données, mais les caractéristiques de ce processus se retrouvent également dans les pipelines des systèmes Big Data.
Hadoop est un projet Apache open source pour le Big Data. Il se compose d'un système de fichiers distribué appelé HDFS et d'un planificateur de cluster et de ressources appelé YARN. Les capacités de traitement par lots sont fournies par le moteur de calcul MapReduce. Les déploiements Hadoop modernes peuvent exécuter d'autres systèmes informatiques et analytiques aux côtés de MapReduce.
L'informatique en mémoire est une stratégie qui consiste à déplacer des ensembles de données de travail entiers vers la mémoire du cluster. Les calculs intermédiaires ne sont pas écrits sur le disque, mais stockés en mémoire. Cela donne aux systèmes un énorme avantage en termes de vitesse par rapport aux systèmes liés aux E/S.
L'apprentissage automatique est l'étude et la pratique de la conception de systèmes capables d'apprendre, de s'ajuster et de s'améliorer en fonction des données qui leur sont fournies. Cela signifie généralement la mise en œuvre d’algorithmes prédictifs et statistiques.
Map Reduce (à ne pas confondre avec MapReduce de Hadoop) est un algorithme de planification d'un cluster informatique. Le processus consiste à diviser la tâche entre les nœuds et à obtenir des résultats intermédiaires, en mélangeant puis en produisant une valeur unique pour chaque ensemble.
NoSQL est un terme large qui fait référence aux bases de données conçues en dehors du modèle relationnel traditionnel. Les bases de données NoSQL sont bien adaptées au Big Data en raison de leur flexibilité et de leur architecture distribuée.
Le traitement de flux consiste à calculer des éléments de données individuels à mesure qu'ils se déplacent dans un système. Cela permet une analyse des données en temps réel et convient au traitement de transactions urgentes à l'aide de métriques à grande vitesse.

Balises: ,

Basé sur des matériaux issus de la recherche et des tendances

Le Big Data fait parler de lui dans la presse informatique et marketing depuis plusieurs années déjà. Et c’est clair : les technologies numériques ont imprégné la vie de l’homme moderne, « tout est écrit ». Le volume de données sur divers aspects de la vie augmente, tout comme les possibilités de stockage d'informations.

Technologies mondiales de stockage d'informations

Source : Hilbert et Lopez, « La capacité technologique mondiale à stocker, communiquer et calculer l'information », Science, 2011 Global.

La plupart des experts s’accordent à dire que l’accélération de la croissance des données est une réalité objective. Réseaux sociaux, appareils mobiles, données provenant d'appareils de mesure, informations commerciales, ce ne sont là que quelques types de sources qui peuvent générer d'énormes volumes d'informations. Selon l'étude IDCUnivers numérique, publié en 2012, au cours des 8 prochaines années, la quantité de données dans le monde atteindra 40 ZB (zettaoctets), ce qui équivaut à 5 200 Go pour chaque habitant de la planète.

Croissance de la collecte d'informations numériques aux États-Unis

Source : IDC

Une grande partie des informations n’est pas créée par des personnes, mais par des robots interagissant à la fois entre eux et avec d’autres réseaux de données, tels que des capteurs et des appareils intelligents. À ce rythme de croissance, la quantité de données dans le monde, selon les chercheurs, doublera chaque année. Le nombre de serveurs virtuels et physiques dans le monde va décupler en raison de l’expansion et de la création de nouveaux centres de données. En conséquence, il existe un besoin croissant d’utiliser et de monétiser efficacement ces données. Puisque l’utilisation du Big Data en entreprise nécessite des investissements considérables, il faut bien comprendre la situation. Et c’est essentiellement simple : vous pouvez augmenter l’efficacité de votre entreprise en réduisant les coûts et/ou en augmentant le volume des ventes.

Pourquoi avons-nous besoin du Big Data ?

Le paradigme Big Data définit trois principaux types de problèmes.

Stocker et gérer des centaines de téraoctets ou pétaoctets de données que les bases de données relationnelles conventionnelles ne peuvent pas utiliser efficacement.
Organisez des informations non structurées composées de textes, d’images, de vidéos et d’autres types de données.
L'analyse du Big Data, qui pose la question des modalités de travail avec des informations non structurées, de la génération de rapports analytiques, ainsi que de la mise en œuvre de modèles prédictifs.

Le marché des projets Big Data recoupe celui de l'analyse commerciale (BA), dont le volume mondial, selon les experts, s'élevait à environ 100 milliards de dollars en 2012. Il comprend des composants de technologie réseau, des serveurs, des logiciels et des services techniques.

En outre, l'utilisation des technologies Big Data est pertinente pour les solutions de classe assurance revenu (RA) conçues pour automatiser les activités des entreprises. Les systèmes modernes de garantie de revenus comprennent des outils de détection des incohérences et une analyse approfondie des données, permettant de détecter en temps opportun d'éventuelles pertes ou distorsions d'informations pouvant entraîner une diminution des résultats financiers. Dans ce contexte, les entreprises russes, confirmant la présence d'une demande pour les technologies Big Data sur le marché intérieur, notent que les facteurs qui stimulent le développement du Big Data en Russie sont la croissance des données, l'accélération de la prise de décision de gestion et l'amélioration de leur qualité.

Qu'est-ce qui vous empêche de travailler avec le Big Data

Aujourd'hui, seulement 0,5 % des données numériques accumulées sont analysées, malgré le fait qu'il existe des problèmes objectifs à l'échelle de l'industrie qui pourraient être résolus à l'aide de solutions analytiques de classe Big Data. Les marchés informatiques développés disposent déjà de résultats qui peuvent être utilisés pour évaluer les attentes liées à l'accumulation et au traitement du Big Data.

L'un des principaux facteurs qui ralentissent la mise en œuvre des projets Big Data, outre le coût élevé, est considéré problème de sélection des données traitées: c'est-à-dire déterminer quelles données doivent être récupérées, stockées et analysées, et lesquelles doivent être ignorées.

De nombreux représentants d'entreprises notent que les difficultés de mise en œuvre des projets Big Data sont associées au manque de spécialistes - spécialistes du marketing et analystes. La rapidité du retour sur investissement dans le Big Data dépend directement de la qualité du travail des collaborateurs impliqués dans des analyses approfondies et prédictives. L'énorme potentiel des données déjà existantes dans une organisation ne peut souvent pas être utilisé efficacement par les spécialistes du marketing eux-mêmes en raison de processus commerciaux ou de réglementations internes obsolètes. Ainsi, les projets Big Data sont souvent perçus par les entreprises comme difficiles non seulement à mettre en œuvre, mais aussi à évaluer les résultats : la valeur des données collectées. La nature spécifique du travail avec les données oblige les spécialistes du marketing et les analystes à détourner leur attention de la technologie et de la création de rapports pour se concentrer sur la résolution de problèmes commerciaux spécifiques.

En raison du volume important et de la vitesse élevée du flux de données, le processus de collecte de données implique des procédures ETL en temps réel. Pour référence :ETL - depuisAnglaisExtrait, Transformer, Charger- littéralement « extraire, transformer, charger ») - l'un des principaux processus de gestion les entrepôts de données, qui comprennent : l'extraction de données à partir de sources externes, leur transformation et nettoyage pour répondre aux besoins ETL doit être considéré non seulement comme un processus de déplacement de données d'une application à une autre, mais également comme un outil de préparation des données pour l'analyse.

Et puis les problématiques liées à la sécurité des données provenant de sources externes doivent avoir des solutions adaptées au volume d'informations collectées. Les méthodes d’analyse du Big Data ne se développant qu’avec la croissance du volume de données, la capacité des plateformes analytiques à utiliser de nouvelles méthodes de préparation et d’agrégation des données joue un rôle important. Cela suggère que, par exemple, des données sur les acheteurs potentiels ou un entrepôt de données massif avec l'historique des clics sur les sites d'achat en ligne peuvent être intéressants pour résoudre divers problèmes.

Les difficultés ne s'arrêtent pas

Malgré toutes les difficultés liées à la mise en œuvre du Big Data, l'entreprise entend accroître ses investissements dans ce domaine. Comme le montrent les données de Gartner, en 2013, 64 % des plus grandes entreprises mondiales ont déjà investi ou envisagent d'investir dans le déploiement de technologies Big Data pour leur entreprise, contre 58 % en 2012. Selon une étude de Gartner, les leaders des secteurs qui investissent dans le Big Data sont les sociétés de médias, de télécommunications, de banque et de services. Des résultats positifs de la mise en œuvre du Big Data ont déjà été obtenus par de nombreux acteurs majeurs du secteur de la vente au détail en termes d'utilisation des données obtenues à l'aide d'outils d'identification par radiofréquence, de systèmes de logistique et de relocalisation. réapprovisionnement- accumulation, réapprovisionnement - R&T), ainsi que des programmes de fidélité. Une expérience réussie dans le commerce de détail encourage d'autres secteurs du marché à trouver de nouveaux moyens efficaces de monétiser le Big Data afin de transformer son analyse en une ressource utile au développement commercial. Grâce à cela, selon les experts, d'ici 2020, les investissements dans la gestion et le stockage diminueront par gigaoctet de données de 2 dollars à 0,2 dollars, mais pour l'étude et l'analyse des propriétés technologiques du Big Data, ils n'augmenteront que de 40 %.

Les coûts présentés dans divers projets d'investissement dans le domaine du Big Data sont de nature différente. Les éléments de coût dépendent des types de produits sélectionnés en fonction de certaines décisions. Selon les experts, la plus grande partie des coûts des projets d'investissement concerne les produits liés à la collecte, à la structuration des données, au nettoyage et à la gestion de l'information.

Comment c'est fait

Il existe de nombreuses combinaisons de logiciels et de matériel qui vous permettent de créer des solutions Big Data efficaces pour diverses disciplines commerciales : des médias sociaux et applications mobiles à l'analyse et à la visualisation intelligentes des données commerciales. Un avantage important du Big Data est la compatibilité des nouveaux outils avec les bases de données largement utilisées en entreprise, ce qui est particulièrement important lorsque l'on travaille sur des projets transdisciplinaires, tels que l'organisation des ventes multicanaux et du support client.

La séquence de travail avec le Big Data consiste à collecter des données, à structurer les informations reçues à l'aide de rapports et de tableaux de bord, à créer des informations et des contextes et à formuler des recommandations d'action. Étant donné que travailler avec le Big Data implique des coûts importants pour la collecte de données, dont le résultat du traitement est inconnu à l'avance, la tâche principale est de comprendre clairement à quoi servent les données et non quelle quantité est disponible. Dans ce cas, la collecte de données se transforme en un processus d'obtention d'informations exclusivement nécessaires à la résolution de problèmes spécifiques.

Par exemple, les fournisseurs de télécommunications regroupent une énorme quantité de données, notamment des données de géolocalisation, qui sont constamment mises à jour. Ces informations peuvent présenter un intérêt commercial pour les agences de publicité, qui peuvent les utiliser pour diffuser des publicités ciblées et locales, ainsi que pour les détaillants et les banques. Ces données peuvent jouer un rôle important lors de la décision d'ouvrir un point de vente dans un endroit donné, sur la base de données sur la présence d'un puissant flux de personnes ciblé. Il existe un exemple de mesure de l’efficacité de la publicité sur des panneaux d’affichage extérieurs à Londres. Désormais, la portée d'une telle publicité ne peut être mesurée qu'en plaçant des personnes munies d'un appareil spécial à proximité de structures publicitaires qui comptent les passants. Par rapport à ce type de mesure de l'efficacité publicitaire, l'opérateur mobile a beaucoup plus d'opportunités : il connaît exactement la localisation de ses abonnés, il connaît leurs caractéristiques démographiques, leur sexe, leur âge, leur état civil, etc.

Sur la base de ces données, il est possible à l'avenir de modifier le contenu du message publicitaire, en utilisant les préférences d'une personne particulière passant devant le panneau d'affichage. Si les données montrent qu'une personne de passage voyage beaucoup, alors on pourrait lui montrer une publicité pour une station. Les organisateurs d’un match de football ne peuvent qu’estimer le nombre de supporters lorsqu’ils viennent assister au match. Mais s’ils pouvaient demander à leur opérateur de téléphonie mobile des informations sur l’endroit où se trouvent les visiteurs une heure, un jour ou un mois avant un match, cela donnerait aux organisateurs la possibilité de planifier des spots publicitaires pour les matchs à venir.

Un autre exemple est la manière dont les banques peuvent utiliser le Big Data pour prévenir la fraude. Si le client signale la perte de la carte, et lors d'un achat avec celle-ci, la banque voit en temps réel l'emplacement du téléphone du client dans la zone d'achat où a lieu la transaction, la banque peut vérifier les informations sur l'application du client. pour voir s'il essayait de le tromper. Ou la situation inverse, lorsqu'un client effectue un achat dans un magasin, la banque voit que la carte utilisée pour la transaction et le téléphone du client se trouvent au même endroit, la banque peut en conclure que le titulaire de la carte l'utilise. Grâce aux avantages du Big Data, les limites des entrepôts de données traditionnels sont repoussées.

Pour réussir à prendre la décision de mettre en œuvre des solutions Big Data, une entreprise doit calculer un dossier d'investissement, ce qui entraîne de grandes difficultés en raison de nombreux composants inconnus. Le paradoxe de l’analyse dans de tels cas est de prédire l’avenir sur la base du passé, dont les données font souvent défaut. Dans ce cas, un facteur important est une planification claire de vos actions initiales :

Premièrement, il est nécessaire de déterminer un problème commercial spécifique pour lequel les technologies Big Data seront utilisées ; cette tâche deviendra la base pour déterminer l'exactitude du concept choisi ; Vous devez vous concentrer sur la collecte de données liées à cette tâche spécifique, et lors de la preuve de concept, vous pouvez utiliser divers outils, processus et techniques de gestion qui vous permettront de prendre de meilleures décisions à l'avenir.
Deuxièmement, il est peu probable qu’une entreprise sans compétences ni expérience en matière d’analyse de données soit en mesure de mettre en œuvre avec succès un projet Big Data. Les connaissances nécessaires proviennent toujours d'une expérience analytique antérieure, qui est le principal facteur influençant la qualité du travail avec les données. La culture des données est importante car l’analyse des données révèle souvent de dures vérités sur une entreprise, et il faut des pratiques en matière de données pour accepter et travailler avec ces vérités.
Troisièmement, la valeur des technologies Big Data réside dans la fourniture d’informations. Les bons analystes restent rares sur le marché. On les appelle généralement des spécialistes qui ont une compréhension approfondie de la signification commerciale des données et savent comment les utiliser correctement. L'analyse des données est un moyen d'atteindre les objectifs commerciaux, et pour comprendre la valeur du Big Data, vous devez vous comporter en conséquence et comprendre vos actions. Dans ce cas, le Big Data fournira de nombreuses informations utiles sur les consommateurs, sur la base desquelles des décisions utiles pour les entreprises pourront être prises.

Malgré le fait que le marché russe du Big Data commence tout juste à prendre forme, des projets individuels dans ce domaine sont déjà mis en œuvre avec beaucoup de succès. Certains d'entre eux réussissent dans le domaine de la collecte de données, comme les projets du Service fédéral des impôts et de la Tinkoff Credit Systems Bank, d'autres - en termes d'analyse des données et d'application pratique de leurs résultats : il s'agit du projet Synqera.

Tinkoff Credit Systems Bank a mis en œuvre un projet visant à mettre en œuvre la plate-forme EMC2 Greenplum, qui est un outil de calcul massivement parallèle. Ces dernières années, la banque a accru ses exigences en matière de rapidité de traitement des informations accumulées et d'analyse des données en temps réel, en raison du taux de croissance élevé du nombre d'utilisateurs de cartes de crédit. La banque a annoncé son intention d'étendre l'utilisation des technologies Big Data, notamment pour traiter des données non structurées et travailler avec des informations d'entreprise provenant de diverses sources.

Le Service fédéral des impôts de Russie crée actuellement une couche analytique pour l'entrepôt de données fédéral. Sur cette base, un espace d'information et une technologie unifiés permettant d'accéder aux données fiscales à des fins de traitement statistique et analytique sont créés. Au cours de la mise en œuvre du projet, des travaux sont en cours pour centraliser les informations analytiques provenant de plus de 1 200 sources au niveau local du Service fédéral des impôts.

Un autre exemple intéressant d’analyse de big data en temps réel est celui de la startup russe Synqera, qui a développé la plateforme Simplate. La solution est basée sur le traitement de grandes quantités de données ; le programme analyse des informations sur les clients, leur historique d'achat, leur âge, leur sexe et même leur humeur. Des écrans tactiles dotés de capteurs reconnaissant les émotions des clients ont été installés aux caisses d'une chaîne de magasins de cosmétiques. Le programme détermine l’humeur d’une personne, analyse les informations la concernant, détermine l’heure de la journée et analyse la base de données des remises du magasin, après quoi il envoie des messages ciblés à l’acheteur concernant les promotions et les offres spéciales. Cette solution augmente la fidélité des clients et augmente les ventes des détaillants.

Si nous parlons de cas de réussite étrangers, l'expérience d'utilisation des technologies Big Data de la société Dunkin`Donuts, qui utilise des données en temps réel pour vendre des produits, est intéressante à cet égard. Les affichages numériques dans les magasins affichent des offres qui changent toutes les minutes, en fonction de l'heure de la journée et de la disponibilité des produits. À l'aide des reçus de caisse, l'entreprise reçoit des données sur les offres qui ont reçu le plus de réponses de la part des clients. Cette approche informatique nous a permis d'augmenter les bénéfices et le chiffre d'affaires des marchandises dans l'entrepôt.

Comme le montre l'expérience de la mise en œuvre de projets Big Data, ce domaine est conçu pour résoudre avec succès les problèmes des entreprises modernes. Dans le même temps, un facteur important pour atteindre les objectifs commerciaux lorsque l'on travaille avec le Big Data est le choix de la bonne stratégie, qui comprend des analyses identifiant les besoins des consommateurs, ainsi que l'utilisation de technologies innovantes dans le domaine du Big Data.

Selon une enquête mondiale menée chaque année par Econsultancy et Adobe auprès des spécialistes du marketing des entreprises depuis 2012, les « big data » qui caractérisent les activités en ligne des individus peuvent faire beaucoup. Ils peuvent optimiser les processus commerciaux hors ligne, aider à comprendre comment les propriétaires d'appareils mobiles les utilisent pour rechercher des informations, ou simplement « améliorer le marketing », c'est-à-dire plus efficace. D'ailleurs, cette dernière fonction devient de plus en plus populaire d'année en année, comme le montre le schéma que nous avons présenté.

Les principaux domaines de travail des spécialistes du marketing Internet en termes de relation client

Source: Econsultancy et Adobe, publié– emarketer.com

A noter que la nationalité des répondants n'a pas beaucoup d'importance. Comme le montre une enquête menée par KPMG en 2013, la part des « optimistes », c’est-à-dire ceux qui utilisent le Big Data pour développer une stratégie commerciale sont de 56 %, et les variations d'une région à l'autre sont faibles : de 63 % dans les pays d'Amérique du Nord à 50 % dans la région EMEA.

Utiliser le Big Data dans différentes régions du monde

Source: KPMG, publié– emarketer.com

Pendant ce temps, l'attitude des spécialistes du marketing face à de telles « tendances de la mode » rappelle quelque peu une blague bien connue :

Dis-moi, Vano, tu aimes les tomates ?
- J'aime manger, mais pas comme ça.

Même si les spécialistes du marketing « aiment » verbalement le Big Data et semblent même l'utiliser, en réalité, « tout est compliqué », comme ils l'écrivent sur les réseaux sociaux.

Selon une enquête menée par Circle Research en janvier 2014 auprès des marketeurs européens, 4 personnes interrogées sur 5 n'utilisent pas le Big Data (même s'ils « adorent ça »). Les raisons sont différentes. Il y a peu de sceptiques invétérés - 17% et exactement le même nombre que leurs antipodes, c'est-à-dire ceux qui répondent avec assurance : « Oui ». Les autres hésitent et doutent, le « marais ». Ils évitent une réponse directe sous des prétextes plausibles tels que « pas encore, mais bientôt » ou « on attendra que les autres commencent ».

Utilisation du Big Data par les marketeurs, Europe, janvier 2014

Source:dnx, publié –e-commerçant.com

Qu’est-ce qui les rend confus ? Un pur non-sens. Certains (exactement la moitié d’entre eux) ne croient tout simplement pas à ces données. D'autres (ils sont également assez nombreux - 55 %) ont du mal à corréler des ensembles de « données » et d'« utilisateurs » entre eux. Certaines personnes ont simplement (pour le dire politiquement correctement) un désordre interne à l'entreprise : les données errent sans surveillance entre les services marketing et les structures informatiques. Pour d’autres, le logiciel ne peut pas faire face à l’afflux de travail. Et ainsi de suite. Étant donné que les parts totales dépassent largement 100 %, il est clair que la situation de « barrières multiples » n’est pas rare.

Obstacles à l’utilisation du Big Data en marketing

Source:dnx, publié –e-commerçant.com

Il faut donc admettre que le « Big Data » constitue pour l’instant un grand potentiel qu’il reste encore à exploiter. C’est d’ailleurs peut-être la raison pour laquelle le Big Data perd son halo de « tendance à la mode », comme en témoignent les données d’une enquête menée par la société Econsultancy que nous avons déjà mentionnée.

Les tendances les plus marquantes du marketing numérique 2013-2014

Source: Econsultancy et Adobe

Ils sont remplacés par un autre roi : le marketing de contenu. Pendant combien de temps?

On ne peut pas dire que le Big Data soit un phénomène fondamentalement nouveau. De grandes sources de données existent depuis de nombreuses années : bases de données sur les achats des clients, les historiques de crédit, le style de vie. Et depuis des années, les scientifiques utilisent ces données pour aider les entreprises à évaluer les risques et à prédire les besoins futurs des clients. Cependant, aujourd’hui, la situation a changé sous deux aspects :

Des outils et des techniques plus sophistiqués ont émergé pour analyser et combiner différents ensembles de données ;

Ces outils analytiques sont complétés par une avalanche de nouvelles sources de données entraînées par la numérisation de pratiquement toutes les méthodes de collecte et de mesure des données.

La gamme d’informations disponibles est à la fois inspirante et intimidante pour les chercheurs élevés dans des environnements de recherche structurés. Le sentiment des consommateurs est capté par les sites Web et toutes sortes de médias sociaux. Le fait de regarder une publicité est enregistré non seulement par les décodeurs, mais également à l'aide d'étiquettes numériques et d'appareils mobiles qui communiquent avec le téléviseur.

Les données comportementales (telles que le volume d'appels, les habitudes d'achat et les achats) sont désormais disponibles en temps réel. Ainsi, une grande partie de ce qui pouvait auparavant être obtenu grâce à la recherche peut désormais être apprise à l’aide de sources de données massives. Et tous ces actifs informationnels sont générés en permanence, indépendamment de tout processus de recherche. Ces changements nous amènent à nous demander si le big data peut remplacer les études de marché classiques.

Il ne s’agit pas de données, mais de questions et de réponses.

Avant de sonner le glas de la recherche classique, il faut rappeler que ce n’est pas la présence de certains actifs de données qui est critique, mais autre chose. Quoi exactement ? Notre capacité à répondre aux questions, voilà quoi. Ce qui est amusant dans le nouveau monde du Big Data, c'est que les résultats obtenus à partir de nouveaux actifs de données soulèvent encore plus de questions, et ces questions trouvent généralement la meilleure réponse dans la recherche traditionnelle. Ainsi, à mesure que le big data se développe, nous constatons une augmentation parallèle de la disponibilité et du besoin de « small data » qui peuvent apporter des réponses aux questions du monde du big data.

Considérez la situation : un grand annonceur surveille en permanence le trafic en magasin et les volumes de ventes en temps réel. Les méthodologies de recherche existantes (dans lesquelles nous interrogeons les panélistes sur leurs motivations d'achat et leur comportement au point de vente) nous aident à mieux cibler des segments d'acheteurs spécifiques. Ces techniques peuvent être étendues pour inclure un plus large éventail d’actifs Big Data, au point où le Big Data devient un moyen d’observation passive et la recherche une méthode d’enquête continue et étroitement ciblée sur les changements ou les événements qui nécessitent une étude. C’est ainsi que le Big Data peut libérer la recherche d’une routine inutile. La recherche primaire n’a plus besoin de se concentrer sur ce qui se passe (le big data le fera). Au lieu de cela, la recherche primaire peut se concentrer sur l’explication des raisons pour lesquelles nous observons des tendances particulières ou des écarts par rapport aux tendances. Le chercheur pourra moins penser à l’obtention de données qu’à la manière de les analyser et de les utiliser.

Dans le même temps, nous constatons que le big data peut résoudre l’un de nos plus gros problèmes : celui des études trop longues. L’examen des études elles-mêmes a montré que des instruments de recherche trop gonflés ont un impact négatif sur la qualité des données. Bien que de nombreux experts aient reconnu ce problème depuis longtemps, ils ont invariablement répondu par la phrase : « Mais j'ai besoin de ces informations pour la haute direction », et les longs entretiens se sont poursuivis.

Dans le monde du Big Data, où des mesures quantitatives peuvent être obtenues grâce à l’observation passive, cette question devient sans objet. Pensons encore une fois à toutes ces études concernant la consommation. Si le Big Data nous donne un aperçu de la consommation grâce à l’observation passive, alors les recherches par enquêtes primaires n’ont plus besoin de collecter ce type d’informations, et nous pouvons enfin étayer notre vision des enquêtes courtes par quelque chose de plus que de simples vœux pieux.

Le Big Data a besoin de votre aide

Enfin, le « big » n’est qu’une des caractéristiques du big data. La caractéristique « grande » fait référence à la taille et à l’échelle des données. Bien sûr, c’est la caractéristique principale, puisque le volume de ces données dépasse tout ce avec quoi nous avons travaillé auparavant. Mais d’autres caractéristiques de ces nouveaux flux de données sont également importantes : elles sont souvent mal formatées, non structurées (ou, au mieux, partiellement structurées) et pleines d’incertitudes. Un domaine émergent de la gestion des données, bien nommé analyse d’entité, aborde le problème de la réduction du bruit du Big Data. Son travail consiste à analyser ces ensembles de données et à déterminer combien d'observations se réfèrent à la même personne, quelles observations sont actuelles et lesquelles sont utilisables.

Ce type de nettoyage des données est nécessaire pour éliminer le bruit ou les données erronées lorsque l’on travaille avec des ressources de données volumineuses ou petites, mais ce n’est pas suffisant. Nous devons également créer un contexte autour des actifs Big Data en nous basant sur notre expérience antérieure, nos analyses et nos connaissances des catégories. En fait, de nombreux analystes considèrent la capacité à gérer l’incertitude inhérente au Big Data comme une source d’avantage concurrentiel, car elle permet de prendre de meilleures décisions.

C’est là que la recherche primaire se trouve non seulement libérée par le Big Data, mais contribue également à la création et à l’analyse de contenu au sein du Big Data.

Un excellent exemple en est l’application de notre nouveau cadre de capital de marque fondamentalement différent aux médias sociaux. (nous parlons de développé enMillward Brunune nouvelle approche pour mesurer le capital de marqueLe Significativement Différent Cadre– « Le paradigme de la différence significative » -R. & T ). Le modèle est testé comportementalement sur des marchés spécifiques, mis en œuvre sur une base standard et peut être facilement appliqué à d'autres secteurs de marketing et systèmes d'information d'aide à la décision. En d’autres termes, notre modèle de capital de marque, éclairé (mais pas exclusivement) par des enquêtes, possède toutes les fonctionnalités nécessaires pour surmonter la nature non structurée, décousue et incertaine du Big Data.

Considérez les données sur le sentiment des consommateurs fournies par les médias sociaux. Sous leur forme brute, les hauts et les bas de la confiance des consommateurs sont très souvent peu corrélés aux mesures hors ligne du capital et du comportement de la marque : il y a tout simplement trop de bruit dans les données. Mais nous pouvons réduire ce bruit en appliquant nos modèles de signification du consommateur, de différenciation des marques, de dynamique et de caractère distinctif aux données brutes sur le sentiment des consommateurs – une manière de traiter et d’agréger les données des médias sociaux selon ces dimensions.

Une fois les données organisées selon notre cadre, les tendances identifiées s'alignent généralement sur le capital de marque et les mesures comportementales hors ligne. Essentiellement, les données des réseaux sociaux ne peuvent pas parler d’elles-mêmes. Les utiliser à cet effet nécessite notre expérience et des modèles construits autour des marques. Lorsque les médias sociaux nous fournissent des informations uniques exprimées dans le langage utilisé par les consommateurs pour décrire les marques, nous devons utiliser ce langage lors de la création de nos recherches afin de rendre la recherche primaire beaucoup plus efficace.

Avantages de la recherche exonérée

Cela nous ramène à la façon dont le Big Data ne remplace pas tant la recherche qu’il la libère. Les chercheurs seront libérés de la nécessité de créer une nouvelle étude pour chaque nouveau cas. Les actifs Big Data, en constante augmentation, peuvent être utilisés pour différents sujets de recherche, permettant ainsi aux recherches primaires ultérieures d’approfondir le sujet et de combler les lacunes existantes. Les chercheurs ne seront plus obligés de s’appuyer sur des enquêtes exagérées. Au lieu de cela, ils peuvent utiliser de courtes enquêtes et se concentrer sur les paramètres les plus importants, ce qui améliore la qualité des données.

Avec cette libération, les chercheurs pourront utiliser leurs principes et idées établis pour ajouter de la précision et du sens aux actifs du Big Data, ouvrant ainsi la voie à de nouveaux domaines de recherche par enquête. Ce cycle devrait conduire à une meilleure compréhension d'une série de questions stratégiques et, à terme, à une évolution vers ce qui devrait toujours être notre objectif principal : éclairer et améliorer la qualité des décisions en matière de marque et de communication.

Nous rencontrons régulièrement des mots et des définitions à la mode, dont le sens nous semble intuitif, mais nous n’avons pas une idée claire de ce qu’est cette chose et de son fonctionnement.

L'un de ces concepts est le Big Data ; en russe, vous pouvez parfois trouver une traduction littérale - « big data », mais le plus souvent les gens le disent et l'écrivent tel quel : Big Data. Tout le monde a probablement entendu ou du moins rencontré cette phrase sur Internet, et cela semble simple, mais ce que cela signifie exactement n'est pas toujours clair pour les humanistes de bureau qui sont loin des subtilités du monde numérique.

Une excellente tentative pour combler cette lacune dans le cerveau d'un large éventail d'utilisateurs est un article de l'un de nos auteurs préférés Bernard Marr, intitulé « Qu’est-ce que le Big Data ? Explication super simple pour tout le monde". Sans jargon abstrus dans le seul but d'expliquer les idées clés de ce phénomène à chacun, quels que soient sa formation et son domaine d'activité.

En fait, depuis quelques années, nous vivons dans un monde complètement imprégné par le Big Data, mais nous continuons à ne pas comprendre de quoi il s’agit réellement. Cela s'explique en partie par le fait que le concept même de Big Data est constamment transformé et repensé, car le monde de la haute technologie et du traitement de grandes quantités d'informations évolue très rapidement, intégrant de plus en plus de nouvelles options. Et le volume de ces informations ne cesse de croître.

Alors, que signifie le Big Data 2017 ?

Tout a commencé avec l’explosion de la quantité de données que nous créons depuis l’aube de l’ère numérique. Cela a été rendu possible en grande partie par la croissance du nombre et de la puissance des ordinateurs, l’expansion d’Internet et le développement de technologies capables de capturer des informations du monde physique réel dans lequel nous vivons tous et de les convertir en données numériques.

En 2017, nous produisons des données lorsque nous nous connectons, lorsque nous utilisons nos smartphones équipés d'un GPS, lorsque nous communiquons avec des amis sur les réseaux sociaux, lorsque nous téléchargeons des applications mobiles ou de la musique, lorsque nous effectuons des achats.

Nous pouvons dire que nous laissons derrière nous de nombreuses empreintes numériques, quoi que nous fassions, à condition que nos actions incluent des transactions numériques. Autrement dit, presque toujours et partout.

De plus, la quantité de données générées par les machines elles-mêmes augmente à un rythme effréné. Les données sont créées et transférées lorsque nos appareils intelligents communiquent entre eux. Les usines de fabrication du monde entier sont équipées d’équipements qui collectent et transmettent des données jour et nuit.

Dans un avenir proche, nos rues seront remplies de voitures autonomes, traçant leurs propres itinéraires sur la base de cartes 4D générées en temps réel.

Que peut faire le Big Data ?

Un flux sans cesse croissant d’informations sensorielles, de photos, de messages texte, de données audio et vidéo constitue la base du Big Data, que nous pouvons utiliser d’une manière inimaginable il y a quelques années à peine.

À l’heure actuelle, les projets basés sur le Big Data aident :

- Traiter les maladies et prévenir le cancer. La médecine basée sur le Big Data analyse d’énormes quantités de dossiers médicaux et d’images, ce qui permet un diagnostic très précoce et contribue à la création de nouvelles méthodes de traitement.

- Combattre la faim. L’agriculture connaît une véritable révolution du Big Data, qui permet d’utiliser les ressources de manière à maximiser les rendements avec une intervention minimale dans l’écosystème et d’optimiser l’utilisation des machines et équipements.

- Découvrez des planètes lointaines. La NASA, par exemple, analyse d’énormes quantités de données et les utilise pour construire des modèles de futures missions vers des mondes lointains.

- Prédire les urgences de diverses natures et minimiser les dommages possibles. Les données provenant de plusieurs capteurs peuvent prédire où et quand le prochain tremblement de terre se produira ou le comportement probable des personnes en cas d'urgence, augmentant ainsi les chances de survie.

- Prévenir les délits grâce à l’utilisation de technologies qui permettent d’allouer les ressources plus efficacement et de les diriger là où elles sont le plus nécessaires.

Et ce qui est le plus proche pour la plupart d'entre nous : le Big Data rend la vie d'une personne ordinaire plus facile et plus pratique - cela inclut les achats en ligne, la planification de voyages et la navigation dans une métropole.

Choisir le meilleur moment pour acheter des billets d’avion et décider quel film ou série télévisée regarder est devenu beaucoup plus facile grâce au travail du Big Data.

Comment cela marche-t-il?

Le Big Data fonctionne sur le principe selon lequel plus vous en savez sur quelque chose, plus vous pouvez prédire avec précision ce qui se passera dans le futur. La comparaison de données individuelles et des relations entre elles (nous parlons d'une énorme quantité de données et d'un nombre incroyablement grand de connexions possibles entre elles) nous permet de découvrir des modèles jusqu'alors cachés. Cela permet d’examiner le problème à l’intérieur et finalement de comprendre comment gérer un processus particulier.

Le plus souvent, le processus de traitement de grandes quantités d'informations implique la construction de modèles basés sur les données collectées et l'exécution de simulations, au cours desquelles les paramètres clés sont constamment modifiés, tandis qu'à chaque fois le système surveille comment le « changement de paramètres » affecte le résultat possible.

Ce processus est entièrement automatisé, car nous parlons d'analyser des millions de simulations, d'essayer toutes les options possibles jusqu'au moment où un modèle (le schéma souhaité) est trouvé ou jusqu'à ce que « l'illumination » se produise, ce qui aidera à résoudre le problème pour lequel tout a été commencé.

Contrairement au monde familier des objets et des calculs, les données sont reçues sous une forme non structurée, c'est-à-dire qu'il est difficile de les mettre dans des tableaux avec des cellules et des colonnes qui nous sont familières, les gens. Une énorme quantité de données est transmise sous forme d'images ou de vidéos : des images satellites aux selfies que vous publiez sur Instagram ou Facebook, tout comme les e-mails, la messagerie instantanée ou les appels téléphoniques.

Pour donner un sens pratique à ce flux de données infini et varié, le Big Data utilise souvent les technologies d'analyse les plus avancées, parmi lesquelles l'intelligence artificielle et l'apprentissage automatique (c'est là qu'un programme dans un ordinateur entraîne d'autres programmes).

Les ordinateurs eux-mêmes apprennent à déterminer ce que représentent les informations - par exemple, la reconnaissance des images, du langage - et ils peuvent le faire beaucoup plus rapidement que les humains.

Grand frère ?

À mesure des opportunités sans précédent que nous offre aujourd’hui le Big Data, le nombre de préoccupations et de questions liées à son utilisation augmente.

INTENSITÉ DES DONNÉES PERSONNELLES. Le Big Data collecte une énorme quantité d’informations sur notre vie privée. Il existe de nombreuses informations que nous préférerions garder secrètes.

SÉCURITÉ. Même si nous décidons qu’il n’y a rien de mal à transférer toutes nos données personnelles vers une machine dans un but spécifique qui nous profite, pouvons-nous être sûrs que nos données sont stockées dans un endroit sûr ?
Qui et comment peut nous le garantir ?

DISCRIMINATION. Quand tout est connu, est-il acceptable de discriminer les gens sur la base de ce que l’on sait d’eux grâce au Big Data ? Les banques utilisent votre historique de crédit et les compagnies d’assurance déterminent le coût de l’assurance automobile en fonction de ce qu’elles savent de vous. Jusqu’où cela peut-il aller ?

On peut supposer que pour minimiser les risques, les entreprises, les agences gouvernementales et même les particuliers utiliseront ce qu’ils peuvent apprendre sur nous et, pour une raison quelconque, limiteront notre accès aux ressources et à l’information.

Malgré tous les avantages, il faut reconnaître que toutes ces préoccupations font également partie intégrante du Big Data. Jusqu'à récemment, les scientifiques étaient perplexes quant aux réponses, mais le moment est désormais venu où la vague atteint les entreprises qui souhaitent utiliser les avantages du Big Data à leurs propres fins. Et cela peut avoir des conséquences catastrophiques.

Yulia Sergeevna Volkova, étudiante de 4e année, Université financière du gouvernement de la Fédération de Russie, succursale de Kaluga, Kaluga [email protégé]

Le Big Data dans le monde moderne

Résumé. L'article est consacré à la mise en œuvre des technologies Big Data dans notre société moderne. Les principales caractéristiques du Big Data sont étudiées, les principaux domaines d'application, tels que la banque, le commerce de détail, les secteurs privé et public, ou encore la vie quotidienne, sont considérés. L'étude a révélé les inconvénients de l'utilisation des technologies Big Data. La nécessité de développer une réglementation réglementaire de l'utilisation du Big Data est soulignée. Mots clés : Big Data, banques, secteur bancaire, commerce de détail, secteur privé, secteur public.

À mesure que le degré d'intégration des outils informatiques dans divers domaines de la société moderne augmente, les exigences de leur adaptabilité pour résoudre de nouveaux problèmes nécessitant d'énormes volumes de données augmentent également. Il existe de nombreuses informations qui ne peuvent pas être traitées de manière traditionnelle, notamment les données structurées, les données multimédias et les objets aléatoires. Et si les technologies existantes aujourd'hui permettent plus ou moins d'analyser la première, alors l'analyse des deuxième et troisième reste pratiquement une tâche écrasante. La recherche montre que le volume de données multimédias, telles que la vidéosurveillance, la photographie aérienne, les informations numériques sur la santé et les objets aléatoires stockés dans de nombreuses archives et nuages, augmente d'année en année. L'énorme volume de données est devenu un processus mondial et est appelé. Mégadonnées. Les travaux de scientifiques étrangers et russes sont consacrés à l'étude du Big Data : James Manyika, Michael Chui, Toporkov V.V., Budzko V.I. De grandes entreprises mondiales, telles que McKinsey& Company, СNews Analytics, SAP, Oracle, IBM, Microsoft, Teradata et bien d'autres, apportent une contribution significative à l'étude de cette technologie. Ils s'engagent dans le traitement et l'analyse des données et créent des systèmes logiciels et matériels basés sur le Big Data. Selon un rapport du McKinsey Institute : « Le Big Data est un ensemble de données dont la taille dépasse les capacités des outils logiciels de bases de données classiques pour la capture, le stockage, la gestion et la gestion. analyser les données. Essentiellement, le concept de big data implique de travailler avec des informations d'un volume énorme et de composition diversifiée, constamment mises à jour et localisées dans différentes sources afin d'augmenter l'efficacité opérationnelle, de créer de nouveaux produits et d'augmenter la compétitivité. La société de conseil Forrester donne une formulation brève et assez claire : « Le Big data combine des techniques et des technologies qui extraient du sens des données à l'extrême limite de la praticité. » Aujourd'hui, le domaine du Big Data se caractérise par les caractéristiques suivantes : Volume – volume, la base de données accumulée représente une grande quantité d'informations. Vitesse : vitesse, cet attribut indique un taux croissant d'accumulation de données (90 % des informations ont été collectées au cours des 2 dernières années). Variété : diversité, c'est-à-dire la capacité de traiter simultanément des informations structurées et non structurées de différents formats. Les experts en marketing adorent ajouter leur « V » ici. Certains parlent aussi de véracité, d’autres ajoutent que les technologies big data doivent certainement apporter des bénéfices aux entreprises (valeur). On s’attend à ce que d’ici 2020, la quantité d’informations accumulées sur la planète double tous les deux ans. L’abondance des données donne envie de les utiliser à des fins d’analyse et de prévision. Des volumes énormes nécessitent des technologies appropriées. Aujourd'hui, les entreprises doivent traiter des quantités colossales de données dans des volumes difficiles à imaginer, ce qui conduit au fait que les bases de données traditionnelles ne peuvent pas faire face à une telle tâche, ce qui conduit à la nécessité de mettre en œuvre des technologies Big Data. Le tableau présente les caractéristiques comparatives du Big Data et des bases de données traditionnelles. La base de la formation de ce tableau était la recherche de V. I. Budzko et de la Bourse de Moscou Tableau 1 Caractéristiques comparatives du Big Data et des données traditionnelles.

Bases de données traditionnellesBig DataDomaine d'application

Un ou plusieurs domaines d'application Le champ d'application des technologies Big Data est vaste. De l'identification des préférences du client à l'analyse des risques Caractéristiques des données Uniquement des données structurées D'énormes quantités d'informations avec une structure complexe, hétérogène et/ou incertaine Méthode de stockage des données Centralisé Décentralisé Modèle de stockage et de traitement des données Modèle vertical Modèle horizontal Quantité d'informations à traiter À partir de gigaoctets (109 octets) aux téraoctets (1012 octets) Des pétaoctets (1015 octets) aux exaoctets (1018 octets) IT ) Ainsi, la portée des bases de données traditionnelles ne couvre qu'une ou plusieurs, et ces zones ne doivent contenir que des données structurées. Quant au Big Data, son champ d'application est vaste avec d'énormes quantités d'informations à la structure complexe. Selon les résultats de l'étude de CNews Analytics présentés dans la figure 1, le marché russe est confronté à un phénomène tel que le Big Data. montre une augmentation du niveau de maturité des entreprises. De nombreuses entreprises se tournent vers les technologies Big Data en raison du volume de leurs données traitées ; déjà plus de 44 % génèrent environ 100 téraoctets, et 13 % ont des volumes de données supérieurs à 500 téraoctets.

Figure 1. Volumes d’informations traitées dans les entreprises

De tels volumes ne peuvent pas être traités par les bases de données traditionnelles, c'est pourquoi ces entreprises voient la solution pour passer au Big Data non seulement comme le traitement d'énormes volumes, mais aussi comme une compétitivité accrue, une fidélisation accrue des clients envers leur produit et en attirant de nouveaux. Les clients les plus actifs de ces solutions sont les banques, les télécommunications et le commerce de détail ; leurs pourcentages sont présentés dans la figure 2. Le nombre d'entreprises qui utilisent ou sont prêtes à utiliser le big data dans les secteurs des transports, de l'énergie et de l'industrie est moins visible. Les premiers exemples d’utilisation du big data sont également apparus dans le secteur public.

Fig.2. Structure industrielle de l’utilisation du Big Data

Du côté des gouvernements occidentaux, diverses estimations situent l’économie numérique entre 3 et 21 % du PIB des pays du G20. Le secteur public russe n’a pas encore obtenu de résultats significatifs dans le domaine du Big Data. Aujourd'hui, en Russie, ce sont principalement les entreprises commerciales qui s'intéressent à ces technologies : les chaînes de vente au détail, les banques et les entreprises de télécommunications. Selon l'Association russe des communications électroniques, le volume de l'économie numérique dans la Fédération de Russie ne représente que 1 000 milliards. frotter. -environ 1,5% du PIB. Cependant, la Fédération de Russie dispose d'un énorme potentiel de croissance dans l'économie numérique. Malgré la courte existence du secteur du Big Data, il existe déjà des évaluations de l'utilisation efficace de ces technologies, basées sur des exemples réels. Les banques traitent aujourd'hui en moyenne environ 3,8 pétooctets de données, elles utilisent les technologies Big Data pour réaliser certaines tâches :  collecte de données sur l'utilisation des cartes de crédit ;  collecte de données sur les garanties ;  collecte de données sur les prêts ; 13 % 7 % 20 %BanquesTélécomCommerce de détailSecteur publicAutrescollecte de données sur les profils des clients ; Collecte de données sur les économies des clients. Les banques affirment qu'après avoir commencé à utiliser les technologies Big Data, elles ont pu attirer de nouveaux clients et mieux interagir avec les nouveaux et les anciens. clients et maintenir leur fidélité. En 2015, CNews Analytics a mené une enquête auprès des trente plus grandes banques russes en termes d'actifs totaux pour savoir quelles technologies Big Data elles utilisent et à quelles fins. Par rapport à l’enquête de 2014, le nombre des 30 plus grandes banques déclarant utiliser les technologies du Big Data a augmenté, mais ce changement est plus probablement dû à un changement dans la composition du top 30. La figure 3 montre une comparaison de l'enquête de 2015 avec celle de 2014 sur la base d'une enquête de A. Kiryanova.

Riz. 3. Utilisation du Big Data par les 30 plus grandes banques russes

Selon les estimations d'IBS, 80 % des banques ayant répondu positivement mettent en œuvre des Big Data Appliance, des systèmes logiciels et matériels pour le stockage et le traitement des données. Ces solutions servent généralement de stockage analytique ou transactionnel, dont le principal avantage est la haute performance lorsque l'on travaille avec de gros volumes de données. Cependant, la pratique de l'utilisation du Big Data dans les banques russes en est à ses balbutiements. La raison d'une adaptation si lente en Russie se manifeste dans l'attitude méfiante des informaticiens des clients à l'égard des nouvelles technologies. Ils ne sont pas convaincus que les technologies du Big Data contribueront à résoudre pleinement les problèmes. Mais en ce qui concerne le marché américain, les banques y ont déjà accumulé 1 exaoctet de données, ce qui peut être comparé à 275 milliards d'enregistrements mp3. Le nombre de sources d'où proviennent les informations est vaste, parmi lesquelles on distingue les plus classiques :  les visites dans les bureaux des clients des banques  les enregistrements d'appels téléphoniques  le comportement des clients sur les réseaux sociaux  les informations sur les transactions par carte de crédit  et autres ; Le commerce de détail hors ligne utilise le Big Data pour analyser le comportement des clients, concevoir des itinéraires dans la surface de vente, organiser correctement les marchandises, planifier les achats et, à terme, augmenter les ventes. Dans le commerce de détail en ligne, le mécanisme de vente lui-même repose sur le big data : les utilisateurs se voient proposer des produits en fonction de leurs achats antérieurs et de leurs préférences personnelles, dont les informations sont collectées, par exemple, sur les réseaux sociaux. Dans les deux cas, l’analyse du Big Data permet de réduire les coûts, d’accroître la fidélité des clients et d’atteindre un public plus large. À mesure que les entreprises développent leur potentiel commercial, les bases de données traditionnelles ne répondent plus aux exigences commerciales croissantes, c’est pourquoi le système ne peut pas fournir suffisamment de détails en matière de comptabilité de gestion. En passant au big data, les nouvelles technologies permettent d'optimiser la gestion de la distribution des produits, d'atteindre la pertinence des données et la rapidité de leur traitement pour évaluer les conséquences des décisions de gestion, et de générer rapidement des reporting de gestion. Le volume total de données accumulées dépasse 100 exaoctets, tandis que Walmart traite à lui seul 2,5 pétaoctets de données par heure en utilisant le Big Data. De plus, grâce à l'utilisation des technologies Big Data, la rentabilité opérationnelle augmente de 60 %, et également, selon les statistiques Hadoop, après la mise en œuvre du Big Data, la productivité analytique augmente jusqu'au traitement de 120 algorithmes et les bénéfices augmentent de 710 %. si l'on prend en compte le commerce de détail russe, le Big Data commence tout juste à prendre de l'ampleur, car le déficit de traitement de l'information est très différent. Par exemple, le commerce de détail en ligne est 18 fois inférieur à celui de la Chine, et le chiffre d'affaires total des données généré par le commerce de détail en ligne est 4,5 fois inférieur à celui d'un magasin Amazon. Dans le même temps, le nombre de boutiques en ligne en Russie qui utilisent le Big Data est inférieur à 40 000, tandis qu'en Europe, le nombre de ces magasins est supérieur à 550 000. Ce qui caractérise le marché de détail russe comme étant encore en développement et pas encore complètement formé. Quant à notre vie quotidienne, les technologies Big Data sont utilisées ici, auxquelles nous n'avons même pas pensé. Chaque jour, 15 millions de chansons, soit environ 1,5 à 2 pétaoctets, sont traitées par Shazam, un service de musique, dans le monde entier et basées. sur Ensuite, les producteurs de musique prédisent la popularité de l’artiste. Le Big Data est également utilisé pour traiter les informations sur les cartes de crédit telles que Mastercard et Visa. Ainsi, 65 milliards de transactions par an utilisant 1,9 milliard de cartes chez 32 millions de commerçants sont traitées par mastercard pour prédire les tendances commerciales. Chaque jour, des personnes dans le monde publient 19 téraoctets de données sur les réseaux sociaux tels que Twitter et Facebook. Ils téléchargent et traitent des photos, écrivent, envoient des messages, etc. Les infrastructures utilisent également les technologies Big Data, des trolleybus aux avions et fusées. Ainsi, dans le métro de Londres, les tourniquets enregistrent chaque jour environ 20 millions de passages. Grâce à une analyse réalisée sur la base des technologies Big Data, 10 épicentres possibles ont été identifiés, ce qui est également pris en compte dans le développement ultérieur du système. métro. Il ne fait aucun doute que la variété et le volume de données résultant de toutes sortes d’interactions constituent une base puissante permettant aux entreprises d’établir et d’affiner leurs prévisions, d’identifier des modèles, d’évaluer leurs performances, etc. Cependant, tout a ses propres inconvénients, qui doivent également être soigneusement pris en compte. Malgré les avantages évidents et potentiels de l'utilisation du Big Data, leur utilisation a également ses inconvénients, qui sont principalement liés aux grands volumes d'informations et aux différentes méthodes d'accès. il et souvent des ressources insuffisantes soutiennent les fonctions de sécurité de l'information dans les organisations. Les problématiques liées à l’utilisation des technologies Big Data sont présentées dans la figure 4.

Riz. 4. Problèmes d'utilisation du Big Data

Tous ces problèmes conduisent au fait que de nombreuses entreprises hésitent à introduire des technologies Big Data, car lorsqu'elles travaillent avec des tiers, elles ont elles-mêmes le problème de divulguer des informations privilégiées que l'entreprise ne pourrait pas divulguer en utilisant uniquement ses propres ressources. étape la plus importante Sur la voie de la mise en œuvre complète des technologies basées sur le big data, il doit y avoir un aspect législatif. Il existe déjà des lois limitant la collecte, l'utilisation et le stockage de certains types de données personnelles, mais elles ne limitent pas complètement le Big Data, il doit donc y avoir une législation spéciale pour celles-ci. Afin de se conformer aux nouvelles lois en évolution rapide, les entreprises doivent réaliser un premier inventaire des réglementations pertinentes et mettre régulièrement à jour cette liste. Cependant, malgré toutes les lacunes ci-dessus, comme le montre l'expérience des représentants occidentaux, les technologies Big Data sont utiles. pour résoudre avec succès à la fois les tâches commerciales modernes et la compétitivité croissante, ainsi que les tâches directement liées à la vie des gens. Les entreprises russes sont déjà sur la voie de la mise en œuvre des technologies Big Data, tant dans le domaine de la production que dans la sphère publique, puisque la quantité d'informations double presque chaque année. Au fil du temps, de nombreux domaines de nos vies seront modifiés par le Big Data.

Liens vers les sources 1. BudzkoV. I. Systèmes à haute disponibilité et Big Data // Big Data dans l'économie nationale 2013. P. 1619.2. «EMC Data Lake 2.0 - un moyen de transition vers l'analyse du Big Data et l'économie numérique» http://bigdata. cnews.ru/ News/Line/20151203_EMC_DATA_LAKE_20_POMOZHET_PEREJTI_K_ANALITIKE.3. Kiryanova A. « Le Big data n'est pas devenu Maynstam dans les banques russes » http://www.cnews/top/bolshie_dannye_ne_ne Mejnstrimom.4.cnews « Infographie : le Big data est arrivé en Russie » http http://bigdata.cnews.ru/articles/infografika_bolshie_dannye_prishli_v_rossiyu.5.CNews « Infographie : Comment le commerce de détail utilise le Big Data » http://bigdata.cnews.ru/articles/infografika_kak_roznitsa_ispolzuet il n'y a pas de dispositions législatives spéciales dans le monde concernant le Big Data, les données doivent être masquées pour protéger les sources de données d'origine. Les entreprises doivent être sûres que toutes les exigences de sécurité des données sont surveillées et prises en charge. La mise en œuvre de solutions Big Data peut entraîner la création ou la découverte d'informations auparavant confidentielles. Gestion des données Maintien des exigences de sécurité des données. Légal réglementations Identification des risques 6.CNews "Infographies" : Technologies BigData" http://bigdata.cnews.ru/articles/big_data_v_zhizni_cheloveka.7.CNews"Infographies : Ce que le big data peut faire dans les banques" http://bigdata.cnews.ru /articles/infografika_chto_mogut_bolshie_dannye.8.Moscow Exchange " Revue analytique du marché du BigData" http://habrahabr.ru/company/moex/blog/256747/9. http://www.tadviser.ru/index.php/Article:Big_Data_(Big_Data).10.BigData – l'électricité du XXIe siècle http://bit.samag.ru/archive/article/1463.11.McKinsey Global Institute « Bigdata : la prochaine frontière pour l'innovation, la concurrence et la productivité » (juin 2011).

(littéralement - mégadonnées) ? Regardons d'abord le dictionnaire Oxford :

Données- les grandeurs, signes ou symboles qu'un ordinateur exploite et qui peuvent être stockés et transmis sous forme de signaux électriques, enregistrés sur des supports magnétiques, optiques ou mécaniques.

Terme Mégadonnées utilisé pour décrire un vaste ensemble de données qui croît de façon exponentielle au fil du temps. Pour traiter une telle quantité de données, le machine learning est indispensable.

Les avantages du Big Data :

Collecte de données provenant de diverses sources.
Améliorer les processus métier grâce à des analyses en temps réel.
Stocker d’énormes quantités de données.
Connaissances. Le Big Data permet de mieux comprendre les informations cachées grâce à des données structurées et semi-structurées.
Le Big Data vous aide à réduire les risques et à prendre des décisions intelligentes grâce aux bonnes analyses des risques.

Exemples de mégadonnées

Bourse de New York génère quotidiennement 1 téraoctet données de trading de la session précédente.

Réseaux sociaux: Les statistiques montrent que Facebook télécharge tous les jours 500 téraoctets de nouvelles données sont générées principalement grâce au téléchargement de photos et de vidéos sur des serveurs de réseaux sociaux, à la messagerie, aux commentaires sous les publications, etc.

Moteur à réaction génère 10 téraoctets données toutes les 30 minutes pendant le vol. Comme des milliers de vols sont effectués chaque jour, le volume de données atteint des pétaoctets.

Classement des mégadonnées

Formulaires Big Data :

Structuré
Non structuré
Semi-structuré

Forme structurée

Les données qui peuvent être stockées, consultées et traitées sous une forme avec un format fixe sont dites structurées. Au fil du temps, l'informatique a fait de grands progrès dans l'amélioration des techniques de travail avec ce type de données (dont le format est connu à l'avance) et a appris à en tirer profit. Cependant, il existe déjà aujourd'hui des problèmes liés à la croissance des volumes jusqu'à des tailles mesurées dans la gamme de plusieurs zettaoctets.

1 zettaoctet équivaut à un milliard de téraoctets

Au vu de ces chiffres, il est facile de constater la véracité du terme Big Data et les difficultés liées au traitement et au stockage de ces données.

Les données stockées dans une base de données relationnelle sont structurées et ressemblent, par exemple, à des tableaux d'employés d'une entreprise.

Forme non structurée

Les données de structure inconnue sont classées comme non structurées. En plus de sa grande taille, cette forme se caractérise par un certain nombre de difficultés de traitement et d'extraction d'informations utiles. Un exemple typique de données non structurées est une source hétérogène contenant une combinaison de simples fichiers texte, d’images et de vidéos. Aujourd’hui, les organisations ont accès à de grandes quantités de données brutes ou non structurées, mais ne savent pas comment en tirer de la valeur.

Forme semi-structurée

Cette catégorie contient les deux catégories décrites ci-dessus. Les données semi-structurées ont donc une certaine forme mais ne sont pas réellement définies par les tables des bases de données relationnelles. Un exemple de cette catégorie sont les données personnelles présentées dans un fichier XML.

Prashant RaoMâle35 Seema R.Femelle41 Crinière SatishMâle29 Subrato RoyMâle26 Jérémie J.Mâle35

Caractéristiques du Big Data

Croissance du Big Data au fil du temps :

La couleur bleue représente les données structurées (données d'entreprise), qui sont stockées dans des bases de données relationnelles. D'autres couleurs indiquent des données non structurées provenant de diverses sources (téléphonie IP, appareils et capteurs, réseaux sociaux et applications web).

Selon Gartner, le big data varie en termes de volume, de taux de génération, de variété et de variabilité. Examinons de plus près ces caractéristiques.

Volume. Le terme Big Data lui-même est associé à une grande taille. La taille des données est une mesure essentielle pour déterminer la valeur potentielle à extraire. Chaque jour, 6 millions de personnes utilisent les médias numériques, générant environ 2,5 quintillions d'octets de données. Le volume est donc la première caractéristique à considérer.
Diversité- l'aspect suivant. Il fait référence à des sources hétérogènes et à la nature des données, qui peuvent être structurées ou non. Auparavant, les feuilles de calcul et les bases de données étaient les seules sources d'informations prises en compte dans la plupart des applications. Aujourd'hui, les données sous forme d'e-mails, de photos, de vidéos, de fichiers PDF et d'audio sont également prises en compte dans les applications analytiques. Cette variété de données non structurées entraîne des problèmes de stockage, d'exploration et d'analyse : 27 % des entreprises ne sont pas sûres de travailler avec les bonnes données.
Vitesse de génération. La rapidité avec laquelle les données sont accumulées et traitées pour répondre aux exigences détermine le potentiel. La vitesse détermine la vitesse du flux d'informations à partir des sources - processus métier, journaux d'applications, sites de réseaux sociaux et multimédias, capteurs, appareils mobiles. Le flux de données est énorme et continu dans le temps.
Variabilité décrit la variabilité des données à certains moments, ce qui complique le traitement et la gestion. Par exemple, la plupart des données sont de nature non structurée.

Big Data Analytics : quels sont les avantages du Big Data

Promotion des biens et services: L'accès aux données des moteurs de recherche et des sites comme Facebook et Twitter permet aux entreprises de développer plus précisément des stratégies marketing.

Améliorer le service aux clients: Les systèmes traditionnels de commentaires des clients sont remplacés par de nouveaux qui utilisent le Big Data et le traitement du langage naturel pour lire et évaluer les commentaires des clients.

Calcul du risque associé à la sortie d’un nouveau produit ou service.

Efficacité opérationnelle: le big data est structuré afin d'extraire rapidement les informations nécessaires et de produire rapidement des résultats précis. Cette combinaison de Big Data et de technologies de stockage aide les organisations à optimiser leur travail avec des informations rarement utilisées.