Codes de longueur fixe et variable. Questions et devoirs. Encodage et compression des informations

>>Informatique : Informatique 9e année. Addendum au chapitre 1

Addendum au chapitre 1

1.1. Transfert d'informations via des canaux de communication techniques

Principaux sujets du paragraphe :

♦ Le schéma de K. Shannon ;
♦ codage et décodage de l'information ;
♦ bruit et protection contre le bruit. Théorie du codage par K. Shannon.

Le schéma de K. Shannon

Le scientifique américain, l'un des fondateurs de la théorie de l'information, Claude Shannon, a proposé un diagramme de processus transfert d'informations via les canaux de communication techniques, illustrés à la Fig. 1.3.

Le fonctionnement d’un tel système peut être expliqué à l’aide du processus familier consistant à parler au téléphone. La source de l'information est la personne qui parle. Le dispositif de codage est le microphone du combiné téléphonique, à l'aide duquel les ondes sonores (parole) sont converties en signaux électriques. Le canal de communication est le réseau téléphonique (fils, commutateurs de nœuds téléphoniques par lesquels passe le signal). L'appareil de décodage est le combiné (écouteur) de la personne qui écoute - le récepteur de l'information. Ici, le signal électrique entrant est converti en son.

La communication dans laquelle la transmission se fait sous la forme d’un signal électrique continu est appelée communication analogique.

Encodage et décodage des informations

Le codage fait référence à toute transformation d'informations provenant d'une source sous une forme adaptée à la transmission sur un canal de communication.

À l’aube de l’ère de la radio, le code Morse était utilisé. Le texte a été converti en une séquence de points et de tirets (signaux courts et longs) et diffusé. La personne qui recevait une telle transmission à l’oreille devait être capable de décoder le code en texte. Même plus tôt, le code Morse était utilisé dans les communications télégraphiques. La transmission d'informations à l'aide du code Morse est un exemple de communication discrète.

Actuellement, les communications numériques sont largement utilisées, lorsque les informations transmises information codé sous forme binaire (0 et 1 sont des chiffres binaires) puis décodé en texte, image, son. La communication numérique est évidemment aussi discrète.

Protection contre le bruit et le bruit. La théorie du codage de K. Shannon

Le terme « bruit » fait référence à différents types d'interférences qui déforment le signal transmis et entraînent une perte d'informations. De telles interférences surviennent principalement pour des raisons techniques : mauvaise qualité des lignes de communication, insécurité des différents flux d'informations transmis les uns aux autres sur les mêmes canaux. Souvent, lorsque nous parlons au téléphone, nous entendons du bruit, des crépitements qui rendent difficile la compréhension de l'interlocuteur, ou notre conversation se superpose à celle d'autres personnes. Dans de tels cas, une protection contre le bruit est nécessaire.

Tout d'abord, des méthodes techniques sont utilisées pour protéger les canaux de communication du bruit. Ces méthodes peuvent être très différentes, parfois simples, parfois très complexes. Par exemple, en utilisant un câble blindé au lieu d'un fil nu ; l'utilisation de différents types de filtres qui séparent le signal utile du bruit, etc.

Claude Shannon a développé une théorie de codage spéciale qui fournit des méthodes pour gérer le bruit. L’une des idées importantes de cette théorie est que le code transmis sur la ligne de communication doit être redondant. De ce fait, la perte d'une partie des informations lors de la transmission peut être compensée. Par exemple, si vous êtes malentendant lorsque vous parlez au téléphone, en répétant chaque mot deux fois, vous avez plus de chances que l'autre personne vous comprenne correctement.

Toutefois, la redondance ne doit pas être trop importante. Cela entraînera des retards et des coûts de communication plus élevés. La théorie du codage de K. Shannon permet d'obtenir un code qui sera optimal. Dans ce cas, la redondance des informations transmises sera la plus minimale possible, et la fiabilité des informations reçues sera maximale.

Dans les systèmes de communication numérique modernes, la technique suivante est souvent utilisée pour lutter contre la perte d'informations lors de la transmission. L'ensemble du message est divisé en portions - des paquets. Pour chaque paquet, un contrôle est calculé somme(somme de chiffres binaires), qui est transmis avec ce paquet. Sur le site de réception, la somme de contrôle du paquet reçu est recalculée, et si elle ne coïncide pas avec celle d'origine, alors la transmission de ce paquet est répétée. Cela se produit jusqu'à ce que les sommes de contrôle source et destination correspondent.

En bref sur l'essentiel

Tout système de transmission d'informations techniques se compose d'une source, d'un récepteur, de dispositifs de codage et de décodage et d'un canal de communication.

Le codage fait référence à la transformation d'informations provenant d'une source sous une forme adaptée à la transmission sur un canal de communication. Le décodage est la transformation inverse.

Le bruit est une interférence qui entraîne une perte d'informations.

En théorie du codage, des méthodes ont été développées pour représenter les informations transmises afin de réduire leurs pertes sous l'influence du bruit.

Questions et tâches

1. Nommez les principaux éléments du schéma de transfert d'informations proposé par K. Shannon.
2. Qu'est-ce que le codage et le décodage lors de la transmission d'informations ?
3. Qu'est-ce que le bruit ? Quelles sont ses conséquences dans la transmission de l’information ?
4. Quelles méthodes existent pour lutter contre le bruit ?

1.2. Archivage et décompression de fichiers

Principaux sujets du paragraphe :

♦ problème de compression des données ;
♦ algorithme de compression utilisant un code de longueur variable ;
♦ algorithme de compression utilisant le facteur de répétition ;
♦ programmes d'archivage.

Problème de compression des données

Vous savez déjà qu'avec l'aide de l'Internet mondial, l'utilisateur a accès à d'énormes ressources d'information. Sur Internet, vous pouvez trouver un livre rare, un essai sur presque tous les sujets, des photographies et de la musique, un jeu informatique et bien plus encore. La transmission de ces données sur le réseau peut poser des problèmes en raison de leur volume important. La capacité des canaux de communication est encore assez limitée. Par conséquent, le temps de transfert peut être trop long, ce qui entraîne des coûts financiers supplémentaires. De plus, il se peut qu'il n'y ait pas suffisamment d'espace disque libre pour les fichiers volumineux.

La solution au problème est la compression des données, qui réduit la quantité de données tout en préservant le contenu qui y est codé. Les programmes qui effectuent une telle compression sont appelés archiveurs. Les premiers archiveurs sont apparus au milieu des années 1980 du 20e siècle. L'objectif principal de leur utilisation était d'économiser de l'espace sur les disques, dont le volume d'informations à l'époque était nettement inférieur à celui des disques modernes.

La compression des données (archivage de fichiers) s'effectue à l'aide d'algorithmes spéciaux. Ces algorithmes utilisent le plus souvent deux idées fondamentalement différentes.

Algorithme de compression utilisant un code de longueur variable

Première idée : utiliser du code de longueur variable. Les données en cours de compression sont spécialement divisées en parties (chaînes de caractères, « mots »). Notez qu'un « mot » peut également être un caractère distinct (code ASCII). Pour chaque « mot », la fréquence d'occurrence est trouvée : le rapport entre le nombre de répétitions d'un « mot » donné et le nombre total de « mots » dans le tableau de données. L'idée de l'algorithme de compression d'informations est d'encoder les « mots » les plus fréquents avec des codes de longueur plus courte que les « mots » rarement présents. Cela peut réduire considérablement la taille du fichier.

Cette approche est connue depuis longtemps. Il est utilisé dans le code Morse, où les caractères sont codés dans diverses séquences de points et de tirets, les caractères les plus fréquents ayant des codes plus courts. Par exemple, la lettre « A » fréquemment utilisée est codée comme suit : -. Et la rare lettre « F » est codée : -. Contrairement aux codes de même longueur, il existe dans ce cas un problème de séparation des codes de lettres les uns des autres. En code Morse, ce problème est résolu à l'aide d'une « pause » (espace), qui est en fait le troisième caractère de l'alphabet Morse, c'est-à-dire que l'alphabet Morse n'est pas composé de deux, mais de trois caractères.

Les informations dans la mémoire de l'ordinateur sont stockées à l'aide d'un alphabet à deux caractères. Il n'y a pas de caractère délimiteur spécial. Et pourtant, nous avons réussi à trouver un moyen de compresser des données avec une longueur de code variable de « mots » qui ne nécessite pas de caractère délimiteur. Cet algorithme est appelé algorithme de D. Huffman (publié pour la première fois en 1952). Tous les archiveurs universels fonctionnent en utilisant des algorithmes similaires à l'algorithme de Huffman.

Algorithme de compression utilisant le facteur de répétition

Deuxième idée : utiliser le facteur de répétition. La signification de l'algorithme basé sur cette idée est la suivante : si une chaîne de groupes de caractères répétitifs est rencontrée dans le tableau de données compressées, alors elle est remplacée par une paire : le nombre (coefficient) de répétitions - un groupe de caractères. Dans ce cas, pour les longues chaînes répétitives, le gain de mémoire lors de la compression peut être très important. Cette méthode est la plus efficace lors du conditionnement d’informations graphiques.

Programmes d'archivage

Les programmes d'archives créent des fichiers d'archives (archives). Une archive est un fichier dans lequel un ou plusieurs fichiers sont stockés sous forme compressée. Pour utiliser des fichiers archivés, vous devez les supprimer de l'archive - décompressez-les. Tous programmes-archiveurs offrent généralement les fonctionnalités suivantes :

Ajout de fichiers à l'archive ;
extraire des fichiers de l'archive ;
supprimer des fichiers de l'archive ;
visualiser le contenu des archives.

Actuellement, les archiveurs les plus populaires sont WinRar et WinZip. WinRar possède des fonctionnalités plus avancées que WinZip. Il permet notamment de créer une archive multivolume (ce qui est pratique si l'archive doit être copiée sur une disquette et que sa taille dépasse 1,44 Mo), ainsi que la possibilité de créer une archive auto-extractible ( dans ce cas, l'archiveur lui-même n'est pas nécessaire pour extraire les données de l'archive) .

Donnons un exemple des avantages de l'utilisation d'archiveurs lors du transfert de données sur un réseau. La taille du document texte contenant le paragraphe que vous êtes en train de lire est de 31 Ko. Si ce document est archivé à l'aide de WinRar, la taille du fichier d'archive ne sera que de 6 Ko. Comme on dit, les avantages sont évidents.

L'utilisation de programmes d'archivage est très simple. Pour créer une archive, vous devez d'abord sélectionner les fichiers qui doivent y être inclus, puis définir les paramètres nécessaires (méthode d'archivage, format d'archive, taille du volume si l'archive est multivolume), et enfin émettre la commande CREATE ARCHIVE. L'action inverse se produit de la même manière : extraire les fichiers de l'archive (décompresser l'archive). Tout d'abord, vous devez sélectionner les fichiers à extraire de l'archive, deuxièmement, déterminer où ces fichiers doivent être placés et enfin, émettre la commande EXTRAIRE LES FICHIERS DE L'ARCHIVE. Vous en apprendrez davantage sur le travail des programmes d'archivage lors de cours pratiques.

En bref sur l'essentiel

Les informations sont compressées à l'aide de programmes d'archivage spéciaux.

Les deux méthodes les plus couramment utilisées dans les algorithmes de compression sont l'utilisation d'un code de longueur variable et l'utilisation d'un facteur de répétition de groupe de caractères.

Questions et tâches

1. Quelle est la différence entre les codes de longueur constante et variable ?
2. Quelles sont les capacités des programmes d'archivage ?
3. Quelle est la raison de l'utilisation généralisée des programmes d'archivage ?
4. Connaissez-vous d'autres programmes d'archivage en plus de ceux répertoriés dans ce paragraphe ?

I. Semakin, L. Zalogova, S. Rusakov, L. Shestakova, Informatique, 9e année
Soumis par des lecteurs de sites Internet

Cours d'informatique ouvert, plan scolaire, résumés d'informatique, tout pour qu'un élève fasse ses devoirs, télécharger l'informatique de 9e année

Contenu de la leçon notes de cours cadre de support présentation de cours méthodes d'accélération technologies interactives Pratique tâches et exercices ateliers d'auto-test, formations, cas, quêtes devoirs questions de discussion questions rhétoriques des étudiants Illustrations audio, clips vidéo et multimédia photographies, images, graphiques, tableaux, diagrammes, humour, anecdotes, blagues, bandes dessinées, paraboles, dictons, mots croisés, citations Modules complémentaires résumés articles astuces pour les curieux crèches manuels scolaires dictionnaire de base et supplémentaire des termes autres Améliorer les manuels et les leçonscorriger les erreurs dans le manuel mise à jour d'un fragment dans un manuel, éléments d'innovation dans la leçon, remplacement des connaissances obsolètes par de nouvelles Uniquement pour les enseignants des leçons parfaites plan de calendrier pour l'année ; recommandations méthodologiques ; programmes de discussions ; Leçons intégrées

Si vous avez des corrections ou des suggestions pour cette leçon,

Bloc A

Frais fixes

Coûts variables



Lors de l'analyse des produits manufacturés, l'attention principale doit être portée à l'analyse de leur coût. Le coût est l'évaluation des ressources naturelles, des matières premières, des matériaux, du carburant, de l'énergie, des immobilisations, des ressources en main-d'œuvre et des autres coûts pour leur production et leur vente utilisés dans le processus de production de produits (travaux, services). Par détermination du coût de production, on entend le calcul des coûts par unité. produits. La production de produits peut être considérée comme justifiée si le produit de la vente des produits couvre tous les coûts de l'entreprise. Et sinon, la production n’est pas rentable. Ceux. la production sera justifiée lorsque l'entreprise atteindra le volume de production et de ventes correspondant au point de profit nul. Les biens de consommation sont le volume des ventes sur lequel l’entreprise réalise un profit.

De plus, conformément au critère d’optimalité de Pareto pour la structure de la production, la production sera efficace si elle maximise simultanément l’utilité des acheteurs et ne dépasse pas les limites des ressources disponibles (c’est-à-dire qu’elle se situe sur la courbe des possibilités de production). La structure de la production est efficace si la production et la consommation sont simultanément dans un état d’équilibre.

Quelle est la différence entre le bénéfice comptable d’une entreprise et le revenu marginal qu’elle a perçu au cours de la même période ?

Revenu marginal est calculé comme la différence entre les revenus des ventes de produits (hors TVA et droits d'accise) et les coûts variables. En d’autres termes, MD est la somme des dépenses fixes et du bénéfice des ventes. Le MD doit couvrir les coûts fixes de l'entreprise et lui faire bénéficier des bénéfices de la vente des produits, travaux et services. Ce chiffre est également appelé montant de couverture.

MD = Chiffre d'affaires - coûts variables

MD= Coûts fixes + Bénéfice des ventes

Bénéfice comptable - Le bénéfice total tiré des activités commerciales est calculé selon la comptabilité. Bénéfice comptable est calculé comme la différence entre le revenu total de l'entreprise et les coûts comptables (explicites). Les frais comptables sont le coût des ressources utilisées par l'entreprise aux prix réels de leur acquisition. Les coûts explicites sont entièrement reflétés dans la comptabilité, c'est pourquoi ils sont également appelés coûts comptables. Les coûts explicites sont déterminés par le montant des dépenses de l'entreprise pour payer les ressources externes, c'est-à-dire ressources n’appartenant pas à l’entreprise. Par exemple, les matières premières, les matériaux, le carburant, la main d'œuvre, etc.

Bénéfice comptable = Revenu total de l'entreprise - Coûts comptables (explicites)

(Ainsi, le bénéfice comptable est inférieur à la marge de contribution du montant des coûts fixes explicites.)

Quels sont les principaux facteurs influençant le montant du revenu marginal d’une entreprise ?

Un rôle majeur dans la justification des décisions de gestion est joué par l'analyse marginale (marginale), dont la méthodologie est basée sur l'étude de la relation entre trois groupes d'indicateurs économiques les plus importants « coûts - volume de production (ventes) de produits - profit » et prédire la valeur critique et optimale de chacun de ces indicateurs à une valeur donnée des autres. La principale catégorie d’analyse marginale est le revenu marginal. Le revenu marginal (bénéfice) est la différence entre le chiffre d'affaires (hors TVA et droits d'accise) et les coûts variables. Les changements dans le revenu marginal peuvent être influencés (ensemble ou séparément) par deux facteurs : une augmentation (diminution) des revenus et des coûts. Un facteur important influençant la rentabilité des objets individuels à profit marginal est le montant et la structure du coût partiel. Le montant du revenu marginal (bénéfice) dépend directement du montant du coût partiel. La prédominance des coûts variables dans la structure des coûts incomplets indique le fait qu'un volume de ventes important n'est pas nécessaire pour atteindre le seuil de rentabilité pour un objet de revenu marginal donné. La prédominance des coûts fixes directs dans la structure des coûts incomplets indique la nécessité d'augmenter le volume des ventes pour les récupérer.

Bloc B

Quelle est la différence entre le coût de production réduit d'une entreprise en coût direct et son coût total en comptabilité ?

La réduction du coût des produits industriels en coût direct est prise en compte et planifiée uniquement en termes de coûts variables. Les dépenses fixes sont collectées sur un compte séparé et débitées directement sur un compte de résultats financiers, tel que les profits et pertes, à des intervalles spécifiés. Les soldes des GP dans les entrepôts en début et fin d'année et les travaux en cours sont également évalués sur la base des coûts variables. Le coût complet en comptabilité implique l'inclusion de dépenses fixes et variables dans le coût.

Options de calcul du coût des travaux mutuellement fournis et des prix de transfert correspondants.

Les résultats les plus précis de la distribution des services mutuellement fournis sont obtenus en résolvant un système d'équations de coûts linéaires pour chaque division interne de l'usine. De manière générale, le système d'équations des lieux et des centres de coûts a la forme suivante :

Rni – le montant des frais primaires des places ; q je– le volume des services fournis à l'unité ; n– lieu des frais je-ème division ( je = 1, ... n); k je , k j – coefficients de répartition des coûts j-ème lieu des frais.

À méthode unilatérale le coût des services de première place ne concerne que la production principale de l'entreprise ; le montant des dépenses liées à l'échange mutuel d'activités n'est pas pris en compte. Les coefficients de répartition sont calculés à l'aide de la formule :

À - coefficient de répartition ; R. pm les coûts des places primaires ; Q pm – le volume de services consommés au total par toutes les divisions de la production principale de l'entreprise.

Lors de l'utilisation méthode de distribution par étapes la séquence d'amortissement des coûts des centres de coûts primaires est déterminée. Habituellement, ils commencent par des ateliers et des fermes auxiliaires, dont les services sont nécessaires à tous. Le coefficient de distribution dans ce cas est calculé à l'aide de la formule

R correctif, R var – les coûts fixes et variables répartis par le centre de coûts précédent ; Q PM – le volume des services primaires transférés à la division suivante de l'entreprise.

Du point de vue du contrôle de la taille et de la rentabilité des coûts des places et des centres au sein d'une entreprise, il existe une méthode budgétisation des coûts et méthode comparaison des coûts et de la productivité. Dans le premier cas, pour chaque lieu de dépense ou centre de responsabilité, un budget (estimation) des coûts est établi et, sur la base des données comptables de leur valeur réelle, son respect est contrôlé. Lors de l'utilisation de la méthode de comparaison des coûts et de la productivité dans le contexte de chaque division de l'entreprise, les écarts provoqués par des changements dans la valeur de la productivité ou le degré d'utilisation des capacités de production et le niveau des coûts d'un site ou d'un centre sont identifiés.

Bloc C

1. De quoi dépend l’utilisation de la capacité de production d’une entreprise et comment est-elle mesurée ?

L'utilisation des capacités de production est le niveau d'utilisation des capacités de production potentielles, qui est évalué par le rapport entre la production réelle et le maximum possible.

L'utilisation de la capacité de production est généralement mesurée par la durée d'utilisation d'une ressource donnée par jour, semaine ou mois. La charge de PM peut être calculée comme la somme des produits du volume de produits fabriqués de chaque type et du temps de production d'une unité de produit de chaque type dans la zone d'étude.

En règle générale, les PM ne sont pas pleinement utilisés en raison de l'influence des facteurs limitants suivants : le niveau de demande de produits manufacturés, le volume des ressources matérielles disponibles (matériaux, matières premières, carburant) nécessaires à la production, la possibilité limitée d'utiliser d'autres capacités de l'entreprise, affectant le niveau de production maximum possible au cours d'un cycle, etc.

2. Quels coûts dépendent du degré d’utilisation de la capacité de production de l’entreprise ? ?

La ou les capacités de production d'une entreprise ne sont pas une quantité homogène, mais une quantité homogène, constituée des capacités de production des divisions individuelles (magasins, sections) de l'entreprise. Pour diverses raisons, notamment objectives, ces capacités ne sont pas entièrement liées les unes aux autres, par exemple en raison de la productivité différente des machines, machines et autres équipements. Il ressort clairement de là que les coûts des ressources matérielles et en main-d'œuvre doivent être pris en compte sur la base d'un certain niveau d'utilisation des capacités de production, généralement inférieur à 100 %. Une capacité sous-utilisée signifie des opportunités inutilisées pour augmenter la production et réduire les coûts de production. Il s'ensuit que le niveau de charge du PM affecte la taille des coûts variables.

3. Quel est le montant des dépenses totales de l'entreprise ?

La taille du montant total des dépenses de l'entreprise correspond aux coûts bruts de l'entreprise (?), qui sont un ensemble de coûts constants et immuables et de coûts variables, en fonction du volume de produits fabriqués et vendus.

Avantages

Le système de calcul des coûts standard vous permet de réduire considérablement la quantité de travail comptable ;

Fournit une base solide pour identifier les écarts significatifs dans les comparaisons de coûts ;

Contribue à améliorer l'efficacité de la gestion et le contrôle des coûts, car cela nécessite une étude détaillée de toutes les fonctions de production, administratives et commerciales de l'entreprise, ce qui aboutit au développement des approches de gestion les plus optimales tout en réduisant les coûts ;

Les coûts standards constituent le meilleur critère pour estimer les coûts réels ;

Fournit aux utilisateurs des informations sur les coûts attendus de production et de vente de produits ;

Vous permet de fixer des prix en fonction d'un coût unitaire prédéterminé ;

Permet d'établir un rapport sur les revenus et dépenses, identifiant les écarts par rapport aux normes et les raisons de leur apparition.

Inconvénients

Une grande attention est portée aux coûts et à la productivité du travail ;

Ne fournit pas à l'entreprise suffisamment d'informations pour trouver des moyens d'améliorer ses activités ;

Il ne couvre pas tous les aspects de l’augmentation de l’efficacité de la production ;

S'applique aux coûts périodiquement récurrents ;

Le succès de la demande dépend de la composition et de la qualité du cadre réglementaire ;

Incapacité à fixer des normes pour des types individuels de coûts.

Bloc D

Bloc A

Quelle est la différence entre les dépenses fixes et variables d’une entreprise ?

Le critère de division des coûts en fixes et variables est leur dépendance au volume de production.

Frais fixes ne changent pas automatiquement avec les changements dans les volumes de production ou avec les changements dans la capacité de production. Par conséquent, le concept de coûts fixes est plus applicable aux périodes de l’année où la composition et le niveau d’utilisation de la capacité de production de l’entreprise ne changent pas de manière significative.

L'éventail des coûts fixes ne peut être uniforme pour toutes les industries et doit être clarifié en tenant compte des spécificités de l'entreprise. Les dépenses fixes comprennent généralement les intérêts des prêts, le loyer, les salaires des employés de direction, les frais de sécurité des locaux, l'entretien et les réparations courantes des bâtiments, les frais d'essais, d'expérimentations et de recherche, etc. Les frais fixes comprennent également les charges d'amortissement (pour la restauration du capital fixe). Le niveau des coûts fixes par unité de production a tendance à diminuer à mesure que le volume de production augmente, et vice versa.

L'augmentation des constantes est associée à une augmentation de la capacité de production et se produit en raison d'investissements en capital et d'une attraction supplémentaire de fonds de roulement. La réduction de la valeur absolue des coûts fixes est obtenue en rationalisant la production, en réduisant les coûts de gestion et en vendant les immobilisations excédentaires.

Coûts variables augmentent ou diminuent en montant absolu en fonction des changements dans le volume de production et sont divisés en parties proportionnelles et disproportionnées.

Les dépenses proportionnelles comprennent les coûts des matières premières, des matériaux de base, des produits semi-finis, les salaires des principaux ouvriers rémunérés à la pièce, la part prédominante des coûts de carburant et d'énergie à des fins technologiques, les coûts des conteneurs et de l'emballage des produits.

Les coûts disproportionnés peuvent être progressifs (c'est-à-dire augmenter plus rapidement que le volume de production) et dégressifs (si l'ampleur de leur augmentation est inférieure à la variation de la quantité de production)

La compression d'informations dans la mémoire d'un ordinateur est une transformation d'informations qui entraîne une réduction de la quantité de mémoire occupée tout en préservant le contenu encodé. Il existe différentes méthodes de compression pour différents types de données. Uniquement pour Une douzaine de méthodes différentes sont utilisées pour compresser les informations graphiques. Ici, nous examinerons l'un des moyens de compresser des informations textuelles.

Dans une table de codage de caractères sur huit bits (telle que ASCII), chaque caractère est codé sur huit bits et occupe donc 1 octet en mémoire. Dans la section 1.3 de notre manuel, il a été dit que la fréquence d'apparition de différentes lettres (caractères) dans le texte est différente. Il y a également été montré que plus la fréquence d'apparition des symboles est faible, plus le poids informationnel des symboles est élevé.

L'idée de compresser du texte dans la mémoire de l'ordinateur est liée à cette circonstance : refuser d'encoder tous les caractères avec des codes de même longueur.

Symboles avec moins de poids informationnel, c'est-à-dire

les caractères fréquents doivent être codés avec un code plus court que les caractères moins fréquents. Avec cette approche, vous pouvez réduire considérablement la quantité de code texte total et, par conséquent, l'espace qu'il occupe dans la mémoire de l'ordinateur.

Cette approche est connue depuis longtemps. Il est utilisé dans le code Morse bien connu, dont plusieurs codes sont donnés dans le tableau. 3.1, où le « point » est codé comme zéro et le « tiret » comme un.

Contrairement aux codes de longueur égale utilisés dans la norme ASCII, cela crée le problème de la séparation entre les codes de lettres individuelles. En code Morse, ce problème est résolu à l'aide d'une « pause » (espace), qui est en fait le troisième caractère de l'alphabet Morse, c'est-à-dire L'alphabet Morse ne comporte pas deux, mais trois caractères.

Qu’en est-il du codage informatique utilisant l’alphabet binaire ? L'algorithme de D. A. Huffman (D. A. Huffman, 1952) est l'un des moyens les plus simples, mais très efficaces, de construire des codes de différentes longueurs qui ne nécessitent pas de délimiteur spécial. À l'aide de cet algorithme, un arbre binaire est construit, qui vous permet de décoder sans ambiguïté un code binaire composé de codes de caractères de différentes longueurs. Un arbre binaire est un arbre qui a deux branches provenant de chaque sommet. Sur riz. 3.2 montre un exemple d'un tel arbre construit pour l'alphabet anglais, en tenant compte de la fréquence d'apparition de ses lettres. Les codes ainsi obtenus peuvent être résumés dans un tableau.

Tableau 3.2

les caractères fréquents doivent être codés avec un code plus court que les caractères moins fréquents. Avec cette approche, vous pouvez réduire considérablement la quantité de code texte total et, par conséquent, l'espace qu'il occupe dans la mémoire de l'ordinateur.

Code de Huffman

Utiliser le tableau 3.2 texte facile à encoder. Ainsi, par exemple, une chaîne de 29 caractères

WENEEDMOR ESNOWFORBE TTERSKIING est converti en code : 011101 100 1100 100 100 110110001111101011100 IT 1100 1110 011101 01001 1110 1011 011100 100 001001 00 10110110 110100011 1010 1010 1100 00001, qui, une fois placé en mémoire octet par octet, prendra la forme :

01110110 01100100 10011011 00011111 01011100 01101100 11100111 01010011 11010110 1110010000100110 01011011 01101000 11101010 10110000 001

Ainsi, un texte qui occupe 29 octets en codage ASCII ne prendra que 16 octets en codage Huffman.

La tâche inverse - le passage des codes de Huffman aux lettres de l'alphabet anglais - est réalisée à l'aide d'un arbre binaire (voir figure). Dans ce cas, le recodage s'effectue en parcourant le texte de gauche à droite à partir du premier chiffre, en se déplaçant le long des branches correspondantes (ayant le même code binaire) de l'arbre jusqu'à arriver au sommet final avec la lettre. Après avoir sélectionné une lettre dans le code, le processus de décodage de la lettre suivante recommence depuis le haut de l'arbre binaire.

Il est facile de deviner que l’arbre présenté est une version abrégée du code de Huffman.

Dans les programmes de compression de texte - les archiveurs, un tableau de la fréquence d'apparition des symboles est construit pour chaque texte traité, puis des codes de différentes longueurs, tels que les codes de Huffman, sont générés. Dans ce cas, la compression du texte devient encore plus efficace, puisque l'encodage est ajusté spécifiquement au texte donné.

Et plus la taille du texte est grande, plus l'effet de compression est important. Court Ô

l'essentiel

La compression de l'information est la transformation de l'information qui entraîne une réduction de la quantité de mémoire occupée tout en préservant le contenu encodé.

L'idée d'une méthode de compression de texte : la longueur d'un code de caractère diminue à mesure que son poids informationnel diminue, c'est-à-dire

avec une fréquence croissante dans le texte. L'algorithme de compression de Huffman est représenté sous forme d'arbre binaire.

Questions et tâches

    Les archiveurs utilisant l'algorithme de Huffman construisent leur arbre de codage binaire pour

    chaque texte.

    Quelle est la différence entre les codes de longueur constante et variable ?

Comment les codes de longueur variable permettent-ils de « compresser » du texte ?

11110111 10111100 00011100 00101100 10010011 01110100 11001111 11101101 001100

Encodez le texte suivant à l’aide des codes ASCII et Huffman : HAPPYNEWYEAR.



Chargez la batterie de votre téléphone sans téléphone

E-mail

Message