Ο κωδικός για το γράμμα e είναι ascii. Κωδικοποίηση πληροφοριών κειμένου

Το Unicode (Unicode στα Αγγλικά) είναι ένα πρότυπο κωδικοποίησης χαρακτήρων. Με απλά λόγια, αυτός είναι ένας πίνακας αντιστοιχίας μεταξύ χαρακτήρων κειμένου (γράμματα, στοιχεία στίξης) και δυαδικών κωδίκων. Ο υπολογιστής κατανοεί μόνο την ακολουθία των μηδενικών και των μονάδων. Για να γνωρίζει τι ακριβώς πρέπει να εμφανίζει στην οθόνη, είναι απαραίτητο να εκχωρήσετε σε κάθε χαρακτήρα τον δικό του μοναδικό αριθμό. Στη δεκαετία του ογδόντα, οι χαρακτήρες κωδικοποιούνταν σε ένα byte, δηλαδή οκτώ bit (κάθε bit είναι 0 ή 1). Έτσι, αποδείχθηκε ότι ένας πίνακας (γνωστός και ως κωδικοποίηση ή σετ) μπορεί να φιλοξενήσει μόνο 256 χαρακτήρες. Αυτό μπορεί να μην είναι αρκετό ούτε για μία γλώσσα. Ως εκ τούτου, εμφανίστηκαν πολλές διαφορετικές κωδικοποιήσεις, η σύγχυση με την οποία συχνά οδηγούσε στην εμφάνιση κάποιων περίεργων ασυναρτησιών στην οθόνη αντί για αναγνώσιμο κείμενο. Απαιτήθηκε ένα ενιαίο πρότυπο, το οποίο έγινε το Unicode. Η πιο χρησιμοποιούμενη κωδικοποίηση είναι το UTF-8 (Unicode Transformation Format), το οποίο χρησιμοποιεί 1 έως 4 byte για να αναπαραστήσει έναν χαρακτήρα.

Σύμβολα

Οι χαρακτήρες στους πίνακες Unicode αριθμούνται με δεκαεξαδικούς αριθμούς. Για παράδειγμα, το κυριλλικό κεφαλαίο γράμμα M χαρακτηρίζεται U+041C. Αυτό σημαίνει ότι βρίσκεται στη διασταύρωση της γραμμής 041 και της στήλης C. Μπορείτε απλά να το αντιγράψετε και μετά να το επικολλήσετε κάπου. Για να μην ψάξετε σε μια λίστα πολλών χιλιομέτρων, θα πρέπει να χρησιμοποιήσετε την αναζήτηση. Όταν μεταβείτε στη σελίδα συμβόλων, θα δείτε τον αριθμό Unicode και τον τρόπο γραφής του με διαφορετικές γραμματοσειρές. Μπορείτε να εισαγάγετε το ίδιο το σύμβολο στη γραμμή αναζήτησης, ακόμα κι αν αντ' αυτού έχει σχεδιαστεί ένα τετράγωνο, τουλάχιστον για να μάθετε τι ήταν. Επίσης, σε αυτόν τον ιστότοπο υπάρχουν ειδικά (και τυχαία) σύνολα εικονιδίων ίδιου τύπου, που συλλέγονται από διαφορετικές ενότητες, για ευκολία στη χρήση.

Το πρότυπο Unicode είναι διεθνές. Περιλαμβάνει χαρακτήρες από όλα σχεδόν τα σενάρια του κόσμου. Συμπεριλαμβανομένων αυτών που δεν χρησιμοποιούνται πλέον. Αιγυπτιακά ιερογλυφικά, γερμανικοί ρούνοι, γραφή των Μάγια, σφηνοειδής γραφή και αλφάβητα αρχαίων κρατών. Παρουσιάζονται επίσης ονομασίες βαρών και μέτρων, μουσική σημειογραφία και μαθηματικές έννοιες.

Η ίδια η κοινοπραξία Unicode δεν εφευρίσκει νέους χαρακτήρες. Τα εικονίδια που βρίσκουν τη χρήση τους στην κοινωνία προστίθενται στους πίνακες. Για παράδειγμα, το σύμβολο του ρουβλίου χρησιμοποιήθηκε ενεργά για έξι χρόνια πριν προστεθεί στο Unicode. Τα εικονογράμματα emoji (emoticons) χρησιμοποιήθηκαν επίσης για πρώτη φορά ευρέως στην Ιαπωνία προτού συμπεριληφθούν στην κωδικοποίηση. Αλλά τα εμπορικά σήματα και τα λογότυπα της εταιρείας δεν προστίθενται κατ' αρχήν. Ακόμη και κοινά όπως το Apple apple ή η σημαία των Windows. Μέχρι σήμερα, περίπου 120 χιλιάδες χαρακτήρες κωδικοποιούνται στην έκδοση 8.0.

Σύμφωνα με τη Διεθνή Ένωση Τηλεπικοινωνιών, το 2016, τρεισήμισι δισεκατομμύρια άνθρωποι χρησιμοποιούσαν το Διαδίκτυο με κάποια κανονικότητα. Οι περισσότεροι από αυτούς δεν σκέφτονται καν το γεγονός ότι τα μηνύματα που στέλνουν μέσω υπολογιστή ή κινητών gadget, καθώς και τα κείμενα που εμφανίζονται σε όλα τα είδη οθονών, είναι στην πραγματικότητα συνδυασμοί του 0 και του 1. Αυτή η αναπαράσταση πληροφοριών ονομάζεται κωδικοποίηση . Εξασφαλίζει και διευκολύνει πολύ την αποθήκευση, την επεξεργασία και τη μετάδοσή του. Το 1963, αναπτύχθηκε η αμερικανική κωδικοποίηση ASCII, η οποία είναι το αντικείμενο αυτού του άρθρου.

Παρουσίαση πληροφοριών σε υπολογιστή

Από τη σκοπιά οποιουδήποτε ηλεκτρονικού υπολογιστή, το κείμενο είναι ένα σύνολο μεμονωμένων χαρακτήρων. Αυτά περιλαμβάνουν όχι μόνο γράμματα, συμπεριλαμβανομένων των κεφαλαίων, αλλά και σημεία στίξης και αριθμούς. Επιπλέον, χρησιμοποιούνται ειδικοί χαρακτήρες "=", "&", "(" και κενά.

Το σύνολο των χαρακτήρων που συνθέτουν το κείμενο ονομάζεται αλφάβητο και ο αριθμός τους ονομάζεται καρδινάλιος (σημειώνεται ως N). Για τον προσδιορισμό του, χρησιμοποιείται η έκφραση N = 2^b, όπου b είναι ο αριθμός των bit ή το βάρος πληροφοριών ενός συγκεκριμένου συμβόλου.

Έχει αποδειχθεί ότι ένα αλφάβητο χωρητικότητας 256 χαρακτήρων μπορεί να αντιπροσωπεύει όλους τους απαραίτητους χαρακτήρες.

Δεδομένου ότι το 256 αντιπροσωπεύει την 8η δύναμη των δύο, το βάρος κάθε χαρακτήρα είναι 8 bit.

Μια μονάδα μέτρησης 8 bit ονομάζεται 1 byte, επομένως συνηθίζεται να λέμε ότι οποιοσδήποτε χαρακτήρας σε κείμενο που είναι αποθηκευμένος σε έναν υπολογιστή καταλαμβάνει ένα byte μνήμης.

Πώς γίνεται η κωδικοποίηση;

Οποιαδήποτε κείμενα εισάγονται στη μνήμη ενός προσωπικού υπολογιστή χρησιμοποιώντας πλήκτρα πληκτρολογίου στα οποία είναι γραμμένοι αριθμοί, γράμματα, σημεία στίξης και άλλα σύμβολα. Μεταφέρονται στη μνήμη RAM σε δυαδικό κώδικα, δηλαδή κάθε χαρακτήρας σχετίζεται με έναν δεκαδικό κωδικό γνωστό στους ανθρώπους, από το 0 έως το 255, που αντιστοιχεί σε έναν δυαδικό κωδικό - από 00000000 έως 11111111.

Η κωδικοποίηση χαρακτήρων byte-byte επιτρέπει στον επεξεργαστή που εκτελεί επεξεργασία κειμένου να έχει πρόσβαση σε κάθε χαρακτήρα ξεχωριστά. Ταυτόχρονα, 256 χαρακτήρες είναι αρκετοί για να αναπαραστήσουν οποιαδήποτε συμβολική πληροφορία.

Κωδικοποίηση χαρακτήρων ASCII

Αυτή η συντομογραφία στα αγγλικά σημαίνει κώδικας για ανταλλαγή πληροφοριών.

Ακόμη και στην αυγή της μηχανογράφησης, έγινε φανερό ότι ήταν δυνατό να βρεθεί μια μεγάλη ποικιλία τρόπων κωδικοποίησης πληροφοριών. Ωστόσο, για τη μεταφορά πληροφοριών από έναν υπολογιστή σε άλλο, ήταν απαραίτητο να αναπτυχθεί ένα ενιαίο πρότυπο. Έτσι, το 1963, ο πίνακας κωδικοποίησης ASCII εμφανίστηκε στις ΗΠΑ. Σε αυτό, οποιοδήποτε σύμβολο του αλφαβήτου του υπολογιστή συνδέεται με τον αύξοντα αριθμό του σε δυαδική αναπαράσταση. Το ASCII χρησιμοποιήθηκε αρχικά μόνο στις Ηνωμένες Πολιτείες και αργότερα έγινε διεθνές πρότυπο για υπολογιστές.

Οι κωδικοί ASCII χωρίζονται σε 2 μέρη. Μόνο το πρώτο μισό αυτού του πίνακα θεωρείται το διεθνές πρότυπο. Περιλαμβάνει χαρακτήρες με σειριακούς αριθμούς από 0 (κωδικός ως 00000000) έως 127 (κωδικός 01111111).

Σειριακός αριθμός

Κωδικοποίηση κειμένου ASCII

Σύμβολο

0000 0000 - 0001 1111

Οι χαρακτήρες με N από 0 έως 31 ονομάζονται χαρακτήρες ελέγχου. Η λειτουργία τους είναι να «διαχειρίζονται» τη διαδικασία εμφάνισης κειμένου σε οθόνη ή συσκευή εκτύπωσης, δίνοντας ηχητικό σήμα κ.λπ.

0010 0000 - 0111 1111

Χαρακτήρες από N από 32 έως 127 (τυπικό μέρος του πίνακα) - κεφαλαία και πεζά γράμματα του λατινικού αλφαβήτου, 10α ψηφία, σημεία στίξης, καθώς και διάφορες αγκύλες, εμπορικά και άλλα σύμβολα. Ο χαρακτήρας 32 αντιπροσωπεύει ένα διάστημα.

1000 0000 - 1111 1111

Οι χαρακτήρες με N από 128 έως 255 (εναλλακτικό μέρος του πίνακα ή κωδικοσελίδα) μπορούν να έχουν διαφορετικές παραλλαγές, καθεμία από τις οποίες έχει τον δικό της αριθμό. Η κωδικοσελίδα χρησιμοποιείται για τον καθορισμό εθνικών αλφαβήτων που είναι διαφορετικά από τα λατινικά. Συγκεκριμένα, με τη βοήθειά του πραγματοποιείται η κωδικοποίηση ASCII για ρωσικούς χαρακτήρες.

Στον πίνακα, οι κωδικοποιήσεις γράφονται με κεφαλαία και διαδέχονται η μία την άλλη με αλφαβητική σειρά και οι αριθμοί είναι σε αύξουσα σειρά. Αυτή η αρχή παραμένει η ίδια για το ρωσικό αλφάβητο.

Χαρακτήρες ελέγχου

Ο πίνακας κωδικοποίησης ASCII δημιουργήθηκε αρχικά για τη λήψη και τη μετάδοση πληροφοριών μέσω μιας συσκευής που δεν έχει χρησιμοποιηθεί για μεγάλο χρονικό διάστημα, όπως ένας τηλετύπος. Από αυτή την άποψη, στο σύνολο χαρακτήρων συμπεριλήφθηκαν μη εκτυπώσιμοι χαρακτήρες, οι οποίοι χρησιμοποιούνται ως εντολές για τον έλεγχο αυτής της συσκευής. Παρόμοιες εντολές χρησιμοποιήθηκαν σε τέτοιες μεθόδους ανταλλαγής μηνυμάτων πριν από τον υπολογιστή, όπως ο κώδικας Μορς κ.λπ.

Ο πιο συνηθισμένος χαρακτήρας τηλετύπου είναι NUL (00). Εξακολουθεί να χρησιμοποιείται σήμερα στις περισσότερες γλώσσες προγραμματισμού για να δείξει το τέλος μιας γραμμής.

Πού χρησιμοποιείται η κωδικοποίηση ASCII;

Ο Αμερικανικός Τυπικός Κώδικας χρειάζεται όχι μόνο για την εισαγωγή πληροφοριών κειμένου στο πληκτρολόγιο. Χρησιμοποιείται επίσης στα γραφικά. Συγκεκριμένα, στο ASCII Art Maker, οι εικόνες των διαφόρων επεκτάσεων αντιπροσωπεύουν ένα φάσμα χαρακτήρων ASCII.

Υπάρχουν δύο τύποι τέτοιων προϊόντων: αυτά που εκτελούν τη λειτουργία των επεξεργαστών γραφικών μετατρέποντας εικόνες σε κείμενο και αυτά που μετατρέπουν "σχέδια" σε γραφικά ASCII. Για παράδειγμα, το διάσημο εικονίδιο emoticon είναι ένα κύριο παράδειγμα ενός συμβόλου κωδικοποίησης.

Το ASCII μπορεί επίσης να χρησιμοποιηθεί κατά τη δημιουργία ενός εγγράφου HTML. Σε αυτήν την περίπτωση, μπορείτε να εισαγάγετε ένα συγκεκριμένο σύνολο χαρακτήρων και κατά την προβολή της σελίδας, στην οθόνη θα εμφανιστεί ένα σύμβολο που αντιστοιχεί σε αυτόν τον κωδικό.

Το ASCII είναι επίσης απαραίτητο για τη δημιουργία πολύγλωσσων ιστοσελίδων, καθώς χαρακτήρες που δεν περιλαμβάνονται σε συγκεκριμένο εθνικό πίνακα αντικαθίστανται με κωδικούς ASCII.

Κάποια χαρακτηριστικά

Το ASCII χρησιμοποιήθηκε αρχικά για την κωδικοποίηση πληροφοριών κειμένου χρησιμοποιώντας 7 bit (το ένα έμεινε κενό), αλλά σήμερα λειτουργεί ως 8 bit.

Τα γράμματα που βρίσκονται στις στήλες που βρίσκονται πάνω και κάτω διαφέρουν μεταξύ τους σε ένα μόνο bit. Αυτό μειώνει σημαντικά την πολυπλοκότητα του ελέγχου.

Χρήση ASCII στο Microsoft Office

Εάν είναι απαραίτητο, αυτός ο τύπος κωδικοποίησης πληροφοριών κειμένου μπορεί να χρησιμοποιηθεί σε προγράμματα επεξεργασίας κειμένου της Microsoft όπως το Σημειωματάριο και το Office Word. Ωστόσο, σε αυτήν την περίπτωση, ενδέχεται να μην μπορείτε να χρησιμοποιήσετε ορισμένες λειτουργίες κατά την πληκτρολόγηση. Για παράδειγμα, δεν θα μπορείτε να χρησιμοποιήσετε έντονη γραφή, επειδή η κωδικοποίηση ASCII διατηρεί μόνο το νόημα των πληροφοριών, αγνοώντας τη συνολική εμφάνιση και τη μορφή τους.

Τυποποίηση

Ο οργανισμός ISO έχει υιοθετήσει τα πρότυπα ISO 8859 Αυτή η ομάδα ορίζει κωδικοποιήσεις οκτώ bit για διαφορετικές ομάδες γλωσσών. Συγκεκριμένα, το ISO 8859-1 είναι ένας εκτεταμένος πίνακας ASCII για τις Ηνωμένες Πολιτείες και τις χώρες της Δυτικής Ευρώπης. Και το ISO 8859-5 είναι ένας πίνακας που χρησιμοποιείται για το κυριλλικό αλφάβητο, συμπεριλαμβανομένης της ρωσικής γλώσσας.

Για πολλούς ιστορικούς λόγους, το πρότυπο ISO 8859-5 χρησιμοποιήθηκε για πολύ σύντομο χρονικό διάστημα.

Για τη ρωσική γλώσσα, οι ακόλουθες κωδικοποιήσεις χρησιμοποιούνται στην πραγματικότητα αυτή τη στιγμή:

  • CP866 (Κωδικός Σελίδα 866) ή DOS,που συχνά ονομάζεται εναλλακτική κωδικοποίηση GOST. Χρησιμοποιήθηκε ενεργά μέχρι τα μέσα της δεκαετίας του '90 του περασμένου αιώνα. Προς το παρόν πρακτικά δεν χρησιμοποιείται.
  • KOI-8.Η κωδικοποίηση αναπτύχθηκε στις δεκαετίες του 1970 και του 1980 και είναι επί του παρόντος το γενικά αποδεκτό πρότυπο για μηνύματα email στο RuNet. Χρησιμοποιείται ευρέως σε λειτουργικά συστήματα Unix, συμπεριλαμβανομένου του Linux. Η "ρωσική" έκδοση του KOI-8 ονομάζεται KOI-8R. Επιπλέον, υπάρχουν εκδόσεις για άλλες κυριλλικές γλώσσες, όπως η ουκρανική.
  • Κωδικός Σελίδα 1251 (CP 1251, Windows - 1251).Αναπτύχθηκε από τη Microsoft για να παρέχει υποστήριξη για τη ρωσική γλώσσα στο περιβάλλον των Windows.

Το κύριο πλεονέκτημα του πρώτου προτύπου CP866 ήταν η διατήρηση ψευδογραφικών χαρακτήρων στις ίδιες θέσεις όπως στο Extended ASCII. Αυτό κατέστησε δυνατή την εκτέλεση προγραμμάτων κειμένου ξένης κατασκευής, όπως το περίφημο Norton Commander, χωρίς τροποποιήσεις. Επί του παρόντος, το CP866 χρησιμοποιείται για προγράμματα που έχουν αναπτυχθεί για Windows που εκτελούνται σε λειτουργία κειμένου πλήρους οθόνης ή σε παράθυρα κειμένου, συμπεριλαμβανομένου του FAR Manager.

Τα κείμενα υπολογιστών γραμμένα με κωδικοποίηση CP866 είναι αρκετά σπάνια αυτές τις μέρες, αλλά είναι αυτό που χρησιμοποιείται για τα ρωσικά ονόματα αρχείων στα Windows.

"Unicode"

Αυτή τη στιγμή, αυτή η κωδικοποίηση είναι η πιο ευρέως χρησιμοποιούμενη. Οι κωδικοί Unicode χωρίζονται σε περιοχές. Το πρώτο (U+0000 έως U+007F) περιλαμβάνει χαρακτήρες ASCII με κωδικούς. Ακολουθούν οι περιοχές χαρακτήρων διαφόρων εθνικών γραφών, καθώς και τα σημεία στίξης και τα τεχνικά σύμβολα. Επιπλέον, δεσμεύονται ορισμένοι κωδικοί Unicode σε περίπτωση που χρειαστεί να συμπεριληφθούν νέοι χαρακτήρες στο μέλλον.

Τώρα ξέρετε ότι στο ASCII, κάθε χαρακτήρας αναπαρίσταται ως συνδυασμός 8 μηδενικών και μονάδων. Σε μη ειδικούς, αυτές οι πληροφορίες μπορεί να φαίνονται περιττές και μη ενδιαφέρουσες, αλλά δεν θέλετε να μάθετε τι συμβαίνει «στο μυαλό» του υπολογιστή σας;

Excel για Office 365 Word για Office 365 Outlook για Office 365 PowerPoint για Office 365 Publisher για Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Outlook 2910 Standard 291020 2016 PowerPoint 2016 2013 Publisher 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 701020 2007 Outlook 20 07 PowerPoint 2007 Publisher 2007 Access 2007 Visio 2007 OneNote 2007 Office 2010 Visio Standard 2007 Visio Standard 2010 Less

Σε αυτό το άρθρο: Εισαγάγετε έναν χαρακτήρα ASCII ή Unicode σε ένα έγγραφο

Εάν χρειάζεται να εισαγάγετε μόνο μερικούς ειδικούς χαρακτήρες ή σύμβολα, μπορείτε να χρησιμοποιήσετε συντομεύσεις πληκτρολογίου. Για μια λίστα χαρακτήρων ASCII, ανατρέξτε στους παρακάτω πίνακες ή στο άρθρο Εισαγωγή εθνικών αλφαβήτων με χρήση συντομεύσεων πληκτρολογίου.

Σημειώσεις:

Εισαγωγή χαρακτήρων ASCII

Για να εισαγάγετε έναν χαρακτήρα ASCII, πατήστε και κρατήστε πατημένο το πλήκτρο ALT ενώ εισάγετε τον κωδικό χαρακτήρα. Για παράδειγμα, για να εισαγάγετε ένα σύμβολο βαθμού (º), πατήστε παρατεταμένα το πλήκτρο ALT και, στη συνέχεια, πληκτρολογήστε 0176 στο αριθμητικό πληκτρολόγιο.

Για να εισαγάγετε αριθμούς, χρησιμοποιήστε το αριθμητικό πληκτρολόγιο αντί για τους αριθμούς στο κύριο πληκτρολόγιο. Εάν πρέπει να εισαγάγετε αριθμούς στο αριθμητικό πληκτρολόγιο, βεβαιωθείτε ότι η ένδειξη NUM LOCK είναι αναμμένη.

Εισαγωγή χαρακτήρων Unicode

Για να εισαγάγετε έναν χαρακτήρα Unicode, εισαγάγετε τον κωδικό χαρακτήρα και, στη συνέχεια, πατήστε ALT και X. Για παράδειγμα, για να εισαγάγετε ένα σύμβολο δολαρίου ($), πληκτρολογήστε 0024 και πατήστε ALT και X. Για όλους τους κωδικούς χαρακτήρων Unicode, βλ.

Σημαντικό: Ορισμένα προγράμματα του Microsoft Office, όπως το PowerPoint και το InfoPath, δεν υποστηρίζουν τη μετατροπή κωδικών Unicode σε χαρακτήρες. Εάν χρειάζεται να εισαγάγετε έναν χαρακτήρα Unicode σε ένα από αυτά τα προγράμματα, χρησιμοποιήστε το .

Σημειώσεις:

    Εάν εμφανιστεί λάθος χαρακτήρας Unicode αφού πατήσετε το ALT+X, επιλέξτε τον σωστό κωδικό και, στη συνέχεια, πατήστε ξανά το ALT+X.

    Επιπλέον, πρέπει να εισαγάγετε "U+" πριν από τον κωδικό. Για παράδειγμα, εάν πληκτρολογήσετε "1U+B5" και πατήσετε ALT+X, θα εμφανιστεί το κείμενο "1µ" και εάν πληκτρολογήσετε "1B5" και πατήσετε ALT+X, θα εμφανιστεί το σύμβολο "Ƶ".

Χρησιμοποιώντας τον πίνακα συμβόλων

Ο πίνακας χαρακτήρων είναι ένα πρόγραμμα ενσωματωμένο στα Microsoft Windows που σας επιτρέπει να προβάλλετε τους διαθέσιμους χαρακτήρες για μια επιλεγμένη γραμματοσειρά.

Χρησιμοποιώντας έναν πίνακα συμβόλων, μπορείτε να αντιγράψετε μεμονωμένα σύμβολα ή μια ομάδα συμβόλων στο πρόχειρο και να τα επικολλήσετε σε οποιοδήποτε πρόγραμμα που υποστηρίζει την εμφάνιση αυτών των συμβόλων. Άνοιγμα του πίνακα συμβόλων

    Στα Windows 10, εισαγάγετε τη λέξη "σύμβολο" στο πλαίσιο αναζήτησης στη γραμμή εργασιών και επιλέξτε τον πίνακα συμβόλων από τα αποτελέσματα αναζήτησης.

    Στα Windows 8, πληκτρολογήστε "symbol" στην οθόνη Έναρξης και επιλέξτε τον πίνακα συμβόλων από τα αποτελέσματα αναζήτησης.

    Στα Windows 7, κάντε κλικ στο κουμπί Έναρξη, επιλέξτε Όλα τα προγράμματα, τα εξαρτήματα, τα εργαλεία συστήματος και, στη συνέχεια, κάντε κλικ στο Χάρτης χαρακτήρων.

Οι χαρακτήρες ομαδοποιούνται κατά γραμματοσειρά. Κάντε κλικ στη λίστα γραμματοσειρών για να επιλέξετε το κατάλληλο σύνολο χαρακτήρων. Για να επιλέξετε ένα σύμβολο, κάντε κλικ σε αυτό και, στη συνέχεια, κάντε κλικ στο κουμπί Επιλογή. Για να εισαγάγετε ένα σύμβολο, κάντε δεξί κλικ στην επιθυμητή θέση στο έγγραφο και επιλέξτε Επικόλληση.

Κωδικοί χαρακτήρων που χρησιμοποιούνται συχνά

Για μια πλήρη λίστα χαρακτήρων, ανατρέξτε στην ενότητα Υπολογιστής, Πίνακας κωδικών χαρακτήρων ASCII ή Πίνακες χαρακτήρων Unicode οργανωμένοι κατά σύνολο.

Γλύφος

Γλύφος

Νόμισμα

Νομικά σύμβολα

Μαθηματικά σύμβολα

Κλάσματα

Στίξη και σύμβολα διαλέκτου

Σύμβολα σχήματος

Διακριτικοί κωδικοί που χρησιμοποιούνται συνήθως

Για μια πλήρη λίστα των γλυφών και των αντίστοιχων κωδικών, βλ.

Γλύφος

Γλύφος

Μη εκτυπωτικοί χαρακτήρες ελέγχου ASCII

Οι χαρακτήρες που χρησιμοποιούνται για τον έλεγχο ορισμένων περιφερειακών συσκευών, όπως οι εκτυπωτές, έχουν αριθμό 0–31 στον πίνακα ASCII. Για παράδειγμα, ο χαρακτήρας τροφοδοσίας σελίδας/νέα σελίδα είναι ο αριθμός 12. Αυτός ο χαρακτήρας λέει στον εκτυπωτή να μετακινηθεί στην αρχή της επόμενης σελίδας.

Πίνακας χαρακτήρων ελέγχου ASCII που δεν εκτυπώνονται

Δεκαδικός αριθμός

Σημάδι

Δεκαδικός αριθμός

Σημάδι

Απελευθέρωση του καναλιού δεδομένων

Αρχή τίτλου

Κωδικός ελέγχου πρώτης συσκευής

Αρχή κειμένου

Δεύτερος κωδικός ελέγχου συσκευής

Τέλος κειμένου

Κωδικός ελέγχου τρίτης συσκευής

Τέλος μετάδοσης

Τέταρτος κωδικός ελέγχου συσκευής

πεντάκτινο

Αρνητική επιβεβαίωση

Επιβεβαίωση

Λειτουργία σύγχρονης μετάδοσης

Ηχητικό σήμα

Τέλος του μπλοκ μεταδιδόμενων δεδομένων

Οριζόντιος πίνακας

Τέλος ΜΜΕ

Τροφοδοσία γραμμής/νέα γραμμή

Σύμβολο αντικατάστασης

Κάθετη καρτέλα

υπερβαίνω

Μετάφραση σελίδας/νέα σελίδα

Δώδεκα

Διαχωριστής αρχείων

Επιστροφή άμαξα

Διαχωριστής ομάδας

Μετατόπιση χωρίς αποθήκευση bits

Διαχωριστής εγγραφών

Μετατόπιση διατήρησης bit

δεκαπέντε

Διαχωριστής δεδομένων

[Κωδικοποιήσεις 8 bit: ASCII, KOI-8R και CP1251] Οι πρώτοι πίνακες κωδικοποίησης που δημιουργήθηκαν στις ΗΠΑ δεν χρησιμοποιούσαν το όγδοο bit σε ένα byte. Το κείμενο αντιπροσωπεύτηκε ως μια ακολουθία byte, αλλά το όγδοο bit δεν ελήφθη υπόψη (χρησιμοποιήθηκε για επίσημους σκοπούς).

Ο πίνακας ASCII (American Standard Code for Information Interchange) έχει γίνει ένα γενικά αποδεκτό πρότυπο. Οι πρώτοι 32 χαρακτήρες του πίνακα ASCII (00 έως 1F) χρησιμοποιήθηκαν για χαρακτήρες που δεν εκτυπώνονται. Σχεδιάστηκαν για να ελέγχουν μια συσκευή εκτύπωσης κ.λπ. Οι υπόλοιποι - από 20 έως 7 F - είναι κανονικοί (εκτυπώσιμοι) χαρακτήρες.

Πίνακας 1 - Κωδικοποίηση ASCII

Dec Hex Oct Char Περιγραφή
0 0 000 μηδενικό
1 1 001 έναρξη του τίτλου
2 2 002 αρχή του κειμένου
3 3 003 τέλος του κειμένου
4 4 004 τέλος μετάδοσης
5 5 005 έρευνα
6 6 006 αναγνωρίζω
7 7 007 κουδούνι
8 8 010 backspace
9 9 011 οριζόντια καρτέλα
10 ΕΝΑ 012 νέα γραμμή
11 σι 013 κάθετη καρτέλα
12 ντο 014 ΝΕΑ ΣΕΛΙΔΑ
13 ρε 015 επιστροφή άμαξα
14 μι 016 μετατόπιση έξω
15 φά 017 μετατόπιση μέσα
16 10 020 διαφυγή συνδέσμου δεδομένων
17 11 021 έλεγχος συσκευής 1
18 12 022 έλεγχος συσκευής 2
19 13 023 έλεγχος συσκευής 3
20 14 024 έλεγχος συσκευής 4
21 15 025 αρνητική αναγνώριση
22 16 026 σύγχρονη αδράνεια
23 17 027 τέλος του μεταφρ. ΟΙΚΟΔΟΜΙΚΟ ΤΕΤΡΑΓΩΝΟ
24 18 030 Ματαίωση
25 19 031 τέλος του μέσου
26 032 υποκατάστατο
27 033 διαφυγή
28 1C 034 διαχωριστικό αρχείων
29 035 διαχωριστικό ομάδας
30 036 διαχωριστικό ρεκόρ
31 1ΣΤ 037 διαχωριστικό μονάδων
32 20 040 χώρος
33 21 041 !
34 22 042 "
35 23 043 #
36 24 044 $
37 25 045 %
38 26 046 &
39 27 047 "
40 28 050 (
41 29 051 )
42 052 *
43 053 +
44 2C 054 ,
45 2D 055 -
46 056 .
47 2ΣΤ 057 /
48 30 060 0
49 31 061 1
50 32 062 2
51 33 063 3
52 34 064 4
53 35 065 5
54 36 066 6
55 37 067 7
56 38 070 8
57 39 071 9
58 072 :
59 073 ;
60 3C 074 <
61 3D 075 =
62 076 >
63 3F 077 ?
Dec Hex Οκτ Χαρ
64 40 100 @
65 41 101 ΕΝΑ
66 42 102 σι
67 43 103 ντο
68 44 104 ρε
69 45 105 μι
70 46 106 φά
71 47 107 σολ
72 48 110 H
73 49 111 Εγώ
74 112 J
75 113 κ
76 4C 114 μεγάλο
77 4D 115 Μ
78 116 Ν
79 4F 117 Ο
80 50 120 Π
81 51 121 Q
82 52 122 R
83 53 123 μικρό
84 54 124 Τ
85 55 125 U
86 56 126 V
87 57 127 W
88 58 130 Χ
89 59 131 Υ
90 132 Ζ
91 133 [
92 5C 134 \
93 135 ]
94 136 ^
95 5F 137 _
96 60 140 `
97 61 141 ένα
98 62 142 σι
99 63 143 ντο
100 64 144 ρε
101 65 145 μι
102 66 146 φά
103 67 147 σολ
104 68 150 η
105 69 151 Εγώ
106 152 ι
107 153 κ
108 6C 154 μεγάλο
109 6D 155 Μ
110 156 n
111 6F 157 ο
112 70 160 Π
113 71 161 q
114 72 162 r
115 73 163 μικρό
116 74 164 t
117 75 165 u
118 76 166 v
119 77 167 w
120 78 170 Χ
121 79 171 y
122 172 z
123 173 {
124 7C 174 |
125 175 }
126 176 ~
127 7F 177 ΔΕΛ

Όπως μπορείτε εύκολα να δείτε, αυτή η κωδικοποίηση περιέχει μόνο λατινικά γράμματα και αυτά που χρησιμοποιούνται στην αγγλική γλώσσα. Υπάρχουν επίσης αριθμητικά και άλλα σύμβολα υπηρεσίας. Δεν υπάρχουν όμως ούτε ρωσικά γράμματα, ούτε καν ειδικά λατινικά για τα γερμανικά ή τα γαλλικά. Αυτό είναι εύκολο να εξηγηθεί - η κωδικοποίηση αναπτύχθηκε ειδικά ως αμερικανικό πρότυπο. Καθώς οι υπολογιστές άρχισαν να χρησιμοποιούνται σε όλο τον κόσμο, χρειάστηκε να κωδικοποιηθούν και άλλοι χαρακτήρες.

Για να γίνει αυτό, αποφασίστηκε να χρησιμοποιηθεί το όγδοο bit σε κάθε byte. Αυτό έκανε διαθέσιμες 128 περισσότερες τιμές (από 80 έως FF) που θα μπορούσαν να χρησιμοποιηθούν για την κωδικοποίηση χαρακτήρων. Ο πρώτος από τους πίνακες των οκτώ bit - "extended ASCII" ( Extended ASCII) - περιελάμβανε διάφορες παραλλαγές λατινικών χαρακτήρων που χρησιμοποιούνται σε ορισμένες γλώσσες της Δυτικής Ευρώπης. Περιείχε επίσης άλλα πρόσθετα σύμβολα, συμπεριλαμβανομένων ψευδογραφικών.

Οι ψευδογραφικοί χαρακτήρες σάς επιτρέπουν να παρέχετε κάποια ομοιότητα γραφικών εμφανίζοντας μόνο χαρακτήρες κειμένου στην οθόνη. Για παράδειγμα, το πρόγραμμα διαχείρισης αρχείων FAR Manager λειτουργεί χρησιμοποιώντας ψευδογραφήματα.

Δεν υπήρχαν ρωσικά γράμματα στον πίνακα Extended ASCII. Η Ρωσία (πρώην ΕΣΣΔ) και άλλες χώρες δημιούργησαν τις δικές τους κωδικοποιήσεις που επέτρεψαν την αναπαράσταση συγκεκριμένων «εθνικών» χαρακτήρων σε αρχεία κειμένου 8-bit - λατινικά γράμματα της πολωνικής και τσεχικής γλώσσας, κυριλλικά (συμπεριλαμβανομένων των ρωσικών γραμμάτων) και άλλα αλφάβητα.

Σε όλες τις κωδικοποιήσεις που έχουν γίνει ευρέως διαδεδομένες, οι πρώτοι 127 χαρακτήρες (δηλαδή η τιμή byte με το όγδοο bit ίσο με 0) είναι ίδιοι με το ASCII. Έτσι, ένα αρχείο ASCII λειτουργεί σε οποιαδήποτε από αυτές τις κωδικοποιήσεις. Τα γράμματα της αγγλικής γλώσσας αντιπροσωπεύονται με τον ίδιο τρόπο.

Ο οργανισμός ISO (Διεθνής Οργανισμός Τυποποίησης) έχει υιοθετήσει την ομάδα προτύπων ISO 8859. Ορίζει κωδικοποιήσεις 8-bit για διαφορετικές ομάδες γλωσσών. Έτσι, το ISO 8859-1 είναι ένας εκτεταμένος πίνακας ASCII για τις ΗΠΑ και τη Δυτική Ευρώπη. Και το ISO 8859-5 είναι ένας πίνακας για το κυριλλικό αλφάβητο (συμπεριλαμβανομένου του ρωσικού).

Ωστόσο, για ιστορικούς λόγους, η κωδικοποίηση ISO 8859-5 δεν ριζώθηκε. Στην πραγματικότητα, οι ακόλουθες κωδικοποιήσεις χρησιμοποιούνται για τη ρωσική γλώσσα:

Κωδικός Σελίδα 866 (CP866), γνωστός και ως «DOS», γνωστός και ως «εναλλακτική κωδικοποίηση GOST». Χρησιμοποιείται ευρέως μέχρι τα μέσα της δεκαετίας του '90. χρησιμοποιείται πλέον σε περιορισμένο βαθμό. Πρακτικά δεν χρησιμοποιείται για τη διανομή κειμένων στο Διαδίκτυο.
- KOI-8. Αναπτύχθηκε τη δεκαετία του 70-80. Είναι ένα γενικά αποδεκτό πρότυπο για τη μετάδοση μηνυμάτων email στο ρωσικό Διαδίκτυο. Χρησιμοποιείται επίσης ευρέως σε λειτουργικά συστήματα της οικογένειας Unix, συμπεριλαμβανομένου του Linux. Η ρωσική έκδοση του KOI-8 ονομάζεται KOI-8R. Υπάρχουν εκδόσεις για άλλες κυριλλικές γλώσσες (για παράδειγμα, το KOI8-U είναι μια έκδοση για την ουκρανική γλώσσα).
- Κωδικός Σελίδα 1251, CP1251, Windows-1251. Αναπτύχθηκε από τη Microsoft για την υποστήριξη της ρωσικής γλώσσας στα Windows.

Το κύριο πλεονέκτημα του CP866 ήταν η διατήρηση των ψευδο-γραφικών χαρακτήρων στα ίδια σημεία όπως στο Extended ASCII. Επομένως, τα ξένα προγράμματα κειμένου, για παράδειγμα, το περίφημο Norton Commander, θα μπορούσαν να λειτουργήσουν χωρίς αλλαγές. Το CP866 χρησιμοποιείται πλέον για προγράμματα Windows που εκτελούνται σε παράθυρα κειμένου ή σε λειτουργία κειμένου πλήρους οθόνης, συμπεριλαμβανομένου του FAR Manager.

Τα κείμενα στο CP866 είναι αρκετά σπάνια τα τελευταία χρόνια (αλλά χρησιμοποιείται για την κωδικοποίηση των ρωσικών ονομάτων αρχείων στα Windows). Επομένως, θα σταθούμε λεπτομερέστερα σε δύο άλλες κωδικοποιήσεις - KOI-8R και CP1251.



Όπως μπορείτε να δείτε, στον πίνακα κωδικοποίησης CP1251, τα ρωσικά γράμματα είναι ταξινομημένα με αλφαβητική σειρά (με εξαίρεση, ωστόσο, το γράμμα Ε). Αυτή η διάταξη καθιστά πολύ εύκολη την αλφαβητική ταξινόμηση των προγραμμάτων υπολογιστή.

Αλλά στο KOI-8R η σειρά των ρωσικών γραμμάτων φαίνεται τυχαία. Αλλά στην πραγματικότητα δεν είναι.

Σε πολλά παλαιότερα προγράμματα, το 8ο bit χάθηκε κατά την επεξεργασία ή τη μετάδοση κειμένου. (Τώρα τέτοια προγράμματα είναι πρακτικά «εξαφανισμένα», αλλά στα τέλη της δεκαετίας του '80 - αρχές της δεκαετίας του '90 ήταν ευρέως διαδεδομένα). Για να λάβετε μια τιμή 7-bit από μια τιμή 8-bit, απλώς αφαιρέστε το 8 από το πιο σημαντικό ψηφίο. για παράδειγμα, το E1 γίνεται 61.

Συγκρίνετε τώρα το KOI-8R με τον πίνακα ASCII (Πίνακας 1). Θα διαπιστώσετε ότι τα ρωσικά γράμματα τοποθετούνται σε σαφή αντιστοιχία με τα λατινικά. Εάν εξαφανιστεί το όγδοο bit, τα πεζά ρωσικά γράμματα μετατρέπονται σε κεφαλαία λατινικά γράμματα και τα κεφαλαία ρωσικά γράμματα σε πεζά λατινικά γράμματα. Έτσι, το E1 στο KOI-8 είναι το ρωσικό "A", ενώ το 61 στο ASCII είναι το λατινικό "a".

Έτσι, το KOI-8 σάς επιτρέπει να διατηρείτε την αναγνωσιμότητα του ρωσικού κειμένου όταν χάνεται το 8ο bit. Το "γεια σε όλους" γίνεται "pRIWET WSEM".

Πρόσφατα, τόσο η αλφαβητική σειρά των χαρακτήρων στον πίνακα κωδικοποίησης όσο και η αναγνωσιμότητα με την απώλεια του 8ου bit έχουν χάσει την αποφασιστική τους σημασία. Το όγδοο bit στους σύγχρονους υπολογιστές δεν χάνεται κατά τη μετάδοση ή την επεξεργασία. Και η αλφαβητική ταξινόμηση γίνεται λαμβάνοντας υπόψη την κωδικοποίηση, και όχι με απλή σύγκριση κωδικών. (Παρεμπιπτόντως, οι κωδικοί CP1251 δεν είναι πλήρως διατεταγμένοι αλφαβητικά - το γράμμα Ε δεν είναι στη θέση του).

Λόγω του γεγονότος ότι υπάρχουν δύο κοινές κωδικοποιήσεις, όταν εργάζεστε με το Διαδίκτυο (ταχυδρομείο, περιήγηση σε ιστότοπους), μπορείτε μερικές φορές να δείτε ένα σύνολο γραμμάτων χωρίς νόημα αντί για ρωσικό κείμενο. Για παράδειγμα, "IAM SBYUFEMHEL". Αυτές είναι απλώς οι λέξεις «με σεβασμό». αλλά κωδικοποιήθηκαν σε κωδικοποίηση CP1251 και ο υπολογιστής αποκωδικοποίησε το κείμενο χρησιμοποιώντας τον πίνακα KOI-8. Αν, αντίθετα, οι ίδιες λέξεις κωδικοποιούνταν στο KOI-8 και ο υπολογιστής αποκωδικοποιούσε το κείμενο σύμφωνα με τον πίνακα CP1251, το αποτέλεσμα θα ήταν "U KHBTSEOYEN".

Μερικές φορές συμβαίνει ότι ένας υπολογιστής αποκρυπτογραφεί γράμματα στη ρωσική γλώσσα χρησιμοποιώντας έναν πίνακα που δεν προορίζεται για τη ρωσική γλώσσα. Στη συνέχεια, αντί για ρωσικά γράμματα, εμφανίζεται ένα σύνολο συμβόλων χωρίς νόημα (για παράδειγμα, λατινικά γράμματα των γλωσσών της Ανατολικής Ευρώπης). ονομάζονται συχνά «κροκόζυβρες».

Στις περισσότερες περιπτώσεις, τα σύγχρονα προγράμματα αντιμετωπίζουν ανεξάρτητα τον προσδιορισμό των κωδικοποιήσεων των εγγράφων του Διαδικτύου (email και ιστοσελίδες). Αλλά μερικές φορές "πυροβολούν" και μετά μπορείτε να δείτε περίεργες ακολουθίες ρωσικών γραμμάτων ή "krokozyabry". Κατά κανόνα, σε μια τέτοια κατάσταση, για να εμφανίσετε πραγματικό κείμενο στην οθόνη, αρκεί να επιλέξετε την κωδικοποίηση χειροκίνητα στο μενού προγράμματος.

Για αυτό το άρθρο χρησιμοποιήθηκαν πληροφορίες από τη σελίδα http://open-office.edusite.ru/TextProcessor/p5aa1.html.

Υλικό από τον ιστότοπο:

Επικάλυψη χαρακτήρων

Ο χαρακτήρας BS (backspace) επιτρέπει στον εκτυπωτή να εκτυπώνει έναν χαρακτήρα πάνω στον άλλο. Το ASCII προέβλεπε την προσθήκη διακριτικών στα γράμματα με αυτόν τον τρόπο, για παράδειγμα:

  • α ΒΣ "→ ά
  • a BS ` → à
  • ένα BS ^ → â
  • o BS / → ø
  • c BS , → ç
  • n BS ~ → с

Σημείωση: σε παλαιότερες γραμματοσειρές, η απόστροφος σχεδιάστηκε λοξά προς τα αριστερά και η περισπίδα ~ μετακινήθηκε προς τα πάνω, έτσι απλά ταιριάζουν στο ρόλο μιας οξείας και μιας περισπωμένης στην κορυφή.

Εάν ο ίδιος χαρακτήρας είναι υπέρθεση σε έναν χαρακτήρα, το αποτέλεσμα είναι ένα εφέ έντονης γραμματοσειράς και εάν μια υπογράμμιση τοποθετείται σε έναν χαρακτήρα, το αποτέλεσμα είναι υπογραμμισμένο κείμενο.

  • α BS α → α
  • aBS_→ ένα

Σημείωση: χρησιμοποιείται, για παράδειγμα, στο σύστημα βοήθειας άνδρα.

Εθνικές παραλλαγές ASCII

Το πρότυπο ISO 646 (ECMA-6) προβλέπει τη δυνατότητα τοποθέτησης εθνικών χαρακτήρων στη θέση του @ [ \ ] ^ ` ( | ) ~ . Επιπλέον, το £ μπορεί να τοποθετηθεί στη θέση # και το ¤ μπορεί να τοποθετηθεί στη θέση $. Αυτό το σύστημα είναι κατάλληλο για ευρωπαϊκές γλώσσες όπου χρειάζονται μόνο μερικοί επιπλέον χαρακτήρες. Η έκδοση του ASCII χωρίς εθνικούς χαρακτήρες ονομάζεται US-ASCII ή "International Reference Version".

Στη συνέχεια, αποδείχθηκε ότι ήταν πιο βολικό να χρησιμοποιείτε κωδικοποιήσεις 8-bit (σελίδες κώδικα), όπου το κάτω μισό του πίνακα κωδικών (0-127) καταλαμβάνεται από χαρακτήρες US-ASCII και το πάνω μισό (128-255) με πρόσθετους χαρακτήρες, συμπεριλαμβανομένου ενός συνόλου εθνικών χαρακτήρων. Έτσι, το πάνω μισό του πίνακα ASCII, πριν από την ευρεία υιοθέτηση του Unicode, χρησιμοποιήθηκε ενεργά για να αναπαραστήσει εντοπισμένους χαρακτήρες, γράμματα της τοπικής γλώσσας. Η έλλειψη ενός ενοποιημένου προτύπου για την τοποθέτηση κυριλλικών χαρακτήρων στον πίνακα ASCII προκάλεσε πολλά προβλήματα με τις κωδικοποιήσεις (KOI-8, Windows-1251 και άλλα). Άλλες γλώσσες με μη λατινικές γραφές υπέφεραν επίσης από πολλές διαφορετικές κωδικοποιήσεις.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A .B .C .D .E .F0. 1. 2. 3. 4. 5. 6. 7. 8. 9. ΕΝΑ. ΣΙ. ΝΤΟ. ΡΕ. ΜΙ. ΦΑ.
NUL SOM ΕΟΑ ΕΟΜ EQT W.R.U. RU ΚΟΥΔΟΥΝΙ BKSP HT LF VT FF CR ΕΤΣΙ ΣΙ.
DC 0 DC 1 DC 2 DC 3 DC 4 ΠΛΑΝΩΜΑΙ ΣΥΓΧΡΟΝΙΣΜΟΣ L.E.M. S 0 S 1 S 2 S 3 S 4 S 5 S 6 S 7
ΚΕΝΟ ! " # $ % & " ( ) * + , - . /
0 1 2 3 4 5 6 7 8 9 : ; < = > ?
@ ΕΝΑ σι ντο ρε μι φά σολ H Εγώ J κ μεγάλο Μ Ν Ο
Π Q R μικρό Τ U V W Χ Υ Ζ [ \ ]
ένα σι ντο ρε μι φά σολ η Εγώ ι κ μεγάλο Μ n ο
Π q r μικρό t u v w Χ y z ESC ΔΕΛ

Σε εκείνους τους υπολογιστές όπου η ελάχιστη διευθυνσιοδοτούμενη μονάδα μνήμης ήταν μια λέξη 36-bit, αρχικά χρησιμοποιήθηκαν χαρακτήρες 6-bit (1 λέξη = 6 χαρακτήρες). Μετά τη μετάβαση στο ASCII, τέτοιοι υπολογιστές άρχισαν να περιέχουν είτε 5 χαρακτήρες επτά bit (1 bit έμεινε επιπλέον) είτε 4 χαρακτήρες εννέα bit σε μία λέξη.

Οι κωδικοί ASCII χρησιμοποιούνται επίσης για τον προσδιορισμό του πλήκτρου που θα πατηθεί κατά τον προγραμματισμό. Για ένα τυπικό πληκτρολόγιο QWERTY, ο πίνακας κωδικών μοιάζει με αυτό:



Έχετε ερωτήσεις;

Αναφέρετε ένα τυπογραφικό λάθος

Κείμενο που θα σταλεί στους συντάκτες μας: