ASCII 테이블에서 문자 코드가 계산되는 방법. ASCII 인코딩(정보 교환을 위한 미국 표준 코드) - 라틴 알파벳의 기본 텍스트 인코딩

30.08.2019

컴퓨터는 이 데이터를 보다 편리하게 전송, 저장 또는 자동 처리할 수 있는 형식으로 변환하는 프로세스를 이해합니다. 이를 위해 다양한 테이블이 사용됩니다. ASCII는 영어 텍스트 작업을 위해 미국에서 개발된 최초의 시스템으로, 이후 전 세계적으로 널리 보급되었습니다. 아래 기사에서는 설명, 기능, 속성 및 추가 사용에 대해 다룹니다.

컴퓨터에 정보 표시 및 저장

컴퓨터 모니터 또는 하나 이상의 모바일 디지털 장치의 기호는 다양한 문자의 벡터 형태 세트와 올바른 위치에 삽입해야 하는 기호를 찾을 수 있는 코드를 기반으로 형성됩니다. 이는 일련의 비트를 나타냅니다. 따라서 각 문자는 특정한 고유한 순서로 나타나는 0과 1의 집합에 고유하게 대응해야 합니다.

모든 것이 어떻게 시작되었는지

역사적으로 최초의 컴퓨터는 영어였습니다. 그 안에 기호정보를 부호화하기 위해서는 7비트의 메모리만 사용해도 충분했고, 이를 위해 8비트로 구성된 1바이트가 할당됐다. 이 경우 컴퓨터가 인식하는 문자 수는 128개였습니다. 이 문자에는 구두점을 포함한 영어 알파벳, 숫자 및 일부 특수 문자가 포함되었습니다. 1963년에 개발된 해당 테이블(코드 페이지)을 사용한 영어 7비트 인코딩을 정보 교환을 위한 미국 표준 코드라고 합니다. 일반적으로 "ASCII 인코딩"이라는 약어는 이를 나타내는 데 사용되었으며 여전히 사용됩니다.

다국어로의 전환

시간이 지나면서 컴퓨터는 비영어권 국가에서도 널리 사용되었습니다. 이러한 점에서 자국어 사용을 허용하는 인코딩이 필요했습니다. 바퀴를 재발명하지 않고 ASCII를 기본으로 사용하기로 결정했습니다. 새 버전의 인코딩 테이블은 크게 확장되었습니다. 8번째 비트를 사용하면 256자를 컴퓨터 언어로 번역하는 것이 가능해졌습니다.

설명

ASCII 인코딩에는 두 부분으로 나누어진 테이블이 있습니다. 전반부만 일반적으로 인정되는 국제 표준으로 간주됩니다. 여기에는 다음이 포함됩니다.

일련 번호가 0부터 31까지이고 00000000부터 00011111까지의 순서로 인코딩된 문자입니다. 이는 화면이나 프린터에 텍스트를 표시하고 사운드 신호를 울리는 과정을 제어하는 제어 문자용으로 예약되어 있습니다.
32부터 127까지의 테이블에서 NN이 있는 문자는 00100000부터 01111111까지의 시퀀스로 인코딩되어 테이블의 표준 부분을 형성합니다. 여기에는 공백(N 32), 라틴 알파벳 문자(소문자 및 대문자), 0에서 9까지의 10자리 숫자, 구두점, 다양한 스타일의 괄호 및 기타 기호가 포함됩니다.
일련 번호가 128부터 255까지이고 10000000부터 11111111까지의 시퀀스로 인코딩된 문자입니다. 여기에는 라틴어 이외의 국가 알파벳 문자가 포함됩니다. 러시아어 문자를 컴퓨터 형식으로 변환하는 데 사용되는 것은 ASCII 테이블의 대체 부분입니다.

일부 속성

ASCII 인코딩의 특징은 "A" - "Z" 문자의 소문자와 대문자 사이의 차이가 단 1비트에 불과하다는 점입니다. 이러한 상황에서는 레지스터 변환뿐만 아니라 해당 값이 지정된 값 범위에 속하는지 확인하는 작업도 크게 단순화됩니다. 또한 ASCII 인코딩 시스템의 모든 문자는 알파벳의 자체 시퀀스 번호로 표시되며 이진수 시스템에서 5자리로 작성되며 앞에 소문자의 경우 011 2, 대문자의 경우 010 2가 옵니다.

ASCII 인코딩의 특징 중 하나는 "0" - "9"의 10자리 숫자를 표현하는 것입니다. 두 번째 숫자 체계에서는 00112로 시작하고 2개의 숫자 값으로 끝납니다. 따라서 0101 2는 십진수 5와 동일하므로 문자 "5"는 0011 01012로 기록됩니다. 위의 내용을 바탕으로 각 니블에 비트 시퀀스 00112를 추가하면 BCD 숫자를 ASCII 문자열로 쉽게 변환할 수 있습니다. 왼쪽.

"유니코드"

아시다시피 동남아시아 그룹의 언어로 텍스트를 표시하려면 수천 개의 문자가 필요합니다. 그러한 숫자는 어떤 식으로든 1바이트 정보로 설명할 수 없으므로 확장 버전의 ASCII라도 더 이상 다른 국가에서 증가하는 사용자 요구를 충족할 수 없습니다.

따라서 유니코드 컨소시엄이 글로벌 IT 산업의 많은 리더들과 협력하여 개발을 수행한 범용 텍스트 인코딩을 만들어야 할 필요성이 생겼습니다. 전문가들은 UTF 32 시스템을 만들었습니다. 이 시스템에서는 1개의 문자를 인코딩하는 데 32비트가 할당되어 4바이트의 정보를 구성합니다. 가장 큰 단점은 필요한 메모리 양이 무려 4배나 급증해 많은 문제가 발생했다는 점이었습니다.

동시에 인도 유럽어 그룹에 속하는 공식 언어를 사용하는 대부분의 국가에서는 2 32에 해당하는 문자 수가 너무 많습니다.

유니코드 컨소시엄 전문가들의 추가 작업 결과, UTF-16 인코딩이 등장했습니다. 필요한 메모리 양과 인코딩된 문자 수 측면에서 모두에게 적합한 기호 정보를 변환하는 옵션이 되었습니다. 이것이 UTF-16이 기본적으로 채택된 이유이며 한 문자에 대해 2바이트를 예약해야 합니다.

이 상당히 진보되고 성공적인 유니코드 버전에도 몇 가지 단점이 있었으며, ASCII 확장 버전에서 UTF-16으로 전환한 후 문서의 무게가 두 배로 늘어났습니다.

이에 UTF-8 가변길이 인코딩을 사용하기로 결정하였다. 이 경우 소스 텍스트의 각 문자는 1~6바이트 길이의 시퀀스로 인코딩됩니다.

정보교환을 위한 미국표준코드에 문의하세요.

UTF-8 가변 길이의 모든 라틴 문자는 ASCII 인코딩 시스템과 마찬가지로 1바이트로 인코딩됩니다.

YTF-8의 특별한 특징은 다른 문자를 사용하지 않는 라틴어 텍스트의 경우 유니코드를 이해하지 못하는 프로그램이라도 여전히 읽을 수 있다는 것입니다. 즉, 기본 ASCII 텍스트 인코딩은 단순히 새로운 가변 길이 UTF의 일부가 됩니다. YTF-8의 키릴 문자는 2바이트를 차지하며, 예를 들어 조지아어 문자는 3바이트를 차지합니다. UTF-16 및 8을 생성함으로써 글꼴에 단일 코드 공간을 생성하는 주요 문제가 해결되었습니다. 그 이후로 글꼴 제조업체는 필요에 따라 벡터 형식의 텍스트 문자로만 테이블을 채울 수 있습니다.

운영 체제마다 선호하는 인코딩이 다릅니다. 다른 인코딩으로 입력된 텍스트를 읽고 편집하려면 러시아어 텍스트 변환 프로그램이 사용됩니다. 일부 텍스트 편집기에는 내장형 트랜스코더가 포함되어 있어 인코딩에 관계없이 텍스트를 읽을 수 있습니다.

이제 ASCII 인코딩에 몇 개의 문자가 포함되어 있는지, 그리고 그것이 개발된 방법과 이유를 알게 되었습니다. 물론 오늘날 유니코드 표준은 세계에서 가장 널리 퍼져 있습니다. 그러나 ASCII 기반이라는 점을 잊어서는 안 되며, IT 분야에 대한 개발자의 기여는 높이 평가되어야 합니다.

각 컴퓨터에는 구현하는 고유한 문자 집합이 있습니다. 이 세트에는 26개의 대문자, 소문자, 숫자, 특수 문자(점, 공백 등)가 포함되어 있습니다. 정수로 변환되면 기호를 코드라고 합니다. 컴퓨터가 동일한 코드 세트를 갖도록 표준이 개발되었습니다.

ASCII 표준

ASCII(American Standard Code for Information Interchange)는 정보 교환을 위한 미국 표준 코드입니다. 각 ASCII 문자는 7비트이므로 최대 문자 수는 128개입니다(표 1). 코드 0~1F는 인쇄되지 않는 제어 문자입니다. 데이터를 전송하려면 인쇄할 수 없는 많은 ASCII 문자가 필요합니다. 예를 들어 메시지는 헤더 시작 문자 SOH, 헤더 자체와 텍스트 시작 문자 STX, 텍스트 자체와 텍스트 끝 문자 ETX, 전송 끝 문자로 구성될 수 있습니다. 문자 EOT. 그러나 네트워크를 통한 데이터는 패킷으로 전송되며 패킷 자체가 전송의 시작과 끝을 담당합니다. 따라서 인쇄할 수 없는 문자는 거의 사용되지 않습니다.

표 1 - ASCII 코드 표

번호 명령 의미 번호 명령 의미

0	널	널 포인터	10	DLE	전송 시스템에서 나가기
1	소	제목의 시작	11	DC1	장치 관리
2	STX	텍스트의 시작	12	DC2	장치 관리
3	ETX	텍스트 끝	13	DC3	장치 관리
4	EOT	전송 종료	14	DC4	장치 관리
5	ACK	요구	15	N.A.K.	수신확인이 되지 않은 경우
6	벨	수락 확인	16	싱크	단순한
7	학사	벨 기호	17	ETB	전송 블록의 끝
8	HT	뒤로 물러나세요	18	할 수 있다	표시
9	LF	수평표	19	여자 이름.	미디어 끝
ㅏ	버몬트	라인 번역	1A	보결	아래첨자
비	FF	수직 탭	1B	ESC	출구
씨	CR	페이지 번역	1C	FS	파일 구분 기호
디	그래서	캐리지 리턴	1D	G.S.	그룹 구분자
이자형	시.	추가 레지스터로 전환	1E	RS	레코드 구분 기호
	시.	표준 케이스로 전환	1층	우리를	모듈 분리기

번호 기호 번호 기호 번호 기호 번호 기호 번호 기호 번호 기호

20	공간	30	0	40	@	50	피	60	.	70	피
21	!	31	1	41	ㅏ	51	큐	61	ㅏ	71	큐
22	‘	32	2	42	비	52	아르 자형	62	비	72	아르 자형
23	#	33	3	43	씨	53	에스	63	씨	73	에스
24	φ	34	4	44	디	54	티	64	디	74	티
25	%	35	5	45	이자형	55	그리고	65	이자형	75	그리고
26	&	36	6	46	에프	56	V	66	에프	76	V
27	‘	37	7	47	G	57	여	67	g	77	승
28	(	38	8	48	시간	58	엑스	68	시간	78	엑스
29	)	39	9	49	나	59	와이	69	나	70	와이
2A	‘	3A	;	4A	제이	5A	지	6A	제이	7A	지
2B	+	3B	;	4B	케이	5B	[	6B	케이	7B	{
2C	‘	3C	<	4C	엘	5C	\	6C	엘	7C	\|
2D	—	3D	=	4D	중	5D	]	6D	중	7D	}
2E		3E	>	4E	N	5E	—	6E	N	7E	~
2층	/	3층	g	4층	영형	5층	_	6층	영형	7층	델

유니코드 표준

이전 인코딩은 영어에는 적합하지만 다른 언어에는 편리하지 않습니다. 예를 들어 독일어에는 움라우트가 있고 프랑스어에는 위 첨자가 있습니다. 일부 언어에는 완전히 다른 알파벳이 있습니다. ASCII를 확장하려는 첫 번째 시도는 IS646으로, 이전 인코딩을 추가로 128자로 확장했습니다. 획과 발음 구별 부호가 있는 라틴 문자가 추가되어 라틴어 1이라는 이름이 부여되었습니다. 다음 시도는 코드 페이지가 포함된 IS 8859였습니다. 확장 시도도 있었지만 보편적이지는 않았습니다. UNICODE 인코딩이 생성되었습니다(10646). 인코딩의 기본 개념은 코드 포인터라고 하는 단일 상수 16비트 값을 각 문자에 할당하는 것입니다. 총 65536개의 포인터가 있습니다. 공간을 절약하기 위해 코드 0~255에 Latin-1을 사용하여 ASII를 UNICODE로 쉽게 변경했습니다. 이 표준은 많은 문제를 해결했지만 전부는 아닙니다. 예를 들어 일본어의 경우 새로운 단어의 출현으로 인해 용어 수를 약 20,000개 늘릴 필요가 있으며 점자도 포함해야 합니다.

Office 365용 Excel Office 365용 Word Office 365용 Outlook Office 365용 PowerPoint Office 365용 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Visio Standard 2019 Excel 2016 Word 2016 Outlook 2016 PowerPoint 2016 2013 Publisher 20 16 비지오 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Publisher 2010 Visio 2010 Excel 2007 Word 2007 Outlook 20 07 PowerPoint 2007 게시자 2007 액세스 2007 Visio 2007 OneNote 2007 Office 2010 Visio 스탠다드 2007 Visio 스탠다드 2010 덜

이 문서의 내용: 문서에 ASCII 또는 유니코드 문자 삽입

몇 가지 특수 문자나 기호만 입력해야 하는 경우 키보드 단축키를 사용할 수 있습니다. ASCII 문자 목록은 다음 표 또는 키보드 단축키를 사용하여 국가별 알파벳 삽입 문서를 참조하세요.

노트:

ASCII 문자 삽입

ASCII 문자를 삽입하려면 Alt 키를 누른 채 문자 코드를 입력하세요. 예를 들어 도 기호(º)를 삽입하려면 Alt 키를 누른 상태에서 숫자 키패드에서 0176을 입력합니다.

숫자를 입력하려면 기본 키보드의 숫자 대신 숫자 키패드를 사용하세요. 숫자 키패드로 숫자를 입력해야 하는 경우 NUM LOCK 표시기가 켜져 있는지 확인하세요.

유니코드 문자 삽입

유니코드 문자를 삽입하려면 문자 코드를 입력한 다음 ALT와 X를 누릅니다. 예를 들어 달러 기호($)를 삽입하려면 0024를 입력하고 ALT와 X를 누릅니다. 모든 유니코드 문자 코드는 을 참조하세요.

중요: PowerPoint 및 InfoPath와 같은 일부 Microsoft Office 프로그램은 유니코드 코드를 문자로 변환하는 것을 지원하지 않습니다. 이러한 프로그램 중 하나에 유니코드 문자를 삽입해야 하는 경우 .

노트:

Alt+X를 누른 후 잘못된 유니코드 문자가 나타나면 올바른 코드를 선택한 다음 Alt+X를 다시 누르십시오.

또한, 코드 앞에 "U+"를 입력해야 합니다. 예를 들어 "1U+B5"를 입력하고 ALT+X를 누르면 "1μ"라는 텍스트가 표시되고, "1B5"를 입력하고 ALT+X를 누르면 "τ" 기호가 표시됩니다.

기호 테이블 사용

문자표는 선택한 글꼴에 사용할 수 있는 문자를 볼 수 있도록 Microsoft Windows에 내장된 프로그램입니다.

기호 테이블을 사용하면 개별 기호나 기호 그룹을 클립보드에 복사하고 해당 기호 표시를 지원하는 프로그램에 붙여넣을 수 있습니다. 기호 테이블 열기

Windows 10에서는 작업 표시줄의 검색 상자에 "기호"라는 단어를 입력하고 검색 결과에서 기호 테이블을 선택합니다.

Windows 8의 경우 시작 화면에 "기호"를 입력하고 검색 결과에서 기호 테이블을 선택하세요.

Windows 7에서는 시작 버튼을 클릭하고 모든 프로그램, 보조프로그램, 시스템 도구를 선택한 다음 문자표를 클릭합니다.

문자는 글꼴별로 그룹화됩니다. 글꼴 목록을 클릭하여 적절한 문자 집합을 선택합니다. 기호를 선택하려면 해당 기호를 클릭한 다음 선택 버튼을 클릭하세요. 기호를 삽입하려면 문서에서 원하는 위치를 마우스 오른쪽 버튼으로 클릭하고 붙여넣기를 선택하세요.

자주 사용되는 문자 코드

전체 문자 목록은 컴퓨터, ASCII 문자 코드 테이블 또는 집합별로 구성된 유니코드 문자 테이블을 참조하세요.

글리프

통화

법적 기호

수학 기호

분수

구두점 및 방언 기호

모양 기호

일반적으로 사용되는 발음 구별 부호

글리프 및 해당 코드의 전체 목록은 다음을 참조하세요.

글리프

인쇄되지 않는 ASCII 제어 문자

프린터와 같은 일부 주변 장치를 제어하는 데 사용되는 문자는 ASCII 테이블에서 0~31까지 번호가 매겨져 있습니다. 예를 들어, 페이지 피드/새 페이지 문자는 숫자 12입니다. 이 문자는 프린터가 다음 페이지의 시작 부분으로 이동하도록 지시합니다.

인쇄되지 않는 ASCII 제어 문자 표

십진수	징후	십진수	징후
		데이터 채널 해제
제목의 시작		첫 번째 장치 제어 코드
텍스트의 시작		두 번째 장치 제어 코드
텍스트 끝		세 번째 장치 제어 코드
전송 종료		네 번째 장치 제어 코드
	다섯개	부정적인 확인
확인		동기 전송 모드
소리 신호		전송된 데이터 블록의 끝

수평표		미디어 끝
줄 바꿈/새 줄		교체 기호
수직 탭			초과하다
페이지 번역/새 페이지	열둘	파일 구분 기호
캐리지 리턴		그룹 구분자
비트를 저장하지 않고 시프트		레코드 구분 기호
비트 보존 시프트	열 다섯	데이터 구분 기호

[8비트 인코딩: ASCII, KOI-8R 및 CP1251] 미국에서 만들어진 최초의 인코딩 테이블은 바이트의 8번째 비트를 사용하지 않았습니다. 텍스트는 일련의 바이트로 표시되었지만 8번째 비트는 고려되지 않았습니다(공식 목적으로 사용됨).

ASCII(정보 교환을 위한 미국 표준 코드) 테이블은 일반적으로 허용되는 표준이 되었습니다. ASCII 테이블의 처음 32자(00~1F)는 인쇄할 수 없는 문자로 사용되었습니다. 인쇄 장치 등을 제어하도록 설계되었습니다. 나머지(20~7F)는 일반(인쇄 가능한) 문자입니다.

표 1 - ASCII 인코딩

12월 16진수 10월 문자 설명

0	0	000		없는
1	1	001		제목의 시작
2	2	002		텍스트의 시작
3	3	003		텍스트 끝
4	4	004		전송 종료
5	5	005		문의
6	6	006		인정하다
7	7	007		벨
8	8	010		역행 키이
9	9	011		가로 탭
10	ㅏ	012		새 줄
11	비	013		수직 탭
12	씨	014		새 페이지
13	디	015		캐리지 리턴
14	이자형	016		교대하다
15	에프	017		교대
16	10	020		데이터링크 탈출
17	11	021		장치 제어 1
18	12	022		장치 제어 2
19	13	023		장치 제어 3
20	14	024		장치 제어 4
21	15	025		부정적인 인정
22	16	026		동기식 유휴
23	17	027		트랜스 끝. 차단하다
24	18	030		취소
25	19	031		매체의 끝
26	1A	032		대리자
27	1B	033		탈출하다
28	1C	034		파일 구분 기호
29	1D	035		그룹 구분 기호
30	1E	036		기록 구분 기호
31	1층	037		단위 구분 기호
32	20	040		공간
33	21	041	!
34	22	042	"
35	23	043	#
36	24	044	$
37	25	045	%
38	26	046	&
39	27	047	"
40	28	050	(
41	29	051	)
42	2A	052	*
43	2B	053	+
44	2C	054	,
45	2D	055	-
46	2E	056	.
47	2층	057	/
48	30	060	0
49	31	061	1
50	32	062	2
51	33	063	3
52	34	064	4
53	35	065	5
54	36	066	6
55	37	067	7
56	38	070	8
57	39	071	9
58	3A	072	:
59	3B	073	;
60	3C	074	<
61	3D	075	=
62	3E	076	>
63	3층	077	?

12월 16진수 10월 문자

64	40	100	@
65	41	101	ㅏ
66	42	102	비
67	43	103	씨
68	44	104	디
69	45	105	이자형
70	46	106	에프
71	47	107	G
72	48	110	시간
73	49	111	나
74	4A	112	제이
75	4B	113	케이
76	4C	114	엘
77	4D	115	중
78	4E	116	N
79	4층	117	영형
80	50	120	피
81	51	121	큐
82	52	122	아르 자형
83	53	123	에스
84	54	124	티
85	55	125	유
86	56	126	V
87	57	127	여
88	58	130	엑스
89	59	131	와이
90	5A	132	지
91	5B	133	[
92	5C	134	\
93	5D	135	]
94	5E	136	^
95	5층	137	_
96	60	140	`
97	61	141	ㅏ
98	62	142	비
99	63	143	씨
100	64	144	디
101	65	145	이자형
102	66	146	에프
103	67	147	g
104	68	150	시간
105	69	151	나
106	6A	152	제이
107	6B	153	케이
108	6C	154	엘
109	6D	155	중
110	6E	156	N
111	6층	157	영형
112	70	160	피
113	71	161	큐
114	72	162	아르 자형
115	73	163	에스
116	74	164	티
117	75	165	유
118	76	166	V
119	77	167	승
120	78	170	엑스
121	79	171	와이
122	7A	172	지
123	7B	173	{
124	7C	174	\|
125	7D	175	}
126	7E	176	~
127	7층	177	델

쉽게 볼 수 있듯이 이 인코딩에는 라틴 문자와 영어에서 사용되는 문자만 포함됩니다. 산술 및 기타 서비스 기호도 있습니다. 그러나 독일어나 프랑스어에는 러시아어 문자도 없고 특별한 라틴어 문자도 없습니다. 이는 설명하기 쉽습니다. 인코딩은 미국 표준으로 특별히 개발되었습니다. 컴퓨터가 전 세계적으로 사용되기 시작하면서 다른 문자도 인코딩해야 했습니다.

이를 위해 각 바이트에서 8번째 비트를 사용하기로 결정했습니다. 이로 인해 문자를 인코딩하는 데 사용할 수 있는 값이 128개 더 추가되었습니다(80에서 FF까지). 8비트 테이블 중 첫 번째인 "확장 ASCII"( 확장 ASCII)에는 서유럽의 일부 언어에서 사용되는 다양한 라틴 문자 변형이 포함되어 있습니다. 또한 의사그래픽을 포함한 다른 추가 기호도 포함되어 있습니다.

의사 문자를 사용하면 화면에 텍스트 문자만 표시하여 그래픽과 유사한 느낌을 제공할 수 있습니다. 예를 들어, 파일 관리 프로그램인 FAR Manager는 의사 그래픽을 사용하여 작동합니다.

확장 ASCII 테이블에는 러시아어 문자가 없습니다. 러시아(이전 소련)와 기타 국가에서는 8비트 텍스트 파일에서 특정 "국가" 문자(폴란드어 및 체코어의 라틴 문자, 키릴 문자(러시아 문자 포함) 및 기타 알파벳)를 표현할 수 있는 자체 인코딩을 만들었습니다.

널리 보급된 모든 인코딩에서 처음 127자(즉, 8번째 비트가 0인 바이트 값)는 ASCII와 동일합니다. 따라서 ASCII 파일은 이러한 인코딩 중 하나로 작동합니다. 영어의 문자도 같은 방식으로 표시됩니다.

ISO 조직(국제 표준화 기구)은 ISO 8859 표준 그룹을 채택했습니다. 다양한 언어 그룹에 대한 8비트 인코딩을 정의합니다. 따라서 ISO 8859-1은 미국과 서유럽을 위한 확장 ASCII 테이블입니다. ISO 8859-5는 키릴 문자(러시아어 포함)에 대한 표입니다.

그러나 역사적인 이유로 ISO 8859-5 인코딩은 뿌리를 내리지 못했습니다. 실제로 러시아어에는 다음 인코딩이 사용됩니다.

코드 페이지 866(CP866), 일명 “DOS”, 일명 “대체 GOST 인코딩”. 90년대 중반까지 널리 사용되었습니다. 이제는 제한적으로 사용됩니다. 실제로 인터넷에 텍스트를 배포하는 데 사용되지 않습니다.
- KOI-8. 70~80년대에 개발되었습니다. 이는 러시아 인터넷에서 이메일 메시지를 전송하는 데 일반적으로 허용되는 표준입니다. 또한 Linux를 포함한 Unix 제품군의 운영 체제에서도 널리 사용됩니다. KOI-8의 러시아어 버전은 KOI-8R이라고 합니다. 다른 키릴어 버전도 있습니다(예를 들어 KOI8-U는 우크라이나어 버전입니다).
- 코드 페이지 1251, CP1251, Windows-1251. Windows에서 러시아어를 지원하기 위해 Microsoft에서 개발했습니다.

CP866의 가장 큰 장점은 확장 ASCII와 동일한 위치에 의사 그래픽 문자가 보존된다는 것입니다. 따라서 유명한 Norton Commander와 같은 외국 텍스트 프로그램은 변경 없이 작동할 수 있습니다. CP866은 이제 FAR Manager를 포함하여 텍스트 창 또는 전체 화면 텍스트 모드에서 실행되는 Windows 프로그램에 사용됩니다.

CP866의 텍스트는 최근 몇 년 동안 매우 드물었습니다(그러나 Windows에서 러시아어 파일 이름을 인코딩하는 데 사용됩니다). 따라서 KOI-8R과 CP1251이라는 두 가지 다른 인코딩에 대해 자세히 설명하겠습니다.

보시다시피 CP1251 인코딩 테이블에서 러시아어 문자는 알파벳 순서로 배열됩니다 (단 문자 E는 제외). 이러한 배열은 컴퓨터 프로그램이 알파벳순으로 정렬하는 것을 매우 쉽게 만듭니다.

그러나 KOI-8R에서는 러시아어 문자의 순서가 무작위로 보입니다. 그러나 실제로는 그렇지 않습니다.

많은 오래된 프로그램에서는 텍스트를 처리하거나 전송할 때 8번째 비트가 손실되었습니다. (이제 이러한 프로그램은 사실상 "멸종"되었지만 80년대 후반부터 90년대 초반까지 널리 퍼졌습니다.) 8비트 값에서 7비트 값을 얻으려면 최상위 숫자에서 8을 빼면 됩니다. 예를 들어 E1은 61이 됩니다.

이제 KOI-8R을 ASCII 테이블(표 1)과 비교해 보십시오. 러시아어 문자가 라틴어 문자와 명확하게 일치하는 것을 볼 수 있습니다. 8번째 비트가 사라지면 러시아 소문자는 라틴 대문자로 바뀌고, 러시아 대문자는 라틴 소문자로 바뀐다. 따라서 KOI-8의 E1은 러시아어 "A"이고 ASCII의 61은 라틴어 "a"입니다.

따라서 KOI-8을 사용하면 8번째 비트가 손실된 경우 러시아어 텍스트의 가독성을 유지할 수 있습니다. “안녕하세요 여러분”은 “pRIWET WSEM”이 됩니다.

최근에는 인코딩 테이블의 문자 알파벳 순서와 8번째 비트가 손실된 가독성 모두 결정적인 중요성을 잃었습니다. 현대 컴퓨터의 8번째 비트는 전송이나 처리 중에 손실되지 않습니다. 그리고 단순히 코드를 비교하는 것이 아니라 인코딩을 고려하여 알파벳순 정렬이 수행됩니다. (그런데 CP1251 코드는 완전히 알파벳순으로 정렬되어 있지 않습니다. 문자 E가 그 자리에 없습니다.)

두 가지 일반적인 인코딩이 있기 때문에 인터넷 작업(메일, 웹 사이트 검색)을 할 때 러시아어 텍스트 대신 의미 없는 문자 집합을 볼 수 있는 경우가 있습니다. 예를 들어, “나는 SBYUFEMHEL입니다.” 이것은 단지 "존경하는 마음으로"라는 단어일 뿐입니다. 그러나 CP1251 인코딩으로 인코딩되었으며 컴퓨터는 KOI-8 테이블을 사용하여 텍스트를 디코딩했습니다. 반대로 동일한 단어가 KOI-8로 인코딩되고 컴퓨터가 CP1251 테이블에 따라 텍스트를 디코딩한 경우 결과는 "U HCHBTSEOYEN"이 됩니다.

때때로 컴퓨터가 러시아어용이 아닌 표를 사용하여 러시아어 문자를 해독하는 경우가 있습니다. 그런 다음 러시아어 문자 대신 의미 없는 기호 집합이 나타납니다(예: 동유럽 언어의 라틴 문자). 그들은 종종 "crocozybras"라고 불립니다.

대부분의 경우 최신 프로그램은 인터넷 문서(이메일 및 웹 페이지)의 인코딩을 독립적으로 결정하는 데 대처합니다. 그러나 때때로 그들은 "실패"하고 러시아 문자 또는 "krokozyabry"의 이상한 순서를 볼 수 있습니다. 일반적으로 이러한 상황에서 실제 텍스트를 화면에 표시하려면 프로그램 메뉴에서 수동으로 인코딩을 선택하면 충분합니다.

이 기사에는 http://open-office.edusite.ru/TextProcessor/p5aa1.html 페이지의 정보가 사용되었습니다.

사이트에서 가져온 자료:

유니코드(영어로는 유니코드)는 문자 인코딩 표준입니다. 간단히 말해서 이것은 텍스트 문자(문자, 구두점 요소)와 바이너리 코드 간의 대응표입니다. 컴퓨터는 0과 1의 순서만 이해합니다. 화면에 정확히 무엇을 표시해야 하는지 알기 위해서는 각 문자에 고유한 번호를 할당해야 합니다. 80년대에는 문자가 1바이트, 즉 8비트(각 비트는 0 또는 1임)로 인코딩되었습니다. 따라서 하나의 테이블(일명 인코딩 또는 세트)은 256자만 수용할 수 있는 것으로 나타났습니다. 이는 하나의 언어에도 충분하지 않을 수 있습니다. 따라서 다양한 인코딩이 등장했고 이로 인해 읽을 수 있는 텍스트 대신 화면에 이상한 횡설수설이 나타나는 경우가 많았습니다. 유니코드가 된 단일 표준이 필요했습니다. 가장 많이 사용되는 인코딩은 UTF-8(Unicode Transformation Format)으로, 1~4바이트를 사용하여 문자를 나타냅니다.

기호

유니코드 테이블의 문자는 16진수로 번호가 지정됩니다. 예를 들어, 키릴 대문자 M은 U+041C로 지정됩니다. 이는 041행과 C열의 교차점에 위치한다는 의미입니다. 간단히 복사한 다음 어딘가에 붙여넣으면 됩니다. 수 킬로미터에 달하는 목록을 뒤지지 않으려면 검색을 사용해야 합니다. 기호 페이지로 이동하면 유니코드 번호와 다른 글꼴로 작성된 방법을 볼 수 있습니다. 사각형이 대신 그려지더라도 최소한 그것이 무엇인지 알아내기 위해 검색창에 기호 자체를 입력할 수 있습니다. 또한 이 사이트에는 사용 편의성을 위해 다양한 섹션에서 수집된 동일한 유형의 아이콘으로 구성된 특별(임의) 세트가 있습니다.

유니코드 표준은 국제적입니다. 여기에는 전 세계 거의 모든 스크립트의 문자가 포함됩니다. 더 이상 사용되지 않는 것을 포함합니다. 이집트 상형문자, 게르만 문자, 마야 문자, 고대 국가의 설형 문자 및 알파벳. 도량형의 명칭, 악보, 수학적 개념도 제시됩니다.

유니코드 컨소시엄 자체는 새로운 문자를 발명하지 않습니다. 사회에서 사용되는 아이콘이 표에 추가됩니다. 예를 들어, 루블 기호는 유니코드에 추가되기 전 6년 동안 활발하게 사용되었습니다. 이모티콘 픽토그램(이모티콘)도 인코딩에 포함되기 전에 일본에서 처음으로 널리 사용되었습니다. 단, 상표 및 회사 로고는 원칙적으로 추가하지 않습니다. Apple 사과 또는 Windows 플래그와 같은 일반적인 것조차도 마찬가지입니다. 현재까지 버전 8.0에서는 약 12만 개의 문자가 인코딩되었습니다.

ASCII 테이블에서 문자 코드가 계산되는 방법. ASCII 인코딩(정보 교환을 위한 미국 표준 코드) - 라틴 알파벳의 기본 텍스트 인코딩

오타 신고

편집자에게 전송될 텍스트:

귀하의 의견(선택사항):