![]()
Главная Обратная связь Дисциплины:
Архитектура (936) ![]()
|
Представление информации в ЭВМ
Информация в ЭВМ кодируется в двоичной системе счисления. Система счисления — это способ наименования и изображения чисел с помощью символов, имеющих определенные количественные значения. В зависимости от способа изображения чисел системы счисления делятся на позиционные и непозиционные. В позиционной системе счисления количественное значение каждой цифры зависит от ее места (позиции) в числе. В непозиционнойсистеме счисления цифры не меняют своего количественного значения при изменении их расположения в числе. Имея в целой части числа т, а в дробной s разрядов, можно записать всего Рm+s разных чисел. Двоичная система счисления имеет основание Р = 2 и использует для преставления информации всего две цифры: 0 и 1. Существуют правила перевода чисел из одной системы счисления в другую, основанные в том числе и на соотношении (1). Пример 1.3. 101110,101(2) = 1∙25+0∙24+1∙23+1∙22+1∙21+0∙20+1∙2-1+0∙2-2+1∙2-3= 46,625(10), т.е. двоичное число 101110,101 равно десятичному числу 46,625. Вся информация (данные) представлена в ЭВМ в виде двоичных кодов. Для удобства работы введены следующие термины, обозначающие совокупности двоичных разрядов (таблица 1.1). Эти термины обычно используются в качестве единиц измерения объемов информации, хранимой или обрабатываемой в ЭВМ ]. Последовательность нескольких битов или байтов часто называют полем данных. Биты в числе (в слове, в поле и т.п.) нумеруются справа налево, начиная с 0-го разряда. В ПК могут обрабатываться поля постоянной и переменной длины. Таблица 1.1. Двоичные совокупности
Поля постоянной длины: слово — 2 байта двойное слово — 4 байта полуслово — 1 байт расширенное слово — 8 байт Числа с фиксированной запятой чаще всего имеют формат слова и полуслова, числа с плавающей запятой — формат двойного и расширенного слова. Поля переменной длины могут иметь любой размер от 0 до 256 байт, но обязательно равный целому числу байтов. Для обработки на ЭВМ текстовой информации обычно при вводе в компьютер каждая буква кодируется определенным числом, а при выводе на внешние устройства (монитор или принтер) для восприятия человеком по этим числам строятся соответствующие изображения букв. Соответствие между набором букв и числами называется кодировкой символов. Для кодирования 256 различных символов необходимо использовать восемь двоичных разрядов. Этого достаточно, чтобы различными комбинациями восьми битов выразить все символы английского и русского языков, как строчные, так и прописные, а также знаки препинания, символы основных арифметических действий и некоторые общепринятые специальные символы. Технически это выглядит очень просто, однако всегда существовали достаточно веские организационные сложности. В первые годы развития вычислительной техники они были связаны с отсутствием необходимых стандартов, а в настоящее время вызваны, наоборот, изобилием одновременно действующих и противоречивых стандартов. Для того чтобы весь мир одинаково кодировал текстовые данные, нужны единые таблицы кодирования, а это пока невозможно из-за противоречий между символами национальных алфавитов, а также противоречий корпоративного характера. При разработке IBM PC фирма IBM заложила в знакогенераторы видеоконтроллеров кодировку символов, разработанную Институтом стандартизации США (ANSI – American National Standard Institute). Производители принтеров и других устройств также стали следовать предложенной фирмой IBM кодировке, так что она стала фактическим стандартом, получив название таблицы ASCII (American Standard Code for Information Interchange — Американский стандартный код для обмена информацией). В системе ASCII закреплены две таблицы кодирования – базовая и расширенная. Базовая таблица закрепляет значения кодов от 0 до 127, а расширенная относится к символам с номерами от 128 до 255. Базовая таблица является международной и используется для кодирования управляющих символов, цифр и букв латинского алфавита; в расширении стандарта кодируются символы псевдографики и буквы национального алфавита (естественно, в разных странах разные). Первые 32 кода базовой таблицы, начиная с нулевого, отданы производителям аппаратных средств (в первую очередь производителям компьютеров и печатающих устройств). В этой области размещаются так называемые управляющие коды, которым не соответствуют никакие символы языков, и соответственно, эти коды не выводятся ни на экран, ни на устройства печати, но с их помощью можно управлять тем как производится вывод прочих данных. Начиная с кода 32 по 127 размещены коды символов английского алфавита, знаков препинания, арифметических действий и некоторых вспомогательных символов. Аналогичные системы кодирования текстовых данных были разработаны в других странах. Так, например. в СССР в этой области действовала система кодирования КОИ-7 (код обмена информации семизначный). Однако поддержка производителей оборудования и программ вывела американский код ASCII на уровень международного стандарта, и национальным системам кодирования пришлось «отступить» во вторую, расширенную часть системы кодирования. определяющую значения кодов со 128 по 255. Отсутствие единого стандарта в этой области привело к существованию множества одновременно действующих кодировок. Так фирма Microsoft разработала для Windows новую кодовую таблицу, получившую название ANSI-кодировка. В русской версии Windows используется модифицированная «русская» версия ANSI-таблицы, известная как кодировка Windows-1251. Учитывая широкое распространение операционных систем и других программ компании Microsoft в России, кодировка Windows-1251 глубоко закрепилась и нашла широкое распространение. Эта кодировка используется на большинстве локальных компьютеров, работающих на платформе Windows. Другая распространенная кодировка носит название КОИ-8 (код обмена информацией восьмизначный) – ее происхождение относится ко временам действия Совета Экономической Взаимопомощи государств Восточной Европы. Сегодня кодировка КОИ-8 имеет широкое распространение в компьютерных сетях на территории России и в российском секторе Интернета . Международный стандарт в котором предусмотрена кодировка символов русского алфавита, носит название кодировки ISO (International Standard Organization – Международный институт стандартизации). На практике данная кодировка используется редко. На компьютерах, работающих в операционных системах MS-DOS, могут действовать еще две кодировки (кодировка ГОСТ и кодировка ГОСТ-альтернативная). Первая из них считалась устаревшей даже в первые годы появления персональной вычислительной техники, но вторая используется и по сей день. В связи с изобилием систем кодирования текстовых данных, действующих в России, возникает задача международного преобразования данных – это одна из распространенных задач информатики. Если проанализировать организационные трудности, связанные с созданием единой системы кодирования текстовых данных, то можно прийти к выводу, что они вызваны ограниченным набором кодов (256). В то же время очевидно. что если кодировать символы не восьмиразрядными двоичными числами, а числами с большим количеством разрядов, то и диапазон возможных значений кодов станет намного больше. Такая система, основанная на 16-разрядном кодировании символов, получила название универсальной – UNICODE. Шестнадцать разрядов позволяют обеспечить уникальные коды для 65 536 различных символов – этого поля достаточно для размещения в одной таблице символов большинства языков планеты. Несмотря на очевидность такого подхода. простой механический переход на данную систему долгое время сдерживался из-за недостаточных ресурсов средств вычислительной техники ( в системе кодирования UNICODE все текстовые документы становятся вдвое длиннее). Во второй половине 90-х годов технические средства достигли необходимого уровня обеспечения ресурсами, и сегодня мы наблюдаем постепенный перевод документов и программных средств на универсальную систему кодирования.
![]() |