Краткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах

Скачать 0.73 Mb.

Название	Краткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах
страница	1/6
Дата публикации	31.05.2014
Размер	0.73 Mb.
Тип	Документы

literature-edu.ru > Информатика > Документы

1 2 3 4 5 6

Краткая история систем кодирования символов естественных языков в США, Европе и Восточно-азиатских странах

Общая информация о кодировании символов естественных языков

Кодирование символов: основа для обеспечения возможности работы компьютеров с текстовыми данными
Важнейшей для большинства людей возможностью компьютерной техники является не то, что эта техника может просто быстро производить математические вычисления - ведь множество людей до сих пор ведут финансовые расчёты, используя микрокалькуляторы, а не ПК, - а то, что компьютерная техника может быть использована для работы с текстовыми данными. Вероятно, каждый должен согласиться с тем, что подавляющее большинство пользователей ПК используют программы для обработки текстов чаще, чем программы какого-либо другого назначения. И с тем, что сейчас сложно будет найти компьютер, на котором не была бы установлена какая-либо программа для обработки текстов.

При этом многие люди, вероятно, и не догадываются о том, что текстовые данные в ПК представлены, в конечном итоге, в виде числовых данных. В современных компьютерных системах символы^*, которые люди используют для записи и передачи текстов на своём языке, кодируются с помощью чисел, записанных в двоичной системе счисления (см. Табл. 1). Это делается потому, что микропроцессоры, лежащие в основе современных компьютерных систем, могут делать, по сути, лишь две вещи: производить действия двоичной арифметики и выполнять Булевы логические операции^**.

^* Под "символами" далее в тексте статьи понимаются и цифры, и буквы, и иероглифы - прим. перев.
^** Только в первом случае последовательность нулей и единиц трактуется как число в двоичной системе счисления, а во втором - как сложное логическое высказывание, в котором "1" обозначает истинность элементарного высказывания, а "0" - его ложность - прим. ред.

Таблица 1.
Двоичные значения, стоящие за алфавитно-цифровыми символами на экране в 7-битной кодировке ASCII.

Символ на экране	Двоичное значение для его обработки	Символ на экране	Двоичное значение для его обработки

1	0110001	A	1000001
2	0110010	B	1000010
3	0110011	C	1000011
4	0110100	D	1000100
5	0110101	E	1000101

Поэтому когда ПК, к примеру, записывает букву "A" на дискету, он не создаёт изображения буквы "A" на магнитном носителе, а записывает на него двоичное число (состоящее из нолей и единиц), соответствующее букве "A" в специальной таблице символов. Вы спросите: но ведь ПК создаёт изображение буквы "A" на дисплее, когда я нажимаю клавишу "A"!? Конечно. Когда Вы нажимаете клавишу с буквой "A", первая вещь, которая при этом происходит - в клавиатуре генерируется число, соответствующее букве "A". ПК использует это число для выборки изображения буквы "A" из файла шрифта, в котором изображение каждой буквы пронумеровано в порядке, определяемом той или иной таблицей символов. Лишь после этого соответствующее изображение появляется на экране. То же самое происходит при печати текста, с той лишь разницей, что изображение буквы "A" оказывается на бумаге, а не на дисплее^*.

^* Конечно, в данном абзаце всё изложено в сильно упрощённом виде. Более подробно всё это описано в [1]. - прим. перев.

Такая система, использующая а) пронумерованные таблицы символов и б) числа (двоичные коды) для внутреннего представления в компьютерах символов естественных языков, позволяет ПК гибко и эффективно делать такие вещи, которые невозможно было реализовать на простой пишущей машинке. ПК может не только распечатывать текст на бумаге, но позволяет также хранить, модифицировать, сортировать, принимать и передавать текстовые данные с умопомрачительно высокой скоростью. Наконец, при наличии соответствующего ПО ПК может быть использован для работы с текстами не на каком-то строго заданном одном, а сразу на многих языках^*. Единственная возникающая при этом сложность состоит в том, что при работе с языками, в которых используется большое количество символов, например, с японским, для нумерации этих символов требуется использовать бóльшие числовые значения - и, соответственно, более длинные двоичные коды^**.

^* Поддержка такой функции далее в тексте называется "многоязыковой поддержкой" - прим. перев.
^** При этом необходимо учитывать, что длина двоичного кода зависит от величины представляемого им числа как log₂(x). Т.е. для кодирования только букв английского языка (26 символов) достаточно было бы длины кода, равной log₂(26)~=5 бит, а для кодирования иероглифов японского языка (65.000 символов) необходимо уже log₂(65000)~=16 бит, см. ниже. - прим. ред.

ПК для работы с английским языком, используемые в США , используют 7-битную таблицу символов и метод кодирования ASCII (American Standard Code for Information Interchange)^*, которые обеспечивают возможность кодирования 128 символов (поскольку бит может иметь только два значения - "1" или "0" - используя 7 бит, можно представить максимум 2⁷=128 разных чисел. Набор символов^**, использованный для заполнения этой таблицы, включает в себя заглавные и строчные буквы латинского^*** алфавита, арабские цифры, знаки препинания и некоторые управляющие двоичные последовательности. Если используется 8-й бит, который изначально был зарезервирован для контроля чётности (вид проверки корректности передачи данных), метод кодирования ASCII становится 8-битным, или 1-байтным^****. Если же этот 8-й бит используется, как и 7 других, для нумерации символов, а не для контроля чётности, то максимально возможный объём таблицы символов, используемой вместе с методом кодирования ASCII , возрастает до 2⁸=256 позиций.

^* Далее в тексте совокупность таблицы символов и метода, использованного для кодирования этих символов (чаще - их номеров), которые (таблица и метод) используются вместе, называется "системой кодирования". Как правило, и таблица символов, и метод кодирования, составляющие ту или иную систему кодирования, бывают определены в рамках того или иного стандарта. Система кодирования ASCII является американским официальным государственным стандартом - прим. перев.
^** Обратите внимание: "таблица символов" и "набор символов" - это разные термины. Набор символов называют алфавитом кода. Таблица отличается от набора тем, что в ней символы пронумерованы (или как-либо иначе структурированы). - прим. перев.
^*** На самом деле, настоящий латинский алфавит и алфавит английского языка не эквивалентны: в латинском алфавите 25 букв, а в английском - 26 (добавлена "w"). В оригинале автор статьи, помимо того, что путается в указанных выше терминах, вдобавок под "латинским" в большинстве случаев подразумевает 26-буквенный алфавит, т.е. не латинский, а именно английский. - прим. перев.
^**** 8 бит, как известно, = 1 байт. С учётом сказанного в абзаце, думаю, понятно, почему далее по возможности используются термины "n-битный" вместо "n-байтный": 7 бит нельзя выразить через байты - прим. перев.

В случае работы с языками типа японского, в которых используется огромное количество символов - десятки тысяч, - для нумерации символов, используемых в этом языке, необходимо использовать числа длиною как минимум в 16 бит (2 байта). 16-битный метод кодирования обеспечивает 2¹⁶=65.536 возможных позиций в таблице символов.

Однако в стандартную таблицу символов, используемую в настоящее время в японских ПК и определённую, в частности, в японском промышленном стандарте JIS [Japan Industrial Standard] X 0208-1990, внесено только 6879 символов. Этого достаточно для решения многих задач по обработке текстов, встречающихся в повседневной жизни, но мало для написания имён людей, географических названий мест, цитирования исторических данных и даже для написания названий рыб, что японцы едят в ресторанах "суши"!

Кроме этой, необходимо отметить ещё одну проблему. Современные компьютеры могут наиболее эффективно работать с порциями данных, размер которых кратен 8 битам (1 байту). Это потому, что в их электронных схемах данные обычно передаются и обрабатываются порциями по 8, 16, 32 или 64 бита. По этой причине 10-битный или 15-битный метод кодирования окажется неудобным и неэффективным для применения в ПК. С другой стороны, если для нумерации символов использовать слишком длинные числа (двоичные последовательности), объём данных, с которыми придётся работать компьютеру, резко возрастёт, что вновь приведёт к существенному снижению эффективности работы. Например, если для нумерации символов использовать 24 бита, это позволило бы работать с символами всех естественных языков мира, как известных из истории, так и используемых сейчас (2²⁴=16.777.216). Однако для нумерации символов большинства языков, имеющих алфавиты, всё же достаточно чисел длиною в 8 бит, поскольку в этих алфавитах насчитывается не более 256 символов. И поэтому использование для их представления 24-битного метода кодирования привело бы к обработке 16-ти ненужных в данном случае бит, и при записи той же латинской буквы "А" на дискету привело бы к нерациональному расходованию места на носителе, которое могло бы быть использовано для хранения данных.

1 2 3 4 5 6

Добавить документ в свой блог или на сайт

	В. В. Чхивадзе государственный финансовый контроль История свидетельствует, что контрольно-ревизионная деятельность в Европе имеет продолжительную историю. При этом исторический период...		Литература баларамамурти Й., Краткая история народа андхра, М, 1956.... Воробьев-Десятовский В. С., К вопросу о роли субстрата в развитии индоарийских языков, — «Советское востоковедение», 1956 №1
	Мне удалось откопать в американской книге интересные данные по количеству... Сталинское время в США почти тоже самое количество зэков, как и в сталинском ссср, которому США приклеили солженицевский лейбл гулаг,...		Днепропетровский национальный университет имени олеся гончара Кафедра иностранных языков для инженерно-технических и естественных специальностей
	Днепропетровский национальный университет имени олеся гончара Кафедра иностранных языков для инженерно-технических и естественных специальностей		Лабораторная работа №6 Итоговое задание «Логическое программирование на языке Visual Prolog» Получить практические навыки применения систем и языков логического программирования для построения систем, основанных на знаниях....
	Контрольная работа на тему: Культура России 18 и 19 веков Европе, но и в странах Азии и дальнего востока. Развитие промышленности и науки, освоение Сибири, выход к морям – все это способствовало...		Монография Медиаобразование в России: краткая история развития – Таганрог: Познание, 2002. 266 c
	Государственности и суверенитета. Существует триединство символов... Почти 26 лет гимном СССР рсфср был ''Интернационал''. В 1943 было решено использовать музыку ''Гимна партии большевиков'', записанную...		Мусульмане в странах запада чтущие Аллаха сохраняют здесь свою идентичность Югославии и Болгарии. Магометанство, как в Западной Европе когда-то называли далекую и экзотическую религию, было представлено немногочисленной,...

Краткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах

Краткая история систем кодирования символов естественных языков в США, Европе и Восточно-азиатских странах

Общая информация о кодировании символов естественных языков

Похожие: