Краткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах




Скачать 0.73 Mb.
Название Краткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах
страница 1/6
Дата публикации 31.05.2014
Размер 0.73 Mb.
Тип Документы
literature-edu.ru > Информатика > Документы
  1   2   3   4   5   6



Краткая история систем кодирования символов естественных языков в США, Европе и Восточно-азиатских странах

Общая информация о кодировании символов естественных языков



Кодирование символов: основа для обеспечения возможности работы компьютеров с текстовыми данными

Важнейшей для большинства людей возможностью компьютерной техники является не то, что эта техника может просто быстро производить математические вычисления - ведь множество людей до сих пор ведут финансовые расчёты, используя микрокалькуляторы, а не ПК, - а то, что компьютерная техника может быть использована для работы с текстовыми данными. Вероятно, каждый должен согласиться с тем, что подавляющее большинство пользователей ПК используют программы для обработки текстов чаще, чем программы какого-либо другого назначения. И с тем, что сейчас сложно будет найти компьютер, на котором не была бы установлена какая-либо программа для обработки текстов.

При этом многие люди, вероятно, и не догадываются о том, что текстовые данные в ПК представлены, в конечном итоге, в виде числовых данных. В современных компьютерных системах символы*, которые люди используют для записи и передачи текстов на своём языке, кодируются с помощью чисел, записанных в двоичной системе счисления (см. Табл. 1). Это делается потому, что микропроцессоры, лежащие в основе современных компьютерных систем, могут делать, по сути, лишь две вещи: производить действия двоичной арифметики и выполнять Булевы логические операции**.

* Под "символами" далее в тексте статьи понимаются и цифры, и буквы, и иероглифы - прим. перев.
** Только в первом случае последовательность нулей и единиц трактуется как число в двоичной системе счисления, а во втором - как сложное логическое высказывание, в котором "1" обозначает истинность элементарного высказывания, а "0" - его ложность - прим. ред.



Таблица 1.
Двоичные значения, стоящие за алфавитно-цифровыми символами на экране в 7-битной кодировке ASCII.






Символ на экране

Двоичное значение для его обработки

Символ на экране

Двоичное значение для его обработки

 

1

0110001

A

1000001

2

0110010

B

1000010

3

0110011

C

1000011

4

0110100

D

1000100

5

0110101

E

1000101

Поэтому когда ПК, к примеру, записывает букву "A" на дискету, он не создаёт изображения буквы "A" на магнитном носителе, а записывает на него двоичное число (состоящее из нолей и единиц), соответствующее букве "A" в специальной таблице символов. Вы спросите: но ведь ПК создаёт изображение буквы "A" на дисплее, когда я нажимаю клавишу "A"!? Конечно. Когда Вы нажимаете клавишу с буквой "A", первая вещь, которая при этом происходит - в клавиатуре генерируется число, соответствующее букве "A". ПК использует это число для выборки изображения буквы "A" из файла шрифта, в котором изображение каждой буквы пронумеровано в порядке, определяемом той или иной таблицей символов. Лишь после этого соответствующее изображение появляется на экране. То же самое происходит при печати текста, с той лишь разницей, что изображение буквы "A" оказывается на бумаге, а не на дисплее*.

* Конечно, в данном абзаце всё изложено в сильно упрощённом виде. Более подробно всё это описано в [1]. - прим. перев.

Такая система, использующая а) пронумерованные таблицы символов и б) числа (двоичные коды) для внутреннего представления в компьютерах символов естественных языков, позволяет ПК гибко и эффективно делать такие вещи, которые невозможно было реализовать на простой пишущей машинке. ПК может не только распечатывать текст на бумаге, но позволяет также хранить, модифицировать, сортировать, принимать и передавать текстовые данные с умопомрачительно высокой скоростью. Наконец, при наличии соответствующего ПО ПК может быть использован для работы с текстами не на каком-то строго заданном одном, а сразу на многих языках*. Единственная возникающая при этом сложность состоит в том, что при работе с языками, в которых используется большое количество символов, например, с японским, для нумерации этих символов требуется использовать бóльшие числовые значения - и, соответственно, более длинные двоичные коды**.

* Поддержка такой функции далее в тексте называется "многоязыковой поддержкой" - прим. перев.
** При этом необходимо учитывать, что длина двоичного кода зависит от величины представляемого им числа как log2(x). Т.е. для кодирования только букв английского языка (26 символов) достаточно было бы длины кода, равной log2(26)~=5 бит, а для кодирования иероглифов японского языка (65.000 символов) необходимо уже log2(65000)~=16 бит, см. ниже. - прим. ред.

ПК для работы с английским языком, используемые в США , используют 7-битную таблицу символов и метод кодирования ASCII (American Standard Code for Information Interchange)*, которые обеспечивают возможность кодирования 128 символов (поскольку бит может иметь только два значения - "1" или "0" - используя 7 бит, можно представить максимум 27=128 разных чисел. Набор символов**, использованный для заполнения этой таблицы, включает в себя заглавные и строчные буквы латинского*** алфавита, арабские цифры, знаки препинания и некоторые управляющие двоичные последовательности. Если используется 8-й бит, который изначально был зарезервирован для контроля чётности (вид проверки корректности передачи данных), метод кодирования ASCII становится 8-битным, или 1-байтным****. Если же этот 8-й бит используется, как и 7 других, для нумерации символов, а не для контроля чётности, то максимально возможный объём таблицы символов, используемой вместе с методом кодирования ASCII , возрастает до 28=256 позиций.

* Далее в тексте совокупность таблицы символов и метода, использованного для кодирования этих символов (чаще - их номеров), которые (таблица и метод) используются вместе, называется "системой кодирования". Как правило, и таблица символов, и метод кодирования, составляющие ту или иную систему кодирования, бывают определены в рамках того или иного стандарта. Система кодирования ASCII является американским официальным государственным стандартом - прим. перев.
** Обратите внимание: "таблица символов" и "набор символов" - это разные термины. Набор символов называют алфавитом кода. Таблица отличается от набора тем, что в ней символы пронумерованы (или как-либо иначе структурированы). - прим. перев.
*** На самом деле, настоящий латинский алфавит и алфавит английского языка не эквивалентны: в латинском алфавите 25 букв, а в английском - 26 (добавлена "w"). В оригинале автор статьи, помимо того, что путается в указанных выше терминах, вдобавок под "латинским" в большинстве случаев подразумевает 26-буквенный алфавит, т.е. не латинский, а именно английский. - прим. перев.
**** 8 бит, как известно, = 1 байт. С учётом сказанного в абзаце, думаю, понятно, почему далее по возможности используются термины "n-битный" вместо "n-байтный": 7 бит нельзя выразить через байты - прим. перев.

В случае работы с языками типа японского, в которых используется огромное количество символов - десятки тысяч, - для нумерации символов, используемых в этом языке, необходимо использовать числа длиною как минимум в 16 бит (2 байта). 16-битный метод кодирования обеспечивает 216=65.536 возможных позиций в таблице символов.

Однако в стандартную таблицу символов, используемую в настоящее время в японских ПК и определённую, в частности, в японском промышленном стандарте JIS [Japan Industrial Standard] X 0208-1990, внесено только 6879 символов. Этого достаточно для решения многих задач по обработке текстов, встречающихся в повседневной жизни, но мало для написания имён людей, географических названий мест, цитирования исторических данных и даже для написания названий рыб, что японцы едят в ресторанах "суши"!

Кроме этой, необходимо отметить ещё одну проблему. Современные компьютеры могут наиболее эффективно работать с порциями данных, размер которых кратен 8 битам (1 байту). Это потому, что в их электронных схемах данные обычно передаются и обрабатываются порциями по 8, 16, 32 или 64 бита. По этой причине 10-битный или 15-битный метод кодирования окажется неудобным и неэффективным для применения в ПК. С другой стороны, если для нумерации символов использовать слишком длинные числа (двоичные последовательности), объём данных, с которыми придётся работать компьютеру, резко возрастёт, что вновь приведёт к существенному снижению эффективности работы. Например, если для нумерации символов использовать 24 бита, это позволило бы работать с символами всех естественных языков мира, как известных из истории, так и используемых сейчас (224=16.777.216). Однако для нумерации символов большинства языков, имеющих алфавиты, всё же достаточно чисел длиною в 8 бит, поскольку в этих алфавитах насчитывается не более 256 символов. И поэтому использование для их представления 24-битного метода кодирования привело бы к обработке 16-ти ненужных в данном случае бит, и при записи той же латинской буквы "А" на дискету привело бы к нерациональному расходованию места на носителе, которое могло бы быть использовано для хранения данных.
  1   2   3   4   5   6

Добавить документ в свой блог или на сайт

Похожие:

Краткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах icon В. В. Чхивадзе государственный финансовый контроль
История свидетельствует, что контрольно-ревизионная деятельность в Европе имеет продолжительную историю. При этом исторический период...
Краткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах icon Литература баларамамурти Й., Краткая история народа андхра, М, 1956....
Воробьев-Десятовский В. С., К вопросу о роли субстрата в развитии индоарийских языков, — «Советское востоковедение», 1956 №1
Краткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах icon Мне удалось откопать в американской книге интересные данные по количеству...
Сталинское время в США почти тоже самое количество зэков, как и в сталинском ссср, которому США приклеили солженицевский лейбл гулаг,...
Краткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах icon Днепропетровский национальный университет имени олеся гончара
Кафедра иностранных языков для инженерно-технических и естественных специальностей
Краткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах icon Днепропетровский национальный университет имени олеся гончара
Кафедра иностранных языков для инженерно-технических и естественных специальностей
Краткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах icon Лабораторная работа №6 Итоговое задание «Логическое программирование на языке Visual Prolog»
Получить практические навыки применения систем и языков логического программирования для построения систем, основанных на знаниях....
Краткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах icon Контрольная работа на тему: Культура России 18 и 19 веков
Европе, но и в странах Азии и дальнего востока. Развитие промышленности и науки, освоение Сибири, выход к морям – все это способствовало...
Краткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах icon Монография
Медиаобразование в России: краткая история развития – Таганрог: Познание, 2002. 266 c
Краткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах icon Государственности и суверенитета. Существует триединство символов...
Почти 26 лет гимном СССР рсфср был ''Интернационал''. В 1943 было решено использовать музыку ''Гимна партии большевиков'', записанную...
Краткая история систем кодирования символов естественных языков в сша, Европе и Восточно-азиатских странах icon Мусульмане в странах запада чтущие Аллаха сохраняют здесь свою идентичность
Югославии и Болгарии. Магометанство, как в Западной Европе когда-то называли далекую и экзотическую религию, было представлено немногочисленной,...
Литература


При копировании материала укажите ссылку © 2015
контакты
literature-edu.ru
Поиск на сайте

Главная страница  Литература  Доклады  Рефераты  Курсовая работа  Лекции