Скачать 0.73 Mb.
|
Краткая история систем кодирования символов естественных языков в США, Европе и Восточно-азиатских странахОбщая информация о кодировании символов естественных языковКодирование символов: основа для обеспечения возможности работы компьютеров с текстовыми данными Важнейшей для большинства людей возможностью компьютерной техники является не то, что эта техника может просто быстро производить математические вычисления - ведь множество людей до сих пор ведут финансовые расчёты, используя микрокалькуляторы, а не ПК, - а то, что компьютерная техника может быть использована для работы с текстовыми данными. Вероятно, каждый должен согласиться с тем, что подавляющее большинство пользователей ПК используют программы для обработки текстов чаще, чем программы какого-либо другого назначения. И с тем, что сейчас сложно будет найти компьютер, на котором не была бы установлена какая-либо программа для обработки текстов. При этом многие люди, вероятно, и не догадываются о том, что текстовые данные в ПК представлены, в конечном итоге, в виде числовых данных. В современных компьютерных системах символы*, которые люди используют для записи и передачи текстов на своём языке, кодируются с помощью чисел, записанных в двоичной системе счисления (см. Табл. 1). Это делается потому, что микропроцессоры, лежащие в основе современных компьютерных систем, могут делать, по сути, лишь две вещи: производить действия двоичной арифметики и выполнять Булевы логические операции**.
Поэтому когда ПК, к примеру, записывает букву "A" на дискету, он не создаёт изображения буквы "A" на магнитном носителе, а записывает на него двоичное число (состоящее из нолей и единиц), соответствующее букве "A" в специальной таблице символов. Вы спросите: но ведь ПК создаёт изображение буквы "A" на дисплее, когда я нажимаю клавишу "A"!? Конечно. Когда Вы нажимаете клавишу с буквой "A", первая вещь, которая при этом происходит - в клавиатуре генерируется число, соответствующее букве "A". ПК использует это число для выборки изображения буквы "A" из файла шрифта, в котором изображение каждой буквы пронумеровано в порядке, определяемом той или иной таблицей символов. Лишь после этого соответствующее изображение появляется на экране. То же самое происходит при печати текста, с той лишь разницей, что изображение буквы "A" оказывается на бумаге, а не на дисплее*.
Такая система, использующая а) пронумерованные таблицы символов и б) числа (двоичные коды) для внутреннего представления в компьютерах символов естественных языков, позволяет ПК гибко и эффективно делать такие вещи, которые невозможно было реализовать на простой пишущей машинке. ПК может не только распечатывать текст на бумаге, но позволяет также хранить, модифицировать, сортировать, принимать и передавать текстовые данные с умопомрачительно высокой скоростью. Наконец, при наличии соответствующего ПО ПК может быть использован для работы с текстами не на каком-то строго заданном одном, а сразу на многих языках*. Единственная возникающая при этом сложность состоит в том, что при работе с языками, в которых используется большое количество символов, например, с японским, для нумерации этих символов требуется использовать бóльшие числовые значения - и, соответственно, более длинные двоичные коды**.
ПК для работы с английским языком, используемые в США , используют 7-битную таблицу символов и метод кодирования ASCII (American Standard Code for Information Interchange)*, которые обеспечивают возможность кодирования 128 символов (поскольку бит может иметь только два значения - "1" или "0" - используя 7 бит, можно представить максимум 27=128 разных чисел. Набор символов**, использованный для заполнения этой таблицы, включает в себя заглавные и строчные буквы латинского*** алфавита, арабские цифры, знаки препинания и некоторые управляющие двоичные последовательности. Если используется 8-й бит, который изначально был зарезервирован для контроля чётности (вид проверки корректности передачи данных), метод кодирования ASCII становится 8-битным, или 1-байтным****. Если же этот 8-й бит используется, как и 7 других, для нумерации символов, а не для контроля чётности, то максимально возможный объём таблицы символов, используемой вместе с методом кодирования ASCII , возрастает до 28=256 позиций.
В случае работы с языками типа японского, в которых используется огромное количество символов - десятки тысяч, - для нумерации символов, используемых в этом языке, необходимо использовать числа длиною как минимум в 16 бит (2 байта). 16-битный метод кодирования обеспечивает 216=65.536 возможных позиций в таблице символов. Однако в стандартную таблицу символов, используемую в настоящее время в японских ПК и определённую, в частности, в японском промышленном стандарте JIS [Japan Industrial Standard] X 0208-1990, внесено только 6879 символов. Этого достаточно для решения многих задач по обработке текстов, встречающихся в повседневной жизни, но мало для написания имён людей, географических названий мест, цитирования исторических данных и даже для написания названий рыб, что японцы едят в ресторанах "суши"! Кроме этой, необходимо отметить ещё одну проблему. Современные компьютеры могут наиболее эффективно работать с порциями данных, размер которых кратен 8 битам (1 байту). Это потому, что в их электронных схемах данные обычно передаются и обрабатываются порциями по 8, 16, 32 или 64 бита. По этой причине 10-битный или 15-битный метод кодирования окажется неудобным и неэффективным для применения в ПК. С другой стороны, если для нумерации символов использовать слишком длинные числа (двоичные последовательности), объём данных, с которыми придётся работать компьютеру, резко возрастёт, что вновь приведёт к существенному снижению эффективности работы. Например, если для нумерации символов использовать 24 бита, это позволило бы работать с символами всех естественных языков мира, как известных из истории, так и используемых сейчас (224=16.777.216). Однако для нумерации символов большинства языков, имеющих алфавиты, всё же достаточно чисел длиною в 8 бит, поскольку в этих алфавитах насчитывается не более 256 символов. И поэтому использование для их представления 24-битного метода кодирования привело бы к обработке 16-ти ненужных в данном случае бит, и при записи той же латинской буквы "А" на дискету привело бы к нерациональному расходованию места на носителе, которое могло бы быть использовано для хранения данных. |
В. В. Чхивадзе государственный финансовый контроль История свидетельствует, что контрольно-ревизионная деятельность в Европе имеет продолжительную историю. При этом исторический период... |
Литература баларамамурти Й., Краткая история народа андхра, М, 1956.... Воробьев-Десятовский В. С., К вопросу о роли субстрата в развитии индоарийских языков, — «Советское востоковедение», 1956 №1 |
||
Мне удалось откопать в американской книге интересные данные по количеству... Сталинское время в США почти тоже самое количество зэков, как и в сталинском ссср, которому США приклеили солженицевский лейбл гулаг,... |
Днепропетровский национальный университет имени олеся гончара Кафедра иностранных языков для инженерно-технических и естественных специальностей |
||
Днепропетровский национальный университет имени олеся гончара Кафедра иностранных языков для инженерно-технических и естественных специальностей |
Лабораторная работа №6 Итоговое задание «Логическое программирование на языке Visual Prolog» Получить практические навыки применения систем и языков логического программирования для построения систем, основанных на знаниях.... |
||
Контрольная работа на тему: Культура России 18 и 19 веков Европе, но и в странах Азии и дальнего востока. Развитие промышленности и науки, освоение Сибири, выход к морям – все это способствовало... |
Монография Медиаобразование в России: краткая история развития – Таганрог: Познание, 2002. 266 c |
||
Государственности и суверенитета. Существует триединство символов... Почти 26 лет гимном СССР рсфср был ''Интернационал''. В 1943 было решено использовать музыку ''Гимна партии большевиков'', записанную... |
Мусульмане в странах запада чтущие Аллаха сохраняют здесь свою идентичность Югославии и Болгарии. Магометанство, как в Западной Европе когда-то называли далекую и экзотическую религию, было представлено немногочисленной,... |
Поиск на сайте Главная страница Литература Доклады Рефераты Курсовая работа Лекции |