Английский алфавит
Английский язык
Арабские цифры
Арабский алфавит
Армянский алфавит
Байт
Блокнот (редактор)
Греческий алфавит
Грузинский алфавит
Еврейский алфавит
Заглавная страница
Знаки препинания
Индийское письмо
Кириллица
Китайское письмо
Кодировка
Коптский алфавит
Корейское письмо
Латинские буквы
Международный фонетический алфавит
Нко (письмо)
Октеты со старшим битом 1
Октет (информатика)
Расширенная латиница
Сирийское письмо
Тана (письмо)
Управляющие символы
Юникод
Юникод в GNU/Linux
Японское письмо
1992 год
2 сентября
ASCII
Kate
Notepad++
Plan 9
UTF-16
UTF-8
Unicode
Английский язык
Арабские цифры
Арабский алфавит
Армянский алфавит
Байт
Блокнот (редактор)
Греческий алфавит
Грузинский алфавит
Еврейский алфавит
Заглавная страница
Знаки препинания
Индийское письмо
Кириллица
Китайское письмо
Кодировка
Коптский алфавит
Корейское письмо
Латинские буквы
Международный фонетический алфавит
Нко (письмо)
Октеты со старшим битом 1
Октет (информатика)
Расширенная латиница
Сирийское письмо
Тана (письмо)
Управляющие символы
Юникод
Юникод в GNU/Linux
Японское письмо
1992 год
2 сентября
ASCII
Kate
Notepad++
Plan 9
UTF-16
UTF-8
Unicode
UTF-8 (от англ. Unicode Transformation Format — формат преобразования Юникода) — в настоящее время распространённая кодировка, реализующая представление Юникода, совместимое с 8-битным кодированием текста. Нашла широкое применение в операционных системах и веб-пространстве.
В отличие от UTF-16, UTF-8 является самосинхронизирующейся кодировкой[1]: при потере одного байта последующие байты будут раскодированы корректно.
Текст, состоящий только из символов Юникода с номерами меньше 128, при записи в UTF-8 превращается в обычный текст ASCII. И наоборот, в тексте UTF-8 любой байт со значением меньше 128 изображает символ ASCII с тем же кодом. Остальные символы Юникода изображаются последовательностями длиной от 2 до 6 байт (реально только до 4 байт, поскольку использование кодов больше 221 не планируется), в которых первый байт всегда имеет вид 11xxxxxx, а остальные — 10xxxxxx.
Проще говоря, в формате UTF-8 символы латинского алфавита, знаки препинания и управляющие символы ASCII записываются кодами US-ASCII, a все остальные символы кодируются при помощи нескольких октетов со старшим битом 1. Это приводит к двум эффектам.
Даже если программа не распознаёт Юникод, то латинские буквы, арабские цифры и знаки препинания будут отображаться правильно.
В случае, если латинские буквы и простейшие знаки препинания (включая пробел) занимают существенный объём текста, UTF-8 даёт выигрыш по объёму по сравнению с UTF-16.[2][3]
На первый взгляд может показаться, что UTF-16 удобнее, так как в ней большинство символов кодируется ровно двумя байтами. Однако это сводится на нет необходимостью поддержки суррогатных пар, о которых часто забывают при использовании UTF-16, реализуя лишь поддержку символов UCS-2.[2]
Формат UTF-8 был изобретён 2 сентября 1992 года Кеном Томпсоном и Робом Пайком и реализован в Plan 9[4]. Сейчас стандарт UTF-8 официально закреплён в документах RFC 3629 и ISO/IEC 10646 Annex D.
Символы UTF-8 получаются из Unicode следующим образом:
Unicode
UTF-8
Представленные символы
0x00000000 — 0x0000007F
0xxxxxxx
ASCII, в том числе английский алфавит, простейшие знаки препинания и арабские цифры
0x00000080 — 0x000007FF
110xxxxx 10xxxxxx
кириллица, расширенная латиница, арабский, армянский, греческий, еврейский и коптский алфавит; сирийское письмо, тана, нко; МФА; некоторые знаки препинания
0x00000800 — 0x0000FFFF
1110xxxx 10xxxxxx 10xxxxxx
все другие современные формы письменности, в том числе грузинский алфавит, индийское, китайское, корейское и японское письмо; сложные знаки препинания; математические и другие специальные символы
0x00010000 — 0x001FFFFF
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
музыкальные символы, редкие китайские иероглифы, вымершие формы письменности
Также теоретически возможны, но не включены в стандарты:
Unicode
UTF-8
0x00200000 — 0x03FFFFFF
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0x04000000 — 0x7FFFFFFF
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
Замечание: Символы, закодированные в UTF-8, могут быть длиной до шести байт, однако стандарт Unicode не определяет символов выше 0x10ffff, поэтому символы Unicode могут иметь максимальный размер в 4 байта в UTF-8.
Содержание
1 Неиспользуемые значения байтов
2 Порядок байтов (BOM, сигнатура)
3 Примечания
4 Ссылки
5 См. также
править Неиспользуемые значения байтов
В тексте UTF-8 принципиально не может быть байтов со значениями 254 (0xFE) и 255 (0xFF). Поскольку в Юникоде не определены символы с кодами выше 221, то в UTF-8 оказываются неиспользуемыми также значения байтов от 248 до 253 (0xF8—0xFD). Если запрещены искусственно удлинённые (за счёт добавления ведущих нулей) последовательности UTF-8, то не используются также байтовые значения 192 и 193 (0xC0 и 0xC1).
править Порядок байтов (BOM, сигнатура)
Многие программы Windows (включая Блокнот) добавляют байты 0xEF, 0xBB, 0xBF в начале любого документа, сохраняемого как UTF-8. Это метка порядка байтов Юникода (англ. Byte Order Mark, BOM), также её часто называют сигнатурой (соответственно, UTF-8 и UTF-8 with Signature). По наличию сигнатуры программы могут автоматически определить, является ли файл закодированным в UTF-8, однако файлы с такой сигнатурой могут некорректно обрабатываться старыми программами, в частности xml-анализаторами. Такие редакторы, как Notepad++, Notepad2 и Kate позволяют явно указывать, следует ли добавлять сигнатуру при сохранении UTF-файлов.
править Примечания
↑ en.wikipedia.org/wiki/Self-synchronizing_code (англ.)
↑ 1 2 Well, I'm Back String Theory (англ.). Robert O'Callahan (2008-03-01). Проверено 1 марта 2008.
↑ Ростислав Чебыкин Всем кодировкам кодировка. UTF‑8: современно, грамотно, удобно.. HTML и CSS. Проверено 22 марта 2009.
↑ http://www.cl.cam.ac.uk/~mgk25/ucs/utf-8-history.txt (англ.)
править Ссылки
UTF-8 encoding table and Unicode characters
править См. также
Unicode
Юникод в GNU/Linux
Юникод в FreeBSD
UTF-16
Plan 9
Yankees Reliever Joba Chamberlain Likely Done For The Season
This report just filed by The Courant's Paul Doyle from Yankee Stadium: 1 utf-8 0 false false false EN-US X-NONE X-NONE MicrosoftInternetExplorer4 /* Style Definitions */ table.MsoNormalTable {mso-style-name:"Table Normal"; mso-tstyle-rowband-size:0; mso-tstyle-colband-size:0; mso-style-noshow:yes; mso-style-priority:99; mso-style-qformat:yes; mso-style-parent:""; mso-padding-alt:0in 5.4pt 0in 5 ...
znaku Tomisaw podesa mi font batang ttc o wielkoci 16 MB ale jak wida wszystkich znakw nie zawiera Zawiera natomiast znaki chiskie i koreaskie co mona zobaczy na tym obrazku na przykadzie tego wielojzycznego tekstu o jedzeniu szka
http://www.exec.pl/wydarzenie.jsp?nid=2024&Papyrus_-_pakiet_biurowy_dla_Amigi
UTF-8 and Unicode Standards
UTF-8 encodes each Unicode character as a variable number of 1 to 4 octets, where the number of octets depends on the integer value assigned to the Unicode character. ...
Home agenda: garden trends in Chelsea, home trends in Glasgow
Over the coming week the latest horticultural trends and product will be on display at the RHS Chelsea Flower Show. One of the biggest events of its kind, the RHS Chelsea Flower Show is expected to attract nearly 160,000 visitors -- a number which is limited only by the size on the exhibition's temporary structure.
UTF-8: Information from Answers.com
UTF-8 ( U nicode T ransformation F ormat -8 ) A format in the Unicode coding system that uses from one to four bytes
Home agenda: Lighting design at LFI, garden trends at the Chelsea Flower Show
After the close of the international Contemporary Furniture Fair on May 17, design of a different kind will be honored at LIGHTFAIR International (LFI) in the United States. This year's LFI, which exhibits and awards the most forward-looking lighting products, is expected to attract around 20,000 attendees. Later in the month around 157,000 visitors will descend on London for the Chelsea Flower ...
FAQ - UTF-8, UTF-16, UTF-32 & BOM
UTF-8 and UTF-32 are used by Linux and various Unix systems. ... A: There are three or four options for making Unicode fit into an 8-bit format. ...
UTF-8 - Wikipedia, la enciclopedia libre
UTF-8 fue creado por Robert C. Pike y Kenneth L. Thompson. ... UTF-8 divide los caracteres Unicode en varios grupos, en función del número de bytes necesarios para codificarlos. ...
UTF-8 - Definition | WordIQ.com
UTF-8 is especially useful for transmission over 8-bit mail systems. It uses one to four bytes per character, depending on the Unicode symbol. ...
Baha'i News: UNESCO chief inaugurates square for tolerance and peace in Haifa (=?utf-8?B?QmFoY Baha'i News:)
Baha'i World News Service http://news.bahai.org For more information, contact news@bahai.org UNESCO chief inaugurates square for tolerance and peace in Haifa HAIFA, Israel, 30 May 2011 (BWNS) – In the Middle East, Haifa is known as one of the region's most ethnically and religiously diverse cities, including Jews, Christians, Muslims, Druze ...
RFC 2279
UTF-8, the object of this memo, has the characteristic of preserving ... UTF-16 impacts UTF-8 in that UCS-2 values from the reserved range must be treated ...
Baha'i News: Baha'i Question cited at European Parliament human rights hearing (=?utf-8?B?QmFoY Baha'i News:)
Baha'i World News Service http://news.bahai.org For more information, contact news@bahai.org "Baha'i Question" cited at European Parliament human rights hearing BRUSSELS, Belgium, 31 May 2011 (BWNS) – Victims of religious intolerance are not just people deprived of the right to practice their faith – they suffer abuses in every aspect of ...
RFC 3629
A direct consequence is that a plain ASCII string is also a valid UTF-8 string. ... o UTF-8 strings can be fairly reliably recognized as such by a simple algorithm, ...
UTF-8 Encoding
One of the really nice features of UTF-8 is that it is compatible with nul-terminated strings. No character will have a nul (0) byte when encoded. ...
WCC FEATURE: “Rebirth” for Jamaica's young people (WCC media =?utf-8?Q?WCC)
World Council of Churches - Feature “REBIRTH” FOR JAMAICA'S YOUNG PEOPLE For immediate release: 19 May 2011 When 15-year-old Lydia* realized she was pregnant, she was forced by Jamaican law to leave her high school in Kingston.



















