Размер файла в UTF-8

Question

Каков размер файла в кодировке UTF-8, содержащего такой текст? Ответ дайте в байтах.
саксофон по‑гречески σαξόφωνο
Последнее слово написано буквами греческого алфавита. Перед первым словом и после последнего слова пробелов нет. Между словами по одному пробелу. Каждый пробел в UTF-8 кодируется одним байтом.

Answer 1

Ниже разберём весь текст по символам и подсчитаем байты в кодировке UTF‑8. Текст (без ведущего и завершающего пробела) таков:

саксофон по-гречески σαξόφωνο

Слово «саксофон»
Это 8 русских букв: с (0441), а (0430), к (043A), с (0441), о (043E), ф (0444), о (043E), н (043D).
Каждая буква из диапазона U+0400…U+04FF занимает 2 байта в UTF‑8.
- Итого: 8 букв × 2 байта = 16 байт.
Пробел после «саксофон»
Обычный ASCII-пробел (U+0020) в UTF‑8 кодируется 1 байтом.
- Итого: + 1 байт.
Слово «по-гречески»
- «по» — 2 русские буквы (по 2 байта каждая) = 4 байта;
- дефис (если считать его обычным ASCII-символом - с кодом U+002D) занимает 1 байт;
- «гречески» — 8 русских букв по 2 байта = 16 байт.
- Итого: 4 + 1 + 16 = 21 байт.
Пробел между «по-гречески» и «σαξόφωνο»
- Опять же 1 байт (ASCII-пробел).
Слово «σαξόφωνο» (греческий алфавит)
Состоит из 8 греческих букв (σ, α, ξ, ό, φ, ω, ν, ο). Греческие буквы U+0370…U+03FF также занимают по 2 байта в UTF‑8.
- Итого: 8 букв × 2 байта = 16 байт.

Теперь сложим всё:

«саксофон» = 16 байт
пробел = 1 байт
«по-гречески» = 21 байт
пробел = 1 байт
«σαξόφωνο» = 16 байт

Общий размер = 16 + 1 + 21 + 1 + 16 = 55 байт.

Важно про «невидимые» символы

В некоторых вариантах текста между «по» и дефисом (а также после дефиса) могут встречаться невидимые «zero-width» или «BOM»-символы (U+FEFF). Если в вашем варианте действительно стоит не обычный ASCII-дефис, а «non-breaking hyphen» (U+2011) и дополнительно присутствуют невидимые символы U+FEFF, общий размер вырастет (каждый U+FEFF даёт +3 байта, U+2011 вместо 1 байта даёт +3 байта). Однако если считать дефис простым ASCII‑символом - и не учитывать никаких скрытых символов, получается именно 55 байт — как в классической задаче на подсчёт UTF‑8-кодировки для русского/греческого текста с дефисом и пробелами.

Размер файла в UTF-8

質問

思考

回答

Важно про «невидимые» символы

このQ&Aを共有