UTF-8 кодує символ у двійковий рядок з одного, двох, трьох або чотирьох байтів.
кодує символ Unicode в рядок з двох або чотирьох байтів. Ця відмінність очевидна з їхніх назв. В UTF-8 найменшим двійковим представленням символу є один байт або вісім бітів.3 квітня 2024 р.
UTF-8 кодує символи Unicode у послідовність 8-бітних байтів. Стандарт містить більше мільйона різних кодових точок і є надмножиною всіх символів, які сьогодні широко використовуються. Для порівняння, ASCII (Американський стандартний код для обміну інформацією) включає 128 кодів символів.
UTF-8 здатний до кодування всі 1 112 064 (17 площин, помножених на 216 кодових точок на площину, мінус 211 технічно недійсних сурогатів) дійсні кодові точки Юнікод із використанням кодування змінної ширини від одного до чотирьох однобайтових (8-бітних) кодових одиниць.
UTF-8 підтримує будь-які символи Unicode, що прагматично означає будь-яка природна мова (коптська, сингальська, фонеська, черокі тощо), а також багато нерозмовних мов (нотний запис, математичні символи, APL). Заявлена мета консорціуму Unicode полягає в тому, щоб охопити всі комунікації.
UTF-8 (Unicode Transformation-8-bit) — це кодування, визначене Міжнародною організацією стандартизації (ISO) у ISO 10646. Це може представляти до 2 097 152 кодових точок (2^21), більш ніж достатньо, щоб охопити поточні 1 112 064 кодових точок Unicode.
UTF-8 замінив стандарт кодування символів ASCII, оскільки він може зберігати символ більш ніж в одному байті. Це дозволило нам представити набагато більше типів символів, наприклад емодзі.