Discusión:Codificación de caracteres

"Pero como la tabla de Unicode es tan grande, la mayoría de sus símbolos están asignados a enteros mayores que 127 (códigos que, en consecuencia, necesitan más que 7 dígitos para su representación binaria). En todos esos casos, UTF-8 envía, en un primer octeto con dígito de paridad = 1, el comienzo de la representación binaria del código en cuestión, y la máquina que recibe, al ver ese "1", no lo interpreta como indicación o no de error o como parte del carácter, sino como indicación de que, lo que está siendo transmitido es un código que no cabe en 7 dígitos binarios; y por tanto interpreta que el símbolo correspondiente no lo va a conocer mientras no lea el siguiente octeto, y tal vez el que sigue. En el peor de los casos, quizás se haga necesario leer seis octetos consecutivos para determinar un código alto."

Este párrafo no coincide exactamente con la explicación de UTF-8. En esta la codificación es por dividir en grupos y no sólo colocar 1 en el comienzo de los octetos (byte) si el siguiente byte corresponde a la misma letra. Además habla que se estableció como límite para UTF-8 usar 4 bytes como máximo. Si alguien sabe como es exactamente y si no es correcto el párrafo anterior que lo corrija.

- 23/02/07**

Borro el link porque decía casi lo mismo que el artículo salvo que peor escrito. Saludos.