Codigos Alfanumericos
Codigos Alfanumericos
Codigos Alfanumericos
Ing. Mecatrnica
Electrnica digital MK2225
Unidad temtica No. 2 Cdigos alfanumricos. Cdigo ASCII, ASCII Extendido, Unicode UTF-8 y UTF-16
Alumno: Jorge Alberto Campos Mndez Profesor: Miguel ngel Esparza vila Cdigos alfanumricos
1
Fecha: martes 17 de septiembre del 2013
El sistema de numeracin binario es el ms importante en los sistemas digitales, pero hay otros que tambin lo son y son muy utilizados por su mayor facilidad de manipulacin en respecto a los binarios, ejemplos de estos otros sistemas son l; octal y hexadecimal. En un sistema digital se puede hacer uso de varios sistemas de enumeracin a la vez y el sistema debe de tener el entendimiento de la operacin solicitada. Muchas de las aplicaciones de las computadoras digitales requieren la manipulacin de datos que constan no slo de nmeros, sino tambin de letras. Para representar cadenas de caracteres alfabticos es necesario tener un cdigo binario para el alfabeto. Adems el mismo cdigo binario debe representar nmeros y algunos otros caracteres especiales. Un cdigo alfanumrico es un cdigo binario de un grupo de elementos que constan de diez dgitos decimales, las 26 letras del alfabeto y cierto nmero de de smbolos especiales como el $, &, %, #, etc. Para superar los inconvenientes de la representacin binaria real, se han desarrollado varios cdigos en base binaria de longitud fija. Estos cdigos ponen a disposicin de la computadora letras y otros tipos de caracteres, as como nmeros en forma binaria. Debido a que son cdigos de longitud fija, la computadora puede con facilidad decir cundo termina un carcter y empieza otro.
Cdigo ASCII:
2
Fecha: martes 17 de septiembre del 2013
El cdigo ASCII (siglas en ingles para American Standard Code for Information Interchange, es decir Cdigo Americano Estndar para el intercambio de Informacin) (se pronuncia Aski). Fue creado en 1963 por el Comit Estadounidense de Estndares o " ASA", este organismo cambio su nombre en 1969 por "Instituto Estadounidense de Estndares Nacionales" o "ANSI" como se lo conoce desde entonces. En un primer momento solo inclua letras maysculas y nmeros, pero en 1967 se agregaron las letras minsculas y algunos caracteres de control, formando as lo que se conoce como US-ASCII, es decir los caracteres del 0 al 127. As con este conjunto de solo 128 caracteres fue publicado en 1967 como estndar, conteniendo todos lo necesario para escribir en idioma ingles. En 1981, la empresa IBM desarroll una extensin de 8 bits del cdigo ASCII, llamada "pagina de cdigo 437", en esta versin se reemplazaron algunos caracteres de control obsoletos, por caracteres grficos. Adems se incorporaron 128 caracteres nuevos, con smbolos, signos, grficos adicionales y letras latinas, necesarias para la escrituras de textos en otros idiomas, como por ejemplo el espaol. As fue como se sumaron los caracteres que van del ASCII 128 al 255. IBM incluy soporte a esta pgina de cdigo en el hardware de su modelo 5150, conocido como "IBM-PC", considerada la primera computadora personal. El sistema operativo de este modelo, el "MS-DOS" tambin utilizaba el cdigo ASCII extendido.
Los caracteres de control ASCII El cdigo ASCII reserva los primeros 32 cdigos para caracteres de control: cdigos no pensados originalmente para representar informacin imprimible, sino para controlar dispositivos que usaban ASCII.
3
Fecha: martes 17 de septiembre del 2013
Los cdigos del 33 al 126 se conocen como caracteres imprimibles, y representan letras, dgitos, signos de puntuacin y varios smbolos. El ASCII de siete bits proporciona siete caracteres "nacionales" . A medida que la tecnologa informtica se difundi a lo largo del mundo, se desarrollaron diferentes estndares y las empresas desarrollaron muchas variaciones del cdigo ASCII para facilitar la escritura de lenguas diferentes al ingls que usaran alfabetos latinos. Se pueden encontrar algunas de esas variaciones clasificadas como " ASCII Extendido", aunque en ocasiones el trmino se aplica errneamente para cubrir todas las variantes, incluso las que no preservan el conjunto de cdigos de caracteres original ASCII de siete bits. La ISO 646 (es un estndar internacional para codificacin de caracteres, basada en el estndar estadounidense ASCII) hizo el primer intento de remediar el sesgo pro-ingls de la codificacin de caracteres, cre problemas de compatibilidad, pues tambin era un cdigo de caracteres de 7 bits. No especific cdigos adicionales, as que reasign algunos especficamente para los nuevos lenguajes. De esta forma se volvi imposible saber en qu variante se encontraba codificado el texto, y, consecuentemente, los procesadores de texto podan tratar una sola variante. La tecnologa mejor y aport medios para representar la informacin codificada en el octavo bit de cada byte, liberando este bit, lo que aadi otros 128 cdigos de carcter adicionales que quedaron disponibles para nuevas asignaciones. Por ejemplo, IBM desarroll pginas de cdigo de 8 bits, como la pgina de cdigos 437, (La pgina de cdigos 437 es el conjunto de caracteres que incorporaba la primera versin del Personal Computer (PC) de IBM sobre el sistema operativo MS-DOS, en el ao 1981.. Es errneo llamarla ASCII extendido como si fuera la nica extensin del ASCII original, cuando en realidad no era sino una ms de las muchas variaciones que este adopt. Los estndares de ocho bits como ISO 8859 y Mac OS Roman fueron desarrollados como verdaderas extensiones de ASCII, dejando los primeros 127 caracteres intactos y aadiendo nicamente valores adicionales por encima de los 7-bits. Esto permiti la representacin de un abanico mayor de lenguajes, pero estos estndares continuaron sufriendo incompatibilidades y limitaciones.
4
Fecha: martes 17 de septiembre del 2013
abreviada de "XL Extended Gaming System" - "Sistema de Juegos XL Expandido") que fuera lanzado en 1989.
Al igual que la mayora de los ASCII no estndares, el ATASCII tiene su propio grupo de smbolos grficos especiales (flechas, bloques, crculos, segmentos de lnea, conjuntos de smbolos de juegos de cartas, etc.) que corresponden a las ubicaciones de los caracteres de control de la tabla estndar de ASCI
PETSCII PETSCII (PET Standard Code of Information Interchange), tambin conocido como CBM ASCII, es la variacin del conjunto de caracteres ASCII utilizado en los sobremesa de 8 bit.
En modo unshifted, las entradas $60 - $7F y $A0 - $FF estn asignadas a caracteres grfico. Las entradas que van desde $00 - $1f y $80 - $9F contienen caracteres de control, y las posiciones $60 - $7F contienen caracteres repetidos.
ASCII extendido Se denomina ASCII extendido a cualquier juego de caracteres de 8 bits en el cual los cdigos 32 a 126 coinciden con los caracteres imprimibles de ASCII, as como los caracteres comnmente llamados "de espacio", estos son los cdigos de control de 8 a 13 (0x08 a 0x0D), ambos inclusive. Las codificaciones de ASCII extendido utilizan adems parte o la totalidad de los cdigos superiores a 128 para codificar caracteres adicionales a los caracteres imprimibles ASCII.
5
Fecha: martes 17 de septiembre del 2013
Pgina de cdigos 437 (usual en las versiones en ingls del IBM PC y MS-DOS) Pgina de cdigos 850 (usual en las versiones de Europa occidental del IBM PC y MS-DOS) Latin-1 (ISO-8859-1) (tpico de Unix y, con modificaciones, en Microsoft Windows y Macintosh)
6
Fecha: martes 17 de septiembre del 2013
7
Fecha: martes 17 de septiembre del 2013
Cdigo UNICODE Antes de Unicode, haba diferentes sistemas de codificacin de caracteres para cada idioma, cada uno usando los mismos nmeros (0-255) para representar los caracteres de ese lenguaje. Algunos (como el ruso) tienen varios estndares incompatibles que representan los mismos caracteres; otros idiomas (como el japons) tienen tantos caracteres que precisan ms de un byte. Intercambiar documentos entre estos sistemas era difcil porque no haba manera de que un computador supiera con certeza qu esquema de codificacin de caracteres haba usado el autor del documento; el computador slo vea nmeros, y los nmeros pueden significar muchas cosas. Para resolver estos problemas se dise Unicode.
El proyecto Unicode se inici a finales de 1987, tras conversaciones entre los ingenieros de Apple y Xerox: Joe Becker, Lee Collins y Mark Davis. Como resultado de su colaboracin, en agosto de 1988 se public el primer borrador de Unicode bajo el nombre de Unicode88. Esta primera versin, con cdigos de 16 bits, se public asumiendo que solo se codificaran los caracteres necesarios para el uso moderno. Unicode incluye todos los caracteres de uso comn en la actualidad . La versin 5.1 contena 100 713 caracteres provenientes de alfabetos, sistemas ideogrficos y colecciones de smbolos (matemticos, tcnicos, musicales, iconos...). La cifra crece con cada versin. Unicode incluye sistemas de escritura modernos como: rabe, braille, copto, cirlico, griego, sinogramas (hanja coreano, hanzi chino y kanji japons), silabarios japoneses (hiragana y katakana),hebreo y latino; escrituras histricas extintas, para propsitos acadmicos, como por ejemplo: cuneiforme, griego antiguo, lineal B micnico, fenicio y rnico. Entre los caracteres no alfabticos incluidos en Unicode se encuentran smbolos musicales y matemticos, fichas de juegos como el domin, flechas, iconos etc. Unicode especifica un nombre e identificador numrico nico para cada carcter o smbolo, el code point o punto de cdigo, adems de otras informaciones necesarias para su uso correcto. Este estndar es mantenido por el Unicode Technical Committee (UTC), integrado en el Unicode Consortium, del que forman parte con distinto grado de implicacin empresas como: Microsoft, Apple, Adobe, IBM, Oracle, SAP, Google o Yahoo. El establecimiento de Unicode ha sido un ambicioso proyecto para reemplazar los esquemas de codificacin de caracteres existentes, muchos de los cuales estn muy limitados en tamao y son incompatibles con entornos plurilinges. Unicode se ha vuelto el ms extenso y completo esquema de codificacin de caracteres, siendo el dominante en la internacionalizacin y adaptacin local del software informtico.
8
Fecha: martes 17 de septiembre del 2013
El estndar ha sido implementado en un nmero considerable de tecnologas recientes, que incluyen XML, Java y sistemas operativos modernos. Como ya se ha indicado, Unicode est sincronizado con el estndar ISO/IEC conocido como UCS o juego de caracteres universal. Desde un punto de vista tcnico, incluye o es compatible con codificaciones anteriores como ASCII7 o ISO 8859-1, los estndares nacionales ANSI Z39.64, KS X 1001 y muchos ms. Repertorio de caracteres El elemento bsico del estndar Unicode es el carcter. Se considera un carcter al elemento ms pequeo de un sistema de escritura con significado. El estndar Unicode codifica los caracteres esenciales grafemas definindolos de forma abstracta y deja la representacin visual (tamao, dimensin, fuente o estilo) al software que lo trate, como procesadores de texto o navegadores web. Se incluyen letras, signos diacrticos, caracteres de puntuacin, ideogramas, caracteres silbicos, caracteres de control y otros smbolos. Tipos de caracteres
Caracteres grficos: Letras, signos diacrticos, cifras, caracteres de puntuacin, smbolos y espacios. Caracteres de formato: Caracteres invisibles que afectan al proceso del texto prximo. Ejemplos: U+2028 salto de lnea, U+2029 salto de prrafo,etc. Caracteres privados: Reservados para el uso fuera del estndar por fabricantes de software. Caracteres reservados: Cdigos reservados para su uso por Unicode. No-caracteres: Son cdigos reservados permanentemente para uso interno por Unicode.
Universalidad: Un repertorio suficientemente amplio que albergue a todos los caracteres probables en el intercambio de texto multilinge. Eficiencia: Las secuencias generadas deben ser fciles de tratar. No ambigedad: Un cdigo dado siempre representa el mismo carcter.
Formas de codificacin Los puntos de cdigo de Unicode se identifican por un nmero entero. Segn su arquitectura, un ordenador utilizar unidades de 8, 16 o 32 bits para representar dichos enteros. Las formas de codificacin de Unicode reglamentan la forma en que los puntos de cdigo se transformarn en unidades tratables por el computador.
9
Fecha: martes 17 de septiembre del 2013
Unicode define tres formas de codificacin bajo el nombre UTF o Formato de Transformacin Unicode (Unicode Transformation Format):
UTF-8 codificacin orientada a byte con smbolos de longitud variable. UTF-16 codificacin de 16 bits de longitud variable optimizada para la representacin del plano bsico multilinge (BMP). UTF-32 codificacin de 32 bits de longitud fija, y la ms sencilla de las tres.
UTF-8 UTF-8 (8-bit Unicode Transformation Format) es un formato de codificacin de caracteres Unicode e ISO 10646 utilizando smbolos de longitud variable. UTF-8 fue creado por Robert C. Pike y Kenneth L. Thompson. Ambos lo implementaron e implantaron en su sistema operativo Plan 9 from Bell Labs. Fue promovido a estndar con el patrocinio de X/Open Joint Internationalization Group (XOJIG) y durante el proceso recibi diferentes nombres como FSS/UTF y UTF2. Estas caractersticas lo hacen atractivo en la codificacin de correos electrnicos y pginas web. El IETF requiere que todos los protocolos de Internet indiquen qu codificacin utilizan para los textos y que UTF-8 sea una de las codificaciones contempladas. El Internet Mail Consortium (IMC) recomienda que todos los programas de correo electrnico sean capaces de crear y mostrar mensajes codificados utilizando UTF-8.
Descripcin UTF-8 divide los caracteres Unicode en varios grupos, en funcin del nmero de bytes necesarios para codificarlos. El nmero de bytes depende exclusivamente del cdigo de carcter asignado por Unicode y del nmero de bytes necesario para representarlo. La distribucin de caracteres es la siguiente:
Caracteres codificados con un byte: Los incluidos en US-ASCII, un total de 128 caracteres. Caracteres codificados con dos bytes: Un total de 1920 caracteres. Este grupo incluye los caracteres romances ms signos diacrticos, y los griego, copto, armenio, entre otros. Caracteres codificados con tres bytes: Caracteres del plano bsico multilinge de Unicode, que unido al grupo anterior, incluye la prctica totalidad de caracteres de uso comn.
10
Fecha: martes 17 de septiembre del 2013
Caracteres codificados con cuatro bytes: Caracteres del plano suplementario multilinge. Smbolos matemticos y alfabetos clsicos para uso principalmente acadmico.
Ventajas
UTF-8 permite codificar cualquier carcter Unicode. Es compatible con US-ASCII, la codificacin del repertorio de 7 bits es directa. Es posible identificar claramente una muestra de datos como UTF-8 mediante un sencillo algoritmo. UTF-8 ahorrar espacio de almacenamiento para textos en caracteres latinos, donde los caracteres incluidos en US-ASCII son comunes. Una secuencia de bytes para un carcter jams ser parte de una secuencia ms larga de otro carcter.
11
Fecha: martes 17 de septiembre del 2013
Desventajas
UTF-8 utiliza smbolos de longitud variable; eso significa que diferentes caracteres pueden codificarse con distinto nmero de bytes. Los caracteres ideogrficos usan 3 bytes en UTF-8, pero slo 2 en UTF-16. As, los textos chinos, japoneses o coreanos ocupan ms espacio cuando se representan en UTF-8. UTF-8 ofrece peor rendimiento que UTF-16 y UTF-32 en cuanto a coste de computacin, por ejemplo en operaciones de ordenacin.
UTF-16 UTF-16 que significa en ISO/IEC 10646:2003, UCS Transformation Format for 16 Planes of Group 00. es una forma de codificacin de caracteres UCS y Unicode utilizando smbolos de longitud variable. Se halla oficialmente definido en el Anexo C de la norma ISO/IEC 10646:2003. Tambin est descrita en el Estndar Unicode (versin 3.0 o superior), al igual que en la RFC 2781 de la IETF. En UTF-16 cada punto de cdigo entre U+0000 y U+FFFF se codifica, sin cambios, utilizando 16 bits. Este rango se corresponde con el plano bsico multilinge de Unicode, por lo que la gran mayora de los caracteres de uso comn se codifican con 16 bits. A la hora de valorar el espacio de almacenamiento requerido por un texto utilizando esta codificacin, puede asumirse que los caracteres no incluidos en el plano bsico son muy poco frecuentes y por lo tanto cada carcter utilizar 16 bits. Los caracteres de los planos adicionales, se codifican mediante 32 bits. La codificacin no se hace de forma directa, es decir, el cdigo final no es el valor del punto de cdigo. UTF16 define un formato de transformacin para estos casos denominado pares subrogados. Pares subrogados Si se usan dos palabras para representar cdigos por encima de FFFF, se tiene un exceso de bits. Aprovechando esta circunstancia, se dise el sistema de pares subrogados para representar caracteres fuera del plano bsico. Se define un par subrogado como dos palabras de 16 bits donde:
La primera palabra de 16 bits se denomina subrogado alto o subrogado inicial en terminologa Unicode. Toman valores en el rango [D800,DBFF].
12
Fecha: martes 17 de septiembre del 2013
La segunda palabra de 16 bits se denomina subrogado bajo o subrogado final en terminologa Unicode. Toman valores en el rango [DC00,DFFF]. Se cumple el principio de no superposicin, los conjuntos valores de subrogados altos, bajos y cdigos no subrogados son completamente disjuntos.
Para poder cumplir el principio de no superposicin, el conjunto de valores utilizados como pares subrogados ha sido estandarizado y reservado, por lo que no puede ser utilizado para otros fines.
13
Fecha: martes 17 de septiembre del 2013