martes, noviembre 28, 2006

El "caso Malaya" de la ortografía

Pasear por la página del Instituto Nacional de Estadística es muy entretenido. Por ejemplo, aprendes que la tasa de paro en España está en el 8.15%, que Massamagrell ya ha alcanzado los 14000 habitantes y que la inflación acucia (IPC del 2.5%), aunque los sueldos medios no suben desde 1997.

Y los más juguetones pueden pasar un buen rato trasteando con esta aplicación que te enseña la distribución en España de un apellido cualquiera por provincias.

PERO ATENCIÓN:

Siglo veintiuno, robots aspiradora, décimo aniversario del fallecimiento de Konrad Zuse tras nosotros, Unicode 5.0 recién salidito de la imprenta, IDNs en árabe pronto en la raíz del DNS... y si escribes tu apellido con acento el programita del INE no funciona.

Estimado señor/a:

La aplicación para la búsqueda de apellidos bajo la URL
http://www.ine.es/fapel/FAPEL.INICIO
no es capaz de procesar acentos. ¿Sería posible corregir el fallo?

Un cordial saludo
Marcos Sanz

El INE me intenta despachar en un plis-plas. Éste es el texto integro de la respuesta, los comentarios entre corchetes son edición mía:

Estimado Sr.Sra:/ [La puntuación promete] Con relación a la informacion [lo sabía, es un complot] que nos solicita [yo no he solicitado ninguna extensa información, sino más bien les he planteado una preguntita] le comunico lo siguiente : [las convenciones tipográficas tampoco importan]

Lamento comunicarle [o sea "le comunico que lamento comunicarle"] que no es posible realizar el cambio ,si usted se lee la ayuda [¿es esto acaso un reproche descarado?] (?) [¿uh?] le informa lo siguiente [y si usted se lee un manual de estilo, y si no se lo lee también, allí se le informa de que "informar", en esta acepción, necesita un complemento de régimen] :
Escriba el apellido sin acentos ni caracteres especiales [¡ah!, si lo pone en la ayuda, entonces ya están legitimadas las chapuzas]

http://www.ine.es/fapel/FAPEL.INICIO
[gracias por incluir la dirección de nuevo, ya casi se me había olvidado]

Esperamos que la información facilitada le sirva de ayuda.

Atentamente

Área de Difusión por Internet

Pero los que me conocen saben que me siempre gusta llegar al fondo del problema. Algo inquisitivo, vuelvo al ataque:

En relación a ref.:27443 escriben Vds:

> > si usted se lee la ayuda (?) le informa lo siguiente :
> > Escriba el apellido sin acentos ni caracteres especiales
> > Esperamos que la información facilitada le sirva de ayuda.

Pero esta información de ayuda (?) no sirve de ayuda (!), en tanto en cuanto yo ya era consciente de que la aplicación no es capaz de procesar acentos: vamos, es precisamente lo que yo escribía ayer en mi consulta original.

Algunos apellidos sólo se diferencian entre sí por la colocación del acento gráfico. ¿Pueden confirmarme que el INE colapsa todos estos casos a una única representación -sin acentos- en su base de datos, con lo cual la estadística se falsea? ¿O se trata sólo de un problema de internacionalización en la aplicación web, algo fácil de resolver?

Un cordial saludo,
Marcos Sanz

Como se huelen que al otro lado de la línea se encuentra un maníaco con "tendensias fasistas latenetes", se esfuerzan un poco más con la siguiente respuesta. Y es aquí donde llega el notición, el caso Malaya de la ortografía (comentarios y enfásis añadido):

Estimado Sr/Sra

La aplicación de apellidos que usted ha consultado ha sido concebida como una herramienta de trabajo interna, que el INE ha querido poner a disposición de todos los usuarios [leo: "las gracias tendrías que dar, desgraciao, en vez de ir quejándote de los fallos"]. Pero esta aplicación en ningún caso pretende ser un diccionario exhaustivo de apellidos. [¿uh?]
El recuento en que está basada se ha efectuado a partir de la información que consta en la base padronal del INE, a fecha 1 de enero de 2006. La base padronal se obtiene a partir de los ficheros enviados por los distintos Ayuntamientos, una vez realizadas las comprobaciones oportunas en aras a subsanar posibles errores y duplicidades.
Los ficheros que envían los Ayuntamientos no siempre siguen los mismos criterios en cuanto a acentuación de carácteres en mayúscula por lo que el INE, para conseguir una cierta homogeneidad en todos ellos ha optado por procesar, para esta aplicación, la información sin acentos.
Lamentamos los inconvenientes que esta circunstancia le pueda ocasionar

Atentamente
Area de Difusión por Internet

Resumiendo:

a) Al parecer hay varios criterios distintos en cuanto a la acentuación de las mayúsculas. Que baje Lázaro Carreter y lo vea.
b) La Administración (a través del Ministerio de Economía y Hacienda, al que está adscrito el INE) sabe que los Ayuntamientos no coordinan la ortografía en la entrada de datos del padrón, pero la situación se tolera.
c) El INE "subsana posibles errores" para sus propios fines, pero lo de corregir los acentos parece no formar parte de esta categoría.
d) Por último, para conseguir una cierta homogeneidad, el INE quita todos los acentos, no sólo los de inicio de palabra (en alemán a esta acción se le llama "tirar al niño por el desagüe junto con el agua de la bañera").

A veces me pregunto: ¿para qué esforzarme en lo de los acentos en las direcciones de correo electrónico si en realidad se considerarán un engorro?

domingo, noviembre 26, 2006

El tamaño sí que importa

La imagen de este gnomo tratando de devorar una alcachofa tan grande como su cabeza es tan deliciosa que tenía que compartirla con vosotros. Por cierto, que por estos lares las alcachofas se compran (y se pagan) por piezas, no al peso, y todas son ENORMES. Yo, sinceramente, preferiría que importaran las más pequeñas, que creo que están más sabrosas y ciertamente son más fáciles de cocinar que la megacefalia ésa de un euro, pero deben de tener miedo de que no se vendan...

jueves, noviembre 09, 2006

Los dominios de una letra (Director's Cut)

En uno de los comentarios a la entrada anterior Luis escribe que "no está permitido registrar dominios con una sola letra" y pienso que haría falta aclarar un par de cosas al respecto.

No hay ninguna restricción en los RFC 1034, 1035, 1123 ó 2181 (las especificaciones más representativas) que prescriba tal cosa. Más bien todo lo contrario, RFC 2181 clarifica:

The length of any one label is limited to between 1 and 63 octets

Prima facie no existe pues ninguna razón que prohíba p. ej. el dominio s.a.nz. Pero como se puede juzgar por el tamaño de esta entrada, la situación es algo más compleja :-)

En 1993 se publica RFC 1535, que documenta un problema de seguridad con una implementación de DNS bastante extendida. Basicamente el problema consiste en clientes de DNS que utilizan listas de búsqueda cuando el dominio a resolver no acaba con un punto ("no es absoluto", se suele decir). Éste es, por ejemplo, un escenario concreto:

Si el usuario User@Machine.Tech.ACES.COM trata de conectar a la máquina UnivHost.University.EDU, el cliente de DNS afectado por este problema detecta que el nombre de la máquina-destino a resolver no es absoluto, y en vez de buscar en el DNS la dirección IP de UnivHost.University.EDU tratará primero de encontrar una dirección IP de cualquiera de las siguientes combinaciones:

UnivHost.University.EDU.Tech.ACES.COM.
UnivHost.University.EDU.ACES.COM.
UnivHost.University.EDU.COM.
UnivHost.University.EDU.

Por así decirlo, el cliente trata de buscar la máquina primero en el entorno local. ¿Os figuráis por qué esto es un problema de seguridad? Si por casualidad la máquina UnivHost.University.EDU.COM. existiera, el usuario se conectaría a ella sin saber que se está conectando a la máquina equivocada. Si esta máquina estuviera en poder de Los Malos Malosos, ellos podrían sonsacarle información confidencial, digamos su contraseña.

Ahora la pregunta es: ¿y qué tiene que ver este rollo con la longitud de los nombres de dominio? El problema que describe RFC 1535 se podría erradicar si todas las implementacionas erróneas desaparecieran de golpe de la faz de la tierra. Pero como esto no es muy realista, la manera de solucionar el problema es más retorcida: evitar que no se registre a segundo nivel ningún dominio que ya exista a primer nivel. Si el dominio EDU.COM estuviera prohibido (porque EDU ya es un dominio de primer nivel), el problema no podría ocurrir en esta constelación.

Existen dos tipos de dominios de primer nivel (o TLDs, por sus iniciales en inglés): gTLDs (generic TLDs) y ccTLDs (country code TLDs). Los ccTLDs, que están asociados a países, están tomados de la lista de códigos ISO 3166-1 alpha 2, y siempre constan de dos caracteres ("ES" para España, "DE" para Alemania, etc). En estos momentos existen 244 elementos en esa lista y si estuviera prohibido registrar todos los elementos de esa lista bajo cualquier TLD, habríamos minimizado el problema descrito en RFC 1535. Desgraciadamente, la lista no es estática y se adapta según nuevos países aparecen en el mapa (como ocurrió el pasado mes de Septiembre con la inclusión de Serbia y Montenegro). ¿Qué hacer si el dominio me.de estaba registrado antes de Septiembre (algo permitido, porque "ME" todavía no estaba en la lista) y de repente "ME" se convierte el TLD de Montenegro? Retirar me.de a su dueño legítimo sería ilegal. ¿No sería pues más seguro todavía prohibir todos los dominios de dos letras para defenderse de posibles cambios futuros en la lista del ISO? Ciertamente. Y ésa es la posición de DENIC y de muchos otros registros de nombres de dominio de todo el mundo: prohibir todos los dominios de dos letras de segundo nivel a raíz del problema documentado en RFC 1535*.

"¿Y los gTLDs? ¿No tendrían que prohibirse también como dominios de segundo nivel?"

Sí, así es. Los gTLDs originales (com, net, org, edu, gov, mil, int y arpa) están también prohibidos como nombres de dominio bajo DE (y bajo muchos otros TLDs). Sin embargo, la lista de gTLDs también cambia con el tiempo y, como mencionaba, no es posible rescindir contratos existentes con dueños de nombres de dominio de segundo nivel (p.ej. name.de) cuando un nuevo gTLD (p.ej. name) es creado.

"Vale, los dominios de dos letras están prohibidos a razón de RFC 1535. Pero no hay TLDs de una letra. ¿Hay alguna razón técnica para prohibir dominios de segundo nivel de una letra?"

En realidad no. Pero sería bastante difícil explicarle a la gente que los dominios de una letra están permitidos pero los de dos no. Mucho más fácil es decir "la longitud mínima es de tres caracteres" y sanseacabó. Total, el sacrificio no es muy grande: se pierden unos veintitantos nombres de un espacio de un tamaño total de O(10^63) :-)

"¿Pero hay dominios de una letra?"

Sí, sí que los hay**. Porque algunos registros ignoran el problema.

"¿Dado que el problema se documentó en 1993, quizá ya no es actual?"

Sí, sí lo es. En nuestros servidores de nombres de dominio seguimos recibiendo unas 14.000 consultas por minuto mal direccionadas para dominios de la forma ejemplo.TLD.DE (en vez de ejemplo.TLD, cuya consulta nunca debería haber llegado a nosotros en primer lugar, sino a los servidores del TLD correspondiente), lo que significa que todavía hay mucho software anticuado por ahí suelto que utiliza listas de búsqueda.

* Aunque existen tres dominios de dos letras bajo DE cuyo origen se remonta a tiempos pre-1535 y no pueden ser borrados.
** Ése es un ejemplo de segundo nivel. En niveles más bajos de la jerarquía hay muchos más.

sábado, noviembre 04, 2006

El dominio de la Ñ

Señora Carmen Calvo: He venido a propósito a Marina del Rey para ayudarla a reivindicar el dominio de la Ñ en Internet. Pero por aquí no estaba Bill Gates...

[Link gracias a Mundofer]

jueves, noviembre 02, 2006

Cumpleaños en voz alta

El agente J ha sido capturado por el Retorcido Comando Logopeda y no será liberado hasta que no aprenda a leer felicitaciones a la familia en voz alta.
"La P con la L..."