miércoles, octubre 24, 2007

Donde el hombre aún supera a los ordenadores


Estando en el plenario de la conferencia RIPE 55, vi ayer por primera vez una máquina de estenotipia. Mientras el ponente hablaba, una pantalla gigante mostraba una transcripción escrita del discurso. Al principio pensé que se trataba de algún sistema computerizado de reconocimiento de voz, pero Fernando me preguntó que en qué siglo vivo. Ciertamente, la precisión del texto transcrito era sorprendente, teniendo en cuenta que el sistema no había sido entrenado previamente con la voz de los ponentes y que éstos no hablaban de forma especialmente lenta o clara.

En la primera fila había una mujer con auriculares por los que le llegaba directamente el tono de los micrófonos, sin ruidos ambientales. Con cara de absoluta concentración manejaba esta máquina:


Verla operar el aparato es muy parecido a ver tocar el piano (y a veces incluso más interesante que ver a un tío en la tarima repetir por enésima vez que se nos acaban las direcciones de IPv4): a dos manos, con absoluta suavidad y sin pausa, va pulsando simultáneamente varias de las 24 teclas que componen el teclado. La parte trasera de la máquina escupe el galimatías de las combinaciones de teclas pulsadas (el estenograma) mientras que la pantalla digital de la máquina es la que muestra el discurso del orador. La máquina tiene también una salida de datos que está conectada a un portátil, que a su vez es el que envía la señal de vídeo al proyector.

¿Cómo son convertidas las combinaciones de teclas en palabras? En primer lugar hay que saber que el sistema es fonético: las teclas representan sonidos, no letras. Los dedos de la mano izquierda se encargan de pulsar los sonidos consonánticos iniciales de la palabra, mientras que los de la mano derecha pulsan los sonidos consonánticos finales. Los pulgares se encargan de las respectivas vocales. La siguiente imagen, aunque no coincide exactamente con el modelo de máquina que veis arriba, sirve para hacerse una idea de la distribución del teclado.


Los sonidos que le puedan faltar a una mano (debido al reducido número de teclas) se obtienen pulsando combinaciones. Por ejemplo, un sonido L inicial se consigue con una HR de forma simultánea con la mano izquierda, o una J final se obtiene con PBLG de la mano derecha.

El último paso es la conversión de "sonido inicial más final" a "palabra de un lenguaje", y de eso se encarga la máquina en cooperación con el estenotipista. La máquina contiene un diccionario del idioma que está transcribiendo y va presentando palabras en tiempo real por la pantalla mientras la persona teclea, y ésta puede aceptarlas o rechazarlas en busca de alternativas. En inglés, muchas palabras son monosílabas o bisílabas así que la máquina acierta la mayoría de las veces. Además, como las máquinas de estenotipia de hoy en día son casi ordenadores, se pueden personalizar configurando atajos en las combinaciones de teclas para palabras frecuentes o incluso para frases hechas.

Cuando la máquina no encuentra una entrada apropiada en el diccionario, o cuando el operador hace un fallo y no puede volver atrás para no perder el hilo de la charla, aparece una sopa de letras en pantalla:


Supongo que seguirá existiendo estenotipia hasta el día en el que Via Voice sea capaz de captar 300 palabras por minuto sin entrenamiento previo con el orador.

4 comentarios:

JGLL dijo...

> repetir por enésima vez
> que se nos acaban las
> direcciones de IPv4

Ah, pero aun quedan?

Marcos dijo...

He, he... alguna queda, pero ya se está empezando a buscar debajo de las piedras.

Para saber lo que pasará cuando definitivamente se acaben, no te pierdas este vídeo que fue de lo mejor de la conferencia.

Anónimo dijo...

Ni me he leído el artículo ni he visto el vídeo pero he encontrado aquí un mapa del , y hay un montón de espacio "sin conceder" (los bloques grises grandotes son direcciones no asignadas). Estoy seguro de que querrás explicarnos esto...

En relación con la estenotipia, tengo que decir que estoy impresionado. En el último número del at - Automatisierungstechnik venía un interfaz de usuario controlado por la voz para entornos industriales, y la tasa de aciertos era de un 95%... con entrenamiento previo y siempre y cuando el diccionario de palabras a reconocer sea de alrededor de 20 palabras.

Anónimo dijo...

%$#!! de explorer, se me ha comido la etiqueta de cierre del link al publicar el comentario.

Esto me pasa por escribir desde el trabajo...