viernes, 20 de enero de 2012

Wordnik, un vasto diccionario inglés basado en corpus.

Por Anne Eisenberg, The New York Times 

En la actualidad, ya no son los editores de grandes diccionarios los que deciden si una palabra es incluida o no. Ahora el concepto de diccionario está cambiando: la materia prima de Wordnik, un gigantesco diccionario online, son los programas de búsqueda en la internet que combinan textos de noticias, transmisiones archivadas, la blogosfera, mensajes de twitter y decenas de otras fuentes constituyendo un corpus prácticamente ilimitado. 

Cuando uno busca una palabra, Wordnik muestra la información que ha hallado, sin ningún retoque y sin ninguna intervención editorial, cijo Erin McKean, una de las fundadoras de la empresa, quien explicó que son los usuarios los que toman la decisión de usar o no una palabra, o de cómo usarla. 

«No hay ninguna preselección. Nosotros mostramos lo que hay en este momento, y dejamos que la gente decida si va a utilizar una palabra o no», aseguró. 

En cierta época, Erin, quien también es autora y columnista, era la primera en cortar y seleccionar palabras, como redactora principal del New Oxford American Dictionary. Ella es también una autora y columnista. 

Pero con Wordnik, McKean eligió un camino diferente. «El idioma cambia todos los días, y el lexicógrafo debe salir del medio», expresó. «Usted puede escribir cualquier cosa, nosotros solo le mostramos los datos que tenemos.» 

Cuando los lectores preguntan sobre una palabra, Wordnik proporciona definiciones sobre el lado izquierdo de la pantalla. Pero las frases de ejemplo, que aparecen a la derecha, son fundamentales para que el lector comprenda un nuevo término, dijo. 

«Las definiciones del diccionario tienden a estar desactualizadas o ser imcompletas», dijo. «Nuestro objetivo es encontrar ejemplos en la Web que utilicen la palabra con tanta claridad que se pueda comprender su significado en la lectura de la oración». 

Con este fin, Wordnik procesa un vasto corpus de lengua, siguiendo en forma automática más de seis millones de palabras, ifnormó Tony Tam, vicepresidente de ingeniería de Wordnik. «Pero son números que cambian cada segundo -precisó- No se trata de una lista estática» 

¿Y de dónde viene todo este texto? «La gente suele sorprenderse al ver la rapidez con que entran nuevos artículos en la web», dijo. 

Y, en efecto, Wordnik viene a llenar un vacío en el mundo de los diccionarios, afirmó William Kretzschmar, profesor de la Universidad de Georgia y el ex presidente de la American Dialect Society, quien se ocupa de las pronunciaciones estadounidenses para la nueva línea Diccionario Inglés de Oxford. 

«Se necesita tiempo para que las palabras entren en los diccionarios más conocidos y formales, dijo. «Wordnik se ocupa de lo que a la gente le interesa ahora, en este momento». 

Wordnik, que ha recaudado $ 12,8 millones en financiación de riesgo, proyecta utilizar su vasta base de datos de palabras y colocaciones en esta empresa así como en muchas otras iniciativas que serán anunciadas este año, señaló John Hyrkin, presidente de Wordnik. 

Los productos serán similares a los motores de recomendación, pero más poderosos, dijo. Si te gusta un libro en particular, por ejemplo, Wordnik puede recomendar uno similar sobre la base de su comprensión de las palabras usadas para describirlo, dijo. 

«No sólo estamos utilizando etiquetas y descripciones», dijo. «Nuestro sistema comprende e identifica las coincidencias a nivel conceptual», aseguró. 

La compañía ya ofrece muchos servicios basados en palabras, entre ellos, uno utilizado en el sitio web de The Times para definir palabras en los artículos. Wordnik también proporciona un glosario financiero para SmartMoney.com. 

Geoffrey Nunberg, lingüista de la Facultad de Información de la Universidad de California, Berkeley, que habla sobre el lenguaje en un programa de la NPR llamado «Aire Fresco», aprecia la amplitud de Wordnik. «Hay una gran cantidad de información útil en este caso», dijo. (Él también ha escrito comentarios sobre lengua enThe Times.) 

Pero él cree que el trabajo de los lexicógrafos podría ajustar las entradas. «La idea de que se puede prescindir de los lexicógrafos y usar un software para intermediar entre los hablantes y el idioma es ridícula», admitió. «Sin el trabajo de gente capacitada, el resultado es un desastre», afirmó. 

Para ilustrar este punto, señaló fallas en una serie de definiciones de Wordnik. La primera definición de «sofá», por ejemplo, en tres de las cinco fuentes utilizadas por Wordnik es una especie de pequeño escritorio. «Y la palabra no significa eso por lo menos desde que mi abuela iba a la escuela primaria», dijo. 

La gente usa un diccionario para averiguar qué es lo 'correcto' y lo 'incorrecto', dijo. «Si yo fuera un periodista buscando saber si una palabra se está utilizando en forma adecuada, buscaría un buen diccionario; no es esa la función de Wordnik», dijo. 

Wordnik y otras bases de datos lingüísticas nuevas han surgido en buena medida debido a la gran masa de texto en la internet y a la mejora de los algoritmos de búsqueda, dijo Mark Liberman, profesor de lingüística en la Universidad de Pennsylvania.«Ahora tenemos un universo de archivos que contiene casi todo lo que se ha escrito - miles de millones de páginas de texto de los libros publicados, y ahora, los archivos de difusión también», comentó. 

Los lectores siempre pueden aprovechar este depósito para buscar ejemplos de nuevas palabras en Google Books o Google News. «Pero, lo que Wordnik está ofreciendo no es tan crudo como una búsqueda de Google de los ejemplos», dijo, «porque en Wordnik mostramos ejemplos de los diferentes sentidos de la palabra.» 

Otra base de datos innovadora es la Universidad Brigham Young, donde Mark Davies, profesor de lingüística, ha acumulado una colección, el Corpus de Arte Contemporáneo Inglés Americano, 1990-2011, que contiene como fuentes millones de palabras de funcionamiento de texto de los artículos, transcripciones de conversaciones, entre otros. La colección, que los índices de 425 millones de palabras de texto - 1000 puede ser de un artículo de periódico, por ejemplo - se ha construido en los últimos tres años. Se muestra con qué frecuencia se usa una palabra, y los tipos de discurso en el que se encuentra, ya sea en el habla coloquial o en prosa académica. 

La colección también permite a los usuarios ver palabras que se encuentran cerca de una palabra nueva. «Si usted quiere ver cómo se usa una palabra y lo que significa, la mejor manera es buscar en las palabras cercanas», dijo el Dr. Davies. Las palabras que suelen aparecer juntas se llaman 'colocaciones'. Para buscar collocates de «fantasía», por ejemplo, ver http://bit.ly/rImCuH. 

Los editores de diccionarios han recorrido un largo camino desde los días de Johnson y Webster, dijo el doctor Kretzschmar en la Universidad de Georgia. «Pero tenemos computadoras», agregó, de modo que «podemos manejar esta vasta red de palabras en línea y apreciarlas de formas que Johnson y Webster nunca hubieran podido».

No hay comentarios:

Publicar un comentario