Las tecnologías del lenguaje en la era de los Grandes Datos: buscadores, programas de traducción... - Grupo IXA (Sección especial: Hacer propio lo ajeno)
Itziar Aduriz (Universidad de Barcelona), Iñaki Alegria, Olatz Arregi, Arantza diez de Ilarraza, Kepa Sarasola (UPV/EHU)

Resumen

La cantidad de información textual disponible de forma electrónica está creciendo sustancialmente, por lo que las nuevas tecnologías se han convertido en instrumentos necesarios para aprovechar al máximo dicha información. En este artículo describimos tres nuevas técnicas que abren nuevos horizontes, como son la computación en la nube, el aprendizaje profundo y las redes neuronales. Estos grandes recursos han traído consigo la posibilidad de crear nuevas aplicaciones en las lenguas mayoritarias del mundo. ¿Pero son estos recursos igualmente prácticos en el caso del euskera? Teniendo en cuenta que la cantidad de textos disponibles en lengua vasca es inmensamente menor que los que encontramos en inglés, es necesario experimentar con estas nuevas técnicas para valorar hasta qué punto nos resultan prácticas. Por otro lado, ¿ha de actuarse siguiendo el mismo procedimiento en el caso de las lenguas con pocos recursos? Además de conocer las tendencias que se observan en las lenguas mayoritarias, el objetivo es conocer qué recursos, instrumentos y aplicaciones resultan más productivos. Existen en el mundo 190 lenguas que, si bien cuentan con una mínima presencia en Internet, no han desarrollado aún tecnologías del lenguaje, y para las que una estrategia diferente puede ser la clave del éxito. El Grupo IXA ha dedicado algunos proyectos y tesis doctorales al estudio de este ámbito. Así mismo, se han planteado e incorporado nuevas propuestas de tratamiento de la cultura vasca dentro del proyecto de DSS2016.