Les technologies du langage à l'ère des «grandes données» : moteurs de recherche, programmes de traduction...
Résumé
La quantité de textes informatifs dont nous disposons au niveau mondial croît vertigineusement, et nous avons besoin de nouvelles technologies pour pouvoir exploiter au maximum toute cette information. Dans cet article nous décrivons trois nouvelles techniques qui ouvrent de nouveaux horizons : l'informatique en nuage, l'apprentissage en profondeur et les réseaux neuronaux. Ces techniques ont permis de créer de nouvelles applications dans les langues hégémoniques du monde. Mais, ces ressources sont-elles valables pour des langues comme l'euskara ? Compte tenu du fait que la quantité de textes disponibles en notre langue est infiniment moindre que celle des textes rédigés en anglais, il nous faut expérimenter ces nouvelles techniques pour mesurer jusqu'où elles sont valables dans notre cas. Par ailleurs, les langues ayant peu de ressources sont-elles tenues de suivre forcément les pas des langues majoritaires ? En plus de connaître les tendances que l'on observe dans les langues majoritaires, nous devons également savoir quels sont les ressources, les applications et les instruments les plus productifs pour nous. Il existe dans le monde 190 langues qui, bien qu'elles aient une présence minime sur Internet, n'ont pas encore développé des technologies du langage. Une stratégie différente pourrait donc leur servir de référence. Au sein du Groupe IXA, nous avons consacré un certain nombre de projets et de thèses doctorales à l'étude de cette question, de même que nous avons présenté de nouvelles propositions sur le traitement de la culture basque, dans le cadre de DSS2016 (Donostia/San Sebastián capitale européenne de la culture 2016).