En Ucrania, se presentó un modelo lingüístico de gran tamaño, denominado Lapa LLM, fruto de la colaboración entre científicos de varias instituciones líderes: la Universidad Católica Ucraniana (UCU), el Instituto Politécnico de Kiev (KPI), el Politécnico de Lviv y la Academia de Minería y Metalurgia de Cracovia . Según el comunicado de prensa, el modelo se basó en Gemma-3-12B de Google .
El nombre del modelo, Lapa LLM, se eligió en honor a Valentyn Lapa , quien anteriormente fue coautor de métodos de contabilidad de argumentos grupales, uno de los fundamentos teóricos del aprendizaje profundo moderno. Según los desarrolladores, durante la creación del modelo, se reemplazaron unos 80.000 tokens de los 250.000 iniciales para adaptar mejor la arquitectura al idioma ucraniano.
Representantes de la UCU informan que, en términos de velocidad y calidad de trabajo con el idioma ucraniano, Lapa LLM supera al Gemma original, así como a la mayoría de los modelos cerrados de la misma categoría. Esta ventaja, afirman, se logró mediante la localización, la optimización del tokenizador y la adaptación a la morfología y sintaxis ucranianas.
Esta noticia es importante no sólo para la comunidad científica, sino también para el desarrollo del mercado de TI de Ucrania, ya que los modelos de esta clase son una herramienta clave para el procesamiento del lenguaje natural, la traducción, la creación de textos, los chatbots, el análisis automatizado de datos y otras aplicaciones.
En un futuro próximo, se esperan pruebas abiertas de Lapa LLM, así como la integración del modelo en proyectos relacionados con la lengua, la cultura, la educación y los negocios ucranianos.

