Pascual Research: sistema inteligente de generación y análisis de información académica basado en modelos de lenguaje.

No Thumbnail Available

Date

2025

Journal Title

Journal ISSN

Volume Title

Publisher

Institución Universitaria Pascual Bravo

Abstract

El presente trabajo surgió ante la necesidad de optimizar el acceso a la información científica perteneciente a los diversos documentos dentro de la Institución Universitaria Pascual Bravo (IUPB), donde la dispersión de la información y el creciente volumen de publicaciones representan un reto para la reutilización de las fuentes académicas para estudiantes e investigadores de la institución. Dado el auge, la gran comunidad y la expansión acelerada de la inteligencia artificial y, en particular, de los Grandes Modelos de Lenguaje Natural (LLM), se identificó la oportunidad de aprovechar estas herramientas como apoyo en la centralización y consulta de conocimiento académico de manera ágil y confiable. Para lo anterior, se entrenó un modelo de lenguaje tipo chat con bases de datos generadas a partir de documentos académicos propios de la IUPB, orientado a responder preguntas con contenido relevante y verídico. Este proceso incluyó la recopilación y estructuración de un dataset institucional por medio de un proceso de generador y juez con apoyo de otras LLM existentes; las selección y fine-tuning del modelo más adecuado basado en el costo de recursos-beneficio; la evaluación de su desempeño mediante pruebas adaptadas al español del Benchmark GLUE; y la implementación de una interfaz conversacional en el servicio de Telegram que permitió una interacción práctica y gratuita con el modelo. A pesar de los retos encontrados, se logró cumplir con los objetivos propuestos, pues el modelo demostró coherencia en sus respuestas, utilidad práctica y potencial para fortalecer procesos de investigación institucional lo que deja en evidencia el rápido avance del campo de la inteligencia artificial y deja abiertas las posibilidades a futuras mejoras relacionadas con la ampliación del presente proyecto. Abstract: The current work arose from the need to optimize the access to scientific information contained in various documents within the Pascual Bravo University Institution (IUPB), where the dispersion of information and the growing volume of publications represent a challenge for the reuse of academic sources by students and researchers at the institution. Given the peak, the big community and the fast expansion of artificial intelligence and, particularly, of the Large Language Models (LLMs), an opportunity was identified to leverage these tools to support the centralization and consultation of academic knowledge in an agile and reliable way. To this end, a chat-type language model was trained with databases generated from the IUPB’s own academic documents, aimed at answering questions with relevant and accurate content. This process included the collection and structuring of an institutional dataset through a generator and judge pipeline with the support of other existing LLMs; the selection and fine-tuning of the most appropriate model based on the cost-benefit; the evaluations of its performance through tasks adapted to spanish from the GLUE Benchmark; and the implementation of a conversational interface in the Telegram service that allowed the practical and free interaction with the model. Despite the challenges encountered, the proposed objectives were achieved, because the model demonstrated coherence on its responses, practical usefulness and potential to strengthen institutional research processes which highlights the fast progress in the field of artificial intelligence and opens up possibilities for future improvements related to the growth of this project.

Description

Keywords

Modelos de Lenguaje Grande (LLM), Acceso a la información, Fuentes académicas, Access to information, Deep Learning, Inteligencia artificial, Chatbots

Citation