Evaluación de modelos LLMs de código abierto

Los modelos de lenguaje grandes de código abierto han demostrado ser herramientas útiles para la generación de código, sin embargo, hay escasez de evaluaciones que comparen su desempeño en problemas de programación con diferentes niveles de complejidad. Este estudio evalúa cuatro LLMs de código abie...

Повний опис

Збережено в:
Бібліографічні деталі
Автор: Pazos Duque, Paul Alejandro (author)
Формат: bachelorThesis
Мова:spa
Опубліковано: 2026
Предмети:
Онлайн доступ:http://dspace.ups.edu.ec/handle/123456789/32056
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Опис
Резюме:Los modelos de lenguaje grandes de código abierto han demostrado ser herramientas útiles para la generación de código, sin embargo, hay escasez de evaluaciones que comparen su desempeño en problemas de programación con diferentes niveles de complejidad. Este estudio evalúa cuatro LLMs de código abierto: Mistral 7B, Phi-3 Mini, Qwen2.5 7B y DeepSeek-Coder 1.3B en la generación de soluciones para problemas de programación en Python, usando nueve ejercicios organizados en tres niveles de dificultad: fácil, medio y avanzado. Los modelos fueron seleccionados por su disponibilidad bajo licencias open source que permiten su uso académico y modificación libre. La evaluación se lleva a cabo mediante un enfoque dual que incluye análisis automatizado con DeepSeek Chat y evaluación humana por un evaluador independiente. Se aplican criterios estandarizados de funcionalidad, claridad del código y manejo de errores, proporcionando puntuaciones cuantitativas. Los resultados muestran variaciones significativas en el desempeño de los modelos, dependiendo de la complejidad de los problemas y su especialización, lo que es relevante para la selección de modelos en contextos educativos y de desarrollo de software.