Length bias
La opción correcta no puede ser sistemáticamente la más larga. Si lo es, el alumno aprueba marcando longitud, no comprensión.
Umbral: ≤ 50% por curso
Auditoría editorial
Generar evaluación con IA es fácil. Generarla bien es otra cosa. La mayoría de los cursos que se publican con LLM hoy son aprobables sin haber leído el contenido — basta con marcar la opción más larga, o la letra "a", o descartar las frases obviamente jocosas.
En LearnIA medimos eso. Doce dimensiones, validador automático, política zero waiver. Si alguna dimensión falla, el curso no entra a producción.
El problema
Cuando un modelo de lenguaje genera preguntas de elección múltiple sin restricciones explícitas, tiende a producir patrones que un alumno aprovecha sin haber aprendido nada. La opción correcta lleva la información completa, los distractores son cortos. La letra "a" o "b" se concentran como respuesta correcta porque son frecuentes en el corpus de entrenamiento del modelo. Los distractores se reutilizan entre preguntas porque el modelo recurre a su propia caché.
En tres cursos de LearnIA generados con un modelo ligero detectamos estos patrones. En el peor caso medimos la opción correcta como la más larga en el 99,3% de las preguntas y la letra correcta concentrada en una sola opción en el 98,9% del banco. El passing_score de 4/5 (80%) no protege: el banco entero es vulnerable.
Lo regeneramos con un modelo de mayor capacidad y reglas anti-sesgo explícitas. Lo medimos antes y después con un validador propio. Documentamos el hallazgo en el paper IEEE LearnIA. Y lo publicamos como código abierto bajo licencia MIT para que cualquiera pueda auditar su propio contenido con los mismos thresholds.
Las 12 dimensiones
La opción correcta no puede ser sistemáticamente la más larga. Si lo es, el alumno aprueba marcando longitud, no comprensión.
Umbral: ≤ 50% por curso
Las correctas se reparten entre las cuatro letras (a/b/c/d). Si se concentran en una, el alumno aprueba memorizando una letra.
Umbral: Cada letra ≥ 15%
Los distractores no pueden ser frases jocosas reutilizadas en cientos de preguntas. Se descartan a la vista sin haber leído nada.
Umbral: Ningún distractor literal repetido > 5 veces
Las opciones con "siempre/nunca/todos" tienden a ser distractores y las "suele/puede" tienden a ser correctas. El alumno aprovecha la pista.
Umbral: Ratio equilibrado correcta vs distractor
La correcta no puede repetir literalmente el vocabulario del nodo mientras los distractores usan otro registro. Es una pista a flor de piel.
Umbral: Solapamiento Jaccard equilibrado
Patrones como "todas las anteriores" son explotables. Veto absoluto.
Umbral: 0 ocurrencias
Si la opción más larga es 3× la más corta, destaca por sí sola sin haber leído.
Umbral: Ratio max/min ≤ 2.5×
Si las cinco preguntas de un nodo son recall puro, basta con memorizar los términos clave. No hay comprensión ni aplicación.
Umbral: 2 recall + 2 comprehension + 1 application por nodo
Reutilizar el mismo distractor literal en 100 preguntas le quita valor pedagógico y revela el patrón.
Umbral: Conteo de distractores únicos elevado
Un distractor de otro dominio es descartable a la vista sin saber del tema.
Umbral: Solapamiento con vocabulario del nodo
Pares contradictorios entre opciones revelan que una es correcta por construcción. En backlog v2 del validador.
Umbral: Detección heurística — backlog v2
Si solo una opción tiene la forma gramatical que pide el enunciado, se elige por sintaxis. En backlog v2.
Umbral: Coincidencia gramatical — backlog v2
Resultados por curso
Estado del validador en la última corrida (2026-05-04). Los datos se regeneran cada vez que un curso pasa una auditoría longitudinal o cuando un trigger extraordinario lo dispara.
Política operativa
No hay autoridad de excepción. Ni el CEO, ni un cliente B2B, ni una universidad pueden saltarse el gate del validador. Si un curso falla alguna de las doce dimensiones, identificamos los nodos afectados, los regeneramos con el sub-agente especializado, y los volvemos a pasar por el validador. Sólo cuando pasa entra a producción.
Cada despliegue a producción ejecuta el validador en CI/CD. Si falla, el deploy se bloquea automáticamente. Lo que decimos aquí es lo que hace la máquina, no una promesa editorial.
Mantenimiento longitudinal
Pasar el validador una vez no garantiza calidad para siempre. La normativa cambia, el dominio evoluciona, los modelos generadores mejoran. Por eso cada curso vuelve a pasar la auditoría completa cada cuatro meses si tiene cincuenta o más alumnos activos, cada seis meses si tiene menos, cada doce meses si está archivado.
Triggers extraordinarios fuera de cadencia: cambio normativo público que afecte el dominio, lanzamiento de modelo o framework dominante, caída sostenida de Success Rate por nodo durante 30 días, o ticket de error de contenido reportado por un alumno.
Cuando una nueva auditoría detecta un sesgo que antes pasaba (porque hemos añadido una dimensión K o L del backlog), publicamos el hallazgo y el plan de remediación junto con la fecha de cierre. La transparencia radical no es un eslogan: es la manera de que un comprador serio pueda confiar en lo que firmamos.
Open source
El código del validador se publica bajo licencia MIT. Cualquier equipo de EdTech, cualquier universidad, cualquier auditor externo puede ejecutarlo sobre nuestro contenido — o sobre el suyo propio. Lo que distingue a LearnIA no es el código: es el dataset auditado, el sub-agente generador entrenado con reglas anti-sesgo y el compromiso de zero waiver.
El hallazgo de las doce dimensiones es aportación nueva al paper IEEE LearnIA. La sección dedicada documenta la cuantificación, la causa raíz cognitiva y la mitigación operativa con datos de los cuatro cursos publicados.
Repo público y preprint disponibles tras cierre del piloto cohorte 1.
Auditamos contenido evaluativo de terceros bajo acuerdo. Útil para universidades que están migrando MOOCs heredados a microcredenciales verificables, y para empresas que han generado formación interna con LLM y necesitan saber qué tienen.