Auditoría editorial

Cada curso pasa por doce filtros de sesgo antes de publicarse. Sin excepciones.

Generar evaluación con IA es fácil. Generarla bien es otra cosa. La mayoría de los cursos que se publican con LLM hoy son aprobables sin haber leído el contenido — basta con marcar la opción más larga, o la letra "a", o descartar las frases obviamente jocosas.

En LearnIA medimos eso. Doce dimensiones, validador automático, política zero waiver. Si alguna dimensión falla, el curso no entra a producción.

El problema

Un quiz generado por LLM sin gobernanza es vulnerable a heurísticas de superficie.

Cuando un modelo de lenguaje genera preguntas de elección múltiple sin restricciones explícitas, tiende a producir patrones que un alumno aprovecha sin haber aprendido nada. La opción correcta lleva la información completa, los distractores son cortos. La letra "a" o "b" se concentran como respuesta correcta porque son frecuentes en el corpus de entrenamiento del modelo. Los distractores se reutilizan entre preguntas porque el modelo recurre a su propia caché.

En tres cursos de LearnIA generados con un modelo ligero detectamos estos patrones. En el peor caso medimos la opción correcta como la más larga en el 99,3% de las preguntas y la letra correcta concentrada en una sola opción en el 98,9% del banco. El passing_score de 4/5 (80%) no protege: el banco entero es vulnerable.

Lo regeneramos con un modelo de mayor capacidad y reglas anti-sesgo explícitas. Lo medimos antes y después con un validador propio. Documentamos el hallazgo en el paper IEEE LearnIA. Y lo publicamos como código abierto bajo licencia MIT para que cualquiera pueda auditar su propio contenido con los mismos thresholds.

Las 12 dimensiones

Lo que medimos en cada banco antes de publicar

Length bias

La opción correcta no puede ser sistemáticamente la más larga. Si lo es, el alumno aprueba marcando longitud, no comprensión.

Umbral: ≤ 50% por curso

Position bias

Las correctas se reparten entre las cuatro letras (a/b/c/d). Si se concentran en una, el alumno aprueba memorizando una letra.

Umbral: Cada letra ≥ 15%

Distractor banality

Los distractores no pueden ser frases jocosas reutilizadas en cientos de preguntas. Se descartan a la vista sin haber leído nada.

Umbral: Ningún distractor literal repetido > 5 veces

Absolute language

Las opciones con "siempre/nunca/todos" tienden a ser distractores y las "suele/puede" tienden a ser correctas. El alumno aprovecha la pista.

Umbral: Ratio equilibrado correcta vs distractor

Vocabulary leakage

La correcta no puede repetir literalmente el vocabulario del nodo mientras los distractores usan otro registro. Es una pista a flor de piel.

Umbral: Solapamiento Jaccard equilibrado

All / none of the above

Patrones como "todas las anteriores" son explotables. Veto absoluto.

Umbral: 0 ocurrencias

Length-variance intra-pregunta

Si la opción más larga es 3× la más corta, destaca por sí sola sin haber leído.

Umbral: Ratio max/min ≤ 2.5×

Bloom collapse

Si las cinco preguntas de un nodo son recall puro, basta con memorizar los términos clave. No hay comprensión ni aplicación.

Umbral: 2 recall + 2 comprehension + 1 application por nodo

Distractor diversity

Reutilizar el mismo distractor literal en 100 preguntas le quita valor pedagógico y revela el patrón.

Umbral: Conteo de distractores únicos elevado

Out-of-topic distractor

Un distractor de otro dominio es descartable a la vista sin saber del tema.

Umbral: Solapamiento con vocabulario del nodo

Two-opposites

Pares contradictorios entre opciones revelan que una es correcta por construcción. En backlog v2 del validador.

Umbral: Detección heurística — backlog v2

Sintaxis delatora

Si solo una opción tiene la forma gramatical que pide el enunciado, se elige por sintaxis. En backlog v2.

Umbral: Coincidencia gramatical — backlog v2

Resultados por curso

1.205 preguntas auditadas. Cuatro cursos en producción.

Estado del validador en la última corrida (2026-05-04). Los datos se regeneran cada vez que un curso pasa una auditoría longitudinal o cuando un trigger extraordinario lo dispara.

Curso	Preguntas	Length bias	Letras a/b/c/d	Validador
Ecodiseño moda avanzado	230	49.6%	28 / 24 / 24 / 24	PASS 12/12
Comunicación estratégica	175	0%	27 / 26 / 25 / 22	PASS 12/12
ChatGPT productivo	65	33.8%	29 / 29 / 22 / 20	PASS 12/12
IA aplicada (regen Opus)	735	< 50%	distribución equilibrada	PASS 12/12
Total	1.205	—		4/4 PASS

Ecodiseño moda avanzado

Preguntas: 230
Length bias: 49.6%
Letras: 28 / 24 / 24 / 24
Validador: PASS 12/12

Comunicación estratégica

Preguntas: 175
Length bias: 0%
Letras: 27 / 26 / 25 / 22
Validador: PASS 12/12

ChatGPT productivo

Preguntas: 65
Length bias: 33.8%
Letras: 29 / 29 / 22 / 20
Validador: PASS 12/12

IA aplicada (regen Opus)

Preguntas: 735
Length bias: < 50%
Letras: distribución equilibrada
Validador: PASS 12/12

Política operativa

Zero waiver. Si falla una dimensión, no se publica.

No hay autoridad de excepción. Ni el CEO, ni un cliente B2B, ni una universidad pueden saltarse el gate del validador. Si un curso falla alguna de las doce dimensiones, identificamos los nodos afectados, los regeneramos con el sub-agente especializado, y los volvemos a pasar por el validador. Sólo cuando pasa entra a producción.

Cada despliegue a producción ejecuta el validador en CI/CD. Si falla, el deploy se bloquea automáticamente. Lo que decimos aquí es lo que hace la máquina, no una promesa editorial.

Mantenimiento longitudinal

Cada cuatro meses repetimos la auditoría completa.

Pasar el validador una vez no garantiza calidad para siempre. La normativa cambia, el dominio evoluciona, los modelos generadores mejoran. Por eso cada curso vuelve a pasar la auditoría completa cada cuatro meses si tiene cincuenta o más alumnos activos, cada seis meses si tiene menos, cada doce meses si está archivado.

Triggers extraordinarios fuera de cadencia: cambio normativo público que afecte el dominio, lanzamiento de modelo o framework dominante, caída sostenida de Success Rate por nodo durante 30 días, o ticket de error de contenido reportado por un alumno.

Cuando una nueva auditoría detecta un sesgo que antes pasaba (porque hemos añadido una dimensión K o L del backlog), publicamos el hallazgo y el plan de remediación junto con la fecha de cierre. La transparencia radical no es un eslogan: es la manera de que un comprador serio pueda confiar en lo que firmamos.

Open source

El validador es de todos. La gobernanza es nuestra.

El código del validador se publica bajo licencia MIT. Cualquier equipo de EdTech, cualquier universidad, cualquier auditor externo puede ejecutarlo sobre nuestro contenido — o sobre el suyo propio. Lo que distingue a LearnIA no es el código: es el dataset auditado, el sub-agente generador entrenado con reglas anti-sesgo y el compromiso de zero waiver.

El hallazgo de las doce dimensiones es aportación nueva al paper IEEE LearnIA. La sección dedicada documenta la cuantificación, la causa raíz cognitiva y la mitigación operativa con datos de los cuatro cursos publicados.

Repo público y preprint disponibles tras cierre del piloto cohorte 1.

¿Tienes un banco de preguntas y quieres saber si pasa los doce filtros?

Auditamos contenido evaluativo de terceros bajo acuerdo. Útil para universidades que están migrando MOOCs heredados a microcredenciales verificables, y para empresas que han generado formación interna con LLM y necesitan saber qué tienen.

Hablemos de auditar tu banco →