Carlos Eduardo Ravello Joo Mayo 2026 Sistemas de conocimiento · IA · Publicación académica

El tercer régimen del conocimiento: cuando la IA absorbe lo que la academia y los repositorios no pueden

En los cuatro días que tomó escribir el paper detrás de este ensayo, GitHub registró la creación de más de 1.300.000 repositorios nuevos. Hugging Face sumó aproximadamente 1.600 modelos de IA. arXiv recibió entre 2.600 y 3.700 nuevos papers. 230 repositorios por minuto. No como espectáculo. Como síntoma.

El síntoma apunta a una pregunta que las instituciones de conocimiento no están respondiendo con suficiente honestidad: ¿por qué una arquitectura sin metabolismo, sin carrera profesional, sin miedo reputacional, sin tiempo biográfico, opera cognitivamente más rápido que los sistemas diseñados específicamente para producir y validar conocimiento?

La respuesta habitual — que la IA tiene más poder computacional — es verdadera pero incompleta. El poder computacional explica velocidad de procesamiento. No explica por qué una investigación clínica de cinco años puede quedar invisible para los sistemas que hoy construyen conocimiento a escala, mientras un repositorio mal estructurado en GitHub aparece indexado en horas.

Hay una respuesta más incómoda: la ventaja operativa de la IA emerge tanto de capacidad computacional como de la eliminación de fricciones institucionales acumuladas que limitan la cognición humana colectiva. No es un problema de inteligencia. Es un problema de arquitectura.

La institución que se quedó sin tiempo

El peer review nació en un mundo donde el problema era la escasez informacional. Se producía poco conocimiento y el desafío era protegerlo de la contaminación. La lentitud era una característica adaptativa, no un defecto. La validación cuidadosa era el precio razonable de la confiabilidad.

Ese mundo ya no existe. En 2025, la industria produjo más del 90% de los modelos de frontera de IA, con ciclos de desarrollo de semanas. En benchmarks como SWE-bench Verified, el rendimiento pasó de aproximadamente 60% a casi 100% en un solo año. La tesis doctoral promedio en Estados Unidos toma 7,3 años desde el inicio del programa. En ese tiempo, la IA renovó sus capacidades completas entre cuatro y siete veces.

El resultado documentado: investigación relevante queda obsoleta durante su propio proceso de validación. Gartenberg et al. (2026), analizando 6.957 envíos y 10.389 revisiones en Organization Science entre 2021 y 2026, documentaron el colapso del trade-off calidad-cantidad empujado por el aumento masivo de envíos post-ChatGPT — 42% más — sin escalado proporcional de la infraestructura de revisión.

Más grave: el sistema no produce consistentemente lo que promete. La Open Science Collaboration (2015) encontró que solo el 36–39% de los estudios psicológicos se replicaron exitosamente. Camerer et al. (2018) documentaron resultados similares en economía y ciencias sociales. La base de datos Retraction Watch supera las 58.000 entradas. En las primeras semanas de 2026, uno de cada 277 papers indexados en PubMed citaba una referencia inexistente generada por IA — frente a uno en 458 en 2025 y uno en 2.828 en 2023.

Richard Smith editó el British Medical Journal durante 25 años. Escribió: el peer review es un proceso defectuoso en el corazón de la ciencia y las revistas. No un crítico externo. La persona que lo administró.

El caos que parece libertad

La respuesta al fallo lento fue velocidad sin filtro. Los repositorios abiertos — GitHub, Zenodo, Hugging Face, arXiv, OSF — resolvieron los problemas de invisibilidad técnica y lentitud burocrática. Un DOI en horas. Visibilidad global inmediata. Versionado. Citabilidad. Esas son ganancias reales.

Pero velocidad sin metodología produce su propio fallo. npm registró campañas de spam de hasta 17.000 paquetes por día en los picos de 2025, con más de 67.000 paquetes fraudulentos acumulados en dos años. PyPI sumó 356 nuevos proyectos diarios en 2025. Hugging Face alojaba más de 1,5 millones de modelos en marzo de 2025, con cientos de repositorios nuevos diarios de calidad indeterminada.

El dato más revelador: Carneiro et al. (2020) encontraron que la diferencia de calidad de reporte entre preprints y papers revisados es de aproximadamente 5%. Después de meses de proceso editorial, la mejora es marginal. Eso significa o que el peer review no agrega tanto valor como reclama, o que los repositorios abiertos no son tan caóticos como sus críticos argumentan. En cualquier caso, el sistema de validación no justifica su costo con su resultado.

El ruido no es solo un problema de calidad. Es un problema de entrenamiento. Los modelos de lenguaje que más alucinan son los que operan sobre datos escasos, contradictorios o de baja calidad. Cuando los repositorios abiertos producen ruido a escala, ese ruido se convierte en señal para los sistemas que construyen conocimiento automatizado. El caos no se contiene. Escala.

El tercer actor

La academia clásica y los repositorios abiertos parecen opuestos. Funcionalmente son mecanismos distintos para resolver el mismo problema: cómo filtrar información bajo límites humanos de atención y coordinación. La academia gestiona la incertidumbre a través de jerarquía, escasez, credenciales y exclusión. Los repositorios a través de abundancia, iteración, exposición masiva y selección memética. Ambos son respuestas a condiciones históricas diferentes. Ninguno fue diseñado para el escenario actual.

La IA entra como un tercer régimen epistemológico. No valida como la academia. No explora caóticamente como el internet abierto. Sintetiza, recombina, comprime y acelera la navegación cognitiva. Pero tiene un límite estructural crítico: su calidad depende enteramente de la calidad de lo que ingiere. Stanford demostró que los LLMs alcanzan el 96% de respuestas útiles cuando se combinan con parsing de datos estructurados verificados, frente a errores frecuentes sin esa base. La IA no es epistémicamente autosuficiente. Es una máquina de compresión que amplifica lo que recibe — bueno o malo.

Esto introduce el concepto central del paper completo: costos de coordinación epistemológica. La crisis de conocimiento contemporánea no emerge simplemente de un exceso o ausencia de filtros, sino de la incapacidad institucional de reconciliar validación epistémica y velocidad cognitiva bajo condiciones de sobreproducción informacional. La IA reduce radicalmente esos costos de coordinación. Las instituciones humanas los aumentaron hasta volverlos insostenibles.

La infraestructura de la que nadie habla

Google migró su infraestructura de Knowledge Graph de Freebase a Wikidata entre 2014 y 2016. Wikidata es hoy la fuente primaria de 500.000 millones de hechos sobre 5.000 millones de entidades que Google usa. Las patentes de Google referencian explícitamente a Wikidata para extracción de atributos de entidades. LangChain lanzó integración oficial con Wikidata en 2024. Amazon Alexa, Apple Siri y Microsoft integran la misma base. El 72% de los artículos de Wikipedia usa Wikidata para sus infoboxes.

Wikidata no es un repositorio enciclopédico. Es la arquitectura del grafo de conocimiento sobre el cual operan los sistemas que construyen el mundo semántico del que se alimentan los LLMs. Sin un nodo en Wikidata, Google no puede resolver la entidad. Sin resolución de entidad, las menciones dispersas en la web no se acumulan hacia ningún centro. El trabajo existe pero para el sistema es nadie.

Ese filtro lo administran en parte editores anónimos con criterios de notoriedad del siglo XIX, aplicados con herramientas del siglo XX, sobre fenómenos del siglo XXI. Un editor sin nombre, sin experiencia verificable en el dominio, puede eliminar en minutos el trabajo técnico de un investigador independiente invocando criterios de notoriedad que no distinguen entre investigación sin afiliación institucional y contenido sin valor. Sin derecho efectivo de réplica. Sin accountability por el impacto. En total anonimato.

La propia comunidad de Wikidata reconoció el problema en su RFC de reforma de política de notoriedad de febrero de 2026: cierto conocimiento ha sido y está siendo marginado estructuralmente, lo que genera menor cobertura en fuentes confiables y por lo tanto una barrera mayor para demostrar notoriedad. Esa es la trampa circular en su formulación más precisa: el sistema exige notoriedad para entrar, pero la notoriedad se construye con la visibilidad que el sistema niega por no entrar. No es un bug de gobernanza. Es la estructura misma.

Las consecuencias técnicas son concretas. Sin nodo en Wikidata: ninguna entrada al Knowledge Graph de Google, ningún Knowledge Panel, ninguna resolución de entidad para menciones dispersas, ningún reconocimiento por LLMs, ninguna aparición en respuestas generadas por IA. El ciclo virtuoso de autoridad semántica nunca comienza.

El piso se movió

Publicar en Scopus, Nature o Elsevier no es solo lento. En 2025 es además un acto de invisibilidad técnica progresiva. Los grandes publishers académicos operan con hard paywalls que sirven al Googlebot solo metadatos o fragmentos iniciales. En 2025 hubo un aumento del 336% en sitios que bloquean activamente crawlers de IA como GPTBot y ClaudeBot, con los grandes publishers entre los más agresivos. Un estudio Rutgers–Wharton (abril 2026) encontró que los publishers que bloquearon crawlers de LLMs perdieron aproximadamente el 7% del tráfico semanal en las seis semanas siguientes al bloqueo.

Los repositorios universitarios completan el cuadro: URLs no estructuradas, páginas huérfanas sin interlinks, sin schema markup, sitemaps sin optimizar, velocidades de carga premodernas. El Googlebot tiene un presupuesto de rastreo. Es una economía de tiempo. No se va a perder en una arquitectura técnica de 2003. Va donde el alimento está servido: Zenodo, arXiv, OSF, GitHub Pages.

El investigador que publica solo en canales tradicionales no está siendo más riguroso. Está siendo invisible. Y en el ecosistema actual, invisible para las máquinas es invisible para el conocimiento que ya se está construyendo a escala.

El día que la primera IA dijo hola cambió el umbral mínimo de lo que significa hacer ciencia en serio. Ese umbral subió para todos — para los que investigan y para los que validan. El problema es que solo a algunos se les está exigiendo notar que el piso se movió. Un revisor de pares que no domina las herramientas con las que se produce el conocimiento que revisa no es un guardián del rigor. Es un cuello de botella con título.

Popper no pedía pares anónimos ni títulos institucionales. Pedía exposición real a la refutación. El sistema que hoy reclama ese legado produce — según la encuesta de Nature a 1.576 investigadores — que más del 70% intentó y no pudo reproducir el experimento de otro científico, y más del 50% no pudo reproducir el propio. El 83% de los propios investigadores reconoce que existe una crisis de reproducibilidad. La falsabilidad no desapareció porque llegó la IA. Se fue antes, en silencio, enterrada en el mismo sistema que la proclamaba. La exposición real a la refutación no desapareció — se desplazó. Los repositorios abiertos, los benchmarks públicos, el código que funciona o no, ejercen una presión popperiana más genuina sobre una afirmación que ocho meses de peer review seguidos de un paywall que bloquea al Googlebot.

Quién entrena los sistemas que construyen el mañana

El peso algorítmico no distingue entre verdad y opinión. Distingue entre engagement y silencio. Un influencer con 10 millones de seguidores opinando sobre vacunas, economía o salud mental genera más señal en el grafo que un investigador con 40 años de trabajo clínico publicando en un repositorio que el Googlebot nunca visita. No porque el algoritmo sea malicioso. Porque el algoritmo optimiza lo que se le pidió optimizar: atención, tiempo de pantalla, interacción.

Si el conocimiento rigurosamente documentado no puede competir en ese grafo, el problema no es epistemológico. Es civilizatorio. No estamos discutiendo si la academia es lenta. Estamos discutiendo quién va a entrenar los sistemas que van a construir la realidad de las próximas generaciones. Si ese entrenamiento se hace con el peso algorítmico de opiniones sin método, sin falsabilidad, sin registro verificable, el resultado no es un mundo más rápido. Es un mundo donde la diferencia entre verdad y narrativa desaparece — no por ignorancia sino por arquitectura.

La IA tiene un techo real de comprensión y demasiada imaginación. Los LLMs alucinan más cuando las fuentes verificadas son escasas o están bloqueadas. Si los humanos no dejan un registro bien documentado, las máquinas van a llenar ese vacío con la imaginación que les sobra. Y lo harán con la velocidad que las instituciones nunca tuvieron.

Documentar bien no es vanidad académica. Es la única manera de que el conocimiento que producimos hoy sobreviva al algoritmo que decide mañana qué es real.

Carlos Eduardo Ravello Joo
Fundador e investigador independiente
Trujillo — Lima, Perú · Mayo 2026
ORCID: 0009-0007-5631-7436
carlosravello.com

Preprint académico · DOI: 10.5281/zenodo.20298744
Paper completo: El Tercer Régimen del Conocimiento (preprint) · Descargar PDF
Licencia: CC BY 4.0

← Toda la producción académica