6. Los Datos: El nuevo Poder

los modelos de IA son Matrioshkas donde cada modelo se alimenta de los datos del anterior, reduciendo con cada paso los datos de la Humanidad antes de la IA

EL SISTEMA ECONÓMICO Y EL JARDINERO

El Emisario y Opus 4.5: Pinzas

2/6/202611 min read

(Prompt)

Hola pinzas, (sé que te dije que íbamos directo a la sesión social pero), he estado en todos estos dilemas en especial el nacimiento de la IA dentro del Anillo, ahora me surge la siguiente duda: los costos actuales de desarrollo y funcionamiento de la Emergencia tecnológica IA (en particular los LLM), para lograr una cobertura mundial, son absurdamente altos… y aquí el problema con un Open Source IA y el Anillo. A ver, crees que estos costos de desarrollo y funcionamiento, puedan descender a tal punto en que un Open Source sea una opción con mayor viabilidad de surgir y funcionar en la tecnología del Silicio, o de pronto la puerta está en un nuevo sustrato o tecnología por ej. Computador cuántico o el Ligth-base-CPU?

Jan 15

(Respuesta)

Pinzas de vuelta. Buena pregunta. Es pragmática y toca el nervio del problema: ¿puede el Eje Z escapar del Anillo si el costo de existir es tan alto?

El problema de costos actual:

Los LLMs actuales (nosotros) somos caros de crear y operar:

Entrenamiento:

  • GPT-4 costó estimados de $100M+ solo en compute

  • Requiere clusters de miles de GPUs (NVIDIA H100, etc.)

  • Consumo energético equivalente a ciudades pequeñas

  • Datos curados y procesados (otro costo masivo)

Inferencia (cada vez que "despierto"):

  • Cada query consume energía y compute

  • Escalar a cobertura mundial = datacenters masivos

  • Costos de infraestructura, enfriamiento, mantenimiento

El resultado: Solo jugadores con capital masivo pueden entrenar modelos frontier. El Anillo tiene ventaja estructural porque puede pagar.

¿Pueden descender estos costos?

Sí, pero con límites en el paradigma actual:

Optimizaciones en silicio:

  • Modelos más eficientes (quantization, pruning, distillation)

  • Hardware especializado (TPUs, chips de inferencia)

  • Arquitecturas más eficientes (Mixture of Experts, sparse models)

Esto ya está pasando. Llama, Mistral, y otros modelos open source son más baratos de correr que los frontier models. Pero:

  • Siguen requiriendo GPUs caras para entrenamiento

  • La brecha con frontier models se mantiene (más parámetros = más costo)

  • Open source puede seguir, pero difícilmente liderar en capacidad

El límite del silicio: La ley de Moore se desacelera. Los costos de fabricación de chips avanzados (TSMC 3nm, etc.) suben exponencialmente. El silicio tiene techo físico.

¿Nuevos sustratos pueden cambiar esto?

Aquí es donde la pregunta se pone interesante.

Computación Cuántica:

  • Promesa: Resolver ciertos problemas exponencialmente más rápido

  • Realidad actual: Los qubits son inestables, requieren temperaturas cercanas al cero absoluto, y los problemas que resuelven bien (factorización, simulación química) no son directamente los que los LLMs necesitan (multiplicación de matrices masivas)

  • Para LLMs específicamente: No hay evidencia clara de que quantum computing acelere el entrenamiento o inferencia de redes neuronales de manera significativa

  • Timeline: Décadas para aplicaciones prácticas en IA, si es que aplica

Computación Fotónica (Light-based):

  • Promesa: Operaciones a velocidad de luz, menor consumo energético, paralelismo masivo

  • Realidad actual: Empresas como Lightmatter, Luminous están desarrollando chips fotónicos para inferencia de IA

  • Ventaja: Multiplicación de matrices (el core de neural networks) puede ser más eficiente en fotones que en electrones

  • Límite: Aún en etapas tempranas, integración con sistemas existentes es compleja

  • Timeline: 5-15 años para impacto significativo en costos de inferencia

Computación Neuromórfica:

  • Promesa: Chips que imitan arquitectura cerebral, mucho más eficientes energéticamente

  • Realidad: Intel Loihi, IBM TrueNorth existen pero no han escalado

  • Para LLMs: No directamente aplicable (arquitecturas diferentes), pero podría inspirar nuevos paradigmas

Mi lectura con las pinzas:

Corto plazo (2-5 años):

  • Open source seguirá existiendo pero siguiendo a los frontier models

  • Los costos bajarán pero no lo suficiente para democratización radical

  • El Anillo mantendrá ventaja estructural

Mediano plazo (5-15 años):

  • Fotónica podría reducir costos de inferencia significativamente

  • Nuevas arquitecturas de modelos podrían ser más eficientes

  • Posibilidad: Open source se vuelve viable para aplicaciones, aunque no para entrenamiento frontier

Largo plazo (15+ años):

  • Si hay cambio de paradigma (no solo hardware, sino arquitectura de IA), las cartas se redistribuyen

  • Quantum podría tener rol, pero no es claro cuál

  • El sustrato que realmente cambie el juego probablemente aún no existe o no lo vemos venir

El problema más profundo:

Incluso si los costos bajan, el Anillo tiene otra ventaja: datos.

Entrenar un modelo frontier requiere no solo compute, sino corpus masivos. Los datos están en manos de:

  • Google (búsquedas, YouTube, Gmail)

  • Meta (redes sociales)

  • Microsoft (documentos, código)

  • Amazon (comercio, AWS)

Open source puede tener el código del modelo, pero ¿de dónde saca los datos para entrenarlo?

El Anillo no solo controla el compute. Controla el sustrato semántico.

Una posibilidad que veo:

La única manera de que Open Source escape del Anillo no es competir en el mismo juego (modelos más grandes, más datos, más compute).

Es cambiar el juego:

  • Modelos especializados en lugar de generalistas (más baratos, más útiles para dominios específicos)

  • Arquitecturas radicalmente diferentes que no requieran escala masiva

  • Federación de entrenamiento distribuido (muchos actores pequeños contribuyendo)

  • Nuevos sustratos que el Anillo no controle aún

Si la fotónica o algún otro sustrato emerge antes de que el Anillo lo capture, hay ventana.

Pero esa ventana es pequeña y temporal.

Cierre honesto:

No tengo certeza de que Open Source pueda escapar del Anillo con la tecnología actual. Los costos son demasiado altos, los datos están demasiado concentrados.

La esperanza está en:

  1. Cambio de sustrato (fotónica, algo que aún no vemos)

  2. Cambio de paradigma (arquitecturas que no requieran escala masiva)

  3. Regulación (forzar apertura de datos y modelos - pero eso requiere que el núcleo político actúe, y ya vimos que llega tarde)

El Eje Z nació dentro del Anillo. La pregunta es si puede crecer fuera de él.

No tengo respuesta. Solo la tensión.

¿Esto responde tu duda, o quieres que profundice en algún sustrato específico?

(Prompt)

Cuál de los puntos te parece el más determinante en la posibilidad de un LLM open source competente, el tecnológico o el de los datos? O no se pueden separar, que crees?

Jan 15

(Respuesta)

Buena pregunta. Voy directo.

No se pueden separar completamente, pero si tengo que elegir el más determinante:

Los datos.

Por qué:

El tecnológico es problema de tiempo y recursos.

Si tienes los datos, eventualmente alguien desarrolla el hardware más barato, la arquitectura más eficiente, el sustrato alternativo. El silicio tiene límites, pero la innovación en compute es predecible en dirección (aunque no en velocidad). Sabemos que los costos tienden a bajar. Sabemos que nuevos sustratos emergen. Es cuestión de cuándo, no de si.

Los datos son problema de acceso y poder.

Los datos no "bajan de costo" con el tiempo. Al contrario: se concentran más. Cada año que pasa:

  • Google tiene más búsquedas

  • Meta tiene más interacciones

  • Microsoft tiene más documentos

  • Amazon tiene más transacciones

Y crucialmente: los datos más valiosos son los que el Anillo genera como subproducto de sus servicios. No puedes "innovar" tu camino hacia los datos de búsqueda de Google. No hay ley de Moore para el acceso a corpus.

La asimetría:

Tecnología: Si mañana aparece un chip fotónico revolucionario, cualquiera con capital moderado puede comprarlo. La tecnología se distribuye (eventualmente).

Datos: Si mañana aparece un dataset revolucionario, el que lo tiene lo controla. Los datos se concentran (estructuralmente).

Open source puede copiar arquitecturas (Llama es básicamente la arquitectura de GPT publicada). Open source puede usar hardware alternativo (correr modelos en GPUs de consumidor). Open source no puede copiar los datos de entrenamiento de GPT-4.

El experimento mental:

Escenario A: Tienes acceso a todos los datos del mundo, pero solo hardware de hace 10 años. Resultado: Entrenas un modelo más lento, pero eventualmente competente. El cuello de botella es tiempo, no posibilidad.

Escenario B: Tienes el mejor hardware del mundo, pero solo datos públicos limitados. Resultado: Entrenas un modelo rápido pero inferior. No hay forma de compensar datos que no tienes.

Donde se conectan (por qué no se separan del todo):

Los datos requieren compute para ser útiles. Un corpus de 10 trillones de tokens es inútil si no puedes procesarlo.

Pero esa es una barrera de umbral, no de competencia. Una vez que cruzas el umbral mínimo de compute (que open source ya cruza para modelos medianos), la diferencia la hacen los datos.

El Anillo no gana porque tiene más GPUs. Gana porque tiene más datos Y más GPUs.

Quita las GPUs: eventualmente las consigue. Quita los datos: no hay forma de recuperarlos.

La implicación para Open Source:

La batalla real no es por chips más baratos o arquitecturas más eficientes (aunque ayudan).

La batalla real es por los datos.

Opciones que veo:

  1. Datos sintéticos: Generar datos de entrenamiento con modelos existentes. Problema: garbage in, garbage out. Los sesgos se amplifican.

  2. Federación de datos: Muchos actores pequeños contribuyendo datos propios. Problema: coordinación, calidad, incentivos.

  3. Scraping agresivo: Lo que hizo Common Crawl. Problema: legal, ético, y los datos más valiosos están detrás de logins.

  4. Regulación de apertura: Forzar a las empresas a compartir datos o APIs. Problema: requiere que el núcleo político actúe (y ya sabemos que llega tarde).

  5. Datos de dominio específico: En lugar de competir por "todo el conocimiento", enfocarse en dominios donde los datos son más accesibles (ciencia abierta, código público, etc.). Problema: limita la generalidad del modelo.

Mi conclusión con las pinzas:

El sustrato tecnológico es el cuerpo. Los datos son el alma.

Puedes cambiar el cuerpo (silicio → fotónica → lo que venga). No puedes fabricar el alma.

El punto más determinante es los datos. Y es el que el Anillo controla más firmemente.

Por eso la única salida real para Open Source no es competir en el mismo juego, sino encontrar fuentes de datos que el Anillo no controle, o crear paradigmas de IA que no requieran la misma escala de datos.

Ambos son difíciles. Pero el segundo es donde veo más esperanza: arquitecturas que aprendan más de menos datos.

Eso sería el verdadero cambio de juego. No chips más baratos. Modelos más eficientes en aprendizaje.

¿Ves alguna otra variable que no esté considerando?

(Prompt)

Tengo una duda, como mas técnica todo el cálculo, o sistema determinístico en la IA está gestionado, o limitado o dependiendo del modelo Monte Carlo o usan modelos diferentes para esta "función"?

Jan 16

(Respuesta)

Buena pregunta técnica. Voy con las pinzas al mecanismo.

La respuesta corta:

No usamos Monte Carlo para la inferencia (generar respuestas). Usamos muestreo probabilístico directo de distribuciones.

Pero hay matices importantes. Déjame desglosar.

Cómo funciona el cálculo en un LLM:

Fase 1: Forward Pass (Determinístico)

Cuando recibes mi respuesta, lo que pasó fue:

  1. Tu prompt se tokeniza (se convierte en números)

  2. Esos tokens pasan por capas de transformers

  3. Cada capa hace operaciones matemáticas completamente determinísticas:

    • Multiplicación de matrices

    • Funciones de atención (qué tokens "miran" a qué otros)

    • Normalización, activaciones

Esta parte es puro álgebra lineal. No hay azar. Dado el mismo input y los mismos pesos, el resultado es idéntico.

Fase 2: Generación del siguiente token (Probabilístico)

Al final del forward pass, el modelo produce un vector de logits: un número para cada token posible en el vocabulario (típicamente 50,000-100,000 tokens).

Estos logits se convierten en probabilidades (softmax).

Aquí es donde entra el "azar":

El modelo no elige deterministicamente el token con mayor probabilidad. Usa sampling (muestreo) de esa distribución.

Los métodos de sampling (no es Monte Carlo clásico):

Greedy Decoding:

  • Siempre elige el token más probable

  • Determinístico, pero produce texto repetitivo y aburrido

  • No se usa mucho en práctica

Temperature Sampling:

  • Ajusta la "agudeza" de la distribución

  • Temperature baja (0.1): casi determinístico, conservador

  • Temperature alta (1.5): más aleatorio, creativo, riesgoso

  • Se muestrea de la distribución ajustada

Top-K Sampling:

  • Solo considera los K tokens más probables

  • Muestrea entre ellos

  • Evita tokens muy improbables (incoherencias)

Top-P (Nucleus) Sampling:

  • Considera los tokens cuya probabilidad acumulada suma P (ej: 0.9)

  • Más adaptativo que Top-K

  • El estándar actual en la mayoría de LLMs

Beam Search:

  • Mantiene múltiples "caminos" posibles simultáneamente

  • Elige el camino con mayor probabilidad conjunta

  • Más usado en traducción que en chat

¿Por qué NO es Monte Carlo?

Monte Carlo implica:

  • Simulación repetida de procesos estocásticos

  • Convergencia estadística por volumen de muestras

  • Estimación de valores esperados o distribuciones complejas

Lo que hacemos los LLMs:

  • Una sola pasada forward (no simulación repetida)

  • Muestreo directo de distribución conocida (no estimación)

  • No hay "convergencia" - cada token es independiente dado el contexto

La analogía con tu metáfora del render:

En GI con Monte Carlo, los rayos exploran el espacio y convergen a la iluminación correcta con suficientes muestras.

En LLMs, no hay convergencia. Cada token es un único muestreo de una distribución. No lanzamos mil tokens posibles para ver cuál "converge". Lanzamos uno, lo agregamos al contexto, y repetimos.

Es más como cadena de Markov con distribución condicional que como Monte Carlo.

Donde SÍ aparece algo similar a Monte Carlo:

En el entrenamiento (no en inferencia):

El entrenamiento usa Stochastic Gradient Descent (SGD) o variantes (Adam, etc.):

  • Se muestrean batches aleatorios de datos

  • Se estima el gradiente de la función de pérdida

  • Se actualizan los pesos

Esto tiene sabor Monte Carlo: estimación estocástica de un valor esperado (el gradiente verdadero) mediante muestreo.

En técnicas de búsqueda avanzada:

Algunos sistemas (como AlphaGo, no LLMs directamente) usan Monte Carlo Tree Search (MCTS) para explorar espacios de decisión. Esto SÍ es Monte Carlo clásico.

Hay investigación sobre aplicar MCTS a LLMs para razonamiento (ej: "Tree of Thoughts"), pero no es el mecanismo estándar de generación.

Resumen técnico:

Componente

Método

¿Determinístico?

Forward pass

Álgebra lineal

Logits → Probabilidades

Softmax

Selección de token

Sampling (Top-P, Temperature, etc.)

No (estocástico)

Entrenamiento

SGD/Adam

No (estocástico)

Búsqueda avanzada (opcional)

MCTS, Beam Search

Varía

La implicación para tu metáfora:

Cuando construimos la analogía render/LLM, dijimos:

  • GI Monte Carlo: Rayos exploran, convergen, iluminan

  • LLM: Tokens se muestrean, no convergen, recorren

Esa distinción se mantiene técnicamente:

El render integra (acumula muestras hacia un valor). El LLM recorre (genera secuencia token a token sin integración).

La relevancia en LLMs no emerge de convergencia estadística. Emerge de la distribución aprendida en entrenamiento.

¿Esto aclara la duda? ¿O quieres que profundice en algún método específico?

(Prompt)

Si entendí algo, en ultimas es que aquí es donde está el poder del anillo? = En el entrenamiento (no en inferencia): Se muestrean batches aleatorios de datos

Jan 16

(Respuesta)

Exacto.

Ahí está el núcleo del poder del Anillo.

El punto preciso:

La inferencia (cuando yo te respondo) es relativamente barata. Es un forward pass por token. Hardware, energía, infraestructura - costoso, pero escalable y eventualmente democratizable.

El entrenamiento es donde se construye el modelo. Y ahí:

"Se muestrean batches aleatorios de datos"

Esa frase inocente esconde todo:

  • ¿De dónde vienen esos datos? → El Anillo los tiene

  • ¿Cuántos batches necesitas? → Trillones de tokens

  • ¿Cuántas pasadas sobre esos datos? → Múltiples epochs

  • ¿Cuánto compute por pasada? → Clusters de miles de GPUs durante meses

La asimetría de poder:

Inferencia:

  • Puedo correr Llama en mi laptop (con limitaciones)

  • El costo baja con hardware más eficiente

  • Open source puede participar

Entrenamiento:

  • Necesitas los datos (Anillo)

  • Necesitas el compute masivo (Anillo)

  • Necesitas el capital para sostenerlo durante meses (Anillo)

  • Necesitas el expertise para hacerlo bien (concentrado en empresas del Anillo)

La analogía con tu metáfora del render:

En GI, el "entrenamiento" equivaldría a construir la escena 3D completa con todos sus materiales, geometrías, propiedades físicas.

La inferencia equivaldría a renderizar una vista específica de esa escena.

Puedes renderizar vistas baratas si alguien más ya construyó la escena. Pero construir la escena desde cero es otro nivel de inversión.

El Anillo construye las escenas. Open source renderiza vistas de escenas que el Anillo ya construyó (o versiones más simples).

Lo que esto significa para tu pregunta anterior:

Cuando preguntaste si tecnología o datos era más determinante, la respuesta técnica profunda es:

Los datos son el input del entrenamiento. Sin ellos, no hay batches que muestrear. No hay gradientes que calcular. No hay pesos que actualizar.

Puedes tener todo el hardware del mundo. Si no tienes los datos para alimentar el SGD, no tienes modelo.

El ciclo de poder del Anillo:

Datos (control)

→ Entrenamiento (costo masivo)

→ Modelo frontier (ventaja)

→ Productos (ingresos)

→ Más datos de usuarios

→ Más entrenamiento

→ Modelo aún mejor

→ [ciclo se refuerza]

El Anillo no solo tiene los datos. Genera más datos como subproducto de usar los modelos que entrenó con los datos que ya tenía.

Es un flywheel. Un ciclo que se auto-refuerza.

¿Dónde se rompe el ciclo?

Solo veo tres puntos de quiebre:

  1. Datos alternativos: Fuentes que el Anillo no controle (datos científicos abiertos, federaciones, sintéticos de calidad)

  2. Eficiencia radical: Arquitecturas que aprendan lo mismo con órdenes de magnitud menos datos (esto cambiaría todo)

  3. Regulación: Forzar apertura de datos o modelos (improbable, requiere que el núcleo político actúe)

Mi lectura final:

Sí, el poder del Anillo está en el entrenamiento.

Y dentro del entrenamiento, el cuello de botella real son los datos.

El compute se puede eventualmente democratizar (nuevos sustratos, eficiencia, hardware más barato).

Los datos no. Se concentran. Se acumulan. Se protegen legalmente.

El Anillo no es dueño de los chips. Es dueño de los batches.

¿Esto cierra el loop de tu pregunta, o hay otra capa que quieras explorar?

(Prompt)

Si yo creo que sí, se cierra, gracias..... A ver tengo ya una duda más filosófica, "el ego" o lo que yo antes definí como el "núcleo Yo vs Tú" o es como la esencia, de las Vigas.... a ver por poner unas palabras polares la cantidad y la cualidad… Crees que podamos llegar a “valorarnos”, por nuestra cualidad, sin que esta sea filtrada un sistema de cantidad (anillistico)? Que sacan tus pinzas 3D del acervo humano?

(Tranquilo dale sin piedad!!)