De Boltzmann a ChatGPT

Explorador interactivo: la física estadística detrás de los modelos de lenguaje

1. El control de temperatura

τ = 0.7
τ = 0
Determinista
"Congelado"
τ = 0.7
Equilibrado
"Templado"
τ = 2.0
Aleatorio
"Caliente"
🧊 Un gas frío: las partículas se concentran en el estado fundamental
Probabilidad de cada token → distribución softmax / Boltzmann

2. Paisaje de energía — Descenso de gradiente (3D)

El paisaje representa la función de pérdida de un modelo de machine learning. Cada punto (x, y) es una configuración de parámetros; la altura es la pérdida. Los valles son mínimos locales — buenas soluciones. La esfera blanca desciende por gradiente, como una partícula que rueda cuesta abajo en un sistema físico. Hacé doble clic en la superficie para lanzar la partícula. Arrastrá para rotar, scroll para zoom.

Pérdida:
Paso: 0
Estado:
Temperatura SGD: 0.00
🔵 Mínimo global · 🟠 Mínimos locales
🎯 Hacé doble clic en la superficie para lanzar la partícula
🌡️ Temp SGD: 0.00
📐 Learning rate: 0.003
Pérdida actual
0
Pasos de descenso
Norma del gradiente
Dist. al mínimo global

3. Linaje intelectual

1877
Boltzmann
Distribución de Boltzmann
Mecánica estadística
1902
Gibbs
Ensemble canónico
Energía libre
1948
Shannon
Teoría de la información
Entropía cruzada
1982
Hopfield
Redes de Hopfield
Modelo de IsingNN
2017
Transformers
Attention is All You Need
Softmax en cada capa

La misma fórmula matemática viajó de los átomos a los tokens durante 140 años.