De Boltzmann a ChatGPT — Explorador 3D Interactivo

1. El control de temperatura

τ = 0.7

τ = 0
Determinista
"Congelado" τ = 0.7
Equilibrado
"Templado" τ = 2.0
Aleatorio
"Caliente"

Gas frio: las particulas se concentran en el estado fundamental

Probabilidad de cada token → distribución softmax / Boltzmann

2. Paisaje de energía — Descenso de gradiente (3D)

El paisaje representa la función de pérdida de un modelo de machine learning. Cada punto (x, y) es una configuración de parámetros; la altura es la pérdida. Los valles son mínimos locales — buenas soluciones. La esfera blanca desciende por gradiente, como una partícula que rueda cuesta abajo en un sistema físico. Hacé doble clic en la superficie para lanzar la partícula. Arrastrá para rotar, scroll para zoom.

Pérdida: —

Paso: 0

Estado: —

Temperatura SGD: 0.00

🔵 Mínimo global · 🟠 Mínimos locales

doble click mantener presionado

🌡️ Temp SGD: 0.00

📐 Learning rate: 0.003

—

Pérdida actual

0

Pasos de descenso

—

Norma del gradiente

—

Dist. al mínimo global

3. Linaje intelectual

1877

Boltzmann

Distribución de Boltzmann
Mecánica estadística

1902

Gibbs

Ensemble canónico
Energía libre

1948

Shannon

Teoría de la información
Entropía cruzada

1982

Hopfield

Redes de Hopfield
Modelo de Ising → NN

2017

Transformers

Attention is All You Need
Softmax en cada capa

La misma fórmula matemática viajó de los átomos a los tokens durante 140 años.