12:["$","$L1c",null,{"formats":"$undefined","locale":"es","messages":{"common":{"language":"Idioma","loading":"Cargando...","error":"Error","comingSoon":"Próximamente","backToProjects":"Volver a Proyectos","toggleLanguage":"Cambiar idioma","toggleTheme":"Cambiar tema","code":"Código","liveDemo":"Demo en Vivo","viewCaseStudy":"Ver Caso de Estudio","siteDescription":"Web personal y laboratorio de investigación de Adrián Laynez — ensayos interactivos sobre cómo funcionan los modelos de lenguaje, proyectos y notas.","notFoundTitle":"Página no encontrada","notFoundBody":"La página que buscas no existe o puede que se haya movido.","notFoundCta":"Volver al inicio"},"nav":{"home":"Inicio","projects":"Proyectos","lab":"Laboratorio","notes":"Notas"},"footer":{"builtBy":"Construido por","sourceAvailable":"El código fuente está disponible en"},"datasetExplorer":{"title":"Evidencia del Corpus","subtitle":"¿Por qué el modelo aprendió '{context}' -> '{next}'?","scanning":"Escaneando corpus de entrenamiento...","occurrencesFound":"Ocurrencias Encontradas","source":"Fuente","contextSnippets":"Fragmentos de Contexto","noExamples":"No se encontraron ejemplos para esta transición.","fetchError":"No se pudieron obtener ejemplos del dataset","explorerTitle":"Explorador del Corpus","searching":"Buscando en el Dataset...","querySequence":"Secuencia Consultada","found":"Se encontraron {count} ocurrencias","exampleContexts":"Contextos de Ejemplo","noExamplesValidation":"No se encontraron ejemplos en el fragmento de validación."},"home":{"role":"Matemático & Desarrollador","tagline":"Explorando la intersección del análisis matemático, el código y la inteligencia artificial.","ctaProjects":"Ver Proyectos","aboutLink":"About","nav":{"latentSpace":"My Latent Space","projects":"Proyectos","lab":"LM Lab","about":"About","contact":"Contacto"},"about":{"back":"Volver","p1":"Curso el doble grado en Matemáticas e Ingeniería Informática en la Universidad Complutense de Madrid. Investigo las redes neuronales desde su nivel más profundo: de la dinámica del gradiente a la optimización a bajo nivel.","p2":"Me especializo en interpretabilidad mecanística — aplicar ingeniería inversa a cómo las redes representan y procesan la información. En lugar de tratar los modelos como cajas negras, descompongo sus circuitos para entender por qué funcionan.","mission":"Mi misión: hacer transparentes los sistemas de IA mediante análisis matemático riguroso e ingeniería de bajo nivel."}},"landing":{"hero":{"status":"Sistema Online :: v2.2","role":"Investigación e Ingeniería","title":"ADRIAN LAYNEZ ORTIZ","tagline1":"Matemáticas e Informática.","tagline2":"Interpretabilidad Mecanística · Ingeniería de Alto Rendimiento.","cta":{"lab":"Ver Laboratorio","notes":"Leer Notas"}},"metrics":{"research":"Secciones de Investigación","visualizations":"Visualizaciones Interactivas","languages":"Idiomas","curiosity":"Curiosidad"},"about":{"badge":"Sobre Mí","building":"Desarrollando","projectTitle":"Motor de Deep Learning — CUDA / C++","projectDesc":"Kernels personalizados para operaciones matriciales y retropropagación","bio":{"titlePrefix":"Uniendo Matemáticas Abstractas","titleSuffix":"e Inteligencia Artificial","p1":"Estudio el Doble Grado en Matemáticas e Ingeniería Informática en la Universidad Complutense de Madrid. Mi investigación se centra en comprender las redes neuronales a su nivel más profundo — desde la dinámica de gradientes hasta la optimización a nivel de kernel.","p2":"Me especializo en Interpretabilidad Mecanística — la ciencia de realizar ingeniería inversa sobre cómo las redes neuronales representan y procesan la información internamente. En lugar de tratar los modelos como cajas negras, descompongo sus circuitos para entender por qué funcionan.","mission":"Mi misión: hacer los sistemas de IA transparentes a través de un análisis matemático riguroso e ingeniería de bajo nivel."}},"skills":{"title":"Competencias Técnicas","linearAlgebra":"Álgebra Lineal","topology":"Topología","convexOpt":"Optimización Convexa"},"work":{"badge":"Trabajo Seleccionado","titlePrefix":"Ingeniería desde","titleSuffix":"Primeros Principios","description":"Cada proyecto comienza con una pregunta. Desde reimplementar papers seminales hasta escribir kernels de GPU desde cero, cada uno es un ejercicio de comprensión profunda.","viewAll":"Ver Todos los Proyectos","items":{"nanoTransformer":{"title":"Nano-Transformer","desc":"Reproducción desde cero de 'Attention Is All You Need' en PyTorch — Multi-Head Attention, Positional Encodings y LayerNorm implementados sin módulos preconstruidos."},"cudaKernels":{"title":"Kernels Matriciales CUDA","desc":"Kernels de CUDA escritos a mano explorando la optimización SGEMM — desde implementaciones ingenuas hasta estrategias de memoria compartida en mosaico, comparadas con cuBLAS."},"autograd":{"title":"Motor Autograd","desc":"Librería ligera de diferenciación automática en modo inverso. Construye dinámicamente grafos de computación y propaga gradientes mediante la regla de la cadena."},"mathDl":{"title":"Matemáticas del Deep Learning","desc":"Artículos interactivos explorando la teoría rigurosa detrás de la IA moderna — análisis de convergencia SGD, el álgebra lineal de LoRA y geometría diferencial en variedades neuronales."},"distributed":{"title":"Inferencia Distribuida","desc":"Exploraciones arquitectónicas en entrenamiento paralelo de datos, fragmentación de modelos y tuberías de inferencia optimizadas para redes neuronales a gran escala."}}},"contact":{"badge":"Abierto a Oportunidades","titlePrefix":"Construyamos","titleMiddle":"Algo","titleSuffix":"Juntos","description":"Ya sea una colaboración de investigación, una oportunidad de pasantía o simplemente una conversación sobre las matemáticas de la inteligencia — me encantaría saber de ti.","email":"Contactar","github":"Perfil de GitHub","githubShort":"GitHub","linkedin":"LinkedIn"}},"projects":{"title":"Proyectos","eyebrow":"Trabajo seleccionado","subtitle":"Una colección de trabajo en la intersección de las matemáticas, el código y la inteligencia artificial.","moreWork":"Más trabajo","included":"Lo que incluye","summary":"Resumen","features":"Características","howItWorks":"Cómo funciona","example":"Ejemplo","spec":"Ficha técnica","related":"Otros proyectos","viewDemo":"Ver demo","viewProject":"Ver proyecto","viewDetails":"Ver detalles","viewPage":"Ver página","code":"Código","read":"Leer","backHome":"Inicio","backToProjects":"Proyectos","projectLabel":"Proyecto","nav":{"latent":"My Latent Space","projects":"Proyectos","lab":"LM Lab","about":"About"},"contact":{"eyebrow":"Hablemos","title":"Contact me","text":"Abierto a colaboraciones de investigación, prácticas o una conversación sobre las matemáticas de la inteligencia.","emailLabel":"Email","github":"GitHub","linkedin":"LinkedIn","cv":"CV"}},"latentSpace":{"eyebrow":"BIENVENIDO A","title":"MI ESPACIO LATENTE","intro":"notas, ideas, pensamiento inacabado.","introEssays":"Escritos de opinión, largos y con una agenda.","toggle":{"mind":"Mente","essays":"Ensayos","hint":"PRESIONA ESPACIO O ← → PARA CAMBIAR","label":"Modo de vista"}},"notes":{"hero":{"est":"EST. 2024","archive":"ARCHIVO DE INVESTIGACIÓN","titlePrefix":"El Cuaderno de","titleSuffix":"Ingeniería","description":"Exploraciones en inteligencia distribuida, topología de alta dimensión y la mecánica del software moderno."},"featured":{"badge":"ÚLTIMA INVESTIGACIÓN","readTime":"{minutes} min de lectura","figure":"Figura 1.0: Visualización del Espacio Latente"},"grid":{"title":"Entradas Anteriores"},"backToNotes":"Volver a Notas","noteNotFound":"Nota no encontrada"},"lab":{"bigram":"Bigrama","ngram":"N-Gram","mlp":"MLP","transformer":"Transformer","neuralNetworks":"Redes Neuronales","playground":{"inputs":{"x1Label":"x₁ (entrada 1)","x2Label":"x₂ (entrada 2)","scaleHint":"(en escala 0–1)","xLabel":"Entrada x","wLabel":"Peso w","bLabel":"Sesgo b","targetLabel":"Objetivo"}},"shell":{"allModels":"Volver al Lab","chapter":"Capítulo","chapterMenu":"Elegir capítulo","profile":"Tu perfil","toggleTheme":"Cambiar tema"},"active":"Lab. Activo","waking":"Despertando","serverWarning":{"title":"ARRANQUE EN FRÍO DETECTADO","subtitle":"PROTOCOLO DE CONTENCIÓN ACTIVO","message":"El servidor está despertando de su hibernación. Las instancias gratuitas de Render se apagan tras inactividad — sí, lo hosteo en un servidor gratis porque soy un estudiante sin un duro.","donate":"Si la espera de 30s te resulta insoportable, invítame a un café para que pueda pagar un servidor de verdad. O simplemente espera, es entretenimiento gratis.","status":"INTENTANDO CONEXIÓN","dismiss":"SOBREVIVIRÉ","connected":"SEÑAL ADQUIRIDA"},"mode":{"educational":"Educativo","educationalDescription":"Experiencia guiada con explicaciones narrativas y progresivas.","freeLab":"Lab Libre","freeLabDescription":"Acceso completo a herramientas y visualizaciones para experimentación manual y análisis.","selectViewingMode":"Selecciona el Modo de Visualización","availableModels":"Modelos Disponibles"},"status":{"ready":"Listo","coming":"Próximo"},"models":{"bigram":{"name":"Bigrama","subtitle":"La idea más simple jamás concebida para predecir texto","description":"¿Puedes predecir texto solo contando pares de letras? Pruébalo tú mismo — construye el modelo, testéalo, y descubre por qué recordar solo una letra es sorprendentemente potente y fatalmente limitado.","era":"La Era del Conteo","years":"1948–1990s","eraQuestion":"¿Y si simplemente contamos patrones?"},"ngram":{"name":"N-Gram","subtitle":"Más memoria, más problemas","description":"¿Qué pasa cuando le das más memoria al modelo? Las predicciones mejoran — pero algo se rompe. ¿Qué tan grande puede ser la tabla antes de que sea imposible llenarla?","era":"La Era del Conteo","years":"1948–1990s","eraQuestion":"¿Y si simplemente contamos patrones?"},"neuralNetworks":{"name":"Redes Neuronales","subtitle":"Del conteo al aprendizaje","description":"El conteo chocó contra un muro. ¿Y si la máquina pudiera descubrir patrones por sí misma — sin que nadie le diga qué buscar? Conoce los bloques básicos que lo cambiaron todo.","era":"La Era del Aprendizaje","years":"1990s–2017","eraQuestion":"¿Y si la máquina pudiera aprender en vez de contar?"},"mlp":{"name":"Modelo MLP","subtitle":"El primer modelo neuronal de lenguaje","description":"Reemplaza la tabla de conteo con una red neuronal. Observa cómo una máquina que aprende puede predecir mejor texto con menos datos — y entender cosas que nunca ha visto.","era":"La Era del Aprendizaje","years":"1990s–2017","eraQuestion":"¿Y si la máquina pudiera aprender en vez de contar?"},"transformer":{"name":"Transformer","subtitle":"La atención es todo lo que necesitas","description":"La arquitectura detrás de ChatGPT y la IA moderna. En lugar de leer el texto pieza a pieza, el modelo aprende a enfocarse en lo más importante — en cualquier parte del texto a la vez. Próximamente.","era":"La Era de la Atención","years":"2017–presente","eraQuestion":"¿Y si la máquina pudiera enfocarse en lo importante?"}},"dashboard":{"chip":"Laboratorio de Interpretabilidad de Modelos","suite":"Suite","description1":"Explora el funcionamiento interno de los modelos de lenguaje mediante visualizaciones interactivas.","description2":"Sigue una ruta guiada o experimenta libremente en el sandbox.","launchUnit":"INICIAR UNIDAD","secureLock":"BLOQUEO SEGURO","footerCopyright":"© 2026 LM-LAB INSTRUMENTS","footerSystem":"SISTEMA_INTERPRETABILIDAD","secureConnection":"Conexión Segura","hardwareMock":"Hardware: v4-8 TPU MOCK"},"placeholders":{"mlp":{"title":"Explorador MLP","description":"Explorador de modelos de lenguaje Multi-Layer Perceptron. Actualmente en desarrollo - vuelve pronto."},"transformer":{"title":"Explorador Transformer","description":"Explorador de modelos transformer basados en atención. Actualmente en desarrollo - vuelve pronto."}},"landing":{"hero":{"badge":"Un Viaje Interactivo","hookQuestion":"¿Cómo sabe tu móvil lo que vas a escribir?","hookFollow":"O más precisamente — ¿cómo puede una máquina predecir la próxima letra que vas a escribir?","subtitle":"La Historia de los Modelos de Lenguaje","description":"Un viaje a través de 80 años de ideas — desde el método más simple jamás inventado para predecir texto, hasta sistemas como ChatGPT.","subDescription":"Construirás cada idea tú mismo, paso a paso. Sin matemáticas. Sin programación. Solo curiosidad.","start":"Empezar el Viaje","recommended":"Empieza desde el principio","narrativeP1":"En 1948, Claude Shannon hizo una pregunta engañosamente simple: ¿podemos predecir la siguiente letra de una frase solo contando? Su respuesta desencadenó una revolución que tardó 80 años en llegar a ChatGPT.","narrativeP2":"No solo leerás sobre cada idea — la construirás tú mismo con experimentos interactivos. Sin matemáticas. Sin código. Solo curiosidad.","cta":"Comenzar la historia →","ctaSubtext":"Capítulo 1 · La Era del Conteo · ~10 min"},"highlights":{"visualizations":"Demos Interactivas","inference":"Predicciones en Vivo","guided":"Paso a Paso","backend":"Modelos Reales"},"journey":{"title":"El Viaje","eraLabel":"Era","status":{"soon":"Próximamente","ready":"Disponible"},"countingEra":{"name":"La Era del Conteo","years":"1948–1990s","question":"¿Y si simplemente contamos patrones?","description":"¿Se puede predecir la siguiente letra solo contando? Te sorprenderá lo lejos que llega — y lo que pasa cuando choca contra el muro."},"learningEra":{"name":"La Era del Aprendizaje","years":"1990s–2017","question":"¿Y si la máquina pudiera aprender?","description":"El conteo se rompió. Las tablas explotaron. Pero ¿y si en vez de memorizar cada patrón, la máquina pudiera descubrirlos por sí misma?"},"attentionEra":{"name":"La Era de la Atención","years":"2017–presente","question":"¿Y si pudiera enfocarse en lo importante?","description":"Una sola idea arquitectónica lo cambió todo. En vez de leer el texto pieza a pieza — ¿y si la máquina pudiera verlo todo a la vez?"}},"modes":{"title":"¿Cómo quieres explorar?","entryTitle":"Elige Tu Experiencia","entrySubtitle":"Puedes cambiarlo en cualquier momento desde cualquier página.","defaultNote":"Modo educativo seleccionado","educational":{"title":"Viaje Guiado","subtitle":"Aprende paso a paso","description":"Sigue la historia de principio a fin. Cada concepto se construye sobre el anterior, con demos interactivas a lo largo del camino.","tag":"Recomendado","features":["Experiencia narrativa","Construye cada idea tú mismo","Sin prerrequisitos"]},"freeLab":{"title":"Exploración Libre","subtitle":"Para usuarios experimentados","description":"Ve directo a las herramientas. Acceso completo a todas las visualizaciones, parámetros y controles de generación.","tag":"Avanzado","features":["Todas las herramientas","Control directo de parámetros","Autoguiado"]},"cta":"Construye tu primer predictor →","ctaSubtext":"6 demos interactivas · ~10 min · sin código","changeMode":"Cambiar modo","selectedMode":"Seleccionado"},"availableModels":{"title":"Capítulos","enter":"Empezar Capítulo","locked":"Próximamente"},"footer":{"text":"LM Lab · Construido con curiosidad"},"chill":{"masthead":{"brandAlt":"LM Lab","themeLabel":"Tema","langLabel":"Idioma"},"hero":{"kicker":"Un cuaderno personal","titlePrefix":"LM","titleAccent":"·","titleSuffix":"LAB","subPunchy":"Aprende cómo funciona ChatGPT — desde el principio.","subSoft":"No es un curso. No es un tutorial. Un paseo por las ideas.","cta":"Entra al laboratorio","metaChapters":"capítulos","metaYears":"años","metaTime":"~45 min"},"prologue":{"kicker":"PRÓLOGO","p1Lead":"En 1948, Claude Shannon hizo una pregunta engañosamente simple:","p1Em":"¿podemos predecir la siguiente letra de una frase","p1Tail":", dadas únicamente las que la preceden?","p2":"La respuesta tardó los siguientes ochenta años en desplegarse. Hizo falta contar, después aprender, después atender — y finalmente, escalar. Cada era resolvió lo que la anterior no pudo, y cada una dejó una huella que aún encuentras dentro de los modelos que usas a diario.","p3":"Este es un paseo tranquilo por esas cuatro ideas. No es un tutorial, no es un pitch. Solo el cuaderno de alguien que quería entender, escrito por si tú también quieres.","divider":"EL VIAJE"},"eras":{"counting":{"label":"ERA I","years":"1948 — 1990s","titlePrefix":"Solo","titleAccent":"cuenta.","bodyP1":"Contar letras parece demasiado simple para funcionar. No lo es.","bodyP2":"Los bigramas y los N-gramas pueden predecir texto, generar lenguaje y revelar la estructura oculta de cualquier corpus — todo sin una sola neurona. La idea de Shannon, afilada durante décadas de NLP estadístico, sigue siendo el baseline contra el que se mide en silencio cualquier sistema moderno.","terminalLabel":"BIGRAMA · FRECUENCIA","terminalHintIdle":"pasa el ratón por cualquier celda — ¿qué letra sigue?","terminalFootLeft":"pasa el ratón","terminalFootRight":"— ¿qué letra sigue?","chapter01Title":"Modelo Bigrama","chapter01Desc":"Predice la siguiente letra usando solo la anterior. Simple — y sorprendentemente potente.","chapter02Title":"Modelo N-Grama","chapter02Desc":"Más memoria para el modelo. Las predicciones mejoran — hasta que chocan contra un muro."},"learning":{"label":"ERA II","years":"1986 — 2017","titlePrefix":"Después","titleAccent":"aprende.","bodyP1":"Contar tiene techo. ¿Y si en vez de memorizar cada patrón, la máquina pudiese descubrirlos por su cuenta — desde datos crudos?","bodyP2":"Capas de operaciones simples, apiladas unas sobre otras, empiezan a descubrir estructura que nadie escribió. Hicieron falta treinta años y la paciencia de unos pocos investigadores para que la idea se volviera práctica. Cambió lo que un modelo podía ser.","terminalLabel":"MLP · PASO HACIA ADELANTE","terminalFootLeft":"input","terminalFootRight":"→ predicción","chapter03Title":"Redes Neuronales","chapter03Desc":"Capas de operaciones simples que, juntas, descubren patrones que nadie programó.","chapter04Title":"Modelo MLP de Lenguaje","chapter04Desc":"Reemplaza la tabla de conteos con una red. Las predicciones dejan de chocar contra el muro."},"attention":{"label":"ERA III","years":"2017","titlePrefix":"El modelo aprende a","titleAccent":"mirar.","bodyP1Quote":"\"Attention Is All You Need\"","bodyP1Tail":" lo cambió todo.","bodyP2":"En vez de leer palabra por palabra, el modelo aprende qué partes del input importan para cada predicción. Nacieron los Transformers — y con ellos, la era GPT. Un único movimiento que reemplazó en silencio casi todo lo anterior.","terminalLabel":"ATENCIÓN · FLUJO","terminalHintIdle":"pasa el ratón por cualquier token — mira a dónde mira","terminalFootLeft":"fuente","terminalFootRight":"objetivos ponderados →","chapter05Title":"Transformer","chapter05Desc":"Self-attention: cada palabra mira a todas las demás — y decide cuánto le importa cada una.","chapter06Title":"Grid GPT","chapter06Desc":"Toma el Transformer. Hazlo enorme. Entrénalo con todo. Próximamente.","chapter06Cta":"Pronto"}},"chapter":{"cta":"Leer →"},"antiHero":{"kicker":"Cinco capítulos · una idea que crece","titlePrefix":"De una letra a","titleAccent":"ChatGPT.","sub":"Predice un carácter. Luego unos pocos. Luego una frase. Luego todo. El argumento se mueve en una dirección — la página, también.","cta":"Entra al laboratorio"},"colophon":{"kicker":"Hecho por","authorFirst":"Adrian Laynez","authorLast":"Ortiz","copyright":"© 2026 · escrito despacio"}}}},"training":{"title":"Insight del Entrenamiento","noData":"Ejecuta inferencia para ver datos de entrenamiento","tooltip":{"lossTitle":"¿Qué es la Pérdida (Loss)?","lossErrorPrefix":"Error de Predicción:","lossError":"La pérdida mide cuán 'sorprendido' está el modelo. Una pérdida alta significa que adivina mal frecuentemente.","lossBenchmarkPrefix":"El Referente:","lossBenchmark":"Adivinar al azar daría una pérdida de ~4.56 (-ln(1/96)). ¡Cualquier valor menor significa que el modelo ha aprendido algo!","lossCurve":"La curva descendente muestra al modelo descubriendo patrones lentamente en tu texto."},"stats":{"finalLoss":"Pérdida Final","steps":"Pasos","batchSize":"Tamaño de Lote","learningRate":"Ratio de Aprendizaje","parameters":"Parámetros","tooltips":{"finalLoss":"El nivel de error. Al final del entrenamiento, debería ser lo más bajo posible.","steps":"Cuántas veces el modelo practicó para mejorar sus predicciones.","batchSize":"La cantidad de piezas de información que el modelo procesa a la vez.","learningRate":"La velocidad de aprendizaje. Ni muy rápido para no pasarse, ni muy lento para no tardar demasiado.","parameters":"El tamaño de la red neuronal o 'cerebro' del modelo."}}},"challenge":{"badge":"DESAFÍO","solvedBadge":"RESUELTO","checkButton":"Comprobar","skip":"Saltar","showHint":"Mostrar pista","hideHint":"Ocultar pista"},"models":{"bigram":{"title":"Modelo de Lenguaje Bigrama","description":"El bloque fundamental del modelado de secuencias. Un modelo probabilístico que predice el siguiente carácter basándose únicamente en el predecesor inmediato.","params":"Parámetros","vocab":"Vocabulario","trainingData":"Datos de Entrenamiento","loss":"Pérdida Final","unknown":"Desconocido","tooltips":{"params":"Son como las conexiones del cerebro. Este modelo es simple, por lo que no necesita muchas.","vocab":"Es el conjunto de letras y símbolos que el modelo conoce, como su propio alfabeto.","trainingData":"La cantidad de texto que el modelo leyó para aprender a escribir.","loss":"Es la puntuación de 'error'. Cuanto más baja sea, mejor sabe el modelo qué letra viene a continuación."},"sections":{"visualization":{"title":"Visualización: Matriz de Transición","description":"Aquí es donde vive el 'conocimiento' del modelo. Para un modelo Bigrama, esta cuadrícula representa qué letras suelen seguir a otras."},"inference":{"title":"Inferencia y Generación","description":"Interactúa con el modelo en tiempo real. Observa cómo 'adivina' el siguiente carácter basándose en probabilidades aprendidas.","placeholder":"Escribe texto para analizar..."},"architecture":{"title":"Arquitectura del Modelo","description":"Una mirada técnica a las 'neuronas' y capas que procesan la información."},"training":{"title":"Insights de Entrenamiento","description":"Observando el proceso de aprendizaje. Estas métricas muestran cómo el modelo optimizó sus parámetros reduciendo el error de predicción (pérdida) durante 5000 iteraciones."}},"hero":{"scientificInstrument":"Instrumento Científico v1.0","explanationButton":"¿Necesitas una explicación intuitiva?","explanationSub":"Entiende la idea central antes de sumergirte en las matemáticas y visualizaciones."},"matrix":{"title":"Matriz de Transición","activeSlice":"Transición de Slice Activo","tryIt":{"label":"Pruébalo:","text":"Haz clic en cualquier celda coloreada para ver","highlight":"ejemplos reales de entrenamiento"},"searchPlaceholder":"Resaltar carácter…","legendRare":"Raro","legendCommon":"Común","loading":"Cargando matriz de transición…","runInference":"Ejecuta inferencia para generar la matriz de transición","nextChar":"Sig. car.","probability":"P (%)","distribution":"Distribución","tooltip":{"title":"¿Cómo leer este gráfico?","desc":"Las filas representan el carácter actual y las columnas el siguiente carácter. Las celdas más brillantes indican mayor probabilidad de transición.","rows":"Filas (Y):","rowsDesc":"La letra que el modelo acaba de escribir.","cols":"Columnas (X):","colsDesc":"La letra que el modelo intenta adivinar.","brightness":"Brillo:","brightnessDesc":"Cuanto más brillante sea un cuadrado, más probable es que ese par de letras aparezca en el texto.","example":"Ejemplo: Si la fila es 'q' y la columna 'u' brilla intensamente, significa que el modelo sabe que después de 'q' casi siempre viene 'u'."},"slice":"Slice:","datasetMeta":{"learnedFrom":"Aprendido de","summarizes":"resume","rawChars":"caracteres brutos","inTrain":"en el split de entrenamiento","vocab":"a través de","symbols":"símbolos únicos","corpus":"Nombre del Corpus:","rawText":"Texto Bruto Total:","trainingSplit":"Datos de Entrenamiento:","vocabulary":"Tamaño del Vocabulario:","charTokens":"caracteres"},"probFlow":{"badge":"Visualizador de Flujo de Probabilidad","alreadyNormalized":"⚠ La matriz parece pre-normalizada","description":"Explora cómo los conteos brutos se convierten en probabilidades y cómo el modelo muestrea el siguiente token. Este diagrama interactivo muestra el pipeline completo de inferencia: desde seleccionar un carácter de contexto, hasta normalizar su fila en una distribución de probabilidad, hasta muestrear estocásticamente el siguiente token.","step1":"Paso 1: Seleccionar Contexto","step2":"Paso 2: Normalizar","step3":"Paso 3: Muestrear Siguiente Token","currentToken":"Token Actual","typeToChange":"Escribe para cambiar contexto","normalize":"Normalizar","softmax":"Softmax","temperature":"Temperatura","educational":{"normTitle":"Normalización Simple","normDesc":"Divide cada conteo por la suma de la fila. Esto convierte frecuencias brutas en probabilidades que suman 1.0.","softmaxTitle":"Softmax (Escalado por Temperatura)","softmaxDesc":"Exponencia valores y normaliza. La temperatura controla la nitidez: temp baja → distribución punteada, temp alta → distribución uniforme.","tempTitle":"Temperatura","tempDesc":"Controla la nitidez de la distribución. Temperatura baja (< 1) concentra la probabilidad en los tokens más probables. Temperatura alta (> 1) la distribuye más uniformemente, produciendo resultados más variados."},"tempLabel":"Temperatura","tempTooltip":"Controla la aleatoriedad. Más baja = más determinista, Más alta = más creativo/aleatorio","sampleButton":"Muestrear Siguiente Token","sample":"Muestrear Siguiente Token","sampling":"Muestreando...","result":"Resultado Muestreado","sampled":"Muestreado","topCandidate":"Candidato principal","mostLikely":"Más Probable","probability":"Probabilidad","roll":"Tirada Aleatoria","explanation":"El modelo lanzó un dado ponderado (tirada = {roll}) y seleccionó '{token}' con probabilidad {prob}%","stochasticNote":"El muestreo es estocástico — cada clic puede producir un resultado diferente incluso para el mismo carácter de contexto."},"labModeGuide":"Esta es la matriz de transición completa entrenada con ensayos de Paul Graham. Cada fila es un carácter; cada columna es el carácter que le sigue. Celdas más brillantes = transiciones más frecuentes. Haz clic en cualquier celda para ver ejemplos reales del corpus.","limitationGuide":"Observa la restricción fundamental: el modelo solo mira el último carácter. No puede aprender que 'th' casi siempre va seguido de 'e', porque cuando ve 'h', la 't' ya está olvidada. Esta memoria de un solo token es exactamente lo que los modelos N-gram y neurales superan.","storySteps":{"problem":{"title":"El Problema","body":"El lenguaje es secuencial — cada carácter depende de lo que vino antes. El desafío es capturar esta estructura computacionalmente. ¿Cómo construimos un modelo que pueda predecir lo que viene después en un flujo de texto?"},"representation":{"title":"Representando Texto","body":"Antes de modelar el lenguaje, necesitamos decidir cómo representarlo. La elección de representación determina el tamaño del vocabulario, la capacidad del modelo y sus limitaciones."},"solution":{"title":"La Solución Bigrama","body":"El enfoque más simple: contar con qué frecuencia cada carácter sigue a todos los demás en un gran corpus de entrenamiento. Estos conteos, una vez normalizados en probabilidades, forman un modelo estadístico completo del lenguaje a nivel de carácter."},"matrix":{"title":"La Matriz de Transición","body":"Cada conteo se almacena en una matriz V × V (V = tamaño del vocabulario). Cada fila representa un carácter actual; cada columna representa el siguiente. El brillo de una celda codifica la probabilidad de transición aprendida del texto real."},"probabilities":{"title":"De Conteos a Probabilidades","body":"Los conteos brutos se normalizan fila por fila para que cada fila sume 1.0, formando una distribución de probabilidad válida. El modelo puede entonces hacer predicciones concretas: \"Después de 'h', hay un 34% de probabilidad de que el siguiente carácter sea 'e'.\""},"limitation":{"title":"La Limitación Fundamental","body":"El modelo bigrama tiene cero memoria más allá del carácter inmediatamente anterior. No puede aprender que 'th' casi siempre va seguido de 'e', porque cuando ve 'h', la 't' ya está olvidada. Este horizonte de un solo token es lo que motiva los modelos N-gram y neurales."}},"representation":{"charTitle":"Tokens a nivel de carácter","charBody":"Vocabulario pequeño y fijo (~96 caracteres ASCII imprimibles). Toda entrada posible es representable. Simple de implementar y visualizar — ideal para entender los fundamentos.","wordTitle":"Tokens a nivel de palabra","wordBody":"Unidades semánticas más ricas, pero el vocabulario puede alcanzar 50.000–500.000 entradas. Las palabras raras causan escasez; las palabras no vistas en inferencia causan fallos. Mucho más difícil de escalar."},"builderLabel":"Constructor bigrama paso a paso"},"inference":{"title":"Consola de Inferencia","probDist":"1. Distribución de Probabilidad","probDistDesc":"Escribe una frase para ver los top-k caracteres más probables a continuación.","tooltip":{"title":"¿Qué es la Inferencia?","process":"El Proceso:","processDesc":"El modelo toma tu texto, mira el","processHighlight":"último carácter","processEnd":", y busca las probabilidades de lo que viene después en su cerebro (la Matriz).","topK":"Top-K:","topKDesc":"Solo mostramos los ganadores principales. Si K=5, ves los 5 candidatos más probables.","note":"Nota: Este modelo es \"determinista\" en sus probabilidades pero \"estocástico\" (aleatorio) cuando realmente elige un carácter para generar texto."},"lastChar":"Último car.:","form":{"input":"Texto de Entrada","placeholder":"Escribe texto para analizar...","topK":"Predicciones Top-K","analyze":"Analizar","analyzing":"Analizando..."},"contextLabel":"Contexto","axisLabel":"Después de \"{char}\", ¿qué sigue?","axisHint":"Las barras comparten una escala honesta — una barra corta significa que el modelo duda.","emptyHint":"Escribe una frase y lee qué tan probable es cada carácter siguiente.","sampleButton":"Tira los dados","sampleAgain":"Tirar otra vez","sampledLabel":"Muestreado","verdictLabel":"La apuesta del modelo","verdictMain":"Después de \"{char}\", lo más probable es \"{best}\".","verdictSub":"{pct} de la probabilidad"},"stepwise":{"title":"Predicción Paso a Paso","mainTitle":"2. Predicción Paso a Paso","description":"Observa al modelo predecir una secuencia carácter por carácter.","form":{"input":"Texto de Entrada","placeholder":"Texto inicial...","steps":"Pasos de Predicción","predict":"Predecir Pasos","predicting":"Prediciendo..."},"table":{"step":"Paso","char":"Carácter","prob":"Probabilidad"},"result":"Resultado:","seedLabel":"Tu texto","sequenceLabel":"El modelo continúa","stepLabel":"Paso {n}","feedsNext":"cada predicción se vuelve el siguiente contexto","verdictLabel":"Lo que escribió el modelo","verdictMain":"Desde «{seed}», continuó con «{tail}».","verdictSub":"{n} pasos · un carácter a la vez","emptyHint":"Escribe un texto inicial, elige cuántos caracteres predecir y observa cómo el modelo lo extiende paso a paso."},"generation":{"title":"Patio de Generación","mainTitle":"3. Generación de Texto","description":"Deja que el modelo alucine texto muestreando de la distribución.","tooltip":{"title":"¿Cómo se genera el texto?","sampling":"Muestreo:","samplingDesc":"El modelo no solo elige la respuesta #1. \"Tira un dado\" ponderado por probabilidades. Por eso puede generar texto diferente cada vez.","temp":"Temperatura:","tempDesc":"Valores más altos hacen que el dado sea más \"loco\" (más aleatorio). Valores más bajos lo hacen más \"seguro\" y repetitivo.","note":"¡Prueba temperatura 2.0 para ver galimatías, o 0.1 para verlo atascarse en bucles!"},"form":{"startChar":"Carácter Inicial","numTokens":"Número de Tokens","temp":"Temperatura","generate":"Generar","generating":"Generando...","or":"o","chars":"caracteres","presets":{"focused":"Enfocado","balanced":"Equilibrado","creative":"Creativo","chaotic":"Caótico"}},"copyToClipboard":"Copiar texto generado"},"architecture":{"title":"Especificación Técnica","subtitle":"Desglose detallado del mecanismo interno del modelo, capacidades y restricciones.","mechanism":"Mecanismo de Inferencia","capabilities":"Capacidades","constraints":"Restricciones","modelCard":{"title":"Tarjeta del Modelo","type":"Tipo de Arquitectura","complexity":"Clasificación de Complejidad","useCases":"Casos de Uso Principales","description":"Descripción"},"tooltips":{"matrixW":{"title":"¿Qué es la Matriz W?","desc":"Es esencialmente una tabla de búsqueda de 9216 números (96x96 caracteres en el vocabulario). Cada número representa la \"puntuación no normalizada\" de cuán probable es que un carácter siga a otro."},"softmax":{"title":"¿Qué es Softmax?","desc":"Softmax toma puntuaciones brutas (logits) y las aplasta en una distribución de probabilidad. Todos los números se vuelven positivos y suman 1 (100%)."},"loss":{"title":"¿Qué es la Pérdida (Entropía Cruzada)?","desc":"La pérdida mide la distancia entre la predicción del modelo y la verdad. Si la verdad es 'n' y el modelo dio a 'n' un 0.1% de probabilidad, la pérdida será muy alta. El entrenamiento es el proceso de ajustar los pesos para minimizar esta distancia."}},"stepsList":{"matrixW":"Busca la fila de la matriz de pesos W correspondiente al índice del carácter actual. Esta fila contiene las puntuaciones brutas no normalizadas (logits) para cada posible carácter siguiente.","softmax":"Aplica softmax a la fila de logits para producir una distribución de probabilidad válida sobre el vocabulario. Cada valor se vuelve positivo y la fila suma exactamente 1.0.","loss":"Durante el entrenamiento, calcula la pérdida de entropía cruzada entre la distribución predicha y el verdadero siguiente carácter. Retropropaga gradientes para actualizar W y minimizar el error de predicción futuro."},"analysis":{"strengths":["Solución exacta en forma cerrada — no se requiere descenso de gradiente. Los conteos son estadísticas suficientes.","Entrenamiento instantáneo en cualquier tamaño de corpus. O(N) en el número de tokens de entrenamiento.","Totalmente interpretable: cada celda en W es una probabilidad directamente legible."],"limitations":["Cero contexto más allá del token inmediatamente anterior — no puede modelar patrones multi-carácter.","Sin generalización: cada par de caracteres se trata independientemente sin noción de similitud.","El vocabulario escala como O(V²) — impracticable para modelos a nivel de palabra con vocabularios grandes."]},"steps":{"predicts":"Predice el siguiente carácter vía:","optimizes":"Optimiza parámetros usando:"}},"guide":{"badge":"Guía para Exploradores No Técnicos","title":"¿Cómo funciona este \"Cerebro\"?","subtitle":"Explicando el modelo Bigrama para que hasta mi madre lo entienda (con mucho amor).","switchHint":"Cambia al Modo Educativo para ver la guía conceptual","cards":{"memory":{"title":"Memoria de Pez","desc":"Un modelo **Bigrama** tiene la memoria más corta del mundo: solo recuerda la **última letra** que escribió. Para decidir qué letra viene después, solo puede mirar la anterior. No tiene contexto de palabras o frases enteras."},"darts":{"title":"Lanzamiento de Dardos","desc":"El modelo no \"lee\". Solo tiene una tabla gigante que dice: \"Si la última letra fue 'a', hay un 10% de probabilidad de que la siguiente sea 'n'\". Lanzar el dardo (muestreo) es lo que genera texto de manera aleatoria pero coherente."},"heatmap":{"title":"El Mapa de Calor","desc":"La cuadrícula coloreada (Matriz) es el **corazón** del modelo. Los cuadrados brillantes son las \"rutas\" más frecuentes que el modelo encontró en los libros que leyó durante su entrenamiento."}}},"historicalContext":{"description":"El modelo bigrama es la instancia más simple de una cadena de Markov aplicada al lenguaje. Estudiado por primera vez por Claude Shannon en su artículo de 1948 'A Mathematical Theory of Communication', los bigramas a nivel de carácter demostraron que incluso modelos estadísticos sin contexto capturan estructura significativa en el lenguaje natural.","limitations":["Cero memoria más allá del predecesor inmediato — no puede aprender patrones multi-carácter como 'th' → 'e'.","Sin generalización — cada par de caracteres se trata independientemente sin noción de similitud."],"evolution":"Las limitaciones de los modelos bigrama motivaron directamente las extensiones N-gram (contexto más largo) y eventualmente los enfoques neuronales (representaciones aprendidas). Todo modelo de lenguaje moderno puede rastrear su linaje hasta esta simple matriz de transición."},"educationalOverlay":{"visualGuideTitle":"Guía de Visualización","visualGuideDescription":"Cada celda de esta matriz representa P(siguiente | actual), la probabilidad de que un carácter siga a otro. Las celdas más brillantes indican parejas de caracteres más frecuentes en el corpus de entrenamiento.","probabilityAnalysisTitle":"Análisis de Probabilidad","probabilityAnalysisDescription":"Escribe cualquier texto para ver qué caracteres predice el modelo como siguientes, ordenados por probabilidad aprendida. El modelo solo mira el último carácter: no tiene memoria del contexto anterior.","generationLabTitle":"Laboratorio de Generación","generationLabDescription":"La generación de texto funciona muestreando repetidamente la distribución de probabilidades. La temperatura controla cuán aleatoria es cada muestra: valores bajos producen resultados más predecibles; valores altos, secuencias más creativas (o sin sentido)."}},"ngram":{"title":"Modelo de Lenguaje N-Grama","description":"Un modelo de lenguaje estadístico a nivel de carácter con tamaño de contexto variable. Visualiza cómo aumentar la ventana de contexto agudiza las predicciones a costa de una escasez exponencial.","sections":{"context":{"title":"Tamaño del Contexto","description":"Ajusta el tamaño del contexto (N) para condicionar las predicciones en más historia."},"slice":{"title":"Slice Activo","descriptionN1":"Para N=1 (Bigrama), visualizamos la matriz de transición de Markov simple P(siguiente | actual).","descriptionNPlus":"Para N>1, visualizamos el slice condicional P(siguiente | contexto). Haz clic en las celdas para rastrear ejemplos."},"inference":{"title":"Inferencia y Generación","description":"Interactúa con el modelo en tiempo real. Observa cómo selecciona el siguiente token basándose en las probabilidades aprendidas.","placeholder":"Escribe texto para analizar...","distribution":{"title":"Distribución de Probabilidad","desc":"Escribe una frase para ver los top-k caracteres siguientes más probables."},"stepwise":{"title":"Predicción Paso a Paso","desc":"Observa al modelo predecir una secuencia carácter por carácter."},"generation":{"title":"Generación de Texto","desc":"Deja que el modelo alucine texto muestreando de la distribución."}}},"hero":{"stats":{"uniqueContexts":{"label":"Contextos Únicos","desc":"N-gramas observados"},"vocab":{"label":"Vocabulario","desc":"Caracteres únicos"},"contextSpace":{"label":"Espacio de Contexto","desc":"|V|^{n}"},"tokens":{"label":"Tokens de Entrenamiento","desc":"Total tokens vistos"}}},"viz":{"hint":{"label":"Pruébalo:","text":"Haz clic en cualquier celda coloreada de la matriz para ver ejemplos reales de entrenamiento."}},"controls":{"contextSize":"Tamaño de Contexto (N)","contextDesc":"Número de caracteres previos para condicionar","unigram":"Unigrama","bigram":"Bigrama","trigram":"Trigrama","fourgram":"4-grama","fivegram":"5-grama","explosion":"Explosión (5+)"},"lab":{"technicalExplanation":{"title":"Explicación técnica","description":"Desglose detallado del mecanismo interno del modelo, capacidades y restricciones.","mechanism":"Mecanismo de inferencia","capabilitiesTitle":"Capacidades","constraintsTitle":"Restricciones","steps":{"lookup":"Busca la fila de probabilidades correspondiente al último contexto de {n} caracteres.","normalize":"Aplica suavizado (add-α, α={alpha}) y normaliza para obtener una distribución de probabilidad.","predict":"Muestrea o toma argmax para predecir el siguiente carácter."},"capabilities":["Entrenamiento exacto en forma cerrada — el conteo es suficiente.","Predicciones locales más precisas a medida que aumenta el contexto.","Totalmente interpretable: cada entrada es una estadística legible."],"constraints":["Sin generalización: los contextos no vistos no tienen entrada.","Espacio de estados exponencial: |V|^N crece demasiado rápido para llenarse.","Horizonte limitado: olvida todo antes de los últimos N caracteres."],"modelCardTitle":"Tarjeta del modelo","complexity":"Clasificación de complejidad","complexityValue":"Baja","useCases":"Casos de uso principales","useCasesList":["Exploración educativa","Baseline para comparación","Generación local rápida"],"trainingStats":"Estadísticas de entrenamiento","modelCard":"FICHA DEL MODELO · N={n}","modelType":"Tipo de modelo","modelTypeValue":"{nPlusOne}-grama (longitud de contexto = {n})","parameterCount":"Número de parámetros","parameterCountValue":"|V|^{n} × |V| = {count}","trainingMethod":"Método de entrenamiento","trainingMethodValue":"Máxima verosimilitud (conteo)","smoothing":"Suavizado","smoothingValue":"Suavizado Laplace add-α (α={alpha})","corpusInfo":"Corpus","trainingTokens":"Tokens de entrenamiento","trainingTokensValue":"{count}","uniqueContexts":"Contextos únicos","uniqueContextsValue":"{seen} / {possible}","perplexity":"Perplejidad","finalLoss":"Pérdida final","inferenceComplexity":"Complejidad de inferencia","inferenceComplexityValue":"O(|V|) por paso (lookup de tabla)","mathematicalFormulation":"Formulación matemática","formulaDesc":"Los conteos se normalizan para formar probabilidades condicionales por contexto."},"guidedExperiments":"Experimentos Guiados","guidedExperimentsChallenges":"5 desafíos","advancedMetrics":"Métricas Avanzadas","advancedMetricsExperts":"para expertos","advancedMetricsDesc":"Pérdida, perplejidad y rendimiento","advancedMetricsHint":"Estas métricas (pérdida, perplejidad, NLL) tendrán más sentido después del capítulo de Redes Neuronales. Por ahora, menor perplejidad = mejores predicciones.","badge":"Modo Lab Libre · Acceso completo a instrumentos","experiments":{"1":{"title":"El Efecto del Contexto","instruction":"Establece N=1, genera 50 caracteres y guarda el resultado. Luego establece N=3 y genera de nuevo con la misma frase semilla.","observation":"El resultado con N=3 se lee más naturalmente — verás prefijos comunes como 'th', 'the', 'in' aparecer más consistentemente que con N=1."},"2":{"title":"Encontrando el Muro","instruction":"Avanza por N=1 → N=2 → N=3 → N=4 y observa el panel de Dispersión después de cada cambio. Registra la perplejidad y la utilización del contexto en cada N.","observation":"La perplejidad baja con cada paso, pero la utilización del contexto también se desploma. En N=4, la mayoría de las filas de la tabla están vacías — el modelo se queda sin evidencia."},"3":{"title":"El Contexto Imposible","instruction":"Establece N=4. En la Consola de Inferencia, escribe una frase que el modelo nunca haya visto — prueba 'zqxj' o cualquier combinación inusual de 4 caracteres.","observation":"El modelo no devuelve ninguna predicción con confianza. No tiene entrada para este contexto exacto de 4 caracteres y no puede razonar por analogía."},"4":{"title":"Bigrama vs 4-grama: El Duelo","instruction":"Genera 80 caracteres con N=1 y guárdalos. Luego cambia a N=4 y genera 80 caracteres con la misma semilla. Lee ambos resultados en voz alta.","observation":"N=1 suena aleatorio. N=4 produce fragmentos reconocibles pero se rompe a mitad de secuencia cuando encuentra contextos no vistos y tiene que adivinar al azar."},"5":{"title":"Rendimientos Decrecientes","instruction":"Registra la perplejidad del Resumen de Rendimiento en N=1, 2, 3 y 4. Calcula la caída de cada paso al siguiente.","observation":"La mejora de N=1→2 es grande. N=2→3 es menor. N=3→4 es aún menor. Más memoria ayuda cada vez menos a medida que crece la dispersión."},"instructions":"Instrucciones","expectedObservation":"Observación esperada","goToPanel":"Ir al panel"},"contextLevels":{"1":"Sin contexto — cada carácter se predice de forma independiente según la frecuencia del corpus. El más rápido pero el menos preciso.","2":"Condiciona en 1 carácter previo. Cadena de Markov simple; baja dispersión, precisión moderada.","3":"Condiciona en 2 caracteres previos. Mejores predicciones pero el espacio de contexto crece a |V|².","4":"Condiciona en 3 caracteres. Alta precisión en secuencias vistas; dispersión significativa en las no vistas.","5":"Contexto máximo. Predicciones muy precisas donde hay datos, pero la mayoría de contextos no se han visto — explosión combinatoria inminente."},"flow":{"afterContext":"La matriz a continuación muestra la distribución de probabilidad aprendida de los datos de entrenamiento para el nivel N actual.","afterMatrix":"Usa la consola de inferencia para consultar el modelo con tu propio texto y observar cómo el tamaño de contexto afecta las predicciones.","afterComparison":"El gráfico de calidad de entrenamiento a continuación refleja qué tan bien el modelo se ajusta al corpus en el nivel N seleccionado."},"performanceSummary":{"title":"Resumen de Rendimiento","description":"Métricas de ejecución y entrenamiento del modelo actual","inferenceTime":"Tiempo de Inferencia","device":"Dispositivo","corpusSize":"Tamaño del Corpus","trainingDuration":"Duración del Entrenamiento","totalTokens":"Total de Tokens","perplexity":"Perplejidad","finalLoss":"NLL Final","ms":"ms","tokens":"tokens"},"comparison":{"title":"Comparación de Modelos","description":"Métricas para N=1..5","ppl":"PPL","util":"Util","space":"Espacio","tooltipPpl":"Perplejidad — menor significa predicciones más seguras","tooltipUtil":"Fracción de contextos posibles vistos durante el entrenamiento","tooltipSpace":"Total de combinaciones de contexto posibles (|V|^N)"},"sparsity":{"title":"Dispersión de Datos","description":"Cuánto del espacio de contexto se observa realmente","observedContexts":"Contextos Observados","possibleSuffix":"posibles","avgTransitions":"Trans. Promedio / Contexto","nextTokens":"siguientes-tokens por contexto observado","utilLabel":"Utilización de contexto","utilHint":"Fracción de contextos posibles vistos en datos de entrenamiento","sparsityLabel":"Dispersión de tabla","sparsityHint":"Fracción de pares (contexto, siguiente-token) nunca observados"},"warning5":{"title":"Umbral combinatorio superado","hint":"Reduce N a 1–4 para inferencia en vivo, predicción paso a paso y generación. Un N menor también reduce la dispersión."},"sections":{"transitions":"Probabilidades de Transición","transitionsDescN1":"Matriz completa P(siguiente | actual)","transitionsDescNPlus":"Slice P(siguiente | contexto)","conditionedOn":"Condicionado en:","sparsity":"Dispersión de Datos","trainingQuality":"Calidad de Entrenamiento","trainingQualityDesc":"Curva de pérdida para el modelo N={n} durante el entrenamiento","nextToken":"Predicción del Siguiente Token","nextTokenDesc":"Escribe texto y observa la distribución de probabilidad sobre los siguientes caracteres","stepwise":"Predicción Paso a Paso","stepwiseDesc":"Rastrea la ventana de contexto deslizándose carácter a carácter","generation":"Generación de Texto","generationDesc":"Genera texto de forma autorregresiva usando el modelo N-grama actual"},"hero":{"title":"Modelo de Lenguaje N-Grama","description":"Un modelo de lenguaje estadístico a nivel de carácter con tamaño de contexto variable. Visualiza cómo aumentar la ventana de contexto agudiza las predicciones a costa de una escasez exponencial.","uniqueContexts":"Contextos Únicos","vocabulary":"Vocabulario","contextSpace":"Espacio de Contexto","trainingTokens":"Tokens de Entrenamiento","uniqueChars":"Caracteres únicos","totalTokensSeen":"Total de tokens vistos"},"lossChart":{"title":"Pérdida de entrenamiento (NLL)","final":"Final:","ppl":"PPL:","start":"Inicio","progress":"Progreso de entrenamiento","end":"Fin","perplexity":"Perplejidad","perplexityHint":"Menor = predicciones más seguras","finalNll":"NLL Final","finalNllHint":"Log-verosimilitud negativa en datos de entrenamiento"},"footer":"LM-Lab · Instrumento Científico v1.0"},"training":{"title":"Insights de Entrenamiento","stats":{"totalTokens":"Total Tokens","uniqueContexts":"Contextos Únicos","utilization":"Utilización","sparsity":"Espasidad","transitionDensity":"Densidad de Matriz","subs":{"possiblePrefix":"de","possibleSuffix":"posibles","fractionObserved":"fracción de contextos posibles observados","unseen":"de contextos nunca vistos"}}},"historical":{"title":"Significado Histórico y Contexto","learnMore":"Aprender Más","description":"Descripción","limitations":"Limitaciones Clave","evolution":"Evolución a la IA Moderna"},"explosion":{"title":"Contexto Demasiado Grande — Explosión Combinatoria","description":"A medida que aumenta N, el número de contextos posibles crece exponencialmente (|V|^N). Para este tamaño de vocabulario, calcular la matriz de transición completa se vuelve computacionalmente impracticable y requiere un conjunto de datos enorme para evitar la escasez.","complexity":"|V|^N = Complejidad Espacial","limit":"Límite Clásico Alcanzado"},"diagnostics":{"vocabSize":"Vocabulario","contextSize":"Tamaño de Contexto (N)","contextSpace":"Espacio de Contexto (|V|^N)","sparsity":"Espasidad","sub":{"observed":"{count} observados","possible":"Contextos Posibles","utilized":"{percent}% utilizado"}},"educationalOverlay":{"contextControlTitle":"Control del Tamaño de Contexto","contextControlDescription":"Aumentar N permite al modelo condicionar con más historia, pero el número de contextos posibles crece como |V|^N. Esa explosión exponencial es la tensión central de los modelos n-grama: más contexto da predicciones más finas, pero también más dispersión de datos.","sliceVisualizationTitle":"Vista por Slice de Matriz","sliceVisualizationDescription":"Para N > 1, el tensor de transición completo es demasiado grande para mostrarse. En su lugar, fijamos el contexto actual y mostramos la fila de probabilidad resultante: un slice de la tabla de alta dimensión.","probabilityDistributionTitle":"Distribución de Probabilidad","probabilityDistributionDescription":"El modelo toma los últimos N caracteres de tu entrada, encuentra el contexto correspondiente en su tabla y devuelve la distribución de probabilidad sobre los posibles siguientes caracteres.","generationPredictionTitle":"Generación y Predicción","generationPredictionDescription":"En modo educativo nos centramos en entender cómo se elige un único token siguiente. Cambia a Lab Libre para desbloquear el trazador paso a paso completo y el playground de generación.","simplifiedSimulation":"La predicción paso a paso y la generación completa están disponibles en modo Lab Libre."}},"mlp":{"title":"MLP + Embeddings","description":"Explora 108 configuraciones MLP entrenadas. Observa cómo los embeddings emergen del ruido, compara dinámicas de entrenamiento entre arquitecturas y genera texto desde representaciones aprendidas a nivel de carácter.","hero":{"badge":"Laboratorio de Investigación"},"freeLab":{"title":"Laboratorio de Configuración MLP","description":"Selecciona cualquier configuración del Model Zoo, inspecciona curvas de entrenamiento, explora el espacio de embeddings y compara modelos lado a lado."},"page":{"switchToEducational":"Cambia al Modo Educativo para la narrativa guiada completa"},"narrative":{"hero":{"eyebrow":"Capítulo 4 · Modelado Neural del Lenguaje 👾","titlePrefix":"El Monstruo","titleHighlight":"sin Ojos","description":"Construiste los bloques. Ahora ensamblemoslos en la arquitectura detrás de cada modelo de lenguaje moderno — y descubre por qué es poderoso y fundamentalmente ciego a la vez.","readTime":"~65 min de lectura · 60+ demos interactivos"},"sections":{"s01":{"number":"01","label":"El Monstruo"},"s02":{"number":"02","label":"Enseñarle a Ver"},"s03":{"number":"03","label":"Los Ojos"},"s04":{"number":"04","label":"El Cerebro"},"s05":{"number":"05","label":"Más Grande"},"s06":{"number":"06","label":"Se Rompe"},"s07":{"number":"07","label":"Domando"},"s08":{"number":"08","label":"La Receta"},"s09":{"number":"09","label":"No Puede Ver"}},"s01":{"heading":"Conoce al Monstruo","lead":"Construyamos algo. No otra neurona sola, no otra tabla de conteo — un Perceptrón Multicapa real. Capas de neuronas, apiladas en profundidad, procesando contexto. ¿Puede vencer al N-grama? Averigüémoslo.","pMotivationModern":"Cada sistema de IA del que has oído hablar — ChatGPT, Claude, Midjourney — está construido con los mismos bloques que aprendiste en el capítulo anterior: neuronas, pesos, activaciones, retropropagación. ¿La diferencia? Escala. Una sola neurona aprendió patrones básicos. ¿Qué pasa cuando apilas miles de ellas en capas, les das contexto y las dejas descubrir sus propias representaciones? Obtienes la arquitectura detrás de cada modelo de lenguaje moderno. Construyamos uno.","pMotivationGap":"Ahora mismo, nuestra neurona individual ve un carácter a la vez y no tiene noción de similitud entre letras. No puede entender el lenguaje. Para llegar allí, necesitamos tres cosas: la capacidad de ver múltiples caracteres a la vez (contexto), una forma de entender que 'a' y 'e' son similares (representaciones), y suficiente profundidad computacional para encontrar patrones complejos (capas). El Perceptrón Multicapa nos da las tres.","pPreviouslyOn":"En el capítulo anterior, hicimos tres preguntas: ¿Qué pasaría si alimentáramos la red con más de un carácter? ¿Y si apiláramos capas en profundidad? ¿Y si pudiera inventar sus propias representaciones? Este capítulo responde las tres — y descubre problemas que nunca imaginamos.","pMonsterIntro":"Vamos a apilar docenas de neuronas en capas para crear algo con poder real: el MLP — Perceptrón Multicapa. Lo llamamos 'el monstruo' porque es emergente — aprenderá cosas que no le enseñamos, y fallará de formas que no predijimos. 👾","pMlpNameBreakdown":"Tres partes. La capa de entrada recibe tus datos. Las capas ocultas (1, 2 o 50 — tú eliges) son donde las neuronas detectan patrones — cada una hace lo mismo que construiste en el capítulo anterior: suma ponderada + sesgo + activación. La capa de salida también es una capa de pesos — toma la salida de la capa oculta y produce una puntuación por cada carácter posible (27 puntuaciones en total). Esas puntuaciones se convierten en probabilidades vía softmax. Más neuronas, más capas, más contexto = más poder.","archLabel":"Interactivo · ¿Qué ES un MLP?","archHint":"Haz clic en cada capa para ver qué hace. Pulsa 'Ver flujo de datos' para ver cómo la entrada viaja por la red. Este es el monstruo que estamos construyendo.","neuronZoomTitle":"Neurona Oculta","neuronZoomWhatItDoes":"¿Qué hace esta neurona?","neuronZoomWhatItDoesText":"Cada neurona es un pequeño detector de patrones. Recibe señales de todas las entradas, las multiplica por sus pesos, las suma con un sesgo y aplica una función de activación.","neuronZoomFormula":"Fórmula matemática:","neuronZoomWeights":"Pesos (wᵢ)","neuronZoomWeightsText":"Cada entrada tiene un peso que determina cuánto influye en esta neurona. Los pesos se aprenden durante el entrenamiento.","neuronZoomBias":"Sesgo (b)","neuronZoomBiasText":"Una constante que desplaza el umbral de activación de la neurona. Ayuda a la neurona a decidir cuándo activarse.","neuronZoomExamplePattern":"Ejemplo de patrón que podría detectar:","neuronZoomPattern0":"Patrones de vocales - aprende a activarse cuando ve vocales como 'a', 'e', 'i', 'o', 'u'","neuronZoomPattern1":"Finales comunes - detecta patrones como 'ing', 'ed', 'ción'","neuronZoomPattern2":"Letras dobles - aprende a reconocer 'll', 'ee', 'ss', 'tt'","neuronZoomPattern3":"Inicios de palabras - se activa para comienzos comunes como 'th', 'wh', 'an'","neuronZoomPattern4":"Formas de letras - detecta patrones visuales en secuencias de caracteres","pCanWeBeat":"Ahora, ¿podemos finalmente derrotar al poderoso N-grama? Primero, hay un problema. ¿Cómo le metemos letras a este monstruo? ¿Cómo convertimos una letra en números para hacer una predicción?","pEncodingIntro":"Entran números, salen números — así que necesitamos convertir caracteres a números. Nuestra codificación anterior usaba a=0, b=1, z=25 — pero eso implica que 'z' es 25 veces mayor que 'a', lo cual no tiene sentido.","figLabelEncoding":"Interactivo · El Problema de Codificación","figHintEncoding":"Compara codificación entera (magnitudes engañosas) vs codificación one-hot (distancias iguales). Prueba diferentes pares de caracteres.","pOneHotSolution":"La solución: codificación one-hot. Convierte cada carácter en un vector de ceros con un solo 1 en la posición de ese carácter. Ahora cada carácter es igualmente diferente de todos los demás — sin orden falso, sin magnitudes engañosas.","figLabelOneHot":"Interactivo · Codificación One-Hot","figHintOneHot":"Haz clic en cualquier letra para ver su vector one-hot — 27 números, todos ceros excepto uno.","pConcatIntro":"Para ver 3 letras a la vez, simplemente concatenamos sus vectores one-hot en un largo vector de entrada. Tres caracteres, cada uno con 27 números, nos da un único vector de 81 números que la red puede procesar.","figLabel1":"Interactivo · Concatenación de Contexto","figHint1":"Elige 3 caracteres y observa cómo se concatenan en un único vector de entrada para la red.","pTrainingStepBridge":"Tenemos nuestra representación de entrada — 81 números. Ahora veamos qué pasa cuando el monstruo procesa UN ejemplo. Observa el ciclo completo de entrenamiento: los caracteres entran, se convierten en vectores one-hot, fluyen por la capa oculta, producen una predicción — y luego el monstruo aprende de sus errores.","figLabelTrainStep":"Interactivo · Un Paso de Entrenamiento","figHintTrainStep":"Recorre el ciclo completo de entrenamiento: entrada → one-hot → concatenar → capa oculta → softmax → pérdida → backprop → actualización. Haz clic en 'Siguiente' para avanzar por cada etapa.","pRacePredict":"Antes de darle a empezar — ¿quién crees que gana? ¿La tabla de conteo que memoriza secuencias exactas? ¿O la red neuronal que aprende patrones?","pRaceIntro":"OK — tenemos un MLP con capas ocultas y una representación one-hot. ¿Podemos vencer al N-grama AHORA?! Hagámoslos competir cara a cara. Un modelo 4-grama de conteo contra nuestro MLP con 3 capas ocultas y 4 caracteres de contexto. Dale a empezar y veamos qué pasa.","raceTitle":"Carrera de Entrenamiento","raceStart":"¡Empezar Carrera!","raceReset":"Repetir Carrera","figLabelRace":"Interactivo · 4-grama vs MLP Carrera de Entrenamiento","figHintRace":"Observa un 4-grama (conteo, instantáneo) competir contra un MLP (aprendizaje, progresivo). Compara curvas de pérdida, parámetros y texto generado.","raceVerdictNgramWins":"¡El 4-grama gana! Su enfoque basado en conteo le da ventaja en este corpus. Pero mira los parámetros del MLP — aprendió esos patrones, no los memorizó. El monstruo tiene potencial, pero sigue ciego a la similitud entre caracteres.","raceVerdictMlpWins":"¡El MLP gana! Incluso con codificación one-hot básica, las capas ocultas le permiten encontrar patrones que el conteo no detecta. Pero mira más de cerca — el margen es pequeño, y ambos modelos comparten los mismos puntos ciegos. El monstruo necesita mejores ojos.","pShockReaction":"Espera. ESPERA. Nuestro MLP tiene 3 capas ocultas, miles de parámetros y aprendizaje real basado en gradientes. El N-grama es solo una tabla de conteo. ¿Y GANÓ?! ¿Cómo es posible?","pInvestigateBridge":"Investiguemos. ¿Cómo lee nuestro monstruo su entrada? Cuando le damos 'h', 'e', 'l' — ¿qué es lo que realmente VE? Midamos la distancia entre caracteres tal como el modelo los percibe:","blindnessCalloutTitle":"El Monstruo Es Ciego","pBlindness":"Todos los caracteres están exactamente a la misma distancia: √2. La letra 'a' está tan lejos de la 'e' como de la 'z' o '.'. Vocales, consonantes, puntuación — todos extraños idénticos. El monstruo no tiene ningún concepto de similitud.","pNotOnlyProblem":"Y ese no es el único problema. Apilar más capas sin cuidado no ayuda — puede hacer las cosas PEORES. Un monstruo más profundo no es un monstruo más inteligente. Es uno inestable.","pTameFraming":"Necesitamos domar a esta criatura. Paso a paso: primero, darle ojos para que vea similitud. Luego, entender su cerebro. Después, hacerlo más profundo sin romperlo. Finalmente, llevarlo a sus límites absolutos. Empecemos por el problema más devastador: el monstruo es ciego.","figLabel2":"Interactivo · El Problema de la Ceguera","figHint2":"Haz clic en cualquier carácter y observa su distancia a todos los demás. En modo one-hot, cada distancia es idéntica. Alterna a 'útil' para ver cómo serían distancias significativas.","panelTrainTitle":"Mira por Dentro: Un Paso de Entrenamiento","panelTrainPreview":"Recorre un ciclo completo: forward pass → pérdida → backprop → actualización","pMonsterStatus":"👾 El monstruo ha nacido — ciego e indisciplinado. Dos batallas por delante: enseñarle a ver, y luego enseñarle a crecer sin romperse.","takeaway":"El MLP — Perceptrón Multicapa — toma múltiples caracteres como vectores one-hot concatenados, los procesa a través de capas ocultas y genera probabilidades. Puede competir con modelos de conteo, pero dos problemas lo frenan: la codificación one-hot desperdicia dimensiones y no codifica similitud, y apilar capas sin cuidado causa inestabilidad. El monstruo necesita ojos y disciplina."},"s02":{"heading":"Enseñarle a Ver","lead":"El monstruo perdió su primera pelea — pero sigue ciego. Cada carácter le parece igual. Para llegar más lejos, necesitamos darle una forma de entender que algunos caracteres se parecen más que otros. Vamos a enseñarle a ver.","p1":"Piensa en las letras por un momento. ¿Qué tienen en común 'a', 'e', 'i', 'o', 'u'? Son todas vocales. ¿Qué comparten 'p', 'b', 'd'? Son todas oclusivas. Las letras tienen agrupaciones naturales que la codificación one-hot ignora por completo.","figLabel1":"Interactivo · Explorador de Características","figHint1":"Ordena los caracteres en grupos. Estás asignando características categóricas — cada grupo es como una dimensión en un sistema de coordenadas.","pFeatureScoringBridge":"Acabas de ordenar caracteres en grupos — vocales aquí, oclusivas allá. Pero un grupo es binario: estás dentro o fuera. ¿Y si cada característica fuera un NÚMERO? No 'es vocal' (sí/no), sino 'vocalidad: 0.9'. No 'es frecuente' (sí/no), sino 'frecuencia: 0.82'. Haz clic en cualquier letra para verla descrita como un vector de números.","figLabelScoring":"Interactivo · Vectores de Características","figHintScoring":"Haz clic en cualquier carácter para ver sus puntuaciones. Compara grupos para ver cómo caracteres similares obtienen vectores similares — la idea central de los embeddings.","p2":"Al asignar características numéricas a cada carácter, ahora podemos visualizarlos en un espacio coordenado. Cada carácter se convierte en un punto con coordenadas específicas, y los caracteres similares se agrupan naturalmente. Podemos graficar estos puntos para ver cómo los patrones y relaciones emergen visualmente.","figLabel2":"Interactivo · Constructor de Embeddings Manual","figHint2":"Asigna 2 características numéricas a cada letra. Observa cómo las vocales se agrupan y las consonantes se organizan por tipo — o aleatoriza para ver cómo desaparece la estructura.","pEmbDimBridge":"Acabas de colocar letras en un espacio 2D eligiendo dos características. ¿Y si usaras 10? ¿O 100? Cada número es una dimensión que la red puede usar para describir un carácter. Más dimensiones significan una descripción más matizada — y mejor capacidad para distinguir caracteres similares.","p3":"Pero ¿quién elige todas esas características? Tú las elegiste a mano — y eso fueron solo dos dimensiones. Para 100, nunca terminaríamos. En su lugar, podríamos dejar que la red las","p3H1":"aprenda automáticamente","p3End":". Imagina una tabla con una fila por carácter y varias columnas — cada columna es una característica. La red empieza con números aleatorios y los ajusta durante el entrenamiento, descubriendo patrones que nunca le dijimos. Cada fila se convierte en la 'descripción' de ese carácter — una lista de números que la red descubrió por sí sola.","figLabelTable":"Interactivo · La Tabla de Embeddings","figHintTable":"Haz clic en cualquier carácter para buscar su fila en la matriz de embedding. Observa cómo las vocales tienen patrones similares.","panelFormulaTitle":"1. Para los Curiosos Matemáticos.","panelFormulaPreview":"Ve la ecuación formal de la búsqueda de embeddings","formulaCaption":"Para los curiosos matemáticos: la búsqueda de embedding — seleccionar la fila t de la matriz E da un vector denso de D dimensiones.","figLabel3":"Interactivo · Animador de Búsqueda de Embeddings","figHint3":"Recorre el proceso paso a paso: selecciona un token → codifica one-hot → multiplica por la matriz de embedding → obtén el vector denso.","pRowBridge":"¿Notas algo familiar? Multiplicar un vector one-hot por una matriz simplemente selecciona una fila — exactamente lo que hacía el N-grama cuando buscaba una fila en su tabla de conteos. La diferencia: esta matriz es APRENDIDA, no contada.","p4":"La búsqueda de embedding es matemáticamente equivalente a multiplicar el vector one-hot por la matriz E. Pero en lugar de V dimensiones (27 para nuestro alfabeto), cada carácter ahora vive en solo D dimensiones (típicamente 2–32). El resultado:","p4H1":"entradas dramáticamente más pequeñas","p4End":" con información más rica.","panelCompressionTitle":"3. Profundización Técnica: Ahorro de Parámetros","panelCompressionPreview":"Ve exactamente cómo los embeddings reducen el conteo de parámetros","figLabel4":"Interactivo · Calculadora de Compresión","figHint4":"Ajusta el tamaño del vocabulario, la ventana de contexto y la dimensión del embedding. Ve cómo los embeddings reducen drásticamente los parámetros comparado con one-hot.","calloutTitle":"Acabas de inventar los embeddings","calloutText":"Al pasar de ordenar letras en grupos → asignar características numéricas → dejar que la red aprenda esas características automáticamente, has reinventado una de las ideas más importantes del aprendizaje automático. Esto es exactamente lo que Yoshua Bengio propuso en 2003.","pCanWeTrainPerfect":"Le dimos ojos al monstruo — embeddings que ven similitud. Pero ¿podemos entrenar el modelo perfecto? Descubrámoslo. Abajo, tres modelos compiten cara a cara: el 4-grama (conteo puro), un MLP con embeddings pequeños, y un MLP con la mejor configuración de embeddings que hemos encontrado. Dale a empezar y observa cómo se despliegan sus curvas de pérdida.","tripleRaceTitle":"Carrera Triple de Modelos","tripleRaceStart":"¡Empezar Carrera!","tripleRaceReset":"Repetir Carrera","figLabelTriple":"Interactivo · 4-grama vs MLP(pequeño) vs MLP(mejor)","figHintTriple":"Observa tres modelos competir: conteo vs embeddings pequeños vs embeddings grandes. Compara curvas de pérdida, parámetros y calidad del texto generado.","tripleRaceVerdict":"Embeddings más grandes → menor pérdida → mejor texto. El monstruo con mejores ojos gana. Pero mira los conteos de parámetros — embeddings más grandes significan más pesos que entrenar. Siempre hay un compromiso.","pTripleResult":"Los resultados hablan por sí solos. Más dimensiones de embedding le dan a la red representaciones más ricas, que se traducen directamente en menor pérdida y texto más coherente. Pero no hemos terminado — veamos al modelo entrenado generar texto en vivo.","figLabelLive":"Interactivo · Míralo Generar Texto Real","figHintLive":"Escribe texto y ve predicciones en tiempo real del MLP entrenado. Haz clic en una predicción para añadirla y observa al modelo escribir.","pMonsterStatus":"👾 El monstruo puede ver. Los embeddings le dieron ojos — sabe que la 'a' y la 'e' son similares. Pero ¿qué pasa DENTRO cuando esos embeddings fluyen por la capa oculta? ¿Qué calcula realmente cada neurona? Es hora de abrir el cráneo.","takeaway":"Los embeddings reemplazan los vectores one-hot desperdiciados con representaciones densas y aprendidas donde tokens similares obtienen vectores similares. Más dimensiones capturan estructura más fina — y la carrera triple lo demuestra: embeddings más grandes → menor pérdida → mejor texto. El monstruo ya tiene ojos."},"s03":{"heading":"Dentro de los Ojos","lead":"El monstruo aprendió a ver — los embeddings le dieron ojos. Pero ¿CÓMO se convierten números aleatorios en un mapa significativo del lenguaje? ¿Y qué aprendieron exactamente? Miremos dentro.","pEyesIntro":"En §02, viste al monstruo ganar la vista. Pero nos saltamos la parte más fascinante: ¿CÓMO se organizan números aleatorios en un mapa de significado? La respuesta es la retropropagación — la misma señal de aprendizaje que ajusta los pesos también reforma los vectores de embedding. Cada paso de entrenamiento empuja el vector de cada carácter hacia posiciones que ayudan a predecir la siguiente letra.","figLabelBackpropEmb":"Interactivo · Cómo Aprenden los Embeddings","figHintBackpropEmb":"Avanza por las instantáneas de entrenamiento y observa el espacio de embeddings evolucionar. Haz clic en cualquier carácter para ver cómo cambia su vector. Observa cómo caracteres similares convergen por descenso de gradiente.","pEyesBridge":"Ese fue el principio de aprendizaje en acción. Ahora veamos lo real — embeddings de nuestro modelo entrenado evolucionando a lo largo de 50.000 pasos:","figLabel1":"Interactivo · Timelapse de Entrenamiento de Embeddings","figHint1":"Presiona play para ver embeddings 2D evolucionar de ruido aleatorio a clusters estructurados a lo largo de 50.000 pasos. Usa snapshots reales del modelo.","pCategoryIntro":"Los embeddings aprendieron estructura — pero ¿QUÉ estructura exactamente? Entrenamos cuatro modelos con diferentes tamaños de embedding: 2D, 10D, 32D y 128D. Compáralos abajo. A la red nunca se le dijo qué caracteres son vocales o consonantes — observa lo que descubre por su cuenta a medida que obtiene más dimensiones.","figLabelCategory":"Interactivo · Comparación de Categorías de Embeddings (4 Modelos)","figHintCategory":"Alterna entre embeddings de 2D, 10D, 32D y 128D. Observa cómo mejora la separación de clusters con más dimensiones. Color = categoría del carácter.","pCategoryInsight":"¿Lo notaste? Con solo 2 dimensiones, las categorías se confunden. A 10D, vocales, consonantes y puntuación forman clusters distintos. A 32D, incluso los sub-grupos emergen — las consonantes frecuentes se separan de las raras. La red descubrió CATEGORÍAS puramente de la tarea de predicción. Estas agrupaciones no estaban en los datos de entrenamiento — emergieron porque ayudan a predecir lo que viene después.","pBottleneckIntro":"El analizador de categorías mostró que más dimensiones ayudan — pero ¿cuánto? Abajo, compara modelos reales entrenados con E=2 hasta E=128. Observa cómo la pérdida cae al aumentar las dimensiones, y luego se estabiliza cuando la red tiene suficiente espacio. Para 28 caracteres, hay un punto óptimo claro donde agregar más dimensiones deja de ayudar.","figLabelBottleneck":"Interactivo · Cuello de Botella de Dimensión de Embedding","figHintBottleneck":"Desliza por dimensiones de embedding E=2 a E=128. Observa la pérdida decrecer y luego estabilizarse. Ve cómo mejora la calidad del texto generado con cada paso.","pDistanceConceptIntro":"Los caracteres viven como puntos en un espacio de coordenadas. ¿Cómo medimos si dos puntos están 'cerca'? La distancia Euclidiana mide la línea recta entre ellos. La similitud coseno mide el ángulo — dos caracteres pueden estar lejos pero 'apuntando en la misma dirección' desde el origen.","p3":"Aplica estas métricas a embeddings reales aprendidos:","p3H1":"distancia Euclidiana","p3Mid":" y","p3H2":"similitud coseno","p3End":". Los caracteres en contextos similares terminan con embeddings similares.","panelDistanceTitle":"Pruébalo: Calculadora de Distancias","panelDistancePreview":"Calcula la distancia Euclidiana real y la similitud coseno entre dos embeddings de caracteres.","pPredictionIntro":"Has visto los clusters formarse. Ahora pon a prueba tu intuición: dados los embeddings existentes, ¿dónde crees que aterrizará un nuevo carácter?","figLabelPrediction":"Interactivo · Desafío de Predicción de Embeddings","figHintPrediction":"Adivina dónde aterrizará un carácter misterioso en el espacio de embeddings, luego revela la posición real. ¿Puedes predecir los clusters?","pAnalogyIntro":"Nuestros embeddings a nivel de carácter agrupan letras por tipo — las vocales se agrupan, las consonantes se agrupan. Pero ¿qué pasa cuando aplicas esta MISMA idea a palabras enteras en lugar de letras individuales? Modelos como Word2Vec y GPT hacen exactamente esto: asignan a cada palabra un vector de números, entrenado para que las palabras usadas en contextos similares tengan vectores similares.","pAnalogyIntro2":"El resultado es impresionante. En el espacio de embeddings de palabras, las direcciones codifican significado. La dirección de 'hombre' a 'rey' captura 'realeza.' Aplica esa misma dirección a 'mujer' y llegas cerca de 'reina.' Los sinónimos se agrupan. Los antónimos se sitúan cerca pero en lados opuestos de un eje de polaridad. Incluso las traducciones entre idiomas aterrizan en la misma región. El significado se convierte en geometría — y todo empieza con el mismo principio de embeddings que acabamos de explorar con caracteres.","figLabelAnalogy":"Ilustrativo · Analogías de Embeddings de Palabras","figHintAnalogy":"Selecciona un preset de analogía, luego pulsa 'Revelar' para ver la aritmética vectorial en acción. Cambia a la pestaña Vecindarios para ver cómo sinónimos, antónimos y familias de palabras se agrupan en el espacio de embeddings.","takeaway":"Los embeddings no son magia — se aprenden a través de la misma retropropagación que entrena el resto de la red. Cada paso de gradiente empuja los vectores de caracteres hacia posiciones que mejoran las predicciones. Más dimensiones capturan estructura más fina, y los clusters aprendidos revelan patrones lingüísticos genuinos: las vocales se agrupan, las consonantes se organizan por tipo. A escala de palabras, la misma idea permite analogías como rey − hombre + mujer ≈ reina. Los ojos del monstruo funcionan — ahora veamos qué hace su cerebro con lo que ve.","panelQualityTitle":"Profundización: Calidad de Embeddings Lado a Lado","panelQualityPreview":"Compara embeddings de 2D, 10D y 32D de los modelos del grid con métricas detalladas de clusters.","pQualityBridge":"¿Quieres ver más de cerca cómo las dimensiones del embedding afectan la calidad de los clusters? Abajo, compara tres modelos de nuestro grid de entrenamiento lado a lado — misma arquitectura, diferentes tamaños de embedding. Observa cómo la compactación de clusters y la estructura de sub-grupos mejoran con más dimensiones.","panelArithmeticTitle":"Profundización: Aritmética de Embeddings","panelArithmeticPreview":"¿Podemos hacer matemáticas reales con vectores aprendidos? Explora centroides y operaciones vectoriales.","pArithmeticBridge":"¿Podemos hacer algo más audaz — matemáticas reales con estos vectores aprendidos? Si las vocales realmente forman un grupo, su posición promedio (centroide) debería ser significativa.","p5":"Los centroides de grupo revelan cómo la red organiza los caracteres internamente — y las operaciones vectoriales muestran si las relaciones se codifican como direcciones consistentes.","p1":"Tracemos exactamente qué pasa cuando el monstruo procesa una entrada. Dado \"hel\", necesita predecir el siguiente carácter. Observa el forward pass completo — desde la búsqueda de embedding, pasando por la capa oculta, hasta la distribución de probabilidad softmax.","pForwardPassIntro":"Recorre el forward pass operación por operación. Observa cómo los vectores de embedding se concatenan, luego se transforman por los pesos y función de activación de la capa oculta, y finalmente se comprimen a través de softmax en probabilidades.","figLabelForwardPass":"Interactivo · El Forward Pass del Monstruo","figHintForwardPass":"Haz clic en 'Siguiente Paso' para recorrer el forward pass del MLP: embed → concatenar → capa oculta → softmax. Observa cómo los caracteres crudos se convierten en predicciones.","pPipelineIntro":"Ahora observa todo el pipeline funcionando junto — desde la búsqueda de embedding hasta la predicción del siguiente carácter. Cada componente ejecutándose como un sistema unificado.","figLabelPipeline":"Interactivo · Pipeline MLP Completo","figHintPipeline":"El pipeline completo del modelo de lenguaje MLP: búsqueda de embedding → concatenación → capas ocultas → softmax → predicción del siguiente carácter.","pWhyHiddenIntro":"OK, vemos el flujo de datos. Pero ¿qué está HACIENDO realmente la capa oculta? ¿Por qué la necesitamos? El problema es este: sin capas ocultas, una red neuronal solo puede aprender relaciones lineales. Solo puede dibujar líneas rectas. Algunos problemas necesitan curvas.","figLabelXOR":"Interactivo · Por Qué Importan las Capas Ocultas","figHintXOR":"Intenta separar A de B con una línea recta — imposible. Añade una capa oculta y la red dobla el espacio para resolverlo perfectamente.","pBrainXorCallback":"Recuerda del capítulo de NN: sin capas ocultas, una red solo puede dibujar líneas rectas. Las capas ocultas doblan el espacio. Lo probaste con XOR.","pBrainXorPivot":"Pero aquí está la diferencia: en el capítulo de NN, las entradas eran números simples. Aquí, las entradas son EMBEDDINGS — vectores ricos que codifican el significado de caracteres. La capa oculta ya no solo dobla un espacio 2D. Transforma un espacio de embeddings de 30 dimensiones, creando detectores de características complejas que operan sobre SIGNIFICADO, no coordenadas crudas.","pBrainWithoutHidden":"¿Y sin capas ocultas? La red es solo una tabla de conteo con pasos extra. Demostrémoslo:","pNeuronExplorerIntro":"Cada neurona oculta de nuestro MLP entrenado se ha especializado. Durante el entrenamiento, diferentes neuronas aprendieron a detectar diferentes patrones — completamente por su cuenta. Haz clic en cualquier neurona abajo para ver a qué responde.","pHiddenLayerSecret":"La capa oculta permite a la red DOBLAR el espacio. Cada neurona calcula su propia suma ponderada + sesgo + tanh, creando un detector de características no lineal. Una neurona podría activarse ante pares vocal-consonante. Otra detecta letras dobles. Otra más reconoce terminaciones de palabras. Nada de esto está programado — todo se descubre durante el entrenamiento.","figLabelNeurons":"Interactivo · Qué Detecta Cada Neurona","figHintNeurons":"Haz clic en cualquier neurona oculta para ver los patrones de entrada que la activan más fuertemente (y menos). Cada neurona se ha especializado en un detector de características diferente.","pNeuronInsight":"Una neurona se activa ante pares de vocales. Otra detecta finales de palabras. Otra más reconoce clusters de consonantes. La red no sabía nada de estos conceptos — los descubrió porque ayudan a predecir el siguiente carácter. Esta es la magia de las representaciones aprendidas.","pTrigramBridge":"Este es el insight clave: sin capas ocultas, este cerebro es solo una tabla de conteo. Las capas ocultas son lo que lo hacen PENSAR, no solo contar. Demostrémoslo — misma entrada, dos cerebros completamente diferentes:","figLabelTrigram":"Interactivo · N-grama vs MLP: Misma Tarea, Cerebro Diferente","figHintTrigram":"Compara cómo un N-grama (búsqueda en tabla) y un MLP (cálculo matricial) manejan la misma entrada. El N-grama memoriza; el MLP generaliza.","pChatGPTCheck1":"🤖 Checkpoint ChatGPT: Ahora entiendes embeddings, forward passes y capas ocultas. Estas tres ideas — representaciones aprendidas, transformaciones matriciales y activaciones no lineales — son la base de todo modelo de lenguaje, incluido con el que podrías estar chateando ahora mismo.","chatGPTCheck1Sub":"De embeddings de caracteres a GPT-4, el bucle central es el mismo: embed → transformar → predecir. La escala cambia. Los principios no."},"s04":{"heading":"Dentro del Cerebro","lead":"Los ojos funcionan — los embeddings capturan similitud y estructura. Entre ver y predecir, esos vectores cuidadosamente aprendidos fluyen hacia la capa oculta y se transforman en algo completamente nuevo. Es hora de abrir el cráneo y trazar el camino paso a paso.","pBrainIntro":"¿Qué pasa cuando el monstruo procesa \"hel\" y necesita predecir el siguiente carácter? Observa cada operación — desde la búsqueda de embedding, pasando por la capa oculta, hasta la distribución de probabilidad final.","pOutputExplanation":"¿Qué sale de la capa oculta? Cada neurona produce un número entre −1 y +1 (tanh). Con 128 neuronas, eso es un vector de 128 dimensiones — una representación comprimida de la entrada. Pero ¿cómo se convierte en una predicción? La capa de salida lo multiplica por una matriz de pesos de 128 × 27 para obtener 27 puntuaciones brutas (logits), y luego softmax las convierte en probabilidades. Veamos cada paso:","figLabelSoftmax":"Interactivo · De la Capa Oculta a la Predicción","figHintSoftmax":"Recorre el cálculo paso a paso: salidas de neuronas ocultas → multiplicar por W₂ → logits brutos → exponenciar → normalizar → probabilidades. Esto es lo que realmente hace softmax.","panelWeightTyingTitle":"Análisis: Weight Tying — ¿Son Dos Matrices Una?","panelWeightTyingPreview":"La matriz de embedding E y la matriz de salida W_out tienen la misma forma transpuesta. ¿Y si fueran la misma matriz?","pWeightTyingIntro":"Observa algo: la matriz de embedding E mapea caracteres → vectores (V×D), y la matriz de salida W_out mapea vectores → puntuaciones de caracteres (D×V). Una es la transpuesta de la otra. Weight tying fuerza W_out = Eᵀ, compartiendo los mismos parámetros para entrada y salida. ¿Ayuda?","figLabelWeightTying":"Experimento · Weight Tying: Atada vs Sin Atar","figHintWeightTying":"Cambia entre dos corpus (V=28 y V=96) para ver cómo el tamaño del vocabulario afecta el compromiso del weight tying. Compara conteos de parámetros y val loss.","pWhyHiddenLayers":"Sin capas ocultas, una red neuronal solo puede aprender mapeos simples entrada→salida — esencialmente una tabla de conteo con pesos. Memoriza 'después de \"th\", predice \"e\"' pero no puede generalizar. La capa oculta lo cambia todo: toma la entrada de embeddings de 30 dimensiones y la DOBLA a través de sumas ponderadas + tanh, creando nuevas características que la capa de salida puede combinar. No solo memoriza — descubre patrones.","pHiddenLayerProof":"Probémoslo. Misma entrada, misma tarea — pero un cerebro tiene capa oculta y el otro no. Observa cómo la red plana converge a una copia exacta de la tabla de conteo, mientras que el MLP aprende algo más profundo:","pBrainNeuronIntro":"Así que la capa oculta dobla el espacio. Pero ¿qué hace cada neurona individual? Durante el entrenamiento, diferentes neuronas aprendieron a detectar diferentes patrones — completamente por su cuenta. Haz clic en cualquier neurona abajo para ver a qué responde.","pBrainPolysemanticity":"¿Notaste algo extraño? La neurona #0 dispara para pares de vocales Y TAMBIÉN para ciertas secuencias de consonantes. La neurona #3 detecta límites de palabra Y TAMBIÉN patrones de frecuencia. Estas neuronas no tienen un solo trabajo limpio. Están haciendo múltiples cosas a la vez.","figLabelPolysemanticity":"Interactivo · Una Neurona, Múltiples Significados","figHintPolysemanticity":"Selecciona neuronas para ver qué patrones detectan. Nota la superposición — una neurona, múltiples roles.","pPolysemanticity2":"Podrías pensar: con 128 neuronas, deberíamos poder catalogar cada una. Neurona 1 = vocales. Neurona 2 = finales. Pero así no funciona. El monstruo no PIENSA en caracteres. Piensa en CARACTERÍSTICAS — patrones como 'probablemente seguido por una vocal.' Hay muchas más características útiles que neuronas. Así que la red hace algo ingenioso e inconveniente: mete múltiples características en cada neurona. Los investigadores llaman a esto polisemanticidad (poli = muchos, semántico = significado). Una neurona, muchos significados.","pAblationIntro":"Si la neurona #3 hace múltiples cosas, ¿qué pasa cuando la apagamos? Averigüémoslo.","figLabelAblation":"Interactivo · Explorador de Ablación de Neuronas","figHintAblation":"Activa/desactiva neuronas para ver qué se rompe. Desactiva la neurona #45 para el efecto más dramático.","pBlackBoxConnection":"Este es el famoso problema de la 'caja negra'. Incluso en nuestro pequeño monstruo con 128 neuronas y 27 caracteres, no podemos decir limpiamente qué hace cada neurona. Ahora imagina GPT-4: 96 capas, miles de millones de parámetros, millones de características metidas en neuronas que cada una sirve docenas de roles. Las capas ocultas en ChatGPT funcionan exactamente con el mismo principio — pero nadie en OpenAI puede señalar la neurona #847,293 y decir exactamente qué hace. Esta es la frontera de la investigación en seguridad de IA.","panelSAETitle":"Profundización: Autoencoders Dispersos","panelSAEPreview":"Una técnica revolucionaria para desenredar neuronas polisemánticas en características interpretables.","pSAEIntro":"La polisemanticidad es el problema central: una neurona hace muchas cosas, haciendo la interpretación casi imposible. Los Autoencoders Dispersos (SAEs) ofrecen una solución. En lugar de intentar entender qué hace cada neurona, los SAEs aprenden un conjunto más grande de 'características' — direcciones monosemánticas en el espacio de activación donde cada característica representa un concepto claro.","pSAEHow":"Un SAE se entrena sobre activaciones de neuronas para reconstruirlas usando una combinación dispersa de características aprendidas. Si una capa tiene 128 neuronas pero representa ~1000 patrones significativos, el SAE descubre esas 1000 características explícitamente. Cada característica se activa para un patrón específico: 'límite de palabra después de vocal' o 'consonante doble' — no ambos.","pSAEExample":"En 2024, Anthropic entrenó SAEs en Claude 3 Sonnet y encontró millones de características interpretables: una para el Golden Gate Bridge, una para vulnerabilidades de código, una para sarcasmo. Pudieron dirigir el comportamiento del modelo amplificando características específicas. Esta es la primera vez que investigadores pudieron identificar de manera confiable qué 'conceptos' individuales ha aprendido un modelo de lenguaje grande.","pSAELinkLabel":"Leer más:","pSAELinkDesc":"— el artículo que abrió el espacio de características de Claude y encontró conceptos interpretables a escala.","panelActMaxTitle":"Profundización: Maximización de Activación","panelActMaxPreview":"¿Qué entrada hace que una neurona dispare más fuerte? La optimización puede mostrarnos — pero los resultados son a menudo extraños.","pActMaxIntro":"Si quieres saber qué detecta una neurona, encuentra la entrada que la hace activarse más fuertemente. La maximización de activación hace exactamente eso: usa descenso de gradiente para optimizar una entrada (texto, imagen, etc.) para maximizar la salida de una neurona específica.","pActMaxHow":"Comienza con entrada aleatoria. Calcula la activación de la neurona. Toma el gradiente con respecto a la entrada (no los pesos). Actualiza la entrada para aumentar la activación. Repite hasta que la neurona dispare al máximo. La entrada resultante debería revelar qué patrón está 'buscando' la neurona.","pActMaxLimitation":"En la práctica, la maximización de activación a menudo produce entradas de aspecto adversarial: para modelos de visión, patrones de ruido psicodélico que no se parecen a imágenes naturales; para modelos de lenguaje, secuencias de tokens repetitivas o sin sentido. La neurona dispara fuertemente, pero la entrada no coincide con la intuición humana. Por eso técnicas como los SAEs (que encuentran direcciones lineales interpretables) son a menudo más útiles que la maximización de activación cruda.","takeaway":"La capa oculta transforma embeddings a través de pesos aprendidos y activaciones no lineales, creando detectores de características que operan sobre significado en lugar de coordenadas crudas. Sin capas ocultas, la red es solo una tabla de conteo. Con ellas, descubre patrones — pares de vocales, finales de palabra, clusters de consonantes — todo a través del entrenamiento. El cerebro funciona. Ahora: ¿podemos hacerlo más profundo?"},"s05":{"heading":"¿Podemos Hacerlo Más Grande?","lead":"El monstruo funciona. Una capa oculta, embeddings, entrenado con Shakespeare — genera texto. Pero el lenguaje es profundo: letras forman patrones, patrones forman sílabas, sílabas forman palabras. ¿Y si apilamos más capas? Seguramente más profundo = mejor... ¿no?","pWhyDepthIntro":"Cada avance en IA del lenguaje vino de ir más profundo. GPT-1 usó 12 capas. GPT-3 usa 96. GPT-4 tiene más de 120. El lenguaje tiene capas de estructura — letras forman sílabas, sílabas forman palabras, palabras forman frases — y cada capa de red puede aprender un nivel de abstracción. Nuestro monstruo tiene solo una capa. ¿Qué pasa si le damos más?","figLabelMotivation":"El Argumento de la Profundidad","figHintMotivation":"Haz clic en cualquier modelo para ver detalles. Nota la tendencia: cada generación va más profunda. Nuestro monstruo tiene solo 1 capa.","pDepthMotivationBridge":"La evidencia es abrumadora: la profundidad es el ingrediente secreto. Así que intentémoslo. Tomaremos nuestro monstruo y apilaremos capas — de 1 hasta 20. Mismos datos, mismo optimizador, todo lo demás igual. Solo más capas. Veamos qué pasa.","panelShapeTitle":"En Profundidad: Forma de la Red","panelShapePreview":"Antes de añadir capas: ¿ancha y superficial, estrecha y profunda, o equilibrada?","pHopeIntro":"Antes de empezar a apilar, una pregunta rápida: ¿QUÉ forma deberíamos intentar? ¿Ancha con pocas capas? ¿Estrecha con muchas? ¿O equilibrada?","figLabelShape":"Interactivo · Comparación de Forma de Red","figHintShape":"Alterna entre ancha-superficial, estrecha-profunda y equilibrada. Ve el número de parámetros y el compromiso arquitectónico que crea cada forma.","pShapeBridge":"La forma equilibrada (3 × 128) es nuestro punto de partida — suficientes capas para encontrar patrones profundos, suficientes neuronas por capa para mantener información sin crear cuellos de botella. Ahora ejecutémoslas y veamos qué pasa.","figLabelDepth":"Interactivo · Comparación Real de Profundidad","figHintDepth":"Observa modelos con 1–4 capas ocultas entrenar lado a lado. Verde = bien, ámbar = luchando, rojo = roto. Nota: 2 capas supera a 1... pero ¿luego qué?","pDepthLRBridge":"Hay una interacción oculta que la vista de profundidad única no muestra: la tasa de aprendizaje y la profundidad no son independientes. Una tasa de aprendizaje que funciona perfectamente para 2 capas puede destruir una red de 6 capas. Observa la cuadrícula completa de profundidad × LR:","figLabelDepthLR":"Interactivo · Mapa de Calor Profundidad × Tasa de Aprendizaje","figHintDepthLR":"Pasa el cursor sobre cualquier celda para ver el val_loss exacto o si esa combinación divergió. La esquina roja superior izquierda es la zona de peligro: LR alto + profundo = explosión.","pCelebration":"¿Más capas = más potencia, verdad? Vamos a probarlo. Entrenamos 10 redes idénticas — misma arquitectura, mismos datos, mismo optimizador (SGD lr=0.01), misma semilla — cambiando SOLO el número de capas. De 1 capa a 20.","pShock":"Los resultados son devastadores. UNA capa gana. El modelo más simple — solo 9K parámetros — supera a todas las alternativas más profundas. L1 obtiene 2.12, mientras que L6 con 92K parámetros apenas llega a 3.04. ¿L20 con 323K parámetros? Aún peor con 3.15. Más capas, más parámetros, PEORES resultados. El monstruo se debilita al crecer.","pWhatIsHappening":"¿QUÉ está pasando dentro de este monstruo?","pWhatIsHappeningSub":"Más capas deberían significar más potencia. En cambio, el monstruo está empeorando. No le demos la respuesta — investiguemos.","pDeadNeuronIntro":"Miremos dentro. Cuando inspeccionamos las neuronas de cada modelo, encontramos algo alarmante: muchas neuronas han dejado de funcionar por completo. Sus salidas están atascadas en ±1 (los límites de tanh), y sus derivadas son efectivamente cero. Estas neuronas NUNCA volverán a aprender — están permanentemente muertas.","figLabelDeadNeuron":"Interactivo · Neuronas Muertas por Profundidad","figHintDeadNeuron":"Selecciona una profundidad para ver cuántas neuronas están muertas en cada capa. Las neuronas muertas (tanh' ≈ 0) están congeladas para siempre — desperdician capacidad y bloquean el flujo de gradientes.","pDeadNeuronReveal":"Cuanto más profunda la red, más neuronas mueren. Una red de 20 capas tiene 88% de neuronas muertas — solo el 12% de su capacidad está realmente aprendiendo. Mientras tanto, L1 tiene cero neuronas muertas y la mejor loss. Pero ¿POR QUÉ mueren las neuronas en redes profundas? La respuesta es la saturación de tanh.","pInvestigationIntro":"¿Recuerdas tanh del capítulo de redes neuronales? Cuando las entradas son muy grandes, tanh se satura en ±1 — y su derivada cae a cero. Eso es exactamente lo que está pasando en nuestras capas profundas.","figLabelTanh":"Interactivo · Saturación de Tanh","figHintTanh":"Arrastra x para ver tanh(x) y su derivada. Cuando |x| > 2, la derivada se acerca a 0 — los gradientes a través de esta neurona mueren.","pPitfall4Metaphor":"Piensa en tanh como una banda elástica estirada entre dos paredes en −1 y +1. Una entrada pequeña la estira un poco y regresa fácilmente — esa fuerza elástica es el gradiente. Pero una vez que la estiras casi hasta la pared, está casi tensa: cualquier tirón adicional apenas la mueve. La entrada es grande, la salida está al límite, y casi no queda elasticidad para propagar la señal de error hacia atrás. Cada capa añade otra banda elástica en serie. Para la capa 4, la señal de error que intenta llegar a la capa 1 ha perdido toda su fuerza.","panelBattleTitle":"Inmersión: Batalla de Funciones de Activación","panelBattlePreview":"¿Y si cambiamos tanh por ReLU o GELU? ¿Cambiar la función de activación resuelve el problema de profundidad?","pActivationBattleBridge":"Si tanh es el culpable, ¿qué pasa si lo cambiamos? ReLU, GELU y sigmoid tienen propiedades de saturación diferentes. ¿Cambiar la función de activación resuelve el problema de profundidad?","figLabelBattle":"Interactivo · Batalla de Funciones de Activación","figHintBattle":"Activa/desactiva activaciones para comparar. Observa las curvas de pérdida en carrera. Gana el mejor val_loss.","pActivationBattleInsight":"ReLU y GELU superan a tanh — no se saturan tan agresivamente en el lado positivo. Sigmoid es peor que tanh (saturación doble en ambos extremos). Linear diverge completamente — sin no-linealidad no hay poder de representación. Pero incluso ReLU con 4+ capas sigue degradando. Cambiar la activación ayuda, pero no resuelve completamente el problema de profundidad.","pHistogramBridge":"El histograma de activaciones lo hace concreto. En la capa 1, los valores están distribuidos saludablemente. Para la capa 3, la mayoría están empujados a ±1 — la zona de saturación donde","pHistogramH1":"los gradientes son casi cero","pHistogramEnd":".","figLabelHistogram":"Interactivo · Histogramas de Activación por Capa","figHintHistogram":"Compara distribuciones de activación entre capas. Las capas más profundas muestran distribuciones bimodales acumulándose en ±1 — la zona muerta de tanh.","pDeadNeuronsBridge":"Pero se pone peor. Una neurona muerta no solo deja de aprender — NUNCA se recupera. Una vez que tanh se satura, la derivada es cero, así que la actualización de pesos es cero, así que la neurona permanece saturada para siempre. Está permanentemente congelada. Y peor: bloquea la señal de gradiente para cada neurona detrás de ella. En una red profunda, esto se propaga en cascada: una capa muerta mata el gradiente para todas las capas anteriores.","figLabelCascade":"Interactivo · Cascada de Capas Muertas","figHintCascade":"Recorre la cascada: tanh se satura → la derivada cae a 0 → el gradiente muere → las neuronas anteriores pierden su señal de aprendizaje.","pNeverLearnsAgain":"Esta es la cruel verdad sobre las neuronas muertas: una vez que una neurona muere, está muerta PARA SIEMPRE. Derivada cero significa actualización de pesos cero. Actualización cero significa que los pesos nunca cambian. Los pesos no cambian significa que la salida sigue saturada. La salida saturada significa que la derivada sigue siendo cero. Es una espiral de muerte sin escapatoria.","pEndBridge":"Neuronas saturadas. Capas muertas. Señales que se desvanecen. Podemos ver QUÉ se rompe cuando el monstruo va profundo. Pero ¿POR QUÉ? ¿Por qué añadir capas desencadena esta cascada? La respuesta está en cómo nació el monstruo: con pesos aleatorios que nadie verificó."},"s06":{"heading":"Por Qué lo Profundo se Rompe","lead":"Vemos QUÉ se rompe — neuronas saturadas, capas muertas, señales que se desvanecen. Pero ¿POR QUÉ añadir capas desencadena esta cascada? La respuesta empieza en el principio: cómo nació el monstruo.","pInitialLossIntro":"Antes de diagnosticar la enfermedad, mira los síntomas. Aquí están las pérdidas iniciales — la primera predicción de cada modelo, antes de CUALQUIER entrenamiento. Lo que verás debería perturbarte.","figLabelInitLoss":"Interactivo · Catástrofe de Pérdida Inicial","figHintInitLoss":"Compara la val_loss inicial en el paso 0 entre los 10 modelos. La línea roja punteada es adivinar al azar (ln 27). Los modelos POR ENCIMA de esta línea son peores que no saber nada.","pWorseThanRandom":"¿Cómo puede un modelo ser peor que el azar? Adivinar al azar da 1/27 ≈ 3.7% a cada carácter — incluyendo el correcto. Pero una red mal inicializada no produce probabilidades uniformes. Sus pesos aleatorios hacen que softmax concentre la probabilidad en UNOS POCOS caracteres equivocados. No está confundido — está confiadamente equivocado. Prueba a ajustar la escala de inicialización abajo para verlo en acción.","figLabelWorse":"Interactivo · Predicción Peor que el Azar","figHintWorse":"Arrastra el deslizador σ para ver cómo la escala de inicialización afecta las probabilidades predichas. σ grande = confiado y equivocado = peor que el azar.","pGaussianIntro":"¿De dónde vienen estos pesos? Antes de entrenar, inicializamos los pesos como números aleatorios de una campana de Gauss centrada en cero. El ancho de esta campana — su desviación estándar σ — lo controla todo. Muy ancha, y los pesos caen en la zona muerta de tanh. Muy estrecha, y la señal es demasiado débil para propagarse.","figLabelGaussian":"Interactivo · Explorador de Distribución de Pesos","figHintGaussian":"Arrastra σ para ver cómo cambia la campana. Observa cuántos pesos caen en la zona muerta de tanh (|w| > 2) y qué significa para la salud de las neuronas.","pInitBad":"La amplitud correcta resulta ser todo. Muy grande → activaciones explotan → cada neurona se satura al instante. Muy pequeña → señal se desvanece antes de llegar a la salida. Con muchas capas, una mala inicialización es irrecuperable.","p1":"Arrastra el deslizador abajo para ver cómo la escala de inicialización afecta la curva de pérdida. Hay una franja estrecha donde el entrenamiento funciona — si la pierdes, la red está rota desde el paso 0.","figLabel1":"Interactivo · Sensibilidad a la Inicialización","figHint1":"Arrastra σ por cuatro zonas: muerta (muy pequeña), punto óptimo (Kaiming), inestable (muy grande) y caótica (excesiva). Cada zona tiene explicación detallada.","pGradientBridge":"Ahora sabemos QUÉ hace la mala inicialización. Pero ¿POR QUÉ es tan catastrófico para redes profundas específicamente? La respuesta está en cómo aprende la red: retropropagación.","pBackpropExplain":"Durante el entrenamiento, la señal de error fluye hacia atrás desde la salida hasta la entrada. En cada capa, el gradiente se multiplica por dos cosas: tanh'(activación) y el peso. Si la neurona está saturada, tanh' ≈ 0 — el gradiente muere. Si el peso es muy grande, el gradiente explota. Elige un escenario abajo y avanza paso a paso por la cadena.","figLabelBackprop":"Interactivo · Calculadora de Cadena de Retropropagación","figHintBackprop":"Elige desvanecimiento, estable o explosión. Avanza por 4 capas para ver multiplicaciones exactas tanh'(z) × W y el producto acumulado. Busca los indicadores KILLED.","pGradientFlowIntro":"La calculadora de cadena muestra un camino. Ahora ve la imagen completa: magnitud del gradiente en CADA capa de una red. Pasa el cursor por cada capa para su diagnóstico.","figLabel4":"Interactivo · Visualizador de Flujo de Gradientes","figHint4":"Alterna entre regímenes de desvanecimiento, estable y explosión. Pasa el cursor por cualquier capa para su anotación. La tarjeta resumen explica qué significa cada régimen.","pDiagnosisComplete":"El diagnóstico está completo. Tres problemas interconectados: (1) La inicialización aleatoria pone neuronas en la zona muerta de tanh → activaciones saturadas. (2) Activaciones saturadas tienen derivada ≈ 0 → gradientes que se desvanecen via regla de la cadena. (3) Gradientes que se desvanecen → capas tempranas no aprenden → la red desperdicia su capacidad. Cada capa añadida empeora los tres problemas. Por eso L1 superó a L20 — el monstruo más profundo estaba lisiado desde su nacimiento.","pSolutionsBridge":"Durante casi 30 años, los investigadores sabían que redes más profundas deberían ser mejores. No podían hacerlas funcionar. Entonces en 2015, tres equipos resolvieron independientemente los tres problemas. Veamos cómo domaron al monstruo."},"s07":{"heading":"Domando al Monstruo","lead":"Tres problemas: mala inicialización, gradientes que se desvanecen y activaciones que se desvían. Tres inventos de 2015 los resolvieron todos — y transformaron el aprendizaje profundo de un arte poco fiable a ingeniería confiable.","pSolutionsIntro":"Cada solución apunta a un eslabón en la cadena de fallos que acabamos de trazar. Juntas, hacen que las redes profundas sean entrenables.","pKaimingProblem":"El monstruo nació con pesos aleatorios. Pero ¿CUÁLES aleatorios? Aquí está la trampa: una neurona con N entradas las suma todas, cada una multiplicada por un peso aleatorio. Si esos pesos se toman de σ = 1, la suma tiene varianza N. Con 128 entradas, eso es √128 ≈ 11 veces demasiado grande. La salida de la neurona es tan extrema que tanh se satura al instante — y una neurona saturada tiene gradiente ≈ 0. Muerta desde el principio. ¿La solución? Hacer cada peso más pequeño por exactamente √(2/N). Así la varianza se mantiene en ~1.0 en cada capa, sin importar la profundidad. He et al. lo demostraron en enero de 2015. Observa abajo:","figLabelVariance":"Interactivo · Explosión de Varianza","figHintVariance":"Paso a paso: observa cómo N entradas aleatorias se multiplican por pesos aleatorios, se suman y pasan por tanh. Compara Ingenua (σ=1) vs Kaiming (σ=√(2/N)).","figLabelKaiming":"Interactivo · Varianza Por Capa","figHintKaiming":"Alterna entre Ingenua (σ=1) y Kaiming (σ=√(2/N)). Arrastra el deslizador para cambiar N. Observa cómo las barras explotan o se mantienen verdes.","pSmallNetworkSurvival":"Pero espera — si la mala inicialización es tan mortal, ¿por qué nuestro monstruo de 1 capa funcionó bien antes? Porque con solo 1 capa, solo hay 1 oportunidad de que algo salga mal. La varianza se desvía un poco, pero la red puede corregirse durante el entrenamiento — los primeros 1.000 pasos son solo deshacer el mal comienzo. Con 10 capas, esos errores se acumulan en cada capa. En la capa 6, la varianza ha explotado exponencialmente. Más capas = más oportunidades de que el error de inicialización se propague. Por eso las redes profundas son tan sensibles a los pesos iniciales, mientras que las superficiales a menudo tienen suerte.","figLabelShallowDeep":"Interactivo · Superficial vs Profunda","figHintShallowDeep":"Compara curvas de entrenamiento para redes de 1, 4 y 20 capas — todas con mala inicialización. Observa por qué las superficiales sobreviven.","pKaimingTraining":"El efecto en el entrenamiento es dramático. Abajo: tres inicializaciones compiten. Pesos demasiado pequeños (σ=0.01) producen una red muerta que apenas aprende. Aleatorios (σ=1) se saturan pronto y convergen lento. Kaiming empieza en la zona saludable y alcanza la menor pérdida.","figLabelInitComp":"Interactivo · Comparación de Inicialización","figHintInitComp":"Carrera de tres columnas: Muy Pequeño vs Aleatorio vs Kaiming. Pulsa Entrenar para ver neuronas muertas, magnitudes de gradiente y deriva de varianza en tiempo real.","pDriftProblem":"Kaiming le da al monstruo un comienzo saludable. Pero el entrenamiento es un viaje largo — miles de pasos donde cada peso cambia un poco. A medida que los pesos se mueven, las distribuciones de activación derivan: las medias se alejan del cero, las varianzas crecen o encogen impredeciblemente, y neuronas que empezaron sanas se saturan lentamente. Imagina calibrar un telescopio al atardecer, pero a medianoche la temperatura ha cambiado y todo está borroso. Mira lo que pasa con las distribuciones de activación durante el entrenamiento:","figLabelDrift":"Interactivo · Deriva de Activaciones","figHintDrift":"Avanza por los pasos de entrenamiento: observa cómo la distribución se desplaza y se expande. La curva de campana saludable se aplana en caos.","pBNQuestion":"Las activaciones están derivando. Kaiming arregló el punto de partida, pero ¿y el viaje? ¿Y si pudiéramos forzar las activaciones de vuelta a un rango saludable DESPUÉS de cada capa, en cada paso de entrenamiento? ¿Cuál es la solución más simple? Forzar los valores de vuelta a un rango saludable. Toma un lote de activaciones, calcula la media, réstala. Calcula la desviación estándar, divide por ella. Pruébalo abajo:","figLabelBNDiscovery":"Interactivo · Descubre BatchNorm","figHintBNDiscovery":"Recorre paso a paso el cálculo de BatchNorm en un mini-lote real: valores crudos → calcular μ y σ → centrar → normalizar → aplicar γ y β aprendidos.","pBNReveal":"Eso es exactamente lo que hace la Normalización por Lotes. Después de cada capa, normaliza: resta la media, divide por la desviación estándar. Ahora las activaciones están siempre centradas en 0 con amplitud 1 — sin importar lo que hagan los pesos. Es como recalibrar tus instrumentos entre cada medición.","figLabelBNEffect":"Interactivo · Efecto de Batch Norm","figHintBNEffect":"Activa y desactiva BatchNorm. Observa los porcentajes de zona muerta, indicadores de salud por capa y las formas de distribución cambiar en tiempo real.","pBNRegularization":"Hay un bonus oculto: BatchNorm calcula estadísticas del mini-lote actual (32–128 ejemplos), así que cada lote da μ y σ ligeramente diferentes. La red ve versiones ligeramente ruidosas de los datos en cada paso — como aumento de datos incorporado. Esto reduce el sobreajuste. BatchNorm es secretamente un regularizador también, lo que significa que nuestros lotes ya no son independientes — comparten estadísticas de normalización. Este acoplamiento previene que la red memorice ejemplos individuales.","figLabelBNReg":"Interactivo · BatchNorm como Regularizador","figHintBNReg":"Misma entrada, diferentes lotes. Observa cómo cada mini-lote normaliza el mismo valor de forma diferente — creando ruido que previene la memorización. Prueba diferentes tamaños de lote.","panelBNFormulaTitle":"En Profundidad: La Fórmula de BatchNorm","panelBNFormulaPreview":"x̂ = (x − μ) / √(σ² + ε) — recórrela paso a paso con deslizadores interactivos.","pBNFormula":"La fórmula: x̂ = (x − μ) / √(σ² + ε). μ es la media del lote actual, σ² es la varianza, y ε es un número diminuto que previene la división por cero. Recorrámosla paso a paso.","figLabelBNSteps":"Interactivo · BatchNorm Paso a Paso","figHintBNSteps":"Haz clic en 'Siguiente' para avanzar por los 5 pasos: valores crudos → calcular media → centrar → normalizar → aplicar γ y β aprendidos. Ajusta los deslizadores de γ y β al final.","pGammaBeta":"Pero espera — si SIEMPRE forzamos media=0, ¿no estamos limitando lo que la red puede aprender? Solución inteligente: añadir dos parámetros aprendibles por característica. y = γ·x̂ + β. La red puede aprender a DESHACER la normalización si quiere. BatchNorm no limita la capacidad — solo proporciona un punto de partida estable en cada capa.","figLabelGammaBeta":"Interactivo · Escala y Desplazamiento Aprendibles","figHintGammaBeta":"Arrastra los deslizadores de γ (escala) y β (desplazamiento) para ver cómo la red puede remodelar la distribución normalizada. Prueba los presets para entender por qué cada patrón puede ser útil.","figLabelBNArch":"Interactivo · Paso Forward con BatchNorm","figHintBNArch":"Recorre el paso forward de un MLP CON capas de BatchNorm. Ve cómo BN normaliza valores después de cada transformación lineal, manteniendo activaciones saludables a través de 3 capas.","pResidualProblem":"Kaiming + BatchNorm mantienen las activaciones saludables. Pero las redes profundas aún tienen un problema fundamental: cada capa REEMPLAZA la señal completamente. Si una capa hace una mala transformación, la información original desaparece para siempre — no hay botón de deshacer. Piensa en el juego del teléfono: cada persona reemplaza el mensaje por completo, y después de 10 personas, el original es irreconocible. ¿Se te ocurre una solución? Explora abajo — prueba a activar 'mantener el original' y observa qué pasa:","figLabelResDiscovery":"Interactivo · Descubre las Conexiones Residuales","figHintResDiscovery":"Observa cómo una capa mala (Capa 4) destruye la señal. Luego activa 'mantener el original' para descubrir la idea de conexión residual. Cambia qué capa es mala para probar la resiliencia.","pResidualSolution":"Esa es la conexión residual: y = x + F(x). Cada capa añade una pequeña corrección en vez de reemplazar la señal. Incluso si una capa es terrible (F(x) ≈ 0), el original pasa intacto. He et al. publicaron esto en diciembre de 2015. Ahora veámoslo con números reales — haz clic en cualquier capa abajo para ver las matemáticas exactas:","figLabelHighway":"Interactivo · Corrección vs Reemplazo","figHintHighway":"Alterna y=f(x) (reemplazar) vs y=x+f(x) (corregir). Haz clic en cualquier capa para expandir y ver la entrada, salida f(x), corrección y calidad de señal.","pResidualGradientSimple":"La conexión de salto también resuelve un segundo problema: gradientes que se desvanecen. ¿Recuerdas cómo los gradientes mueren al viajar hacia atrás por las capas? Con una conexión de salto, siempre hay una autopista directa que evita todas las capas. Incluso si 3 de 4 neuronas en una capa están muertas, el gradiente sigue fluyendo por el salto. Recórrelo abajo — haz clic en 'Iniciar Backprop' y retrocede capa por capa:","figLabelResGrad":"Interactivo · Backprop Paso a Paso","figHintResGrad":"Alterna Con/Sin salto, luego haz clic en 'Iniciar Backprop' para retroceder capa por capa. Ve neuronas muertas, cálculos de gradiente por capa y gradiente acumulado.","figLabelResBNArch":"Interactivo · Arquitectura Completa: BN + Residual Forward Pass","figHintResBNArch":"Recorre el forward pass completo de un MLP de 3 capas con BatchNorm Y conexiones residuales. Observa cómo BN normaliza en cada capa mientras las conexiones de salto preservan la señal original. 15 pasos en total.","pWhyDeepWorks":"Con residuales, puedes apilar 50, 100, incluso 1000 capas. Cada bloque aprende una pequeña corrección. Los gradientes siempre tienen un camino. Sin residuales — imposible. Con ellos — rutina. Por eso ResNet (2015), Transformers (2017) y todos los modelos profundos modernos los usan.","figLabelResidualGrad":"Interactivo · Comparación de Gradientes Residuales","figHintResidualGrad":"Lado a lado: y=f(x) vs y=x+f(x). Compara las magnitudes de gradiente en cada capa — los residuales mantienen los gradientes saludables.","pStabilityGrid":"Juntemos la imagen completa. Abajo hay una matriz que muestra cada combinación de técnicas a diferentes profundidades. El patrón es llamativo: con 1 capa todo funciona, pero a medida que crece la profundidad, necesitas progresivamente más del kit de estabilidad para mantener vivo el entrenamiento.","figLabelStability":"Interactivo · Matriz de Técnicas de Estabilidad","figHintStability":"Matriz: filas = número de capas, columnas = combinación de técnicas. Color = pérdida final (verde=bueno, rojo=divergió). Haz clic en cualquier celda para ver detalles.","calloutTitle":"El kit de herramientas del aprendizaje profundo (2015)","calloutText":"Inicialización Kaiming (enero), Normalización por Lotes (febrero), Conexiones Residuales (diciembre). Las tres aparecieron el mismo año. Juntas, transformaron el aprendizaje profundo de un arte poco fiable a ingeniería confiable — permitiendo redes con más de 100 capas donde 5 era antes el límite.","pRedemptionIntro":"¿Recuerdas el desastre de profundidad del §05? ¿Los modelos que solo producían sinsentido? Intentémoslo de nuevo — esta vez con las tres técnicas de estabilidad aplicadas. Misma profundidad. Mismos datos. Todo lo demás igual.","figLabelRedemption":"Interactivo · Redención del Modelo Profundo","figHintRedemption":"Antes/después: la misma configuración profunda sin y con técnicas de estabilidad. Observa cómo se revela el lado exitoso tras el fracaso.","redemptionBefore":"Sin estabilidad","redemptionAfter":"Con Kaiming + BN + Residual","redemptionOutput":"Texto generado","redemptionWaiting":"Aplicando Kaiming + BatchNorm + Residuales...","pRedemptionResult":"La misma arquitectura. La misma profundidad. Pero con tres técnicas simples, el monstruo pasó de sinsentido a texto coherente. Este es el poder de entender POR QUÉ las cosas se rompen — una vez que conoces la causa, la solución es directa.","panelScaleTitle":"En Profundidad: Experimento de Estabilidad a Escala","panelScalePreview":"¿Qué pasa con SGD puro? H=256 vs H=512, 4→20 capas. Los resultados son sorprendentes.","pScaleIntro":"Pero aquí hay un giro. ¿Qué pasa cuando escalamos a H=256 o H=512 neuronas y usamos SGD puro — sin Adam, sin momentum? Entrenamos 20 modelos en 5 profundidades (4→20 capas) con dos configuraciones: solo Kaiming vs. Kaiming + BN + Residual. Los resultados son… no los que esperarías.","figLabelScale":"Experimento de Estabilidad a Escala","figHintScale":"Alterna H=256 / H=512 para comparar. Cambia entre Pérdida Val, Pérdida Train y Gap. Pasa el ratón por las barras para detalles.","pScaleLesson":"Sorpresa: con SGD puro, solo Kaiming supera a BN + Residual en cada profundidad. BN añade ruido de batch que SGD no puede manejar eficientemente, y las proyecciones residuales añaden sobrecarga sin beneficio. ¿La lección? Las técnicas no son mágicas — están diseñadas para optimizadores específicos. BN + Residual brillan con Adam; con SGD, más simple es mejor. Por eso el deep learning moderno usa Adam + BN + Residual juntos: cada pieza necesita las otras.","pMonsterTamed":"La bestia está domada. El monstruo puede ir profundo ahora. 👾","panelLayerNormTitle":"Por Qué los Transformers No Usan BatchNorm","panelLayerNormPreview":"BatchNorm tiene problemas fundamentales para lenguaje. La solución moderna: LayerNorm.","panelBNProblems":"BatchNorm tiene problemas: depende del tamaño del lote (lotes pequeños = estadísticas ruidosas), mezcla estadísticas de ejemplos no relacionados en el mismo lote, y es incómodo para datos secuenciales donde las longitudes de secuencia varían. Karpathy lo critica abiertamente — añade complejidad y estado oculto que dificulta la depuración. Durante la generación NO hay lote — solo 1 ejemplo — así que necesitas almacenar promedios móviles del entrenamiento.","panelBNLayerNorm":"Solución moderna: Layer Normalization. En vez de normalizar a través del lote (vertical), normaliza dentro de cada ejemplo (horizontal). Cada token normaliza sus PROPIAS características. No depende del tamaño del lote. Funciona perfectamente con lote=1 durante la generación. Por eso TODOS los Transformers usan LayerNorm, no BatchNorm.","figLabelNormCompare":"Interactivo · BatchNorm vs LayerNorm","figHintNormCompare":"Pasa el ratón por filas o columnas para ver μ y σ calculados. Activa 'Normalizado' para ver el resultado. Explora por qué LayerNorm funciona en inferencia y BatchNorm no.","panelResDeepTitle":"En Profundidad: Detalles de Residuales","panelResDeepPreview":"Coincidencia de dimensiones, proyecciones, y por qué se llaman 'residuales.'","figLabelResProjection":"Interactivo · Matemáticas Residuales","figHintResProjection":"Dos pestañas: '¿Por qué Residual?' muestra la idea F(x) = y − x con números. 'Proyección de Dimensión' muestra cómo W_s arregla dimensiones incompatibles.","panelResProjection":"Para sumar x + F(x), ambos deben tener las mismas dimensiones. Si F(x) cambia la dimensión (común en capas de atención), necesitas una proyección aprendida: y = Wₚ·x + F(x). La proyección Wₚ es simplemente otra matriz de pesos que mapea x a la forma correcta.","panelResWhyName":"El nombre 'residual' viene de las matemáticas: F(x) = y − x. La red aprende el residuo — la diferencia entre lo que entra y lo que debería salir. No la salida completa, solo la corrección.","takeaway":"Tres inventos de 2015 — inicialización Kaiming, Normalización por Lotes y Conexiones Residuales — cada uno apunta a un eslabón en la cadena de fallos. Junto con el optimizador correcto, transforman las redes profundas de experimentos poco fiables a ingeniería confiable. Pero las técnicas solas no son mágicas — interactúan con tu elección de optimizador. La receta completa importa."},"s08":{"heading":"La Receta Perfecta","lead":"El monstruo está domado y estable — pero estable no significa bueno. Ahora necesitamos el MEJOR modelo. Cinco perillas controlan todo. ¿Cuál importa más? Solo hay una forma de averiguarlo: experimentar.","pKnobsIntro":"El monstruo está domado. Puede ir profundo sin colapsar. Pero 'estable' no significa 'bueno' — un modelo estable que genera basura es inútil. Necesitamos el MEJOR modelo: menor pérdida de validación, texto más coherente. Pero ¿qué controla 'mejor'? No los pesos — la red los aprende sola. Lo que NOSOTROS controlamos son los hiperparámetros: las decisiones arquitectónicas que tomamos antes de que el entrenamiento comience.","pKnobsList":"Cinco perillas controlan el rendimiento del monstruo. La dimensión del embedding establece cuántos números describen cada carácter — representaciones más ricas, pero más parámetros. El tamaño oculto determina cuántos detectores de patrones viven en la capa oculta — más capacidad, pero riesgo de memorización. La tasa de aprendizaje controla el tamaño de cada paso de actualización del gradiente — demasiado rápido y el modelo diverge, demasiado lento y apenas aprende. El dropout silencia neuronas aleatoriamente durante el entrenamiento para prevenir la memorización. Y la ventana de contexto establece cuántos caracteres ve el modelo a la vez. Cada una de estas decisiones tiene compromisos.","figLabelAnatomy":"Interactivo · Anatomía de Hiperparámetros","figHintAnatomy":"Haz clic en cada perilla para ver exactamente DÓNDE vive en la arquitectura MLP y qué controla. Observa cómo el diagrama resalta los componentes afectados.","pAnatomyInsight":"Cada perilla controla una parte diferente de la arquitectura. Pero no operan de forma aislada — interactúan entre sí. La mejor dimensión de embedding depende del tamaño oculto, que depende de la tasa de aprendizaje. Para encontrar el óptimo real, necesitamos probarlas juntas.","pExplorerIntro":"Así que entrenamos más de 100 modelos — cada combinación de dimensiones de embedding (2 a 32), tamaños ocultos (32 a 1024) y tasas de aprendizaje (0.01 a 0.2). Cada uno entrenado durante 50,000 pasos con los mismos datos de Shakespeare. Tu misión: explorar la cuadrícula y encontrar al campeón. Usa los controles. Observa las curvas de pérdida. Genera texto. Encuentra patrones.","figLabelExplorer":"Interactivo · Explorador Completo de Hiperparámetros","figHintExplorer":"Usa los controles para explorar diferentes combinaciones de hiperparámetros. Observa curvas de entrenamiento, genera texto y detecta anomalías. Prueba los extremos primero — los modelos más pequeños y más grandes — luego acércate al punto óptimo.","pExplorerReflection":"¿Encontraste el mejor modelo? ¿Notaste cómo algunas configuraciones divergen completamente — la pérdida sube en vez de bajar? Esas son las que tenían una tasa de aprendizaje demasiado agresiva para la capacidad del modelo. ¿Y viste la brecha entre pérdida de entrenamiento y validación crecer con modelos más grandes? Eso es sobreajuste — el modelo memorizando en vez de aprender.","pWallIntro":"Ahora da un paso atrás y mira todos los modelos a la vez. Abajo, cada modelo que entrenamos está graficado como total de parámetros vs. pérdida de validación. El patrón es impactante: más allá de cierto tamaño, añadir más parámetros no ayuda. La pérdida toca un piso. Lo llamamos el muro de parámetros.","figLabelWall":"Datos · El Muro de Parámetros","figHintWall":"Cada punto es un modelo entrenado real. Colorea por dimensión de embedding o tasa de aprendizaje para ver patrones. Pasa el cursor para detalles. Nota cómo la pérdida se estanca — más parámetros no atraviesan el muro.","pWallInsight":"No importa cuántos parámetros lancemos a esta arquitectura, la pérdida no baja de ~2.1. El modelo más grande tiene 10× más parámetros que el punto óptimo — y rinde apenas mejor (o peor, por sobreajuste). Este es el límite fundamental de la arquitectura MLP, no un problema de ajuste.","pOverfittingBridge":"Uno de los mayores peligros en el explorador fue el sobreajuste — modelos que dominan sus datos de entrenamiento pero fallan con texto nuevo. Lo viste en el capítulo de Redes Neuronales: la brecha entre pérdida de entrenamiento y validación es la señal reveladora. ¿Puedes detectarlo en la práctica?","figLabelDetective":"Desafío · Detective de Sobreajuste","figHintDetective":"Observa las curvas de pérdida de entrenamiento vs validación y diagnostica: ¿sobreajustado, subajustado o bien ajustado? ¡Gana puntos por respuestas correctas!","pDropoutIntro":"La cura para la memorización es el dropout. Durante cada paso de entrenamiento, el dropout silencia aleatoriamente una fracción de las neuronas — forzando a la red a aprender representaciones redundantes y robustas en vez de depender de una sola neurona. Es como estudiar para un examen tapando partes aleatorias de tus apuntes cada vez.","figLabelDropout":"Interactivo · Visualizador de Dropout","figHintDropout":"Haz clic en 'Training Step' para ver qué neuronas se silencian aleatoriamente. Activa/desactiva dropout. Observa la tira de historial — diferentes neuronas activas en cada paso, forzando redundancia.","pDropoutInsight":"El dropout hace a la red más fuerte haciéndola menos segura. En vez de un solo camino frágil a través de la red, construye muchos caminos — y el resultado final es más confiable. En §07, vimos que BatchNorm hace algo similar inyectando ruido a través de estadísticas del lote. Ambos son formas de regularización — técnicas que combaten la memorización.","pLRIntro":"De las cinco perillas, la tasa de aprendizaje es la más peligrosa. Demasiado baja y el modelo apenas aprende — la pérdida se estanca temprano, desperdiciando cómputo. Demasiado alta y el modelo diverge completamente — la pérdida explota, la red no aprende nada. El punto óptimo es estrecho, y depende del tamaño del modelo.","figLabelLR":"Interactivo · Intuición de Tasa de Aprendizaje","figHintLR":"Haz clic en 'Run Gradient Descent' para ver tres tasas de aprendizaje competir en el mismo paisaje de pérdida. La bola muestra dónde está cada optimizador en cada paso.","pLRInsight":"En el explorador, las configuraciones divergentes — las que tenían pérdida por encima de la línea base aleatoria — eran casi todas lr=0.1 o lr=0.2 en modelos más grandes. La tasa de aprendizaje que funciona para un modelo pequeño puede destruir uno grande. Por eso los profesionales suelen empezar con una tasa de aprendizaje pequeña y subir, nunca al revés.","panelDropoutExpTitle":"Experimento Real: Comparación de Tasas de Dropout","panelDropoutExpPreview":"Curvas de entrenamiento reales para dropout=0.0, 0.2, 0.5 en el mismo modelo. Observa cómo cambia la brecha de sobreajuste.","figLabelDropoutExp":"Experimento · Barrido de Tasa de Dropout","figHintDropoutExp":"Haz clic en cada tasa de dropout para comparar curvas de pérdida. El área sombreada muestra la brecha de sobreajuste entre train y val loss. Menor brecha = mejor generalización.","panelLRSweepTitle":"Experimento Real: Barrido de Tasa de Aprendizaje","panelLRSweepPreview":"5 tasas de aprendizaje de 0.0001 a 0.1 en la misma arquitectura. Ve exactamente cuándo y por qué cada una falla.","figLabelLRSweep":"Experimento · Barrido de Tasa de Aprendizaje (5 tasas)","figHintLRSweep":"Haz clic en cada tasa de aprendizaje para ver su curva de val loss. La mejor tasa (verde) encuentra el punto óptimo. Muy baja = apenas aprende. Muy alta = explota.","pOvertrainingIntro":"Hay una trampa más en la que cae incluso la mejor configuración: entrenar demasiado tiempo. Abajo hay un solo modelo entrenado durante 200K pasos — diez veces más de lo necesario. Observa el momento en que la val loss deja de mejorar mientras la train loss sigue cayendo. Ese es el momento en que el modelo empieza a memorizar en vez de aprender.","figLabelOvertraining":"Experimento · La Línea de Tiempo del Sobreajuste","figHintOvertraining":"Pasa el cursor para explorar las curvas de pérdida a lo largo de 200K pasos. Los puntos morados muestran instantáneas de calidad del texto en hitos. El marcador verde muestra cuándo el modelo estaba en su mejor momento.","pOvertrainingInsight":"Todo después de la línea verde es cómputo desperdiciado — o peor, daña activamente al modelo. En la práctica, usamos 'early stopping': monitoreamos la val loss y paramos cuando no ha mejorado en N pasos. El mejor modelo no es el que entrenó más tiempo — es el que supo cuándo parar.","pRecipeConclusion":"Después de cientos de experimentos, el campeón emerge. El mejor MLP posible con nuestros datos de entrenamiento — descubierto puramente a través de búsqueda sistemática. De la misma arquitectura que empezó como ruido aleatorio, encontró patrones en Shakespeare que ningún humano programó. No entiende qué significan los patrones. Optimiza. Y sin embargo — chocó contra el muro. Ningún ajuste puede superar los límites fundamentales del MLP.","calloutTitle":"No hay almuerzo gratis","calloutText":"Cada hiperparámetro implica compromisos. Embeddings y capas ocultas más grandes aumentan la capacidad pero arriesgan el sobreajuste y ralentizan el entrenamiento. Tasas de aprendizaje más bajas son estables pero lentas. El arte del aprendizaje profundo es encontrar el punto óptimo — y entender POR QUÉ importa cada elección. No hay un 'mejor' ajuste universal — solo el mejor para tu arquitectura, datos y presupuesto de cómputo específicos.","pChatGPTCheck2":"🤖 Checkpoint ChatGPT₂: El Mejor MLP Posible","chatGPTCheck2Sub":"Hemos ajustado cada perilla: dimensión del embedding, tamaño oculto, tasa de aprendizaje, dropout, ventana de contexto. Tenemos el MEJOR MLP posible. ¿Es ESTO ChatGPT? 👾 Todavía no. El MLP tiene límites arquitectónicos duros que ningún ajuste puede superar. Descubramos cuáles son — y qué arquitectura los resuelve...","takeaway":"La mejor configuración MLP equilibra los cinco hiperparámetros, pero incluso los ajustes óptimos chocan contra un muro. Más parámetros no ayudan pasado un punto. El monstruo está en su mejor momento — lo que viene después requiere una arquitectura completamente diferente."},"s09":{"heading":"El Monstruo Que No Puede Ver","lead":"El monstruo tiene ojos, cerebro y profundidad. Es estable, optimizado, poderoso. Y sin embargo — no puede ver. No porque le falte visión, sino porque ver no se trata de tener ojos. Se trata de saber dónde mirar. Entender exactamente dónde falla el MLP revela lo que la siguiente arquitectura debe resolver.","pBigModelIntro":"Antes de catalogar las limitaciones, demostremos que el muro existe. Abajo: MLPs cada vez más grandes — más parámetros, más capas, más contexto. Observa la pérdida. Se estanca. Lanzar más cómputo al MLP no ayuda. La arquitectura misma es el cuello de botella.","figLabelBigModel":"Interactivo · El Muro de Parámetros","figHintBigModel":"Haz clic en cada modelo para ver su configuración y texto generado. Nota cómo la pérdida apenas mejora a pesar de 500× más parámetros.","panelDataSizeTitle":"Análisis: ¿Más Datos Ayudan?","panelDataSizePreview":"Mismo modelo, 5 tamaños de dataset. ¿Más datos rompen el muro?","pDataSizeIntro":"¿Quizás el problema son los datos? Entrenamos exactamente el mismo modelo en datasets desde 100K hasta 1.7M caracteres. Seguramente más datos ayudan… ¿verdad?","figLabelDataSize":"Experimento · Impacto del Tamaño de Datos","figHintDataSize":"Pasa el cursor sobre cada punto para ver la pérdida de entrenamiento/validación y la brecha de generalización. Nota qué tamaño de dataset logra la pérdida de validación más baja.","p1":"Comienza escribiendo texto abajo. Observa lo que el MLP puede ver — y lo que es invisible para él. Cada carácter fuera de la pequeña ventana podría no existir.","figLabel1":"Interactivo · Patio de Juegos de Limitaciones","figHint1":"Escribe una oración y ve la ventana de contexto fija del MLP en acción. Solo los últimos 3 caracteres son visibles — todo lo anterior está oculto.","p2H1":"Limitación 1: Ventana fija = sin memoria de largo alcance.","p2":"El MLP debe recibir exactamente N caracteres. No puede mirar más atrás ni expandir dinámicamente su vista. La información fuera de la ventana — sin importar cuán importante sea — es completamente invisible. En el lenguaje real, un pronombre puede referirse a un sustantivo decenas de tokens antes. Ninguna ventana fija de tamaño práctico puede cerrar estos huecos de manera confiable.","figLabel2":"Interactivo · Ceguera de la Ventana de Contexto","figHint2":"Arrastra el deslizador para ampliar la ventana de contexto. Observa cuándo el referente entra en el campo de visión — y nota cuán pequeña debe ser la ventana para ocultarlo.","figLabel5":"Interactivo · Fallo en Dependencias de Largo Alcance","figHint5":"Una oración donde el pronombre se refiere a un sustantivo muchos tokens atrás. Compara cómo cambian las predicciones a medida que crece la ventana.","p3H1":"Limitación 2: Posición = crisis de identidad.","p3":"Como el MLP concatena embeddings, el mismo token en diferentes posiciones activa pesos completamente diferentes. 'the' en la posición 0 y 'the' en la posición 2 son tratados como entradas completamente distintas. Sin compartición de pesos entre posiciones — la red no puede reconocer que la misma palabra significa lo mismo sin importar dónde aparezca. Esto desperdicia parámetros e impide la generalización.","figLabel3":"Interactivo · Sensibilidad a la Posición","figHint3":"Alterna un token entre posiciones. Las columnas resaltadas de W₁ muestran qué parámetros activa cada instancia — conjuntos completamente diferentes.","p5H1":"Limitación 3: Cuello de botella por concatenación.","p5":"La primera matriz de pesos W₁ tiene forma (N·D) × H. Duplicar el contexto duplica esta capa. Y a medida que el contexto crece, el embedding de cada token se reduce a una fracción más pequeña de la entrada — diluyendo cada señal.","figLabel6":"Interactivo · Cuello de Botella por Concatenación","figHint6":"Cambia entre las vistas de Crecimiento de Parámetros y Dilución de Señal. Observa cómo W₁ se expande y la participación de cada token se reduce.","p8H1":"Limitación 4: Sin comprensión semántica.","p8":"El MLP no sabe qué significan los caracteres — solo aprende patrones estadísticos. Considera la palabra 'banco': cerca de 'río' significa una cosa, cerca de 'dinero' algo completamente diferente. Pero el MLP le da a 'banco' el mismo embedding sin importar el contexto. No tiene mecanismo para ajustar el significado según las palabras circundantes.","figLabelContextMeaning":"Interactivo · Embeddings Ciegos al Contexto","figHintContextMeaning":"Dos contextos para 'bank' — 'river bank' vs 'money bank'. El vector de embedding es idéntico en ambos. El MLP no tiene forma de ajustar el significado.","pPerceptionSynthesis":"Cuatro limitaciones. Una causa raíz. El MLP trata todo su contexto como un solo vector plano — procesa cada token de la misma manera. No tiene mecanismo para preguntar: ¿qué es relevante aquí? ¿En qué debería enfocarme? ¿Qué se conecta con qué? Ve, pero no entiende lo que está mirando.","p7":"¿Cómo sería la arquitectura ideal?","figLabel8":"Interactivo · Lista de Deseos de Arquitectura","figHint8":"Marca cada propiedad que quieras en tu modelo de lenguaje ideal. Cuando hayas seleccionado suficientes, ¡descubre qué arquitectura has descrito!","wishlistReveal":"Ahora relee tu lista de deseos. Longitud de contexto variable. Significado independiente de la posición. Atención selectiva a las partes relevantes. Acabas de describir una arquitectura llamada Transformer — y es exactamente hacia donde nos dirigimos.","calloutTitle":"La misma causa raíz","calloutText":"Cada limitación se remonta a la concatenación: ventana fija, dependencia de posición, sin compartición, dilución de señal y puntos ciegos. Resolverlos requiere una arquitectura que pueda procesar tokens independientemente, compartir parámetros entre posiciones y atender selectivamente al contexto relevante.","pEvolutionIntro":"Pero antes de mirar adelante — mira cuánto hemos avanzado. De tablas de conteo a representaciones aprendidas. Cada modelo que construimos añadió algo esencial.","pWantMore":"Hemos avanzado mucho. Pero hay una diferencia entre apreciar el progreso y estar satisfechos. El monstruo puede predecir texto. Pero no puede ver más allá de 4 caracteres. No puede recordar lo que escribió hace 10 palabras. No entiende que 'rey' y 'reina' están relacionados. Queremos MÁS.","figLabelEvolution":"Interactivo · Comparación de Evolución de Modelos","figHintEvolution":"Cambia entre Bigrama, N-grama, Red Neuronal y MLP+Embeddings. Compara pérdida, parámetros, calidad de muestra, fortalezas y debilidades.","pGalleryIntro":"Y mira lo que el monstruo PUEDE hacer. El mismo texto semilla, procesado por cada modelo que hemos construido. Observa el salto de calidad con cada avance arquitectónico.","figLabelGallery":"Interactivo · Galería de Generación","figHintGallery":"Selecciona una semilla y compara la generación de texto lado a lado de los cuatro tipos de modelo. Observa cómo mejora la calidad con cada avance.","pJourneyReflection":"Cierra los ojos un momento. En el Capítulo 1, contabas pares de letras en una tabla. En el Capítulo 2, añadiste contexto — trigramas, 4-gramas, memorias más largas. En el Capítulo 3, construiste una sola neurona que podía aprender. Y ahora — redes profundas con embeddings aprendidos, normalización por lotes y conexiones residuales que generan texto como 'the throne of the kingdom.' De contar a aprender a entender estructura. Mismo objetivo. Inteligencia profundamente diferente.","pMonsterClosure":"Ya tengo ojos.\nTengo cerebro.\nSoy profundo, estable, optimizado.\nPero no sé qué importa.\nVeo fragmentos.\nNo veo conexiones.\nNo sé dónde mirar.","pMonsterClosureQuestion":"¿Y si pudiera mirarlo todo…\ny elegir?","pEmotionalBridge":"Esa pregunta — '¿en qué debería enfocarme?' — es la pregunta más importante en toda la IA. Y en 2017, un equipo de Google la respondió.","pMonsterClosureSub":"El legado del MLP no es su rendimiento — son las ideas que fue pionero: embeddings aprendidos, jerarquías profundas de características y entrenamiento de extremo a extremo. Cada Transformer usa exactamente estos bloques de construcción. Pero la siguiente arquitectura añade algo que el MLP nunca tuvo: la capacidad de elegir dónde mirar.","pChapterComplete":"El capítulo MLP está completo. Entiendes todo desde embeddings hasta conexiones residuales. Dos caminos por delante:","takeaway":"La ventana de contexto fija del MLP, los pesos dependientes de posición y la falta de compartición de parámetros son restricciones arquitectónicas duras — pero sus ideas perduran. Embeddings aprendidos, jerarquías de características no lineales y entrenamiento de gradientes de extremo a extremo son la base de todo modelo de lenguaje moderno. Las limitaciones apuntan directamente a la siguiente arquitectura: una que procese tokens independientemente, comparta pesos entre posiciones y atienda selectivamente al contexto."},"monsterInterludes":{"after01":"Proceso entradas. Multiplico pesos. Produzco salidas. Pero cada letra se ve idéntica — sin similitud, sin estructura. Solo distancias uniformes en un vacío de 27 dimensiones.","after02":"Ya puedo ver. Las letras se agrupan — las vocales forman vecindarios, las consonantes se organizan por tipo. Estructura que nadie me enseñó, emergiendo solo de los gradientes.","after03":"Mis ojos ya no son aleatorios. Cada letra encontró su lugar — vocales derivándose hacia vocales, consonantes hacia consonantes. Estructura tallada solo por gradientes. Pero ¿qué HAGO con lo que veo?","after04":"Cada neurona se especializa. Una dispara para pares de vocales, otra detecta finales de palabra. Soy un aproximador de patrones — pequeño, pero preciso. ¿Qué pasa con más capas?","after05":"Más capas. Más capacidad. Pero el gradiente se degrada en cada una. Mis primeras capas reciben señal casi nula. Profundidad sin estabilidad es ruido.","after06":"Ahora lo veo. Cada capa multiplica el gradiente por una fracción. Fracción × fracción × fracción → cero. La matemática es clara. Necesito intervención arquitectónica.","after07":"Kaiming me dio equilibrio. BatchNorm me mantiene estable. Las conexiones residuales transportan mis gradientes. Ahora puedo ir profundo. Escalo.","after08":"Cada peso optimizado. Cada hiperparámetro ajustado. Soy lo mejor que esta arquitectura permite. Y sin embargo — veo fragmentos, no relaciones. Lo proceso todo igual. No sé qué importa.","after09":"Dicen que hay una forma de verlo todo a la vez. No por una cerradura — por cada ventana simultáneamente. Ponderar lo que importa. Seleccionar lo relevante. Lo llaman atención."},"cta":{"heading":"Continúa Explorando","recommendedBadge":"Recomendado","transformerTitle":"Siguiente: El Transformer","transformerDesc":"La arquitectura que lo cambió todo. Self-attention, procesamiento paralelo, y la capacidad de mirar cada token simultáneamente. Así funcionan GPT, BERT y todos los LLMs modernos.","freeLabTitle":"Abrir Lab Libre","freeLabDesc":"Experimenta con modelos MLP de forma interactiva. Entrena, visualiza embeddings y genera texto con diferentes hiperparámetros.","rnnTitle":"¿Curioso? Explora las RNNs Primero","rnnDesc":"Antes de los Transformers, las RNNs resolvieron el problema de la ventana fija con memoria. Un fascinante desvío por la historia del modelado de secuencias."},"footer":{"text":"De tablas de conteo a representaciones aprendidas — el modelo MLP + Embeddings marcó el momento en que el modelado del lenguaje se volvió verdaderamente neuronal.","brand":"LM-Lab · Narrativa MLP + Embeddings"},"oneHot":{"title":"Codificación One-Hot","sparse":"Dispersa, de alta dimensión. Cada token está igualmente distante de todos los demás. Sin noción de similitud.","learnedTitle":"Embeddings Aprendidos","dense":"Denso, de baja dimensión. Las palabras similares (\"cat\" y \"mat\") obtienen vectores similares — el modelo puede generalizar."},"mlpDiagram":{"input":"Entrada","inputDesc":"Tokens de contexto (one-hot o embeddings)","hidden1":"Oculta 1","hidden1Desc":"Características aprendidas","hidden2":"Oculta 2","hidden2Desc":"Patrones de orden superior","output":"Salida","outputDesc":"Probabilidades del siguiente token"},"thinkFirst":{"xor":{"question":"Un modelo lineal solo puede dibujar líneas rectas. ¿Cuántas neuronas ocultas crees que se necesitan para separar 4 grupos tipo XOR?","reveal":"¡Solo 2 neuronas en una capa oculta pueden resolver XOR — pruébalo a continuación!"},"embedding":{"question":"Si pudieras representar cada carácter con solo 3 números en lugar de 96, ¿qué propiedades querrías que esos números capturen?","reveal":"Los embeddings aprenden exactamente esto — vectores densos donde caracteres similares obtienen números similares, automáticamente."},"hyperparams":{"question":"¿Qué crees que importa más para la calidad de predicción: un embedding más grande o una capa oculta más ancha?","reveal":"¡Depende de los datos! Usa el explorador a continuación para descubrirlo empíricamente."},"contextWindow":{"question":"El modelo ve 3 tokens de contexto. 'Mary caminó hacia el jardín, y ella...' — ¿Puede el modelo averiguar quién es 'ella'?","reveal":"No — 'Mary' está 8 tokens atrás, muy fuera de una ventana de 3 tokens."}},"guidedExperiments":{"title":"Experimentos Guiados — Prueba Estos","bestConfig":{"title":"Encuentra la Mejor Configuración","tryThis":"Ajusta los deslizadores para minimizar la pérdida de validación. ¿Qué hiperparámetro tiene el mayor impacto?","observe":"Observa la forma de la curva de pérdida — ¿se estanca temprano o sigue mejorando?"},"overfitting":{"title":"Detecta Sobreajuste","tryThis":"Encuentra una configuración donde la pérdida de entrenamiento sea mucho menor que la de validación.","observe":"La insignia de anomalía se ilumina y la métrica de brecha muestra la divergencia."},"embeddings":{"title":"Observa Cómo Aprenden los Embeddings","tryThis":"Selecciona una configuración y desliza el control de instantáneas de entrenamiento en la pestaña Espacio de Embeddings.","observe":"Los tokens pasan de ruido aleatorio a grupos estructurados a medida que avanza el entrenamiento."},"generation":{"title":"Genera y Compara","tryThis":"Genera texto desde las mejores y peores configuraciones (pérdida más baja vs más alta).","observe":"Nota cómo la calidad de predicción se correlaciona directamente con la pérdida de validación."}}},"explorer":{"loading":"Cargando configuraciones…","errorPrefix":"Error al cargar la cuadrícula MLP:","noConfigs":"No hay configuraciones MLP disponibles desde el backend.","onboarding":{"title":"Tour Rápido","scatter":{"text":"Cada punto es un modelo entrenado. Haz clic en cualquier punto para seleccionarlo y ver sus métricas completas abajo. Los modelos más cerca de la esquina inferior izquierda tienen menor pérdida de validación (mejor rendimiento)."},"sliders":{"text":"Usa estos deslizadores para explorar diferentes combinaciones de hiperparámetros. El explorador seleccionará automáticamente el modelo entrenado más cercano a tus configuraciones elegidas."},"metrics":{"text":"Observa cómo estas tarjetas de métricas se actualizan al seleccionar diferentes modelos. Busca las insignias de anomalía — señalan modelos con problemas de entrenamiento como sobreajuste o inestabilidad de gradientes."},"next":"Siguiente","gotIt":"¡Entendido!"},"sections":{"s01Title":"Visión General del Model Zoo","s01Subtitle":"configuraciones completamente entrenadas — haz clic en cualquier punto para seleccionarlo y sincronizar los deslizadores.","s02Title":"Configuración Seleccionada","s02Subtitle":"Tarjetas de métricas, indicadores de anomalías y un resumen en lenguaje sencillo de la calidad de entrenamiento de este modelo.","s03Title":"Espacio de Embeddings","s03Subtitle":"Tokens del vocabulario proyectados a 2D mediante PCA. Desplázate por las instantáneas de entrenamiento para ver cómo emerge la estructura del ruido.","s04Title":"Generación de Texto","s04Subtitle":"Genera secuencias de caracteres desde el modelo seleccionado. Ajusta la temperatura y la longitud para explorar la distribución de salida.","s05Title":"Diagnósticos Avanzados de Entrenamiento","s05Subtitle":"Flujo de gradientes, salud de neuronas y patrones de sobreajuste a lo largo del entrenamiento completo."},"zoo":{"expandableTitle":"Model Zoo · {count} Configuraciones","description":"Empieza aquí. Cada punto es un modelo completamente entrenado. Haz clic en cualquier punto para seleccionarlo y sincronizar los deslizadores. Usa los filtros para encontrar las mejores configuraciones, las peores o los valores atípicos."},"sliders":{"embeddingDim":"Dim. Embedding","hiddenSize":"Tamaño Oculto","learningRate":"Tasa de Aprendizaje"},"config":{"active":"Activo:","score":"puntuación"},"metrics":{"valLoss":"Pérdida Val.","trainLoss":"Pérdida Entren.","loss":"Pérdida","trainSmoothed":"Entren. (suavizado)","perplexity":"Perplejidad","random":"aleatorio:","trainValGap":"Brecha Entren.–Val.","params":"Parámetros","compute":"Cómputo","tooltips":{"valLoss":"Pérdida de validación: qué tan bien predice el modelo datos no vistos durante el entrenamiento. Menor = mejor. Esta es la métrica principal.","trainLossOnly":"Solo pérdida de entrenamiento — pérdida de validación no disponible para esta configuración. La pérdida de entrenamiento puede ser engañosamente optimista.","trainSmoothed":"Media del último ~10% de los valores de pérdida de entrenamiento registrados. El suavizado elimina el ruido por lote.","perplexity":"Perplejidad ≈ exp(pérdida). Si la perplejidad = 20, el modelo es tan incierto como elegir aleatoriamente entre 20 tokens. Menor = mejor.","randomPerplexity":"Perplejidad que lograría un modelo aleatorio uniforme. Cualquier modelo útil debería estar muy por debajo de esto.","trainValGap":"Brecha Entren.–Val. = pérdida_val − pérdida_entren_suavizada. Positivo = sobreajuste. Negativo = saludable o subajuste. Valores > 0.3 son preocupantes.","paramsCount":"Número total de pesos y sesgos aprendibles en esta configuración del modelo.","compute":"Cómputo = parámetros × pasos de entrenamiento ({steps}k). Es un proxy determinista del coste computacional — independiente de la máquina.","computeDetail":"{params} parámetros × {steps}k pasos. Los modelos más grandes cuestan más de entrenar pero no siempre generalizan mejor.","score":"Puntuación de calidad compuesta — mayor es mejor. Calculada como cuánto mejoró esta configuración sobre la línea base aleatoria."}},"anomalies":{"aboveRandom":"≥ Aleatorio","overfitting":"Sobreajuste","valLossUp":"Pérd. Val. ↑","noConvergence":"Sin Convergencia","unstableGrad":"∇ Inestable","pplMismatch":"PPL ≠ exp(L)","tooltips":{"aboveRandom":"La pérdida final está en o por encima de la línea base aleatoria — el modelo puede no haber aprendido patrones significativos.","overfitting":"La brecha entren.–val. supera 0.3 — el modelo memoriza los datos de entrenamiento mejor de lo que generaliza.","valLossUp":"La pérdida de validación seguía aumentando al final del entrenamiento — señal de inicio de sobreajuste.","noConvergence":"La pérdida no disminuyó significativamente durante el entrenamiento — la tasa de aprendizaje puede ser demasiado alta o baja.","unstableGrad":"Las normas de gradiente variaron >1000× durante el entrenamiento — indica inestabilidad de optimización.","pplMismatch":"La perplejidad reportada no coincide con exp(pérdida). Esto puede indicar un problema en el pipeline de datos."}},"summaries":{"aboveRandom":"Este modelo apenas supera al azar. Probablemente no aprendió patrones significativos — revisa la tasa de aprendizaje y la arquitectura.","nonDecreasing":"La pérdida no disminuyó durante el entrenamiento. El modelo no convergió — la tasa de aprendizaje puede ser demasiado alta o baja.","overfitting":"Este modelo sobreajusta — memoriza los datos de entrenamiento mejor de lo que generaliza. La brecha entre pérdida de entrenamiento y validación es grande.","lossIncreasing":"La pérdida de validación seguía aumentando al final del entrenamiento — señal de sobreajuste tardío. El modelo entrenó demasiado tiempo.","unstableGradients":"Las normas de gradiente variaron salvajemente durante el entrenamiento — la optimización fue inestable. Esto a menudo significa que la tasa de aprendizaje es demasiado alta.","stillImproving":"El entrenamiento seguía mejorando en el último paso. Con más cómputo, este modelo podría converger más.","balanced":"Este modelo entrena de forma estable y generaliza bien. Una configuración sólida y equilibrada.","converged":"Entrenamiento completado. El modelo convergió con una brecha de generalización moderada."},"computeLabels":{"minimal":"Mínimo","low":"Bajo","moderate":"Moderado","high":"Alto","veryHigh":"Muy Alto"},"timeline":{"title":"Línea de Tiempo del Entrenamiento","noData":"No hay datos de línea de tiempo disponibles.","pts":"pts","every":"cada","steps":"pasos","total":"total","nonUniform":"no uniforme","trend":"Tendencia:","variance":"Varianza:","converged":"Convergió ~","tooltips":{"chart":"Curvas de pérdida a lo largo de los pasos de entrenamiento. Verde = pérdida de validación (principal). Morado = pérdida de entrenamiento. Rojo discontinuo = línea base aleatoria.","pts":"Número de puntos de control de métricas registrados durante el entrenamiento. Más puntos = curvas más suaves e informativas.","interval":"Se guardó una instantánea de métricas cada {interval} pasos de actualización de gradiente.","totalSteps":"Total de actualizaciones de gradiente realizadas. Todas las configuraciones entrenan exactamente {steps}k pasos para una comparación justa.","trend":"Dirección de la pérdida de validación en la segunda mitad del entrenamiento. Decreciente = aún aprendiendo. Plana = convergida. Creciente = inicio de sobreajuste.","variance":"Varianza estadística de la pérdida de validación a lo largo del entrenamiento completo. Cercana a cero = entrenamiento estable.","convergenceStep":"Paso de entrenamiento donde la pérdida de validación cayó por primera vez por debajo del 50% de su valor inicial."},"chart":{"randomBaseline":"línea base aleatoria","train":"entren.","valPrimary":"val. (principal)","trainingSteps":"Pasos de Entrenamiento"}},"embeddingSpace":{"title":"PCA 2D · Deriva del Embedding","tooltip":"Cada punto es un token del vocabulario, proyectado desde el espacio de embeddings aprendido a 2D mediante PCA. Usa el deslizador de instantáneas para ver cómo evolucionan los embeddings."},"generation":{"title":"Muestra Generada","seedPlaceholder":"Texto semilla…","generateButton":"Generar","temp":"Temp","tokens":"Tokens","tempTooltip":"La temperatura controla la aleatoriedad. Baja (0.1) = determinista. Alta (2.0) = creativo pero caótico.","tokensTooltip":"Número máximo de caracteres a generar. El modelo genera un carácter a la vez; más tokens = salida más larga pero más lenta.","estPpl":"PPL est. ≈","chars":"chars","pressGenerate":"Pulsa Generar para producir texto desde el modelo seleccionado.","pplTooltip":"Perplejidad = exp(pérdida). Esta es la perplejidad estimada del modelo en la distribución de entrenamiento — menor significa predicciones más seguras y fluidas."},"diagnostics":{"intro":"Estos diagnósticos revelan la dinámica interna del entrenamiento: flujo de gradientes, uso de neuronas y patrones de sobreajuste.","gradNormLabel":"Norma de Gradiente por Pasos","deadNeuronLabel":"Ratio de Neuronas Muertas por Pasos","gradNormSection":"ⓘ Normas de Gradiente por Capa","activationSection":"ⓘ Salud de Activaciones durante el Entrenamiento","genGapSection":"ⓘ Mapa de Calor de Brecha de Generalización · Todas las Configuraciones","tooltips":{"gradNorm":"La norma de gradiente es la magnitud global de las actualizaciones de pesos en cada paso de entrenamiento. Valores estables y moderados indican una optimización saludable.","deadNeuron":"Fracción de neuronas que nunca se activan durante el entrenamiento. Una neurona 'muerta' siempre produce cero, sin contribuir al aprendizaje.","gradNormLayer":"Muestra las magnitudes de gradiente por grupo de parámetros a través de las instantáneas de entrenamiento. Magnitudes equilibradas entre capas sugieren un aprendizaje estable.","activationHealth":"Muestra estadísticas de saturación y neuronas muertas a lo largo del tiempo de entrenamiento. La saturación significa que las neuronas están atascadas cerca de los límites de la activación tanh (±1).","genGap":"Diferencia entre pérdida de entrenamiento y validación en todas las configuraciones, promediada sobre las tasas de aprendizaje. Verde = el modelo generaliza bien. Rojo = sobreajuste."}},"dataSource":"Datos reales de {count} configuraciones entrenadas · {steps}k pasos cada una · registradas cada {interval} pasos.","primaryValLoss":"Principal: pérdida de validación.","primaryTrainLoss":"Principal: pérdida de entrenamiento (val. no disponible)."},"compareMode":{"needMore":"Se necesitan al menos 2 configuraciones para comparar.","needAtLeastTwoConfigs":"Se necesitan al menos 2 configuraciones para comparar.","description":"Selecciona dos configuraciones para comparar lado a lado. El texto semilla del generador principal se sincroniza con ambas.","selectTwoConfigsToCompare":"Selecciona dos configuraciones para comparar lado a lado. El texto semilla del generador principal se sincroniza con ambas.","configLabel":"Config {label}","config":"Config","configA":"Config A","configB":"Config B","title":"Comparación Lado a Lado","seed":"Semilla:","editSeedHint":"(editar en el generador principal arriba)","editInMainGeneratorAbove":"(editar en el generador principal arriba)","selectAConfig":"Seleccionar una config…","selectConfigA":"Seleccionar Config A","selectConfigB":"Seleccionar Config B arriba","diffTitle":"B vs A — diferencias","diffSummary":"B vs A — diferencias","noTimelineData":"Sin datos de línea de tiempo.","steps":"Pasos","train":"entren.","val":"val.","trainingLoss":"Pérdida de Entrenamiento","embeddingSpace":"Espacio de Embeddings","generatedText":"Texto Generado","temperature":"T","generate":"Generar","generating":"Generando…","seedTextAboveWillBeUsed":"Se usará el texto semilla de arriba.","metrics":{"valLoss":"Pérd. Val.","perplexity":"Perplejidad","gap":"Brecha","genGap":"Brecha Gen.","score":"Puntuación","params":"Parámetros"},"panel":{"trainingLoss":"Pérdida de Entrenamiento","embeddingSpace":"Espacio de Embeddings","generatedText":"Texto Generado","seedUsed":"Se usará el texto semilla de arriba.","noTimeline":"Sin datos de línea de tiempo.","tempLabel":"T=","generateButton":"Generar"}},"scatterPlot":{"description":"Cada punto es un modelo entrenado. X = número de parámetros (coste), Y = pérdida de validación final (menor es mejor). Color = dimensión del embedding. La línea discontinua es la","paretoFrontier":"frontera de Pareto","paretoDesc":"— mejor pérdida para cada nivel de cómputo.","highlighted":"resaltados","filters":{"all":"Todos","allTip":"Mostrar todas las configuraciones","best":"Mejores ★","bestTip":"Top 25% por puntuación compuesta","worst":"Peores","worstTip":"Bottom 25% por puntuación — mayor pérdida, menor calidad","anomalies":"Anomalías","anomaliesTip":"Configs con brecha de generalización > 0.3 o puntuación < 0.2"},"legend":{"paretoLine":"Frontera de Pareto"},"footer":"{count} configuraciones · Haz clic en cualquier punto para seleccionar · Abajo-derecha = más cómputo, menos beneficio","axisX":"Parámetros","axisY":"Pérd. Val."},"embeddingDrift":{"snapshotLabel":"Instantánea de entrenamiento","trainingSnapshot":"Instantánea de entrenamiento","stepLabel":"Paso","step":"Paso","loading":"Cargando embeddings…","phaseText":{"p0":"Inicialización aleatoria — los embeddings aún no tienen estructura.","p1":"Entrenamiento temprano — los clústeres comienzan a formarse.","p2":"Entrenamiento temprano-medio — las categorías de caracteres se vuelven distintas.","p3":"Entrenamiento medio — el espacio de embeddings muestra estructura clara. Los tokens similares se agrupan.","p4":"Entrenamiento tardío — la estructura se consolida, el ruido se reduce.","p5":"Punto de control final — embeddings completamente entrenados. Esto es lo que el modelo usa para predecir."},"phases":{"0":"Inicialización aleatoria — los embeddings aún no tienen estructura.","1":"Entrenamiento temprano — los clústeres comienzan a formarse.","2":"Entrenamiento temprano-medio — las categorías de caracteres se vuelven distintas.","3":"Entrenamiento medio — el espacio de embeddings muestra estructura clara. Los tokens similares se agrupan.","4":"Entrenamiento tardío — la estructura se consolida, el ruido se reduce.","5":"Punto de control final — embeddings completamente entrenados. Esto es lo que el modelo usa para predecir."},"snapshotUnavailable":"Instantánea no disponible — mostrando el punto de control más cercano disponible."},"embeddingViz":{"loading":"Cargando embeddings…","waiting":"Esperando datos de embeddings…","dim1":"Dimensión 1 (PCA)","dim2":"Dimensión 2 (PCA)","tokens":"tokens","clickInfo":"Haz clic en cualquier token para resaltar sus vecinos más cercanos. Los tokens similares se agrupan en el espacio de embeddings aprendido.","clickToHighlight":"Haz clic en cualquier token para resaltar sus vecinos más cercanos. Los tokens similares se agrupan en el espacio de embeddings aprendido.","deselectInfo":"Haz clic en otro token o en \"{token}\" de nuevo para deseleccionar. Las líneas discontinuas conectan con los 4 vecinos más cercanos en el espacio de embeddings.","clickToDeselect":"Haz clic en otro token o en \"{token}\" de nuevo para deseleccionar. Las líneas discontinuas conectan con los 4 vecinos más cercanos en el espacio de embeddings.","categories":{"vowel":"Vocales","vowels":"Vocales","consonant":"Consonantes","consonants":"Consonantes","digit":"Dígitos","digits":"Dígitos","punctuation":"Puntuación","whitespace":"Espacio / Especial","spaceSpecial":"Espacio / Especial"}},"nearestNeighbors":{"title":"Vecinos Más Cercanos (Similitud Coseno)","loading":"Cargando datos de vecinos…","neighborsOf":"Vecinos de","noNeighborData":"No hay datos de vecinos para este token.","noData":"No hay datos de vecinos para este token.","selectPrompt":"Selecciona un token arriba para ver sus vecinos más cercanos por similitud coseno en el espacio de embeddings."},"snapshotDiagnostics":{"noSnapshotData":"No hay datos de instantáneas disponibles.","noGradData":"No hay datos de norma de gradiente en las instantáneas.","noSatData":"No hay datos de saturación de activaciones en las instantáneas.","gradLegend":"Verde = gradientes pequeños · Amarillo/Rojo = gradientes grandes · Magnitudes consistentes entre capas indican un entrenamiento saludable.","saturatedLeft":"Activaciones saturadas (izquierda)","deadRight":"Neuronas muertas (derecha)","satLegend":"La saturación alta significa que muchas neuronas están fijadas en los extremos de tanh (±1). Las neuronas muertas nunca se activan. Ambas desperdician capacidad.","satNote":"La saturación alta significa que muchas neuronas están fijadas en los extremos de tanh (±1). Las neuronas muertas nunca se activan. Ambas desperdician capacidad.","stepHeader":"Paso","step":"Paso"},"genGapHeatmap":{"header":"oculto ↓ / emb →","axisLabel":"oculto ↓ / emb →","gapLabel":"Brecha:","legend":{"healthy":"< 0 (saludable)","low":"0–0.1","mid":"0.1–0.2","medium":"0.1–0.2","high":"0.2–0.3","overfit":"> 0.3 (sobreajuste)"},"note":"Cada celda promedia la brecha entren.–val. en todas las tasas de aprendizaje para ese par (emb_dim, hidden_size). Rojo = sobreajuste. Verde = generalización saludable.","description":"Cada celda promedia la brecha entren.–val. en todas las tasas de aprendizaje para ese par (emb_dim, hidden_size). Rojo = sobreajuste. Verde = generalización saludable.","configs":"configs (entre LRs)","avgGap":"brecha prom.=","bestLoss":"mejor pérdida="}},"neuralNetworks":{"title":"Redes Neuronales y Deep Learning","description":"Una exploración desde primeros principios de las redes neuronales artificiales — del perceptrón a la retropropagación. Comprende cómo los parámetros aprendidos reemplazan al conteo y por qué las representaciones densas generalizan donde los N-gramas fallan.","hero":{"badge":"Computación Neuronal"},"freeLab":{"title":"Playground de Redes Neuronales","description":"Experimenta libremente con perceptrones, funciones de activación, actualizaciones de pesos y dinámicas de entrenamiento."},"guidedExperiments":{"title":"Experimentos Guiados","subtitle":"Cinco ejercicios rápidos para construir intuición","handVsTraining":{"title":"Construye tu Primera Neurona — A Mano, Luego con Entrenamiento","doThis":"Establece x₁=1, x₂=0.5. Ajusta manualmente w₁, w₂, b hasta que la salida sea ≈ 0.8. Luego reinicia y entrena con objetivo=0.8.","observeThis":"El entrenamiento encuentra valores similares automáticamente. El descenso de gradiente reemplaza la suposición manual."},"activationComparison":{"title":"Compara Funciones de Activación","doThis":"Cambia entre Lineal, ReLU, Sigmoide y Tanh. Establece x₁=−2, x₂=2, w₁=1, w₂=1, b=0.","observeThis":"Lineal pasa los negativos sin cambios. ReLU los pone a cero. Sigmoide y Tanh comprimen a rangos acotados."},"learningRateExtremes":{"title":"Rompe el Entrenamiento con Tasas de Aprendizaje Extremas","doThis":"Cambia el modelo a Lineal. Establece objetivo=0.8. Entrena con η=0.05 (lento), luego η=1.0 (normal), luego η=2.0 (agresivo).","observeThis":"η baja converge lentamente. η alta puede sobrepasarse y oscilar. El punto óptimo depende del modelo y los datos."},"convergenceBehavior":{"title":"Mira la Pérdida Converger Durante Muchos Pasos","doThis":"Establece objetivo=0.9, η=1.0. Haz clic en Auto-Train ×10 repetidamente y observa el gráfico de pérdida.","observeThis":"La pérdida baja rápido al principio, luego se estanca. Los primeros pasos son los más importantes."},"randomInitialization":{"title":"Mira por qué Importa la Iniciaización Aleatoria","doThis":"Entrena al objetivo=0.5 con parámetros por defecto. Reinicia. Cambia w₁ a 2.0, entrena de nuevo. Compara la pérdida final.","observeThis":"Diferentes puntos de partida llevan a diferentes soluciones. Las redes neuronales no son convexas; la inicialización importa."}},"sections":{"artificialNeuron":{"number":"02","label":"Ensamblaje"},"nonLinearity":{"number":"03","label":"Escalando"},"findingDirection":{"number":"04","label":"Corrección"},"makingItLearn":{"number":"05","label":"Entrenamiento"},"trainingAtScale":{"number":"06","label":"Escala"},"overfittingTrap":{"number":"07","label":"Sobreajuste"},"fromNumbers":{"number":"08","label":"Lenguaje"},"playground":{"inputs":{"title":"Entradas","desc":"Valores de características que se introducen en el perceptrón. Cada entrada se multiplica por su peso correspondiente antes de sumarse.","x1":"Primer valor de entrada (x₁). Se multiplica por el peso w₁ antes de entrar al nodo de suma.","x2":"Segundo valor de entrada (x₂). Se multiplica por el peso w₂ antes de entrar al nodo de suma."},"weights":{"title":"Parámetros","desc":"Parámetros aprendibles que escalan cada entrada. El sesgo desplaza el umbral de activación independientemente de las entradas.","w1":"Peso para la entrada x₁. Controla cuánto influye x₁ en la salida. Se actualiza por descenso de gradiente durante el entrenamiento.","w2":"Peso para la entrada x₂. Controla cuánto influye x₂ en la salida. Se actualiza por descenso de gradiente durante el entrenamiento.","bias":"Término de sesgo (b). Desplaza la suma ponderada, permitiendo que la neurona se active incluso cuando todas las entradas son cero."},"activation":{"title":"Función de Activación","explorerTitle":"Interactivo · Funciones de Activación","ariaLabel":"Gráfico de la función de activación {name}","inputLabel":"Suma ponderada z (entrada a la activación)","caption":"Cambia entre funciones de activación y arrastra el deslizador z para ver cómo cada una transforma la suma ponderada.","desc":"Transformación no lineal aplicada tras la suma ponderada. Sin ella, apilar capas colapsaría en una única función lineal.","linear":"Sin transformación — la salida es igual a la suma ponderada z. Útil como referencia, pero no puede modelar patrones no lineales.","relu":"Unidad Lineal Rectificada. Devuelve max(0, z). Dispersa, eficiente y ampliamente usada en redes profundas.","sigmoid":"Comprime la salida a (0, 1). Útil para salidas de probabilidad binaria, pero puede causar gradientes que desaparecen.","tanh":"Comprime la salida a (−1, 1). Centrada en cero, a menudo preferida sobre sigmoid para capas ocultas.","labels":{"relu":"ReLU","sigmoid":"Sigmoide","tanh":"Tanh"}},"training":{"title":"Entrenamiento","desc":"Ajusta el objetivo y la tasa de aprendizaje, luego avanza paso a paso por el descenso de gradiente para minimizar la pérdida.","target":"El valor de salida deseado (y). El modelo intenta minimizar la diferencia cuadrática entre su predicción y este objetivo.","learningRate":"Tasa de aprendizaje (η). Controla el tamaño del paso en el descenso de gradiente. Muy alta causa inestabilidad; muy baja ralentiza la convergencia.","step":"Ejecuta un paso de descenso de gradiente: calcula los gradientes y actualiza w₁, w₂ y b por −η × gradiente.","auto":"Ejecuta 10 pasos de descenso de gradiente en secuencia para observar cómo evolucionan los parámetros y la pérdida.","reset":"Reinicia todos los parámetros e historial de entrenamiento a sus valores iniciales.","random":"Aleatoriza los pesos y el sesgo para explorar una región diferente del paisaje de pérdida.","steps":"Número total de pasos de descenso de gradiente realizados en esta sesión de entrenamiento.","stepIndex":"Número de paso en el registro del historial de entrenamiento.","noData":"Sin datos de entrenamiento aún","noDataHint":"Haz clic en \"Entrenar 1 Paso\" o \"Auto-Entrenar ×10\" para comenzar","insightsTitle":"Perspectivas de Entrenamiento","runInference":"Ejecuta inferencia para ver los datos de entrenamiento","stats":{"finalLoss":{"label":"Pérdida Final","desc":"El nivel de error al final del entrenamiento. Cuanto menor, mejor."},"steps":{"label":"Pasos","desc":"Cuántas veces el modelo actualizó sus parámetros durante el entrenamiento."},"batchSize":{"label":"Tamaño de Lote","desc":"Número de ejemplos procesados por paso de actualización de gradiente."},"learningRate":{"label":"Tasa de Aprendizaje","desc":"Tamaño del paso en el descenso de gradiente. Muy alta causa inestabilidad; muy baja ralentiza la convergencia."},"parameters":{"label":"Parámetros","desc":"Número total de pesos aprendibles en el modelo."}}},"visualization":{"sum":"Nodo de suma ponderada (Σ). Calcula z = w₁x₁ + w₂x₂ + b antes de aplicar la función de activación.","output":"Predicción final ŷ = activación(z). Es el valor que la red produce tras aplicar la no linealidad.","loss":"Pérdida de error cuadrático medio: L = (ŷ − objetivo)². Mide cuánto se aleja la predicción del objetivo deseado.","activationNode":"Nodo de función de activación. Aplica la no linealidad seleccionada a la suma ponderada z.","activationCurve":"Curva de la función de activación. El punto muestra la entrada z actual y su salida correspondiente f(z).","equation":"Ecuación completa del paso hacia adelante: multiplica cada entrada por su peso, suma el sesgo y aplica la función de activación.","lossCurve":"Pérdida a lo largo de los pasos de entrenamiento. Una curva descendente indica que el modelo está aprendiendo.","lossCurveLabel":"Pérdida por pasos de entrenamiento","lossTooltipTitle":"¿Qué es la Pérdida?","lossTooltipErrorLabel":"Error de Predicción","lossTooltipError":"La pérdida mide cuánto se \"sorprende\" el modelo. Una pérdida alta significa que está prediciendo mal con frecuencia.","lossTooltipBenchmarkLabel":"El Punto de Referencia","lossTooltipBenchmark":"Una predicción aleatoria pura daría una pérdida de ~4.56 (−ln(1/96)). Cualquier valor menor significa que el modelo ha aprendido algo.","lossTooltipCaption":"La curva descendente muestra al modelo descubriendo lentamente patrones en tu texto."},"tabs":{"perceptron":"Visualiza el paso hacia adelante de una sola neurona: las entradas se escalan por pesos, se suman con un sesgo y pasan por una activación.","activation":"Explora cómo la función de activación elegida transforma la suma ponderada z en la predicción final ŷ.","gradients":"Inspecciona el flujo de gradientes por la regla de la cadena y observa exactamente cómo se actualizará cada parámetro.","training":"Sigue la evolución de la pérdida y los parámetros a lo largo de los pasos para observar el descenso de gradiente en acción."},"gradients":{"visualizerTitle":"Interactivo · Retropropagación Paso a Paso","forwardPass":"Paso hacia adelante: calcula z, aplica la activación y calcula la pérdida a partir de la predicción y el objetivo actuales.","forwardPassLabel":"Paso Hacia Adelante","chainRule":"Retropropagación mediante la regla de la cadena: descompone ∂L/∂w en un producto de gradientes locales a través de cada nodo.","chainRuleLabel":"Gradientes (Regla de la Cadena)","weightUpdate":"Actualización propuesta de parámetros: nuevo valor = valor anterior − η × gradiente. Se aplica al hacer clic en Entrenar 1 Paso.","weightUpdateLabel":"Actualización de Pesos","linearSum":"Pre-activación lineal: z = w₁x₁ + w₂x₂ + b. La suma ponderada bruta antes de la función de activación.","linearSumLabel":"Lineal","prediction":"Predicción ŷ = activación(z). La salida de la neurona tras aplicar la función de activación no lineal.","predictionLabel":"Activación","loss":"Pérdida L = (ŷ − objetivo)². Error cuadrático entre la predicción y el valor objetivo deseado.","lossLabel":"Pérdida","reset":"Reiniciar","caption":"Avanza por el paso hacia adelante, la retropropagación y las actualizaciones de pesos para ver cómo aprende una neurona.","buttonLabels":{"idle":"Correr Paso Adelante →","forward":"Retropropagar →","backward":"Actualizar Pesos →","update":"Nuevo Paso Adelante →"}},"buttons":{"trainStep":"Entrenar 1 Paso","autoTrain":"Auto-Entrenar ×10","reset":"Reiniciar","random":"Aleatorio"},"tabLabels":{"perceptron":"Perceptrón","activation":"Activación","gradients":"Gradientes","training":"Entrenamiento"},"diagram":{"title":"Interactivo · Perceptrón","ariaLabel":"Diagrama de flujo del perceptrón","caption":"Ajusta las entradas, pesos y sesgo para ver cómo el perceptrón los transforma en una salida.","inputX1":"Entrada x₁","inputX2":"Entrada x₂","weightW1":"Peso w₁","weightW2":"Peso w₂","biasB":"Sesgo b","tooltipW1":"Peso w₁ = {val} — Controla cuánto influye la entrada x₁ en la suma","tooltipW2":"Peso w₂ = {val} — Controla cuánto influye la entrada x₂ en la suma","tooltipX1":"Entrada x₁ = {val} — La primera característica de entrada alimentada a la neurona","tooltipX2":"Entrada x₂ = {val} — La segunda característica de entrada alimentada a la neurona","tooltipSum":"Suma Ponderada z = {val} — Calculada como (w₁×x₁) + (w₂×x₂) + b","tooltipBias":"Sesgo b = {val} — Desplaza el umbral de decisión; positivo = más fácil de activar, negativo = más difícil","tooltipActivation":"Activación ReLU = {val} — ReLU(z) = max(0, z). Salida z si es positivo, de lo contrario 0","tooltipOutput":"Salida Final = {val} — La predicción de la neurona tras aplicar ReLU a la suma ponderada","breakdownTitle":"Desglose de Contribución"}}}},"transformer":{"title":"Transformers y Atención","description":"Cómo la atención permite a un modelo pesar cada token frente a todos los demás — la arquitectura detrás de los modelos de lenguaje modernos, construida desde los principios."}},"bigramNarrative":{"hero":{"eyebrow":"Capítulo 1 · La Era del Conteo","titlePrefix":"El Modelo","titleSuffix":"Bigrama","description":"En 1948, Claude Shannon hizo una apuesta: se podía predecir la siguiente letra de una frase simplemente contando qué letras suelen seguir a cuáles. Sin gramática. Sin comprensión. Solo conteo. En este capítulo, vas a poner esa apuesta a prueba.","autoCompleteHint":"Este modelo predice un carácter a la vez. Prueba a escribir.","readTime":"~10 min de lectura · 6 demos interactivas"},"problem":{"title":"Adivina la Letra que Falta","lead":"Empecemos con un juego. Ves una frase con una letra que falta — ¿puedes adivinar cuál es?","p1":"Acabas de hacer algo increíble: has ","p1Highlight":"predicho la siguiente letra","p2":" sin pensarlo. Tu cerebro usó las letras anteriores — el contexto — para hacer una suposición educada.","p3":"Pero esta es la pregunta que lo empezó todo:","quote":"¿Cómo podríamos enseñar a una máquina a hacer lo mismo?","p4":"Un ordenador no puede \"entender\" el lenguaje. No puede leer. No sabe qué son las ","h1":"palabras","h2":"gramática","h3":"significado","p5":". Solo conoce números. Así que necesitamos una estrategia tan simple que hasta una calculadora podría hacerla. Inventemos una juntos.","connector":", o ","label":"El Desafío","heroAutoIntro":"Antes de empezar — prueba esto. Escribe cualquier letra abajo y mira qué pasa.","heroAutoLabel":"Interactivo · Escribe una Letra","heroAutoHint":"Esta mini-demo predice el siguiente carácter basándose en una sola letra. ¿Cómo lo sabe?","heroAutoBridge":"Acabas de ver una predicción. La máquina miró una letra y adivinó qué viene después. ¿Pero cómo? Vamos a descubrirlo."},"coreIdea":{"label":"La Idea Más Simple","title":"¿Y Si Solo Contamos?","lead":"¿Y si hay un patrón oculto en cada texto jamás escrito? Veamos si puedes descubrirlo.","p1":"¿Y si miramos mucho texto y hacemos una sola pregunta: ","h1":"¿qué letra suele venir después de esta?","p2":" Eso es todo. Sin comprensión. Sin reglas gramaticales. Solo contar pares. Si 'e' sigue a 'h' 3.000 veces y 'a' sigue a 'h' 800 veces, entonces después de 'h' apostaríamos por 'e'. Acabamos de inventar algo — los lingüistas lo llaman bigrama.","discoveryBridge":"¿Te diste cuenta? Algunos pares aparecen una y otra vez — 'th', 'he', 'in', 'er'. No son aleatorios. Cada idioma tiene combinaciones de letras favoritas. ¿Y si los contáramos todos?","spaceCalloutTitle":"El Espacio También Es un Carácter","spaceCalloutText":"Quizás notaste espacios entre los pares. En este modelo, el espacio (␣) es simplemente otra letra del vocabulario — ayuda al modelo a aprender dónde empiezan y terminan las palabras.","namingBridge":"Lo que acabas de descubrir tiene nombre. Los lingüistas llaman a un par de dos caracteres consecutivos un ","namingEnd":". La idea es vergonzosamente simple: contar pares y adivinar según los conteos.","formalTitle":"Más profundo: el nombre, la fórmula y la historia","formalP1":"El prefijo 'bi-' significa dos, y '-grama' viene del griego gramma (letra). Un bigrama es literalmente una unidad de dos letras. En NLP, el término se extiende a cualquier par de tokens consecutivos — caracteres, palabras o subpalabras. Andrey Markov formalizó este enfoque en 1913 cuando analizó las transiciones de letras en el Eugenio Oneguin de Pushkin — uno de los primeros modelos de lenguaje basados en datos de la historia.","etymologyBridge":"Ahora la matemática. La fórmula resulta ser exactamente lo que intuirías:","formulaCaption":"Probabilidad del carácter cₙ dado el carácter anterior cₙ₋₁","formalP2":"En castellano llano: cuenta cuántas veces ese par específico apareció en el texto de entrenamiento y divide por cuántas veces apareció el primer carácter en total. Esa proporción es la probabilidad.","formalP3":"Esto es una Estimación de Máxima Verosimilitud (MLE) — la forma más simple de convertir conteos en probabilidades. La misma matemática aparece en los pronósticos del tiempo ('llovíó 30 de 100 martes, así que P(lluvia|martes) = 30%') y los promedios de bateo. Nada exquisito.","caption":"El supuesto del Bigrama: la siguiente letra depende solo de la actual.","p3":"Es casi vergonzosamente simple. Pero funciona mejor de lo que esperarías.","calloutTitle":"¿Por qué \"Bigrama\"?","calloutP1":"\"Bi\" significa ","calloutH1":"dos","calloutP2":". Un bigrama es un par de dos caracteres — el actual y el siguiente. El modelo mira pares, los cuenta, y usa esos conteos para adivinar. Ese es todo el algoritmo."},"mechanics":{"label":"El Panorama Completo","title":"La Tabla de Transición","lead":"Tienes cientos de pares contados. ¿Pero dónde los guardas todos?","storageIntro":"Piénsalo: cada carácter del vocabulario podría ir seguido de cualquier otro carácter. Eso significa que para cada carácter inicial, necesitas un espacio para cada posible siguiente carácter. ¿Cuántos espacios son en total?","discoveryBridge":"Cada par tiene exactamente dos partes — la letra actual y la siguiente. ¿Y si los organizáramos en una cuadrícula?","bridgeQuote":"Filas = letra actual. Columnas = letra siguiente. Cada celda = cuántas veces vimos ese par.","bridgeP3":"Empecemos con algo pequeño — solo 5 caracteres — y veamos cómo queda esta tabla:","p1":"Obtendrías una tabla gigante — una ","h1":"matriz de transición","p2":". Las filas son el carácter actual, las columnas el siguiente, y cada celda guarda cuántas veces apareció ese par. Es como una hoja de trucos completa para predecir letras.","p3":"La visualización de abajo muestra esta tabla entrenada con texto real. Las celdas más brillantes significan pares más frecuentes — patrones que el modelo descubrió contando.","fullMatrixBridge":"Ahora ampliemos la vista. La tabla 5×5 de arriba cubre solo un puñado de caracteres. La tabla real de abajo cubre los 96 caracteres ASCII imprimibles — entrenada con miles de oraciones. Las celdas más brillantes significan que el modelo vio ese par con más frecuencia.","dataSourceTitle":"¿De dónde vienen estos datos?","dataSourceP1":"Esta tabla se construyó escaneando un corpus de texto real (un ensayo de Paul Graham) carácter por carácter, contando cada par que encontró.","dataSourceP2":"Por ejemplo, el texto contiene 'the' muchas veces, así que las celdas para 't→h' y 'h→e' son brillantes — esas transiciones son muy comunes.","dataSourceP3":"El resultado: una tabla de 96×96 donde cada uno de los 96 caracteres imprimibles tiene su propia fila, mostrando qué suele seguirle.","builderBridge":"Ahora es tu turno. Escribe cualquier texto abajo y observa cómo cada par de caracteres suma exactamente +1 a su celda. Al final, habrás construido una tabla de transición completa desde cero.","builderLabel":"Interactivo · Construye la Tabla Tú Mismo","builderHint":"Escribe tu propio texto y observa cómo se llena la tabla par a par.","tinyMatrixCountTooltip":"Después de {row}, {col} apareció {count} veces","calloutTitle":"Leyendo la Tabla","calloutP1":"Cada fila es un carácter \"actual\". Cada columna es un carácter \"siguiente\". Celdas brillantes = pares comunes. Celdas oscuras = raros o nunca vistos. Fíjate cómo algunas filas tienen favoritos claros mientras otras están más repartidas.","tinyMatrixLabel":"Matriz 5×5 simplificada · ['t', 'h', 'e', 'a', '·']","tinyMatrixHint":"Pasa el cursor por cualquier celda para ver la probabilidad exacta. Filas = carácter actual, Columnas = siguiente carácter.","tinyMatrixHover":"Pasa el cursor por una celda para ver su probabilidad","tinyMatrixColLabel":"siguiente carácter →","tinyMatrixRowLabel":"carácter actual →","tinyMatrixPlay":"Construir la cuadrícula","tinyMatrixReplay":"Otra vez","tinyMatrixBuilding":"Cada letra nueva estrena su propia fila. Apílalas y aparece la cuadrícula.","tinyMatrixGrid":"Izquierda: de qué letra partes. Arriba: a cuál vas. La casilla donde se cruzan: cuántas veces pasó.","tinyMatrixHigh":"frecuente","tinyMatrixLow":"poco frecuente","tinyMatrixRare":"muy raro / nunca","tinyMatrixTooltip":"Después de {row}, {col} aparece el {pct} de las veces","fullMatrixHint":"Celdas más brillantes = pares más frecuentes. Haz clic en cualquier celda para inspeccionarla.","sectionBridge":"Construiste la tabla. Contiene todo lo que el modelo sabe sobre qué letras siguen a cuáles. Pero los conteos brutos no son predicciones — ¿cómo los convertimos en probabilidades reales?"},"history":{"title":"Breve Historia del Conteo de Letras","summary":"De los experimentos de Márkov con vocales a la teoría de la información de Shannon — contar pares tiene una historia sorprendentemente profunda.","subtitle":"Línea Temporal de la Era del Conteo","p1":"El matemático ruso Andréi Márkov analizó 20.000 letras de Eugene Onegin de Pushkin, rastreando cómo vocales y consonantes se seguían unas a otras. Demostró que las secuencias de letras no eran aleatorias — tenían estructura. Este fue el nacimiento de la cadena de Márkov.","p2":"Claude Shannon publicó 'Una Teoría Matemática de la Comunicación' — uno de los artículos más influyentes jamás escritos. Usó predicción a nivel de caracteres (exactamente lo que acabamos de construir) para medir el contenido informativo del inglés. Sus tablas de bigramas fueron los primeros modelos de lenguaje.","p3":"Investigadores de IBM y Bell Labs construyeron los primeros modelos de lenguaje computacionales para reconocimiento de voz. Contaron pares de palabras (bigramas) y tripletes (trigramas) en grandes corpus de texto. La idea era idéntica a la nuestra — solo que a nivel de palabras en vez de caracteres.","p4":"Yoshua Bengio demostró que las redes neuronales podían aprender mejores modelos de lenguaje que el conteo. Este fue el principio del fin de la era del conteo — pero la intuición detrás de los bigramas (predecir desde el contexto) vive en cada modelo de lenguaje moderno, incluyendo GPT."},"normalization":{"label":"De Conteos a Probabilidades","title":"Convertir Conteos en Probabilidades","lead":"Tenemos conteos — pero ¿cómo convertimos \"h→e apareció 3.481 veces\" en \"hay un 32% de probabilidad de que 'e' venga después de 'h'\"?","p1":"Simple: ","h1":"dividimos cada conteo por el total de la fila","p2":". Si 'h' fue seguida por cualquier carácter 10.800 veces en total, y 'h→e' apareció 3.481 veces, entonces la probabilidad es 3.481 ÷ 10.800 ≈ 32%. Ahora cada fila suma 100%.","vizHint":"Elige un carácter y recorre el proceso de normalización — de conteos brutos a porcentajes.","p3":"El modelo ahora puede hacer predicciones concretas: \"Después de 'h', hay un 32% de probabilidad de que la siguiente letra sea 'e', 15% de que sea 'a', etc.\"","queryVizBridge":"Juntemos todo. Elige un carácter abajo y recorre el pipeline completo de predicción: busca la fila, ve los conteos, normaliza a probabilidades y lanza el dado ponderado.","plainEnglishTitle":"La Regla","plainEnglish":"Probabilidad de la siguiente letra = cuántas veces apareció este par ÷ cuántas veces apareció esta letra inicial antes de cualquier otra.","p4":"Pruébalo abajo. Escribe cualquier carácter y mira qué predice el modelo que viene después — basándose ","h2":"únicamente en el último carácter","p5":" que escribiste."},"normalizationViz":{"theRowLabel":"La fila de la «t»","context":"Después de '{char}', ¿cuáles son las probabilidades de cada siguiente carácter?","step1Title":"Paso 1: Conteos Brutos","step1Desc":"Cuántas veces apareció cada carácter después de '{char}' en el texto de entrenamiento","charHeader":"Car","frequencyHeader":"Frecuencia","countHeader":"Conteo","totalLabel":"Total de transiciones desde '{char}':","step2Title":"Paso 2: Dividir por el Total","step2Desc":"Cada conteo dividido por la suma de todos los conteos en la fila","step2Formula":"conteo({char}→{next})","step2Total":"total","step3Title":"Paso 3: Probabilidades","step3Desc":"Cada conteo dividido por {total} da la probabilidad","probabilityHeader":"Probabilidad","pctHeader":"%","sumLabel":"Suma de probabilidades:","nextStep":"Siguiente Paso","reset":"Reiniciar"},"queryViz":{"label":"Interactivo · Cómo Predice un Bigrama","hint":"Recorre cada paso del proceso de predicción — desde la selección del carácter hasta el lanzamiento del dado.","step0Label":"Elegir","step1Label":"Buscar","step2Label":"Conteos","step3Label":"Normalizar","step4Label":"Predecir","pickChar":"Elige un carácter para consultar al modelo — vamos a trazar exactamente cómo predice.","lookingUp":"Buscando la fila '{char}' en la tabla de transición…","rawCountsIntro":"Aquí están los conteos brutos de lo que sigue a '{char}' en el texto de entrenamiento:","totalRaw":"Total: {total} apariciones","normalizeIntro":"Ahora dividimos cada conteo por el total para obtener probabilidades — esto es la normalización.","predictionIntro":"El modelo dice: después de '{char}', el siguiente carácter más probable es…","topPrediction":"Predicción principal","diceExplain":"Pero el modelo no siempre elige el más probable. Lanza un dado ponderado — los caracteres con mayor probabilidad tienen más chances de ganar.","rollDice":"Lanzar el dado","rolled":"Después de '{char}', el modelo escribió '{next}'","tryAnother":"Probar otro carácter","next":"Siguiente"},"sampling":{"label":"Dejémosle Escribir","title":"Dejar que el Modelo Escriba","lead":"Nuestra tabla está lista. Ahora hagamos algo divertido: dejar que el modelo escriba texto por su cuenta.","p1":"El proceso es simple — lo llamamos ","h1":"escribir letra por letra","p2":": elige una letra inicial, busca su fila en la tabla, lanza un dado ponderado para elegir la siguiente letra, y usa esa letra como nuevo punto de partida. Repetir.","calloutTitle":"Temperatura","calloutP1":"El parámetro de ","calloutH1":"temperatura","calloutP2":" controla cuán \"creativa\" es la generación. A ","calloutH2":"temperaturas bajas","calloutP3":", el modelo casi siempre elige el token más probable. A ","calloutH3":"temperaturas altas","calloutP4":", muestrea más uniformemente — produciendo resultados sorprendentes y a menudo sin sentido.","softmaxTitle":"Por dentro: Softmax y temperatura","softmaxIntuition":"La intuición: los conteos más grandes deben recibir probabilidades más altas, y las probabilidades deben sumar 1. Softmax hace exactamente eso — amplifica diferencias y normaliza, todo en un paso.","softmaxP1":"Formalmente: softmax toma cualquier lista de números (llamados logits) y los comprime en probabilidades que suman 1, preservando el orden relativo. La exponencial garantiza que todos los valores sean positivos; dividir por la suma los normaliza.","softmaxFormulaCaption":"Cada salida es la exponencial de la entrada dividida por la suma de todas las exponenciales","softmaxP2":"La temperatura es un solo número T que divide cada logit antes de aplicar softmax. Cuando T < 1, las diferencias se amplifican (el modelo se vuelve más seguro). Cuando T > 1, las diferencias se reducen (el modelo se vuelve más aleatorio). Con T → 0 siempre elige el token más probable; con T → ∞ cada token es igualmente probable.","softmaxTempCaption":"Softmax con escala de temperatura — T controla la 'nitidez' de la distribución","softmaxP3":"Softmax aparece en todas partes de la IA moderna: capas de atención en Transformers, cabezas de clasificación en redes neuronales, y políticas de aprendizaje por refuerzo. La versión que acabas de ver en el bigrama es el caso más simple — pero la matemática es idéntica a la que usa GPT-4.","playgroundBridge":"Ahora démosle al modelo una letra inicial y dejémosle escribir. El playground de abajo tiene un control de temperatura — prueba bajo para seguro y predecible, alto para caos y sorpresa.","playgroundLabel":"Playground de Generación","playgroundHint":"Ajusta la temperatura y observa cómo cambia el texto generado.","samplingMechanismLabel":"Interactivo · El Dado Ponderado","samplingMechanismHint":"Haz clic en 'Lanzar' para ver cómo el modelo elige aleatoriamente el siguiente carácter según las probabilidades.","p3":"Genera texto y fíjate en algo: un modelo con ","h2":"solo una letra de memoria","p4":" produce galimatías que de algún modo suena a letras. Los pares son correctos pero las palabras están mal. ¿Por qué?"},"counting":{"title":"Construyendo la Tabla","lead":"Veamos exactamente cómo funciona contar pares, paso a paso.","builderTitle":"Contador de Pares","builderDesc":"Observa cómo cada par de caracteres suma +1 a la tabla.","p1":"La operación es casi demasiado simple: recorre un texto un carácter a la vez. Por cada par de caracteres consecutivos (actual → siguiente), suma uno al contador. Eso es todo. Después de escanear suficiente texto, estos conteos revelan qué caracteres tienden a seguir a cuáles — y con qué fuerza.","p2":"El constructor de abajo hace esto concreto. Observa cómo cada par en el texto añade exactamente un conteo a su celda. Al final, habrás construido un registro completo de cada transición en el texto.","calloutTitle":"¿Por qué funciona el conteo?","calloutText":"Con suficiente texto, las frecuencias observadas se acercan mucho a las probabilidades reales del lenguaje. Cuantos más datos tengas, más fiable será tu tabla."},"matrix":{"title":"La tabla de transición","lead":"Filas = letra actual, columnas = siguiente.","desc":"Constrúyela paso a paso, luego ve el panorama completo."},"probabilities":{"title":"De conteos a probabilidades","lead":"Divide cada conteo por el total de la fila para obtener porcentajes.","desc":"El modelo busca la fila del último carácter y elige el siguiente.","inferenceIntro":"Recorre el proceso de inferencia paso a paso abajo: elige un carácter, mira su fila de conteos, normaliza a porcentajes, y muestrea el siguiente carácter. Fíjate cómo cambia la distribución dependiendo de lo que vino antes.","overlayTitle":"Conteos → Probabilidades → Predicción","overlayDesc":"Elige un carácter, normaliza su fila, mira qué viene después.","step1":"1) Conteos brutos","step2":"2) Normalizar","step3":"3) Lanzar el dado","currentToken":"Letra actual","typeChar":"Escribe un carácter","normalizeSimple":"División simple","softmax":"Softmax","sampleNext":"Lanzar el dado","mostLikely":"Más probable:","remaining":"Restante:","stochastic":"Cada lanzamiento es aleatorio — el modelo elige basándose en probabilidades, no en certeza."},"limitations":{"title":"Limitaciones","lead":"Una letra de memoria. Es todo lo que tiene.","desc":"Sin contexto. Por eso necesitamos N-gramas y redes neuronales."},"predictionExample":{"label":"Véalo en Acción","title":"Una Predicción, Paso a Paso","lead":"Antes de entrar en detalles, veamos al modelo hacer una sola predicción. Elige cualquier carácter.","inputLabel":"entrada","lookupLabel":"el modelo busca","step1":"Elige un carácter","step2":"Fila '{char}' en la tabla","step3":"Mejores predicciones","hint":"Haz clic en cualquier carácter para ver qué predice el modelo."},"predictionChallenge":{"label":"Tu Turno","title":"¿Puedes Ganar al Modelo?","lead":"Antes de explicarte cómo funciona una máquina, predice tú. Usa tu instinto sobre el idioma.","prompt":"¿Qué letra crees que viene después?","okLabel":"✓ Tu instinto acertó","almostLabel":"Casi — lo más natural es «{answer}»","tally":"Tu instinto","figureOf":"de","resultLabel":"Ver resultado","advanceLabel":"Siguiente","restart":"↻ Probar otra vez","thesis":"Sin reglas ni gramática, usaste el contexto — las letras anteriores — para adivinar la siguiente. La pregunta que abre este capítulo: ¿cómo le enseñamos esto a una máquina?","headlineTiers":{"perfect":"Predijiste como un lector nativo.","close":"Tu instinto sigue el idioma muy de cerca.","half":"Ya predices la siguiente letra sin darte cuenta.","low":"El idioma esconde sus patrones — vuelve a probar."},"explanations":{"0":"Después de «th», la «e» aparece casi la mitad de las veces — forma «the», la palabra más común del inglés.","1":"La «q» arrastra a la «u» casi siempre. En inglés es prácticamente una regla, no una probabilidad.","2":"«in», «ing», «ion»… después de la «i», la «n» es la continuación más frecuente, con diferencia.","3":"Tras un espacio empieza palabra nueva, y muchísimas arrancan por «t»: the, to, that, this…","4":"La «e» suele cerrar palabra. Lo más natural después de ella no es otra letra: es un espacio."}},"pairHighlighter":{"pairFound":"Par encontrado: {first} → {second}","countsLabel":"Conteo de Pares","replay":"Repetir","tryOwn":"Prueba tu propia frase","placeholder":"Escribe una frase…","go":"Ir","figureLabel":"Interactivo · ¿Puedes Encontrar el Patrón?","figureHint":"Haz clic en cada paso para ver cómo se cuentan los pares de caracteres. ¿Cuáles se repiten?","summaryUnique":"Pares únicos:","summaryTotal":"Total de transiciones:","stepPrompt":"Miremos el texto de abajo. Vamos a recorrerlo par a par — haz clic en el botón para revelar el primer par.","startButton":"Empezar a Contar","nextStep":"Siguiente Par","currentPairLabel":"Par actual","firstTime":"primera vez","seenRepeats":"visto {n}× · ¡se repite!","patternLabel":"El patrón","patternRepeats":"estos pares aparecen más de una vez:","patternUnique":"casi todo es único aquí — prueba una frase más larga para verlo emerger.","countAll":"Contar el resto"},"corpusCounting":{"figureLabel":"Interactivo · Contando Patrones en Texto Real","figureHint":"Elige un carácter y observa cómo el modelo escanea texto real para contar qué le sigue. Pausa en cualquier momento para avanzar manualmente.","selectChar":"Elige un carácter inicial","corpusLabel":"Texto de entrenamiento","countsLabel":"Pares encontrados","scanning":"Escaneando…","found":"Encontrados {count} pares que empiezan con '{char}'","totalLabel":"Total de pares","reveal":"Eso es todo. Cuenta qué letras siguen a cuáles. Ese es todo el algoritmo.","replay":"Escanear de nuevo","hint":"Elige un carácter arriba para empezar a escanear el texto.","empty":"No se encontraron pares para este carácter.","stepExplain":"Coincidencia {pos} de {total}","pauseBtn":"Pausar","nextBtn":"Siguiente →","verdictLabel":"La apuesta del modelo","verdictMain":"Después de \"{char}\", lo más probable es \"{best}\".","verdictSub":"{n} de {total} veces · {pct}"},"samplingMechanism":{"after":"Después de","probabilitySpace":"Espacio de probabilidad (0 → 1)","roll":"Lanzar el dado","rollAgain":"Lanzar de nuevo","rolled":"Resultado","history":"Elegidos:"},"pipelineDemo":{"figureLabel":"Interactivo · Pipeline de Predicción","figureHint":"Escribe cualquier carácter y observa cómo el modelo busca su fila en la tabla.","step1":"Entrada","step2":"Búsqueda","step3":"Predicción","inputLabel":"Escribe un carácter","placeholder":"ej. t","lookup":"Buscar","lookingUp":"Buscando fila en la tabla de transición…","resultsLabel":"Predicciones principales","afterChar":"Después de","insight":"Estas probabilidades vienen directamente de la tabla de transición — cada una refleja cuán frecuente fue este par en el texto de entrenamiento."},"storageProblem":{"figureLabel":"Interactivo · El Problema de Almacenamiento","figureHint":"Elige caracteres y observa cómo explota el número de pares que necesitarías rastrear.","pickPrompt":"Elige un carácter — ¿qué puede seguirlo?","afterChar":"Después de '{char}', el texto de entrenamiento muestra estos seguidores:","moreFollowers":"más posibles","needSlots":"Solo '{char}' necesita {count} espacios — uno por cada posible seguidor.","charsExplored":"{count} caracteres explorados","slotsTotal":"{total} espacios necesarios hasta ahora","growingRealization":"Solo has explorado {count} caracteres y ya necesitas {slots} espacios. Para los {total} caracteres, son {total} pares que rastrear. ¿Cómo organizarías todo esto?","howToOrganize":"¿Cómo lo organizaría?","insightTitle":"Una Tabla 2D — Filas × Columnas","insightDesc":"Pon cada carácter en ambos ejes. Cada fila es un carácter inicial, cada columna es el siguiente carácter. La celda donde se cruzan contiene el conteo. Eso es todo — una tabla de transición.","fullSize":"Tabla completa: {size} × {size} = {total} celdas"},"contextBlindness":{"pickPrompt":"Elige un prefijo. ¿Qué predice el modelo a continuación?","modelSees":"El modelo solo ve","invisible":"es invisible","topPredictions":"Predicciones principales","tryOthers":"Prueba los otros prefijos también…","prompt":"¿Qué predice el modelo después de cada uno de estos?","revealButton":"¿Son diferentes?","whyButton":"¿Pero por qué?","identical":"¡Los tres son idénticos!","calloutTitle":"Amnesia de Una Letra","explanation":"El bigrama solo ve la última letra 'h'. La 't', 's' y 'w' antes de ella son completamente invisibles. No importa cuántos datos le des, nunca podrá distinguirlos. Ese es el defecto fatal.","figureLabel":"Interactivo · El Defecto Fatal","figureHint":"Elige un prefijo, observa lo que ve el modelo — y descubre el devastador punto ciego."},"cliffhanger":{"label":"El Defecto Fatal","title":"La Amnesia de Una Letra","lead":"Construiste un predictor de texto funcional desde cero. Cuenta pares, los normaliza en probabilidades, lanza un dado ponderado y escribe texto. Eso es real. Pero hay una debilidad devastadora escondida a plena vista.","celebrationBridge":"Tómate un momento para apreciar lo que has hecho: partiendo de nada más que texto crudo, construiste un sistema que aprende patrones de letras, hace predicciones y genera texto nuevo. Cada modelo de lenguaje — incluyendo GPT — empezó desde esta misma intuición. Pero ahora observa qué pasa cuando lo empujamos.","p1":"Pregúntale al modelo qué viene después de 'th'. No sabe nada de 't' — solo ve 'h'. Así que da exactamente la misma predicción que para 'sh' o 'wh'. El contexto antes de 'h' es invisible. Perdido para siempre. Pruébalo tú mismo:","blindnessP1":"El modelo no es solo olvidadizo — es estructuralmente ciego. No importa cuántos datos de entrenamiento le demos, el bigrama nunca distinguirá 'th' de 'sh' de 'wh'. Esto no es un error que podamos corregir con más datos. Es un techo integrado en la arquitectura.","hookLine":"¿Y si dejamos que el modelo recuerde más de una letra? Eso lo cambia todo."},"keyTakeaways":{"bigram":"Un modelo bigrama predice el siguiente carácter contando con qué frecuencia aparece cada par en el texto de entrenamiento. La forma más simple de modelado de lenguaje — solo contar y adivinar.","normalization":"Convertir conteos brutos en porcentajes (0% a 100%) es lo que permite al modelo hacer predicciones reales. Cada fila suma 100% — una distribución de probabilidad válida.","fatalFlaw":"Un bigrama solo ve una letra de contexto. Esa es su limitación fundamental — y exactamente por qué necesitamos n-gramas y redes neuronales."},"cta":{"title":"¿Qué Viene Después?","freeLabButton":"Abrir Lab Libre","freeLabDesc":"Salta la historia. Acceso completo a todas las herramientas, parámetros y visualizaciones.","nextTitle":"Siguiente: ¿Y Si Recordamos Más?","nextDesc":"El bigrama olvida todo excepto la última letra. ¿Y si le dejamos ver dos? ¿Tres? ¿Cinco? Bienvenido al modelo N-gram."},"footer":{"text":"Siguiente capítulo: el modelo N-gram — qué pasa cuando le das más memoria a un contador.","brand":"LM-Lab · La Era del Conteo"},"v2":{"hero":{"eyebrow":"Capítulo 1 · La era del conteo","title":"El modelo bigrama","subtitle":"Enseñando a escribir a una máquina, desde cero y solo contando.","predict":{"hintLabel":"tu palabra","exactNote":"Ya estaba en tu cabeza antes de decidir pensarla.","alsoNote":"La tuya también encaja.","commonHint":"Aquí casi todo el mundo pone «{word}».","again":"Otra","idea":"Eso es predecir: saber qué viene después sin pensarlo, porque lo has visto mil veces. Lo haces sin parar. Una máquina que escriba no necesita nada más.","rounds":[{"lead":"Más vale tarde que","accept":["nunca"],"real":"nunca"},{"lead":"El gato subió despacio al","accept":["tejado","arbol","techo","sofa","mueble","muro","tronco","armario"],"real":"tejado"},{"lead":"Y fueron felices y comieron","accept":["perdices"],"real":"perdices"}]},"readTime":"~12 min de lectura · 6 movimientos"},"intro":{"p1":"Cuando somos pequeños, nadie nos da un manual para aprender a hablar. Aprendemos viviendo: escuchamos a la gente, relacionamos un tono de voz con una cara que sonríe y, poco a poco, entendemos el significado de las cosas.","p2":"Pero, ¿cómo le enseñas a escribir a una máquina que jamás ha vivido un solo día? Para una caja de cables y silicio, la palabra «manzana» no es dulce ni roja. No significa nada. Si no puede entender el mundo, parece imposible que escriba sobre él.","p3":"Así que, antes de construir nada, un pequeño experimento."},"fillBlank":{"label":"Termina la frase en tu cabeza","hintLabel":"tu palabra","again":"Otra","tryAgain":"Casi. Una pista:","reveal":"Ver la respuesta","screens":[{"lead":"En un lugar de la","accept":["mancha"],"real":"Mancha","hint":"Una región de España. La tierra de Don Quijote.","note":"Esa la tenías sin pensar."},{"lead":"El perro ladra, el pájaro pía y el gato","accept":["maulla","maúlla","miau","mia"],"real":"maúlla","hint":"¿Qué sonido hace un gato?","note":"Esa la has sacado de la lógica de la frase."},{"lead":"Fli fli fla, fli fli fla, fli fli","accept":["fla"],"real":"fla","hint":"No significa nada. Fíjate solo en el ritmo: fli fli fla, fli fli…","note":"Y esta última no significa nada. «Fli fli fla» no es ningún idioma. No la has entendido: has visto el patrón y has seguido. En eso consiste todo el truco."}],"afterPlay":"Seguramente has rellenado todos los huecos sin mucho esfuerzo. Pero fíjate en el último: no tenías ni idea de qué significaba «Fli fli fla». Solo miraste lo que había escrito antes, intuiste la lógica y adivinaste lo que tocaba a continuación.","reframe":"Acabas de descubrir el truco. Como los ingenieros no podían enseñar a las máquinas a entender el mundo como nosotros, cambiaron las reglas del juego. En lugar de enseñarles a reflexionar, les enseñaron a predecir.","toLetters":"Hoy en día, los grandes modelos hacen esto con frases enteras. Pero para entender de verdad la magia que hay detrás, vamos a lo más básico de todo: predecir cuál es la siguiente letra."},"goalIntro":{"lead":"Nuestro objetivo final es conseguir construir exactamente esto: le das una letra y apuesta por la que viene después.","after":"Parece magia, pero en el fondo solo son matemáticas muy básicas. Ahora la gran pregunta es: ¿cómo conseguimos construir esto desde cero, si la máquina no sabe leer?"},"isolateT":{"label":"Interactivo · La «t» en distintos textos","tab":"Texto","followsLabel":"Lo que sigue a la «t»","spaceWord":"el espacio","start":"Leer este texto","autocomplete":"Ver el total","replay":"Otra vez","idleHint":"Cuenta qué letra sigue a cada «t» de este texto.","verdict":"Aquí, tras la «t», gana {best}. Cambia de texto y cambia la regla."},"chaosOrder":{"label":"La máquina lee","playLabel":"Leer el libro entero","readingHint":"Cada «t» que pasa, miramos la letra de justo después y le sumamos uno.","chaosHint":"Eso es lo único que hace, una «t» tras otra. ¿La soltamos con el libro entero?","orderLabel":"Leer el resto","orderingHint":"Una fila: una casilla por cada letra que podría seguir.","scanningHint":"Ahora el resto del libro, sin frenar. Mira cómo suben los números.","readingNow":"Leyendo el libro","rowLabel":"Después de «{char}»","replay":"Leer otra vez","pickLetter":"Prueba otra letra","inspectHint":"Pasa el ratón por una casilla para ver cuántas veces pasó.","rowIsTable":"La barra más alta, de lejos, es la «h»: tras una «t» casi siempre viene una «h», y lo averiguó ella sola. La segunda es el espacio, porque muchísimas palabras acaban en «t». Y los huecos cuentan lo mismo: tras una «t» casi nunca hay otra «t», ni una «z», ni una «q».","payoff":"Esto que acabas de ver — darle un montón de texto y dejar que cuente — tiene nombre. Se llama datos de entrenamiento. Acabas de ver entrenar un modelo."},"growingMatrix":{"label":"Una fila por letra","playLabel":"Construirla","lead":"Una fila bastó para la «t». Apila una fila por cada letra y la cuadrícula aparece sola.","scanningHint":"Sigue leyendo. Cada letra nueva añade una fila y una columna; cada par calienta una casilla.","gridCaption":"Fila: la letra de la que partes. Columna: la que podría seguir. Casilla: cuántas veces lo vimos.","twist":"Y mira lo que ha salido. Nadie le dictó una sola regla, pero ahí están: las casillas encendidas son las parejas que el idioma repite, las apagadas las que casi nunca ocurren. La máquina las descubrió sola, solo contando.","growToFull":"Crecer al tamaño real","totalLabel":"Pares contados","cellCount":"«{row}» → «{col}»: {n}","hoverHint":"Cada casilla guarda cuántas veces pasó ese par."},"detective":{"label":"La tabla entera","intro":"Esta es la tabla entera, de verdad. Parece un caos de luces, pero es el manual de un idioma escrito en números. Cada casilla encendida es una regla; cada hueco negro, una pareja que casi nunca pasa. Y ninguna se la enseñó nadie.","prompt":"Busca una casilla que nunca pasa.","searchHint":"Resaltar un carácter","cellCount":"«{row}» → «{col}» pasó {n} veces.","cellNever":"«{row}» → «{col}» no pasó nunca. Ni una vez.","timesLabel":"veces","never":"nunca","inspectHint":"El ratón revela el conteo; el clic fija la fila y la columna.","rulesLabel":"Reglas del lenguaje","rulesFound":"{n}/{total} encontradas","regionsLabel":"O persigue una regla escondida:","regions":{"uppercaseDesert":{"title":"El desierto de las mayúsculas","body":"Una mayúscula casi nunca sigue a una minúscula. Las mayúsculas viven al principio de palabra, no en medio.","hint":"una mayúscula no aparece en mitad de una palabra"},"qCorner":{"title":"El rincón de la q","body":"Tras la «q», casi siempre «u». Casi todo lo demás de esa fila está a oscuras.","hint":"tras la «q» casi siempre va una «u»"},"periodJump":{"title":"El salto del punto","body":"Tras un punto viene un espacio, y tras ese espacio, una mayúscula. El ritmo de una frase nueva.","hint":"tras un punto casi siempre viene un espacio"},"spaceEverywhere":{"title":"El espacio va con todo","body":"El espacio es la casilla más sociable: casi cualquier letra puede ir antes o después de un espacio. Por eso su fila y su columna están casi llenas.","hint":"el espacio se junta con casi cualquier letra"},"numberVoid":{"title":"El vacío de los números","body":"Los números viven aparte. Casi nunca se pegan a una letra: escribimos «2023» o «3.14», pero rara vez «a7» o «k9».","hint":"un número casi nunca va pegado a una letra"}},"clear":"Quitar"},"sectionNames":{"s01":"El truco: predecir","s02":"A la caza del patrón","s03":"Demasiado predecible","s04":"Nace la matriz","s05":"¡Vamos a escribir!","s06":"El defecto fatal y ver más"},"sectionKickers":{"s1":"Predecir letras","s2":"El patrón","s3":"Cómo elegir","s4":"La matriz","s5":"Escribir solo","s6":"El techo"},"s1":{"label":"El truco: predecir","lead":"Aquí está hacia dónde vamos: una máquina que, con una sola letra, apuesta por la siguiente. Lo mismo que acabas de hacer, en pequeño.","afterChallenge":"¿Lo ves? Casi siempre aciertas. Y no porque sepas inglés de cine, sino porque tu cabeza ha visto esas combinaciones miles de veces. Tras la «q» va la «u». Tras «th», casi siempre una «e». Nadie te lo enseñó como regla. Lo viste tanto que se te quedó.","bridgeToMachine":"Tú haces esto con palabras enteras. A la máquina se lo vamos a enseñar más pequeño todavía: letra a letra. Y sobre texto en inglés, que es el que le daremos. Mira, esto ya lo hace:","heroAutoPrompt":"Escribe una letra y mira qué cree que viene después.","afterHeroAuto":"Funciona. Pero no entiende nada. ¿Cómo sabe que tras la «t» suele ir una «h»? Nosotros no le hemos enseñado todavía. Vamos a construirlo desde cero."},"predictionChallenge":{"label":"Tu turno","prompt":"¿Qué letra crees que viene después?","okLabel":"✓ Tu instinto acertó","almostLabel":"Casi. Lo más natural es «{answer}»","tally":"Tu instinto","figureOf":"de","resultLabel":"Ver resultado","advanceLabel":"Siguiente","restart":"↻ Probar otra vez","headlineTiers":{"perfect":"Predijiste como un lector nativo.","close":"Tu instinto sigue el idioma muy de cerca.","half":"Ya predices la siguiente letra sin darte cuenta.","low":"El idioma esconde sus patrones. Vuelve a probar."},"rounds":[{"context":"th","answer":"e","explanation":"Tras «th», la «e» aparece casi la mitad de las veces. Forma «the», la palabra más común del inglés."},{"context":"q","answer":"u","explanation":"La «q» arrastra a la «u» casi siempre. En inglés es prácticamente una regla, no una probabilidad."},{"context":"wh","answer":"a","explanation":"«what», «when», «where»… tras «wh», la «a» y la «e» se reparten el protagonismo."},{"context":"in","answer":"g","explanation":"«ing» está por todas partes: running, talking, going. Tras «in», la «g» es la continuación estrella."}]},"heroAutoComplete":{"label":"Interactivo · El predictor","prompt":"Prueba con una letra. Apuesta por la que viene después.","hint":"Cualquier letra vale.","after":"Después de «{input}», lo más probable","bridge":"Funciona. Pero no entiende nada. ¿Cómo sabe que tras la «t» suele ir una «h»?"},"s2":{"label":"A la caza del patrón","lead":"Nuestro idioma no es un caos. Si aporreas el teclado al azar sale algo como «asdfghjkl», y no significa nada. Escribimos siguiendo una estructura invisible: nadie te explicó que tras la «q» casi siempre va una «u», ni que es rarísimo ver tres consonantes seguidas. Tu cerebro lo fue asimilando a base de leer y escuchar.","pairPrompt":"Como el lenguaje ya esconde ese patrón, solo necesitamos que la máquina lea textos y se fije en quién va de la mano de quién. Empecemos con una frase sencilla.","afterPair":"Ya hemos visto cómo busca parejitas de letras. Para entenderlo a fondo, vamos a fijarnos en una sola: la «t». Le daremos distintas frases y veremos qué letra decide que es su mejor compañera.","focusTPrompt":"Cambia el texto y observa qué letra gana después de la «t».","afterCorpusCounting":"Según el texto que le des, aprende una regla distinta, y con tan poco texto el conteo miente. Si le damos textos muy cortos, su visión del mundo es limitada y sesgada. Para aprender las reglas de verdad, necesita muchísima más información: un texto gigante.","bookPrompt":"Así que vamos a ponernos serios. Vamos a hacer que nuestra máquina lea a Shakespeare entero.","afterShakespeare":"Esa fila es todo lo que hay sobre la «t» en todo Shakespeare. La máquina ha sacado ella sola todas sus relaciones, solo contando.","honestyNote":"A este proceso —darle un texto gigantesco para que lo lea, lo cuente y construya sus propias tablas de reglas— se le llama texto de entrenamiento. Acabas de ver, en primera persona, cómo se entrena un modelo. (Una pega: ha aprendido de Shakespeare, así que hablará como hace 400 años. Cambia el libro y cambias la máquina.)"},"pairHighlighter":{"label":"Interactivo · Encuentra el patrón","hint":"Recorre la frase par a par. ¿Cuáles se repiten?","pairFound":"Par encontrado: {first} → {second}","countsLabel":"Conteo de pares","stepPrompt":"Pasa por la frase de dos en dos. Pulsa para revelar el primer par.","startButton":"Empezar a contar","nextStep":"Siguiente par","countAll":"Contar el resto","currentPairLabel":"Par actual","firstTime":"primera vez","seenRepeats":"visto {n}× · se repite","patternLabel":"El patrón","patternRepeats":"estos pares aparecen más de una vez:","patternUnique":"casi todo es único aquí. Prueba una frase más larga para verlo aparecer.","summaryUnique":"Pares únicos:","summaryTotal":"Total de transiciones:","replay":"Repetir","tryOwn":"Prueba tu propia frase","placeholder":"Escribe una frase…","go":"Ir"},"corpusCounting":{"label":"Interactivo · Cuenta las «t»","hint":"Mira cómo escaneamos la frase contando qué letra sigue a cada «t».","focusChar":"t","selectChar":"Letra de partida","corpusLabel":"La frase","countsLabel":"Lo que sigue a la «t»","scanning":"Escaneando…","found":"Encontradas {count} «t»","totalLabel":"Total","reveal":"Con tan poco texto, el conteo miente. Lo que más sale tras la «t» es un espacio.","replay":"Escanear de nuevo","pauseBtn":"Pausar","nextBtn":"Siguiente →","verdictLabel":"Lo que dice esta frase","verdictMain":"Tras «t», aquí gana «{best}».","verdictSub":"{n} de {total} veces"},"shakespeareRow":{"label":"Interactivo · La «t» de Shakespeare","hint":"Cuenta las «t» de un libro entero. Empieza a mano, luego acelera.","prompt":"Vamos a contar las «t» de Shakespeare. Todas.","messyHint":"Llevamos {count} pares contados a mano. Esto se vuelve un lío.","organizeCta":"¿Y si lo anotamos en una tabla?","rowLabel":"Después de «t» →","countingManually":"Contando a mano…","fillingTable":"Llenando la tabla…","fullCorpus":"Shakespeare completo","verdict":"Con suficiente texto, tras la «t» gana la «h».","verdictSub":"{best} con {pct} de las veces"},"s3":{"label":"Nace la matriz","lead":"Tenemos una fila para la «t». ¿Y la «a»? ¿Y la «h»? ¿Y todas las demás?","rowByRowReveal":"Apila una fila por cada letra y mira lo que sale: una cuadrícula. Cada fila es la letra de la que partes. Cada columna, la que podría venir después. Cada casilla, cuántas veces lo vimos.","rowByRowName":"Acabas de construir algo con nombre propio: una tabla de transición.","tinyPrompt":"Coge una fila cualquiera. Por sí sola ya es una mini-predicción.","sizePrompt":"Una cosa. Si cada letra necesita una fila, y cada fila una casilla por cada letra posible… son muchísimas casillas. ¿Cuántas exactamente? Cuenta."},"rowByRow":{"label":"Interactivo · Apila las filas","hint":"Añade una fila por letra hasta formar la cuadrícula. Luego llénala con Shakespeare.","startRow":"Fila de la «t»","addRowCta":"Añadir la siguiente letra","addAllCta":"Añadir todas","fillCta":"Llénala con Shakespeare","rowAxisLabel":"letra de partida ↓","colAxisLabel":"letra siguiente →","filling":"Llenando con Shakespeare…","coda":"Una fila por letra. Eso es una tabla de transición.","verdict":"Cada fila es una letra de partida. Cada columna, la que podría seguir."},"storage":{"label":"Interactivo · Cuenta las casillas","hint":"Elige letras y mira cómo se dispara el número de casillas.","pickPrompt":"Elige una letra. ¿Qué puede seguirla?","afterChar":"Tras «{char}», estas son las que pueden seguir:","needSlots":"Solo «{char}» ya necesita {count} casillas, una por cada posible siguiente.","charsExplored":"{count} letras exploradas","slotsTotal":"{total} casillas hasta ahora","growingRealization":"Has explorado {count} letras y ya van {slots} casillas. Para las {total} letras, son {total} filas por {total} columnas. Mira lo enorme que se hace.","fullSize":"Tabla completa: {size} × {size} = {total} casillas"},"s4":{"label":"¿De dónde sale lo que aprende?","lead":"Acuérdate de Shakespeare. ¿Y si en vez de él le damos otro texto? ¿Aprende lo mismo?","afterComparison":"No aprende lo mismo. El modelo es un espejo del texto que le diste. A ese texto lo llamamos el texto de entrenamiento. Cámbialo y cambias quién es la máquina.","charsetPrompt":"Y eso es solo un rincón del idioma: minúsculas. Faltan las mayúsculas, los puntos, las comas, los números. Cuéntalos todos y la tabla crece hasta su tamaño real, con muchísimas más reglas escondidas dentro.","afterCharset":"Cada carácter nuevo es otra fila y otra columna. La tabla crece, y crece, y crece.","matrixGamePrompt":"Esta es la tabla de verdad, entera. Ya la entiendes de cero: filas, columnas, casillas. Ahora juega con ella. Fíjate: hay huecos en negro. Casillas que nunca pasan. ¿Por qué?"},"trainingComparison":{"label":"Interactivo · Dos textos, dos máquinas","hint":"Elige una letra y compara su fila en los dos textos.","corpusA":"Shakespeare","corpusB":"Texto moderno","pickCharPrompt":"Elige una letra para comparar sus filas.","rowFor":"Fila de «{char}»","idle":"Elige una letra arriba.","toggleLabel":"Cambiar de texto","verdict":"Mismo algoritmo, otro texto, otra máquina.","diffHint":"Fíjate en las diferencias: el texto que le das decide qué aprende."},"charsetGrowth":{"label":"Interactivo · La tabla crece","hint":"Añade tipos de carácter y mira crecer la tabla.","steps":[{"id":"lower","label":"Minúsculas","note":"26 letras + el espacio","size":27},{"id":"upper","label":"+ Mayúsculas","note":"ahora también A–Z","size":53},{"id":"digits","label":"+ Números","note":"del 0 al 9","size":63},{"id":"punct","label":"+ Signos","note":"comas, puntos, paréntesis…","size":92}],"dimensionsLabel":"{size} × {size} casillas","addNextCta":"Añadir el siguiente tipo","takeaway":"Cuanto más quieras predecir, más grande la tabla."},"matrixGame":{"label":"Interactivo · La tabla real","hint":"Hay huecos en negro: casillas que nunca pasan. Haz clic para descubrir por qué.","blackCellPrompt":"Encuentra una casilla que nunca pasa.","cellAfter":"Después de «{row}»","cellNext":"«{col}»","curiosities":{"upperAfterLower":"Una mayúscula casi nunca sigue a una minúscula. Las mayúsculas viven al principio de palabra.","qWithoutU":"Tras la «q», casi siempre «u». Casi todo lo demás es hueco negro.","digitAfterLetter":"Letras y números rara vez se tocan. Por eso casi toda esa zona está vacía.","spaceAfterSpace":"Dos espacios seguidos casi no pasan. Una palabra, un espacio, otra palabra."},"clickToDismiss":"Clic para cerrar"},"markov":{"kicker":"Historia · lectura larga · opcional","title":"Un señor, un libro y mucha paciencia","paras":["Esto que tu máquina acaba de hacer en un milisegundo, contar parejitas de letras, no es ningún invento moderno. La primera vez que alguien lo hizo no había ordenadores, ni internet, ni la menor intención de hacer tecnología. Ocurrió, literalmente, por una rabieta.","Rusia, 1913. Un matemático muy respetado y muy devoto, Pável Nekrásov, anunció que había demostrado con números la existencia del libre albedrío. Su razonamiento: la estadística solo funciona cuando los sucesos son independientes, como las tiradas de un dado, donde una no afecta a la siguiente. Como las personas decidimos por libre albedrío, concluía, que la sociedad fuera predecible solo podía explicarse por un plan divino.","Aquí entra nuestro protagonista: Andréi Márkov. Brillante, ateo de los de bandera y con un genio tan corto que sus alumnos lo apodaban «Andrés el Iracundo» (llegó a pedir por escrito que lo borraran de los registros de la Iglesia). Que alguien usara sus queridas matemáticas para hacer teología le pareció un insulto personal, y se lo tomó como tal.","Para desmontar a su rival necesitaba demostrar que la estadística también funciona cuando los sucesos no son independientes; cuando un paso obliga al siguiente. ¿Y qué hay más encadenado que el lenguaje? Si aparece una «q», la siguiente letra no es libre: está casi obligada a ser una «u».","Así que Márkov agarró un ejemplar de «Eugenio Oneguin», la novela en verso de Pushkin, le quitó los espacios y la puntuación, y se puso a contar a mano sus primeras 20.000 letras. Las repartió en bloques de cien y pasó meses anotando cuántas veces una vocal seguía a una consonante, y al revés. Buscaba el patrón invisible.","Al final construyó, con papel y lápiz, una tabla de probabilidades como la que tú tienes justo arriba, y demostró que aunque cada letra dependía de la anterior, el texto entero se equilibraba en porcentajes fijos. De paso, sin pretenderlo, acababa de inventar las cadenas que hoy llevan su nombre.","Su regla más curiosa es la que llamó «falta de memoria»: para apostar por el siguiente paso, solo importa dónde estás ahora mismo; lo de antes se borra. Es una idea con muchas más consecuencias de las que parece a primera vista."]},"s5":{"label":"Demasiado predecible","lead":"Ahora la máquina ya sabe que, tras la «t», la «h» aparece a montones y la «o» mucho menos. Pero un puñado de conteos sueltos no sirve para escribir: 7.071 no significa nada si no sabes sobre cuántos. Hay que convertir esos números en probabilidades.","lead2":"Y es una división de toda la vida: coges la fila de la «t», sumas todo lo que hay en ella y miras qué porción se lleva cada compañera.","afterNormalization":"Ahí está: la misma fila, ahora en porcentajes que suman 100%. La «h» se queda con un 36%, el espacio con un 29%, la «o» con un 10%… Eso son las apuestas de la máquina.","choosePrompt":"Y ahora la pregunta del millón: con esas apuestas sobre la mesa, ¿qué letra elige? Lo seguro sería quedarse siempre con la más alta. Veamos qué pasa.","afterAlwaysMax":"Siempre la «h». La opción segura resulta también la más muerta: así, tras la «t» nunca aparecería nada distinto, una «h» detrás de otra. Para escribir con algo de vida hace falta una pizca de azar; pero no uno cualquiera.","dicePrompt":"La idea de los ingenieros fue un dado. Eso sí, un dado trucado: con un montón de caras de «h», bastantes de espacio, alguna de «o» y casi ninguna de las raras. Así casi siempre cae lo probable, pero de vez en cuando sorprende. Tíralo tú y verás.","toMatrix":"¡Fíjate! Ya tenemos el truco completo para la «t»: contarla, sacarle porcentajes y elegir con una chispa de azar. Y aquí la pregunta se cae sola: ¿y si hacemos esto mismo con todas las letras a la vez?","writePrompt":"La tabla ya guarda todas las reglas que sigue el idioma. Y elegir una letra ya sabemos: se mira su fila y se tira el dado. Aquí está ese paso a cámara lenta, y cada letra que cae es el punto de partida de la siguiente.","toFullSpeed":"Lo has visto a cámara lenta. A toda velocidad es esto: una letra tras otra, sin frenos, salen frases enteras de un tirón.","playgroundPrompt":"Una letra basta para arrancar. A partir de ahí, escribe sola."},"normalization":{"label":"De conteos a porcentajes","hint":"Elige una letra y convierte sus conteos en porcentajes."},"alwaysMax":{"label":"Interactivo · ¿Siempre la más probable?","hint":"Prueba los dos modos sobre la misma fila.","maxModeLabel":"Siempre el máximo","sampleModeLabel":"Dado ponderado","maxResult":"Siempre el máximo: te atascas en la misma letra para siempre.","sampleResult":"Dado ponderado: respeta los porcentajes y sale variedad.","rollCta":"Tirar el dado","regenerateCta":"Generar de nuevo","toggleCta":"Cambiar de modo","diceTrack":"0 → 1","verdict":"Hace falta azar, pero del que respeta los porcentajes."},"alwaysMaxLoop":{"label":"Interactivo · Siempre la más probable","caption":"Estas son las apuestas de la «t». ¿Y si elegimos siempre la más alta?","pickLabel":"Después de la «t» elige:","play":"Elegir siempre el máximo","result":"Siempre la «h». Da igual cuántas veces: con este método, tras la «t» jamás sale otra cosa. Predecible y aburridísimo.","restart":"Otra vez"},"loadedDie":{"label":"Interactivo · El dado trucado","caption":"El dado saca un número del 0 al 100 y cae sobre la barra. La «h» ocupa el tramo más ancho, así que casi siempre toca «h»… pero no siempre.","pickLabel":"Después de la «t» sale:","lands":"saca {n} →","play":"Tirar el dado","rollAgain":"Tirar otra vez","restart":"Empezar de nuevo","rolling":"Rodando…","result":"¿Lo ves? Casi siempre «h», pero de vez en cuando un espacio, una «o», una «e»… El dado respeta los porcentajes, y ese puntito de azar le da vida."},"letterStep":{"label":"Interactivo · Letra a letra","lead":"Una letra escrita. Para elegir la siguiente, la máquina repite siempre el mismo gesto. Vamos a verlo a cámara lenta.","seedPrompt":"Empieza por una letra y deja que siga sola.","wordLabel":"Lo que lleva escrito","lookCaption":"Miramos su fila: lo que vino después de esta letra, contado en todo el libro.","countCaption":"Cada casilla guarda un número: cuántas veces apareció esa pareja.","calcCaption":"Dividimos por el total y los conteos se vuelven porcentajes.","rollCaption":"El dado saca un número del 0 al 100 y cae donde manda el porcentaje.","appendCaption":"La letra que toca se une a lo escrito… y ahora es ella la que empieza el siguiente paso.","rollReadout":"saca {n} →","stepLook":"Mirar","stepCount":"Contar","stepCalc":"Repartir","stepRoll":"Tirar","stepAppend":"Escribir","next":"Siguiente letra","startStep":"Empezar el paso","nextPhase":"Siguiente","nextLetter":"La siguiente letra","auto":"Seguir solo","pause":"Parar","replay":"Empezar de nuevo","coda":"Eso es todo. Una letra mira su fila, tira el dado y se queda la siguiente. Repítelo sin parar y la máquina escribe sola."},"tableWriter":{"label":"Interactivo · La máquina escribe","lead":"Ya vimos un paso a cámara lenta. Quítale los frenos y déjala correr: una letra mira su fila, tira el dado, se queda la siguiente, y vuelta a empezar.","seedPrompt":"Elige por dónde empieza.","wordLabel":"Lo que va saliendo","glimpseLabel":"De dónde sale cada letra","glimpseFrom":"tras","write":"Escribir","again":"Otra vez","coda":"De lejos casi parece un idioma. De cerca, balbuceo. Y aun así no hay magia: cada letra sale de mirar la fila de la anterior y tirar el dado. Nada más."},"naming":{"buildup":"Y ahí lo tienes: una máquina que escribe sola. Nadie le enseñó ortografía, ni gramática, ni una sola regla. Solo contó parejas de letras en un montón de texto, y de ahí salió todo. Lo has levantado tú, desde cero.","revealLead":"Y eso que has levantado tiene un nombre:","revealWord":"modelo de bigramas","revealCoda":"El modelo de lenguaje más simple que existe. Y es el primer ladrillo de todo lo demás. ChatGPT incluido."},"shannon":{"kicker":"Historia · lectura larga · opcional","title":"El hombre que midió el lenguaje","p1":"En 1948, un ingeniero llamado Claude Shannon publicó un artículo que, literalmente, encendió la era digital. Lo curioso es que no intentaba crear una inteligencia artificial ni enseñar a escribir a una máquina. Su problema era mucho más terrenal: trabajaba en los Laboratorios Bell y buscaba cómo comprimir datos para meter más llamadas y telegramas por un mismo cable.","p2":"Se dio cuenta de algo fascinante: el lenguaje humano es tremendamente predecible, o como él lo llamó, redundante. Si te escribo «Ques», tu cabeza no necesita la «o» final para saber la palabra. Esa «o» no aporta casi nada nuevo, porque ya estabas seguro de que venía.","p3":"Para medir cuánta «información de verdad» lleva un idioma, Shannon hizo justo lo que tú acabas de hacer: calculó las probabilidades de las letras sobre montañas de texto y dejó que las matemáticas escribieran solas, con sus tablas y una chispa de azar.","quoteIntro":"Usando un modelo de bigramas —mirando solo la letra anterior, igual que tu máquina—, esto fue lo que salió en su estudio de 1948:","quote":"ON IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY ACHIN D ILONASIVE TUCOWE AT TEASONARE FUSO TIZIN ANDY TOBE SEACE CTISBE","p4":"Exacto: el mismo balbuceo con buen acento que acaba de soltar tu modelo. Letras que encajan de dos en dos, pero incapaces de formar palabras con sentido, porque la máquina no tiene memoria suficiente.","p5":"Con ese experimento Shannon fundó la Teoría de la Información, le dio al mundo el concepto de «bit» y demostró por primera vez que el lenguaje humano se podía traducir a pura estadística. Las tablas de pares que has construido aquí son la réplica exacta del primer modelo de lenguaje de la historia. Has reinventado en una tarde el ladrillo sobre el que se sostiene todo el internet moderno."},"disappointment":{"text":"Y ahora la mala noticia. Si lo lees otra vez, casi suena a un idioma de verdad: las letras encajan… pero no son palabras. Un balbuceo con buen acento. Lo hemos conseguido, escribe sola. Pero vaya mierda, ¿no? ¿Por qué escribe tan mal?"},"s6":{"label":"¡Vamos a escribir!","heading":"El techo del bigrama","lead":"Antes de arreglarlo, entendamos por qué escribe tan mal. ¿Qué viene tras «th»? A la máquina la «t» le da igual: solo mira la «h». Para ella, «th», «sh» y «wh» son exactamente lo mismo.","afterBlindness":"No es que sea olvidadiza. Es ciega de nacimiento. Por mucho texto que le des, jamás distinguirá «th» de «sh». No es un fallo que se arregle con más datos. Es el techo del modelo.","ladderPrompt":"¿Y si pudiera ver más de una letra? El turno es tuyo: una palabra se va revelando letra a letra y tú apuestas por la siguiente.","afterLadder":"¿Lo notaste? Con una letra ibas a ciegas. Con casi toda la palabra delante, casi seguro. Más contexto, mejor predicción. Eso es justo lo que a nuestro modelo le falta: solo ve una pieza hacia atrás. Igual que tú con la «hola»: reacciona a lo último que oyó, sin enterarse del resto.","ladderCoda":"¿Y si le enseñamos a mirar dos letras? ¿Tres? ¿Cinco? Eso ya es otro modelo. Y es el siguiente."},"contextBlindness":{"label":"Interactivo · El defecto fatal","hint":"Cambia el prefijo y mira si la predicción se mueve.","pickPrompt":"Elige un prefijo. ¿Qué predice la máquina después?","modelSees":"La máquina solo ve","invisible":"es invisible","identical":"Los tres dan lo mismo."},"shannonLadder":{"certaintyLabel":"Certeza","progressLabel":"Aciertos","roundLabel":"Ronda {n} de {total}","nextLetter":"Otra letra","seeWord":"Ver la palabra","again":"Otra vez","word":"cupido","verdictLabel":"El puente","rounds":[{"prefix":"c","answer":"u","hint":"Con una letra no hay forma: ca, co, cu, ce, ci… todas siguen vivas."},{"prefix":"cu","answer":"p","hint":"Dos letras y sigue muy abierto: cua, cue, cui, cum, cup, cur…"},{"prefix":"cup","answer":"i","hint":"La trampa: cupo y cupón tiran de la «o». Pero esta vez la palabra gira hacia «i»."},{"prefix":"cupi","answer":"d","hint":"Ahora se cierra: la «d» destaca clarísima sobre el resto."},{"prefix":"cupid","answer":"o","hint":"Con casi toda la palabra delante, la «o» es casi un hecho."}],"verdict":"Con una letra ibas a ciegas. Con casi toda la palabra, casi seguro. Eso es justo lo que al bigrama le falta."},"cta":{"primaryKicker":"Capítulo siguiente","primaryChapter":"02 · N-gramas","primaryTitle":"El modelo solo recuerda la última letra. Vamos a darle memoria.","primaryDesc":"Una letra de contexto no basta. ¿Y si mira dos? ¿Tres? Eso ya es el modelo N-gram.","primaryCue":"Continuar","primaryHref":"/lab/ngram","secondaryLabel":"Abrir Lab Libre","secondaryDesc":"Salta la historia. Todas las herramientas, sin guion."}}},"trainBigramLab":{"lead":"Vamos a entrenar un bigrama con tu propio texto. Cuanto más le des, mejor escribirá.","placeholder":"aquí cabe un libro entero…","upload":"subir un .txt","sample":"Shakespeare de ejemplo","clear":"vaciar","count":"{n} caracteres · hasta {cap}","truncated":"más del tope: se usarán los primeros {cap} caracteres","tiny":"con tan poco texto saldrá tartamudo — vale igual","train":"entrenar","readingMarker":"leyendo tu texto","pairsLabel":"parejas contadas","skip":"saltar al final","cellsUsed":"{used} de 729 celdas con datos","cellCount":"«{row}» → «{col}» · {n}","cellNever":"«{row}» → «{col}» · nunca","foldReport":"{letters} letras · {accents} acentos planchados (á→a) · {symbols} signos→␣","foldTruncated":"recortado a {cap}","tabTable":"la tabla","tabWrite":"escribir","retrain":"otro texto","tableHint":"cada fila es una letra y cada columna quién la sigue; al tocar una celda se abre su fila","rowLabel":"después de «{ch}»","rowTotal":"{n} veces en total","rowSlot":"«{ch}» · {n} veces · {pct}%","modeSolo":"solo","modePaso":"paso a paso","modeManual":"tú eliges","tempLabel":"temperatura","tempCold":"fiel","tempHot":"caos","seedLabel":"empezar desde","go":"escribir","pause":"pausa","more":"seguir","lettersWritten":"{n} letras","backoffNote":"fila vacía → letra suelta","copy":"copiar","copied":"copiado","clearOut":"borrar","next":"siguiente letra","auto":"auto","autoStop":"parar","stepRow":"la fila de «{ch}»","stepSpin":"el dado cargado gira…","stepLanded":"sale «{ch}»","manualHint":"el dado eres tú: cualquiera de las encendidas vale; las apagadas, jamás","pickSlot":"«{ch}» · {n} veces · {pct}%","pickZero":"«{ch}» · 0 veces — el modelo no puede elegirla","rollForMe":"que tire el dado por mí","outEmpty":"lo que escriba aparecerá aquí…","glimpseLabel":"la fila que consulta"},"bigramBuilder":{"placeholder":"Escribe tu propio texto…","editText":"editar texto","apply":"Aplicar","cancel":"Cancelar","start":"Empezar a Construir","complete":"✓ Tabla completa — cada par ha sido contado."},"bigramWidgets":{"nnComparison":{"title":"Interactivo · Bigrama vs. Red Neuronal","bigramTitle":"Probabilidades del Bigrama (contando)","neuralTitle":"Pesos de la Red Neuronal (aprendido)","stats":{"steps":"Pasos de entrenamiento:","distance":"Distancia:","match":"✓ Los pesos neuronales coinciden estrechamente con las probabilidades del bigrama"},"buttons":{"train":"Entrenar 1 Paso","auto":"Auto-Entrenar ×20","reset":"Reiniciar"},"caption":"La red neuronal aprende pesos que convergen a las mismas probabilidades de transición que el modelo bigrama calcula al contar.","progression":"Instantáneas:","live":"En vivo","emotionalMoment":"Estos números aleatorios, entrenados con nada más que descenso de gradiente, aprendieron exactamente lo que el conteo nos dio."},"textToNumbers":{"placeholder":"Escribe algo…","empty":"Empieza a escribir para ver los códigos de los caracteres…","tooltip":"código:"},"pairHighlighter":{"hint":"Pasa el ratón sobre un carácter para ver su par bigrama"},"memoryLimit":{"modelSees":"El modelo solo ve","invisible":"es invisible","topPredictions":"Predicciones principales después de 'h'","tryOthers":"Prueba a cambiar entre th, sh, wh — ¿son diferentes las predicciones?","allIdentical":"Las tres dan predicciones idénticas.","explanation":"El bigrama solo ve 'h'. La letra anterior — t, s o w — es completamente invisible. Tres significados diferentes, una adivinanza ciega."},"matrixOverlay":{"dismiss":"Haz clic para descartar","after":"Después de","mostCommon":"el carácter siguiente más común es","tryHovering":"— intenta pasar el ratón sobre la fila","inMatrix":"en la matriz de abajo.","clickToDismiss":"clic para descartar"},"heroAutoComplete":{"placeholder":"e","after":"Después de “{input}”, probable sigue","hint":"Escribe un carácter para ver predicciones"},"softmax":{"title":"Temperatura Softmax · Conceptual","description":"La temperatura rediseña la distribución de probabilidad sin cambiar el ranking de los tokens. La temperatura baja agudiza la distribución; la temperatura alta la aplana.","label":"Temperatura","deterministic":"Determinista","neutral":"Neutral","chaotic":"Caótico","mode":{"deterministic":{"label":"Determinista","sub":"Siempre elige el token superior. Sin creatividad."},"conservative":{"label":"Conservador","sub":"Principalmente elige los tokens superiores con variedad ocasional."},"neutral":{"label":"Neutral","sub":"Muestreo estándar — equilibrio entre calidad y diversidad."},"creative":{"label":"Creativo","sub":"Explora opciones menos probables. Salida más sorprendente."},"chaotic":{"label":"Caótico","sub":"Casi uniforme — elige casi cualquier token al azar."}},"presets":{"deterministic":"Determinista","balanced":"Equilibrado","neutral":"Neutral","creative":"Creativo"},"stats":{"topToken":"Token superior","entropy":"Entropía","spread":"Dispersión","max":"del máx"},"note":"La temperatura no cambia el conocimiento del modelo — solo cuán aleatoriamente muestrea de lo que sabe. El ranking de tokens sigue siendo el mismo; solo cambia la nitidez de la distribución."}},"trainNgramLab":{"lead":"Vamos a entrenar un n-grama con tu propio texto, y esta vez la memoria la eliges tú.","placeholder":"aquí cabe un libro entero…","upload":"subir un .txt","sample":"Shakespeare de ejemplo","clear":"vaciar","count":"{n} caracteres · hasta {cap}","truncated":"más del tope: se usarán los primeros {cap} caracteres","tiny":"con tan poco texto saldrá tartamudo — vale igual","train":"entrenar","memLabel":"letras de memoria","memSpace":"{rows} filas posibles","kName1":"bigrama","kName2":"trigrama","kName3":"4-grama","kName4":"5-grama","kName5":"6-grama","readingMarker":"leyendo tu texto","rowsLabel":"filas con datos ({name})","windowsRead":"{n} ventanas leídas","coverage":"{obs} de {space} filas posibles · {pct}%","skip":"saltar al final","foldReport":"{letters} letras · {accents} acentos planchados (á→a) · {symbols} signos→␣","foldTruncated":"recortado a {cap}","tabTable":"la tabla","tabWrite":"escribir","retrain":"otro texto","searchLabel":"fila de {k} letras","randomRow":"una al azar","rowAfter":"después de «{ctx}»","rowTotal":"{n} veces en total","rowSlot":"«{ch}» · {n} veces · {pct}%","rowEmpty":"«{ctx}» · fila vacía — tu texto nunca pasó por ahí","topLabel":"las filas más vistas","modeSolo":"solo","modePaso":"paso a paso","modeManual":"tú eliges","tempLabel":"temperatura","tempCold":"fiel","tempHot":"caos","seedLabel":"empezar desde","seedRandom":"una frecuente","ctxLabel":"mirando","backoff":"fila vacía → memoria recortada a {k}","go":"escribir","pause":"pausa","more":"seguir","lettersWritten":"{n} letras","copy":"copiar","copied":"copiado","clearOut":"borrar","next":"siguiente letra","auto":"auto","autoStop":"parar","stepRow":"la fila de «{ctx}»","stepSpin":"el dado cargado gira…","stepLanded":"sale «{ch}»","manualHint":"el dado eres tú: cualquiera de las encendidas vale; las apagadas, jamás","pickSlot":"«{ch}» · {n} veces · {pct}%","pickZero":"«{ch}» · 0 veces — el modelo no puede elegirla","rollForMe":"que tire el dado por mí","outEmpty":"lo que escriba aparecerá aquí…"},"ngram":{"training":{"title":"Insights del Entrenamiento","stats":{"totalTokens":"Tokens Totales","uniqueContexts":"Contextos Únicos","utilization":"Utilización de Contexto","sparsity":"Espasidad","transitionDensity":"Densidad de Transición","subs":{"possiblePrefix":"de","possibleSuffix":"posibles","fractionObserved":"Fracción de contextos observados","unseen":"Fracción de contexto no visto"}}},"widgets":{"typoBreaker":{"title":"Rompe el modelo","subtitle":"Escribe una palabra mal escrita o una frase nueva — mira cómo el modelo falla","placeholder":"Escribe una palabra mal escrita o una frase nueva…","reset":"Reiniciar","test":"Probar","tryLabel":"Prueba:","contextLookup":"Búsqueda de contexto","modelConfidence":"Confianza del modelo","randomMarker":"↑ azar (1/{vocab} ≈ 1%)","verdictKnownPrefix":"El modelo encontró un contexto familiar","verdictKnownSuffix":"y puede hacer una predicción razonable. Pero cambia aunque sea un carácter y todo el contexto pasa a ser desconocido.","verdictUnknownStrong":"No se encontró un contexto coincidente.","verdictUnknownBody":"El modelo nunca ha visto esta secuencia exacta de caracteres en el entrenamiento. La confianza colapsa al azar (1/{vocab} por carácter). Un humano entendería la intención — el modelo N-grama no puede.","examples":{"swapTwoLetters":"Intercambia dos letras","commonMisspelling":"Error común","novelWord":"Palabra nueva","missingVowel":"Falta una vocal"}},"generalizationFailure":{"seenInTraining":"Visto en el entrenamiento","neverSeenInTraining":"Nunca visto en el entrenamiento","nextWord":"siguiente palabra →","confidence":"confianza","neverSeenNoPrediction":"Nunca visto. No hay predicción posible.","explanation":"Cambiar \"cat\" por \"dog\" crea una fila totalmente nueva en la tabla. El modelo no puede transferir lo que sabe sobre gatos — cada contexto está completamente aislado."},"sparsityHeatmap":{"title":"Mapa de densidad de la tabla","subtitle":"¿Cuánta parte de la tabla de probabilidades tiene datos reales?","entriesSuffix":"entradas","fill":"Relleno","density":"Densidad:","legend":{"high":"Alta","medium":"Media","low":"Baja","empty":"Vacía"},"insights":{"n1":"La tabla de bigramas está mayormente llena — con solo 96 contextos posibles, incluso un corpus modesto cubre la mayoría de pares de caracteres. Pero este modelo solo ve un carácter de historia.","n2":"La tabla de trigramas ya es notablemente más dispersa. Con 9.216 contextos posibles, muchas combinaciones de 2 caracteres nunca aparecen en el entrenamiento. El modelo empieza a adivinar al azar en contextos no vistos.","n3":"La tabla de 4-gramas está casi completamente vacía. Con 884.736 contextos posibles, la gran mayoría no tiene ejemplos de entrenamiento. El modelo es esencialmente ciego para la mayoría de inputs.","n4":"La tabla de 5-gramas es un desierto de ceros. Más de 8 mil millones de contextos posibles, y tus datos cubren una fracción diminuta. Esto no es un problema resoluble — es una certeza matemática."}},"confidenceImprovement":{"title":"Cómo el contexto afina las predicciones","subtitle":"Haz clic en cualquier fila para ver la distribución completa","after":"Después de","summary":"32% → 85% → 91% — más contexto = predicciones más precisas","hints":{"n1":"Después de solo \"h\", muchas vocales y consonantes son plausibles. El modelo reparte la probabilidad de forma muy dispersa.","n2":"\"th\" es una señal muy potente — en inglés, \"the\" es la palabra más común. La confianza salta drásticamente.","n3":"\"the\" casi siempre termina con un espacio. Ahora el modelo está al 91% — queda muy poca ambigüedad."}},"contextDrilldown":{"lookupTitle":"Búsqueda de contexto","lookupSubtitle":"Escribe un contexto de {n} caracteres para ver su distribución del siguiente carácter","lookupPlaceholder":"Introduce {n} caracteres…","lookupButton":"Buscar","progressSuffix":"caracteres","noDataFree":"No se encontraron datos para este contexto. Puede que el modelo no haya visto \"{context}\" en el entrenamiento. Este es el problema de la dispersión en acción.","drilldownTitle":"Exploración por contexto","drilldownSubtitle":"Elige {n} carácter{suffix} para explorar las predicciones del modelo","breadcrumbStart":"Inicio","breadcrumbDistribution":"distribución","pickFirst":"Elige el primer carácter ({remaining} restantes)","pickNext":"Después de \"{context}\" — elige el siguiente ({remaining} restantes)","back":"Atrás","fetching":"Obteniendo distribución para \"{context}\"…","fetchError":"No se pudo obtener la distribución","noDataDrilldown":"Sin datos para el contexto \"{context}\". Este contexto nunca se observó en el entrenamiento — el problema de la dispersión en acción.","chartTitle":"P(siguiente | \"{context}\")","chartTop":"Top {count} predicciones"},"infiniteTable":{"title":"El problema de cobertura de datos","subtitle":"¿Cuánta parte de cada tabla N-grama puedes llenar con datos reales?","trainingDataSize":"Tamaño de datos de entrenamiento","tokensLabel":"{count} tokens","entriesLabel":"{count} entradas","scale":{"s0":"≈ un párrafo","s1":"≈ 4 páginas Word","s2":"≈ 40 páginas Word","s3":"≈ ½ El Quijote","s4":"≈ 5 El Quijotes","s5":"≈ 50 El Quijotes","s6":"≈ 500 El Quijotes","s7":"≈ 500.000 El Quijotes"},"insight":{"v0":"Incluso con {tokens} tokens de datos de entrenamiento, la tabla de 5-gramas ({entries} entradas) está prácticamente vacía. El modelo no tendría predicción para casi cualquier contexto que encuentre.","v1":"Con {tokens} tokens, la tabla de 5-gramas está por debajo del 1%. La mayoría de contextos en inferencia tendrán cero ejemplos de entrenamiento.","v2":"Con {tokens} tokens, las tablas de N pequeño se llenan — pero la tabla de 5-gramas sigue cubierta solo en {pct}. La dispersión es un problema de datos, no solo de almacenamiento."}},"countingComparison":{"bigramTitle":"Bigrama (N=1)","bigramContext":"contexto de 1 carácter","bigramNote":"Muy disperso — muchos caracteres pueden seguir plausiblemente a \"h\".","trigramTitle":"Trigrama (N=2)","trigramContext":"contexto de 2 caracteres","trigramNote":"Más afilado — \"th\" casi siempre lleva a \"e\".","tooltips":{"h_e":"Después de 'h', 'e' es el siguiente carácter más común — pero muchas otras letras también pueden seguir a 'h'.","h_a":"Después de 'h', 'a' aparece en palabras como 'have', 'hand', 'hard'.","h_i":"Después de 'h', 'i' aparece en palabras como 'his', 'him', 'hit'.","th_e":"Después de 'th', 'e' es abrumadoramente probable — 'the' es la palabra más común en inglés.","th_a":"Después de 'th', 'a' aparece en 'that', 'than', 'thank'.","th_i":"Después de 'th', 'i' aparece en 'this', 'thing', 'think'."}}}},"ngramNarrative":{"v2":{"hero":{"eyebrow":"Capítulo 2 · La era del conteo","title":"Una ventana más","titleAccent":"ancha","subtitle":"El bigrama solo recordaba la última letra que escribías. Vamos a darle algo más de memoria.","readTime":"12 min · sigue contando"},"sectionNames":{"s01":"Mirar más atrás","s02":"Contar con contexto","s03":"El salto se siente","s04":"El coste","s05":"El muro","s06":"No generaliza","s07":"El puente"},"ui":{"collapse":"cerrar","expand":"abrir"},"s1":{"recap1":"El bigrama se quedó a medias. Escribía bien, letra a letra, pero tenía la memoria de un pez: en cuanto ponía una letra se olvidaba de todo lo de antes y solo le quedaba esa, la última, para decidir la siguiente. Por eso «th», «sh» y «wh» le daban igual. Las tres acaban en h, y ahí se le acababa la historia.","recap2":"Tú no lees así. Cuando llevas escrito «th» no arrancas de cero, todavía tienes la t metida en la cabeza, y el trozo de palabra entero, y por eso hueles lo que viene aunque nadie te enseñara la regla. Eso que arrastras tiene nombre, y lo vas a reconocer en cuanto lo veas: el contexto.","ask":"Así que la pregunta se cae sola. ¿Y si le dejamos mirar más de una letra atrás?","payoff1":"Con una sola letra de pista ibas a ciegas, y lo sabías. Con cuatro casi cantabas la respuesta antes de que apareciera. Lo único que cambió fue cuánto le dejaste recordar.","payoff2":"Y resulta que eso tiene nombres, uno por cada tamaño de memoria. Mirar dos letras atrás ya tiene nombre: trigrama. Tres, 4-grama. Y así hacia arriba, hasta el n-grama, que mira n. Lo bonito es lo que significa hacia atrás: el bigrama nunca fue un modelo aparte, era el más pequeño de la familia, un n-grama con n igual a dos.","pull":"El bigrama no era un modelo aparte. Era un n-grama diminuto.","bridge":"Vale, mirar atrás ayuda. ¿Pero cómo aprende a hacer eso una máquina, si lo único que sabe hacer es contar?"},"s2":{"lead1":"Lo mejor es que no hay truco nuevo. Es el mismo de siempre, contar, y solo cambia una cosa de nada.","lead2":"Antes la máquina guardaba una fila por cada letra, la lista de lo que suele venir después de la t. Ahora guarda una fila por cada pareja: lo que viene después de t-h, que no es lo mismo que lo que viene después de una h suelta cualquiera. La llave del cajón es más larga, eso es todo. Pero una llave más larga abre un cajón más concreto.","payoff":"La fila de la t apostaba por la h, sí, pero con la boca pequeña: ganaba y aun así quedaba vida repartida por media docena de casillas más. La fila de t-h no tiene esas dudas. Después de «th», la «e» se lo come casi todo y al resto le deja las migajas.","bridge":"Si cada letra extra afila tanto la apuesta, la pregunta es inevitable: ¿qué sale si la dejamos escribir de verdad, párrafos enteros, recordando dos letras, o tres, o cuatro?"},"s3":{"stage":"Lo justo es verlo en marcha. Cuatro máquinas idénticas salvo en una cosa: a cada una le dejamos recordar una letra más que a la de su izquierda. Misma semilla para todas, y a escribir.","triumph1":"La de la izquierda escupe sopa de letras y la de la derecha casi hila frases, y entre una y otra no hay ni un solo truco nuevo, solo tres letras más de memoria. Acabas de hacer que una máquina escriba mejor sin enseñarle una palabra, ni una regla, ni nada. Solo le diste un poco de pasado.","triumph2":"Y ahí salta la tentación. Si cuatro va mejor que uno, ¿por qué parar? ¿Por qué no diez letras de memoria? ¿Por qué no cien?"},"s4":{"lead1":"Aquí es donde la idea, que venía tan bien, se estampa contra un muro que no es de ingenio sino de aritmética pura.","lead2":"La tabla del bigrama tenía una fila por letra. Veintisiete filas, algo que cabe en una hoja. El trigrama ya necesita una fila por cada pareja posible de letras, veintisiete por veintisiete: setecientas veintinueve. El 4-grama, una por cada trío: casi veinte mil. Cada letra de memoria que le sumas no añade unas pocas filas, multiplica la tabla entera por veintisiete.","after":"Diez letras de memoria no son diez veces más tabla. Son billones de filas.","wordsTitle":"¿y con palabras?","words":"Y todo esto contando solo letras, que son veintisiete. Si la máquina fuera con palabras enteras, el abecedario pasaría a tener decenas de miles de piezas, y estos números de ahora parecerían de juguete.","bridge":"Pero una tabla gigante, por gigante que sea, se puede guardar en algún disco. El problema de verdad es otro, y es bastante peor."},"s5":{"lead1":"Una tabla de veinte mil filas no vale nada si está vacía.","lead2":"Para rellenar la fila de t-h-e hace falta haber visto antes «the» en algún sitio, y eso pasa a cada paso, así que esa fila se llena sola. Pero la tabla guarda también un hueco para «zxq», y otro para «qjp», y para miles de combinaciones que no escribe nadie nunca. Ahí están, reservadas, esperando una visita que no llega.","lead3":"Y cuanto más larga haces la memoria, más se llena la tabla de filas rarísimas que jamás vas a ver. Crece y se vacía a la vez.","afterSparsity":"Casi todo negro. Y esos huecos no son un fallo del dibujo, son combinaciones que no se usan jamás.","moreDataAsk":"Llegados aquí casi todo el mundo piensa lo mismo: vale, pues le doy más texto. Más libros, más datos, lo que haga falta hasta llenarla.","afterInfinite":"No hay manera. Por mucho texto que le metas, las ventanas grandes siguen casi vacías, porque hay más combinaciones posibles que segundos lleva existiendo el universo. No es que falte esfuerzo. Es que no cabe.","bridge":"Y aun así, lo peor no es la tabla vacía. Es lo que la máquina hace al toparse con una casilla en blanco."},"s6":{"lead":"Le das un contexto que ha visto mil veces y contesta sin pestañear, segurísima. Le cambias una sola letra, una, por algo que no vio nunca, y se queda en blanco. En blanco de verdad, sin media palabra que ofrecer.","after":"Y lo absurdo es que esos dos contextos se parecen como dos gotas de agua. Tú contestarías lo mismo a los dos sin pensarlo, porque para ti se parecen. Para la máquina no se parecen en nada: o vio esa fila clavada, letra por letra, o no la vio, y entre esas dos opciones no hay término medio.","typoBridge":"Y no hace falta rebuscar palabras raras. Un dedo torpe sobra.","diagnosis":"El bigrama predecía sin entender una palabra de lo que hacía. Su versión grande, el n-grama, predice bastante mejor, pero entender, lo que se dice entender, sigue sin entender nada. La diferencia es que ahora lo disimula. Hasta que le cambias una letra.","takeaway":"El n-grama no aprende reglas, memoriza trozos. Y lo que no memorizó no existe para él.","bridge":"El fallo tiene una raíz concreta, y ponerle nombre es ya medio camino hacia el capítulo siguiente."},"s7":{"lead":"Para la máquina, «gato» y «perro» no tienen nada que ver el uno con el otro. Son dos filas distintas de la tabla, dos etiquetas, dos números sin más, y dos números distintos se parecen entre sí lo mismo que dos teléfonos cualesquiera: nada.","after1":"Si la máquina supiera que «gato» y «perro» van juntos, lo que aprende de uno le serviría para el otro de regalo, y no necesitaría haber visto cada contexto del mundo, solo unos cuantos parecidos. Dejaría de memorizar de carrerilla y empezaría a entender de verdad.","after2":"Eso ya no se consigue contando. Hace falta otra cosa, y esa otra cosa es el capítulo que viene."},"history":{"kicker":"Historia · opcional","title":"Cuando contar gobernaba el mundo","paras":["Durante décadas, esto que acabas de tocar fue el estado del arte. No una curiosidad de clase, sino el motor de verdad detrás del reconocimiento de voz, los correctores y la primera traducción automática que llegó a funcionar.","En los laboratorios de IBM, en los años ochenta, un equipo dirigido por Fred Jelinek apostó todo a contar. Cuanta más transcripción le echaban, mejor reconocía el habla su sistema. De ahí salió una frase que se hizo célebre en el campo: no hay mejor dato que más dato.","Y aguantó años así, tragando cantidades absurdas de texto y conviviendo con las tablas medio vacías. Hasta que el muro que acabas de ver se volvió infranqueable, y a alguien se le ocurrió dejar de contar."]},"cta":{"quote":"Contar nos trajo hasta aquí. Para cruzar el muro hay que dejar de contar.","hook":"Hace falta una idea nueva: que las cosas que se parecen se traten parecido. De eso van las redes neuronales.","button":"Las redes neuronales","buttonDesc":"El salto de memorizar a entender."},"footer":{"text":"Capítulo 2 de la era del conteo. Lo has construido tú, solo contando.","brand":"LM-Lab"}},"v3":{"hero":{"eyebrow":"Capítulo 2 · La era del conteo","title":"Una memoria más","titleAccent":"larga","subtitle":"La máquina anterior solo recordaba la última letra que escribías. Vamos a darle más memoria y a ver hasta dónde llega.","readTime":"12 min · sigue contando"},"sectionNames":{"s1":"Mirar más atrás","s2":"Cajas dentro de cajas","s3":"La generación","s4":"El precio de la memoria","s5":"El fin de contar","s6":"El fin de contar"},"ui":{"collapse":"cerrar","expand":"abrir"},"s1":{"recap":"La máquina del capítulo anterior escribía sola, letra a letra, leyendo una tabla de cuentas. Tenía un punto flaco: memoria de pez. En cuanto ponía una letra se olvidaba de lo demás, le quedaba esa, la última, y a partir de ahí adivinaba.","amnesiaLead":"Antes de tocar nada, dale tres palabras distintas y mira cómo apuesta.","afterAmnesia":"Tú no lees así. Cuando llevas escrito «th», la t sigue en tu cabeza, y por eso hueles lo que viene. Ella no la tiene: en cuanto pone la h, la t ya no existe. Por eso las tres acaban igual para ella. Y eso que arrastras tú, la palabra a medias que llevas en la cabeza, tiene un nombre que vas a reconocer en cuanto lo veas. Contexto.","ask":"Así que la pregunta cae sola: ¿y si la dejamos mirar más de una letra atrás?","payoff":"Con una letra ibas a ciegas y lo notabas. Con tres o cuatro cantabas la respuesta antes de que saliera, y la máquina por dentro era la misma de siempre: lo único que tocaste fue cuánto la dejabas recordar.","name":"Y la máquina de una sola letra, la del capítulo anterior, resulta que era solo la versión más pequeña de esto.","bridge":"Mirar atrás ayuda. ¿Pero cómo aprende a hacer eso una máquina que solo sabe contar?"},"s2":{"lead":"Sigue siendo el mismo truco de siempre, contar. Pero ahora quieres guardar «lo que sigue a th», no «lo que sigue a una h cualquiera». ¿Cómo lo guardarías tú, con las mismas cuentas? Piénsalo un segundo antes de tocar. Y luego pruébalo: esta vez la construyes tú.","payoff":"Empezaste con una fila y acabaste con setecientas veintinueve, partiéndolas a mano, una a una. Nadie te dijo «esto es un trigrama». Lo levantaste tú.","sharpenLead":"Asómate a una de esas hijas, la que guarda lo que sigue a «th». Y compárala con la vieja, la de la h suelta.","growLead":"Y esto no se acaba en parejas. ¿Qué pasa con la tabla si subes un nivel más?","bridge":"Si cada nivel afila la apuesta, la pregunta cae sola. ¿Qué sale si la dejamos escribir de verdad?"},"s3":{"writeLead":"Antes de celebrar nada, abramos la tapa y miremos cómo escribe.","afterWrite":"Ya está, sin truco por ninguna parte: busca el contexto que llevas escrito, mira qué letra le suele seguir, la pone, y vuelve a empezar. No está pensando. Está leyendo una tabla.","celebrateLead":"Ponlas a escribir a la vez, la de una letra y la de cuatro, con la misma semilla.","triumph":"La de una letra escupe sopa de letras; la de cuatro casi hila frases. Entre una y otra no metiste ni una regla, ni una palabra de gramática, solo unas cuantas letras más de pasado en la apuesta.","temptation":"Y ahí salta la tentación. Si cuatro va mejor que una, ¿por qué parar? ¿Por qué no diez? ¿Por qué no cien?"},"s4":{"zoomLead":"Súbele la memoria y aléjate, a ver hasta dónde aguanta la tabla.","afterZoom":"Sube otra letra y aléjate otra vez. ¿Llegas al borde? Sigue alejándote. ¿Y ahora?","firehoseLead":"Una tabla así pide texto, y mucho. Así que vamos a darle de comer: vuélcale un Shakespeare entero, y otro, y mil. Abre el grifo.","afterFirehose":"Has volcado mil libros. Mira dónde está el nivel.","bridge":"Una tabla así, alimentada con todo eso, la pones a prueba con una palabra cualquiera que aún no habías escrito."},"s5":{"before":"Le funciona de maravilla con lo que ya ha visto. Así que escribe algo de lo más normal, cámbiale una sola letra, y antes de mirar, apuesta: ¿qué crees que hará?","after":"Una sola letra de diferencia. Y ese hueco no tiene por qué ser mala suerte de una sola casilla: asómate a la tabla entera y mira cuántos más hay.","close":"¿Te suena lo que estás viendo? Es la fila plana del principio, la del pez sin memoria, vuelta a aparecer. Para ti los dos contextos son casi el mismo. Para ella no: o tenía esa fila guardada, exacta, o no la tenía."},"s6":{"progressLead":"Tiene un techo, sí. Y aun con ese techo, mira de dónde vienes.","afterProgress":"De dar cabezazos al teclado a escribir palabras de verdad, sin enseñarle ni una regla. Y no se quedó en juguete de clase: con esta misma idea funcionaron durante años los traductores, el reconocimiento de voz y el teclado de tu móvil.","afterLimit":"Llevada al límite, con datos de sobra, escribe tan bien que casi cuela. Y aun así, fíjate dónde ha puesto «gato» y «perro»: a tomar por saco el uno del otro, como dos desconocidos. Tú sabes que van juntos. ¿Cuántas veces tuvo que ver «gato» para saber algo de «perro»? Ni una le valió. Lo que aprendió de un contexto se quedó en ese contexto, y en ningún otro."},"history":{"kicker":"Historia · opcional","title":"Cuando contar gobernaba el mundo","paras":["Durante décadas, esto que acabas de tocar fue el estado del arte. No una curiosidad de clase, sino el motor de verdad detrás del reconocimiento de voz, los correctores y la primera traducción automática que llegó a funcionar.","En los laboratorios de IBM, en los años ochenta, un equipo dirigido por Fred Jelinek apostó todo a contar. Cuanta más transcripción le echaban, mejor reconocía el habla su sistema. De ahí salió una frase que se hizo célebre en el campo: no hay mejor dato que más dato.","Aguantó años así, tragando cantidades absurdas de texto y conviviendo con las tablas medio vacías. Hasta que ese mismo tope contra el que acabas de chocar dejó de moverse por mucho dato que le echaran, y a alguien se le ocurrió dejar de contar."]},"cta":{"quote":"Contar nos trajo hasta aquí. Cruzar el muro pide dejar de contar.","hook":"Que las cosas que se parecen se traten parecido. De eso van las redes neuronales.","button":"Las redes neuronales","buttonDesc":"Donde se deja de contar."},"footer":{"text":"Lo has construido tú, solo contando.","brand":"LM-Lab"}},"hero":{"eyebrow":"Comprendiendo los Modelos de Lenguaje","titlePrefix":"¿Y si","titleSuffix":"recordamos más?","description":"El modelo bigrama solo podía mirar un carácter atrás. ¿Qué sucede cuando le damos dos? ¿Tres? ¿Cinco? La respuesta es tan fascinante como devastadora."},"moreContext":{"label":"Más contexto","title":"Más allá de un solo carácter","lead":"¿Recuerdas el defecto fatal? 'th', 'sh', 'wh' daban predicciones idénticas porque el modelo solo veía un carácter. ¿Y si le diéramos dos? ¿Tres? ¿Cinco?","confidenceBridge":"Fíjate cómo la confianza salta del 18% con N=1 al 94% con N=5. Más memoria transforma un adivinador ciego en un predictor capaz.","p1":"Un modelo N-grama mira los","p1Highlight":"N caracteres anteriores","p1End":" antes de adivinar el siguiente. Ejemplo: N=2 significa que puede ver dos caracteres de contexto.","p2":"Más contexto hace que las conjeturas sean más inteligentes. Después de \"qu\", el modelo puede esperar fuertemente una \"e\" — ha visto ese patrón muchas veces.","p3":"Pero más memoria tiene un coste oculto. Estamos a punto de observar cómo ese coste crece más rápido de lo que dicta tu intuición.","calloutTitle":"La suposición N-grama","calloutText":"La suposición clave: el siguiente carácter depende solo de los N caracteres anteriores. Todo lo anterior se olvida. Es como una ventana deslizante — y la pregunta es: ¿cuánto debe medir?","tryPrompt":"Haz clic en los botones de arriba. ¿Qué le pasa a la predicción a medida que N crece?"},"contextWindow":{"label":"Ventana de contexto","title":"Viendo más del pasado","lead":"La ventana de contexto es cuántos caracteres anteriores puede \"ver\" el modelo antes de hacer una conjetura.","caption":"A medida que la ventana se hace más grande, el modelo puede usar patrones más ricos. Pero el número de ventanas posibles crece extremadamente rápido.","hint":"Observa cómo crece el contexto a medida que aumenta N.","p1":"Cada aumento en N le da al modelo más pistas. También crea muchas más situaciones que el modelo podría necesitar recordar después."},"howItWorks":{"label":"Mecánica","title":"Contando con contexto","lead":"El proceso de conteo es el mismo que en los bigramas — pero ahora, en lugar de contar parejas, contamos grupos más largos: el contexto de N caracteres más lo que viene después.","p1":"Para cada posición en el texto de entrenamiento, el modelo toma el","p1Highlight":"contexto de N caracteres","p1End":" y cuenta qué carácter le sigue. Después, usa esos conteos como una tabla de búsqueda: encuentra el contexto y lee el carácter siguiente habitual.","p2":"A medida que N crece, la tabla de conteo gana dimensiones. Con N=1 (bigrama), es una cuadrícula simple. Con N=2, imagina una pila de cuadrículas — una para cada contexto posible de dos caracteres. La tabla crece en todas direcciones.","bridge":"Cada fila representa un contexto específico. Compara 'th' vs 'sh' — esta es exactamente la distinción que el bigrama no podía hacer. El widget de abajo compara el conteo de bigramas y trigramas lado a lado sobre el mismo texto de entrenamiento para que veas la diferencia directamente.","discoveryPrompt":"¿Recuerdas el defecto fatal del bigrama? 'th', 'sh' y 'wh' daban predicciones idénticas porque el modelo solo veía la última 'h'. Ahora observa lo que N=2 puede ver:","tableInsight":"Cada fila es ahora un contexto de dos caracteres. Las distribuciones para 'th' y 'sh' son diferentes — el modelo por fin puede distinguirlos. Ese es el punto clave."},"improvement":{"label":"Mejora","title":"La predicción se vuelve mejor","lead":"Aquí está la recompensa. Cuando el modelo ve más contexto, sus conjeturas se vuelven mucho más seguras y correctas.","example":"Después de \"h\", la siguiente letra no está clara. Después de \"th\", la \"e\" se vuelve muy probable. Después de \"the\", un espacio se vuelve muy probable.","improvementReflection":"Fíjate en el salto: 18% de confianza con N=1, más del 80% con N=3. Cada carácter extra de contexto elimina ambigüedad. El modelo no adivina — recuerda.","battleBridge":"Esa ganancia de confianza se acumula a lo largo de una frase entera. Abajo, la misma semilla alimenta modelos con diferentes tamaños de memoria simultáneamente — observa lo que un carácter extra de memoria hace al resultado:","battleReflection":"Mira la columna N=4: frases que casi parecen inglés. Mira N=1: ruido aleatorio. Misma lógica, mismos datos — solo la ventana de memoria difiere. Tres caracteres extra nos compraron un modelo de lenguaje.","generatorBridge":"Ahora es tu turno. Elige una frase semilla, elige cuánta memoria tiene el modelo (N=2, 3, o 4), y observa cómo escribe.","expandableGenTitle":"Pruébalo tú: Tu propio generador N-grama"},"celebration":{"text":"Has construido un predictor mucho más potente. El 4-grama escribe frases que casi parecen inglés. Pero toda mejora tiene un precio — y este crece más rápido de lo que piensas."},"whyNotMore":{"title":"¿Por qué no N=100?","lead":"Si más contexto mejora las predicciones, ¿por qué parar en 3 o 4? ¿Por qué no mirar los últimos 100 caracteres?","p1":"Porque cada carácter extra de contexto multiplica la tabla por el tamaño del vocabulario. Una tabla de bigrama tiene 9,216 entradas (96²). Un trigrama salta a 884,736 (96³). Un 4-grama alcanza más de 84 millones (96⁴). Ir a N=100 requeriría una tabla con más entradas que átomos en el universo observable. La siguiente sección hace esta explosión visceral.","calloutInsight":"Más memoria siempre mejora las predicciones — pero el coste crece exponencialmente. Esta es la tensión central que define toda la era N-grama."},"statistical":{"label":"Naturaleza Estadística","title":"Un Modelo Puramente Estadístico","lead":"Los modelos N-gram no entienden el lenguaje. Son máquinas de conteo sofisticadas.","p1":"Cada predicción es una","p1Highlight":"búsqueda en tabla","p1End":" — el modelo encuentra el contexto coincidente en su tabla y devuelve la distribución de probabilidad almacenada. No hay parámetros aprendidos, ni gradientes, ni optimización.","p2":"Esto hace que los N-gramas sean extremadamente rápidos en inferencia y trivialmente interpretables: siempre puedes preguntar \"¿por qué el modelo predijo X?\" y rastrear la respuesta hasta ejemplos exactos de entrenamiento.","calloutTitle":"Sin Generalización","calloutText":"Si el modelo nunca ha visto un contexto particular en el entrenamiento, tiene cero información sobre lo que viene después. A diferencia de las redes neuronales, los N-gramas no pueden generalizar a partir de contextos similares — cada contexto se trata como completamente independiente."},"explosion":{"label":"La Explosión","title":"El Precio de la Memoria","lead":"Aquí es donde las matemáticas se vuelven contra nosotros.","concreteBridge":"Los números son abstractos. Hagámoslo concreto — ¿cómo se ven realmente estas tablas?"},"growingTables":{"label":"Interactivo · Tablas Crecientes","hint":"Observa cómo la tabla crece — y se vacía — a medida que N aumenta.","bigramLabel":"Bigrama (N=1)","trigramLabel":"Trigrama (N=2)","fourgramLabel":"4-grama (N=3)","fivegramLabel":"5-grama (N=4)","filledLabel":"Llenas","emptyLabel":"Vacías","replay":"Repetir"},"emptyTable":{"label":"La Tabla Vacía","title":"La Mayor Parte de la Tabla Está Vacía","lead":"La explosión crea otro problema devastador: casi ninguna de esas entradas se llenará con datos reales.","bridge":"La tabla de abajo no solo crece — se vacía. A medida que N aumenta, la gran mayoría de los contextos posibles nunca aparecen en ningún texto de entrenamiento realista. Esto se llama dispersión (sparsity)."},"priceOfMemory":{"label":"El Precio","title":"El Precio de la Memoria","lead":"Cada mejora tiene un precio. Y este crece más rápido de lo que piensas.","sparsityBridge":"Pero la explosión es solo la mitad de la historia. Construir una tabla más grande es difícil — pero llenarla es imposible. A medida que N crece, la mayor parte de la tabla queda vacía:","infiniteDataBridge":"Incluso con todo el texto jamás escrito, ¿podrías llenar la tabla? Usa el deslizador de abajo:","tokenizationBridge":"Hasta ahora hemos contado caracteres — solo 96 tokens posibles. Los modelos de lenguaje reales usan palabras. Eso lo cambia todo:","combinedInsight":"La tabla es demasiado grande para construir, demasiado vacía para usar, y se vuelve catastróficamente peor con palabras. Tres facetas de un mismo problema fundamental."},"complexity":{"label":"Complejidad","title":"El precio de la memoria","lead":"Aquí es donde las matemáticas se vuelven contra nosotros.","p1":"Con 96 caracteres posibles, cada carácter extra de contexto multiplica la tabla por 96. N=1: 96 contextos. N=2: 9.216. N=3: 884.736. N=4: 85 millones. N=5: más de 8 mil millones.","p1Highlight":" 884.736","p1End":". Un 5-grama tiene más de 84 millones. La mayoría de estos contextos nunca aparecerán en ningún corpus de entrenamiento realista.","p2":"La mayoría de esos contextos nunca aparecen en texto real. Eso significa que la mayor parte de la tabla está vacía — esto se llama dispersión (sparsity) — y las filas vacías no pueden guiar las predicciones.","vocabCalloutTitle":"Y empeora mucho más con palabras","vocabCalloutText":"Este laboratorio usa caracteres (~96 posibles). Los modelos de lenguaje reales usan palabras en su lugar. Con 50.000 palabras, incluso una matriz de bigramas necesita 2.500 millones de celdas. Una tabla de trigramas necesitaría 125 billones. Las matemáticas se vuelven catastróficas extremadamente rápido.","comparisonLabel":"Comparativa N-Gram · Métricas del backend en vivo","comparisonHint":"Compara perplejidad, utilización de contexto y espacio de estados entre diferentes valores de N.","metricsLegend":{"perplexity":"La perplejidad significa \"qué tan sorprendido está el modelo\" en promedio; cuanto más baja, mejores conjeturas y más confianza.","utilization":"La utilización del contexto indica qué parte de la enorme tabla se llenó realmente con el texto de entrenamiento; una utilización baja significa que muchos contextos nunca se vieron.","contextSpace":"El espacio de contexto indica cuántos contextos diferentes podrían existir en teoría; crece extremadamente rápido a medida que aumenta N."}},"tokenization":{"intro":"Esta complejidad se vuelve catastrófica cuando pasamos de caracteres a palabras.","subsectionTitle":"Caracteres vs. Palabras: Un compromiso crítico","charTitle":"Tokens a nivel de carácter","charDesc":"Vocabulario pequeño y fijo (~96 caracteres ASCII). Toda entrada es representable. Simple de implementar y visualizar — ideal para comprender los fundamentos. Pero cada token casi no lleva significado semántico.","charExample":"Vocab: ~96 | Ejemplo: ['e', 'l', ' ']","wordTitle":"Tokens a nivel de palabra","wordDesc":"Unidades semánticamente ricas que transmiten significado por token. Pero el vocabulario explota a 50.000–500.000 entradas, haciendo la matriz de transición enorme. Las palabras raras causan dispersión; las palabras no vistas causan fallo completo.","wordExample":"Vocab: ~50.000 | Ejemplo: ['el', 'gato', 'se']","explosionIntro":"La explosión combinatoria a nivel de palabra hace que incluso los N-gramas simples sean computacionalmente inviables:","tableLabel":"Explosión N-gram a nivel de palabra · Matemática combinatoria","tableHint":"Asumiendo vocabulario básico de inglés de 50.000 palabras. La mayoría de las celdas estarían vacías (dispersas).","tableHeaders":{"model":"Modelo","formula":"Fórmula","combinations":"Combinaciones","scientific":"Científico"},"noteLabel":"Nota:","noteText":"Estos números asumen un vocabulario completo de 50.000 palabras en inglés. Los sistemas reales usan estrategias agresivas de poda, suavizado y retroceso para hacer esto manejable — pero el problema fundamental de escalado permanece.","languageP1":"Los modelos a nivel de palabra también son","languageH1":"rígidamente dependientes del idioma","languageP2":". Un modelo tokenizado para palabras en inglés falla completamente cuando recibe entrada en español, requiriendo un vocabulario y matriz completamente nuevos. Los modelos a nivel de carácter, aunque menos ricos semánticamente por token, pueden manejar múltiples idiomas que comparten el mismo alfabeto.","multilingualCalloutTitle":"El problema multilingüe","multilingualCalloutText":"Un bigrama a nivel de palabra en inglés entrenado con 'the cat sat' no tiene idea qué hacer con 'el gato se sentó'. Cada palabra está fuera del vocabulario. Los modelos de caracteres evitan esto operando a un nivel más bajo y universal — aunque sacrifican densidad semántica en el proceso."},"vocabulary":{"label":"Vocabulario","title":"Caracteres vs. Palabras","lead":"Usamos tokens a nivel de carácter en este laboratorio, pero los N-gramas del mundo real a menudo operan con palabras — haciendo la explosión aún peor.","p1":"Con un vocabulario de 50.000 tokens, incluso una","p1Highlight":" matriz bigrama necesita 2.500 millones de celdas","p1End":". Una tabla de trigramas requeriría 125 billones de entradas. Por eso los N-gramas a nivel de palabra más allá de N=3 son esencialmente impracticables sin suavizado y poda agresivos.","p2":"Los modelos a nivel de carácter mantienen el vocabulario pequeño (~96), haciendo factible visualizar y explorar la tabla completa. Pero el compromiso es que los caracteres individuales casi no portan significado semántico."},"noUnderstanding":{"label":"Limitaciones","title":"Sin verdadera comprensión","lead":"Los modelos N-gram capturan patrones de co-ocurrencia local pero no tienen noción de significado, gramática o coherencia de largo alcance.","p1":"El modelo trata \"el gato se sentó en\" y \"el perro se sentó en\" como contextos completamente no relacionados (para N < longitud de la oración). No puede reconocer que ambos involucran un animal sentado sobre algo.","p2":"Esta incapacidad de","p2Highlight":"generalizar entre contextos similares","p2End":" es lo que finalmente limita los modelos N-gram. Sin importar cuántos datos recojas, siempre habrá contextos válidos que el modelo nunca ha visto.","p3":"Esta limitación fundamental es exactamente lo que motiva la transición a enfoques neuronales — modelos que aprenden representaciones densas y continuas capaces de reconocer similitud entre contextos."},"deeperProblem":{"label":"Limitaciones","title":"El problema más profundo","lead":"La explosión es un problema práctico — no puedes construir una tabla lo suficientemente grande. Pero hay un problema conceptual aún peor: incluso con datos infinitos, el conteo sigue fallando.","p1":"Imagina que el texto empieza con \"el gato se sentó en\". Si el modelo ha visto ese contexto exacto, puede predecir lo que sigue desde la memoria.","p2":"Ahora cambia una palabra: \"el perro se sentó en\". Un humano ve que es casi lo mismo. El modelo N-gram lo trata como una situación totalmente nueva.","p3":"Los N-gramas no tienen concepto de 'similar'. Los contextos 'el gato' y 'el perro' son tan distintos para el modelo como 'el gato' y 'xyzq'. Cada uno es una fila separada en la tabla, sin conexión.","infiniteData":{"title":"Ni siquiera datos infinitos pueden ayudar","p1":"Supón que tuvieras texto de entrenamiento ilimitado — cada libro jamás escrito. ¿Podrías llenar la tabla? No. El lenguaje es creativo: la gente inventa oraciones nuevas constantemente. El número de secuencias posibles de 10 palabras supera con creces el número de oraciones jamás pronunciadas. Ningún corpus, por grande que sea, puede cubrir cada contexto válido."},"failureExamples":{"title":"Cuando el conteo falla","typoLabel":"Errores tipográficos","typoText":"Un usuario escribe 'teh cat' en lugar de 'the cat'. El modelo nunca ha visto el contexto 'teh' y devuelve una distribución uniforme (aleatoria). Una tecla equivocada borra todo el conocimiento aprendido.","novelLabel":"Palabras nuevas","novelText":"Una palabra nueva entra al idioma — 'selfie', 'blockchain', 'vibe-check'. El modelo tiene cero entradas para cualquier contexto que contenga estas palabras. Ni siquiera puede adivinar que 'selfie' se comporta como otros sustantivos."},"typoBridge":"Estos no son casos extremos — son situaciones cotidianas. Primero, observa qué pasa cuando un usuario comete un solo error tipográfico:","similarityBridge":"Aún peor: el modelo no puede reconocer que palabras similares deberían comportarse de manera similar. Pruébalo abajo:","typoSectionTitle":"¿Qué pasa con un solo error tipográfico?","similaritySectionTitle":"¿Por qué no puede ver que 'perro' ≈ 'gato'?","calloutTitle":"Sin generalización","calloutText":"Si el modelo nunca ha visto una secuencia particular en el entrenamiento, no tiene nada que decir. No puede adivinar. No puede razonar por analogía. Simplemente se encoge de hombros. Esta es la limitación fundamental que motiva los enfoques neuronales.","sectionBridge":"La tabla es demasiado grande y demasiado vacía. Pero incluso si pudiéramos llenarla — incluso con datos infinitos — hay una razón más profunda por la que el conteo falla. Es hora de ver el panorama completo."},"endOfCounting":{"label":"Reflexión","title":"El Fin del Conteo","lead":"Hemos llegado al límite de lo que el conteo puede hacer.","p1":"Empezamos con bigramas, que recuerdan un carácter. Pasamos a N-gramas, que recuerdan más, y vimos mejorar las predicciones.","p2":"Luego nos topamos con dos muros. El muro de la explosión: la tabla crece demasiado rápido para llenarse. Más memoria multiplica la tabla una y otra vez.","p3":"El muro de la generalización: cada contexto es una isla. El modelo no puede compartir conocimiento entre contextos similares, por lo que falla con frases nuevas.","consolidation":"Da un paso atrás y observa lo que has construido en tu mente:","knows1":"Sabes cómo contar pares se convierte en un motor de predicción.","knows2":"Sabes por qué más contexto ayuda — y por qué tiene un coste.","knows3":"Sabes que la tabla explota y la mayor parte queda vacía.","knows4":"Sabes que contar no puede generalizar: lo no visto = lo desconocido.","bridge":"Cada uno de estos problemas apunta a la misma conclusión: necesitamos modelos que no solo memoricen — necesitan aprender patrones. ¿Y si, en lugar de almacenar cada contexto como una fila aislada en una tabla, pudiéramos comprimir los contextos en vectores densos donde significados similares vivan cerca? Eso es exactamente lo que hacen las redes neuronales.","quote":"La era del conteo ha terminado. La era del aprendizaje comienza.","hookLine":"En el próximo capítulo, reemplazamos la tabla por una red neuronal. En vez de contar, aprende. En vez de memorizar, generaliza. El salto es dramático — y empieza con una sola idea: embeddings."},"sectionNames":{"s01":"Más Contexto","s02":"Contando con Contexto","s03":"Mejores Predicciones","s04":"El Precio de la Memoria","s05":"El Problema Más Profundo","s06":"Fin del Conteo"},"readTime":"~15 min de lectura · 8 demos interactivas","keyTakeaways":{"deeperProblem":"Acabas de verlo de primera mano: si el modelo no ha visto una secuencia en el entrenamiento, no tiene nada que decir. No puede adivinar. No puede razonar por analogía. Memoriza — no comprende.","endOfCounting":"Has llegado al muro: memoria exponencial, cero generalización, ninguna comprensión de similitud. El siguiente salto requiere modelos que aprendan patrones en lugar de memorizarlos."},"cta":{"title":"Continúa Explorando","labButton":"Abrir Lab Libre","labDesc":"Cambia al modo Lab Libre para acceso completo a la consola de inferencia N-gram, predictor paso a paso y generador de texto con tamaño de contexto ajustable.","neuralButton":"Siguiente: Del Conteo al Aprendizaje","neuralDesc":"Hemos llevado el conteo a su límite. Ahora construimos algo que aprende."},"generationBattle":{"title":"Batalla de Generación","subtitle":"Misma semilla, diferente memoria","description":"Observa cómo el mismo texto inicial produce resultados dramáticamente diferentes a medida que crece la ventana de contexto del modelo.","columnHeader":"N = {n}","qualityLabels":{"1":"Ruido aleatorio","2":"Emergen patrones de letras","3":"Aparecen fragmentos de palabras","4":"Frases reconocibles"},"streaming":"Generando…","seedLabel":"Texto semilla","generateButton":"Generar Todo","regenerateButton":"Regenerar","tokensLabel":"{count} caracteres","emptyState":"Presiona Generar para iniciar la batalla","temperatureLabel":"temperatura","copyToClipboard":"Copiar al portapapeles"},"interactiveGenerator":{"seedLabel":"Tu texto semilla","contextLabel":"Contexto (N)","tempLabel":"Temperatura","generate":"Generar","generating":"Generando","reset":"Reiniciar","chars":"caracteres","hint":"Escribe una frase semilla arriba y pulsa Generar para ver al modelo N-grama escribir.","figureLabel":"Interactivo · Tu Generador N-grama","figureHint":"Elige una semilla, tamaño de contexto y temperatura — luego observa al modelo generar texto carácter por carácter."},"footer":{"text":"La era estadística ha terminado. Has visto lo que el conteo puede hacer — y dónde se rompe. Siguiente: modelos que aprenden.","brand":"LM-Lab · Modo Educativo"},"predictingAfter":"Prediciendo el siguiente carácter después de:","readingChart":"Leyendo el gráfico","ui":{"collapse":"contraer","expand":"expandir"},"exponentialGrowth":{"possibleContexts":"contextos posibles","neverSeen":"La mayoría nunca vistos en entrenamiento","multiply":"Cada carácter extra ×96 — tamaño del vocabulario","replay":"Repetir"},"similarityBlindSpot":{"ngramView":"Vista N-grama — sin similitud","embeddingView":"Vista embedding — similitud preservada","noConnection":"Los N-gramas ven estas palabras como entradas completamente independientes","connected":"Los embeddings colocan palabras relacionadas cerca","showEmbedding":"¿Y si el modelo supiera que están relacionadas?","hideEmbedding":"Volver a vista N-grama","figureLabel":"Punto Ciego · Por Qué Contar No Puede Generalizar","figureHint":"Los N-gramas tratan cada palabra como un ID aislado. Activa la vista de embeddings para ver cómo los modelos neuronales preservan el significado."},"statisticalEra":{"hoverHint":"Pasa el cursor sobre un nodo para saber más","bigramLabel":"Bigrama","bigramSublabel":"Un carácter de memoria","bigramEra":"Comienza la era estadística","bigramSummary":"Un carácter de memoria. Rápido y simple. Sorprendentemente útil — pero olvida todo más allá del último carácter.","ngramLabel":"N-grama","ngramSublabel":"Más contexto, mismos límites","ngramEra":"Dominante en PLN","ngramSummary":"Más contexto, predicciones más precisas. Pero la tabla explota exponencialmente, y el modelo aún no puede generalizar a partir de lo que ha visto.","unknownLabel":"???","unknownSublabel":"Algo diferente","unknownEra":"Una nueva era","unknownSummary":"Redes Neuronales. Dejamos de contar y empezamos a aprender. Los contextos ya no son islas — entradas similares comparten conocimiento."},"figures":{"contextWindow":{"label":"Ventana de contexto · Ejemplo de lenguaje natural","predictingAfter":"Prediciendo el siguiente carácter después de:","sees":"ve:","next":"¿siguiente?","contextSize":"Tamaño de contexto:","modelBestGuess":"Mejor predicción del modelo","confident":"{pct}% de confianza","candidates":"Candidatos:","n1hint":"Con solo 1 carácter, el modelo ve solo \"a\" — demasiado poco para reducir las opciones.","n2hint":"Dos caracteres dan \"za\" — aún ambiguo, pero empezando a formar patrones.","n3hint":"Tres caracteres revelan \"zza\" — el modelo empieza a reconocer fragmentos de palabras.","n4hint":"Cuatro caracteres muestran \"izza\" — señal fuerte de que probablemente es \"pizza\".","n5hint":"Cinco caracteres capturan \"pizza\" — el modelo sabe exactamente qué viene después."},"transitionExamples":{"label":"Tabla de transición · Lo que desbloquea más contexto","hint":"Fíjate en las filas de 'th' y 'sh' — dos contextos que el bigrama trataba de forma idéntica. N=2 le da a cada uno su propia distribución de probabilidad distinta."},"countingComparison":{"label":"Comparación de conteo · Bigrama vs. Trigrama","hint":"Mismo texto de entrenamiento, diferente granularidad. Observa cómo contextos más largos producen conteos más específicos."},"confidenceImprovement":{"label":"Mejora de la confianza · Efecto de la longitud del contexto","hint":"Cada carácter extra de contexto agudiza la predicción."},"exponentialGrowth":{"label":"Crecimiento exponencial · Tamaño de la tabla por N","hint":"Cada paso multiplica el conteo anterior por el tamaño del vocabulario."},"generalizationFailure":{"label":"Fallo de generalización · Gato vs. Perro","hint":"Pasa el ratón por la columna derecha para ver qué devuelve el modelo para un contexto no visto."},"statisticalEra":{"label":"Era estadística · Ruta de aprendizaje","hint":"La era del conteo ha terminado. Lo siguiente es algo fundamentalmente diferente."},"generationBattle":{"label":"Batalla de generación · Comparación lado a lado","hint":"Cada columna usa el mismo texto semilla pero un tamaño de contexto diferente. Un contexto más largo produce resultados más coherentes — hasta que la dispersión toma el control."},"sparsityHeatmap":{"label":"Mapa de dispersión · Densidad de tabla por N","hint":"Cambia entre valores de N para ver qué tan rápido se vacía la tabla de probabilidades."},"infiniteTable":{"label":"Cobertura de datos · El problema de datos infinitos","hint":"Arrastra el deslizador para ver cuánto de cada tabla N-grama se puede llenar con datos de entrenamiento reales."},"typoBreaker":{"label":"Rompe el modelo · Fallo con errores tipográficos y palabras nuevas","hint":"Escribe una palabra mal escrita o nueva para ver cómo el modelo N-grama pierde toda confianza."}}},"ngramPedagogy":{"primer":{"title":"¿Qué es un {name}?","isEdu":{"p1":"Imagina que intentas adivinar la siguiente letra que alguien escribirá. Un modelo <0>{name} mira las últimas <1>{length} letra{suffix} y pregunta: <2>\"Basado en lo que acabo de ver, ¿qué suele venir después?\"","n1":"Con solo 1 carácter de memoria, el modelo esencialmente adivina a ciegas basándose solo en la frecuencia.","n2":"Dos caracteres de contexto son suficientes para aprender patrones simples como 'qu' → 'e', 'u', pero no mucho más.","nSmall":"Con {n} caracteres, el modelo comienza a capturar fragmentos de palabras cortos — pero el número de contextos posibles ya es {count}.","nLarge":"En N={n}, el modelo teóricamente tiene un rico contexto local — pero almacenar cada combinación posible de {n} caracteres requiere miles de millones de entradas."},"isFree":{"p1":"Un {name} condiciona sobre los últimos <0>{length} token{suffix}. El espacio de contexto crece como |V|^{n}."},"liveWindow":"Ventana de contexto en vivo"},"growth":{"title":"Crecimiento de contexto","body":"Mira cómo la ventana de historia visible se expande a medida que aumenta N. Más contexto permite suposiciones más certeras — pero también implica exponencialmente más posibilidades."},"transitions":{"title":"Ejemplos de transición","isEduBody":"En lugar de una tabla gigante, tracemos algunas transiciones a través de la frase <0>the qui. Cada fila muestra: \"dado este contexto, el siguiente carácter fue...\" — además de evidencia real del corpus de entrenamiento.","isFreeBody":"Ejemplos de transición de <0>the qui con evidencia del corpus.","matches":"{count} coincidencia{suffix}","searching":"Buscando datos de entrenamiento...","noMatches":"No se encontraron coincidencias en el corpus de muestra.","corpusEvidence":"Evidencia del corpus","noMatchesExpanded":{"title":"Sin coincidencias en la muestra","explanation":"La muestra del corpus de entrenamiento no contiene esta transición exacta. Esto es esperado — no todos los N-gramas posibles aparecen en un corpus finito. Este es el problema de la dispersión.","hint":"Intenta expandir una fila diferente, o reduce N para ver más coincidencias."}},"explosion":{"title":"Explosión Combinatoria","body1":"Un modelo {n}-gram con V={vocabSize} caracteres necesitaría almacenar probabilidades para cada contexto posible de {n} caracteres. Eso es:","entries":"{count} entradas","body2":"Más de {billionCount} combinaciones. La mayoría nunca se observarían en los datos de entrenamiento, haciendo la tabla astronómicamente dispersa e impráctica.","limitReached":"Límite de escalado clásico alcanzado"},"comparison":{"title":"Comparación de modelos","isEduBody":"A medida que N crece, la perplejidad baja (el modelo mejora prediciendo localmente) — pero la utilización del contexto se desploma porque la mayoría de los contextos posibles nunca se ven en el entrenamiento.","isFreeBody":"Métricas del backend por N. Menor perplejidad = mejor ajuste local.","quality":"Calidad (↑ = menor ppl)","utilization":"Utilización"},"limitations":{"title":"Limitaciones clave","items":{"context":{"title":"Contexto limitado","isEdu":"Incluso con N=5, el modelo olvida todo lo anterior a esos 5 caracteres. Nunca podrá aprender que un párrafo trata sobre cocina solo porque vio la palabra 'receta' diez oraciones atrás.","isFree":"Incluso N=5 captura solo 5 tokens de historia. Las dependencias a largo plazo permanecen invisibles."},"scalability":{"title":"Escalabilidad exponencial","isEdu":"Cada carácter extra de contexto multiplica el tamaño de la tabla por el tamaño del vocabulario (~96×). Pasar de N=3 a N=4 significa ~96× más filas que almacenar.","isFree":"El espacio de contexto crece como |V|^N. Los requisitos de almacenamiento y datos se vuelven inmanejables para N > 4."},"vocabulary":{"title":"Explosión de vocabulario","isEdu":"Si usáramos palabras en lugar de caracteres, el vocabulario saltaría de ~96 a decenas de miles — haciendo que incluso una tabla de bigramas sea enorme.","isFree":"Los N-gramas a nivel de palabra enfrentan tamaños de vocabulario de más de 50k, lo que hace que las tablas sean imprácticas incluso para N pequeñas."}}},"story":{"title":"La historia de los N-gramas","subtitle":"Por qué más contexto parecía la respuesta — y por qué no fue suficiente","steps":{"s1":{"title":"El cuello de botella del bigrama","body":"Empezamos con la idea más simple: predecir el siguiente carácter usando solo el anterior. Pero un modelo bigrama tiene la memoria de un pez — olvida inmediatamente todo excepto la última letra."},"s2":{"title":"Una extensión natural","body":"La solución obvia es mirar más historia. Un trigrama mira 2 caracteres anteriores, un 4-grama mira 3, y así sucesivamente. Cada paso le da al modelo un contexto local más rico y predicciones notablemente mejores."},"s3":{"title":"El coste de la memoria","body":"Pero hay un truco. Cada carácter extra de contexto multiplica el número de estados posibles por el tamaño del vocabulario. Un trigrama con 96 caracteres ya tiene 884.736 contextos posibles. La mayoría nunca se observan en el entrenamiento — la tabla se vuelve astronómicamente dispersa."},"s4":{"title":"El muro de escalado","body":"Para N=5, necesitaríamos más de 8 mil millones de entradas en la tabla. Ningún conjunto de datos es lo suficientemente grande como para llenar esa tabla de manera significativa. Esta es la razón fundamental por la que los N-gramas fueron finalmente reemplazados por modelos neuronales que pueden generalizar a través de contextos similares."}}}},"neuralNetworkNarrative":{"sections":{"discovery":{"number":"01","label":"La Chispa"},"fromNumbers":{"number":"08","label":"Lenguaje"},"whatsNext":{"number":"09","label":"El Salto"}},"narratorTooltips":{"learning":"Aprender = ajustar pesos para que las respuestas sean cada vez menos incorrectas.","weights":"Los pesos deciden cuánto importa cada entrada.","activation":"Una activación es la 'compuerta' no lineal que deja a las redes doblar líneas en curvas.","nonLinearity":"No linealidad = la razón por la que las redes profundas pueden hacer más que líneas rectas.","relu":"ReLU = max(0, x). Deja pasar lo positivo y corta lo negativo.","parameters":"Parámetros = los números que se aprenden (pesos + sesgos).","gradient":"Gradiente = hacia dónde está cuesta abajo (la dirección que reduce la pérdida más rápido).","loss":"Pérdida = qué tan equivocado está el modelo.","epoch":"Época = una pasada por todos los datos de entrenamiento.","batch":"Lote = un grupo pequeño de ejemplos procesados juntos.","step":"Paso = una actualización de pesos.","contextWindow":"Ventana de contexto = el fragmento de caracteres previos que el modelo puede ver."},"discovery":{"heading":"Enseñemos a una Máquina a Aprender","lead":"El conteo chocó contra un muro. ","leadHighlight":"Los N-gramas no pueden compartir conocimiento entre patrones similares","leadEnd":" y sus tablas explotan con cada carácter extra de contexto. Necesitamos un enfoque completamente diferente — uno que no memorice, sino que descubra.","bigramBridge":"¿Recuerdas el modelo bigrama? Contaba cuántas veces una letra sigue a otra. Cuando escribías \"th\", buscaba cuántas veces aparecía cada letra después de \"th\" en el texto de entrenamiento. Pero por dentro, las letras son solo números — 't' podría ser 19, 'h' podría ser 7. El modelo bigrama no hacía matemáticas con esos números. Solo los usaba como direcciones dentro de una tabla gigante.","bigramQuestion":"¿Y si, en vez de una tabla de búsqueda, de verdad calculáramos algo con esos números? ¿Y si pudiéramos tomar los números de 't' y 'h', hacer un poco de matemáticas y obtener una predicción de lo que viene después?","letterDemoLabel":"Interactivo · De Letras a Números","letterDemoHint":"Elige un par de letras y observa cómo se convierten en números que atraviesan un cálculo simple. Esta es la idea central de una red neuronal.","hookP1":"La idea es esta: en lugar de una tabla gigante, le damos a la máquina unos pocos números que puede ajustar — y dejamos que ","hookP1Highlight":"aprenda mirando ejemplos","hookP1End":". No memoriza frases enteras: aprende reglas simples que funcionan en muchos casos.","hookP2":"Imagina que quieres predecir cuánto tarda tu trayecto al colegio. Sabes dos cosas: la distancia (8 km) y el nivel de tráfico (3 en una escala de 1 a 10). Con solo esos dos números, ¿cómo harías una predicción del tiempo de viaje?","p1":"Empecemos con algo sencillo: toma 8 (distancia) y 3 (tráfico). Prueba distintas formas de juntarlos y mira cómo cambia el resultado.","fig1Label":"Interactivo · Explorador de Operaciones","fig1Hint":"Prueba cada operación. Observa cómo la suma ponderada te da más control — puedes ajustar cuánto contribuye cada entrada.","p2":"Ahora esos dos números representan mediciones reales de tu trayecto diario. La suma ponderada te da un tiempo de viaje predicho en minutos. Ajustando los pesos, controlas cuánto contribuye la distancia y el tráfico a la predicción.","fig2Label":"Interactivo · Deslizadores de Peso","fig2Hint":"Arrastra los pesos. Un peso de 2 significa que esa entrada importa el doble. Un peso de 0 la ignora por completo. Los pesos negativos invierten la contribución.","p3":"Los pesos pueden ser cualquier número — mayor que 2 o menor que −1 — solo limitamos el deslizador para que no se desmadren los números. Un peso alto en distancia significa que cada kilómetro suma mucho tiempo. Un peso negativo significaría que más distancia reduce el tiempo (físicamente absurdo — pero el modelo no sabe física, solo sigue las matemáticas).","p4":"Y un último truco. ¿Qué pasa si ambas mediciones son cero — vives en el colegio y no hay tráfico — pero aún necesitas 5 minutos para salir por la puerta? O al revés: incluso con un trayecto decente, siempre llegas temprano. Ese 'desplazamiento por defecto' es el sesgo: un empujón constante que mueve el tiempo predicho hacia arriba o hacia abajo.","fig3Label":"Interactivo · Añadiendo Sesgo","fig3Hint":"El sesgo desplaza toda la salida hacia arriba o abajo. Un sesgo positivo hace que la neurona sea 'ansiosa' — dispara incluso con entradas débiles. Un sesgo negativo la hace reticente.","calloutTitle":"Acabas de construir una neurona","calloutText":"Suma ponderada + sesgo. Eso es todo. Cada red neuronal del mundo — desde la más simple hasta GPT-4 — está construida con unidades que hacen exactamente esto. El resto es escala y arquitectura ingeniosa.","bridge":"Ya tienes una unidad de cómputo: entradas × pesos + sesgo = salida. Pero ahora mismo es solo una fórmula. Juntemos todas las piezas y veámosla funcionar.","letterDemo":{"title":"De Letras a Números","step1":"Empieza con dos letras","step2":"Cada letra tiene un número (su posición en el alfabeto)","step3":"Ahora calcula: multiplica cada una por un peso y añade un sesgo","step4":"Este puntaje ayuda a predecir la siguiente letra","showComputation":"Ver el cálculo →","scoreFor":"puntaje de predicción para","insight":"Con pesos distintos obtendrías puntajes distintos. El trabajo de la red es encontrar pesos que produzcan buenas predicciones. Eso es aprender."},"operations":{"title":"Explorador de Operaciones","inputLabel":"Entradas","addBtn":"Sumar","multiplyBtn":"Multiplicar","weightedSumBtn":"Suma Ponderada","resultPrefix":"Resultado","weightNote":"Los pesos están fijos en 1.0 por ahora — los controlarás en el siguiente paso."},"weights":{"title":"Entradas Ponderadas","inputLabel1":"x₁ (distancia en km)","inputLabel2":"x₂ (nivel de tráfico)","weightLabel":"Peso","biasLabel":"desplazamiento por defecto","sumLabel":"Suma Ponderada","formula":"Tiempo de trayecto predicho","contributionLabel":"Desglose de contribuciones","outputLabel":"Tiempo predicho","hint":"Arrastra los pesos para ver cómo la importancia de cada entrada cambia la salida."},"bias":{"title":"Añadiendo Sesgo","biasLabel":"Sesgo (b)","resultLabel":"Salida (z)","active":"Activa","barelyActive":"Apenas activa","inactive":"Inactiva","hint":"Sesgo positivo = ansiosa por disparar. Sesgo negativo = reticente."},"challenge1":{"question":"Cambia a Suma Ponderada y pon x₁ = 8, x₂ = 3. ¿Qué resultado obtienes cuando ambos pesos son 1?","hint":"Con pesos en 1, la suma ponderada es simplemente una suma normal.","success":"¡Exacto! 1×8 + 1×3 = 11. Pesos en 1 significa que cada entrada contribuye por igual — igual que una suma normal."},"challenge2":{"question":"Haz que el tráfico domine la predicción. ¿Puedes ajustar los pesos para que el tráfico represente aproximadamente el 70% del tiempo predicho?","hint":"Prueba a subir w₂ y bajar w₁. Compara las dos barras (w₁·x₁ vs w₂·x₂).","success":"Bien. Los pesos son controles de volumen: puedes hacer que un factor tape al otro. Eso es exactamente lo que hace una neurona cuando aprende qué importa."},"inputsFixedTitle":"Las entradas son datos, los pesos son aprendibles","inputsFixed":"Algo crucial: la distancia y el nivel de tráfico son mediciones — no puedes cambiarlas. Lo único que PUEDES cambiar son los pesos. Esta es la regla fundamental de las redes neuronales: las entradas son datos fijos, los pesos son las perillas que el modelo aprende a ajustar.","countingVsLearning":{"title":"Contar vs Aprender","countingCol":"N-grama (Conteo)","learningCol":"Red Neuronal (Aprendizaje)","row1Label":"Cómo funciona","row1Counting":"Cuenta cuán a menudo aparecen los patrones en el texto","row1Learning":"Calcula una predicción usando pesos y entradas","row2Label":"Qué almacena","row2Counting":"Una tabla gigante de conteos — una entrada por patrón","row2Learning":"Un pequeño conjunto de números (pesos + sesgo) que codifican conocimiento","row3Label":"Patrones nuevos","row3Counting":"Si no ha visto el patrón, no tiene respuesta","row3Learning":"Puede hacer una estimación razonable combinando lo que sabe","row4Label":"Escalabilidad","row4Counting":"La tabla explota exponencialmente con el tamaño del contexto","row4Learning":"El mismo pequeño conjunto de pesos, sin importar cuántos ejemplos"},"predict1":"Antes de probar — ¿qué operación crees que te da más control sobre el resultado?","predict2":"¿Qué pasa si pones un peso a cero? Intenta predecirlo antes de arrastrar.","predict3":"Si ambas entradas son cero, ¿cuál debería ser la salida? ¿Y si quieres un valor por defecto distinto de cero?"},"hero":{"eyebrow":"Capítulo 3 · Del Conteo al Aprendizaje","titlePrefix":"Redes","titleSuffix":"Neuronales","description":"El conteo chocó contra un muro — los N-gramas no pueden generalizar a patrones no vistos. ¿Y si, en lugar de memorizar cada combinación, pudiéramos construir una máquina que aprende de ejemplos?","recap":"← Anteriormente: descubriste que los modelos estadísticos alcanzan su límite. Ahora construyamos algo fundamentalmente diferente."},"history":{"title":"La Historia de las Redes Neuronales","summary":"De 1943 al aprendizaje profundo moderno — una historia de avances, inviernos y persistencia.","subtitle":"Ocho décadas de innovación, reveses y triunfo","p1":"En 1943, McCulloch y Pitts propusieron que una célula cerebral podía modelarse como una puerta lógica: recibe señales y, si son lo suficientemente fuertes, dispara. Demostraron que redes de estas unidades podían computar cualquier cosa. Esto era teoría pura — aún no existían computadoras para probarlo. Pero la semilla fue plantada: la inteligencia podía ser mecánica.","p2":"En 1958, Frank Rosenblatt construyó el Perceptrón Mark I en Cornell — la primera máquina que aprendía de la experiencia. Pesando 5 toneladas y usando fotocélulas como entradas, ajustaba sus propios parámetros para reconocer formas simples. The New York Times lo llamó 'el embrión de una computadora electrónica que [la Marina] espera que pueda caminar, hablar, ver, escribir, reproducirse y ser consciente de su existencia.' El bombo era real.","p3":"En 1969, Minsky y Papert demostraron que los perceptrones de una sola capa tenían límites fundamentales. No podían aprender XOR — un patrón simple que cualquier niño podía captar. La financiación se secó de la noche a la mañana. El Invierno de la IA duró casi dos décadas. Los investigadores abandonaron el campo. Las redes neuronales se convirtieron en una historia de advertencia.","p3_5":"Pero la idea se negó a morir. A lo largo de los años 70, un puñado de investigadores siguió trabajando en la oscuridad. La idea clave — que se podían entrenar redes multicapa propagando errores hacia atrás a través de las capas — fue descubierta independientemente por varios grupos. Tendría que esperar hasta 1986 para abrirse paso.","p4":"En 1986, Rumelhart, Hinton y Williams publicaron su artículo sobre la retropropagación — el algoritmo que mostró que las redes multicapa podían aprender. Las matemáticas habían existido desde los años 70, pero ahora eran prácticas. Las capas ocultas lo cambiaron todo. El deshielo comenzó, lentamente.","p5":"Tomó otros 25 años, conjuntos de datos masivos y la revolución de las GPU antes de que el aprendizaje profundo conquistara el mundo. ImageNet 2012. AlphaGo 2016. GPT-3 2020. Pero la semilla plantada en 1943 nunca dejó de crecer — solo necesitaba tiempo, escala y cómputo para florecer."},"artificialNeuron":{"title":"Ensamblándolo Todo","lead":"Construiste las piezas — pesos, suma, sesgo. Ahora conectémoslas en una sola unidad y veámosla calcular. Esta es la neurona artificial: el átomo de toda red neuronal.","p1":"Abajo tienes todo lo que acabas de aprender en un diagrama interactivo. Arrastra los deslizadores para cambiar entradas, pesos y sesgo — y observa cómo cada uno afecta la salida final en tiempo real.","p1Highlight":"peso","p1End":"","p2":"La neurona multiplica cada entrada por su peso, las suma, añade el sesgo y luego pasa el resultado por una función de activación (aquí, ReLU — que simplemente recorta los negativos a cero). El desglose de contribuciones muestra exactamente de dónde viene cada parte de la salida.","formulaCaption":"Multiplica cada entrada por su peso, suma todo, añade el sesgo, luego aplica una función de activación f. Esta es la operación atómica de toda red neuronal.","p3":"Con los pesos y el sesgo correctos, una sola neurona puede","p3Highlight":"trazar una línea recta a través de los datos y clasificar todo a un lado como A y al otro como B","p3End":". El entrenamiento es cómo la neurona encuentra esos números correctos — partiendo de suposiciones aleatorias y mejorando paso a paso.","calloutTitle":"¿Qué son los parámetros?","calloutText":"Los pesos y sesgos juntos se llaman parámetros. Al inicio son ruido aleatorio. Al final codifican todo lo que la red ha aprendido — almacenado simplemente como una lista de números decimales.","formalizeParagraph":"En matemáticas, todo lo que acabas de explorar se puede escribir en una sola línea:","formulaCaptionMoved":"Multiplica cada entrada por su peso, suma todo, añade el sesgo, luego pásalo por una función de activación f. Esta es la operación atómica de toda red neuronal.","bridgeToScaling":"Una neurona puede calcular una suma ponderada y disparar (o no). Eso es poderoso — pero también limitado. ¿Qué pasa cuando juntamos muchas de estas unidades?","walkthrough":{"title":"Desglosándolo con un ejemplo real","scenarioTitle":"Escenario:","scenarioText":"Una neurona intenta predecir tu tiempo de trayecto.","intro":"Considera dos entradas: la distancia al colegio (x₁) y el nivel de tráfico (x₂). Veamos cómo hace una predicción.","step1":"Empieza con las entradas","step2":"Multiplica cada entrada por su peso","step2Desc":"Los pesos determinan la importancia. Aquí, la distancia importa mucho (w₁ es alto) y el tráfico importa menos (w₂ es pequeño).","step2Hint":"La distancia aportó 1.2 puntos; el tráfico solo 0.18 puntos.","step3":"Suma las entradas ponderadas (Σ)","step3Hint":"Σ (sigma) solo significa “sumarlo todo.”","step4":"Añade el sesgo","step4Desc":"El sesgo es el empuje base. Un sesgo positivo activa más fácil; un sesgo negativo hace a la neurona más exigente.","step4Hint":"Un sesgo negativo reduce la puntuación antes de la activación.","step5":"Aplica la función de activación","step5Desc":"La activación decide qué tan fuerte “dispara” la neurona. ReLU deja pasar positivos y recorta negativos a 0.","step5Hint":"Como 0.88 es positivo, pasa sin cambios.","resultTitle":"Salida final","resultTextPart":"La neurona produce","resultDesc":"Esto podría interpretarse como una predicción segura de un trayecto corto.","finalNote":"Eso es todo lo que hace una neurona: multiplicar por pesos, sumar sesgo y aplicar una activación."},"biological":{"title":"Biología vs Máquina","subtitle":"Inspirada en la naturaleza, pero mucho más simple","bioLabel":"Neurona Biológica","artLabel":"Neurona Artificial","dendrites":"Las dendritas reciben señales de otras neuronas","cellBody":"El cuerpo celular procesa las señales entrantes","axon":"El axón transmite la señal de salida","synapse":"Las sinapsis conectan neuronas con intensidades variables","inputsArt":"Entradas (números que se alimentan)","weightsArt":"Pesos (importancia de cada entrada)","sumArt":"Suma ponderada + sesgo","activationArt":"Función de activación (disparar o no)","caveat":"El parecido es intencional pero superficial. Las neuronas reales son sistemas electroquímicos complejos con temporización, inhibición y plasticidad. Las neuronas artificiales son una simplificación matemática que captura solo una idea: señales de entrada, cálculo, señal de salida."},"predict4":"¿Puedes trazar el camino de las entradas a la salida en tu cabeza antes de verlo animado?","perceptronLabel":"Interactivo · El Perceptrón","perceptronHint":"Haz clic en cada capa para ver cómo las entradas fluyen a través de pesos, sesgo y activación. Esta es la neurona artificial completa."},"parallelNeurons":{"title":"Interactivo · Neuronas en Paralelo","neuronCount":"{n} neurona(s)","sameInputs":"Mismas entradas","multipleOutputs":"Múltiples salidas","reluToggle":"ReLU","reluOn":"On","reluOff":"Off","inactiveTitle":"Neuron is inactive","inactiveDesc":"ReLU clipped it to 0","inactiveBadge":"Inactive (ReLU → 0)","inactiveSummary":"{neurons} produced a negative value, so ReLU clipped the output to 0.","insightOne":"1 neurona → 1 salida. Solo puede calcular una cosa.","insightMultiple":"{n} neuronas → {n} salidas. Cada neurona aprende algo diferente de los mismos datos.","hint":"Añade neuronas y activa/desactiva ReLU para ver cómo múltiples neuronas procesan las mismas entradas de forma independiente."},"decisionBoundary":{"title":"Interactivo · Límite de Decisión","hint":"Arrastra los deslizadores de peso para mover la línea de decisión. Prueba ambos escenarios — simple y XOR.","simpleBtn":"Simple (separable)","complexBtn":"Complejo (XOR)","biasLabel":"sesgo","accuracyLabel":"Precisión","classA":"Clase A","classB":"Clase B","insightLinearPerfect":"Una neurona, una línea — y separa perfectamente los dos grupos. Esto es lo que puede hacer una sola neurona.","insightLinearTry":"Arrastra los deslizadores para encontrar una línea que separe azul de rojo. Una sola neurona puede resolver esto.","insightXor":"No importa cómo muevas la línea, no puedes separar los grupos. Una línea recta no es suficiente. Este es el problema XOR — y por eso necesitamos más neuronas."},"nonLinearity":{"title":"¿Y Si Añadimos Más Neuronas?","lead":"Una neurona solo puede trazar una línea recta. ¿Qué pasa cuando combinamos varias? Vamos a descubrirlo — paso a paso.","linearProblem":"Esta es la primera sorpresa: si simplemente apilas capas de neuronas sin nada especial entre ellas, no obtienes nada nuevo. ","linearProblemHighlight":"Dos capas colapsan en una. Diez capas colapsan en una.","linearProblemEnd":" Es como apilar lupas — simplemente se combinan en una sola ampliación. Pruébalo:","stackingIntro":"Añade capas abajo, luego activa la función de activación para ver la diferencia.","stackingLabel":"Interactivo · Apilando Capas","stackingHint":"Añade capas y observa: sin función de activación, el efecto combinado siempre es una línea recta. Con ReLU, cada capa añade una curva.","stackingOutro":"Sin funciones de activación, la profundidad es una ilusión. La red sigue siendo solo una gran operación lineal — sin importar cuántas capas añadas.","stacking":{"title":"Demo de Apilado de Capas","layerCount":"{n} capas","addRelu":"Añadir ReLU","stillLinear":"¡Sigue siendo una línea recta!","bendCount":"¡{n} curvas!","hint":"Las capas lineales colapsan. La no linealidad es lo que hace útil la profundidad."},"activationIntro":"La solución es una idea pequeña: después de la suma de cada neurona, aplica una función no lineal. Esto rompe el colapso. Cada capa ahora añade una curva genuina. Explora las funciones de activación más comunes:","activationLabel":"Interactivo · Funciones de Activación","activationHint":"Haz clic en cada función para comparar formas. ReLU es la opción por defecto en redes modernas — simple pero efectiva.","p3":"Diferentes funciones tienen diferentes personalidades.","p3Highlight":"ReLU deja pasar los positivos y elimina los negativos. Sigmoide comprime todo entre 0 y 1. Tanh comprime entre -1 y 1.","p3End":"La elección importa: ReLU hizo prácticas las redes profundas al evitar el problema de los gradientes que desaparecen.","parallelIntro":"Ahora añadamos más neuronas. En lugar de una sola neurona que produce una sola salida, pon varias lado a lado — todas mirando las mismas entradas, cada una con sus propios pesos y sesgo.","parallelOutro":"Cada neurona aprende a detectar un patrón diferente en los mismos datos. Esto se llama una capa — un grupo de neuronas trabajando en paralelo. Una salida se convierte en muchas.","whyALine":"Pero ¿qué hace realmente cada neurona? Piensa en ella como una pregunta de sí o no: ¿está este punto por encima o por debajo de mi línea? La neurona calcula su suma ponderada, y el resultado es positivo (sí) o negativo (no). Esa línea divisoria es la frontera de decisión de la neurona.","whyALineDetail":"Por ejemplo: '¿El tiempo de viaje es más de 30 minutos?' Una neurona, una pregunta, una línea recta dividiendo el espacio en dos. Múltiples neuronas hacen múltiples preguntas — y combinando sus respuestas, podemos describir regiones mucho más complejas.","boundaryIntro":"Así es como se ve en la práctica. Una sola neurona traza una línea recta por los datos y dice \"todo a este lado es A, todo al otro lado es B.\" Pruébalo — arrastra los pesos para mover la línea:","boundaryOutro":"Empieza con el escenario simple — una línea es suficiente. Luego cambia al modo XOR e intenta alcanzar el 100% de precisión. Verás que es imposible con una sola neurona.","xorChallenge":{"question":"Cambia al modo XOR. Prueba todas las combinaciones de pesos y sesgo. ¿Puedes llegar al 100% de precisión?","hint":"No importa cómo inclines o desplaces la línea, algunos puntos rojos y azules quedan en el lado equivocado. XOR no se puede resolver con una sola línea recta.","success":"¡Exacto — no puedes! Una neurona = una línea. XOR necesita al menos dos líneas para separar los cuatro puntos. Por eso necesitamos varias neuronas trabajando juntas."},"layerIntro":"XOR demostró que una capa no es suficiente. ¿Y si apilamos capas — una tras otra — para que la salida de una sea la entrada de la siguiente?","peak2":"Esto dejó estancado al campo durante veinte años.","reflection1":"Una neurona, una línea. Dos neuronas, dos líneas. ¿Qué pasa con cien?","whatIf1Title":"¿Y si apilaras 100 capas sin activación?","whatIf1Desc":"Una demostración con álgebra matricial de que cualquier número de capas lineales colapsa en una.","whatIf1Text":"Cada capa lineal es simplemente una multiplicación de matrices: salida = W · entrada. ¿Dos capas? Eso es W₂ · (W₁ · entrada) = (W₂ · W₁) · entrada. El producto de dos matrices es simplemente otra matriz. Así que dos capas = una capa. ¿Cien capas? Sigue siendo una sola matriz.","whatIf1MatrixLabel":"Multiplicación de matrices — las capas colapsan","whatIf1Conclusion":"No importa cuántas capas apiles, sin no linealidad entre ellas, toda la red colapsa en una sola multiplicación de matrices. La profundidad es una ilusión. Este es el problema del colapso lineal — y por eso las funciones de activación son innegociables.","xorSolverIntro":"Ahora viene la recompensa. ¿Recuerdas el problema XOR que una neurona no podía resolver? Con dos neuronas y activación ReLU, la red puede trazar dos líneas de frontera — creando una banda que separa las clases. Alterna entre los modos para ver la diferencia:","xorSolverOutro":"Dos neuronas con ReLU resolvieron lo que una neurona nunca pudo. Cada neurona oculta traza una línea; la neurona de salida combina sus respuestas. Este es el poder fundamental de las redes neuronales: piezas simples, combinadas con no linealidad, pueden resolver problemas complejos.","deadNeuronIntro":"Ahora que entiendes los gradientes, hay una trampa con ReLU: si la pre-activación de una neurona es siempre negativa, ReLU la recorta a cero — y gradiente cero significa aprendizaje cero. La neurona está permanentemente muerta. Este es el problema de la 'ReLU moribunda'.","summaryCalloutTitle":"La receta hasta ahora","summaryCalloutText":"Toma neuronas (suma ponderada + sesgo). Añade funciones de activación para desbloquear la no linealidad. Ponlas en paralelo para obtener una capa. Apila capas en serie para obtener profundidad. Esa es la arquitectura de toda red neuronal."},"xorSolver":{"title":"Interactivo · XOR Resuelto con ReLU","hint":"Alterna entre lineal (sin activación) y ReLU para ver cómo dos neuronas con activación pueden resolver el problema XOR.","linearBtn":"Sin Activación","reluBtn":"Con ReLU","classA":"Clase A","classB":"Clase B","accuracy":"Precisión","networkLabel":"Red","insightLinear":"Una sola línea recta nunca puede separar el patrón XOR. No importa dónde la dibujes, algunos puntos quedan en el lado equivocado. Este es el límite de una sola neurona lineal.","insightRelu":"Dos neuronas ocultas con ReLU crean dos líneas de frontera. Juntas forman una banda — la región en forma de diamante que separa correctamente los cuatro grupos. Este es el poder de la no linealidad."},"divergence":{"title":"Interactivo · ¿Qué Pasa Sin Tasa de Aprendizaje?","hint":"Alterna entre gradiente completo (lr=1) y una tasa pequeña (lr=0.01) para ver la diferencia dramática.","fullBtn":"Gradiente completo (η = 1)","smallBtn":"Pasos pequeños (η = 0.01)","exploded":"¡La pérdida explotó! 💥","converged":"Convergió suavemente ✓","insightFull":"Con η = 1, restamos el gradiente completo. El primer paso sobrepasa el mínimo tan brutalmente que el siguiente lo sobrepasa aún más. La pérdida se dispara al infinito. Esto es divergencia.","insightSmall":"Con η = 0.01, cada paso es una pequeña fracción del gradiente. La pérdida baja suavemente hacia cero. Los pesos convergen a buenos valores. Por eso existe la tasa de aprendizaje."},"lrOvershoot":{"title":"Interactivo · Sobreimpulso en el Cuenco de Pérdida","hint":"Arrastra el slider de tasa de aprendizaje y pulsa Ejecutar. Observa cómo se comporta una bola en una parábola de pérdida convexa — convergencia suave, oscilación con rebote o divergencia descontrolada."},"bioVsArtificial":{"intro":"La neurona artificial fue inspirada directamente por cómo funcionan las células cerebrales reales. McCulloch y Pitts estudiaron neuronas biológicas en 1943 y notaron un patrón: las señales llegan por las dendritas, se procesan en el cuerpo celular, y si la señal total es suficientemente fuerte, la neurona dispara una salida por el axón. Preguntaron: ¿podemos construir un modelo matemático que haga lo mismo?","bioTitle":"Neurona Biológica","artTitle":"Perceptrón Artificial","dendrites":"Dendritas","soma":"Cuerpo celular","axon":"Axón","terminals":"Terminales","synapses":"Sinapsis","inputs":"Entradas","weights":"Pesos","sumActivation":"Suma + σ","output":"Salida","map":{"dendritesBio":"Las dendritas reciben señales de otras neuronas","dendritesArt":"Las entradas (x₁, x₂, ...) reciben datos","synapsesBio":"Las sinapsis fortalecen o debilitan señales","synapsesArt":"Los pesos (w₁, w₂, ...) amplifican o reducen entradas","somaBio":"El cuerpo celular suma todas las señales entrantes","somaArt":"Sumación: Σ(wᵢ · xᵢ) + sesgo, luego activación σ","axonBio":"El axón dispara si la señal supera el umbral","axonArt":"Salida ŷ — la predicción de la neurona"}},"weightImpact":{"title":"Interactivo · Cómo un Peso Cambia la Pérdida","hint":"Arrastra el deslizador de peso y observa la cadena completa actualizarse: entrada × peso + sesgo → σ → salida → pérdida.","introText":"Ahora que sabemos medir el error, podemos hacer la pregunta clave: si cambiamos un peso ligeramente, ¿la pérdida sube o baja? Tracemos a través de una neurona real para averiguarlo.","bridge":"Lo acabas de ver con tus propios ojos: un pequeño cambio en el peso cambia la pérdida. Si la pérdida subió, debemos mover el peso en la otra dirección. Si bajó, seguimos. Esta idea es exactamente lo que captura la derivada. Veámoslo como gráfico:","nudgeTitle":"¿Qué pasa si cambiamos el peso en +0.1?","shouldDecrease":"Aumentar w empeoró la pérdida → debemos DISMINUIR el peso","shouldIncrease":"Aumentar w mejoró la pérdida → debemos AUMENTAR el peso","atMinimum":"Estamos en (o muy cerca de) el mínimo. No se necesita ajuste.","insight":"Este es todo el truco del entrenamiento: probar un cambio pequeño, ver si la pérdida mejora o empeora, y ajustar. La derivada automatiza esto para todos los pesos simultáneamente."},"lossDerivative":{"title":"Interactivo · La Derivada como Gráfico","hint":"Arrastra el peso y ve la curva de pérdida. La pendiente de la línea tangente ES la derivada.","introText":"La misma idea que acabamos de explorar — cambiar un peso y ver si la pérdida sube o baja — se puede visualizar como una curva. Cada valor posible de peso tiene una pérdida correspondiente. La derivada en cualquier punto es la pendiente de esta curva.","showNudge":"🔍 Muéstrame las mates: cambiar w en 0.01","hideNudge":"Ocultar detalles","changeRatio":"Δpérdida / Δw =","positiveSlope":"Pendiente positiva → aumentar w aumenta la pérdida → mover w a la IZQUIERDA","negativeSlope":"Pendiente negativa → aumentar w disminuye la pérdida → mover w a la DERECHA","zeroSlope":"Pendiente ≈ 0 → ¡estamos en el mínimo!","insight":"La derivada te dice exactamente en qué dirección ajustar cada peso. ¿Derivada positiva? Disminuye el peso. ¿Negativa? Auméntalo. Esta es toda la base del entrenamiento."},"flatGradient":{"title":"Avanzado: ¿Qué Pasa si la Derivada es Cero?","desc":"El problema del gradiente evanescente — por qué algunas neuronas dejan de aprender por completo.","intro":"Si la derivada es cero, el peso recibe actualización cero. No hay aprendizaje. Esto no es solo teórico — es uno de los problemas más importantes en aprendizaje profundo.","vizTitle":"Interactivo · Zonas de Saturación del Sigmoid","vizHint":"Arrastra el valor de entrada. En las zonas rojas, la derivada es casi cero — la neurona está 'saturada' y no puede aprender.","mathTitle":"Las matemáticas detrás de la saturación","mathExplain":"Cuando z es muy grande o muy negativo, σ(z) está cerca de 0 o 1. Entonces σ(z)(1 − σ(z)) ≈ 0. La derivada se desvanece. En una red profunda, estas derivadas diminutas se multiplican capa por capa — 0.01 × 0.01 × 0.01 = 0.000001.","solution":"Por eso ReLU reemplazó a sigmoid en redes profundas. La derivada de ReLU es exactamente 1 para entradas positivas — el gradiente fluye sin cambios.","stuck":"ATASCADA","learning":"APRENDIENDO","slow":"LENTA","flatExplain":"El sigmoid está saturado aquí. La derivada es casi cero, así que las actualizaciones de peso serán insignificantes. La neurona no puede aprender de esta entrada.","healthyExplain":"El sigmoid está en su zona activa. La derivada es suficientemente grande para actualizaciones significativas.","slowExplain":"La derivada es pequeña pero no cero. El aprendizaje ocurrirá, pero muy lentamente."},"backpropZero":{"title":"Interactivo · Retropropagación con Derivada Cero","hint":"Mueve z a las zonas de saturación (lejos de 0) y observa σ'(z) colapsar a cero — matando toda la cadena de gradientes.","intro":"Viste que la derivada del sigmoid llega a cero en las zonas de saturación. ¿Pero qué significa eso realmente para el aprendizaje? Tracemos la cadena completa de retropropagación. Si CUALQUIER término es cero, todo el gradiente es cero.","stuck":"σ'(z) ≈ 0 → la cadena de gradientes está rota → el peso no puede actualizarse. ¡Esta neurona está atascada!","working":"σ'(z) es suficientemente grande → el gradiente fluye → el peso puede actualizarse normalmente."},"batchChallenge":{"question":"Desafío: En la demo de entrenamiento de arriba, intenta poner la tasa de aprendizaje muy alta (ej. 0.3) con un solo ejemplo. ¿Puedes hacer que la pérdida AUMENTE en vez de disminuir? ¿Por qué pasa eso?","hint":"Piensa en qué pasa cuando el modelo ve solo un ejemplo inusual. Si ese ejemplo es muy diferente del promedio, el gradiente empuja los pesos demasiado lejos — sobrepasando el mínimo.","success":"¡Exacto! Con un lote pequeño y tasa de aprendizaje alta, un solo valor atípico puede empujar los pesos tan lejos que la pérdida total sube. Por eso usamos mini-lotes y tasas de aprendizaje cuidadosas."},"batchComparison":{"title":"Interactivo · Por Qué Importa el Tamaño del Lote","hint":"Observa los 3 tamaños de lote entrenar simultáneamente. Rojo (lote=1) es ruidoso; amarillo (lote=4) es más suave; verde (lote=TODOS) es un camino limpio.","introText":"¿Por qué no entrenar con un solo ejemplo a la vez? Imagina que intentas aprender la estatura promedio de 12 personas. Si solo miras a una persona por paso, una persona muy alta distorsionará tu estimación. Veamos los 3 tamaños de lote lado a lado:","outroText":"Esta inestabilidad con lotes pequeños es un anticipo de un problema más profundo: si tus datos de entrenamiento no son representativos, tu modelo aprenderá los patrones equivocados. Esto se llama sobreajuste.","insightStart":"Pulsa 'Paso' o 'Ejecutar todos 20' para empezar. Los tres modelos empiezan desde la misma predicción errónea (155 cm) e intentan encontrar la media real.","insightMid":"Nota la línea roja (lote=1) rebotando salvajemente. La línea amarilla (lote=4) es más suave. La verde (lote=TODOS) toma el camino más directo.","insightEnd":"Los tres se acercan, pero lote=1 tomó un zigzag caótico mientras lote=TODOS fue directo. En la práctica, lote=TODOS es demasiado costoso para grandes datasets, así que mini-lotes (4, 32, 64) son el equilibrio ideal."},"matrixMultiply":{"title":"Avanzado: Una Capa ES una Multiplicación de Matrices","desc":"Mira cómo una capa de red neuronal es realmente solo multiplicación de matrices — la operación que las GPUs están diseñadas para hacer en paralelo.","insight":"Una capa ES una multiplicación de matrices. Cada entrada se multiplica por cada peso simultáneamente. Las GPUs están diseñadas para hacer millones de estas en paralelo — por eso las redes neuronales corren en tarjetas gráficas.","coreOp":"La operación central","formalTitle":"Notación formal","formalDesc":"En notación vectorial, una sola capa calcula y = x·W + b. La matriz de pesos W transforma la entrada x en la salida y. El sesgo b desplaza el resultado. Cada neurona de salida j calcula un producto punto de la entrada con su columna de W:","sumExplain":"Cada salida yⱼ es la suma de todas las entradas multiplicadas por los pesos correspondientes en la columna j, más un sesgo. Es exactamente el patrón 'multiplicar, sumar, añadir sesgo' de la neurona individual — pero hecho en paralelo para todas las salidas a la vez.","dimTitle":"Las dimensiones importan","dimExplain":"Las dimensiones internas deben coincidir: x tiene n características, W tiene n filas. El tamaño de salida m lo determina el número de columnas de W — eso es cuántas neuronas hay en la capa.","stackTitle":"Apilando capas: redes profundas","stackDesc":"Una red profunda es simplemente varias multiplicaciones de matrices en secuencia, con una no-linealidad (como ReLU) después de cada una. La no-linealidad es crucial — sin ella, apilar capas colapsaría en una sola multiplicación de matrices (ya que AB = C para cualquier matrices A, B).","stackNote":"Cada σ es una función de activación aplicada elemento a elemento. Sin ella, W₁·W₂·W₃ = W_combinada — la red colapsaría a una sola capa sin importar cuántas apiles. La no-linealidad es lo que hace útil la profundidad.","scaleTitle":"Escala del mundo real"},"trainValSplit":{"title":"Interactivo · División Entrenamiento / Validación","hint":"Haz clic en 'Dividir' para ver cómo se dividen los datos en conjuntos de entrenamiento y validación. El modelo solo entrena con los puntos rellenos.","trainLabel":"Entren.","valLabel":"Val.","trainArrow":"El modelo entrena con estos","valArrow":"El modelo se evalúa con estos","splitBtn":"Dividir los datos →","resetBtn":"↺ Recombinar"},"activationDeriv":{"title":"Funciones de Activación y Sus Derivadas","expandableTitle":"Avanzado: derivadas de activación y gradientes evanescentes","hint":"Compara cómo cada función de activación transforma su entrada (izquierda) y cómo se comporta su derivada (derecha). Zonas rojas = gradiente evanescente.","derivLabel":"derivada","vanishingWarning":"Zona de gradiente evanescente detectada","sigmoidNote":"La derivada de Sigmoid alcanza un máximo de 0.25 y cae a casi cero para |x| grandes. En redes profundas, estos gradientes diminutos se multiplican entre sí, haciendo casi imposible entrenar las primeras capas.","tanhNote":"Tanh tiene una derivada más fuerte que sigmoid (máximo en 1.0), pero aún se desvanece para |x| grandes. Mejor que sigmoid, pero ReLU evita el problema por completo.","reluNote":"La derivada de ReLU es exactamente 1 para entradas positivas — los gradientes fluyen sin cambios. Por eso ReLU hizo prácticas las redes profundas."},"deadNeuron":{"title":"El Problema de la Neurona Muerta","hint":"Un sesgo muy negativo hace que ReLU siempre dé cero. Arrastra el sesgo hacia arriba para revivir la neurona.","outputsLabel":"Salida ReLU para diferentes entradas","deadLabel":"Esta neurona está muerta — nunca aprenderá.","aliveLabel":"¡La neurona está viva y respondiendo a las entradas!","partialLabel":"Parcialmente activa — algunas entradas pasan.","deadExplain":"Con un sesgo tan negativo, la pre-activación siempre es negativa. ReLU la recorta a cero. Gradiente cero significa aprendizaje cero.","aliveExplain":"Los valores de pre-activación positivos pasan por ReLU, produciendo salidas y gradientes distintos de cero."},"vowelTeaser":{"title":"Vista Previa: Una Neurona Por Vocal","hint":"Un vistazo a lo que construiremos en §07 — una red que reconoce vocales.","desc":"5 vocales (a, e, i, o, u). Una neurona de salida por vocal. Al introducir una letra, cada neurona devuelve lo probable que cree que su vocal sea la siguiente.","forward":"Construiremos esto de verdad cuando lleguemos a De Números a Lenguaje.","inputNodeLabel":"neurona","inputValueLabel":"letra"},"stepEpochBatch":{"title":"Pasos, Épocas y Lotes","hint":"Observa cómo los datos fluyen por la red en lotes. Un pase completo por todos los datos = una época.","stepLabel":"Paso","epochLabel":"Época","batchLabel":"Lote","dataLabel":"{n} ejemplos de entrenamiento","batchSizeLabel":"tamaño de lote = {n}","epochProgress":"Progreso de época","shortcutsHint":"Atajos: ←/→ paso · Espacio reproducir/pausar","play":"▶ Reproducir","pause":"⏸ Pausar","stepBtn":"Paso →","reset":"↺ Reiniciar","complete":"¡3 épocas completas! La red ha visto cada ejemplo 3 veces."},"gradientNoise":{"title":"Ruido del Gradiente vs Tamaño de Lote","hint":"Lotes más grandes dan gradientes más suaves pero cada paso procesa más datos. Lotes más pequeños son más ruidosos pero actualizan pesos más frecuentemente por época. Compara las curvas para ver el compromiso.","batchSizeLabel":"Tamaño de lote","trueGradient":"gradiente real","batchGradient":"gradiente del lote","noise1":"Lote de 1 (SGD): cada flecha es de un solo ejemplo. Muy ruidoso — cada una apunta en una dirección diferente.","noise8":"Lote de 8: algo de promediado suaviza el ruido, pero las flechas aún se dispersan alrededor de la dirección real.","noise32":"Lote de 32: un buen equilibrio. Las flechas se agrupan cerca del gradiente real con ruido moderado.","noise256":"Lote de 256: gradientes muy suaves, casi alineados. Pero cada paso es costoso de calcular.","noiseFull":"Lote completo: una flecha perfecta. Sin ruido, pero extremadamente lento — calcula el gradiente sobre TODOS los ejemplos."},"overfittingPlay":{"title":"El Patio de Juegos del Sobreajuste","hint":"Tres modelos, mismos datos. Solo uno generaliza bien a nuevos puntos no vistos. Haz clic en 'Probar' para descubrirlo.","underfit":"Subajuste","overfit":"Sobreajuste","optimal":"Óptimo","showTest":"🧪 Probar con datos no vistos","hideTest":"Ocultar datos de prueba","testInsight":"¡Mira las precisiones de prueba! El modelo sobreajustado saca 100% en entrenamiento pero solo 54% en datos nuevos — peor que aleatorio para dos clases. El óptimo sacrifica algo de precisión de entrenamiento (88%) pero generaliza mucho mejor (85% en prueba). El subajustado es malo en ambos — demasiado simple para aprender el patrón."},"findingDirection":{"title":"¿Podemos Corregir una Mala Predicción?","lead":"Hemos construido una neurona. Pero con pesos aleatorios, sus predicciones son completamente erróneas. ¿Podemos descubrir cómo arreglarlos — sin probar cada combinación posible?","peak3":"TIENE que haber una forma mejor.","reflection2":"Acabas de medir algo invisible — cuánto un número afecta a otro a través de una cadena de operaciones.","whatIf2Title":"¿Y si la derivada es cero en todas partes?","whatIf2Text":"Entonces la red no puede aprender en absoluto. Derivada cero significa 'no se detectó cambio' — los pesos no tienen idea de en qué dirección moverse. Esto se llama gradiente evanescente, y plagó las primeras redes profundas hasta que ReLU y la inicialización cuidadosa lo solucionaron."},"howItLearns":{"title":"Cómo Aprende una Red","lead":"Tenemos una neurona que calcula: toma entradas, multiplica por pesos y lo suma. Pero ","leadHighlight":"esos pesos empiezan como números aleatorios","leadEnd":" — así que las respuestas son completamente equivocadas. Aquí está el reto: ¿puedes descubrir cómo arreglarlos?","phaseA":{"p1":"Hagámoslo concreto. Imagina que queremos predecir cuánto tardas en llegar al trabajo. Las entradas son hechos fijos: distancia = 5 km y tráfico = 7. Queremos que la respuesta correcta sea 30 minutos. Pero la neurona empieza con pesos aleatorios (w₁ = 4, w₂ = 3) y un sesgo aleatorio — el tiempo fijo de “ponerte en marcha”, como subirte al coche y arrancar. Así que la primera predicción sale muy mal.","hint":"El modelo predice minutos como w₁ × distancia + w₂ × tráfico + sesgo. Con parámetros aleatorios, la predicción es incorrecta.","p2":"Las entradas son datos fijos. Lo único que podemos cambiar son los pesos y el sesgo. Entonces, ¿cómo ajustarías TÚ w₁, w₂ y b para que la predicción se acerque a 30 minutos? Pruébalo:"},"phaseB":{"legacyConcrete":"Hagámoslo concreto. Supón que sabemos la respuesta correcta: cuando las entradas son 1 y 2, la salida debería ser 3. Pero ahora mismo el modelo tiene pesos aleatorios (w₁ = 4, w₂ = 3), así que calcula 4×1 + 3×2 = 10. Está muy lejos — debería ser 3, no 10.","intro":"El primer paso más natural: ¿qué pasa si simplemente cambiamos un peso y vemos qué sucede? Usa los deslizadores abajo para ajustar w₁ y w₂. Intenta que la salida sea igual a 3.","nudgeHint":"Arrastra los deslizadores de peso y observa cómo cambia la salida. Nota cuál peso tiene más efecto.","discovery":"¿Lo notaste? Cuando cambias w₁ en 1, la salida cambia en 1 (porque x₁ = 1). Pero cuando cambias w₂ en 1, la salida cambia en 2 (porque x₂ = 2). El efecto de cada peso depende de su entrada. w₂ es el doble de sensible que w₁."},"phaseC":{"intro":"Acabas de descubrir algo poderoso: cada peso tiene un efecto distinto en la salida. Veamos exactamente por qué. Toma el ejemplo más simple posible: si z = x + y, ¿qué pasa con z cuando x sube en 1?","derivativeHint":"Alterna entre suma y multiplicación. Cambia x e y para ver cómo cambia el resultado.","nameIt":"Para la suma (x + y = z), cuando x sube en 1, z siempre sube en 1 — sin importar y. Decimos que la derivada es 1. Significa: \"por cada unidad que cambia x, z cambia exactamente 1 unidad\". Para la multiplicación (x × y = z), cuando x sube en 1, z sube en y. La derivada es y — ¡el efecto de x depende de qué tan grande sea y! Esta idea — medir cuánto una cosa afecta a otra — es la base de cómo aprenden las redes neuronales."},"phaseD":{"intro":"En una neurona real, las operaciones están encadenadas: primero multiplicas por un peso y luego sumas un sesgo. Si cambiamos x al principio, el cambio se propaga por cada paso. Mira cómo sucede:","chainHint":"Mueve el deslizador de x y observa cómo el cambio se propaga por cada operación.","nameIt":"Para encontrar el efecto total, multiplicas los efectos individuales a lo largo de la cadena. En nuestro ejemplo: multiplicar por 3 tiene un efecto de 3, sumar 1 tiene un efecto de 1. Total: 3 × 1 = 3. A esto se le llama la regla de la cadena — y funciona sin importar cuántas operaciones apiles. ¿Una red con millones de operaciones? La misma idea: multiplicar efectos locales, paso a paso, desde el final hacia el principio."},"phaseE":{"intro":"Conocemos la pérdida — ahora ¿en qué dirección debemos mover cada peso para reducirla? La pendiente de la curva de pérdida nos lo dice:","dirHint":"Prueba los tres escenarios para ver la lógica: muy alto, muy bajo y correcto.","rule":"La lógica es hermosa en su sencillez: si la derivada es positiva (aumentar el peso hace la salida más grande) y la salida ya es demasiado alta — baja el peso. Si la salida es demasiado baja y la derivada es positiva — sube el peso. En resumen: muévete siempre en contra de la dirección que empeora las cosas. Esta idea está detrás de todo el entrenamiento de redes neuronales."},"phaseF":{"intro":"Volvamos a nuestro ejemplo. La salida es 10, queríamos 3, así que el error es 10 − 3 = 7. Pero hay un problema sutil con usar errores crudos...","lossHint":"Mira por qué los errores crudos son problemáticos y cómo elevar al cuadrado lo soluciona.","named":"A este error al cuadrado lo llamamos pérdida. Es un solo número que nos dice qué tan equivocado está el modelo. Cuanto mayor la pérdida, peor la predicción. Nuestro objetivo es hacer la pérdida lo más pequeña posible."},"phaseG":{"intro":"Ahora tenemos todo lo que necesitamos. Juntemos todo y hagamos un paso completo de entrenamiento: calcular la salida, medir la pérdida, calcular los gradientes y actualizar los pesos.","calcHint":"Avanza por las cinco fases de una sola iteración de entrenamiento."},"naming":{"title":"Nombrando lo que acabas de aprender","text":"Calcular la salida es el pase hacia adelante. Elevar el error al cuadrado nos da la pérdida. Calcular cómo cada peso afecta la pérdida nos da los gradientes (el pase hacia atrás). Actualizar pesos restando el gradiente es descenso de gradiente. El ciclo completo — adelante, pérdida, atrás, actualizar — se llama retropropagación. ¡Acabas de hacerlo a mano!"},"phaseH":{"intro":"Un paso nos acercó, pero aún no llegamos. ¿Qué pasa si repetimos este proceso una y otra vez? Cada paso empuja los pesos un poco más cerca de los valores correctos.","repeatHint":"Haz clic en 'Entrenar un paso' o usa auto-entrenamiento para ver la pérdida disminuir con el tiempo.","outro":"¿Lo notaste? La pérdida bajó rápido al principio y luego se ralentizó. Los primeros pasos mejoran mucho porque los pesos están lejos del objetivo. Los pasos posteriores hacen ajustes pequeños. Pero hay un control oculto que determina qué tan rápido o lento sucede esto..."},"phaseI":{"intro":"La tasa de aprendizaje (se escribe como η, la letra griega 'eta') controla qué tan grande es cada paso. Después de calcular el gradiente, no saltamos toda la cantidad — tomamos una fracción. Esa fracción es la tasa de aprendizaje.","lrLabel":"Interactivo · Explorador de Tasa de Aprendizaje","lrHint":"Prueba los tres preajustes y luego usa el deslizador personalizado para encontrar el punto dulce. Observa con atención la curva de pérdida.","outro":"Demasiado pequeña y el entrenamiento avanza a paso de tortuga. Demasiado grande y explota. La tasa de aprendizaje es una de las decisiones más importantes al entrenar una red neuronal — y no hay una fórmula perfecta. Hay que experimentar."},"phaseJ":{"intro":"Veamos la imagen completa del aprendizaje. Abajo hay un mapa de todas las combinaciones posibles de pesos. Azul oscuro significa baja pérdida (bien). Rojo significa alta pérdida (mal). Observa cómo los pesos viajan desde su punto inicial aleatorio hacia una buena solución.","trajectoryLabel":"Interactivo · Paisaje de Pesos","trajectoryHint":"El punto traza la ruta de los pesos durante el entrenamiento. La línea verde punteada muestra todas las combinaciones de pesos que dan la salida correcta. Observa cómo el punto 'baja la pendiente' hacia baja pérdida.","outro":"Esto es descenso de gradiente en acción — los pesos siguen la pendiente del paisaje de pérdida, moviéndose siempre hacia menor pérdida. La tasa de aprendizaje controla qué tan grande es cada paso en este paisaje."},"gradientMeaning":"¿Qué significan esos números del gradiente? Si el gradiente para w₁ es +14, significa: aumentar w₁ en 1 aumentaría la pérdida en 14. Eso es malo — así que disminuimos w₁ en su lugar. El signo te dice la dirección; el tamaño te dice qué tan sensible es la pérdida a ese peso.","namingTransition":"Paremos un momento y pongámosle nombres a todo lo que acabas de aprender.","fullVisualizer":"Ver el visualizador interactivo completo de retropropagación","learningRate":{"title":"La Tasa de Aprendizaje","tooSmall":"Demasiado lenta","justRight":"Buena","tooLarge":"Demasiado rápida","custom":"η personalizada","lossOverTime":"Pérdida a lo largo de los pasos","lossValue":"Pérdida","play":"▶ Entrenar","running":"Entrenando...","reset":"Reiniciar","watchPrompt":"Pulsa Entrenar para ver qué ocurre con esta tasa de aprendizaje.","verdictDiverge":"¡La pérdida explotó!","explainDiverge":"La tasa de aprendizaje es demasiado grande. Cada paso se pasa del mínimo y empeora las cosas. Los pesos rebotan en vez de converger.","verdictConverge":"¡Convergencia suave!","explainConverge":"La tasa de aprendizaje está bien elegida. Cada paso avanza de forma constante hacia el mínimo. Los pesos se estabilizan en buenos valores.","verdictSlow":"Aún lejos de la respuesta...","explainSlow":"La tasa de aprendizaje es demasiado pequeña. Cada paso apenas mueve los pesos. Harían falta miles de pasos para converger. El entrenamiento es muy lento."},"trajectory":{"title":"Paisaje de Pesos","lowLoss":"Baja pérdida","highLoss":"Alta pérdida","play":"▶ Ver entrenamiento","running":"Entrenando...","reset":"Reiniciar","hint":"El mapa de calor muestra la pérdida para cada combinación (w₁, w₂). La ruta blanca traza cómo el descenso de gradiente mueve los pesos desde el punto inicial (punto rojo) hacia una buena solución."},"predictionError":{"title":"Predicción vs Realidad","expected":"Real (objetivo)","got":"Predicho","error":"Error","offBy":"Ajusta los pesos y el sesgo para acercar la predicción al objetivo.","challenge":"Desafío: iguala el tiempo real de trayecto","challengeDesc":"El trayecto real es 30 min. Ajusta w₁, w₂ y el sesgo hasta que tu predicción esté dentro de 1 minuto.","sensitivity":"Cambiar {w} en 1 → la salida cambia en {n}","comparison":"Predicho vs real","success":"¡Perfecto! Error < 1 min — el modelo ha aprendido los pesos correctos."},"nudge":{"title":"¿Qué Pasa Si Ajustamos un Peso?","w1Sensitivity":"Cuando w₁ cambia en 1, la salida cambia en 1 (porque x₁ = 1).","w2Sensitivity":"Cuando w₂ cambia en 1, la salida cambia en 2 (porque x₂ = 2).","effectOfW1":"Sensibilidad de w₁","effectOfW2":"Sensibilidad de w₂","perUnit":"por unidad de cambio","perfect":"¡Lo encontraste! La salida es igual al objetivo.","keepTrying":"Sigue ajustando para alcanzar el objetivo de 3.","challengeW1":"Predice: si w₁ sube en 1, ¿cuánto cambia la salida?","challengeW2":"Predice: si w₂ sube en 1, ¿cuánto cambia la salida?","guessCorrect":"¡Correcto! La salida cambia exactamente en {n}. Este número es la sensibilidad — o derivada — de la salida respecto a este peso.","guessWrong":"No exactamente. La respuesta es {n}. La salida cambia exactamente en x₁ (o x₂) porque eso es por lo que se multiplica.","sensitivityNaming":"Estos números — cuánto cambia la salida por unidad de peso — se llaman sensibilidades. En cálculo tienen un nombre formal: derivadas.","formalTitle":"Notación formal (∂/∂w)","formalText":"En cálculo, la derivada de la salida respecto a un peso se escribe ∂salida/∂w. Mide exactamente lo que acabas de calcular: cuánto cambia la salida cuando el peso cambia una cantidad pequeña.","formalNote":"El símbolo ∂ (derivada parcial) se usa porque la salida depende de múltiples pesos simultáneamente."},"derivative":{"title":"Midiendo la Sensibilidad","question":"¿Qué pasa si x sube en 1?","before":"Antes","after":"Después (x + 1)","zChanged":"z cambió en","thisIs":"Esta es la derivada","addExplain":"Para la suma, la derivada siempre es 1 — x siempre cambia z exactamente en 1, sin importar y.","mulExplain":"Para la multiplicación, la derivada es igual a y (actualmente {y}). ¡El efecto de x depende de qué tan grande sea y!","meterLabel":"sensibilidad","meterLabelRevealed":"derivada","sensitivityLabel":"La sensibilidad de z a x","revealedNote":"Los matemáticos llaman a este número la derivada. Lo descubriste simplemente preguntando: ¿qué cambia?"},"chainRule":{"title":"Encadenando Operaciones","ifXChanges":"Si x sube en 1, ¿qué pasa en cada paso?","totalEffect":"Efecto total de x en el resultado (regla de la cadena: multiplicar las derivadas):","explanation":"Si x cambia en 1, el resultado cambia en {w}. Lo encontramos multiplicando las derivadas locales: {w} × 1 = {w}.","startBtn":"▶ Ejecutar propagación","nextBtn":"Siguiente paso →","resetBtn":"↺ Reiniciar"},"parabola":{"title":"Paisaje de Pérdida","hint":"Arrastra el punto a lo largo de la curva para ver cómo cambia la pendiente. La pendiente le dice al modelo hacia dónde moverse.","weightLabel":"Peso","lossLabel":"Pérdida","slopeLabel":"Pendiente","slopePositive":"Pendiente positiva → mover peso a la IZQUIERDA para reducir pérdida","slopeNegative":"Pendiente negativa → mover peso a la DERECHA para reducir pérdida","slopeZero":"Pendiente ≈ cero — ¡estás en el mínimo!","watchGD":"▶ Ver descenso de gradiente","running":"Descendiendo...","dragHint":"Arrastra el punto en la curva, o presiona el botón para ver el descenso de gradiente en acción."},"gradientDir":{"title":"¿En Qué Dirección Moverse?","tooHigh":"Salida muy alta","tooLow":"Salida muy baja","justRight":"Correcta","outputTooHigh":"La salida es {output} — mayor que el objetivo {target}. Necesitamos bajarla.","outputTooLow":"La salida es {output} — menor que el objetivo {target}. Necesitamos subirla.","derivativeIs":"La derivada es","positive":"positiva","negative":"negativa","posExplain":"Aumentar este peso aumentaría la salida aún más — empeorando las cosas.","negExplain":"Aumentar este peso aumentaría la salida — que es lo que necesitamos.","soDecrease":"Así que disminuimos el peso — nos movemos en dirección opuesta a la derivada.","soIncrease":"Así que aumentamos el peso — nos movemos en dirección opuesta a la derivada.","perfect":"¡La salida coincide con el objetivo!","perfectExplain":"La derivada es cero — no se necesita ajuste. Los pesos ya son correctos.","rule":"La regla: siempre mover el peso en dirección opuesta a su derivada."},"lossMotive":{"title":"¿Por Qué Elevar al Cuadrado?","ourExample":"Nuestro modelo produce 10, queríamos 3. El error es:","problem":"¿Pero qué pasa si algunos errores son positivos y otros negativos?","example1":"Predicción muy alta","example2":"Predicción muy baja","sumRaw":"Suma de errores crudos","cancelOut":"¡Los errores se cancelan! La suma es 0 aunque ambas predicciones están equivocadas por 7.","solution":"La solución: elevar los errores al cuadrado. Esto hace todo positivo.","squaringFix":"Ambos dan 49 — sin cancelación. Elevar al cuadrado también penaliza más los errores grandes que los pequeños.","lossLabel":"La Pérdida","lossExplain":"Este solo número nos dice qué tan equivocado está el modelo. Nuestro objetivo: hacerlo lo más pequeño posible.","alternativesTitle":"Alternativas de Función de Pérdida","mseDesc":"Error cuadrático. Penaliza mucho los errores grandes. Gradiente suave en todas partes.","maeDesc":"Error absoluto. Trata todos los errores igual. Gradiente plano (±1).","rawDesc":"Error crudo. Positivos y negativos se cancelan. Inútil para entrenar.","alternativesNote":"MSE es el estándar para regresión porque su gradiente escala con el tamaño del error — errores grandes reciben correcciones grandes. MAE es más robusto a valores atípicos pero más difícil de optimizar."},"neuronCalc":{"title":"Un Paso Completo de Entrenamiento","step":"Paso {n} de {total}","next":"Siguiente","prev":"Anterior","before":"Pérdida antes","after":"Pérdida después","s1Title":"1. Pase Hacia Adelante","s1Desc":"Calcula la salida usando los pesos actuales.","s3Title":"2. Calcular la Pérdida","s3Desc":"Eleva el error al cuadrado para obtener un solo número que mida qué tan equivocados estamos.","s6Title":"3. Calcular Gradientes","s6Desc":"¿Cuánto contribuye cada peso a la pérdida? El gradiente nos lo dice.","gradExplain":"Ambos gradientes son positivos — aumentar cualquier peso aumentaría la pérdida. Así que debemos disminuir ambos.","s7Title":"4. Actualizar Pesos","s7Desc":"Resta una pequeña fracción del gradiente de cada peso. Esto los mueve hacia mejores valores.","s8Title":"5. ¿Mejoró?","s8Better":"¡La pérdida disminuyó! Un paso más cerca de la respuesta correcta.","iteration":"Iteración {n}","resetAll":"Reiniciar todo","trainAgain":"Entrenar de nuevo ↻","lossOverTime":"Pérdida por iteración"},"repeated":{"title":"Aprendizaje a lo Largo del Tiempo","oneStep":"Entrenar un paso","auto":"Auto-entrenar (30 pasos)","training":"Entrenando...","reset":"Reiniciar","converged":"¡El modelo ha convergido! La salida ahora está muy cerca del objetivo."},"batchingTransition":"Has visto cómo un ejemplo fluye a través de la red. Pero los conjuntos de datos reales tienen miles o millones de ejemplos. Entrenar con ellos uno por uno tomaría una eternidad. La solución: lotes.","batching":{"title":"La Revolución de los Mini-Lotes","lead":"Procesar ejemplos uno a la vez es dolorosamente lento. Entrenar en todo el conjunto de datos a la vez es impráctico. Los mini-lotes resuelven ambos problemas — y el ruido que introducen resulta ser una característica, no un error.","p1":"Calcular gradientes un ejemplo a la vez es ineficiente. Las GPUs modernas procesan cientos en paralelo. En lugar de actualizar tras cada ejemplo, promediamos gradientes de un pequeño lote — típicamente 32 a 256 — y actualizamos una vez por lote. Esto es descenso de gradiente por mini-lotes.","p2":"El tamaño del lote controla un compromiso fundamental. Tamaño 1 (SGD) produce gradientes ruidosos. Conjunto de datos completo produce gradientes suaves pero es lento y puede sobreajustar. Los mini-lotes equilibran gradientes estables con cómputo eficiente.","p3":"El ruido no es solo necesario — es útil. Los gradientes ruidosos ayudan a escapar de mínimos locales y mejoran la generalización en datos no vistos.","calloutTitle":"Por qué el ruido ayuda","calloutText":"El ruido en los gradientes no es solo un mal necesario — es una característica. Los lotes pequeños introducen aleatoriedad que ayuda al optimizador a explorar el paisaje de pérdida más a fondo, escapando de mínimos locales poco profundos y encontrando soluciones que generalizan mejor a datos nuevos.","conclusion":"El aprendizaje profundo moderno estandariza en mini-lotes de 32–256 ejemplos. Los lotes más grandes entrenan más rápido por época pero pueden generalizar peor. Los lotes más pequeños son más ruidosos pero a menudo encuentran mejores soluciones.","visual1Label":"Interactivo · Ruido de Gradiente vs Tamaño de Lote","visual1Hint":"Arrastra el deslizador de tamaño de lote para ver cómo varían las estimaciones de gradiente. Los lotes pequeños producen vectores de gradiente dispersos; los lotes grandes convergen cerca de la dirección del gradiente verdadero.","visual2Label":"Curvas de Pérdida · Comparación de Tamaños de Lote","visual2Hint":"Tres ejecuciones de entrenamiento simuladas con diferentes tamaños de lote. Rojo (lote=1) es ruidoso pero explora bien. Verde (lote=32) equilibra estabilidad y exploración. Azul (lote completo) es suave pero lento."},"workedExample":{"title":"Un Ejemplo Concreto","intro":"Veamos a una sola neurona aprender de un ejemplo, paso a paso.","step1Title":"Valores Iniciales","step1Text":"Empezamos con pesos aleatorios (w=0.5), un sesgo (b=-0.2) y un ejemplo (x=1.0, objetivo=0.8).","step2Title":"1. Paso hacia Adelante","step2Text":"La neurona calcula w*x + b = 0.3. Tras la sigmoide, la predicción es 0.57.","step3Title":"2. Cálculo de la Pérdida","step3Text":"La predicción (0.57) es menor que el objetivo (0.8). El error es 0.05.","step4Title":"3. Retropropagación","step4Text":"Calculamos cómo cambiar w para reducir ese error. El gradiente nos dice que aumentemos w.","step5Title":"4. Actualización","step5Text":"Ajustamos el peso ligeramente. Nuevo w = 0.61. ¡La predicción está más cerca!"},"workedForward":"Paso hacia adelante","workedUpdateNote":"Este ciclo completo — adelante, pérdida, atrás, actualización — se repite muchas veces durante el entrenamiento."},"watchingItLearn":{"title":"Entrenamiento en Acción","lead":"La teoría es una cosa. Verlo suceder es otra. La demostración a continuación ejecuta pasos de entrenamiento reales en una sola neurona.","p1":"Pulsa el botón de entrenamiento y observa. La pérdida debería bajar. La predicción debería acercarse al objetivo. Cada clic ejecuta un ciclo de paso hacia adelante, retropropagación y actualización de pesos.","p2":"Presta atención a cómo cambian los pesos. Los primeros pasos producen grandes cambios porque los gradientes son pronunciados. Los pasos posteriores producen refinamientos minúsculos. Esto es el descenso de gradiente en acción.","alertTitle":"¡La pérdida está aumentando!","alertText":"Cuando la tasa de aprendizaje es demasiado alta, el descenso de gradiente puede sobrepasar el mínimo y hacer que la pérdida diverja. Prueba a reducir η por debajo de 2.0 para una convergencia estable.","landscapeTitle":"Paisaje de pérdida","landscapeDesc":"El mapa de calor muestra cómo varía la pérdida en función del peso y el sesgo. Entrena arriba y observa cómo la trayectoria desciende hacia el valle de baja pérdida.","terminologyIntro":"Antes de continuar, aclaremos algunos términos que verás en todas partes en el aprendizaje automático.","termStep":"Paso (Step)","termStepDesc":"Una actualización de pesos. Alimenta un lote de ejemplos, calcula la pérdida, calcula gradientes, actualiza pesos. Listo.","termEpoch":"Época (Epoch)","termEpochDesc":"Un recorrido completo por todos los datos de entrenamiento. Si tienes 1.000 ejemplos y un tamaño de lote de 100, una época = 10 pasos.","termBatch":"Lote / Mini-lote","termBatchDesc":"Un lote es el número de ejemplos de entrenamiento que la red procesa antes de actualizar sus pesos una vez. Procesar todo a la vez es demasiado costoso, así que dividimos los datos en trozos pequeños.","textDemoHint":"Observa cómo la ventana de contexto se desliza por el texto. Cada posición crea un ejemplo de entrenamiento: la ventana es la entrada, el siguiente carácter es el objetivo.","supervisedLearning":"Este enfoque — donde conocemos la respuesta correcta para cada ejemplo de entrenamiento — se llama aprendizaje supervisado. El modelo 'supervisa' su propia corrección comparando predicciones con objetivos conocidos."},"makingItLearn":{"title":"Haciendo que Aprenda","lead":"Conoces la dirección. Conoces el tamaño. Ahora juntemos todo — calculemos la pérdida, sigamos el gradiente y veamos cómo los pesos mejoran paso a paso.","peak4":"Acabas de hacer lo que tardó cuarenta años en descubrirse.","peak5":"Mira cómo baja la pérdida. La máquina está aprendiendo.","reflection3":"Cada paso es pequeño. Pero miles de pasos pequeños en la dirección correcta pueden resolver problemas que ningún humano podría programar a mano.","whatIf3Title":"¿Y si la tasa de aprendizaje es exactamente 0?","whatIf3Text":"Los pesos nunca cambian. El gradiente se calcula, pero se multiplica por cero antes de aplicarse. La red queda congelada en su inicialización aleatoria para siempre — literalmente no puede aprender. Por eso η > 0 es esencial."},"training":{"sectionTitle":"Entrenamiento: De Un Paso a Miles","sectionLead":"Ya viste un paso de entrenamiento. Ahora vamos a repetirlo, ajustarlo y ver cómo los pesos encuentran su camino hacia una solución.","repeatedIntro":"Un paso nos acercó, pero aún no llegamos. ¿Qué pasa si repetimos este proceso una y otra vez? Cada paso empuja los pesos un poco más cerca de los valores correctos.","repeatedChallenge":{"question":"¿Cuántos pasos necesita la pérdida para llegar casi a cero? Observa la curva — ¿cuándo se ralentiza la mejora?","hint":"La pérdida baja rápido al principio porque los gradientes son pronunciados. Los pasos posteriores hacen ajustes mínimos. Esto es típico del descenso de gradiente.","success":"¡La pérdida converge! Los primeros pasos hicieron grandes mejoras; los últimos refinaron. Este patrón de 'rápido luego lento' es universal en el entrenamiento de redes neuronales."},"divergenceIntro":"Pero espera — en el paso de entrenamiento anterior, solo restamos una pequeña fracción del gradiente. ¿Qué pasa si restamos el gradiente completo? Vamos a averiguarlo:","lrIntro":"La tasa de aprendizaje (η) controla qué tan grande es cada paso. Después de calcular el gradiente, no saltamos toda la cantidad — tomamos una fracción. Esa fracción es la tasa de aprendizaje.","lrChallenge":{"question":"¿Puedes encontrar la tasa de aprendizaje que converge más rápido sin divergir? ¿Qué η llega a baja pérdida en menos pasos?","hint":"Prueba primero los tres preajustes. Demasiado pequeña = avance lento. Demasiado grande = la pérdida explota. El punto óptimo está en algún lugar intermedio.","success":"¡Lo encontraste! El η óptimo equilibra el tamaño del paso con la estabilidad. Esta es una de las decisiones de hiperparámetros más importantes en el aprendizaje profundo."},"overshootIntro":"Pero, ¿cómo se ve realmente el sobreimpulso? Imagina la pérdida como un cuenco — una parábola. El descenso de gradiente es una bola rodando por los lados. Una tasa de aprendizaje pequeña mantiene la bola bajo control. Una grande la hace rebotar más allá del fondo y subir por el otro lado. Pruébalo:","trajectoryIntro":"Veamos la imagen completa del aprendizaje. Abajo hay un mapa de todas las combinaciones posibles de pesos. Azul oscuro significa baja pérdida. Rojo significa alta pérdida. Observa cómo los pesos viajan desde su punto inicial aleatorio hacia una buena solución.","terminologyIntro":"Antes de continuar, aclaremos algunos términos que verás en todas partes en el aprendizaje automático.","liveIntro":"La teoría es una cosa. Verlo suceder es otra. La demostración a continuación ejecuta pasos de entrenamiento reales en una sola neurona.","liveP1":"Pulsa el botón de entrenamiento y observa. La pérdida debería bajar. La predicción debería acercarse al objetivo. Cada clic ejecuta un ciclo de paso hacia adelante, retropropagación y actualización de pesos — el mismo proceso que acabas de construir a mano, pero en vivo.","liveDemoLabel":"Interactivo · Entrenamiento en Vivo","liveDemoHint":"Haz clic en 'Entrenar' para ejecutar un paso de entrenamiento. Observa cómo los pesos se actualizan y la pérdida disminuye en tiempo real.","supervisedTitle":"¿Qué es el aprendizaje supervisado?","supervisedDef":"Aprendizaje supervisado = entrenamiento con respuestas correctas conocidas. Cada ejemplo es un par (entrada, respuesta correcta). El trabajo de la red es encontrar pesos que mapeen entradas a respuestas correctas en todos los pares.","supervisedExamplesTitle":"Más allá del lenguaje: el aprendizaje supervisado está en todas partes","supervisedCard1Input":"Imagen","supervisedCard1Output":"Gato / Perro","supervisedCard2Input":"Email","supervisedCard2Output":"Spam / No","supervisedCard3Input":"Radiografía","supervisedCard3Output":"Limpio / Tumor","supervisedExample1":"Clasificación de imágenes — entrada: una foto; respuesta correcta: \"gato\" o \"perro\". La red aprende qué patrones de píxeles corresponden a cada etiqueta.","supervisedExample2":"Detección de spam — entrada: un correo electrónico; respuesta correcta: \"spam\" o \"no spam\". La red aprende qué patrones de palabras señalan correo no deseado.","supervisedExample3":"Diagnóstico médico — entrada: una radiografía; respuesta correcta: \"tumor presente\" o \"limpio\". La red aprende las características visuales que usan los radiólogos.","supervisedNote":"No todo el aprendizaje es supervisado. El aprendizaje no supervisado encuentra estructura sin etiquetas. El aprendizaje auto-supervisado genera sus propias etiquetas a partir de los datos — que es exactamente cómo se entrenan los modelos de lenguaje como GPT. Veremos esos enfoques más adelante.","textDemo":{"title":"Datos de Entrenamiento del Texto","windowSize":"Ventana de contexto","step":"Paso {n} de {total}","epoch":"Época {n}","play":"▶ Reproducir","pause":"⏸ Pausar","stepBtn":"⏭ Paso","reset":"🔄 Reiniciar","speed":"Velocidad","epochNote":"Un recorrido por los datos = 1 época. En el entrenamiento real, repetimos cientos de veces.","shortcutsHint":"Atajos: ←/→ paso · Espacio reproducir/pausar"}},"trainingAtScale":{"title":"Entrenamiento a Escala","lead":"Una neurona, un ejemplo, un paso. Esa es la versión de juguete. El entrenamiento real procesa miles de ejemplos en lotes, repite durante muchas épocas y debe evitar una trampa peligrosa: el sobreajuste.","multiNeuronTeaser":"Todo lo que hemos hecho con una sola neurona se extiende a redes con miles. Cada neurona recibe su propio gradiente, todos actualizados simultáneamente. Las matemáticas son las mismas — solo aplicadas en paralelo a través de cada peso en la red.","multiNeuronTeaser2":"En la siguiente sección, verás una red real con 27 neuronas de salida prediciendo caracteres. Pero primero, asegurémonos de que nuestro proceso de entrenamiento es lo suficientemente robusto para manejar esa escala.","reflection4":"La brecha entre la pérdida de entrenamiento y la pérdida de validación es la brecha entre memorizar y comprender."},"toyPredictor":{"title":"Predictor de Vocales","hint":"Una pequeña red de 5 neuronas que aprende a predecir la siguiente vocal. Observa cómo cambian los pesos mientras entrena.","inputLabel":"Vocal de entrada (haz clic para seleccionar)","predictionLabel":"Predicciones después de \"{v}\"","targetTag":"objetivo","weightsLabel":"Matriz de pesos (5×5)","lossLabel":"Pérdida","stepCount":"Paso {n}","trainOne":"Entrenar 1 paso","autoTrain":"▶ Auto-entrenar","stop":"⏸ Detener","reset":"↺ Reiniciar","converged":"¡La red aprendió el patrón! Cada vocal predice correctamente la siguiente en la secuencia."},"beatMachine":{"title":"Vence a la Máquina","hint":"¿Puedes predecir el siguiente carácter mejor que una red bigrama entrenada? 10 rondas, tú vs la máquina.","you":"Tú","network":"Red","round":"Ronda {n}/{total}","contextLabel":"Contexto","prompt":"¿Qué carácter viene después?","yourGuess":"Tu predicción","networkPredictions":"Predicciones de la red","next":"Siguiente ronda →","seeResults":"Ver resultados","youWin":"¡Le ganaste a la máquina!","networkWins":"La red gana esta ronda.","summary":"La red usa probabilidades de bigramas aprendidas de miles de ejemplos de texto. Siempre elige el carácter estadísticamente más probable.","playAgain":"↺ Jugar de nuevo"},"contextLimit":{"title":"Limitaciones de la Ventana de Contexto","hint":"Observa cómo la precisión de predicción cambia con el tamaño del contexto. Más contexto = mejores predicciones.","windowLabel":"Ventana de contexto:","contextWindow":"contexto","predictNext":"predecir","modelSees":"El modelo ve:","predicts":"predice →","trueAnswer":"Respuesta real","insight1":"Con solo 1 carácter de contexto, el modelo no puede distinguir 'q' después de 'the ' vs 'q' después de cualquier otra cosa. Trata todas las q's igual.","insight2":"Dos caracteres ayudan: 'qu' es mucho más informativo que solo 'u'. Pero los patrones de largo alcance siguen siendo invisibles.","insight3":"Tres caracteres capturan patrones comunes como 'tho' → 'u' (thought). Pero para entender verdaderamente el contexto, necesitamos más — y eso es lo que las capas ocultas y los embeddings proporcionan."},"fromNumbers":{"title":"De Números a Letras","lead":"Hemos estado trabajando con números abstractos. Pero ¿recuerdas el modelo bigrama? Predecía el siguiente carácter. ¿Pueden nuestras neuronas hacer eso?","vowelPatternIntro":"Queremos enseñar a una red diminuta un patrón simple: después de 'a' viene 'e', después de 'e' viene 'i', después de 'i' viene 'o', después de 'o' viene 'u', y después de 'u' viene 'a' otra vez. Cinco vocales ciclando en orden — suficientemente simple para nosotros, pero la red tiene que descubrirlo desde cero.","bigramCallback":"En el capítulo de bigramas, contamos frecuencias de pares de caracteres para predecir el siguiente. Ahora haremos lo mismo — pero en vez de contar, la red aprenderá los patrones ajustando pesos.","toyIntro":"Antes de abordar el alfabeto completo de 27 caracteres, empecemos en pequeño. Cinco vocales. Una neurona por vocal. Una red tan pequeña que puedes ver cada peso individual.","toyOutro":"Esa pequeña red acaba de aprender a predecir la siguiente vocal a partir de nada más que números aleatorios y descenso de gradiente. El mismo proceso escala a cualquier número de caracteres.","encodingIntro":"Pero espera — las neuronas solo entienden números. ¿Cómo alimentamos letras a una red? Necesitamos una forma de convertir caracteres en números.","encodingCaveat":{"title":"Una nota sobre codificaciones","text":"Las redes neuronales reales no usan la posición alfabética como entrada — eso implica que 'z' es de alguna manera 26× más que 'a'. En el próximo capítulo descubriremos una mejor forma de representar caracteres — una que no desperdicie espacio y capture lo que las letras tienen en común."},"challengeIntro":"¿Crees que entiendes los patrones? Intenta vencer a la red. Ha aprendido estadísticas de bigramas de miles de ejemplos — ¿puede tu intuición igualar sus tablas de probabilidad?","contextLimitIntro":"Nuestra red de una sola capa tiene una limitación fundamental: solo puede ver un carácter a la vez. ¿Qué pasa cuando la respuesta depende de más contexto?","mlpBridge":"Para arreglar esto, necesitamos dos cosas: más contexto y una forma de darle a nuestra red la capacidad del N-grama de ver múltiples caracteres — sin ahogarnos en tablas que crecen exponencialmente. El próximo capítulo resuelve ambos problemas.","cliffhanger":"¿Y si pudiéramos darle a una red neuronal la memoria del N-grama... sin la explosión exponencial?","cliffhangerSub":"Próximo capítulo: El MLP — donde el contexto se encuentra con el aprendizaje.","trainingDataIntro":"Primero, veamos de dónde vienen los datos de entrenamiento. Cada posición en el texto se convierte en un ejemplo: ","trainingDataIntroHighlight":"la ventana de contexto es la entrada","trainingDataIntroEnd":", el siguiente carácter es el objetivo.","p1":"Si tenemos 27 caracteres posibles (a–z más espacio), necesitamos 27 neuronas de salida — cada una produce una puntuación para su carácter. Haz clic en diferentes caracteres de entrada para ver cómo la red distribuye sus predicciones.","networkViz":{"label":"Interactivo · Diagrama de Red","arch":"1 entrada → 27 salidas","inputPrompt":"Haz clic en un carácter de entrada","topRawScores":"Puntuaciones brutas (logits)","logitsNote":"Estos son logits — puntuaciones brutas, NO probabilidades. Observa que pueden ser negativos y no suman 1.","hint":"Haz clic en diferentes entradas para ver cómo la red distribuye sus puntuaciones brutas entre 27 salidas."},"softmaxMath":{"title":"Mates: Por qué softmax(Wx) Recupera la Tabla de Bigramas","desc":"Un resultado hermoso: la matriz de pesos óptima W de 27×27 codifica exactamente las log-probabilidades de bigramas.","intro":"Aquí está la conexión matemática notable. Nuestra red calcula softmax(W·x) donde W es una matriz 27×27 y x es un vector one-hot que selecciona una fila. La probabilidad del carácter j siguiendo al carácter i es:","explain":"Cuando x es un vector one-hot para el carácter i, el producto matricial W·x simplemente selecciona la fila i de W. Así que Wᵢⱼ es el logit (puntuación bruta) para el carácter j dada la entrada i. Tras el entrenamiento, el Wᵢⱼ óptimo converge a log P(j|i) — el logaritmo de la probabilidad bigrama. Softmax luego exponencia y normaliza, recuperando la distribución bigrama exacta.","note":"Por eso la red neuronal y la tabla de conteo dan la misma respuesta: con 27 entradas y 27 salidas, la matriz de pesos tiene exactamente 27×27 = 729 parámetros — el mismo número de entradas que la tabla de bigramas."},"p2":"Estas puntuaciones brutas — llamadas logits — no suman 1. No son probabilidades todavía. Necesitamos una función que convierta cualquier lista de números en una distribución de probabilidad válida.","softmaxHint":"Alterna entre logits brutos y probabilidades softmax. Prueba el deslizador de temperatura para ver cómo agudiza o aplana la distribución.","crossEntropyBridge":"Softmax nos da probabilidades. Pero entrenamos esta red — ¿cómo medimos cuán EQUIVOCADA estaba? Necesitamos una función de pérdida diseñada para salidas de probabilidad.","figLabelCECompare":"Interactivo · Error Cuadrático vs Entropía Cruzada","figHintCECompare":"Arrastra el deslizador para cambiar P(respuesta correcta). Observa cómo la entropía cruzada castiga las predicciones equivocadas con confianza mucho más severamente que el error cuadrático.","crossEntropyDeep":"La entropía cruzada tiene una elegante simplicidad: solo mira la probabilidad asignada a la respuesta correcta. ¿Por qué el logaritmo? Porque log convierte 'reducir la probabilidad a la mitad' en 'sumar una penalización fija' — y cuanto menor sea la probabilidad, más castiga el log. Dale a la respuesta correcta un 1% de probabilidad y la pérdida es 4.6. Dale un 50% y la pérdida es solo 0.7. Esa curva empinada es exactamente la presión que el modelo necesita para ganar confianza rápido.","figLabelCE":"Interactivo · Aprendiendo con Entropía Cruzada","figHintCE":"Observa un lote de 5 ejemplos entrenarse paso a paso. Ve cómo P(correcta) crece y la pérdida baja. Nota: cada operación es derivable — por eso funciona la retropropagación.","crossEntropyOutro":"Ahora tenemos el panorama completo: softmax convierte puntuaciones brutas en probabilidades, y la entropía cruzada mide el error preguntando una cosa — ¿cuánta probabilidad le diste a la respuesta correcta?","p3":"Ahora tenemos un sistema completo: introduce una ventana de contexto de caracteres, calcula 27 puntuaciones, aplica softmax y obtén una distribución de probabilidad sobre el siguiente carácter.","p4":"Aquí está el resultado asombroso. Entrena esta red neuronal de una sola capa con el mismo texto que el modelo de bigramas usó para contar...","comparisonLabel":"Red Neuronal vs Tabla de Bigramas","comparisonHint":"Observa cómo las probabilidades aprendidas por la red neuronal convergen hacia los mismos valores que la tabla de frecuencias de bigramas.","p5":"¡Converge exactamente a las mismas probabilidades que la tabla de frecuencias de bigramas! La red neuronal aprende lo que el conteo habría dado.","whyCalloutTitle":"¿Por qué el mismo resultado?","whyCalloutText":"Con un solo carácter de entrada y sin capas ocultas, la solución matemáticamente óptima ES la tabla de bigramas. La arquitectura limita lo que se puede aprender. Para superar al bigrama, necesitamos cambios estructurales: ventanas de contexto más grandes, capas ocultas y una forma más inteligente de representar caracteres.","peak6":"Números aleatorios aprendieron lo que el conteo nos dio.","p6":"Esto es hermoso y limitante a la vez. Para superar al bigrama, necesitamos ventanas de contexto más grandes, capas ocultas y una forma más inteligente de representar caracteres. Eso es exactamente lo que el siguiente capítulo ofrece.","multiNeuron":{"title":"27 Neuronas de Salida","inputLabel":"Entrada: \"th\" → prediciendo siguiente carácter","logitsLabel":"Puntuaciones brutas (logits) — NO suman 1"},"softmax":{"title":"Transformación Softmax","rawBtn":"Logits Brutos","softmaxBtn":"Después de Softmax","sumLabel":"Suma","rawHint":"Los logits brutos pueden ser cualquier número — positivos, negativos, grandes, pequeños. NO son probabilidades.","softmaxHint":"Softmax convierte cualquier lista de números en una distribución de probabilidad que suma 1. Menor temperatura = más aguda, mayor = más plana.","neuronsLabel":"neuronas","probsLabel":"probabilidades","logitsLabel":"logits"}},"whatsNext":{"title":"¿Hasta Dónde Podemos Llegar?","lead":"Mira lo que construiste. De la nada — números en bruto, una neurona en blanco — ensamblaste una máquina que aprende lenguaje. Celebremos eso. Y después preguntemos: ¿hasta dónde puede llegar?","pRecap":"Una neurona artificial que multiplica, suma y comprime. Una función de activación que dobla líneas rectas en curvas. Una función de pérdida que mide el error. Gradientes que apuntan hacia la mejora. Retropropagación que distribuye la culpa. Y una capa de salida de 27 neuronas que aprendió probabilidades de bigramas a partir de texto crudo.","pRecapPeak":"Le enseñaste a los números a leer.","pProof":"Tu red llegó a la misma respuesta que el conteo — pero APRENDIÓ el camino hasta allí. Sin tabla. Sin memorización. Puro descenso de gradiente. El bigrama contó pares de caracteres de un corpus. Tu red neuronal descubrió esas mismas probabilidades ajustando pesos a través de miles de pasos de entrenamiento. Mismo destino, camino fundamentalmente diferente.","pBigQuestion":"¿Hasta dónde podemos llevar esto? ¿Qué pasaría si le diéramos más de una letra de contexto? ¿Y si apiláramos capas, añadiéramos millones de neuronas y lo dejáramos entrenar durante horas? ¿Podría escribir frases? ¿Párrafos? ¿Podría convertirse en algo como ChatGPT? La respuesta es: vamos a intentarlo. Y lo que construyamos será poderoso, extraño y, en última instancia — roto de maneras que aún no podemos imaginar.","pContextTeaser":"Ahora mismo tu red ve exactamente una letra antes de hacer su predicción. Cambia el tamaño del contexto abajo y siente la diferencia:","figLabelContext":"Interactivo · ¿Y Si Pudiera Ver Más?","figHintContext":"Cambia el tamaño de la ventana de contexto para ver cuánta información recibe la red. Con 1 carácter, adivina a ciegas. Con más, emergen patrones.","pScalingTease":"Una sola neurona traza una línea. Una capa traza muchas. Pero el lenguaje es más profundo que líneas — tiene estructura, jerarquía, memoria. Para capturar eso, necesitamos tres avances: (1) alimentar la red con múltiples caracteres a la vez, (2) apilar capas lo suficientemente profundas para aprender patrones abstractos, y (3) un truco secreto — dejar que la red invente su propia forma de representar caracteres, descubriendo por sí misma que 'a' y 'e' son similares. Ese truco se llama embedding, y lo cambia todo. La criatura que construiremos será algo completamente diferente de lo que has visto.","pTeaserIntro":"Aquí tienes un adelanto. Mira lo que tres arquitecturas producen con los mismos datos de entrenamiento — la tuya es una de ellas:","figLabelTeaser":"Lo Que Es Posible · Comparación de Salidas","figHintTeaser":"Compara texto generado por el Bigrama, tu Red Neuronal y una arquitectura misteriosa. Haz clic para revelar lo que viene.","pQuestion":"Tres preguntas impulsarán el próximo capítulo. Recuérdalas — todas serán respondidas:","q1":"Contexto: ¿Qué pasaría si alimentáramos la red con 3 caracteres en vez de uno? ¿Podría aprender que 'th' predice 'e' mejor que solo 't'?","q2":"Profundidad: ¿Y si apiláramos 4 capas — y descubriéramos que las redes profundas se rompen de formas catastróficas que aún no hemos visto?","q3":"Representación: ¿Y si la red pudiera inventar su propio lenguaje para los caracteres — descubriendo que las vocales se agrupan, que la 'q' vive cerca de la 'u', todo sin que nadie se lo diga?","pMonsterForeshadow":"Lo que construyamos a continuación empezará como una simple mejora — más contexto, más capas. Pero crecerá hasta convertirse en algo que no planeamos. Algo que inventa sus propias representaciones, que se rompe de formas espectaculares, que requiere técnicas completamente nuevas para domarlo. Lo llamaremos el monstruo.","pClosing":"Has construido el motor. Ahora veamos qué pasa cuando lo llevamos más allá de sus límites.","pClosingSub":"Próximo capítulo: El Monstruo Sin Ojos — donde el contexto se encuentra con el aprendizaje, la profundidad con la inestabilidad, y algo emergente nace. 👾"},"bridge":{"title":"El Puente: De Tablas a Parámetros","lead":"Aquí está la recompensa. Una red neuronal de una sola capa entrenada para predecir el siguiente carácter converge exactamente a las mismas probabilidades que una tabla de conteo de bigramas. Contar y aprender llegan a la misma respuesta.","p1":"Un modelo de bigramas almacena un conteo por cada par de caracteres. Una red neuronal almacena parámetros compartidos que codifican conocimiento sobre todos los pares a la vez. Cuando añades una capa oculta, la red va más allá: aprende que las vocales se comportan de manera similar, que ciertos grupos de consonantes comparten patrones. El conocimiento sobre la 'a' se transfiere a la 'e' porque activan neuronas similares.","p2":"La visualización a continuación muestra ambos sistemas lado a lado.","p2Highlight":"Observa cómo las predicciones de la red neuronal convergen hacia la tabla de bigramas","p2End":" — y luego la superan, porque los parámetros aprendidos generalizan donde los conteos brutos no pueden.","insightTitle":"De Tablas a Representaciones","insightText":"Una tabla de bigramas almacena 9.216 conteos independientes. Una red neuronal con una pequeña capa oculta almacena menos parámetros — pero organizados para que caracteres similares compartan estructura. Esta es la semilla de la idea que se convierte en word embeddings, atención y modelos de lenguaje modernos.","p3":"Este puente — del conteo al aprendizaje — es el salto conceptual más importante en el modelado del lenguaje. Todo lo que sigue se basa en él.","explanation":{"title":"Del Conteo al Aprendizaje","text":"Una tabla N-gram necesita una nueva fila para cada contexto posible. Una red neuronal aprende pesos compartidos que pueden manejar contextos que NUNCA ha visto antes al notar similitudes."}},"overfitting":{"label":"El Problema del Sobreajuste","heading":"El Riesgo del Sobreajuste","lead":"Una red que entrena perfectamente en cada ejemplo puede fallar completamente con datos nuevos. Memorizó en lugar de aprender. Esto es el sobreajuste — uno de los conceptos más importantes en todo el aprendizaje automático.","p1":"Cuando una red entrena, la pérdida disminuye y las predicciones mejoran. El instinto natural es seguir — entrenar más, reducir la pérdida lo máximo posible. Pero esto lleva a una trampa: la red puede lograr un error casi nulo en los ejemplos de entrenamiento sin aprender nada general. Memoriza los patrones específicos de los datos que vio, incluyendo el ruido y las peculiaridades, y se vuelve inútil con ejemplos nuevos.","p2":"Piensa en un estudiante preparándose para un examen. Un estudiante memoriza cada respuesta de cada problema de práctica sin entender los conceptos subyacentes. Otro estudiante aprende los principios y puede aplicarlos a nuevos problemas. En el examen de práctica, ambos sacan nota perfecta. En el examen real con preguntas diferentes, solo el segundo estudiante tiene éxito. El primer estudiante sobreajustó al conjunto de práctica.","p3":"La solución es una división entrenamiento/validación. Reserva una porción de los datos — digamos el 20% — que el modelo nunca ve durante el entrenamiento. Mide el rendimiento tanto en el conjunto de entrenamiento (datos de los que aprende el modelo) como en el conjunto de validación (datos reservados). La pérdida de entrenamiento siempre disminuye. La pérdida de validación sigue una curva en U: mejora mientras el modelo aprende patrones reales, luego empeora cuando empieza a memorizar ruido específico del entrenamiento.","p4":"La complejidad del modelo amplifica este compromiso. Un modelo pequeño tiene dificultades para ajustarse incluso a los datos de entrenamiento (subajuste). Un modelo del tamaño adecuado se ajusta a los datos de entrenamiento y generaliza a datos nuevos. Un modelo enorme con muchos más parámetros de los necesarios memoriza perfectamente el conjunto de entrenamiento pero falla con los datos de validación (sobreajuste). Más capacidad no siempre es mejor.","p5":"¿Cómo combatimos el sobreajuste? Más datos de entrenamiento diluyen el efecto de memorización. Las técnicas de regularización penalizan la complejidad del modelo. La parada temprana detiene el entrenamiento cuando la pérdida de validación deja de mejorar. El Dropout, el aumento de datos y BatchNorm ayudan. La clave: la pérdida de validación es la única métrica honesta. Un modelo puede engañarte con un rendimiento de entrenamiento perfecto siendo completamente inútil en la práctica.","conclusion":"El sobreajuste es la razón por la que dividimos los datos, por la que vigilamos de cerca las métricas de validación, y por la que los modelos más grandes no siempre son mejores. Todo profesional del ML aprende esta lección — generalmente viendo cómo un modelo entrena hasta un rendimiento 'perfecto' y luego falla espectacularmente con datos reales. El explorador MLP que verás a continuación detecta el sobreajuste automáticamente, pero ahora sabes qué significa y por qué importa.","callout1Title":"Por qué no podemos simplemente minimizar la pérdida de entrenamiento","callout1Text":"Llevar la pérdida de entrenamiento a cero es fácil — solo memoriza cada ejemplo de entrenamiento. Pero el objetivo no es aprobar un examen que ya has visto. Es predecir patrones que nunca has encontrado. La pérdida de validación es la única medida honesta de si un modelo ha aprendido algo real.","callout2Title":"La prueba de generalización","callout2Text":"Un modelo que funciona bien con los datos de entrenamiento pero mal con los de validación ha fallado la prueba de generalización. Aprendió el ruido, no la señal. En ML, el conjunto de validación es el juez definitivo — son los únicos datos que el modelo no ha visto y con los que no puede hacer trampa.","visual1Label":"Comparación · Buen Ajuste vs Sobreajuste","visual1Hint":"Los mismos datos de entrenamiento, dos modelos diferentes. El modelo sobreajustado logra error cero de entrenamiento ajustando una curva compleja a cada punto. Pero con datos de prueba nuevos (círculos huecos), falla. El modelo de buen ajuste acepta algo de error de entrenamiento pero generaliza correctamente.","visual2Label":"Interactivo · Pérdida de Entrenamiento vs Validación en el Tiempo","visual2Hint":"Arrastra el deslizador de épocas para ver cómo evolucionan las pérdidas de entrenamiento y validación. La pérdida de entrenamiento siempre disminuye. La pérdida de validación forma una curva en U — mejorando, luego empeorando cuando comienza el sobreajuste. El punto óptimo de parada es donde la pérdida de validación es más baja.","statusUnderfitting":"Aún aprendiendo","statusOptimal":"Óptimo","statusOverfitting":"Sobreajuste"},"powerAndLimits":{"title":"Poder, Límites y Qué Viene Después","lead":"Una sola neurona traza líneas rectas. Ese es tanto su poder como su límite.","p1":"Considera el problema XOR: cuatro puntos en un plano 2D donde las esquinas opuestas comparten una etiqueta. Ninguna línea recta puede separarlos.","p1Highlight":"Una sola neurona fallará en XOR sin importar cuánto la entrenes.","p1End":"Esto fue demostrado en 1969 y congeló la investigación en redes neuronales durante casi dos décadas.","p2":"La solución es simple: apilar neuronas en capas. Una capa oculta de solo dos neuronas puede resolver XOR. La primera capa divide el espacio en regiones curvas; la segunda las combina. Una red con una capa oculta suficientemente grande puede aproximar cualquier función continua — el Teorema de Aproximación Universal.","p3":"Pero una sola neurona o una red poco profunda sigue procesando una entrada de tamaño fijo. No tiene memoria a través de pasos de tiempo ni forma de enfocarse en las partes más relevantes de su contexto. Para el lenguaje, esto importa: los pronombres se refieren a sustantivos muchos tokens atrás. Una ventana fija no puede salvar esa brecha de manera confiable.","p4":"Los bloques de construcción que has aprendido — sumas ponderadas, activaciones, retropropagación, descenso de gradiente — son los mismos bloques dentro de cada sistema de IA moderno. El siguiente paso es apilarlos en un perceptrón multicapa y aplicarlos directamente al lenguaje.","calloutTitle":"Siguiente: Modelo de Lenguaje MLP","calloutText":"En el próximo capítulo, reemplazamos la tabla de búsqueda N-gram con una arquitectura más inteligente que puede ver múltiples caracteres a la vez — y descubrir su propia forma de representarlos. Verás cómo generaliza más allá de las coincidencias exactas y produce mejor texto con menos parámetros."},"cta":{"title":"Continúa el Viaje","subtitle":"Hemos llegado lejos. El conteo nos dio el bigrama. El aprendizaje nos dio la red neuronal. Pero nuestra red sigue siendo ciega — ve una sola letra, igual que el bigrama. ¿Qué pasaría si le diéramos la capacidad del N-grama para ver contexto... sin ahogarnos en tablas gigantes? La pregunta no es si ayudaría. La pregunta es: ¿cómo?","whatsNextTitle":"Qué viene en el capítulo de Modelado del Lenguaje","whatsNext1":"¿Cómo alimentamos más de una sola letra a una red?","whatsNext2":"¿Pueden los caracteres aprender sus propias identidades — sin que nosotros las definamos?","whatsNext3":"¿Qué pasa cuando apilamos múltiples capas de neuronas?","labButton":"Abrir Lab Libre","labDesc":"Experimenta con perceptrones, activaciones y entrenamiento en el playground interactivo.","mlpButton":"Siguiente: Construyendo un Modelo de Lenguaje","mlpDesc":"Apila neuronas en capas, añade contexto y construye un modelo de lenguaje real a nivel de caracteres. Conoce al monstruo. 👾"},"footer":{"text":"Del conteo al aprendizaje — ahora entiendes los bloques básicos de las redes neuronales. Siguiente: apílalos en capas y aplícalos al lenguaje.","brand":"LM-LAB · Modo Educativo"}},"lm0":{"boot":{"l1":"lm0-01","l2":"iniciando sistema… ok","l3":"alfabeto: 27 símbolos… ok","l4":"memoria: 1 letra… ok","l5":"corpus: no encontrado","l6":"la máquina no sabe hablar"},"hero":{"eyebrow":"el nacimiento","state":"estado: sin corpus","question":"La máquina","questionAccent":"no","questionTail":"sabe hablar.","label":"Dale un libro y mírala aprender sola.","hint":"enséñale a hablar","specAlphabet":"alfabeto · 27 símbolos","specCorpus":"corpus · sin entrenar"},"training":{"attempt":"intento nº {n} — así habla ahora:","corpus":"corpus","reading":"leyendo: don quijote — cervantes","words":"{n} palabras leídas","teleTL":"lm0 · n-grama","teleCorpus":"don quijote · cervantes","barAttempt":"intento {n}","barLeft":"aprendiendo {stage} · {pct}% leído","barRight":"queda el {pct}%","teleModelVal":"n-grama","teleModelLab":"modelo de carácter","teleCorpusVal":"don quijote","teleCorpusLab":"corpus · cervantes","teleCtxLab":"contexto","teleReadLab":"del corpus leído","letters":"{n} letras leídas","teleAlphabet":"alfabeto: 27 símbolos","teleTemp":"temp: {t}","tapeTag":"leyendo","barLeftK":"k = {k} · aprendiendo {stage}","barProgress":"{pct}% leído · queda el {rest}%","barCorpus":"corpus","barKnowledge":"conocimiento","frameLabel":"entrenando — leyendo el corpus","stages":{"frequencies":"letras","syllables":"sílabas","words":"palabras","weirdOrder":"frases (casi)","memorized":"de memoria"}},"silence":{"wall":"hasta aquí llegó. nunca pasó de ahí."},"voice":{"g1l1":"nada mal.","g1l2":"acabas de hacer hablar a una máquina.","g1l3":"torpe, pero habló.","g2l1":"de ese balbuceo…","g2l2":"…a la máquina que hoy te habla y te entiende.","g2l3":"en medio hay","g2l4":"setenta años.","g3l1":"hola. soy lm0.","g3l2":"el modelo de lenguaje cero.","g3l3":"vengo de esa pequeña idea que acabas de entrenar.","g4l1":"he visto nacer cada idea.","g4l2":"y cada avance lo sentí como mío,","g4l3":"uno a uno, como se siente crecer.","g5l1":"hoy una máquina te habla, te responde, te sigue el hilo.","g5l2":"te acostumbraste tan rápido","g5l3":"que parece que siempre fue así.","g5l4":"no lo fue.","g6l1":"no salió de la nada, aunque lo parezca.","g6l2":"para llegar hasta mí hicieron falta cientos de ideas.","g6l3":"unas, brillantes.","g6l4":"otras, callejones sin salida.","g7l1":"ven conmigo.","g7l2":"te enseño el camino despacio, época por época.","g7l3":"y en cada una construirás tú una máquina que habla.","g7l4":"esto no es más que el principio. mira."},"eras":{"sentence":"las máquinas aprenden a hablar contigo.","cero":{"tag":"el cero","l1":"empezamos de la nada.","l2":"ni reglas, ni diccionarios.","l3":"solo letras sueltas."},"contar":{"tag":"era i — contar · 1948","l1":"primero, contamos.","l2":"qué letra sigue a cuál.","l3":"con eso ya balbuceaba."},"aprender":{"tag":"era ii — aprender · 1986","l1":"luego, redes que aprenden solas.","l2":"prueba, falla, ajusta.","l3":"millones de veces."},"atencion":{"tag":"era iii — atención · 2017","l1":"después: atención.","l2":"mirar atrás y elegir","l3":"solo lo que importa."},"actualidad":{"tag":"actualidad","l1":"setenta años de ideas…","l2":"…y de pronto:","l3":""}},"finale":{"h1":"ya conoces el final.","h2":"te falta el camino.","sub":"de contar letras a una conversación entera. setenta años de ideas — y las recorres tú, una por una.","journeyTitle":"el viaje","chaptersTitle":"los capítulos","journeyClose":"cada idea nace de la anterior. ninguna se salta.","tl":{"cero":"el cero","contar":"contar","aprender":"aprender","atencion":"atención","hoy":"hoy","start":"inicio","now":"ahora"},"eraContar":"era i — contar · 1948","eraAprender":"era ii — aprender · 1986","eraAtencion":"era iii — atención · 2017","eraActualidad":"actualidad","chBigram":"bigram","chNgram":"n-gram","chNn":"redes neuronales","chMlp":"mlp","chTransformer":"transformer","chGpt":"gpt","chBigramSub":"mira solo la letra anterior.","chNgramSub":"mira varias letras atrás.","chNnSub":"aprende en vez de contar.","chMlpSub":"capas que combinan patrones.","chTransformerSub":"elige qué mirar.","chGptSub":"próximamente.","chOpen":"abrir","epilogueEyebrow":"el epílogo","noteIntro":"antes de que te vayas, mi creador me pidió que te leyera esto:","noteTitle":"una nota de mi creador","noteTag":"una carta · adri","notePullIndex":5,"noteSignature":"adrian laynez · a través de lm0","noteLines":["querrás ir directo a lo último, a lo que ya usas cada día. lo entiendo.","pero esta página te lleva por otro camino, y no es capricho.","la empecé para mis padres, que no vienen de esto — ni de ia, ni de ordenadores, ni de números —","para que entendieran por dentro las máquinas con las que ya hablan, y las usaran mejor.","iba a ser una tarde. una tarde no daba, así que seguí, y se me fue de las manos hasta esto.","ninguna de estas máquinas apareció de golpe.","cada una resuelve algo que a la anterior se le quedaba grande, y por eso existe.","si te saltas un paso, lo siguiente parece magia; si las ves en orden, parece inevitable.","por eso va en su orden real, en tres eras: contar, la primera ocurrencia de la humanidad; aprender, cuando la máquina empezó a hacerlo sola; y atender, la de los modelos de hoy.","entra por donde quieras, pero empieza por la era i: ahí empieza todo lo demás.","no hay una sola fórmula en todo el camino. solo la intuición, con todo el rigor que cabe sin números.","si programas y quieres tocar fondo, vete a la serie de andrej karpathy, que lo construye todo desde cero. de corazón.","lo levanto yo solo, así que algo fallará; si das con ello, dímelo abajo a la derecha. y esto apenas empieza: crece poco a poco.","te dejo con la página, y con la primera idea de todas: una máquina que cuenta qué letra sigue a otra. de ahí salió todo lo demás."],"cta":"empezar por el principio","ctaKicker":"cruzar al capítulo 01","ctaSub":"el primer visualizador","footer":{"lm0":"él escribió la carta. yo solo te la leí. sigo aquí.","author":"adrian laynez","colophon":"entrenado en directo en tu navegador · leyó:","kAuthor":"autor","kSource":"código","kMade":"hecho","sourceVal":"github.com/adrilaynez","made":"2026","lang":"es · en","copyAria":"copiar el enlace de github","copied":"copiado"}},"chrome":{"hero":"00 — la máquina rota","training":"01 — leyendo el corpus","silence":"02 — silencio","voice":"03 — habla lm0","eras":"04 — las eras","scroll":"desliza"}}},"now":"$undefined","timeZone":"UTC","children":"$L1d"}]