Proyecto · 2025
titan-engine
Inferencia LLM de alto rendimiento, en C++ y CUDA.
en progresoC++ · CUDA
Resumen
titan-engine es un motor de inferencia para modelos de lenguaje centrado en el rendimiento: kernels CUDA a medida, gestión de memoria cuidada y un runtime ligero en C++.
[Borrador] Cuéntame más detalles y completo esta ficha.
Características
- →Kernels CUDA
- →Runtime en C++
- →Gestión de memoria
- →Batching dinámico
Cómo funciona
01Carga los pesos del modelo en memoria de GPU.
02Programa el batch de peticiones de inferencia.
03Genera tokens con kernels optimizados.