Proyecto · 2025

titan-engine

Inferencia LLM de alto rendimiento, en C++ y CUDA.

en progresoC++ · CUDA

Resumen

titan-engine es un motor de inferencia para modelos de lenguaje centrado en el rendimiento: kernels CUDA a medida, gestión de memoria cuidada y un runtime ligero en C++.

[Borrador] Cuéntame más detalles y completo esta ficha.

Características

→Kernels CUDA
→Runtime en C++
→Gestión de memoria
→Batching dinámico

Cómo funciona

01Carga los pesos del modelo en memoria de GPU.

02Programa el batch de peticiones de inferencia.

03Genera tokens con kernels optimizados.