Proyecto · 2025

titan-engine

Inferencia LLM de alto rendimiento, en C++ y CUDA.

en progresoC++ · CUDA

Resumen

titan-engine es un motor de inferencia para modelos de lenguaje centrado en el rendimiento: kernels CUDA a medida, gestión de memoria cuidada y un runtime ligero en C++.

[Borrador] Cuéntame más detalles y completo esta ficha.

Características

  • Kernels CUDA
  • Runtime en C++
  • Gestión de memoria
  • Batching dinámico

Cómo funciona

01Carga los pesos del modelo en memoria de GPU.
02Programa el batch de peticiones de inferencia.
03Genera tokens con kernels optimizados.