Guardrails para LLMs

Written on March 10, 2025

”La potencia sin control no sirve de nada” - Pirelli

Herramienta Tipo de guardrail Descripción
Amazon Bedrock Guardrails Evalua entradas y salidas Servicio administrado de AWS que permite configurar políticas de seguridad personalizables. Controlando contenido inapropiado, alucinaciones y protege información sensible.
LLM Guard by Protect AI Evalua entradas y salidas Saneamiento de la entrada, detección de lenguaje dañino, prevención de fuga de datos y resistencia contra ataques de inyección de prompts.
protectai/rebuff Evalua entradas y crea señuelos Detector de inyección de prompts - Heurísticas, detección basada en LLMs, VectorDB para ataques previos, CanaryTokens.
deadbits/vigil Evalua entradas y crea señuelos Detector de inyección de prompts - Heurísticas/YARA, detección basada en LLMs, VectorDB scanner, Tokens señuelo, Similitud de respuesta de prompts.
NVIDIA/NeMo-Guardrails Evalua salidas Kit de herramientas de código abierto para añadir fácilmente barreras de seguridad programables a aplicaciones conversacionales basadas en LLM.
amoffat/HeimdaLLM Evalua salidas Framework de análisis estático para validar que la salida estructurada generada por un LLM sea segura. Actualmente solo soporta SQL.
guardrails-ai/guardrails Evalua entradas y salidas Barreras de entrada/salida que detectan, cuantifican y mitigan la presencia de varios tipos de riesgos.
whylabs/langkit Evalua entradas y salidas Kit de herramientas de código abierto para monitorizar LLMs. Actualmente soporta estas métricas
Llama Guard 3 Evalua entradas y salidas Modelo especializado de Meta diseñado para clasificar contenido potencialmente dañino en 13 categorías. Por ejemplo: S1-Crímenes violentos, S11-Autolesiones o S13-Elecciones. Actua como filtro tanto para prompts como para respuestas en sistemas LLM.
Prompt Guard Evalua entradas Modelo de clasificación desarrollado por Meta para detectar intentos específicos de inyección de prompts y técnicas de jailbreak.
CodeShield Validación de seguridad en código Herramienta de PurpleLlama (Meta) especializada en escanear código generado por LLMs para identificar potenciales vulnerabilidades de seguridad y malas prácticas de desarrollo.
Written on March 10, 2025