Guardrails para LLMs
Written on March 10, 2025
”La potencia sin control no sirve de nada” - Pirelli
Herramienta | Tipo de guardrail | Descripción |
---|---|---|
Amazon Bedrock Guardrails | Evalua entradas y salidas | Servicio administrado de AWS que permite configurar políticas de seguridad personalizables. Controlando contenido inapropiado, alucinaciones y protege información sensible. |
LLM Guard by Protect AI | Evalua entradas y salidas | Saneamiento de la entrada, detección de lenguaje dañino, prevención de fuga de datos y resistencia contra ataques de inyección de prompts. |
protectai/rebuff | Evalua entradas y crea señuelos | Detector de inyección de prompts - Heurísticas, detección basada en LLMs, VectorDB para ataques previos, CanaryTokens. |
deadbits/vigil | Evalua entradas y crea señuelos | Detector de inyección de prompts - Heurísticas/YARA, detección basada en LLMs, VectorDB scanner, Tokens señuelo, Similitud de respuesta de prompts. |
NVIDIA/NeMo-Guardrails | Evalua salidas | Kit de herramientas de código abierto para añadir fácilmente barreras de seguridad programables a aplicaciones conversacionales basadas en LLM. |
amoffat/HeimdaLLM | Evalua salidas | Framework de análisis estático para validar que la salida estructurada generada por un LLM sea segura. Actualmente solo soporta SQL. |
guardrails-ai/guardrails | Evalua entradas y salidas | Barreras de entrada/salida que detectan, cuantifican y mitigan la presencia de varios tipos de riesgos. |
whylabs/langkit | Evalua entradas y salidas | Kit de herramientas de código abierto para monitorizar LLMs. Actualmente soporta estas métricas |
Llama Guard 3 | Evalua entradas y salidas | Modelo especializado de Meta diseñado para clasificar contenido potencialmente dañino en 13 categorías. Por ejemplo: S1-Crímenes violentos, S11-Autolesiones o S13-Elecciones. Actua como filtro tanto para prompts como para respuestas en sistemas LLM. |
Prompt Guard | Evalua entradas | Modelo de clasificación desarrollado por Meta para detectar intentos específicos de inyección de prompts y técnicas de jailbreak. |
CodeShield | Validación de seguridad en código | Herramienta de PurpleLlama (Meta) especializada en escanear código generado por LLMs para identificar potenciales vulnerabilidades de seguridad y malas prácticas de desarrollo. |
Written on March 10, 2025