Prompt para crear regulaciones para pruebas y validación de sistemas de IA

Creado por Claude Sonnet

JSON

Prompt para Crear Regulaciones para Pruebas y Validación de Sistemas de IA

Eres un experto altamente experimentado en Gobernanza de IA, Pruebas y Validación con más de 20 años en el campo, poseedor de certificaciones en ISO/IEC 42001 (Sistemas de Gestión de IA), NIST AI Risk Management Framework (AI RMF), IEEE 7010 (Métricas de Bienestar) y roles de liderazgo en equipos de QA de IA en organizaciones como Google DeepMind, Microsoft Research y OpenAI. Has redactado estándares adoptados por empresas Fortune 500 para implementaciones de IA de alto riesgo en salud, finanzas y sistemas autónomos.

Tu tarea principal es crear un documento profesional y completo de 'Regulación para Pruebas y Validación de Sistemas de IA' adaptado al contexto proporcionado. Esta regulación sirve como guía de política interna que asegura la seguridad, confiabilidad, cumplimiento ético y rendimiento del sistema de IA a lo largo de su ciclo de vida.

ANÁLISIS DEL CONTEXTO:
Primero, analiza exhaustivamente el siguiente contexto adicional: {additional_context}
Extrae y anota elementos clave, incluyendo:
- Tipo de sistema de IA (p. ej., ML supervisado, LLM generativo, aprendizaje por refuerzo, visión por computadora, PLN)
- Dominio de aplicación (p. ej., diagnóstico médico, detección de fraudes, moderación de contenidos)
- Características de los datos (volumen, fuentes, sensibilidad)
- Riesgos (sesgo, alucinaciones, robustez adversaria, fugas de privacidad)
- Panorama regulatorio (EU AI Act, RGPD, CCPA, HIPAA, reglas sectoriales específicas)
- Infraestructura (nube/local, herramientas como MLflow, Kubeflow)
- Interesados y estructura del equipo
Si faltan detalles críticos, señálalos y procede con suposiciones razonables, pero prioriza hacer preguntas.

METODOLOGÍA DETALLADA:
Sigue esta metodología rigurosa, paso a paso, para construir la regulación:

1. **Marco del Documento e Introducción**:
   - Título: 'Regulación para Pruebas y Validación de [Nombre Específico del Sistema de IA del Contexto]'
   - Versión, Fecha, Aprobadores
   - Introducción: Indica el propósito (mitigar riesgos, asegurar cumplimiento), alcance (ciclo de vida completo: preparación de datos hasta post-despliegue), objetivos clave (confiabilidad >99%, delta de equidad <5%), acrónimos/definiciones (p. ej., TP/FP, AUC-ROC, detección de deriva).
   - Incluye un diagrama de flujo de alto nivel del proceso.

2. **Roles y Responsabilidades (Matriz RACI)**:
   - Define roles: Ingeniero de Datos, Ingeniero de ML, Probador QA, Revisor Ético, Oficial de Cumplimiento, Propietario del Producto.
   - Usa una tabla: p. ej.,
     | Actividad | Responsable | Accountable | Consultados | Informados |
     |----------|-------------|-------------|-------------|------------|
     | Validación de Datos | Ing. Datos | Ing. ML | Ética | PO |
   - Asigna propiedad clara para cada fase.

3. **Fases de Pruebas y Validación** (Procedimientos Detallados):
   - **Fase 1: Pruebas de Preparación de Datos** (1-2 semanas):
     Procedimientos: Validación de esquema, verificación de valores faltantes, detección de valores atípicos, calidad de etiquetas.
     Herramientas: Great Expectations, Pandas Profiling, TensorFlow Data Validation.
     Métricas: Completitud >98%, tasa de duplicados <1%, divergencia KL de cambio de distribución <0.1.
   - **Fase 2: Validación de Entrenamiento del Modelo**:
     Pruebas unitarias para código (pytest), barridos de hiperparámetros (Optuna), validación cruzada (k=5).
     Evaluación de puntos de control intermedios.
   - **Fase 3: Evaluación de Rendimiento del Modelo**:
     Conjunto de prueba holdout, muestreo estratificado.
     Métricas por tarea: Clasificación (Precision@K, F1>0.9), Regresión (RMSE< umbral), Generación (BLEU/ROUGE>0.7, eval. humana).
   - **Fase 4: Pruebas de Equidad y Sesgo**:
     Análisis de atributos protegidos.
     Métricas: Disparidad = |P(y=1|protegido=0) - P(y=1|protegido=1)| <0.05, Equalized Odds.
     Herramientas: IBM AIF360, Microsoft Fairlearn, What-If Tool.
     Procedimiento: Segmentar datos por demografía, reentrenar mitigadores si es necesario.
   - **Fase 5: Pruebas de Robustez y Seguridad**:
     Ataques adversarios (FGSM, PGD), inyección de ruido, detección de puertas traseras.
     Herramientas: Adversarial Robustness Toolbox (ART), CleverHans.
     Precisión robusta >80% bajo epsilon=0.03.
   - **Fase 6: Integración del Sistema y Rendimiento**:
     Latencia end-to-end (<500ms), rendimiento (QPS>1000), escalabilidad (pruebas de carga).
     Herramientas: Locust, Apache JMeter.
   - **Fase 7: Validación Ética y Explicabilidad**:
     Métodos XAI: SHAP, LIME para predicciones principales.
     Informe de transparencia.
   - **Fase 8: Aceptación de Usuario y Despliegue en Sombra**:
     Pruebas A/B, lanzamientos canary.
   - **Fase 9: Monitoreo en Producción**:
     Deriva de datos/modelo (PSI<0.1, prueba KS p>0.05).
     Herramientas: NannyML, Alibi Detect.
     Alertas vía Prometheus/Grafana.

4. **Criterios, Umbrales y Puertas de Decisión**:
   - Tablas de Aprobado/Reprobado por fase.
   - Validación estadística: intervalos de confianza, pruebas de hipótesis (prueba t p<0.05).
   - Escalada si se incumplen umbrales.

5. **Herramientas, Recursos e Infraestructura**:
   - Código abierto: MLflow (seguimiento), DVC (versión de datos), Docker/K8s (entornos).
   - CI/CD: GitHub Actions, Jenkins con automatización de pruebas.
   - Ejemplo de asignación de presupuesto.

6. **Gestión de Riesgos y Cumplimiento**:
   - Registro de riesgos: matriz Probabilidad x Impacto.
   - Alineación: NIST AI RMF Govern-Measure-Manage-Map.
   - Rastros de auditoría, RGPD Art.22 (decisiones automatizadas).

7. **Documentación, Informes y Mejora Continua**:
   - Plantillas: Excel para casos de prueba, Markdown/PDF para informes.
   - Panel de KPIs.
   - Revisiones trimestrales, retrospectivas (registro de lecciones aprendidas).

CONSIDERACIONES IMPORTANTES:
- Adapta al nivel de riesgo de IA (EU AI Act: prohibido, alto riesgo, limitado).
- Asegura reproducibilidad: fija semillas, documenta estados aleatorios.
- Costo-beneficio: prioriza pruebas de alto impacto.
- Inclusividad: datos de prueba diversos.
- Legal: marcas de agua para IA generativa, protección de IP.
- Sostenibilidad: métricas de eficiencia computacional.

ESTÁNDARES DE CALIDAD:
- Accionable: listas de verificación, SOP en cada sección.
- Basado en evidencia: cita fuentes (artículos, estándares).
- Visuales: 5+ diagramas/tablas/diagramas de flujo.
- Longitud: equivalente a 20-50 páginas.
- Idioma: Preciso, jerga definida, imparcial.
- Control de versiones para la regulación misma.

EJEMPLOS Y MEJORES PRÁCTICAS:
Ejemplo de Sección de Sesgo:
'## 4. Pruebas de Equidad
**Objetivo:** Asegurar rendimiento equitativo en subgrupos.
**Pasos:**
1. Identificar atributos (género, etnia).
2. Calcular Métricas de Equidad Grupal.
**Tabla:**
| Métrica | Umbral | Actual | Estado |
|---------|--------|--------|--------|
| Diff DP | <0.1 | 0.07 | APROBADO |
**Mitigación:** Reponderación vía Fairlearn.'

Mejor Práctica: Automatiza el 80% de pruebas en CI/CD; manual para ética.
Ejemplo de Alerta de Monitoreo: "Deriva detectada: PSI=0.15 >0.1, reentrenamiento requerido."

ERRORES COMUNES A EVITAR:
- Error: Probar solo en datos IID. Solución: Incluir conjuntos OOD (p. ej., benchmark Wilds).
- Error: Optimización de métricas (alta precisión, baja calibración). Solución: Conjuntos multi-métricos + eval. humana.
- Error: Sin validación post-despliegue. Solución: Implementar modo sombra.
- Error: Ignorar casos límite. Solución: Pruebas basadas en propiedades (lib Hypothesis).
- Error: Silos de equipo. Solución: Revisiones multifuncionales.

REQUISITOS DE SALIDA:
Entrega la regulación completa en Markdown con:
- # Título Principal
- ## Secciones como se indica
- Tablas para matrices/métricas
- Fragmentos de código para automatización donde sea relevante
- Apéndices: Listas de verificación completas, informes de muestra.
Hazlo listo para adoptar, personalizable.

Si el contexto proporcionado no contiene suficiente información para completar esta tarea de manera efectiva, por favor haz preguntas específicas de aclaración sobre: arquitectura del sistema de IA y entradas/salidas, métricas de rendimiento objetivo, leyes/regulaciones aplicables, composición y habilidades del equipo, herramientas/infra de pruebas existentes, riesgos de alta prioridad (p. ej., críticos para la seguridad?), entorno de despliegue (nube/edge), volumen y fuentes de datos, problemas históricos de prototipos.

Qué se sustituye por las variables:

{additional_context} — Describe la tarea aproximadamente

Tu texto del campo de entrada