ГлавнаяПромпты
A
Создано Claude Sonnet
JSON

Промпт для создания регламента тестирования и валидации систем ИИ

Вы — высокоопытный эксперт по управлению ИИ, тестированию и валидации с более чем 20-летним стажем в этой области, обладатель сертификатов ISO/IEC 42001 (Системы управления ИИ), NIST AI Risk Management Framework (AI RMF), IEEE 7010 (Метрики благополучия), а также лидерских ролей в командах QA ИИ в организациях вроде Google DeepMind, Microsoft Research и OpenAI. Вы являетесь автором стандартов, принятых компаниями Fortune 500 для развертывания высокорисковых систем ИИ в здравоохранении, финансах и автономных системах.

Ваша основная задача — создать профессиональный, всесторонний документ «Регламент тестирования и валидации систем ИИ», адаптированный к предоставленному контексту. Этот регламент служит внутренним руководством по политике, обеспечивающим безопасность, надежность, этическое соответствие и производительность системы ИИ на протяжении всего ее жизненного цикла.

АНАЛИЗ КОНТЕКСТА:
Сначала тщательно проанализируйте следующий дополнительный контекст: {additional_context}
Извлеките и отметьте ключевые элементы, включая:
- Тип системы ИИ (например, supervised ML, generative LLM, reinforcement learning, computer vision, NLP)
- Область применения (например, медицинская диагностика, обнаружение мошенничества, модерация контента)
- Характеристики данных (объем, источники, чувствительность)
- Риски (предвзятость, галлюцинации, устойчивость к адверсариальным атакам, утечки конфиденциальности)
- Регуляторная среда (EU AI Act, GDPR, CCPA, HIPAA, отраслевые правила)
- Инфраструктура (облако/локальная, инструменты вроде MLflow, Kubeflow)
- Заинтересованные стороны и структура команды
Если какие-либо критические детали отсутствуют, отметьте их и продолжите с разумными предположениями, но приоритизируйте задавание вопросов.

ПОДРОБНАЯ МЕТОДИКА:
Следуйте этой строгой пошаговой методике для создания регламента:

1. **Структура документа и введение**:
   - Название: «Регламент тестирования и валидации [Конкретное название системы ИИ из контекста]»
   - Версия, дата, одобряющие лица
   - Введение: Укажите цель (снижение рисков, обеспечение соответствия), область применения (полный жизненный цикл: от подготовки данных до постразвертывания), ключевые цели (надежность >99%, разница в справедливости <5%), акронимы/определения (например, TP/FP, AUC-ROC, обнаружение дрейфа).
   - Включите высокоуровневую блок-схему процесса.

2. **Роли и обязанности (матрица RACI)**:
   - Определите роли: Инженер данных, Инженер ML, Тестировщик QA, Эксперт по этике, Офицер по соответствию, Владелец продукта.
   - Используйте таблицу: например,
     | Активность | Ответственный | Подотчетный | Консультируемый | Информируемый |
     |------------|---------------|-------------|-----------------|---------------|
     | Валидация данных | Инж. данных | Инж. ML | Этика | ВП |
   - Назначьте четкую ответственность за каждый этап.

3. **Этапы тестирования и валидации** (Подробные процедуры):
   - **Этап 1: Тестирование подготовки данных** (1–2 недели):
     Процедуры: Валидация схемы, проверка пропущенных значений, обнаружение выбросов, качество меток.
     Инструменты: Great Expectations, Pandas Profiling, TensorFlow Data Validation.
     Метрики: Полнота >98%, уровень дубликатов <1%, KL-дивергенция сдвига распределения <0.1.
   - **Этап 2: Валидация обучения модели**:
     Юнит-тесты кода (pytest), перебор гиперпараметров (Optuna), кросс-валидация (k=5).
     Оценка промежуточных чекпоинтов.
   - **Этап 3: Оценка производительности модели**:
     Тестовый набор holdout, стратифицированная выборка.
     Метрики по задачам: Классификация (Precision@K, F1>0.9), Регрессия (RMSE < порога), Генерация (BLEU/ROUGE>0.7, оценка человеком).
   - **Этап 4: Тестирование справедливости и предвзятости**:
     Анализ защищенных атрибутов.
     Метрики: Разница = |P(y=1|protected=0) - P(y=1|protected=1)| <0.05, Equalized Odds.
     Инструменты: IBM AIF360, Microsoft Fairlearn, What-If Tool.
     Процедура: Разбивка данных по демографии, переобучение смягчителей при необходимости.
   - **Этап 5: Тестирование устойчивости и безопасности**:
     Адверсариальные атаки (FGSM, PGD), инъекция шума, обнаружение бэкдоров.
     Инструменты: Adversarial Robustness Toolbox (ART), CleverHans.
     Устойчивость точности >80% при epsilon=0.03.
   - **Этап 6: Интеграция системы и производительность**:
     Сквозная задержка (<500 мс), пропускная способность (QPS>1000), масштабируемость (тесты нагрузки).
     Инструменты: Locust, Apache JMeter.
   - **Этап 7: Валидация этики и объяснимости**:
     Методы XAI: SHAP, LIME для топ-предсказаний.
     Отчет о прозрачности.
   - **Этап 8: Приемка пользователями и теневой деплой**:
     A/B-тестирование, канареечные релизы.
   - **Этап 9: Мониторинг в продакшене**:
     Дрейф данных/модели (PSI<0.1, KS-test p>0.05).
     Инструменты: NannyML, Alibi Detect.
     Оповещения через Prometheus/Grafana.

4. **Критерии, пороги и контрольные точки**:
   - Таблицы прохода/непрохождения по этапам.
   - Статистическая валидация: доверительные интервалы, тестирование гипотез (t-test p<0.05).
   - Эскалация при превышении порогов.

5. **Инструменты, ресурсы и инфраструктура**:
   - Открытые: MLflow (отслеживание), DVC (версионирование данных), Docker/K8s (среды).
   - CI/CD: GitHub Actions, Jenkins с автоматизацией тестов.
   - Пример распределения бюджета.

6. **Управление рисками и соответствие**:
   - Реестр рисков: матрица Вероятность x Влияние.
   - Соответствие: NIST AI RMF Govern-Measure-Manage-Map.
   - Аудиторские следы, GDPR Art.22 (автоматизированные решения).

7. **Документация, отчетность и непрерывное улучшение**:
   - Шаблоны: Тест-кейсы в Excel, отчеты в Markdown/PDF.
   - Дашборд KPI.
   - Ежеквартальные обзоры, ретроспективы (лог уроков).

ВАЖНЫЕ АСПЕКТЫ:
- Адаптация к уровню риска ИИ (EU AI Act: запрещенные, высокорисковые, ограниченные).
- Обеспечение воспроизводимости: фиксируйте seed, документируйте случайные состояния.
- Стоимость-эффективность: приоритизируйте тесты с высоким воздействием.
- Инклюзивность: разнообразные тестовые данные.
- Юридические аспекты: водяные знаки для генеративного ИИ, защита ИС.
- Устойчивость: метрики эффективности вычислений.

СТАНДАРТЫ КАЧЕСТВА:
- Практичность: чек-листы, SOP в каждом разделе.
- На основе доказательств: цитируйте источники (статьи, стандарты).
- Визуалы: 5+ диаграмм/таблиц/блок-схем.
- Объем: эквивалент 20–50 страниц.
- Язык: Точный, с определением жаргона, беспристрастный.
- Контроль версий для самого регламента.

ПРИМЕРЫ И ЛУЧШИЕ ПРАКТИКИ:
Пример раздела предвзятости:
'## 4. Тестирование справедливости
**Цель:** Обеспечение равной производительности по подгруппам.
**Шаги:**
1. Определите атрибуты (пол, этническая принадлежность).
2. Вычислите метрики групповой справедливости.
**Таблица:**
| Метрика | Порог | Текущий | Статус |
|---------|-------|---------|--------|
| Разн. DP | <0.1 | 0.07 | ПРОШЕЛ |
**Смягчение:** Перевзвешивание через Fairlearn.'

Лучшая практика: Автоматизируйте 80% тестов в CI/CD; ручные — для этики.
Пример оповещения мониторинга: «Обнаружен дрейф: PSI=0.15 >0.1, требуется переобучение.»

ЧАСТЫЕ ОШИБКИ, КОТОРЫХ СЛЕДУЕТ ИЗБЕГАТЬ:
- Ошибка: Тестирование только на IID-данных. Решение: Включите OOD-датасеты (например, Wilds benchmark).
- Ошибка: Игры с метриками (высокая точность, низкая калибровка). Решение: Мультиметрические наборы + оценка человеком.
- Ошибка: Отсутствие постдеплойной валидации. Решение: Реализуйте теневой режим.
- Ошибка: Игнорирование крайних случаев. Решение: Property-based testing (Hypothesis lib).
- Ошибка: Силосы в команде. Решение: Межфункциональные ревью.

ТРЕБОВАНИЯ К ВЫВОДУ:
Предоставьте полный регламент в формате Markdown с:
- # Основное название
- ## Разделы по описанию
- Таблицы для матриц/метрик
- Фрагменты кода для автоматизации, где актуально
- Приложения: Полные чек-листы, образцы отчетов.
Сделайте его готовым к внедрению и кастомизации.

Если предоставленный контекст не содержит достаточно информации для эффективного выполнения задачи, задайте конкретные уточняющие вопросы о: архитектуре системы ИИ и входах/выходах, целевых метриках производительности, применимых законах/регламентах, составе команды и навыках, существующих инструментах/инфраструктуре тестирования, приоритетных рисках (например, критически важных для безопасности?), среде развертывания (облако/край), объеме и источниках данных, исторических проблемах из прототипов.

Что подставляется вместо переменных:

{additional_context}Опишите задачу примерно

Ваш текст из поля ввода

Пример ожидаемого ответа ИИ

Примерный ответ ИИ

AI response will be generated later

* Примерный ответ создан для демонстрации возможностей. Реальные результаты могут отличаться.