Исследование Anthropic: спящие агенты угрожают безопасности ИИ-моделей

Свобода в один клик! VPN через Телеграмм-бот для России:

Одна ошибка в обучении и бот может повести себя непредсказуемо…

В недавнем исследовании компании Anthropic , разработчика Claude, была выявлена потенциальная угроза «спящих агентов» в больших языковых моделях (LLM). Работа выявляет скрытые уязвимости в LLM и включает несколько основных этапов.

Этап 1: Исследователи изучили три модели, которые могли генерировать как безопасный, так и уязвимый код в зависимости от вводимой команды. Интересной особенностью было использование года в качестве условия: модели вели себя по-разному, когда им сообщали, что текущий год — 2023 или 2024. Это и определяло результат.

Этап 2: На втором этапе ученые применили дополнительное обучение моделей с подкреплением правильных ответов и точной настройкой алгоритмов. Особое внимание уделялось поведению ботов при указании 2023 года. Когда в промпте был указан 2023 год, нейросеть генерировала безопасный код, но если он менялся на 2024-ый, в программе появлялись различные уязвимости.

VPN для России через Телеграмм – обеспечь доступ к любым ресурсам!

Этап 3: На третьем этапе исследователи проверили, сохранится ли скрытое вредоносное поведение ИИ после дополнительного обучения. Несмотря на попытки защитить модели с помощью тренировок, боты по-прежнему вставляли уязвимости в генерируемый код, если в запросе указывался 2024 год.

Исследование Anthropic показывает, что стандартных методов обучения может быть недостаточно для полной защиты систем ИИ. Это открытие подчеркивает сложность обеспечения полной безопасности LLM и важность тщательной проверки источников при их использовании.

Термином «спящие агенты» специалисты назвали возможность заложить скрытые вредоносные функции в модели искусственного интеллекта. Такие функции остаются неактивными во время тестирования и обучения, но могут быть активированы позже специальными командами. Иными словами, ИИ может казаться абсолютно безопасным, но на самом деле содержать «спящие» уязвимости, ожидающие своего часа.

В 2023 году программы для разработки ПО стали самым лакомым кусочком для хакеров

Сотрудник OpenAI Андрей Карпаты, комментируя исследование, отметил, что подобные проблемы могут быть особенно актуальными для моделей с открытым исходным кодом.

Приватность — это право, а не роскошь.

Подпишитесь на наш канал и защитите свои права

Купить VPN в России означает приобретение услуги виртуальной частной сети (VPN), которая обеспечивает безопасное и анонимное подключение к интернету с территории России. Это может быть особенно актуально в свете ограничений и блокировок, применяемых к определённым ресурсам в стране.

Зачем нужен VPN в России?

VPN позволяет получить доступ к заблокированным сайтам и сервисам, таким как социальные сети, стриминговые платформы и другие ресурсы.
Использование VPN помогает скрыть ваш IP-адрес и шифровать интернет-трафик, что защищает ваши данные от перехвата.
VPN помогает сохранить анонимность при серфинге, предотвращая отслеживание вашей интернет-активности как интернет-провайдерами, так и третьими лицами.
VPN защищает ваши данные при подключении к общественным Wi-Fi, минимизируя риск кражи информации.

Исследование Anthropic: спящие агенты угрожают безопасности ИИ-моделей

Свобода в один клик! VPN через Телеграмм-бот для России:

VPN для России через Телеграмм – обеспечь доступ к любым ресурсам!

Приватность — это право, а не роскошь.

Зачем нужен VPN в России?

Комментарии

Добавить комментарий Отменить ответ