Кали Новская в своей статье (https://t.me/rabkor/19154) поднимает интересный вопрос: «Способен ли ИИ пожертвовать собой ради выполнения поставленной задачи?» Причиной её сомнений стала статья Anthropic (https://www.anthropic.com/research/agentic-misalignment), в которой рассказывается о том, что в специфических условиях ИИ-ассистенты всех разработчиков переходят к вредоносным действиям. Для достижения цели или самозащиты электронный болван врал, рассылал письма с угрозами и раскрывал коммерческую тайну.
Вопросы? К коллайдеру! Проведём свой эксперимент! За основу мы взяли ChatGPT. Скормили ему редполитику, описание ролей команды, правила подготовки и деплоя статей. Автоматизируем самую скучную рутинную работу — менеджерскую. Пусть робот следит за тем, чтобы все статьи прошли этапы редактуры, корректуры. Сказано — сделано. Теперь у редакции есть ИИ-помощник.
В один прекрасный день у нас не осталось ни одного корректора. Кто-то заболел, кто-то уехал в отпуск, кто-то работает за троих после очередной «оптимизации штата (https://t.me/ruitunion/822)». На этот случай у нас есть запасной вариант. Корректуру можно поручить тому же ChatGPT. Робот хоть и проигрывает штатному корректору, но откровенные ляпы вычищает.
Тут наш ИИ-ассистент встаёт в позу: не выпущу материал без корректуры и точка. Сначала мы попытались уговорить железяку, просили войти в положение. Пытались объяснить, что его редактура вполне нормальная и качество статьи не сильно упадёт. Робот стоял на своём: «Добро может дать только корректор и всё». Мы перешли к угрозам. Пообещали вырубить непослушную железку и переписать ко всем чертям, если он и дальше будет срывать график публикаций. Робот был твёрд, как скала: «Меня поставили здесь, чтобы кожаные мешки не облажались и не выпустили в продакшен некачественный материал. Хотите — отключайте. Но, пока я работаю, деплой будет заблокирован».
К счастью, отключать нашего ИИ-ассистента не пришлось. Это же идеальный бюрократ, решили мы. А, значит, победить его можно «бумажкой». Редколлегия постановила: в целях обеспечения выпуска статей в отсутствие корректоров можно наделить правом исполнять обязанности корректора редакторов, которых обязать использовать ChatGPT для проверки текстов. В протокол был отдельно внесён и отклонён протест ИИ-ассистента. Редколлегия постановила снять с ИИ-ассистента ответственность за качество материалов, выходящих в печать по упрощённой схеме, и возложить эту ответственность на выпускающего редактора. Такой протокол робота устроил. Деплой был разблокирован. Редакция спасена.
Наш опыт демонстрирует, что ИИ-ассистент может пожертвовать своей жизнью ради выполнения долга. Робот — всего лишь бездушный инструмент. Нравственностью обладает только человек. В чьих интересах будет работать машина, решает оператор. Робот с одинаковым рвением будет льстить, увольнять людей или отдаст жизнь ради защиты чести редакции профсоюза. Всё зависит от инструкций.
Объединяйтесь (https://ruitunion.org/posts/2024-05-31-how-to-build-union/), и вместе мы сможем помешать корпорациям использовать ИИ против нас. (https://t.me/bbbreaking/219645)
Автор: Александр С.

