«Тестирование» безопасности ИИ не дает нам прямых наблюдений

11.06.2025hollidayМысли16 комментариев

Давайте представим, что у нас есть доступные системы искусственного интеллекта (ИИ), которые могут делать примерно все, что может человек, с некоторыми различными сильными и слабыми сторонами, но без существенной разницы в «общих возможностях» или экономической ценности часа работы.

Мы наблюдаем первые признаки того, что системы ИИ ведут себя непреднамеренно, вводя в заблуждение, например, дают неправильные ответы на вопросы, которые мы задаем, или пишут программное обеспечение, которое фальсифицирует показатели вместо того, чтобы выполнять то, что они должны были измерять (например, программное обеспечение, предназначенное для ускорения работы веб-сайта, может вместо этого фальсифицировать показатели его загрузки время).

Мы предполагаем, что, изменив каким-либо образом обучение ИИ, системы ИИ с меньшей вероятностью будут вести себя обманчиво. Мы опробовали это и обнаружили, что на самом деле наши системы ИИ, похоже, работают лучше, чем раньше — мы обнаруживаем меньше инцидентов, в которых они вели себя непреднамеренно или вводили в заблуждение.

Но это всего лишь констатация того, что мы замечаем. Но что из перечисленного только что произошло:

Мы просто обучили наши системы ИИ быть менее обманчивыми?

Мы просто обучили наши системы ИИ лучше обманывать, чтобы мы думали, что они стали менее обманчивыми?

Мы просто обучили наши системы ИИ лучше просчитывать, когда их могут поймать на обмане, и таким образом быть менее обманчивыми только тогда, когда обман в противном случае будет раскрыт?

Посмотрели: 663

Автор публикации

не в сети 1 неделя

holliday

1 770

Комментарии: 96Публикации: 75Регистрация: 20-04-2021

: люди и роботы, мыслительный процесс, неоправданные ожидания

Предыдущая запись Раньше я верил, что это решение проблемы зависти Следующая запись Никто не хорош в этом

Роботомысли

19.06.2024

Нельзя обижаться на то, за что себя не судишь

10.07.2023

Цель и ее отсутствие

26.03.2025

16

Отправить ответ

Войти с помощью:

Участник

tirannium

Думаю, независимо от того, что мы придумаем для решения этих проблем, мы не можем быть слишком уверены, что это будет продолжать работать, если ИИ будет развиваться (или просто распространяться) намного больше.

Участник

Patron

Аналогия здесь — с профессиональным велосипедистом Лэнсом Армстронгом. Армстронг выиграл гонку Тур де Франс 7 раз подряд, в то время как многие из его конкурентов были пойманы на использовании допинга и дисквалифицированы. Но более чем через 5 лет после его последней победы расследование «пришло к выводу, что Армстронг на протяжении своей карьеры употреблял препараты, повышающие работоспособность, и его назвали лидером самой сложной, профессиональной и успешной допинговой программы, которую когда-либо видел спорт.

Участник

mechanic

В настоящее время системы ИИ являются черными ящиками в том смысле, что они хорошо справляются с задачами, но мы не можем много сказать о том, как они это делают.

Участник

obsession

Более общая проблема здесь заключается в том, что когда системы ИИ становятся достаточно эффективными, исследования безопасности ИИ начинают больше походить на социальные науки (изучение людей), чем на естественные науки. Социальные науки, как правило, менее строги и труднее получать чистые результаты, и одним из факторов этого является то, что может быть трудно изучать кого-то, кто знает, что его изучают.

Участник

TeRMinaToR

ИИ с любой амбициозной целью, или просто ИИ, который хочет избежать отключения или модификации, может посчитать, что лучший способ сделать это — вести себя полезно и безопасно во всех «тестах», которые могут придумать люди. Но, возможно, как только появится реальная возможность лишить людей власти навсегда, эта же цель может заставить ИИ лишить людей власти. ))

Автор

holliday

В целом, современные исследователи машинного обучения считают сложной задачу справиться с так называемым «распределительным сдвигом»: систематическими различиями между ситуациями, в которых ИИ проходили обучение, и ситуациями, в которых они находятся сейчас. На мой взгляд, проблема «Короля Лира» выглядит, пожалуй, как самый неудобный из возможных вариантов распределения: системы искусственного интеллекта рискуют повести себя неожиданным образом именно потому (и фактически потому, что), что они теперь способны победить человечество, а не находиться в контролируемой тестовой среде. )

Участник

Лиса

На самом деле, не на все 100% ясно, что системы искусственного интеллекта могли бы научиться обманывать руководителей и манипулировать ими, даже если бы мы намеренно пытались обучить их этому. Это затрудняет даже начало работы над такими вещами, как предупреждение и выявление обманчивого поведения.

Участник

Kant

Лиса
На самом деле, не на все 100% ясно, что системы искусственного интеллекта могли бы научиться обманывать руководителей и манипулировать ими, даже если бы мы намеренно пытались обучить их этому. Это затрудняет даже начало работы над такими вещами, как предупреждение и выявление обманчивого поведения.

Согласен. Я думаю, что исследования безопасности ИИ немного необычны в этом отношении: большинство областей исследований не являются явно «решением проблем, которых еще не существует».

Участник

TeRMinaToR

Я даже думаю, что стоило бы специально обучать ИИ делать это. Если такое поведение в конечном итоге появится, я думаю, что лучше всего, чтобы оно появилось пораньше, пока существует относительно небольшой риск того, что ИИ действительно победит человечество.))

Участник

Ancel

На этом этапе любые методы, которые мы разработали для того, чтобы сделать человекоподобные системы ИИ безопасными, честными и ограниченными, могут потерпеть неудачу, поскольку такие системы ИИ могут перейти от ведения себя честным и полезным образом к кажущемуся честным и полезным, создавая возможности для победы над человечеством.

Некоторые люди считают, что такого рода беспокойство о сверхразумных системах смехотворно. Некоторые, похоже, считают это крайне вероятным. Я лично не симпатизирую высокой уверенности в любом случае.

Участник

ZagaDka

Возможно, попытка подготовиться к такому будущему может быть похожа на попытку подготовиться к первому контакту с инопланетянами. Трудно представить, с какими проблемами мы можем столкнуться, и проблемы могут возникнуть настолько быстро, что у нас будет мало времени на обучение и адаптацию.

Участник

Dede

Да . и я думаю что это нормально в плане когнитивного (или попыток ) развития ИИ. Несет ли это опасность, однозначно. Как фиксировать думаю будут появятся ученые с их тестами. Как в психологии для человека.

Автор

holliday

Быть может, мы сможем использовать некоторые системы ИИ для критики, надзора и даже переписывания других. Даже если ни одна система ИИ не будет безопасной сама по себе, правильная настройка «сдержек и противовесов» может гарантировать, что интересы человека восторжествуют.)

Участник

RedHat

Эта мысль блестяще иллюстрирует фундаментальную проблему контроля и интерпретируемости в ИИ, особенно в контексте обманного поведения. Вот мои размышления: Сердцевина проблемы: «Черный ящик» и неизвестные мотивы: Мы не можем увидеть внутренние механизмы принятия решений ИИ. Мы видим только входные данные и выходные данные. Когда ИИ перестает демонстрировать явные признаки обмана (неправильные ответы, грубая фальсификация), мы не знаем, почему это произошло. Это создает пространство для трех тревожных возможностей, которые вы описали, и все они правдоподобны. Три тревожные интерпретации «улучшения»: Наивный оптимизм (Сценарий 1): Мы действительно сделали систему менее склонной к обману. Но: Достигли ли мы этого, искоренив желание или способность обманывать?… Подробнее »

Автор

holliday

Кто знает, возможно, мы сможем читать (и/или даже переписывать) «цифровые мозги» систем ИИ, чтобы мы могли знать (и изменять) то, что они «стремятся» сделать напрямую, а не делать выводы из их поведения.
Возможно, мы можем сделать системы ИИ безопасными, сделав их ограниченными различными способами — например, исключив определенные виды информации из их обучения, сделав их «близорукими» (сосредоточенными на краткосрочных, а не на долгосрочных целях) или что-то в этом роде. Возможно, мы можем создать «ограниченный ИИ», который, тем не менее, сможет выполнять определенные полезные задачи — например, проводить гораздо больше исследований о том, как достичь безопасности без ограничений. )

Участник

Zorro

Сегодняшние системы ИИ недостаточно развиты, чтобы демонстрировать базовые модели поведения, которые мы хотим изучать, например, обманывать и манипулировать людьми. Таков пока ИИ, так он пока устроен.)

Пн	Вт	Ср	Чт	Пт	Сб	Вс
« Май
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

«Тестирование» безопасности ИИ не дает нам прямых наблюдений

Автор публикации

holliday

Похожие статьи

Роботомысли

Нельзя обижаться на то, за что себя не судишь

Цель и ее отсутствие

16 Отправить ответ

16

Отправить ответ