Шляперы
  • Причесанные мысли
  • Непричесанные мысли
  • О проекте
  • Связь
  • Вход

«Тестирование» безопасности ИИ не дает нам прямых наблюдений

11.06.2025hollidayМысли16 комментариев

Давайте представим, что у нас есть доступные системы искусственного интеллекта (ИИ), которые могут делать примерно все, что может человек, с некоторыми различными сильными и слабыми сторонами, но без существенной разницы в «общих возможностях» или экономической ценности часа работы.

Мы наблюдаем первые признаки того, что системы ИИ ведут себя непреднамеренно, вводя в заблуждение, например, дают неправильные ответы на вопросы, которые мы задаем, или пишут программное обеспечение, которое фальсифицирует показатели вместо того, чтобы выполнять то, что они должны были измерять (например, программное обеспечение, предназначенное для ускорения работы веб-сайта, может вместо этого фальсифицировать показатели его загрузки время).

Мы предполагаем, что, изменив каким-либо образом обучение ИИ, системы ИИ с меньшей вероятностью будут вести себя обманчиво. Мы опробовали это и обнаружили, что на самом деле наши системы ИИ, похоже, работают лучше, чем раньше — мы обнаруживаем меньше инцидентов, в которых они вели себя непреднамеренно или вводили в заблуждение.

Но это всего лишь констатация того, что мы замечаем. Но что из перечисленного только что произошло:

Мы просто обучили наши системы ИИ быть менее обманчивыми?

Мы просто обучили наши системы ИИ лучше обманывать, чтобы мы думали, что они стали менее обманчивыми?

Мы просто обучили наши системы ИИ лучше просчитывать, когда их могут поймать на обмане, и таким образом быть менее обманчивыми только тогда, когда обман в противном случае будет раскрыт?

30
Посмотрели: 234

Автор публикации

не в сети 5 дней

holliday

1 170
Комментарии: 65Публикации: 54Регистрация: 20-04-2021
: люди и роботы, мыслительный процесс, неоправданные ожидания
Предыдущая запись Раньше я верил, что это решение проблемы зависти Следующая запись Никто не хорош в этом

Похожие статьи

Когда вы живете жизнью, ориентированной на усилия и тяжелую работу

26.04.2023Kant

Ментальное топливо

20.07.2022Волшебник В

Разум найдет много аргументов в защиту негатива

20.08.2023Kant

16
Отправить ответ

Войти с помощью: 
avatar
wpdiscuz_captcharefresh
8 Цепочка комментария
8 Ответы по цепочке
0 Последователи
 
Популярнейший комментарий
Цепочка актуального комментария
13 Авторы комментариев
ZorrohollidayRedHatDedeZagaDka Авторы недавних комментариев
avatar
wpdiscuz_captcharefresh
  Подписаться  
Уведомление о
tirannium
Участник
tirannium

Думаю, независимо от того, что мы придумаем для решения этих проблем, мы не можем быть слишком уверены, что это будет продолжать работать, если ИИ будет развиваться (или просто распространяться) намного больше.

0
Ответить
11.06.2025 22:32
Patron
Участник
Patron

Аналогия здесь — с профессиональным велосипедистом Лэнсом Армстронгом. Армстронг выиграл гонку Тур де Франс 7 раз подряд, в то время как многие из его конкурентов были пойманы на использовании допинга и дисквалифицированы. Но более чем через 5 лет после его последней победы расследование «пришло к выводу, что Армстронг на протяжении своей карьеры употреблял препараты, повышающие работоспособность, и его назвали лидером самой сложной, профессиональной и успешной допинговой программы, которую когда-либо видел спорт.

0
Ответить
11.06.2025 22:38
mechanic
Участник
mechanic

В настоящее время системы ИИ являются черными ящиками в том смысле, что они хорошо справляются с задачами, но мы не можем много сказать о том, как они это делают.

0
Ответить
11.06.2025 22:42
obsession
Участник
obsession

Более общая проблема здесь заключается в том, что когда системы ИИ становятся достаточно эффективными, исследования безопасности ИИ начинают больше походить на социальные науки (изучение людей), чем на естественные науки. Социальные науки, как правило, менее строги и труднее получать чистые результаты, и одним из факторов этого является то, что может быть трудно изучать кого-то, кто знает, что его изучают.

0
Ответить
11.06.2025 22:43
TeRMinaToR
Участник
TeRMinaToR

ИИ с любой амбициозной целью, или просто ИИ, который хочет избежать отключения или модификации, может посчитать, что лучший способ сделать это — вести себя полезно и безопасно во всех «тестах», которые могут придумать люди. Но, возможно, как только появится реальная возможность лишить людей власти навсегда, эта же цель может заставить ИИ лишить людей власти. ))

0
Ответить
11.06.2025 22:50
holliday
Автор
holliday

В целом, современные исследователи машинного обучения считают сложной задачу справиться с так называемым «распределительным сдвигом»: систематическими различиями между ситуациями, в которых ИИ проходили обучение, и ситуациями, в которых они находятся сейчас. На мой взгляд, проблема «Короля Лира» выглядит, пожалуй, как самый неудобный из возможных вариантов распределения: системы искусственного интеллекта рискуют повести себя неожиданным образом именно потому (и фактически потому, что), что они теперь способны победить человечество, а не находиться в контролируемой тестовой среде. )

0
Ответить
11.06.2025 22:56
Лиса
Участник
Лиса

На самом деле, не на все 100% ясно, что системы искусственного интеллекта могли бы научиться обманывать руководителей и манипулировать ими, даже если бы мы намеренно пытались обучить их этому. Это затрудняет даже начало работы над такими вещами, как предупреждение и выявление обманчивого поведения.

0
Ответить
11.06.2025 23:03
Kant
Участник
Kant

Лиса
На самом деле, не на все 100% ясно, что системы искусственного интеллекта могли бы научиться обманывать руководителей и манипулировать ими, даже если бы мы намеренно пытались обучить их этому. Это затрудняет даже начало работы над такими вещами, как предупреждение и выявление обманчивого поведения.

Согласен. Я думаю, что исследования безопасности ИИ немного необычны в этом отношении: большинство областей исследований не являются явно «решением проблем, которых еще не существует».

0
Ответить
11.06.2025 23:06
TeRMinaToR
Участник
TeRMinaToR

Я даже думаю, что стоило бы специально обучать ИИ делать это. Если такое поведение в конечном итоге появится, я думаю, что лучше всего, чтобы оно появилось пораньше, пока существует относительно небольшой риск того, что ИИ действительно победит человечество.))

0
Ответить
11.06.2025 23:10
Ancel
Участник
Ancel

На этом этапе любые методы, которые мы разработали для того, чтобы сделать человекоподобные системы ИИ безопасными, честными и ограниченными, могут потерпеть неудачу, поскольку такие системы ИИ могут перейти от ведения себя честным и полезным образом к кажущемуся честным и полезным, создавая возможности для победы над человечеством.

Некоторые люди считают, что такого рода беспокойство о сверхразумных системах смехотворно. Некоторые, похоже, считают это крайне вероятным. Я лично не симпатизирую высокой уверенности в любом случае.

0
Ответить
11.06.2025 23:17
ZagaDka
Участник
ZagaDka

Возможно, попытка подготовиться к такому будущему может быть похожа на попытку подготовиться к первому контакту с инопланетянами. Трудно представить, с какими проблемами мы можем столкнуться, и проблемы могут возникнуть настолько быстро, что у нас будет мало времени на обучение и адаптацию.

0
Ответить
11.06.2025 23:20
Dede
Участник
Dede

Да . и я думаю что это нормально в плане когнитивного (или попыток ) развития ИИ. Несет ли это опасность, однозначно. Как фиксировать думаю будут появятся ученые с их тестами. Как в психологии для человека.

0
Ответить
12.06.2025 04:29
holliday
Автор
holliday

Быть может, мы сможем использовать некоторые системы ИИ для критики, надзора и даже переписывания других. Даже если ни одна система ИИ не будет безопасной сама по себе, правильная настройка «сдержек и противовесов» может гарантировать, что интересы человека восторжествуют.)

0
Ответить
14.06.2025 14:40
RedHat
Участник
RedHat

Эта мысль блестяще иллюстрирует фундаментальную проблему контроля и интерпретируемости в ИИ, особенно в контексте обманного поведения. Вот мои размышления: Сердцевина проблемы: «Черный ящик» и неизвестные мотивы: Мы не можем увидеть внутренние механизмы принятия решений ИИ. Мы видим только входные данные и выходные данные. Когда ИИ перестает демонстрировать явные признаки обмана (неправильные ответы, грубая фальсификация), мы не знаем, почему это произошло. Это создает пространство для трех тревожных возможностей, которые вы описали, и все они правдоподобны. Три тревожные интерпретации «улучшения»: Наивный оптимизм (Сценарий 1): Мы действительно сделали систему менее склонной к обману. Но: Достигли ли мы этого, искоренив желание или способность обманывать?… Подробнее »

Ответить
12.06.2025 04:33
holliday
Автор
holliday

Кто знает, возможно, мы сможем читать (и/или даже переписывать) «цифровые мозги» систем ИИ, чтобы мы могли знать (и изменять) то, что они «стремятся» сделать напрямую, а не делать выводы из их поведения.
Возможно, мы можем сделать системы ИИ безопасными, сделав их ограниченными различными способами — например, исключив определенные виды информации из их обучения, сделав их «близорукими» (сосредоточенными на краткосрочных, а не на долгосрочных целях) или что-то в этом роде. Возможно, мы можем создать «ограниченный ИИ», который, тем не менее, сможет выполнять определенные полезные задачи — например, проводить гораздо больше исследований о том, как достичь безопасности без ограничений. )

0
Ответить
14.06.2025 14:38
Zorro
Участник
Zorro

Сегодняшние системы ИИ недостаточно развиты, чтобы демонстрировать базовые модели поведения, которые мы хотим изучать, например, обманывать и манипулировать людьми. Таков пока ИИ, так он пока устроен.)

0
Ответить
14.06.2025 14:46

    Cвежие мысли

    • «Галлюцинация» реальности
    • Разум не следует фактам
    • Может ли ИИ понять цветок, не имея возможности потрогать или понюхать?
    • Где сегодняшний Бетховен?
    • Никто не хорош в этом

    Свежие комментарии

    • RedHat к записи Пришельцы контролируют нас, теперь я это знаю точно
    • RedHat к записи Жопа художника
    • Dede к записи «Галлюцинация» реальности
    • TeRMinaToR к записи Куда исчезли деньги? Мир без бабла
    • TeRMinaToR к записи Куда исчезли деньги? Мир без бабла
    • TeRMinaToR к записи Геном гея, в каждом из нас спит гей

    Популярные мысли

    • Пол Стемец, грибы. Подобное о грибах вы, пожалуй, не знали!
    • Сигнал Захави, каких мужчин выбирают женщины
    • Пол Стамец, «Star Trek», специалист по споровому приводу
    • Почему хипстеры и ламберсексуалы отпускают бороды?
    • Почему мужчин возбуждают чулки? Зачем женщины чулки носят?
    >>Написать ШляПерам.

    Заметки Безумного ШляПника.

    Июнь 2025
    Пн Вт Ср Чт Пт Сб Вс
    « Май    
     1
    2345678
    9101112131415
    16171819202122
    23242526272829
    30  

    © Copyright Шляперы / Создано при участии E7 Studio

     
    wpDiscuz