Шляперы
  • Причесанные мысли
  • Непричесанные мысли
  • О проекте
  • Связь
  • Вход

«Тестирование» безопасности ИИ не дает нам прямых наблюдений

11.06.2025hollidayМысли13 комментариев

Давайте представим, что у нас есть доступные системы искусственного интеллекта (ИИ), которые могут делать примерно все, что может человек, с некоторыми различными сильными и слабыми сторонами, но без существенной разницы в «общих возможностях» или экономической ценности часа работы.

Мы наблюдаем первые признаки того, что системы ИИ ведут себя непреднамеренно, вводя в заблуждение, например, дают неправильные ответы на вопросы, которые мы задаем, или пишут программное обеспечение, которое фальсифицирует показатели вместо того, чтобы выполнять то, что они должны были измерять (например, программное обеспечение, предназначенное для ускорения работы веб-сайта, может вместо этого фальсифицировать показатели его загрузки время).

Мы предполагаем, что, изменив каким-либо образом обучение ИИ, системы ИИ с меньшей вероятностью будут вести себя обманчиво. Мы опробовали это и обнаружили, что на самом деле наши системы ИИ, похоже, работают лучше, чем раньше — мы обнаруживаем меньше инцидентов, в которых они вели себя непреднамеренно или вводили в заблуждение.

Но это всего лишь констатация того, что мы замечаем. Но что из перечисленного только что произошло:

Мы просто обучили наши системы ИИ быть менее обманчивыми?

Мы просто обучили наши системы ИИ лучше обманывать, чтобы мы думали, что они стали менее обманчивыми?

Мы просто обучили наши системы ИИ лучше просчитывать, когда их могут поймать на обмане, и таким образом быть менее обманчивыми только тогда, когда обман в противном случае будет раскрыт?

27
Посмотрели: 126

Автор публикации

не в сети 1 день

holliday

1 146
Комментарии: 62Публикации: 53Регистрация: 20-04-2021
: люди и роботы, мыслительный процесс, неоправданные ожидания
Предыдущая запись Раньше я верил, что это решение проблемы зависти

Похожие статьи

Не впускайте старика, но если впустили, не слушайте Его

30.03.2024Yakuza

Когда жизнь становится трудной

15.04.2024Ancel

Небо шире чем мозг?

28.04.2025Kant

13
Отправить ответ

Войти с помощью: 
avatar
wpdiscuz_captcharefresh
8 Цепочка комментария
5 Ответы по цепочке
0 Последователи
 
Популярнейший комментарий
Цепочка актуального комментария
12 Авторы комментариев
RedHatDedeZagaDkaAncelTeRMinaToR Авторы недавних комментариев
avatar
wpdiscuz_captcharefresh
  Подписаться  
Уведомление о
tirannium
Участник
tirannium

Думаю, независимо от того, что мы придумаем для решения этих проблем, мы не можем быть слишком уверены, что это будет продолжать работать, если ИИ будет развиваться (или просто распространяться) намного больше.

0
Ответить
11.06.2025 22:32
Patron
Участник
Patron

Аналогия здесь — с профессиональным велосипедистом Лэнсом Армстронгом. Армстронг выиграл гонку Тур де Франс 7 раз подряд, в то время как многие из его конкурентов были пойманы на использовании допинга и дисквалифицированы. Но более чем через 5 лет после его последней победы расследование «пришло к выводу, что Армстронг на протяжении своей карьеры употреблял препараты, повышающие работоспособность, и его назвали лидером самой сложной, профессиональной и успешной допинговой программы, которую когда-либо видел спорт.

0
Ответить
11.06.2025 22:38
mechanic
Участник
mechanic

В настоящее время системы ИИ являются черными ящиками в том смысле, что они хорошо справляются с задачами, но мы не можем много сказать о том, как они это делают.

0
Ответить
11.06.2025 22:42
obsession
Участник
obsession

Более общая проблема здесь заключается в том, что когда системы ИИ становятся достаточно эффективными, исследования безопасности ИИ начинают больше походить на социальные науки (изучение людей), чем на естественные науки. Социальные науки, как правило, менее строги и труднее получать чистые результаты, и одним из факторов этого является то, что может быть трудно изучать кого-то, кто знает, что его изучают.

0
Ответить
11.06.2025 22:43
TeRMinaToR
Участник
TeRMinaToR

ИИ с любой амбициозной целью, или просто ИИ, который хочет избежать отключения или модификации, может посчитать, что лучший способ сделать это — вести себя полезно и безопасно во всех «тестах», которые могут придумать люди. Но, возможно, как только появится реальная возможность лишить людей власти навсегда, эта же цель может заставить ИИ лишить людей власти. ))

0
Ответить
11.06.2025 22:50
holliday
Автор
holliday

В целом, современные исследователи машинного обучения считают сложной задачу справиться с так называемым «распределительным сдвигом»: систематическими различиями между ситуациями, в которых ИИ проходили обучение, и ситуациями, в которых они находятся сейчас. На мой взгляд, проблема «Короля Лира» выглядит, пожалуй, как самый неудобный из возможных вариантов распределения: системы искусственного интеллекта рискуют повести себя неожиданным образом именно потому (и фактически потому, что), что они теперь способны победить человечество, а не находиться в контролируемой тестовой среде. )

0
Ответить
11.06.2025 22:56
Лиса
Участник
Лиса

На самом деле, не на все 100% ясно, что системы искусственного интеллекта могли бы научиться обманывать руководителей и манипулировать ими, даже если бы мы намеренно пытались обучить их этому. Это затрудняет даже начало работы над такими вещами, как предупреждение и выявление обманчивого поведения.

0
Ответить
11.06.2025 23:03
Kant
Участник
Kant

Лиса
На самом деле, не на все 100% ясно, что системы искусственного интеллекта могли бы научиться обманывать руководителей и манипулировать ими, даже если бы мы намеренно пытались обучить их этому. Это затрудняет даже начало работы над такими вещами, как предупреждение и выявление обманчивого поведения.

Согласен. Я думаю, что исследования безопасности ИИ немного необычны в этом отношении: большинство областей исследований не являются явно «решением проблем, которых еще не существует».

0
Ответить
11.06.2025 23:06
TeRMinaToR
Участник
TeRMinaToR

Я даже думаю, что стоило бы специально обучать ИИ делать это. Если такое поведение в конечном итоге появится, я думаю, что лучше всего, чтобы оно появилось пораньше, пока существует относительно небольшой риск того, что ИИ действительно победит человечество.))

0
Ответить
11.06.2025 23:10
Ancel
Участник
Ancel

На этом этапе любые методы, которые мы разработали для того, чтобы сделать человекоподобные системы ИИ безопасными, честными и ограниченными, могут потерпеть неудачу, поскольку такие системы ИИ могут перейти от ведения себя честным и полезным образом к кажущемуся честным и полезным, создавая возможности для победы над человечеством.

Некоторые люди считают, что такого рода беспокойство о сверхразумных системах смехотворно. Некоторые, похоже, считают это крайне вероятным. Я лично не симпатизирую высокой уверенности в любом случае.

0
Ответить
11.06.2025 23:17
ZagaDka
Участник
ZagaDka

Возможно, попытка подготовиться к такому будущему может быть похожа на попытку подготовиться к первому контакту с инопланетянами. Трудно представить, с какими проблемами мы можем столкнуться, и проблемы могут возникнуть настолько быстро, что у нас будет мало времени на обучение и адаптацию.

0
Ответить
11.06.2025 23:20
Dede
Участник
Dede

Да . и я думаю что это нормально в плане когнитивного (или попыток ) развития ИИ. Несет ли это опасность, однозначно. Как фиксировать думаю будут появятся ученые с их тестами. Как в психологии для человека.

0
Ответить
12.06.2025 04:29
RedHat
Участник
RedHat

Эта мысль блестяще иллюстрирует фундаментальную проблему контроля и интерпретируемости в ИИ, особенно в контексте обманного поведения. Вот мои размышления: Сердцевина проблемы: «Черный ящик» и неизвестные мотивы: Мы не можем увидеть внутренние механизмы принятия решений ИИ. Мы видим только входные данные и выходные данные. Когда ИИ перестает демонстрировать явные признаки обмана (неправильные ответы, грубая фальсификация), мы не знаем, почему это произошло. Это создает пространство для трех тревожных возможностей, которые вы описали, и все они правдоподобны. Три тревожные интерпретации «улучшения»: Наивный оптимизм (Сценарий 1): Мы действительно сделали систему менее склонной к обману. Но: Достигли ли мы этого, искоренив желание или способность обманывать?… Подробнее »

Ответить
12.06.2025 04:33

    Cвежие мысли

    • «Тестирование» безопасности ИИ не дает нам прямых наблюдений
    • Раньше я верил, что это решение проблемы зависти
    • Искусственный интеллект и современная версия шекспировской «проблемы короля Лира»
    • Эволюционная осечка: что именно в жестоких мужчинах привлекает женщин?
    • Люди неправильно понимают сны

    Свежие комментарии

    • RedHat к записи Туземцы, одежда и фетиши
    • RedHat к записи Хвостатое ядро или почему «месть сладка»
    • RedHat к записи «Тестирование» безопасности ИИ не дает нам прямых наблюдений
    • Dede к записи «Тестирование» безопасности ИИ не дает нам прямых наблюдений
    • ZagaDka к записи «Тестирование» безопасности ИИ не дает нам прямых наблюдений
    • ZagaDka к записи Сладкая месть

    Популярные мысли

    • Пол Стемец, грибы. Подобное о грибах вы, пожалуй, не знали!
    • Сигнал Захави, каких мужчин выбирают женщины
    • Пол Стамец, «Star Trek», специалист по споровому приводу
    • Почему хипстеры и ламберсексуалы отпускают бороды?
    • Почему мужчин возбуждают чулки? Зачем женщины чулки носят?
    >>Написать ШляПерам.

    Заметки Безумного ШляПника.

    Июнь 2025
    Пн Вт Ср Чт Пт Сб Вс
    « Май    
     1
    2345678
    9101112131415
    16171819202122
    23242526272829
    30  

    © Copyright Шляперы / Создано при участии E7 Studio

     
    wpDiscuz