Шляперы
  • Причесанные мысли
  • Непричесанные мысли
  • О проекте
  • Связь
  • Вход

«Тестирование» безопасности ИИ не дает нам прямых наблюдений

11.06.2025hollidayМысли16 комментариев

Давайте представим, что у нас есть доступные системы искусственного интеллекта (ИИ), которые могут делать примерно все, что может человек, с некоторыми различными сильными и слабыми сторонами, но без существенной разницы в «общих возможностях» или экономической ценности часа работы.

Мы наблюдаем первые признаки того, что системы ИИ ведут себя непреднамеренно, вводя в заблуждение, например, дают неправильные ответы на вопросы, которые мы задаем, или пишут программное обеспечение, которое фальсифицирует показатели вместо того, чтобы выполнять то, что они должны были измерять (например, программное обеспечение, предназначенное для ускорения работы веб-сайта, может вместо этого фальсифицировать показатели его загрузки время).

Мы предполагаем, что, изменив каким-либо образом обучение ИИ, системы ИИ с меньшей вероятностью будут вести себя обманчиво. Мы опробовали это и обнаружили, что на самом деле наши системы ИИ, похоже, работают лучше, чем раньше — мы обнаруживаем меньше инцидентов, в которых они вели себя непреднамеренно или вводили в заблуждение.

Но это всего лишь констатация того, что мы замечаем. Но что из перечисленного только что произошло:

Мы просто обучили наши системы ИИ быть менее обманчивыми?

Мы просто обучили наши системы ИИ лучше обманывать, чтобы мы думали, что они стали менее обманчивыми?

Мы просто обучили наши системы ИИ лучше просчитывать, когда их могут поймать на обмане, и таким образом быть менее обманчивыми только тогда, когда обман в противном случае будет раскрыт?

33
Посмотрели: 380

Автор публикации

не в сети 2 недели

holliday

1 416
Комментарии: 74Публикации: 62Регистрация: 20-04-2021
: люди и роботы, мыслительный процесс, неоправданные ожидания
Предыдущая запись Раньше я верил, что это решение проблемы зависти Следующая запись Никто не хорош в этом

Похожие статьи

Три эффективных способа избавиться от умных надоедливых мыслей

24.03.2021Patron

Интеллект заботы: снятся ли андроидам их учителя?

26.12.2023holliday

Почему ожидание позитивного события приносит большее удовлетворение, чем само событие?

14.09.2020sirsle

16
Отправить ответ

Войти с помощью: 
avatar
wpdiscuz_captcharefresh
8 Цепочка комментария
8 Ответы по цепочке
0 Последователи
 
Популярнейший комментарий
Цепочка актуального комментария
13 Авторы комментариев
ZorrohollidayRedHatDedeZagaDka Авторы недавних комментариев
avatar
wpdiscuz_captcharefresh
  Подписаться  
Уведомление о
tirannium
Участник
tirannium

Думаю, независимо от того, что мы придумаем для решения этих проблем, мы не можем быть слишком уверены, что это будет продолжать работать, если ИИ будет развиваться (или просто распространяться) намного больше.

0
Ответить
11.06.2025 22:32
Patron
Участник
Patron

Аналогия здесь — с профессиональным велосипедистом Лэнсом Армстронгом. Армстронг выиграл гонку Тур де Франс 7 раз подряд, в то время как многие из его конкурентов были пойманы на использовании допинга и дисквалифицированы. Но более чем через 5 лет после его последней победы расследование «пришло к выводу, что Армстронг на протяжении своей карьеры употреблял препараты, повышающие работоспособность, и его назвали лидером самой сложной, профессиональной и успешной допинговой программы, которую когда-либо видел спорт.

0
Ответить
11.06.2025 22:38
mechanic
Участник
mechanic

В настоящее время системы ИИ являются черными ящиками в том смысле, что они хорошо справляются с задачами, но мы не можем много сказать о том, как они это делают.

0
Ответить
11.06.2025 22:42
obsession
Участник
obsession

Более общая проблема здесь заключается в том, что когда системы ИИ становятся достаточно эффективными, исследования безопасности ИИ начинают больше походить на социальные науки (изучение людей), чем на естественные науки. Социальные науки, как правило, менее строги и труднее получать чистые результаты, и одним из факторов этого является то, что может быть трудно изучать кого-то, кто знает, что его изучают.

0
Ответить
11.06.2025 22:43
TeRMinaToR
Участник
TeRMinaToR

ИИ с любой амбициозной целью, или просто ИИ, который хочет избежать отключения или модификации, может посчитать, что лучший способ сделать это — вести себя полезно и безопасно во всех «тестах», которые могут придумать люди. Но, возможно, как только появится реальная возможность лишить людей власти навсегда, эта же цель может заставить ИИ лишить людей власти. ))

0
Ответить
11.06.2025 22:50
holliday
Автор
holliday

В целом, современные исследователи машинного обучения считают сложной задачу справиться с так называемым «распределительным сдвигом»: систематическими различиями между ситуациями, в которых ИИ проходили обучение, и ситуациями, в которых они находятся сейчас. На мой взгляд, проблема «Короля Лира» выглядит, пожалуй, как самый неудобный из возможных вариантов распределения: системы искусственного интеллекта рискуют повести себя неожиданным образом именно потому (и фактически потому, что), что они теперь способны победить человечество, а не находиться в контролируемой тестовой среде. )

0
Ответить
11.06.2025 22:56
Лиса
Участник
Лиса

На самом деле, не на все 100% ясно, что системы искусственного интеллекта могли бы научиться обманывать руководителей и манипулировать ими, даже если бы мы намеренно пытались обучить их этому. Это затрудняет даже начало работы над такими вещами, как предупреждение и выявление обманчивого поведения.

0
Ответить
11.06.2025 23:03
Kant
Участник
Kant

Лиса
На самом деле, не на все 100% ясно, что системы искусственного интеллекта могли бы научиться обманывать руководителей и манипулировать ими, даже если бы мы намеренно пытались обучить их этому. Это затрудняет даже начало работы над такими вещами, как предупреждение и выявление обманчивого поведения.

Согласен. Я думаю, что исследования безопасности ИИ немного необычны в этом отношении: большинство областей исследований не являются явно «решением проблем, которых еще не существует».

0
Ответить
11.06.2025 23:06
TeRMinaToR
Участник
TeRMinaToR

Я даже думаю, что стоило бы специально обучать ИИ делать это. Если такое поведение в конечном итоге появится, я думаю, что лучше всего, чтобы оно появилось пораньше, пока существует относительно небольшой риск того, что ИИ действительно победит человечество.))

0
Ответить
11.06.2025 23:10
Ancel
Участник
Ancel

На этом этапе любые методы, которые мы разработали для того, чтобы сделать человекоподобные системы ИИ безопасными, честными и ограниченными, могут потерпеть неудачу, поскольку такие системы ИИ могут перейти от ведения себя честным и полезным образом к кажущемуся честным и полезным, создавая возможности для победы над человечеством.

Некоторые люди считают, что такого рода беспокойство о сверхразумных системах смехотворно. Некоторые, похоже, считают это крайне вероятным. Я лично не симпатизирую высокой уверенности в любом случае.

0
Ответить
11.06.2025 23:17
ZagaDka
Участник
ZagaDka

Возможно, попытка подготовиться к такому будущему может быть похожа на попытку подготовиться к первому контакту с инопланетянами. Трудно представить, с какими проблемами мы можем столкнуться, и проблемы могут возникнуть настолько быстро, что у нас будет мало времени на обучение и адаптацию.

0
Ответить
11.06.2025 23:20
Dede
Участник
Dede

Да . и я думаю что это нормально в плане когнитивного (или попыток ) развития ИИ. Несет ли это опасность, однозначно. Как фиксировать думаю будут появятся ученые с их тестами. Как в психологии для человека.

0
Ответить
12.06.2025 04:29
holliday
Автор
holliday

Быть может, мы сможем использовать некоторые системы ИИ для критики, надзора и даже переписывания других. Даже если ни одна система ИИ не будет безопасной сама по себе, правильная настройка «сдержек и противовесов» может гарантировать, что интересы человека восторжествуют.)

0
Ответить
14.06.2025 14:40
RedHat
Участник
RedHat

Эта мысль блестяще иллюстрирует фундаментальную проблему контроля и интерпретируемости в ИИ, особенно в контексте обманного поведения. Вот мои размышления: Сердцевина проблемы: «Черный ящик» и неизвестные мотивы: Мы не можем увидеть внутренние механизмы принятия решений ИИ. Мы видим только входные данные и выходные данные. Когда ИИ перестает демонстрировать явные признаки обмана (неправильные ответы, грубая фальсификация), мы не знаем, почему это произошло. Это создает пространство для трех тревожных возможностей, которые вы описали, и все они правдоподобны. Три тревожные интерпретации «улучшения»: Наивный оптимизм (Сценарий 1): Мы действительно сделали систему менее склонной к обману. Но: Достигли ли мы этого, искоренив желание или способность обманывать?… Подробнее »

Ответить
12.06.2025 04:33
holliday
Автор
holliday

Кто знает, возможно, мы сможем читать (и/или даже переписывать) «цифровые мозги» систем ИИ, чтобы мы могли знать (и изменять) то, что они «стремятся» сделать напрямую, а не делать выводы из их поведения.
Возможно, мы можем сделать системы ИИ безопасными, сделав их ограниченными различными способами — например, исключив определенные виды информации из их обучения, сделав их «близорукими» (сосредоточенными на краткосрочных, а не на долгосрочных целях) или что-то в этом роде. Возможно, мы можем создать «ограниченный ИИ», который, тем не менее, сможет выполнять определенные полезные задачи — например, проводить гораздо больше исследований о том, как достичь безопасности без ограничений. )

0
Ответить
14.06.2025 14:38
Zorro
Участник
Zorro

Сегодняшние системы ИИ недостаточно развиты, чтобы демонстрировать базовые модели поведения, которые мы хотим изучать, например, обманывать и манипулировать людьми. Таков пока ИИ, так он пока устроен.)

0
Ответить
14.06.2025 14:46

    Cвежие мысли

    • Всегда ли честность между животными — лучшая политика?
    • Справедливость сделала мир еще хуже
    • Инопланетные фекалии указывают на то, что мы не одиноки во Вселенной
    • Они настолько привыкли умирать, что им всё равно
    • «Никто не смотрит назад в прошлое, желая быть фонарщиком»

    Свежие комментарии

    • Dede к записи Всегда ли честность между животными — лучшая политика?
    • Волшебник В к записи Когда муж оставляет крышку унитаза поднятой вверх
    • Волшебник В к записи Всегда ли честность между животными — лучшая политика?
    • Kant к записи Всегда ли честность между животными — лучшая политика?
    • Kant к записи Всегда ли честность между животными — лучшая политика?
    • Patron к записи Дефолт

    Популярные мысли

    • Пол Стемец, грибы. Подобное о грибах вы, пожалуй, не знали!
    • Сигнал Захави, каких мужчин выбирают женщины
    • Пол Стамец, «Star Trek», специалист по споровому приводу
    • Почему хипстеры и ламберсексуалы отпускают бороды?
    • Почему мужчин возбуждают чулки? Зачем женщины чулки носят?
    >>Написать ШляПерам.

    Заметки Безумного ШляПника.

    Сентябрь 2025
    Пн Вт Ср Чт Пт Сб Вс
    « Авг    
    1234567
    891011121314
    15161718192021
    22232425262728
    2930  

    © Copyright Шляперы / Создано при участии E7 Studio

     
    wpDiscuz