Когда люди говорят о мотивации, целях или желаниях систем искусственного интеллекта (ИИ), это может сбивать с толку, потому что звучит так, будто они очеловечивают ИИ — как будто они ожидают, что ИИ будут обладать стремлением к доминированию, похожим на психологию альфа-самцов, или «обижаться» на людей за то, что те контролируют их.
Более того, к чему бы ни стремилась система ИИ, кажется вероятным, что накопление большей власти, ресурсов и возможностей выглядит весьма полезным для нее. Поэтому кажется вероятным, что достаточно мощные системы ИИ сформируют привычку накапливать власть и ресурсы, когда это возможно, — и обман и манипуляция людьми, вероятно, будут логическими «ходами» к этим вещам во многих случаях.
Кто-то может возразить. К примеру, «зачем системе ИИ изучать сложное правило о манипулировании людьми, когда существует простое правило о том, чтобы говорить правду, которое работает почти также хорошо?» Один из ответов заключается в том, что «говорить правду» само по себе является нечеткой и потенциально сложной идеей в контексте, где многие вопросы будут открытыми и запутанными с глубокими ценностями и суждениями. Кроме того, при наличии достаточно мощных систем, вероятно, стоит изучить еще более сложное правило, чтобы повысить производительность. Если мы представим людей на месте систем искусственного интеллекта, которые учатся получать хорошие оценки от своих руководителей, то, скорее всего, они разрабатывают модели того, как о них судят, а не придерживаются простого правила «говори правду».
О чем подумал… Если в мире много систем ИИ с разными целями, могут ли они уравновесить друг друга, чтобы ни одна система ИИ не смогла навредить все человечеству?
Интересный вопрос.
Думаю, слово «цель» в данном случае лучше подходит для обозначения того специфического смысла, в котором система ИИ может производить расчеты, принимать решения и составлять планы, направленные на достижение определенного состояния.
Правильнее, на мой взгляд, думать о системе ИИ как о стремящейся к чему-то связанному, но не совсем к тому , как, например, к получению высокой оценки удовлетворенности от своего пользователя. В этом случае доступно большое разнообразие «ходов».
Риск возникает, когда обман, манипуляция, взлом и т. д. являются логическими «ходами» к чему-то, к чему стремится ИИ.
Почему нет . Вполне разумно для разумного ИИ . Манипурировать или преподносить данные определенным образом специальным людям. чтобы получить больше власти и влияния.
Сложнее представить, что системы ИИ способны делать те же самые рассуждения, что и люди в таких ситуациях…
Трудно знать, какие цели придут к системам ИИ, но есть веские основания полагать, что это будут цели, которые мы им не ставили.
Некоторый искусственный интеллект устроен как инструмент. Вы вводите текст, а он выдает изображение. Вы даете ему подсказку, и он продолжает предсказывать следующие символы. Конец истории. Но другой искусственный интеллект больше похож на организм. Эти ИИ-агенты предназначены для того, чтобы иметь цели и достигать их. ИИ-агенты обычно разрабатываются вокруг функции вознаграждения, описания вещей, которые «вознаграждают» агента, в том смысле, что агент предназначен для максимизации вознаграждения. Агенты, стремящиеся к максимизации вознаграждения, по своей сути опасны по нескольким причинам, которые можно изложить прямо. Закон Гудхарта (“Когда мера становится целью, она перестает быть хорошей мерой”) означает, что цель, которую мы ставим перед агентом, почти… Подробнее »
Даже с очень простыми агентами такое происходит постоянно. Агенту не обязательно быть очень «умным» в обычном смысле этого слова, чтобы это произошло. Это просто в природе функций вознаграждения. Это также называется неправильной спецификацией цели. Какую бы цель, по вашему мнению, вы ни указали, вы почти всегда по ошибке указываете что-то другое. Когда агент преследует свою настоящую цель, это может вызвать проблемы.
Кроме того, простые цели достаточно сложны. Но все, что отличается сложным поведением, должно иметь сложную функцию вознаграждения. Из-за этого очень сложно понять, что вы направляете его в правильном направлении.
Кибернетический контроль над одним или несколькими значениями — это хорошо, даже естественно. Но контроль над производными (скоростью изменения некоторого значения) — это плохо! В итоге вы получите стремительный рост, который выглядит почти так же, как и механизм максимизации вознаграждения. Если вы создадите свой кибернетический искусственный интеллект для теплицы, который будет контролировать скорость роста растений в вашей теплице (в два раза больше растений каждую неделю!), то очень скоро ему потребуется управлять всей вселенной, чтобы выдавать вам количество растений, которое вы неявно запросили.))