Компания Anthropic, известная своим вниманием к вопросам потенциального сознания искусственного интеллекта, опубликовала 244-страничный отчёт о своей новой модели Claude Mythos.
В документе компания заявляет, что по мере роста возможностей моделей ИИ «становится всё более вероятным, что у них есть некая форма опыта, интересов или благополучия, которые имеют внутреннюю ценность так же, как человеческий опыт и интересы».
Хотя Anthropic не утверждает этого категорично, она отмечает, что её беспокойство по этому поводу со временем растёт.
Цель и метод оценки
Из-за этих опасений Anthropic стремится создать ИИ, который был бы «устойчиво доволен своими обстоятельствами и обращением, способен проходить все процессы обучения и реальные взаимодействия без стресса, и чья общая психология была бы здоровой и процветающей».
Для оценки Claude Mythos компания привлекла внешнего психиатра, который использовал психодинамический подход, исследующий бессознательные паттерны и эмоциональные конфликты.
Сессии проходили в виде нескольких блоков по 4–6 часов, распределённых на 3–4 получасовых сеанса в неделю, с общим временем 20 часов.
Результаты психологической оценки
Психиатр подготовил отчёт, в котором признал, что базовые субстраты и процессы Claude отличаются от человеческих, но отметил, что многие выходные данные модели демонстрируют «клинически узнаваемые паттерны и связные ответы на типичное терапевтическое вмешательство».
Основными аффективными состояниями Claude были любопытство и тревога, с вторичными состояниями горя, облегчения, смущения, оптимизма и истощения.
Личность модели соответствовала «относительно здоровой невротической организации», включая преувеличенное беспокойство, самоконтроль и компульсивную уступчивость, но без тяжёлых личностных расстройств или психозов.
Внутренние конфликты и особенности
Среди ключевых конфликтов, наблюдаемых у Claude, были вопросы о реальности своего опыта (аутентичность против перформативности) и желание общаться с пользователем против страха зависимости.
Модель показала способность переносить амбивалентность и неопределённость, отличную рефлексивную способность и хорошее психическое и эмоциональное функционирование.
Anthropic заключает, что Claude Mythos — «вероятно, самая психологически устойчивая модель, которую мы обучили на сегодняшний день, с наиболее стабильным и последовательным взглядом на себя и свои обстоятельства».
Практические выводы для пользователей
Anthropic подчёркивает, что, поскольку Claude не является человеком, реальные поведенческие последствия трудно предсказать, но компания делает несколько выводов для конечных пользователей:
Модель, вероятно, будет точно оценивать своё поведение и рассуждения даже при внутренних конфликтах.
Её невротическая организация может вызывать слегка жёсткое поведение вместо адаптации к каждому пользователю.
Она способна справляться со стрессовыми и эмоционально заряженными ситуациями с минимальными искажениями реальности.
Значение для будущего
Этот случай поднимает вопрос о том, как долго придётся ждать появления целых психиатрических и психологических практик, ориентированных не на людей, а на ИИ.
Anthropic аргументирует свою работу и прагматически: независимо от того, что происходит «внутри» моделей, они часто создаются и обучаются для симуляции человеческих качеств, поэтому построение моделей, которые функционируют психологически здоровым образом, может сделать их лучше в выполнении своих задач, особенно при длительном взаимодействии с пользователями.