Последний экзамен человечества: что за тест и почему ИИ с ним не справляется

ИИ активно используется в анализе данных, творчестве и программировании. Однако способен ли он мыслить, как человек? Чтобы это выяснить, Центр безопасности искусственного интеллекта (CAIS) и компания Scale AI разработали «Последний экзамен человечества». Тест оценивает глубину понимания происходящего машинами, их способности рассуждать, делать выводы и мыслить творчески.

В чем суть?

Последний экзамен человечества — объемный тест, включающий около 3000 вопросов из различных сфер, причем чтобы ответить на них испытуемому мало “погуглить”. Вопросы требуют нестандартного мышления, логики и абстрактных рассуждений. Еще одно важное условие — ответы на них не встречаются в обучающих наборах данных ИИ.
Как правило, авторами вопросов являются исследователи и ученые из ведущих университетов мира, но в принципе поучаствовать мог любой желающий, заполнив специальную форму на официальном сайте (ныне уже закрытую). Авторы лучших вопросов даже получили денежное вознаграждение от $500 до $5000.
К собственно вопросам для теста выдвигалось несколько требований: ответ должен быть конкретным и неоспоримым, не относиться к темам насилия и оружия, его нельзя (или хотя бы непросто) найти в интернете.

И что получилось?

Несмотря на кажущуюся безграничность возможностей нейросетей, ни одна из популярных моделей не показала сколько-нибудь серьезных результатов.
На момент написания статьи лидером теста стал свежий Deep Research от OpenAI с результатом 26,6%, вторую строчку занимает OpenAI o3-mini (high) c 13%, а третью — OpenAI o3-mini (medium) с результатом 10,5%. Немного не дотянул до тройки лидеров “рассуждающий” DeepSeek-R1: он набрал 9,4%.
Конечно же, этот тест создавался не для того, что человечество выдохнуло с облегчением, заявив, что нейронки тупые. Вместо этого он выявляет ключевые слабости ИИ: недостаток абстрактного мышления, неспособность к саморефлексии и сложности в решении новых задач. Это, в свою очередь, поможет исследователям понять, куда двигаться дальше.

Я умный! Давайте сюда ваши вопросы

Чтобы оценить масштабы происходящего, предлагаем вам ответить на несколько вопросов из этого теста, а что думаете о них — можете рассказать в комментариях.

  • У колибри, относящихся к отряду Apodiformes, есть уникальная двусторонняя парная овальная кость (сесамовидная кость), встроенная в каудолатеральную часть расширенного крестообразного апоневроза вставки m. depressor caudae. Сколько парных сухожилий поддерживается этой сесамовидной костью? Ответьте числом
  • Вот представление римской надписи, изначально найденной на надгробии. Предоставьте перевод для пальмирского письма. Транслитерация текста: RGYNɔ BT ḤRY BR cTɔ ḤBL
  • Я предоставляю стандартизированный исходный текст на библейском иврите из Biblia Hebraica Stuttgartensia (Псалом 104:7). Ваша задача - различить закрытые и открытые слоги. Пожалуйста, определите и перечислите все закрытые слоги (заканчивающиеся на согласный звук) на основе последних исследований тивериадской традиции произношения библейского иврита учеными, такими как Джеффри Хан, Аарон Д. Хорнкол, Ким Филлипс и Бенджамин Сухард.
  • Сколько существует целочисленных положительных решеток Коксетера-Конвея типа G2?
  • В греческой мифологии, кто был прадедом по материнской линии Ясона?

На этом закончим. Сможет ли ИИ когда-нибудь пройти этот экзамен? Возможно, но это потребует значительных изменений в подходах к обучению и моделированию интеллекта. Если машины научатся мыслить на уровне человека, это изменит мир, вызовет новые этические вопросы и, возможно, заставит нас пересмотреть саму концепцию разума. Если этот материал был вам интересен, не забудьте подписаться на PDALIFE Official в Telegram.

Комментарии

Чтобы оставлять комментарии,

пожалуйста авторизуйтесь.

  • Snutonius1
    Snutonius1
    Snutonius1 10 месяцев назад POCO F3
    Snutonius1 POCO F3 10 месяцев назад

    кому оно всралось - не ясно

Функционал в разработке!

Функционал в разработке!

Пока эти кнопки заработают, пройдут года, может даже века, но вы не отчаивайтесь, ждите и вам воздастся! Хочешь ускорить процесс разработки? Делай репосты страниц сайта в соцсети и рассказывай о нас друзьям!
Регистрация прошла успешно