Команда исследователей из Center for AI Safety и Scale AI представила Remote Labor Index (RLI) — первый в мире бенчмарк, который оценивает, насколько искусственный интеллект способен выполнять настоящие проекты фрилансеров.
В исследовании использовано 240 реальных заданий с Upwork — от разработки игр до архитектурных чертежей.
Результаты оказались неожиданными: даже самые продвинутые ИИ-модели успешно справились лишь с 2,5% задач, показав уровень, приемлемый для реальных заказчиков. Это контрастирует с их высокими результатами в стандартных академических тестах.
Как устроен бенчмарк RLI
В отличие от классических бенчмарков, где искусственный интеллект решает абстрактные задачи, RLI тестирует модели на реальных коммерческих проектах с фриланс-площадок.
Исследователи выкупили у фрилансеров примеры ранее выполненных заказов стоимостью от $15 до $200. Каждый проект включал:
-
техническое задание от клиента;
-
исходные материалы;
-
готовый результат, который уже был оплачен заказчиком.
ИИ-модели получают то же самое ТЗ и материалы — и должны создать результат такого же качества. Работа реального фрилансера выступает эталоном, подтверждённым рынком.
Какие проекты вошли в тест
В RLI представлены 23 категории фриланс-работ — от программирования и дизайна до архитектуры и 3D-моделирования.
Наиболее популярные направления:
-
видео и анимация — 13%;
-
3D-моделирование — 12%;
-
графический дизайн — 11%;
-
разработка игр — 10%;
-
аудио-обработка — 10%;
-
архитектура — 7%;
-
промышленный дизайн — 6%.
Средняя стоимость проекта — $632, медианное время выполнения — 11,5 часов. Общий объём работ эквивалентен 6 000+ часов и $140 000 реальных заказов.
Что показали результаты ИИ
В тестировании участвовали шесть моделей: Manus, Grok 4, Claude Sonnet 4.5, GPT-5, ChatGPT agent и Gemini 2.5 Pro.
Лучше всех справился Manus — 2,5% успешных проектов. У Grok 4 и Sonnet 4.5 — около 2,1%.
Даже лидер имеет Elo-рейтинг 509,9, что почти вдвое ниже «человеческого» уровня (1000). Это значит, что профессионал выигрывает у ИИ с вероятностью 10 к 1.
Типичные ошибки:
-
17,6% — повреждённые или пустые файлы;
-
35,7% — незавершённые проекты (например, видео длиной 8 секунд вместо 8 минут);
-
45,6% — низкое качество визуала или звука;
-
14,8% — несоответствие между частями проекта.
Где ИИ уже справляется хорошо
Искусственный интеллект показывает неплохие результаты в:
-
редактировании аудио и создании звуковых эффектов;
-
генерации изображений и логотипов;
-
написании текстов и отчётов;
-
создании интерактивных дашбордов и визуализаций.
Простые проекты с кодом, графикой или текстами — те сферы, где ИИ-агенты уже способны конкурировать с фрилансерами.
Почему RLI лучше других тестов
Remote Labor Index отличается от предыдущих бенчмарков по нескольким причинам:
-
Реалистичные задачи — проекты с Upwork требуют от 10 до 30 часов работы.
-
Широкое разнообразие форматов — 72 типа файлов: 3D-модели, CAD-чертежи, дизайнерские макеты, видео, игры.
-
Практическая польза — RLI показывает, какие типы задач ИИ может автоматизировать уже сегодня.
Экономический эффект: первые цифры автоматизации
Исследователи рассчитали метрику autoflation — насколько дешевле становится выполнение проектов при использовании ИИ.
К октябрю 2025 года снижение стоимости составило 4%. Если бы модели были фрилансерами, то Manus «заработал бы» $1 720 из возможных $143 991.
Средняя стоимость запуска одного проекта через API — всего $2,34, что значительно ниже человеческих расходов.
Ограничения исследования
RLI не включает проекты, где требуется живое общение с клиентом, командная работа или длительное ожидание результата (например, SEO-продвижение).
Также цены указаны без учёта инфляции, а значит, реальные расценки выше.
🔍 Главный вывод
Несмотря на впечатляющие успехи искусственного интеллекта в тестах на логику и знания, до уровня профессиональных фрилансеров ему ещё далеко.
Remote Labor Index показывает реальный прогресс ИИ-агентов и помогает компаниям оценить, какие профессии и задачи будут автоматизироваться первыми.
