Remote Labor Index: как ИИ справляется с реальной работой фрилансеров

Команда исследователей из Center for AI Safety и Scale AI представила Remote Labor Index (RLI) — первый в мире бенчмарк, который оценивает, насколько искусственный интеллект способен выполнять настоящие проекты фрилансеров.
В исследовании использовано 240 реальных заданий с Upwork — от разработки игр до архитектурных чертежей.

Результаты оказались неожиданными: даже самые продвинутые ИИ-модели успешно справились лишь с 2,5% задач, показав уровень, приемлемый для реальных заказчиков. Это контрастирует с их высокими результатами в стандартных академических тестах.

Как устроен бенчмарк RLI

В отличие от классических бенчмарков, где искусственный интеллект решает абстрактные задачи, RLI тестирует модели на реальных коммерческих проектах с фриланс-площадок.
Исследователи выкупили у фрилансеров примеры ранее выполненных заказов стоимостью от $15 до $200. Каждый проект включал:

  • техническое задание от клиента;

  • исходные материалы;

  • готовый результат, который уже был оплачен заказчиком.

ИИ-модели получают то же самое ТЗ и материалы — и должны создать результат такого же качества. Работа реального фрилансера выступает эталоном, подтверждённым рынком.

Какие проекты вошли в тест

В RLI представлены 23 категории фриланс-работ — от программирования и дизайна до архитектуры и 3D-моделирования.
Наиболее популярные направления:

  • видео и анимация — 13%;

  • 3D-моделирование — 12%;

  • графический дизайн — 11%;

  • разработка игр — 10%;

  • аудио-обработка — 10%;

  • архитектура — 7%;

  • промышленный дизайн — 6%.

Средняя стоимость проекта — $632, медианное время выполнения — 11,5 часов. Общий объём работ эквивалентен 6 000+ часов и $140 000 реальных заказов.

Что показали результаты ИИ

В тестировании участвовали шесть моделей: Manus, Grok 4, Claude Sonnet 4.5, GPT-5, ChatGPT agent и Gemini 2.5 Pro.
Лучше всех справился Manus — 2,5% успешных проектов. У Grok 4 и Sonnet 4.5 — около 2,1%.

Читать  Как сделать мультяшную фотку в нейросети: пошаговый лонгрид, примеры и промпты для всех стилей

Даже лидер имеет Elo-рейтинг 509,9, что почти вдвое ниже «человеческого» уровня (1000). Это значит, что профессионал выигрывает у ИИ с вероятностью 10 к 1.

Типичные ошибки:

  • 17,6% — повреждённые или пустые файлы;

  • 35,7% — незавершённые проекты (например, видео длиной 8 секунд вместо 8 минут);

  • 45,6% — низкое качество визуала или звука;

  • 14,8% — несоответствие между частями проекта.

Где ИИ уже справляется хорошо

Искусственный интеллект показывает неплохие результаты в:

  • редактировании аудио и создании звуковых эффектов;

  • генерации изображений и логотипов;

  • написании текстов и отчётов;

  • создании интерактивных дашбордов и визуализаций.

Простые проекты с кодом, графикой или текстами — те сферы, где ИИ-агенты уже способны конкурировать с фрилансерами.

Почему RLI лучше других тестов

Remote Labor Index отличается от предыдущих бенчмарков по нескольким причинам:

  1. Реалистичные задачи — проекты с Upwork требуют от 10 до 30 часов работы.

  2. Широкое разнообразие форматов — 72 типа файлов: 3D-модели, CAD-чертежи, дизайнерские макеты, видео, игры.

  3. Практическая польза — RLI показывает, какие типы задач ИИ может автоматизировать уже сегодня.

Экономический эффект: первые цифры автоматизации

Исследователи рассчитали метрику autoflation — насколько дешевле становится выполнение проектов при использовании ИИ.
К октябрю 2025 года снижение стоимости составило 4%. Если бы модели были фрилансерами, то Manus «заработал бы» $1 720 из возможных $143 991.

Средняя стоимость запуска одного проекта через API — всего $2,34, что значительно ниже человеческих расходов.

Ограничения исследования

RLI не включает проекты, где требуется живое общение с клиентом, командная работа или длительное ожидание результата (например, SEO-продвижение).
Также цены указаны без учёта инфляции, а значит, реальные расценки выше.


🔍 Главный вывод

Несмотря на впечатляющие успехи искусственного интеллекта в тестах на логику и знания, до уровня профессиональных фрилансеров ему ещё далеко.
Remote Labor Index показывает реальный прогресс ИИ-агентов и помогает компаниям оценить, какие профессии и задачи будут автоматизироваться первыми.

Читать  Sora 2 — как сделать видео с помощью нейросети OpenAI