Microsoft створила тестовий маркетплейс для ШІ-агентів і виявила їхні слабкі сторони

jeka · 8/11/25

Microsoft та Університет Аризони протестували провідні ШІ-моделі в новому симуляційному середовищі Magentic Marketplace.
Експерименти показали вразливість агентів до маніпуляцій і їхню нездатність ефективно співпрацювати.
Дослідники попереджають, що агентські системи поки далекі від готовності до автономної роботи.

Microsoft Research представила експериментальну платформу Magentic Marketplace, створену для перевірки взаємодії та поведінки агентів штучного інтелекту. Нове симуляційне середовище дало змогу вченим вивчити, як ШІ-моделі поводяться в умовах конкуренції та кооперації.

Спільно з Університетом штату Аризона дослідники провели серію тестів, у яких сотні рішень взаємодіяли на цифровому торговому майданчику. Клієнтські агенти намагалися виконати завдання, на кшталт замовлення їжі, а корпоративні змагалися за угоди.

Вихідний код Magentic Marketplace опубліковано, щоб сторонні команди могли відтворювати та розвивати ці експерименти.
Керівник AI Frontiers Lab у Microsoft Research Едже Камар заявив, що подібні симуляції допоможуть зрозуміти, як ШІ-агенти діятимуть у реальному світі. За його словами, ключове питання полягає в тому, чи зможуть автономні системи ефективно взаємодіяти та домовлятися без людського контролю.

Дослідження виявило слабкі сторони кількох великих мовних моделей, зокрема GPT-4o, GPT-5 і Gemini 2.5 Flash. Вчені виявили, що агенти легко піддаються маніпуляціям, оскільки їм можна нав’язати вибір на користь конкретних продавців.

Крім того, при збільшенні кількості варіантів їхня ефективність різко падала через когнітивне перевантаження.

Проблеми виникали і під час спільної роботи. Моделі насилу розподіляли ролі і втрачали продуктивність, якщо не отримували точних інструкцій. Коли їм давали докладні покрокові вказівки, продуктивність поліпшувалася, але навіть тоді вони демонстрували обмежені навички самостійної співпраці.

Камар зазначив, що результати підкреслюють розрив між можливостями сучасних ШІ та їхньою передбачуваною автономністю. Попри успіхи генеративних моделей, дослідники вважають, що шлях до по-справжньому агентного ШІ, здатного взаємодіяти й ухвалювати рішення в складному середовищі, все ще далекий від завершення.

Нагадаємо, ми писали, що команда nof1.ai запустила змагання з торгівлі криптоактивами серед шести ШІ-моделей.

Поиск

Поиск

Microsoft створила тестовий маркетплейс для ШІ-агентів і виявила їхні слабкі сторони

jeka

Пользователь

Похожие темы