awesome-everything EN
↑ Обратно к восхождению

AI / LLM

Tool calls: тест с выбором ответа

Суть Тест с выбором на синтез по всему юниту — цикл round-trip, валидация JSON schema как граница доверия, защита от runaway-цикла, parallel tool use и tool_choice.
Высота — путь к senior
НольJuniorMiddleSenior
Ты на senior-высоте — в орбите
◷ 13 min

Шесть вопросов поперёк всего юнита. Ни один не про определение для заучивания — каждый отражает решение, которое ты принимаешь, собирая реальный agent-цикл против реальных, иногда мутирующих, tools.

Цель

Убедись, что связываешь контракт round-trip, границу доверия при валидации, защиту от runaway, параллелизм и tool_choice — тот синтез, к которому вёл урок.

Викторина

Задача пользователя требует четырёх tool call на разных шагах. Сколько примерно вызовов модели сделает цикл и почему это важно для стоимости?

Викторина

Модель возвращает tool_use для cancel_order с id 'ord_9f3c' — id, которого никогда не было в разговоре. Каков senior-ход?

Викторина

Агент в проде иногда накручивает огромные счета на отдельных ходах. Логи показывают: он зовёт lookup_order, получает ошибку и зовёт снова с теми же аргументами — снова и снова. В чём корневая причина и фикс?

Викторина

Есть две цепочки. Цепочка A: get_weather(NYC) и get_weather(SF). Цепочка B: find_user(email) затем cancel_user_order(userId). Какую модель может распараллелить и почему?

Викторина

Ты строишь классификатор, который всегда должен возвращать одну из фиксированного набора категорий как структурированный JSON — проза недопустима как ответ. Какая настройка tool_choice подходит и почему не остальные?

Викторина

Агент с 10 tools прогоняет 6-шаговую задачу, и латентность и стоимость куда выше ожидаемого, хотя каждый tool быстрый. В чём доминирующий оверхед и стандартное смягчение?

Итог

Сквозная линия — один контракт: модель лишь запрашивает tool, твой код его исполняет, и цикл заново вызывает модель после каждого результата — так что стоимость накапливается, схемы шлются заново каждый раунд (кэшируй их), а незащищённый цикл уходит в разнос. Валидация — это граница доверия: провалидируй по схеме, затем authorize и existence-check, затем исполни, возвращая ошибки как tool_result, чтобы модель само-исправлялась. Параллелизм помогает лишь независимым вызовам; tool_choice (auto/any/tool/none) задаёт, сработает ли tool и какой.

Продолжить восхождение ↑Tool calls: тест на воспроизведение
хоткеи развернуть
поиск
K
пред. пьеса
k
след. пьеса
j
тиры
t
это меню
?
sources2
expand
  1. 01
  2. 02

Trademarks belong to their respective owners. Editorial reference only.