Ждал третьей звезды чтоб захуячить пост под минусы.
В последнее время регулярно вижу "скепсис" к AI-разработке, поэтому зафиксирую наш свежий опыт без хуйни.
На внутреннем бейзкампе за четыре дня было сгенерировано и доведено до рабочего состояния около 1.5 млн строк кода. Прямые расходы на модели составили примерно $16K. Участвовало около двадцати инженеров - в основном в ролях постановки задач, архитектуры и ревью.
С нуля подняли новую версию API. Там тысячи эндпоинтов.
С точки зрения качества ничего принципиально нового не обнаружилось: ошибки были того же класса, что и в обычной человеческой разработке - неверные предположения, пропущенные ограничения, неточности в интеграциях. Никакой специфической «AI-магии» в дефектах не наблюдалось.
Да и эти проблемы были результатом ошибок людей в SDD.
Неожиданный эффект оказался в другом. Узким местом стал не объём генерации и не исправление ошибок, а пропускная способность ревью. Поток PR оказался выше, чем команда способна последовательно осмыслить и принять. То есть ограничение сместилось на сторону людей.
Фактически получилась ситуация, когда производство кода уже масштабируется быстрее, чем процессы его коллективной валидации. Это, пожалуй, главный практический вывод из всего упражнения.