(번역) 에이전트 엔지니어링의 현황, state-of-agent-engineering at langchain

https://www.langchain.com/state-of-agent-engineering

저희는 엔지니어, 제품 관리자부터 비즈니스 리더 및 임원에 이르기까지 1,300명 이상의 전문가를 대상으로 설문조사를 실시하여 AI 에이전트의 현황을 파악했습니다. 이제 데이터를 자세히 살펴보고 현재 AI 에이전트가 어떻게 활용되고 있는지(또는 활용되지 않고 있는지) 분석해 보겠습니다.

소개

2026년으로 접어들면서, 기업들은 더 이상 에이전트를 구축할지 여부를 묻는 것이 아니라, 에이전트를 안정적이고 효율적이며 대규모로 배포하는 방법을 고민하고 있습니다. 저희는 1,300명 이상의 전문가를 대상으로 설문조사를 실시하여 AI 에이전트 활용 사례의 발전과 에이전트 엔지니어링 과제 해결 방식을 파악했습니다.

주요 결과:

실제 도입 속도는 상당히 빠르며, 응답자의 57%가 이미 에이전트를 운영 중이라고 답했고, 특히 대기업들이 도입을 주도하고 있습니다.
품질은 생산성 저하의 주요 원인으로, 응답자 의 32%가 이를 가장 큰 장애물로 꼽았습니다. 반면, 비용에 대한 우려는 작년보다 감소했습니다.
관찰 가능성은 기본 요소입니다. 응답자의 거의 89%가 에이전트에 관찰 가능성을 구현했으며, 이는 평가 도구 도입률인 52%를 앞지르는 수치입니다.
여러 모델을 사용하는 것이 일반적입니다. OpenAI는 GPT 모델로 선두를 달리고 있지만, Gemini, Claude 및 오픈 소스 모델도 상당한 활용도를 보이고 있습니다. 하지만 미세 조정은 아직 널리 보급되지 않았습니다.

인사이트

에이전트 엔지니어링이란 무엇일까요?

에이전트 엔지니어링은 LLM(Learning Leadership Model)을 활용하여 신뢰할 수 있는 시스템을 구축하는 반복적인 과정입니다. 에이전트는 비결정적 특성을 가지므로, 엔지니어는 에이전트의 품질을 개선하고 향상시키기 위해 신속하게 반복 작업을 수행해야 한다고 생각합니다.

대기업들이 도입을 주도하고 있다.

설문 조사에 참여한 응답자 중 절반 이상 (57.3%)이 현재 운영 환경에서 에이전트를 실행 중이며, 30.4%는 구체적인 배포 계획을 가지고 에이전트를 적극적으로 개발하고 있습니다.

이는 작년 조사에서 51%가 에이전트를 운영 중이라고 응답했던 것에 비해 뚜렷한 성장을 보여줍니다. 조직들은 개념 증명 단계를 넘어 실제 운영 단계로 진입하고 있으며, 대부분의 조직에게 있어 이제 질문은 "에이전트를 출시할지 여부"가 아니라 "어떻게" 그리고 "언제" 출시할 것인가입니다.

‍

규모가 커지면 어떤 변화가 일어날까요?

1만 명 이상 규모의 조직 중 67%는 이미 운영 중인 에이전트를 보유하고 있었고, 24%는 운영 도입을 계획하며 활발히 개발 중이었습니다. 반면 100명 미만 규모의 조직에서는 50%가 운영 중인 에이전트를 보유하고 있었고, 36%가 활발히 개발 중이었습니다. 이는 규모가 큰 조직일수록 파일럿 단계에서 안정적인 시스템으로 더 빠르게 전환하고 있음을 시사하며, 이는 플랫폼 팀, 보안 및 안정성 인프라에 대한 투자가 더 크기 때문일 수 있습니다.

주요 에이전트 사용 사례

고객 서비스가 가장 일반적인 상담원 활용 사례(26.5%)로 나타났으며, 조사 및 데이터 분석이 그 뒤를 이었습니다(24.4%). 이 두 가지 범주를 합치면 전체 주요 상담원 배치 사례의 절반 이상을 차지합니다.

고객 서비스 부문에서 높은 성과를 보인 것은 상담원을 단순히 내부 업무에만 활용하는 것이 아니라, 고객과 직접 소통하는 방식으로 팀이 전환하고 있음을 시사합니다. 동시에, 상담원은 내부 업무에도 여전히 상당한 가치를 제공하고 있으며, 응답자의 18%는 직원 효율성 향상을 위해 내부 업무 자동화에 상담원을 활용한다고 답했습니다.

연구 및 데이터 분석 활용 사례의 인기는 오늘날 에이전트가 빛을 발하는 분야, 즉 대량의 정보를 종합하고, 여러 출처에 걸쳐 추론하며, 지식 집약적인 작업을 가속화하는 분야를 더욱 확고히 합니다.

특히 올해 응답자들이 선택한 사용 사례의 범위가 더 넓어졌는데 (응답자는 주요 사용 사례를 하나만 선택할 수 있었음), 이는 에이전트 도입이 초기 제한적인 응용 분야를 넘어 다양화되고 있음을 시사합니다 .

‍

규모가 커지면 어떤 변화가 일어날까요?

직원 수가 1만 명 이상인 조직에서는 내부 생산성 향상이 가장 큰 활용 사례(26.8%)이며 , 고객 서비스(24.7%)와 연구 및 데이터 분석(22.2%)이 그 뒤를 잇습니다. 규모가 큰 기업일수록 최종 사용자에게 직접 상담원을 배포하기 전이나 배포와 동시에 내부 팀의 효율성 향상에 우선적으로 집중하는 경향이 있습니다.

‍

생산에 있어 가장 큰 장벽

지난해 조사 결과와 마찬가지로 품질은 여전히 생산에 있어 가장 큰 걸림돌로 작용하고 있습니다 . 올해 응답자의 3분의 1이 품질을 주요 장애물로 꼽았습니다. 이는 정확성, 관련성, 일관성, 그리고 상담원이 적절한 어조를 유지하고 브랜드 또는 정책 지침을 준수하는 능력 등을 포함합니다.

지연 시간은 두 번째로 큰 과제(20%)로 나타났습니다. 상담원이 고객 서비스 및 코드 생성과 같은 고객 대면 사용 사례로 이동함에 따라 응답 시간은 사용자 경험에 매우 중요한 요소가 됩니다. 이는 또한 팀이 품질과 속도 사이의 균형을 맞춰야 하는 문제를 반영합니다. 더 많은 기능을 갖춘 다단계 상담원은 더 높은 품질의 결과를 제공할 수 있지만 응답 속도는 느려지는 경우가 많습니다.

반면, 비용은 예년에 비해 우려 사항으로 언급되는 빈도가 줄었습니다 . 모델 가격 하락과 효율성 향상으로 인해 기업들이 초기 투자 비용보다는 상담원의 효율적이고 빠른 작동에 우선순위를 두는 것으로 보입니다.

‍

규모가 커지면 어떤 변화가 일어날까요?

직원 수 2,000명 이상의 대기업에서는 품질이 여전히 가장 큰 걸림돌이지만, 보안이 응답자의 24.9%가 언급한 두 번째로 큰 문제로 나타났습니다. 이는 소규모 조직에서 더 흔히 발생하는 문제인 지연 시간을 넘어선 수치입니다.

직원 수가 1만 명 이상인 조직의 경우, 응답자들은 에이전트 품질 보장 에 있어 가장 큰 어려움으로 에이전트가 생성하는 출력물의 일관성 부족과 오류 발생 가능성 을 꼽았습니다. 또한 많은 응답자들이 컨텍스트 엔지니어링 및 대규모 컨텍스트 관리 의 지속적인 어려움을 지적했습니다 .

‍

에이전트의 관찰 가능성

다단계 추론 과정과 도구 호출을 추적하는 기능은 에이전트의 필수 역량이 되었습니다 . 조직의 89%가에이전트에 대한 관찰 가능성을 어떤 형태로든 구현했으며, 62%는 개별 에이전트 단계와 도구 호출을 검사할 수 있는 상세한 추적 기능을 갖추고 있습니다.

이미 운영 환경에서 에이전트를 사용 중인 응답자들 사이에서는 도입률이 훨씬 더 높습니다. 94%가 어떤 형태로든 관찰 가능성을 확보했고, 71.5%는 완벽한 추적 기능을 갖추고 있습니다. 이는 에이전트 엔지니어링의 근본적인 진리를 보여줍니다. 에이전트의 추론 및 동작 방식을 파악하지 못하면 팀은 오류를 안정적으로 디버깅하고, 성능을 최적화하고, 내부 및 외부 이해관계자와의 신뢰를 구축할 수 없습니다.

에이전트 평가 및 테스트

관찰 가능성(observability)은 널리 채택되고 있지만, 에이전트 평가는 여전히 그 확산 속도가 더디며 점차 인지도를 높여가고 있습니다. 응답 기관의 절반 이상(52.4%)이 테스트 세트에서 오프라인 평가를 실행한다고 답했는데 , 이는 많은 팀이 배포 전에 회귀 오류를 발견하고 에이전트 동작을 검증하는 것의 중요성을 인식하고 있음을 보여줍니다. 온라인 평가의 도입률은 37.3%로 더 낮지 만, 실제 환경에서 에이전트 성능을 모니터링하려는 팀이 늘어남에 따라 점차 증가하고 있습니다.

이미 실제 운영 환경에서 에이전트를 사용하고 있는 기업의 경우 평가 방식이 더욱 성숙해진 것으로 보이며, 전반적인 평가 도입률이 유의미하게 높아졌습니다("평가하지 않음"이 29.5%에서 22.8%로 감소). 또한 온라인 평가를 실행하는 조직의 비율이 증가(44.8%)했는데, 이는 에이전트가 실제 사용자를 접하게 되면 팀이 실시간으로 문제를 감지하기 위해 운영 데이터를 관찰해야 할 필요성이 커졌음을 시사합니다.

대부분의 팀은 진입 장벽이 낮고 설정이 명확하기 때문에 여전히 오프라인 평가 로 시작 하지만, 많은 팀이 다양한 접근 방식을 결합하고 있습니다. 평가를 진행하는 조직 중 거의 4분의 1이 오프라인 및 온라인 평가를 모두 사용하고 있습니다.

평가를 수행하는 이러한 기관들은 평가에 있어 인간 중심적 접근 방식과 자동화된 접근 방식을 혼합하여 사용하며 , 폭넓은 평가를 위해서는 LLM을 평가자로 활용하고, 심층적인 평가를 위해서는 인간 검토를 활용합니다. 더 나아가, 미묘한 차이가 있거나 중요도가 높은 상황에서는 인간 검토(59.8%)가 여전히 필수적인 반면, LLM을 평가자로 활용하는 방식(53.3%)은 품질, 사실 정확성 및 가이드라인 준수 평가를 확장하는 데 점점 더 많이 사용되고 있습니다. 이와 대조적으로, ROUGE 및 BLEU와 같은 기존 머신러닝 지표는 활용도가 제한적입니다. 이러한 지표는 여러 유효한 응답이 존재하는 개방형 에이전트 상호작용에는 적합하지 않을 수 있습니다.

‍

모델 및 도구 환경

OpenAI 모델이 도입을 주도하고 있지만, 단일 공급업체에만 의존하는 팀은 거의 없습니다.

조직의 3분의 2 이상이 OpenAI의 GPT 모델을 사용한다고 보고했지만, 모델 다양성은 이제 일반적인 추세이며, 4분의 3 이상이 프로덕션 또는 개발 환경에서 여러 모델을 사용하고 있습니다. 팀들은 플랫폼 종속성을 추구하기보다는 복잡성, 비용, 지연 시간과 같은 요소를 기반으로 작업을 다양한 모델에 할당하는 추세입니다.

상용 API의 편리함에도 불구하고, 많은 조직에게 자체 모델 운영은 여전히 중요한 전략입니다. 조직의 3분의 1은 자체 모델 배포에 필요한 인프라와 전문 지식에 투자하고 있다고 보고했습니다. 이러한 오픈 소스 모델 도입은 대량 생산 비용 최적화, 데이터 상주 및 주권 요구 사항, 또는 민감한 산업 분야의 규제 제약 등에 의해 촉진될 수 있습니다.

동시에, 미세 조정은 여전히 전문화된 영역으로, 표준화되어 있지 않습니다. 대다수 조직(57%)은 모델 미세 조정을 하지 않고, 기본 모델에 신속한 엔지니어링 및 RAG(Real-Assisted Gradient) 기법을 결합하여 사용하고 있습니다. 미세 조정은 데이터 수집, 라벨링, 학습 인프라 구축 및 지속적인 유지 관리에 상당한 투자가 필요하기 때문에, 주로 영향력이 크거나 특수한 사용 사례에만 적용되는 것으로 보입니다.

‍

매일 어떤 에이전트가 사용되고 있습니까?

"일상 업무에서 가장 많이 사용하는 에이전트는 무엇입니까?"라는 질문을 했을 때, 응답에서 몇 가지 분명한 패턴이 나타났습니다.

1. 코딩 에이전트가 일상적인 업무 흐름을 주도합니다.

가장 많이 언급된 도구는 단연 코딩 어시스턴트였습니다. 응답자들은 코드 생성, 디버깅, 테스트 생성, 대규모 코드베이스 탐색 등 개발 과정에서 Claude Code, Cursor, GitHub Copilot, Amazon Q, Windsurf, Antigravity 와 같은 도구를 반복적으로 사용한다고 답했습니다.

2. 연구 및 심층 연구 에이전트가 그 다음으로 많이 사용됩니다.

두 번째로 흔한 패턴은 ChatGPT, Claude, Gemini, Perplexity 및 유사한 도구를 기반으로 하는 연구 및 심층 연구 에이전트 였습니다 . 이러한 에이전트는 새로운 영역을 탐색하고, 긴 문서를 요약하고, 여러 소스의 정보를 종합하는 데 사용됩니다. 이러한 에이전트는 동일한 워크플로에서 코딩 에이전트와 함께 사용되는 경우가 많습니다.

3. LangChain 및 LangGraph를 기반으로 구축된 사용자 지정 에이전트도 인기가 있습니다.

세 번째로 뚜렷하게 구분되는 답변 그룹은 사용자 지정 에이전트를 가리키는 것으로, 많은 응답자가 LangChain 및 LangGraph를 기반으로 구축했다고 밝혔습니다. 응답자들은 QA 테스트, 내부 지식 기반 검색, SQL/텍스트-SQL 변환, 수요 계획, 고객 지원 및 워크플로 자동화와 같은 작업을 위한 내부 에이전트를 설명했습니다.

또한 상당수의 응답자는 LLM 채팅이나 코딩 지원 외에는 아직 상담원을 사용하지 않는다고 답했는데, 이는 상담원 사용은 널리 퍼져 있지만 "모든 것을 상담원으로 처리하는" 광범위한 도입은 아직 초기 단계에 있음을 보여줍니다.

방법론

이 보고서의 분석 결과는 2025년 11월 18일부터 12월 2일까지 2주간 실시한 공개 설문조사를 바탕으로 작성되었습니다. 총 1,340명이 응답했습니다. 다음은 응답자 인구 통계 데이터입니다.

5대 주요 산업:

기술 (응답자의 63%)

금융 서비스 (응답자의 10%)

의료 서비스 (응답자의 6%)

교육 (응답자의 4%)

소비재 (응답자의 3%)

제조업 (응답자의 3%)

회사 규모:

100명 미만 (응답자의 49%)

100~500명 (응답자의 18%)

500~2000명 (응답자의 15%)

2,000~10,000명 (응답자의 9%)

10,000명 이상 (응답자의 9%)

(번역) 에이전트 엔지니어링의 현황, state-of-agent-engineering at langchain

소개