Mistral Medium 3.5는 추론·코딩·에이전트 실행을 한 모델로 묶으려 한다

Mistral Medium 3.5는 128B dense open-weight 모델 하나에 instruction following, reasoning, coding, vision, tool use를 통합하고, 이를 Le Chat과 Vibe의 장시간 에이전트 실행 계층에 바로 연결하려는 Mistral의 새 플래그십이다.

최근 모델 경쟁은 단순히 벤치마크 점수를 몇 점 더 올리느냐보다, 하나의 모델이 얼마나 넓은 작업 표면을 안정적으로 커버할 수 있느냐로 옮겨가고 있다.
빠른 질의응답용 모델, 긴 추론용 모델, 코딩 에이전트용 모델, 멀티모달 입력용 모델을 따로 운영하면 성능은 최적화할 수 있지만, 실제 제품과 에이전트 런타임 관점에서는 라우팅 복잡도와 운영 비용이 빠르게 커진다.

Mistral AI가 공개한 Mistral Medium 3.5는 바로 이 문제를 정면으로 겨냥한다.
Hugging Face 모델 카드와 공식 블로그에 따르면 이 모델은 128B dense 구조, 256k context window, reasoning effort 토글, 비전 입력, 함수 호출, JSON 출력까지 하나의 공개 가중치 모델 안에 묶었다.
더 중요한 점은 이것이 단순한 모델 릴리스로 끝나지 않고, Le Chat의 기본 모델과 Vibe 코딩 에이전트의 실행 백엔드로 바로 연결된다는 것이다.

내가 보기에 Mistral Medium 3.5의 핵심 메시지는 “더 강한 범용 모델”이 아니라 “하나의 모델로 긴 에이전트 실행을 감당할 수 있는 운영 단순화”에 가깝다.
Mistral은 reasoning, instruction following, coding을 별도 제품군으로 나누는 대신, 같은 가중치 세트 안에서 빠른 응답과 긴 작업을 모두 처리하도록 설계했다.
이 포지셔닝은 모델 그 자체보다, 앞으로의 에이전트 제품이 어떤 런타임 구조를 요구하는지 보여 준다는 점에서 더 흥미롭다.

Mistral Medium 3.5 math/instruction benchmark

무엇을 해결하려는가

Mistral Medium 3.5가 푸는 문제는 단순한 리더보드 경쟁이 아니다.
공식 설명을 종합하면 더 본질적인 목표는 instruction following, reasoning, coding, vision, tool use를 각각 다른 모델이나 모드로 분리하지 않고도 하나의 운영 가능한 플래그십으로 통합하는 것이다.
특히 Le Chat 같은 대화형 제품과 Vibe 같은 코딩 에이전트에서는, 요청마다 모델을 갈아타거나 장시간 실행용 별도 스택을 두는 구조가 금방 복잡해진다.

이런 맥락에서 reasoning effort를 요청 단위로 조절할 수 있다는 점은 중요하다.
같은 모델이 짧은 채팅 응답에는 가볍게 반응하고, 복잡한 연구·분석·코딩 작업에서는 더 긴 test-time compute를 사용하도록 설계됐기 때문이다.
즉 reasoning 전용 모델과 instant model을 따로 두는 대신, 하나의 모델을 작업 난이도에 따라 다르게 구동하려는 접근이다.

또 하나의 문제는 에이전트 제품에서 모델 성능이 더 이상 순수한 텍스트 생성 능력만으로 결정되지 않는다는 점이다.
공식 블로그는 Mistral Medium 3.5를 Vibe remote agents와 Le Chat Work mode의 기반으로 소개하면서, 병렬 도구 호출, 장시간 세션 지속, structured output, human-in-the-loop 승인 흐름을 강조한다.
다시 말해 이 모델은 단순히 “잘 대답하는 LLM”이 아니라, 더 긴 실행 그래프를 안정적으로 떠받치는 공용 엔진 역할을 요구받고 있다.

핵심 아이디어 / 구조 / 동작 방식

공개 자료에서 확인되는 구조를 보면 Mistral Medium 3.5의 첫 번째 아이디어는 “merged flagship model”이다.
Hugging Face 모델 카드에는 이 모델이 Mistral Medium 3.1, Magistral, Devstral 2가 각각 담당하던 일부 역할을 하나로 합친 첫 플래그십 merged model이라고 적혀 있다.
즉 이전에는 instruct, reasoning, coding이 상대적으로 분리된 표면으로 제시되었다면, 이번에는 이를 128B dense open-weight 모델 하나로 합쳐 Le Chat과 Vibe에 동시에 투입한다.

두 번째는 작업 강도에 맞춘 추론 제어다.
모델 카드는 reasoning effort를 none 또는 high로 요청마다 조절할 수 있다고 설명하고, 복잡한 프롬프트와 agentic coding에는 high를 권장한다.
이 설계는 모델 능력을 두 갈래로 분리하는 대신, 같은 모델을 low-latency 응답 엔진과 long-horizon 실행 엔진 사이에서 연속적으로 쓰겠다는 의미다.

세 번째는 멀티모달·에이전트 표면의 결합이다.
공개 카드 기준으로 이 모델은 텍스트와 이미지 입력을 받고 텍스트를 출력하며, 시스템 프롬프트 준수, native function calling, JSON output, large context window를 전면에 내세운다.
여기에 공식 블로그는 Work mode에서 여러 도구를 병렬 호출하고, 세션을 길게 유지하며, 민감한 액션 전에는 승인 단계를 거친다고 설명한다.
즉 모델 단독의 API 스펙보다, 그 위에 얹힌 실행 harness까지 포함한 운영 표면이 함께 공개되고 있는 셈이다.

네 번째는 배포 표면의 양면성이다.
한편으로는 공개 가중치와 self-hosting 가능성을 내세운다.
블로그는 이 모델이 적게는 4개의 GPU로 self-hosted 가능하다고 설명하고, 모델 카드는 vLLM, SGLang, transformers, Ollama, llama.cpp, Axolotl, Unsloth 같은 생태계 연결점을 자세히 적어 둔다.
다른 한편으로는 실제 제품 측면에서 Le Chat, Vibe, NVIDIA build/NIM, Mistral API 같은 hosted path도 동시에 강조한다.
즉 Mistral은 open weights와 hosted product를 경쟁 관계가 아니라 동일한 모델 계층의 두 유통 채널로 운영하는 모습이다.

레이어	공개 자료에서 확인되는 구성	의미
Core model	Dense 128B, 256k context, text+image input, text output	하나의 플래그십으로 추론·코딩·멀티모달을 통합
Inference control	`reasoning_effort` per request, system prompt adherence, JSON output	빠른 응답과 긴 작업을 같은 모델 안에서 조절
Agent interface	Function calling, structured output, Work mode, Vibe remote agents	모델을 단순 채팅이 아니라 실행 엔진으로 사용
Deployment surface	Open weights, self-hosting, Mistral API, Le Chat, NVIDIA endpoints	오픈 배포와 호스티드 제품을 동시에 전개

Mistral Medium 3.5 agentic benchmark

공개된 근거에서 확인되는 점

모델 카드에서 가장 명확하게 확인되는 사실은 이 모델이 dense 128B, 256k context, multimodal input, configurable reasoning을 핵심 속성으로 내세운다는 점이다.
또한 수정된 MIT 라이선스(Modified MIT License)로 공개되는데, 라이선스 본문에는 일반적인 사용·수정·배포 권한을 허용하면서도 직전 월 기준 회사의 전세계 연결 월매출이 2천만 달러를 초과하면 별도 상업 라이선스가 필요하다고 적혀 있다.
즉 완전히 무제한적인 permissive release라기보다, 오픈 가중치와 상업적 통제를 절충한 형태에 가깝다.

벤치마크 표면은 강점과 한계를 함께 보여 준다.
모델 카드와 블로그는 agentic benchmark에서 SWE-Bench Verified 77.6%, τ³-Telecom 91.4를 강조한다.
다만 공식 차트 자체를 보면 비교군 대비 “압도적 1위”라고 말하긴 어렵다.
예를 들어 agentic 차트에서 Mistral Medium 3.5는 SWE-Bench Verified 77.6으로 Claude Sonnet 4.5의 77.2보다는 높지만, 같은 차트의 GLM 5.1 80.2와 Claude Sonnet 4.6 79.6보다는 낮다. τ³-Telecom 91.4도 강한 수치지만, 차트상 GLM 5.1 98.7과 Qwen3.5 97.8이 더 높게 표시된다.
반대로 T³ Banking 13.4, BrowseComp 48.6처럼 상대적으로 약한 축도 보인다.

수학·instruction following 차트에서도 비슷한 패턴이 보인다.
Mistral Medium 3.5는 Collie에서 95.8로 차트상 최고점을 기록하지만, AIME25 avg@16에서는 86.3으로 GLM-5 87.1과 Claude Sonnet 4.6 86.9보다 약간 낮다.
AllenAI IfBench에서는 69.0, Beyond AIME avg@16에서는 66.9로 중상위권이지만 각 항목 최고점은 아니다.
다시 말해 이 모델의 공개 근거는 특정 단일 축에서 절대 우위라기보다, 여러 작업 표면을 하나로 합친 통합형 성능을 강조하는 방식에 가깝다.

또 하나 중요한 점은 실제 제품 연결이다.
공식 블로그에 따르면 이 모델은 Le Chat의 기본 모델이 되고, Vibe CLI에서는 Devstral 2를 대체하며, Work mode의 기반 모델로도 쓰인다.
블로그는 입력 토큰 100만 개당 1.5달러, 출력 토큰 100만 개당 7.5달러의 API 가격도 제시한다.
즉 Mistral은 단지 “좋은 오픈 모델을 공개했다”가 아니라, 이 모델을 중심으로 소비자 제품, 개발자 API, self-hosted 경로를 동시에 맞물리게 하고 있다.

공개 근거	확인된 내용	해석
Hugging Face model card	Dense 128B, 256k context, multimodal, reasoning effort 제어, function calling, JSON output	다양한 작업 유형을 한 모델로 묶으려는 의도
LICENSE	Modified MIT, 단 회사 월매출 2천만 달러 초과 시 별도 상업 라이선스 필요	완전한 무조건 오픈이라기보다 제한적 open-weight 전략
Agentic benchmark chart	SWE-Bench Verified 77.6, τ³-Telecom 91.4, 일부 항목은 경쟁 모델이 더 높음	단일 리더보드 1위보다 통합형 실사용 성능을 강조
Math/instruction chart	Collie 95.8은 강하지만 AIME/IfBench/Beyond AIME는 항목별 편차 존재	reasoning·instruction 측면에서도 균형형 포지셔닝
Official blog	Le Chat 기본 모델, Vibe/Work mode 백엔드, API 가격 및 remote agents 공개	모델 릴리스를 곧바로 제품 운영 계층과 연결

Mistral Vibe remote agent diagram

실무 관점에서의 해석

내가 보기엔 Mistral Medium 3.5의 진짜 포인트는 “가장 높은 점수의 모델”이라기보다 “운영하기 쉬운 강한 모델”이다. reasoning, coding, tool use, long context, vision을 하나의 공개 가중치 모델로 통합하면 제품 팀은 라우팅 복잡도를 줄일 수 있고, 에이전트 팀은 어떤 작업에서 어떤 모델로 갈아타야 할지에 대한 정책 비용을 낮출 수 있다.
특히 Vibe나 Work mode처럼 장시간 세션과 병렬 도구 호출이 중요한 환경에서는, 개별 벤치마크 최고점보다 안정적인 통합 표면이 더 중요할 수 있다.

또한 Mistral은 이번 릴리스에서 모델과 에이전트 제품을 분리하지 않는다. remote agents, Le Chat Work mode, structured output, approvals, cloud runtime 같은 서사를 같은 발표 안에 묶은 것은, 앞으로 모델 회사의 경쟁력이 더 이상 파라미터 수나 리더보드 순위만으로 결정되지 않는다는 신호다.
모델은 점점 독립 artifact가 아니라 실행 harness, 승인 흐름, 외부 도구 연결, self-hosted 경로와 함께 평가되는 인프라 계층이 되고 있다.

물론 한계도 분명하다.
공개 차트만 놓고 보면 Mistral Medium 3.5는 여러 항목에서 강하지만 전반적으로 경쟁 모델을 일관되게 압도하지는 않는다.
그리고 BrowseComp, Banking 같은 축에서는 상당한 편차도 보인다.
라이선스 역시 오픈이라는 인상을 주지만, 대형 매출 기업에는 별도 상업 계약을 요구하므로 채택 전에 법무 검토가 필요하다.
즉 이 모델은 “무조건 최고 성능의 완전 자유 오픈모델”이라기보다, 중대형 팀이 agentic product stack을 어떻게 단순화할지에 초점을 둔 전략적 릴리스로 보는 편이 정확하다.

그럼에도 방향성은 분명하다.
앞으로 강한 모델은 단순히 질문에 잘 답하는 모델이 아니라, 긴 작업을 수행하고, 도구를 부르고, 구조화된 출력을 남기고, self-hosted와 hosted 양쪽에서 굴릴 수 있어야 한다.
그런 관점에서 Mistral Medium 3.5는 새로운 SOTA 선언이라기보다, “에이전트를 실제 제품으로 운영하려면 모델 계층이 어떤 모양이어야 하는가”에 대한 Mistral의 답변에 가깝다.