Kimi K2 Thinking API

Moonshot AI reasoning model with 128K context, Chain of Thought capabilities, and native tool calling. Available in Standard and Turbo variants for different use cases.

모델 유형:

✓Kimi K2 Thinking Kimi K2 Thinking Turbo

가격:

$0.588(~ 40 credits) per 1M input tokens; $2.353(~ 160 credits) per 1M output tokens

$0.147(~ 10 credits) per 1M cache read tokens

Web search tool charged separately per request.

99.9% 가용성이 보장되는 가장 안정적인 버전으로, 프로덕션 환경에 권장됩니다.

모든 버전은 동일한 API 엔드포인트를 사용하며 model 파라미터만 다릅니다.

Kimi K2 사고 API(장거리 추론)

Name: EvoLink AI Model API Platform
Brand: EvoLink
Availability: InStock

EvoLink을 통해 K2 Thinking 모델을 실행하여 대규모 문서를 분석하고, 도구를 조정하고, 구조화된 출력을 생성하세요. 256K 토큰 컨텍스트 창, 기본 도구 호출 및 안정적인 다단계 워크플로를 위해 구축되었습니다.

PRICING

PLAN	CONTEXT WINDOW	MAX OUTPUT	INPUT	OUTPUT	CACHE READ
Kimi K2 Thinking	262,100	262,100	$0.588-2% (40 Credits)	$2.353-6% (160 Credits)	$0.147-2% (10 Credits)
Web Search Tool Server-side web search capability					$0.004/search (0.30 Credits)

Pricing Note: Prices show both USD and Credits. Units default to / 1M tokens unless noted separately.

Cache Hit: Price applies to cached prompt tokens.

Kimi K2 Thinking으로 무엇을 만들 수 있나요?

장기 맥락 연구

단일 요청으로 전체 보고서, 코드베이스 또는 기술 자료를 처리합니다. 256K 컨텍스트 창을 사용하면 공격적인 청킹 없이 큰 입력을 추론하는 것이 실용적입니다.

연구 흐름 구축

도구로 조정되는 에이전트

도구를 호출하고 순조롭게 진행되는 에이전트를 디자인하세요. K2 Thinking은 도구 정의를 수용하고 JSON 도구 호출을 반환하여 길고 다단계 계획을 지원합니다.

에이전트 만들기

코드베이스 및 데이터 워크플로우

일관된 단계별 추론을 통해 대규모 리포지토리 또는 데이터 세트 전반에서 리팩터링, 디버깅 및 데이터 분석을 위해 모델을 사용합니다.

코딩 작업을 시도해 보세요

개발자가 Kimi K2 Thinking API을 선택하는 이유

강력한 장거리 에이전트 워크플로우를 위한 오픈 소스 유연성, 256K 컨텍스트 및 기본 도구 사용을 확보하세요.

256K 컨텍스트 창

복잡한 작업을 위한 전체 256K 토큰 창을 통해 긴 문서와 다중 턴 이력을 추론합니다.

네이티브 도구 호출

도구 정의를 수락하고 JSON 도구 호출을 생성하여 안정적인 오케스트레이션과 구조화된 출력을 가능하게 합니다.

오픈 소스 + MoE 효율성

규모 효율적인 추론을 위해 수정된 MIT 라이센스와 1T 매개변수 MoE 설계(32B 활성)를 사용하여 가중치를 공개합니다.

Kimi K2 사고 API을 통합하는 방법

앱에 장기적인 추론과 도구 사용을 추가하는 3단계입니다.

1단계 - 맥락 제공

모델에 전체 작업 가시성을 제공하기 위해 최대 256,000개의 토큰까지 긴 입력 또는 RAG 보강 컨텍스트를 보냅니다.

2단계 - 도구 정의

모델이 구조화된 JSON을 사용하여 검색, 코드 또는 비즈니스 도구를 호출할 수 있도록 함수 스키마를 연결합니다.

3단계 - 실행 및 확인

출력에 대해 조치를 취하기 전에 다단계 추론을 실행하고, 결과를 스트리밍하고, 도구 호출 또는 추론 추적을 검증합니다.

API 문서 보기

Kimi K2 사고 능력

긴 맥락 길이에서 행위적 추론을 위해 설계됨

문맥

256K 토큰 컨텍스트

한 번의 요청으로 긴 문서, 채팅, 코드베이스를 처리합니다.

건축학

MoE 1T / 32B 활성

전문가 혼합 아키텍처는 규모와 효율성의 균형을 유지합니다.

도구

도구 정의 + JSON 호출

자동화를 위한 구조화된 도구 호출 및 JSON 출력을 지원합니다.

설명 가능성

추론 추적

공급자가 활성화한 경우 별도의 Reasoning_content 추적을 지원합니다.

성능

네이티브 INT4 양자화

양자화 인식 훈련을 통해 효율적인 추론을 위해 최적화되었습니다.

특허

오픈소스 라이선스

상업적 사용이 허용되도록 수정된 MIT 라이센스(조건 검토)

Kimi K2 Thinking vs. 다른 추론 모델

주요 추론 API 간 컨텍스트 창, 추론 스타일 및 도구 지원 비교

Model	Best for	Context window	Reasoning style	Tooling & streaming
Kimi K2 Thinking	장거리 에이전트, 도구 오케스트레이션	256K 토큰	도구 호출과 함께 단계별	네이티브 도구 호출, JSON 출력, 스트리밍
OpenAI o1	복잡한 추론, 수학, 코딩	200K 토큰	내부 연쇄 사고	제한된 도구 지원, 스트리밍 없음
Claude 3.5 Sonnet	일반 작업, 코딩, 분석	200K 토큰	추론이 포함된 직접 응답	전체 도구 사용, 스트리밍 지원
DeepSeek R1	수학, 코딩, 오픈 소스 배포	128K 토큰	명시적 추론 추적	기본 도구 지원, 스트리밍

Kimi K2 사고에 대해 자주 묻는 질문

Everything you need to know about the product and billing.

Kimi K2 Thinking은 Moonshot 도구 사용 에이전트로 구축된 AI의 오픈 소스 사고 모델입니다. 1T 매개변수 Mixture-of-Experts 아키텍처(32B 활성)를 사용하고, 256K 컨텍스트 창을 지원하며, 장거리 워크플로우를 위한 JSON 도구 호출을 사용하여 도구 정의를 허용합니다.

이 모델은 최대 256K 토큰 컨텍스트 창을 지원합니다. 공급자는 인프라에 따라 더 작은 요청당 제한이나 출력 한도를 적용할 수 있습니다.

예. 이 모델은 함수 호출과 함께 단계별 추론을 인터리브하고 200~300개의 순차적 호출에서 안정적인 다단계 도구 사용을 유지하도록 훈련되었습니다.

예. 모델 가중치는 수정된 MIT 라이선스에 따라 Hugging Face에 게시됩니다. 상업적 사용 조건을 확인하려면 라이선스 및 제3자 고지 사항을 검토하세요.

예. 적절한 GPU 리소스를 사용하여 vLLM, SGLang 또는 KTransformers와 같은 엔진에서 K2 Thinking을 실행하는 것이 좋습니다.

예. 이 모델은 INT4 가중치 전용 추론을 위한 양자화 인식 훈련을 사용하여 품질을 유지하면서 저지연 모드에서 약 2배의 속도 향상을 보고합니다.

Moonshot AI는 Kimi K2 Thinking을 위한 OpenAI 및 Anthropic 호환 API 엔드포인트를 제공하여 기존 SDK과의 통합을 단순화합니다.

보고된 결과에는 HLE(도구 포함) 44.9%, BrowseComp(도구 포함) 60.2%, SWE-bench Verified(도구 포함) 71.3%가 포함되며 평가는 INT4 정밀도로 보고되었습니다.