Seedance 2.0 API — Coming SoonGet early access

Kimi K2 Thinking API

Moonshot AI reasoning model with 128K context, Chain of Thought capabilities, and native tool calling. Available in Standard and Turbo variants for different use cases.

Kimi K2 Pensamiento API para razonamiento a largo plazo

Ejecute el modelo K2 Thinking a través de EvoLink para analizar documentos masivos, organizar herramientas y producir resultados estructurados. Creado para una ventana contextual de 256 000 tokens, llamadas de herramientas nativas y flujos de trabajo confiables de varios pasos.

Kimi K2 Modelo de razonamiento de contexto largo
$

PRICING

PLANCONTEXT WINDOWMAX OUTPUTINPUTOUTPUTCACHE READ
Kimi K2 Thinking262.1K262.1K
$0.556-7%
$0.600Official Price
$2.222-11%
$2.50Official Price
$0.139-7%
$0.150Official Price
Web Search Tool

Server-side web search capability

$0.004/search

Pricing Note: Price unit: USD / 1M tokens

Cache Hit: Price applies to cached prompt tokens.

¿Qué puedes construir con Kimi K2 Thinking?

Investigación de contexto largo

Procese informes completos, bases de código o bases de conocimiento en una sola solicitud. La ventana de contexto de 256K hace que sea práctico razonar sobre entradas grandes sin fragmentación agresiva.

investigación de contexto largo

Agentes orquestados por herramientas

Diseñe agentes que llamen a las herramientas y mantengan el rumbo. K2 Thinking acepta definiciones de herramientas y devuelve JSON llamadas de herramientas, lo que admite planes largos de varios pasos.

agentes orquestados por herramientas

Base de código y flujos de trabajo de datos

Utilice el modelo para refactorizaciones, depuración y análisis de datos en grandes repositorios o conjuntos de datos con un razonamiento coherente paso a paso.

flujos de trabajo de razonamiento de base de código

Por qué los desarrolladores eligen Kimi K2 Thinking API

Obtenga flexibilidad de código abierto, contexto de 256 KB y uso de herramientas nativas para flujos de trabajo de agentes sólidos y a largo plazo.

Ventana de contexto de 256K

Razone a través de documentos extensos e historiales de varios turnos con una ventana completa de 256 000 tokens para tareas complejas.

Llamadas de herramientas nativas

Acepta definiciones de herramientas y produce llamadas de herramientas JSON, lo que permite una orquestación confiable y resultados estructurados.

Eficiencia de código abierto + MoE

Pesas abiertas con una licencia MIT modificada y un diseño MoE de parámetro 1T (32B activo) para un razonamiento con escala eficiente.

Cómo integrar Kimi K2 Pensamiento API

Tres pasos para agregar razonamiento a largo plazo y uso de herramientas a su aplicación.

1

Paso 1: proporcione contexto

Envíe entradas largas o contexto aumentado por RAG hasta 256 000 tokens para darle al modelo una visibilidad completa de las tareas.

2

Paso 2: definir herramientas

Adjunte esquemas de funciones para que el modelo pueda llamar a herramientas de búsqueda, código o negocios utilizando JSON estructurado.

3

Paso 3: ejecutar y verificar

Ejecute razonamientos de varios pasos, transmita resultados y valide llamadas a herramientas o seguimientos de razonamiento antes de actuar sobre los resultados.

Kimi K2 Capacidades de pensamiento

Diseñado para el razonamiento agente en contextos extensos

Contexto

Contexto del token de 256K

Maneje documentos extensos, chats y bases de código en una sola solicitud.

Arquitectura

MoE 1T/32B activo

La arquitectura de combinación de expertos equilibra la escala con la eficiencia.

Herramientas

Definiciones de herramientas + llamadas JSON

Admite llamadas estructuradas a herramientas y salidas JSON para automatización.

Explicabilidad

Rastros de razonamiento

Admite seguimientos separados de Reasoning_Content cuando lo habilita el proveedor.

Actuación

Cuantización nativa INT4

Optimizado para una inferencia eficiente con entrenamiento consciente de la cuantificación.

Licencia

Licencia de código abierto

Licencia MIT modificada con uso comercial permitido (revisar términos).

Kimi K2 Thinking vs. Otros modelos de razonamiento

Compare ventanas de contexto, estilos de razonamiento y compatibilidad con herramientas en las principales API de razonamiento

ModelBest forContext windowReasoning styleTooling & streaming
Kimi K2 ThinkingAgentes de largo horizonte, orquestación de herramientas256K tokensPaso a paso con llamadas a herramientasLlamadas de herramientas nativas, salidas JSON, streaming
OpenAI o1Razonamiento complejo, matemáticas, codificación200K tokensCadena de pensamiento internaSoporte de herramientas limitado, sin streaming
Claude 3.5 SonnetTareas generales, codificación, análisis200K tokensRespuesta directa con razonamientoUso completo de herramientas, streaming soportado
DeepSeek R1Matemáticas, codificación, despliegue de código abierto128K tokensTrazas de razonamiento explícitasSoporte básico de herramientas, streaming

Preguntas frecuentes sobre el pensamiento Kimi K2

Everything you need to know about the product and billing.

Kimi K2 Thinking es el modelo de pensamiento de código abierto de Moonshot AI creado como un agente que utiliza herramientas. Utiliza una arquitectura de mezcla de expertos de parámetros 1T (32B activos), admite una ventana de contexto de 256K y acepta definiciones de herramientas con llamadas de herramientas JSON para flujos de trabajo de largo horizonte.
El modelo admite una ventana de contexto de hasta 256 000 tokens. Los proveedores pueden aplicar límites por solicitud más pequeños o límites de producción según su infraestructura.
Sí. El modelo está entrenado para intercalar razonamiento paso a paso con llamadas a funciones y para mantener un uso estable de herramientas de varios pasos en 200 a 300 invocaciones secuenciales.
Sí. Los pesos de los modelos se publican en Hugging Face bajo una licencia MIT modificada. Revise la licencia y los avisos de terceros para confirmar los términos de uso comercial.
Sí. Se recomienda ejecutar K2 Thinking en motores como vLLM, SGLang o KTransformers con recursos GPU adecuados.
Sí. El modelo utiliza Quantization-Aware Training para la inferencia de solo peso INT4, lo que informa una aceleración de aproximadamente el doble en modo de baja latencia y al mismo tiempo preserva la calidad.
Moonshot AI proporciona puntos finales API compatibles con OpenAI y Anthropic para Kimi K2 Thinking, lo que simplifica la integración con los SDK existentes.
Los resultados informados incluyen HLE (con herramientas) con un 44,9 %, BrowseComp (con herramientas) con un 60,2 % y SWE-bench Verified (con herramientas) con un 71,3 %, con evaluaciones informadas con precisión INT4.
Kimi K2 Pensando API | Moonshot Modelo de razonamiento de código abierto de IA (contexto de 256K) | EvoLink