Kimi K2 Thinking API

Moonshot AI reasoning model with 128K context, Chain of Thought capabilities, and native tool calling. Available in Standard and Turbo variants for different use cases.

Tipo de modelo:

✓Kimi K2 Thinking Kimi K2 Thinking Turbo

Precio:

$0.588(~ 40 credits) per 1M input tokens; $2.353(~ 160 credits) per 1M output tokens

$0.147(~ 10 credits) per 1M cache read tokens

Web search tool charged separately per request.

Máxima estabilidad con 99.9% de disponibilidad garantizada. Recomendado para producción.

Todas las versiones usan el mismo endpoint API. Solo cambia el parámetro model.

Kimi K2 Pensamiento API para razonamiento a largo plazo

Name: EvoLink AI Model API Platform
Brand: EvoLink
Availability: InStock

Ejecute el modelo K2 Thinking a través de EvoLink para analizar documentos masivos, organizar herramientas y producir resultados estructurados. Creado para una ventana contextual de 256 000 tokens, llamadas de herramientas nativas y flujos de trabajo confiables de varios pasos.

Kimi K2 Modelo de razonamiento de contexto largo

PRICING

PLAN	CONTEXT WINDOW	MAX OUTPUT	INPUT	OUTPUT	CACHE READ
Kimi K2 Thinking	262,100	262,100	$0.588-2% (40 Credits)	$2.353-6% (160 Credits)	$0.147-2% (10 Credits)
Web Search Tool Server-side web search capability					$0.004/search (0.30 Credits)

Pricing Note: Prices show both USD and Credits. Units default to / 1M tokens unless noted separately.

Cache Hit: Price applies to cached prompt tokens.

¿Qué puedes construir con Kimi K2 Thinking?

Investigación de contexto largo

Procese informes completos, bases de código o bases de conocimiento en una sola solicitud. La ventana de contexto de 256K hace que sea práctico razonar sobre entradas grandes sin fragmentación agresiva.

Construir flujos de investigación

Agentes orquestados por herramientas

Diseñe agentes que llamen a las herramientas y mantengan el rumbo. K2 Thinking acepta definiciones de herramientas y devuelve JSON llamadas de herramientas, lo que admite planes largos de varios pasos.

Crear agentes

Base de código y flujos de trabajo de datos

Utilice el modelo para refactorizaciones, depuración y análisis de datos en grandes repositorios o conjuntos de datos con un razonamiento coherente paso a paso.

Prueba tareas de codificación

flujos de trabajo de razonamiento de base de código

Por qué los desarrolladores eligen Kimi K2 Thinking API

Obtenga flexibilidad de código abierto, contexto de 256 KB y uso de herramientas nativas para flujos de trabajo de agentes sólidos y a largo plazo.

Ventana de contexto de 256K

Razone a través de documentos extensos e historiales de varios turnos con una ventana completa de 256 000 tokens para tareas complejas.

Llamadas de herramientas nativas

Acepta definiciones de herramientas y produce llamadas de herramientas JSON, lo que permite una orquestación confiable y resultados estructurados.

Eficiencia de código abierto + MoE

Pesas abiertas con una licencia MIT modificada y un diseño MoE de parámetro 1T (32B activo) para un razonamiento con escala eficiente.

Cómo integrar Kimi K2 Pensamiento API

Tres pasos para agregar razonamiento a largo plazo y uso de herramientas a su aplicación.

Paso 1: proporcione contexto

Envíe entradas largas o contexto aumentado por RAG hasta 256 000 tokens para darle al modelo una visibilidad completa de las tareas.

Paso 2: definir herramientas

Adjunte esquemas de funciones para que el modelo pueda llamar a herramientas de búsqueda, código o negocios utilizando JSON estructurado.

Paso 3: ejecutar y verificar

Ejecute razonamientos de varios pasos, transmita resultados y valide llamadas a herramientas o seguimientos de razonamiento antes de actuar sobre los resultados.

Ver documentos API

Kimi K2 Capacidades de pensamiento

Diseñado para el razonamiento agente en contextos extensos

Contexto

Contexto del token de 256K

Maneje documentos extensos, chats y bases de código en una sola solicitud.

Arquitectura

MoE 1T/32B activo

La arquitectura de combinación de expertos equilibra la escala con la eficiencia.

Herramientas

Definiciones de herramientas + llamadas JSON

Admite llamadas estructuradas a herramientas y salidas JSON para automatización.

Explicabilidad

Rastros de razonamiento

Admite seguimientos separados de Reasoning_Content cuando lo habilita el proveedor.

Actuación

Cuantización nativa INT4

Optimizado para una inferencia eficiente con entrenamiento consciente de la cuantificación.

Licencia

Licencia de código abierto

Licencia MIT modificada con uso comercial permitido (revisar términos).

Kimi K2 Thinking vs. Otros modelos de razonamiento

Compare ventanas de contexto, estilos de razonamiento y compatibilidad con herramientas en las principales API de razonamiento

Model	Best for	Context window	Reasoning style	Tooling & streaming
Kimi K2 Thinking	Agentes de largo horizonte, orquestación de herramientas	256K tokens	Paso a paso con llamadas a herramientas	Llamadas de herramientas nativas, salidas JSON, streaming
OpenAI o1	Razonamiento complejo, matemáticas, codificación	200K tokens	Cadena de pensamiento interna	Soporte de herramientas limitado, sin streaming
Claude 3.5 Sonnet	Tareas generales, codificación, análisis	200K tokens	Respuesta directa con razonamiento	Uso completo de herramientas, streaming soportado
DeepSeek R1	Matemáticas, codificación, despliegue de código abierto	128K tokens	Trazas de razonamiento explícitas	Soporte básico de herramientas, streaming

Preguntas frecuentes sobre el pensamiento Kimi K2

Everything you need to know about the product and billing.

Kimi K2 Thinking es el modelo de pensamiento de código abierto de Moonshot AI creado como un agente que utiliza herramientas. Utiliza una arquitectura de mezcla de expertos de parámetros 1T (32B activos), admite una ventana de contexto de 256K y acepta definiciones de herramientas con llamadas de herramientas JSON para flujos de trabajo de largo horizonte.

El modelo admite una ventana de contexto de hasta 256 000 tokens. Los proveedores pueden aplicar límites por solicitud más pequeños o límites de producción según su infraestructura.

Sí. El modelo está entrenado para intercalar razonamiento paso a paso con llamadas a funciones y para mantener un uso estable de herramientas de varios pasos en 200 a 300 invocaciones secuenciales.

Sí. Los pesos de los modelos se publican en Hugging Face bajo una licencia MIT modificada. Revise la licencia y los avisos de terceros para confirmar los términos de uso comercial.

Sí. Se recomienda ejecutar K2 Thinking en motores como vLLM, SGLang o KTransformers con recursos GPU adecuados.

Sí. El modelo utiliza Quantization-Aware Training para la inferencia de solo peso INT4, lo que informa una aceleración de aproximadamente el doble en modo de baja latencia y al mismo tiempo preserva la calidad.

Moonshot AI proporciona puntos finales API compatibles con OpenAI y Anthropic para Kimi K2 Thinking, lo que simplifica la integración con los SDK existentes.

Los resultados informados incluyen HLE (con herramientas) con un 44,9 %, BrowseComp (con herramientas) con un 60,2 % y SWE-bench Verified (con herramientas) con un 71,3 %, con evaluaciones informadas con precisión INT4.

Guías relacionadas

Kimi K2 Thinking API: Construir agentes multi-paso