guide

AI-API-Timeout: Ursachen, Retry-Muster und Fallback-Architektur

EvoLink Team

Product Team

13. Mai 2026

9 Min. Lesezeit

Deine AI-API-Anfrage ist in ein Timeout gelaufen. Aber „Timeout" ist nicht ein Problem — es sind mindestens vier verschiedene Probleme, die sich hinter derselben Fehlermeldung verbergen.

Ein Timeout eines Textmodells nach 30 Sekunden ist ein anderes Problem als ein Timeout eines Videogenerierungsjobs nach 5 Minuten. Die falsche Art zu beheben verschwendet Entwicklungszeit und kann das Problem sogar verschlimmern.

Dieser Leitfaden hilft dir, die Art des Timeouts zu diagnostizieren und das richtige Reaktionsmuster zu wählen.

Zusammenfassung

AI-API-Timeouts haben unterschiedliche Ursachen: Modell-Latenz, Provider-Warteschlange, große Eingabedaten oder Netzwerkprobleme.
Timeouts bei Textmodellen und bei Video-/Bildgenerierung erfordern unterschiedliche Strategien.
Nicht blind wiederholen — manche Timeouts bedeuten, dass die Anfrage noch verarbeitet wird.
Für lang laufende Aufgaben (Video, Bild) asynchrone Muster verwenden statt auf synchrone Antworten zu warten.
Fallback vorher einplanen: Ein kürzeres Timeout mit Fallback-Modell ist oft besser als ein langes Timeout ohne Fallback.

Timeout-Diagnosetabelle

Verwende diese Tabelle, um deinen Timeout-Typ zu identifizieren, bevor du eine Lösung wählst:

Timeout-Typ	Typische Dauer	Ursache	Überprüfung	Richtige Reaktion
Textmodell — langsame Antwort	15–60 s	Große Eingabe, komplexes Reasoning oder hohe Ausgabe-Token	Eingabegröße und `max_tokens` prüfen	Eingabe reduzieren, `max_tokens` senken oder schnelleres Modell verwenden
Textmodell — Provider überlastet	30–120 s	Provider unter hoher Last; Anfragen in Warteschlange	Dieselbe Anfrage außerhalb der Spitzenzeiten testen	Retry mit Backoff oder zu einem anderen Provider routen
Video-/Bildgenerierung — normale Verarbeitung	60–300 s+	Generierung braucht naturgemäß Zeit (besonders Video)	Provider-Dokumentation auf erwartete Generierungszeit prüfen	Asynchrones Polling nutzen, nicht synchron warten
Video-/Bildgenerierung — Warteschlangen-Rückstau	300 s+	Zu viele Jobs in der Provider-Warteschlange	Provider-Queue-Status oder Position prüfen	Queue-Management einführen, Nutzererwartungen setzen oder anderen Provider nutzen
Netzwerk-Timeout	Variabel	DNS, Firewall, Proxy oder Verbindungsprobleme	Mit einem einfachen Health-Check-Request testen	Netzwerkkonfiguration beheben, nicht den API-Aufruf
Client-seitiges Timeout zu kurz	Konfigurationsabhängig	Das HTTP-Client-Timeout ist kürzer als das Modell benötigt	Timeout-Einstellung erhöhen und erneut testen	Client-Timeout an die erwartete Antwortzeit anpassen

Muster 1: Umgang mit Textmodell-Timeouts

Textmodell-Timeouts werden üblicherweise durch eines von drei Dingen verursacht:

1.1 Große Eingabe oder hoher max_tokens-Wert

Lange Eingaben brauchen mehr Verarbeitungszeit. Hohe max_tokens-Werte erlauben längere Generierung, die mehr Zeit beansprucht.

# Problem: große Eingabe + hoher max_tokens = langsame Antwort
response = client.chat.completions.create(
    model="gpt-4o",
    messages=very_long_messages,  # 100K+ tokens
    max_tokens=4096  # Lange Ausgabe angefordert
)

# Lösung: Eingabe reduzieren oder Ausgabe begrenzen
response = client.chat.completions.create(
    model="gpt-4o",
    messages=trimmed_messages,  # Auf 50K Tokens reduziert
    max_tokens=1024  # Kürzere Ausgabe
)

1.2 Provider unter Last

Während Spitzenzeiten kann der Provider deine Anfrage in eine Warteschlange stellen. Das zeigt sich als Timeout statt als explizite Warteschlangen-Meldung.

Anzeichen:

Dieselbe Anfrage funktioniert außerhalb der Spitzenzeiten einwandfrei
Der Fehler tritt sporadisch auf, nicht konsistent
Andere Nutzer berichten gleichzeitig ähnliche Probleme

Reaktion:

Retry mit zufälligem Backoff (Jitter)
Zu einem alternativen Provider oder Modell routen
Streaming nutzen, um Teilergebnisse schneller zu erhalten

1.3 Streaming als Timeout-Mitigation

Streaming macht die Generierung nicht schneller, aber es liefert die ersten Tokens früher zurück. Das kann verhindern, dass Client-seitige Timeouts ausgelöst werden:

# Synchron — Client kann beim Warten auf die vollständige Antwort in ein Timeout laufen
response = client.chat.completions.create(
    model="gpt-4o",
    messages=messages,
    max_tokens=2048
)

# Streaming — erstes Token kommt schneller, hält die Verbindung aufrecht
stream = client.chat.completions.create(
    model="gpt-4o",
    messages=messages,
    max_tokens=2048,
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="")

Muster 2: Umgang mit Video-/Bildgenerierungs-Timeouts

Video- und Bildgenerierung unterscheiden sich grundlegend von Text. Generierungszeiten von 30 Sekunden bis mehrere Minuten sind normal, keine Fehler.

2.1 Synchrone vs. asynchrone Generierung

Ansatz	Funktionsweise	Einsatzzweck
Synchron	Auf vollständige Antwort in einem HTTP-Aufruf warten	Schnelle Generierungen (< 30 s), einfache Integrationen
Asynchrones Polling	Job einreichen → Job-ID erhalten → Status abfragen → Ergebnis abrufen	Videogenerierung, Batch-Verarbeitung, jede Aufgabe > 30 s
Webhooks	Job einreichen → Provider ruft deinen Endpoint auf, wenn fertig	Hochvolumige Pipelines, Event-getriebene Architekturen

Bei Videogenerierung niemals synchron warten. Die meisten Videomodelle brauchen 60–300+ Sekunden. Dein HTTP-Client wird fast sicher in ein Timeout laufen.

2.2 Asynchrones Polling-Muster

import asyncio
import httpx

async def generate_video_async(client, prompt: str, timeout: int = 600):
    """Videogenerierungsjob einreichen und auf Abschluss prüfen."""

    # Schritt 1: Job einreichen
    submit_response = await client.post(
        "/v1/video/generations",
        json={"model": "veo-3-fast", "prompt": prompt}
    )
    job_id = submit_response.json()["id"]

    # Schritt 2: Auf Abschluss prüfen
    for _ in range(timeout // 5):  # Alle 5 Sekunden prüfen
        status_response = await client.get(f"/v1/video/generations/{job_id}")
        status = status_response.json()

        if status["status"] == "completed":
            return status["result"]
        elif status["status"] == "failed":
            raise RuntimeError(f"Generation failed: {status.get('error')}")

        await asyncio.sleep(5)

    raise TimeoutError(f"Video generation did not complete within {timeout}s")

2.3 Warteschlangen-Positionserkennung

Wenn ein Videogenerierungs-Provider einen Rückstau hat, wartet dein Job in der Warteschlange, bevor die Verarbeitung beginnt. Manche Provider zeigen die Warteschlangenposition an:

Status: queued → position 42
Status: queued → position 15
Status: processing → estimated 90s remaining
Status: completed → download URL available

Wenn der Provider die Warteschlangenposition nicht anzeigt, schätze auf Basis historischer Wartezeiten und setze die Nutzererwartungen entsprechend.

Muster 3: Intelligente Retry-Logik für Timeouts

Nicht alle Timeouts sollten gleich wiederholt werden:

import asyncio
import random

async def retry_with_timeout_awareness(
    make_request,
    max_retries: int = 3,
    base_timeout: float = 30.0
):
    """Retry mit Bewusstsein für den Timeout-Typ."""
    for attempt in range(max_retries):
        try:
            return await asyncio.wait_for(
                make_request(),
                timeout=base_timeout * (1.5 ** attempt)  # Timeout bei jedem Retry erhöhen
            )
        except asyncio.TimeoutError:
            if attempt == max_retries - 1:
                raise

            # Jitter hinzufügen, um Thundering-Herd-Effekt zu vermeiden
            delay = min(30, (2 ** attempt) + random.uniform(0, 1))
            await asyncio.sleep(delay)

        except Exception as e:
            # Nicht-Timeout-Fehler: nicht automatisch wiederholen
            if "429" in str(e):
                delay = min(60, (2 ** attempt) + random.uniform(0, 2))
                await asyncio.sleep(delay)
            else:
                raise

Retry-Regeln für verschiedene Timeout-Typen

Timeout-Typ	Wiederholen?	Wie
Textmodell langsam	Ja	Retry mit Backoff; bei Retry ein schnelleres Modell in Betracht ziehen
Provider überlastet	Ja, mit Vorsicht	Retry mit längerem Backoff; anderen Provider in Betracht ziehen
Videogenerierung läuft noch	Nein — der Job könnte noch laufen	Status abfragen statt erneut einreichen
Netzwerk-Timeout	Ja	Zuerst Netzwerk beheben; nach bestätigter Konnektivität wiederholen
Client-Timeout zu kurz	Nein — Timeout stattdessen erhöhen	Konfiguration anpassen, nicht wiederholen

Der gefährlichste Fehler ist es, einen Videogenerierungsjob zu wiederholen, der noch verarbeitet wird. Das erzeugt Duplikate, kostet Geld und kann die Provider-Warteschlange überlasten.

Muster 4: Fallback-Design für die Produktion

Timeout-gesteuerter Modell-Fallback

async def call_with_fallback(messages, client, primary_model, fallback_model):
    """Primäres Modell versuchen; bei Timeout auf ein schnelleres Modell zurückfallen."""
    try:
        return await asyncio.wait_for(
            client.chat.completions.create(
                model=primary_model,
                messages=messages
            ),
            timeout=30.0
        )
    except asyncio.TimeoutError:
        # Auf ein schnelleres, möglicherweise kleineres Modell zurückfallen
        return await client.chat.completions.create(
            model=fallback_model,
            messages=messages
        )

Routing-Gateway für Timeout-Resilienz

Anstatt Fallback-Logik in jedem Service zu implementieren, kann ein Routing-Gateway Timeouts auf Infrastrukturebene behandeln:

Zu schnelleren Providern routen, wenn primäre Routen langsam sind
Automatisch über einen anderen Upstream-Pfad wiederholen
Das tatsächlich verwendete Modell zurückgeben, damit deine App weiß, was passiert ist

EvoLink's Smart Router bietet dies auf Gateway-Ebene mit einer OpenAI-kompatiblen Schnittstelle:

from openai import OpenAI

client = OpenAI(
    api_key="your-evolink-key",
    base_url="https://api.evolink.ai/v1"
)

# Smart Router übernimmt Provider-Auswahl und Fallback
response = client.chat.completions.create(
    model="evolink/auto",
    messages=messages
)

Timeout-Konfigurationsreferenz

Einstellung	Empfohlener Wert	Begründung
HTTP-Client-Timeout (Text)	60–120 s	Spielraum für große Eingaben und komplexes Reasoning
HTTP-Client-Timeout (Bild)	120–300 s	Bildgenerierung variiert je nach Modell und Auflösung
HTTP-Client-Timeout (Video)	Asynchrones Polling nutzen	Synchrones Timeout ist für Video nicht geeignet
Retry-Versuche	2–3 für Text, 0 für laufende Video-Jobs	Doppelte Video-/Bild-Jobs vermeiden
Backoff-Basisverzögerung	2 s mit Jitter	Thundering-Herd-Effekt bei Provider-Erholung verhindern
Fallback-Modellwechsel-Timeout	15–30 s	Auf schnelleres Modell wechseln, bevor Nutzer frustriert werden

FAQ

Warum läuft meine AI-API-Anfrage in ein Timeout, obwohl das Modell funktioniert?

Timeouts werden üblicherweise durch eines der folgenden Dinge verursacht: (1) große Eingabedaten, die länger zur Verarbeitung brauchen, (2) Provider unter hoher Last, (3) zu kurz konfiguriertes Client-Timeout oder (4) Netzwerkprobleme. Das Modell selbst kann dabei einwandfrei funktionieren.

Sollte ich mein Timeout erhöhen oder einen anderen Ansatz wählen?

Das kommt darauf an. Bei Textmodellen hilft ein höheres Timeout bei gelegentlich langsamen Antworten. Bei Video-/Bildgenerierung solltest du auf asynchrones Polling umsteigen statt das synchrone Timeout zu erhöhen. Bei dauerhaften Timeouts untersuche die Grundursache, bevor du Limits erhöhst.

Ist ein Timeout dasselbe wie ein Rate-Limit-Fehler?

Nein. Ein Timeout bedeutet, dass der Server nicht innerhalb deines Zeitlimits geantwortet hat. Ein Rate-Limit (429) bedeutet, dass der Server deine Anfrage aktiv abgelehnt hat. Timeouts deuten oft auf langsame Verarbeitung hin; 429er bedeuten zu viele Anfragen.

Wie gehe ich mit Timeouts bei der Videogenerierung um?

Warte niemals synchron auf Videogenerierung. Verwende asynchrone Job-Einreichung mit Polling oder Webhooks. Wenn ein Video-Job beim Polling in ein Timeout läuft, prüfe den Status vor dem erneuten Einreichen — der Job könnte noch verarbeitet werden.

Kann Streaming Timeouts verhindern?

Streaming verhindert Client-seitige Timeouts, weil das erste Token schnell ankommt und die Verbindung aufrechterhalten wird. Streaming macht die gesamte Generierung jedoch nicht schneller — es ändert nur das Auslieferungsmuster.

Wann sollte ich bei einem Timeout auf ein Fallback-Modell wechseln?

Setze einen Schwellenwert (z. B. 15–30 Sekunden für Text) und wechsle auf ein schnelleres Modell, wenn das primäre in ein Timeout läuft. So erhalten Nutzer eine Antwort statt eines Fehlers. Das Fallback-Modell mag weniger leistungsfähig sein, aber eine etwas schlechtere Antwort ist besser als gar keine.

Alle Beiträge

#API-Timeout #AI API #Retry-Muster #Fallback #Produktionszuverlässigkeit