OpenAI Prompt Cachingで繰り返し入力の費用を削減。ポイント・概要を紹介

OpenAI: Prompt Cachingとは

Prompt Cachingとは、プロンプト内で繰り返し使用されたプロンプトがキャッシュ情報としてLLMインフラ側で保存され、再度、同一の内容を含むプロンプトを送付した際に該当部分の処理が高速化・また費用が削減されるという仕組みです。

OpenAI API の Prompt Caching の概要｜npaka

利用可能モデルはminiを含むGPT-4o, およびo1モデルとのこと。金額は全モデルでインプットコストがおよそ半額となるようです。

Prompt caching - OpenAI API

また、特別な設定は不要で、自動的にキャッシュの仕組みが適用されるとのこと。

反面、手動でキャッシュ可否をON/OFFしたり、キャッシュをクリアさせたりということは現時点では不可のようです。

プロンプトの先頭に指定した静的な部分がキャッシュされる

キャッシュされる部分について、Prompt Cachingについての公式ドキュメントの掲載がわかりやすかったので転載します。

プロンプトの全箇所から類似の箇所を抽出してキャッシュされるわけではなく、「プロンプト冒頭に設置された同一のテキスト」のみがキャッシュ対象として認識されるようです。

Cache hits are only possible for exact prefix matches within a prompt.

Structure prompts with static or repeated content at the beginning and dynamic content at the end.

Prompt caching - OpenAI API

Prompt Cachingのその他ポイント

Prompt Cachingのその他ポイントとしては下記。

何も設定しなくても、自動的に適用される
テキストメッセージ(Messages)のみならず、Images, Tool usage, Structured Output（構造化データ出力）などのオプション情報をキャッシュ可能
1,024トークン以上の入力プロンプトに対してキャッシュが適用される
キャッシュさせたい静的な部分はプロンプト冒頭にまとめて記載しておく必要がある
Batch APIとの併用は不可
5～10 分間操作が行われないとクリアされ、最後に使用されてから1時間以内に削除される
ピーク時間帯にはキャッシュ削除が頻繁に行われるため、キャッシュヒット率を高めたい場合にはピーク時間帯以外での利用が推奨
キャッシュされたデータはRate Limitsとは無関係。Rate Limitsとしては通常どおりカウントされる。

5. Do cached prompts contribute to TPM rate limits? - Yes, as caching does not affect rate limits.

6. Is discounting for Prompt Caching available on Scale Tier and the Batch API? - Discounting for Prompt Caching is not available on the Batch API but is available on Scale Tier. With Scale Tier, any tokens that are spilled over to the shared API will also be eligible for caching.

Prompt caching - OpenAI API

OpenAIのプロンプトキャッシュは、特別な設定をしなくても自動的に適用されます。
APIレスポンスのusageフィールドを確認することで、キャッシュの使用状況を把握できます。

Scale Tierでは利用可能ですが、Batch APIでは利用できません。

GPTモデル、プロンプトキャッシュ機能がついに登場！【OpenAI DevDay速報】｜そら ☁️ AI × Dify 自動化オタク📱

実際にコードから確認してみる

具体的には、下記のようなコードからキャッシュ量が確認できます。

下記コードではcontentに入力したプロンプトのトークン数が1,024に達しないため適用はされませんが、長いテキストで静的な部分として入力したテキストはキャッシュされ、2回目以降にプロンプトキャッシュとして利用されます。


from openai import OpenAI

client = OpenAI()

# GPTへ生成指示テキストを送信、レスポンスを取得
result = client.beta.chat.completions.parse(
    model="gpt-4o-mini", 
    messages=[{
        "role": "user", 
        "content": """前半にキャッシュさせたい静的なテキストをまとめて入力。
        以降は動的なテキストとして入力。"""
        }])

# キャッシュされたプロンプトトークン数を確認
print(result.usage.prompt_tokens_details['cached_tokens'])