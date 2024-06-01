AI Accelerator ページについて
AI Accelerator は、OpenAI などのプロバイダーが提供する人工知能サービス向けのキャッシュソリューションです。AI Accelerator は、大規模言語モデル (LLM) API のレスポンスをキャッシュし、意味的に似たクエリのキャッシュを活用することでレイテンシを減らし、LLM API の使用コストを削減することができます。
設定前の注意点
コントロールパネルの設定機能にアクセスする方法を確認してください。
AI Accelerator は、スーパーユーザーのロールが割り当てられているユーザーが Fastly コントロールパネルで有効にすることができます。有効にすると、すべてのアカウントユーザーがメトリクスを表示できます。
サポートされている LLM
AI Accelerator は、OpenAI や Azure OpenAI、Gemini、および OpenAI 互換の API を使用する LLM をサポートしています。
AI Accelerator を有効にする
AI Accelerator を有効にするには、以下の手順に従ってください。
Fastly コントロールパネルにログインします。
- Tools > AI Accelerator に移動します。
- Enable AI Accelerator をクリックします。
- Enable AI Accelerator ページで、Enable Now をクリックします。
AI Accelerator を使用できるようにアプリケーションを設定する
AI Accelerator を有効にした後、読み取り専用の API トークンを作成し、AI Accelerator エンドポイントを使用するようにアプリケーションを更新する必要があります。アプリケーションのコードを更新する際、以下のコード例を参考にしてください。
OpenAI および OpenAI 互換のコード例
- Python
- JavaScript
from openai import OpenAIclient = OpenAI(# Set the API endpointbase_url="https://ai.fastly.app/api.openai.com/v1", # Set default headers default_headers = { "Fastly-Key": f"<FASTLY-KEY>", })
OpenAI 互換 API を使用する LLM の場合は、
https://ai.fastly.app/compat/openai/<llm-endpoint> をベース URL として使用してください。
Azure OpenAI のコード例
- Python
from openai.lib.azure import AzureOpenAIclient = AzureOpenAI( api_key=azure_key, api_version="2024-06-01", azure_deployment="ai-member-4o-chat",azure_en dpoint=f"https://ai.fastly.app/<AZURE RESOURCE>.openai.azure.com",default_headers = { "Fastly-Key": f"<FASTLY-KEY>", })
Gemini のコード例
- Python
- JavaScript
project_region = "<GCP-REGION>"project_id = "<GCP-PROJECT-ID>"vertexai.init(location=project_region, project=project_id, api_endpoint=f"ai.fastly.app/{project_region}-aiplatform.googleapis.com", api_transport='rest', request_metadata=[("fastly-key", f"<FASTLY-KEY>")])model = GenerativeModel("gemini-pro")print(model.generate_content("Why is the sky blue?"))
ヘッダーの設定と機能
以下のリクエストとレスポンスヘッダーを使用して、AI Accelerator が LLM レスポンスをキャッシュするプロセスをコントロールおよびモニタリングすることができます。
|ヘッダー名
|種類
|説明
x-semantic-threshold
|リクエストヘッダー
|セマンティックキャッシュからのレスポンスの類似性に対するしきい値をコントロールします。デフォルトは
0.75 です。しきい値を低くするとキャッシュされたレスポンスを返す確率が高まる可能性がありますが、レスポンスの質が低下するリスクがあります。
x-semantic-cache-key
|リクエストヘッダー
|ユーザーが提供する値であり、キャッシュ内のレスポンスをセグメント化するために使われます。類似性のしきい値を超え、
x-semantic-cache-key が一致するリクエストのみが、レスポンスとして返されます。設定する必要はありません。設定されていない場合、デフォルトである
_default_ の値が使用されます。
x-settings-overrides
|リクエストヘッダー
|セマンティックキャッシュの有効化または無効化を設定します。デフォルトは
{"semantic_cache_enabled": true} です。
Cache-Control
|リクエストヘッダー
|現時点では、
max-age のキャッシュ・コントロール・ディレクティブのみがサポートされています。
max-age を持つリクエストに
Cache-Control ヘッダーが設定されている場合、それをキャッシュエントリーの TTL (最大30日間) として設定します (秒単位)。
x-semantic-cache
|レスポンスヘッダー
|以前は
x-cache が使用されていました。使用可能な値は
HIT または
MISS です。
AI Accelerator ページには、リクエスト、トークン、オリジンのレイテンシに関連するメトリクスが表示されます。ページには以下のグラフが表示されます。
- Total requests: AI Accelerator に送信されたリクエストの合計数。
- Tokens served from cache: キャッシュから配信されたレスポンスに基づく、キャッシュから配信されたトークンの推定数。トークンは LLM の課金単位であり、その実際の測定値はベンダーと LLM のバージョンによって異なります。
- Estimated time saved: キャッシュからのレスポンスに基づく、節約された時間の推定値 (分単位)。
- Requests: アカウント全体で集計された AI Accelerator のリクエストの合計数。
- Tokens: キャッシュまたはオリジンから提供されるトークンの推定数。
- Origin Latency Percentiles: オリジンのレイテンシのパーセンタイル概算値。
キャッシュのパージ
この情報はベータ版リリースの一部です。詳細については、製品と機能のライフサイクルの説明をご覧ください。
AI Accelerator API エンドポイントを使用して、すべてのキャッシュをパージすることができます。 例えば、ターミナルアプリケーションで curl を使用して、キャッシュをすべてパージできます。
$ curl -X POST -H "Fastly-Key: YOUR_FASTLY_TOKEN" https://api.fastly.com/ai_accelerator/expire
purge_all スコープが必要です。
AI Accelerator を無効にする
AI Accelerator を無効にするには、以下の手順に従ってください。
- アプリケーションコードを更新し、AI Accelerator の統合を削除します。
Fastly コントロールパネルにログインします。
- Account > Billing > Overview に移動します。
- AI Accelerator の横にある Options をクリックし、Cancel をクリックします。
- Cancel AI Accelerator をクリックします。