コントロールを取り戻す: パブリッシャーが望まぬ AI スクレイピングを阻止する方法

Media & Entertainment、Principal Industry Marketing Manager, Fastly

生成 AI モデルは、人々が情報にアクセスし、それを利用する方法を変えています。大規模言語モデル (LLM) は膨大なデータによって駆動されており、その多くはインターネット上で公開されているコンテンツを自動的に抽出する Web スクレーパーによって収集されています。
スクレイピング自体は新しいものではありませんが、その規模と目的は劇的に変化し、検索エンジンのインデックス作成から堅牢な生成 AI システムの強化へと移行しました。ボットトラフィックの増加は顕著です。Tollbit は、Web サイトがコンテンツやデータに対して公正な報酬を確保できるように支援するプラットフォームであり、今年第1四半期に AI ボットのトラフィックが87%増加しました。この進化により、コンテンツの所有権をめぐる長年の法的および倫理的議論が再燃しました。パブリッシャー、クリエイター、プラットフォームは、自分たちのコンテンツが許可やクレジット、報酬なしに AI モデルに取り込まれることが公平なのか、あるいは合法なのか疑問視しています。よく知られている事例としては、Reddit が Anthropic を提訴し、Anthropic のボットが同社のサイトに10万回以上アクセスしたと主張したケースがあります。
AI ボットによるオンラインコンテンツの不正なスクレイピングは、コンテンツ制作者や出版社にとって大きな課題です。Gannett Media の最高消費者兼プロダクト責任者であるRenn Turiano 氏は次のように述べています。
「USA TODAY および200を超える地域紙におけるジャーナリズムの信頼性を維持することは極めて重要です。許可や補償なしに我々のコンテンツを無断で収集する AI ボットは、その信頼性を損なうだけでなく、公平性、合法性、持続可能性、そして独立系メディアの未来に関する緊急の課題を提起しています。Fastly と Tollbit が当社の知的財産を保護し、オリジナル報道の価値を守るための取り組みを進めていることを心強く思っています。」
スクレイピングしたコンテンツによる AI モデルのトレーニングは、この問題に新たな難しさを加えています。LLM は、自らを向上させるために膨大な量のオンライン情報を消費する必要があります。これには、ブログコンテンツ、チュートリアル、研究論文、ユーザー生成コンテンツなどが含まれ、これらは言語能力と専門知識の向上に活用されています。このコンテンツの一部は、オープンライセンスに基づいて提供されていますが、多くはそうではありません。
遅すぎる対応: スクレイピングが検出知されない場合
コンテンツ制作者は、自分の作品がスクレイピングされた場合、盗用という問題だけでなく、さらに別の問題にも直面します。問題はスクレイピングが起こること自体ではなく、多くのコンテンツ制作者がスクレイピングを検出・ブロックする技術を持っておらず、事態が発生した後になって初めてその事実に気づくことです。
コンテンツ所有者は、自分たちのサイトのトラフィックが突然減少したり、競合他社のWebサイトに自分たちのコンテンツのフレーズが重複して掲載されていることに気づくことで、スクレイピングの活動を検出することがあります。また、コンテンツが無断で他のサイトに転載されることで検索エンジンのランキングが低下するケースもあります。
彼らは、コンテンツがいつ、どのようにアクセスされているかを明確に可視化できるソリューションを探しています。しかし、検出を超えて、ボットポリシーの設定、プレミアムコンテンツの制限、ライセンスのフレームワークの交渉など、戦略的な対応策を検討している企業も数多くあります。
法的グレーゾーンの回避
公開コンテンツをスクレイピングすることは、必ずしも盗用にはなりません。スクレイピング活動は、スクレイパーがサービス利用規約に違反せず、かつ取得したコンテンツを変形して独自の性質を持たせている場合に限り、法的に保護されることがあります。この状況は搾取的であると感じられることが多いものの、必ずしも法的な違反に当たるとは限りません。ログインや課金の障壁が設けられていない場合には、コンテンツスクレイピングを阻止する法的手段は限定されます。
教育テクノロジー企業の Chegg などのように、反撃する企業もあります。Chegg と Google 間の法廷闘争は、この2つの組織間の対立が激化していることを示しています。Chegg は、Google が AI Overviews を使用して同社の教育コンテンツを抽出してその内容をもとに回答を生成し、それが検索結果に表示されるため、学生が元のサイトにアクセスする必要性がなくなっていると主張しています。この仕組みにより、学生は元のコンテンツ提供サイトにアクセスせずとも、Google の検索結果上で要約された情報を得られるため、オリジナルの Webサイトへの訪問が減少してしまいます。
Fastly AI Bot Management を使用してスクレイピングに対抗する
コンテンツの所有権、不正なデータ収集、インフラストラクチャの負荷を懸念する組織にとって、この新しい種類のトラフィックの管理はすでに差し迫った課題となっています。Fastly AI Bot Management は、顧客が Webサイトからコンテンツをスクレイピングする AI 駆動型ボットの行動を検出してコントロールすることで、この課題に対処します。
Fastly の既存のボット管理機能の基盤上に構築されたこの機能は、組織がコンテンツにアクセスする AI ボットを識別し、トラフィックのブロック、特定のボットの許可、レビュー要求の傍受など、独自のポリシーに従って対応するのを支援します。これは、パブリッシャー、開発者、プラットフォーム運営者がオープン性とコントロールのバランスをとることを可能にする柔軟なアプローチです。
この機能は、現在サービス対象のプロジェクト全体で毎秒100万件を超えるリクエストをサポートしている Fastly の Fast Forward プログラムを通じて、条件を満たすオープンソースプロジェクトおよび非営利団体に無料で提供されます。
速さは保ちつつ、露出は防ぐ: スクレーパーからキャッシュコンテンツを守る
キャッシュは、迅速で応答性の高いデジタル体験を提供するために欠かせない技術です。これにより、読み込み時間が短縮され、オリジンサーバーへの負荷が軽減され、トラフィックスパイク時にもコンテンツをスムーズに拡張できるようになります。しかし、その高いアクセス性がキャッシュの効果を生み出す一方で、攻撃者に狙われやすいリスクも伴います。適切な対策を講じなければ、キャッシュコンテンツはスクレイパーや大量のデータを無断取得するボットの格好の標的となりやすく、しばしば検出されずに無許可で利用されてしまいます。
キャッシュされたコンテンツを守ることは、オリジンインフラストラクチャを保護することと同じくらい重要です。Fastly Bot Management とシンプルな VCL アップデートを使用すると、速度やユーザーエクスペリエンスを損なうことなく、キャッシュヒットの検査、インテリジェントなチャレンジの適用、ボットトラフィックの検証をリアルタイムで実行できます。このプロアクティブなアプローチにより、SEO を保護し、収益を維持し、デジタルコンテンツを正当なユーザーの手に届けることができます。
ブロックを超えて: 収益化の機会
アクセスのコントロールと AI ボット管理が強化されたことで、この増加するトラフィックを新たな収益化の機会に変えることができます。
Fastly は TollBit と提携し、Advanced Bot Management を TollBit の Bot ペイウォールおよびアクセス課金型収益化ソリューションと統合しました。この統合により、AI ボットを単にブロックするのではなく、正当なコンテンツへのアクセスに対する支払いを、スケーラブルかつ持続可能な方法で実現できます。これにより、従来は純粋なコストだったものを収益源に変える機会が生まれます。