WP Webスクレイピングは違法ですか?人によって異なる解釈 - JA

Webスクレイピングは違法ですか?人によって異なる解釈

Webスクレイピングは違法ですか?人によって異なる解釈

Webスクレイピングは長い間利用されてきましたが、置かれている状況によって良い点と悪い点があります。ビジネスにとって有益なデータ抽出と、そうでないケースの線引きはどこにあるのでしょうか。生成AIや大規模言語モデル(LLM)が使われるようになり、線引きは日に日に曖昧かつ複雑になっています。Webスクレイピングに対する法的措置は国によって異なるため、今の時点では組織はそれぞれで対処する必要があります。

Webスクレイピングとは

Webスクレイピングとは、自動化されたソフトウェア(ボットなど)を使って、Webサイトからデータを抜き取る手法です。OWASPではこの手法を自動化された脅威(OAT-011)として分類しています。従来のスクリーン・スクレイピングは画面上に表示されたデータをコピーして利用するだけですが、WebスクレイピングはHTMLコードやデータベースに保存されたデータを抽出します。

Webスクレイピング自体は古くから行われてきたものです。初期の段階では、手作業でコピー&ペーストしていましたが、それから開発者はプロセスを自動化するコードを書き始め、機械学習とAIの出現によってさらに高度になりつつあります。機械学習モデル、市場調査、競合分析など利用するために、今では多くの企業にとって重要なツールとなっています。

Webスクレイピングの活用方法: メリット、デメリット、注意点

すべてのWebスクレイピングが悪いわけではありません。その良し悪しは、Webスクレイピングがどのように行われ、そのデータがどのように使用されているかによって決まります。好ましい使い方の場合、消費者にとってもメリットがあり、現在のインターネットの重要な土台でもあります。例えば、自動化されたボットによって、膨大なWebページがインデックス化されることで検索可能になり、価格比較サイトで商品を安く購入でき、企業はソーシャルメディアで消費者のレビューを把握できます。

これに対して、悪質なボットの利用では、サイトの利用規約に違反してWebサイトからコンテンツを取得します。例えば、競合他社が価格情報をスクレイピングして有利に価格を設定し、他社のオリジナルコンテンツを盗むこともあります。このようなスクレイピングは、大規模な盗用であり、他社のSEOランキングを低下させることも可能です。さらに、悪徳な業者は、同意なしに個人情報や機密情報をスクレイピングし、プライバシーの侵害や個人情報の盗難の可能性があります。

さらに驚くべきことに、今では悪質なボットが全トラフィックの30%を占めており、その中でもWebスクレイピングはよく見られる使用例です。

Webスクレイピングの利用は正当なビジネスか?

近年、Webスクレイピングを合法的なビジネスに変えようとするケースもあり、悪質なボットでもサービスだと主張しています。最初のケースとしては、プロフェッショナルな外観のWebサイトを作成し、ビジネスインテリジェンスとして、商品の価格変動情報や、投資家向けのオルタナティブデータ、競合企業の情報を提供することです。特定の業界に特化してデータを販売しています。次に、スクレイピングされたデータを購入する市場が拡大してきています。競合他社に負けないようにデータを購入する企業が増えてきています。また、Webデータ抽出スペシャリストやデータスクレイピングスペシャリストのような肩書を持つ人材を求める求人広告が増えていることも挙げられます。

Webスクレイピングに関するブログや紹介サイトを見てみると、ボットの利用を正当化する記事が多くあります。市場競争力を維持するために、Webスクレイピングのボットの利用を促すブログ記事も多くあります。その中には、一般家庭のISPをプロキシとして利用するなどして、検知しにくいボットを自慢するブログ記事さえあります。このようなビジネスが合法的であるなら、なぜボットはセキュリティ対策を回避しようとするのでしょうか?

Webスクレイピングは合法か?

Webスクレイピング自体は違法ではありませんが、データ取得方法やデータの使用方法によって、法的、倫理的な問題を引き起こす可能性があります。例えば、著作権で保護されたコンテンツや個人情報を同意なしに取得し、Webサイトの機能を妨害するような場合は、違法とみなされる可能性があります。

Webスクレイピングの違法性は、国の法律や状況によって異なります。例えば米国では、コンピューター詐欺・不正利用防止法(CFAA)やデジタルミレニアム著作権法(DMCA)に違反し、サービス利用規約に触れない限りは合法と見なされます。

Webスクレイピングを防ぐための法的措置は可能か?

Webスクレイピングの行為を行った場合、その状況に応じて法的措置が取られる可能性があります。例えば、スクレイピングがWebサイトの運営に悪影響を及ぼし、利用規約や知的財産権、プライバシー権を侵害したことを証明できれば、スクレイピングを認めない判決が下される場合があります。しかし、法律が十分に整備されておらず、状況によって個別に評価され、さまざまな判決が出されるため、注意が必要です。

2000年のeBayのケースでは、Bidder’s Edgeをオークションデータのスクレイピングで訴訟し、スクレイピングがeBayのシステムを枯渇させる可能性があり、ビジネスに悪影響を与えると主張することで、勝訴しました。

2009年のFacebookのケースでは、裁判所はPower Venturesがユーザーデータをスクレイピングしたことで知的財産権を侵害したと判断し、Facebookが勝訴しました。

近年の重要なケースとして、2019年のLinkedIn事件が挙げられます。最高裁は、インターネット上で一般公開されているデータのスクレイピングは、合法であるとの判決を下し、Webスクレイピングのその後の判例に大きな影響を与えています。

インターネットではグローバルな利用があることや、様々な規制などのため、Webスクレイピングに関する法の施行は困難な面もあります。一部の企業は、データ漏洩、プライバシー侵害、金銭的損失などの具体的な損害につながる可能性がある場合、技術的手段や法的措置などを用いて自ら利用規約の違反を取り締まっています。しかし、違反の重大性や、影響を受ける当事者が利用できるリソースによって、その程度は左右されています。

今の状況は、企業にジレンマをもたらしています。競合他社に劣後しないためにWebスクレイピングを行うことが求められ、Webスクレイピングを合法化しようとしている動きもあるため、他社がボットを用いたスクレイピングを止めることも期待できません。

AIの登場によるWebスクレイピングの合法性の変化

人工知能(AI)や大規模言語モデル(LLM)の登場により、Webスクレイピングの合法性と倫理に関する議論が再燃しています。OpenAIのGPT-4のようなモデルは、正確な回答を生成するために膨大なデータに頼っており、データを用いて学習する上でWebスクレイピングは重要な要素になっています。

インターネットからデータをスクレイピングすることで、これらのモデルを大量で多様なデータから学習させることができるため、さまざまな分野の質問を理解し対応する能力が向上しています。しかし、企業が対処しなければならない複雑な法的・倫理的問題をも同時に引き起こしています。

最近では、OpenAIが著作権者の同意を得ずに書籍からデータをコピーしたとして訴訟に直面しており、学習データの収集方法に関する議論を巻き起こしています。一方では、テクノロジーの進歩のために必要だと主張する人もいる一方で、著作権法やプライバシー権を侵害すると主張する人もいます。

この倫理的な影響は、法的な問題に留まりません。多くのAIがスクレイピングされたデータで訓練されるにつれ、個人情報を意図せずに拡散させてしまい、個人や社会にリスクをもたらす可能性もあります。さらに、学習データがどのように使用されるのか透明性にも欠けており、一度モデルに取り込まれたデータを削除することが困難であるため、倫理的な影響が指摘されています。

最後に

一般公開されているWebサイトから情報を取得する行為の合法性は現時点では不明確です。関連する法律の多くは、インターネットが普及し、生成AIが開発される以前に制定されていたため、どの法律が適用されるのかも決まっていません。

Webスクレイピングが合法かどうかを議論されている状況では、この問題の解決はすぐには難しいと思われます。既存の法律を更新する必要性や、より明確な法律を導入することも議論されるべきでしょう。しかし、企業は依然としてデータを盗まれ、Webサイトのビジネスロジックが悪用される現状です。

Webスクレイピングを防ぐ方法とは?

この問題を解決するために法律に期待するのではなく、Webスクレイピングを阻止可能なボット用のマネジメントソリューションを導入しましょう。このようなソリューションを導入することで、競合他社やその他の好ましくないボットからのシステムへの攻撃や悪用を防止することができます。

Imperva Advanced Bot Protectionは、高度なボット攻撃を防御することができる、この市場で評価の高いボット用のマネジメントソリューションです。Webスクレイピングを含むOWASPが定義している脅威から、Webサイト、モバイルアプリ、APIなどのすべてのエントリーポイントを保護します。ボットの検知では、多層アプローチとして、Webスクレイピングに特化した機械学習モデルを搭載しています。

Advanced Bot Protection は、通常のユーザー、悪意のないボット、悪意のあるボットのトラフィックを可視化して制御し、それぞれに様々な検知と対応のオプションを提供します。また、細かな点まで行き届いたサービス、優れたテクノロジー、および業界の専門知識を組み合わせています。そして、ユーザーに制限を課さず、アプリケーションへのビジネス・クリティカルなトラフィックを維持できることが最も重要なポイントです。