Webスクレイピングは違法なのか!?注意するべきことを調べてみました!

スクレイピングをやってみたいけど
著作権利用規約 など…
一歩間違えれば違法!?と思うと怖くないですか?

僕も初めて作ろうとしたときに
何も知らなくて、上司から

「損害賠償とか請求されるからね。ちゃんと調べた?」

て言われて
めちゃくちゃビビりました!

そのあと1、2ヶ月は
本を買ったりネットを使ったり
弁護士ドットコムなど利用して
ず~~~と調べてました。。

今回は自分が調べた事を5つにまとめました!

※自分は専門家ではないので解釈が間違ってるかもしれません!
 参考程度に自己責任でお願いします!

おすすめ
動画で見たい方はコチラ

著作権侵害になっていないか?

著作権者の同意なしは基本アウト!

Webページ著作物と考えましょう!

著作物は著作権法で守られてるので
著作権者から「使っていいよ~」て同意が無いのに

勝手に利用 (スクレイピング)すると
基本的には著作権侵害になっちゃいます!

だけど!

それをどういう目的で使うか?
場合によっては同意なしで扱う事が出来ます!

著作権者の同意なしでもOKな場合は?

■私的利用が目的

個人的に又は家庭内その他これに準ずる限られた範囲内において使用すること

著作権法第30条

自分や家族の中だけで利用する場合はOK!
みたいな感じですね!

■情報解析が目的

多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の解析を行うことをいう

著作権法第30条の4

競合サイトの分析・解析が目的で
複数サイトからスクレイピングしたい!
とかは当てはまりますね!

サイトの利用規約に違反していないか?

利用規約違反とは?

①利用規約にスクレイピング行為を禁止する内容がある
②利用規約に対し同意クリック

①②の手順を踏んだうえで
スクレイピングをやってしまうと

利用規約違反になり
民事上の責任を問われる可能性があります!

会員登録とかするとき
長い利用規約の下に「同意しますか?」て
ボタン押させますよね!あんな感じです!

利用規約違反にならない場合は?

誰でも閲覧できるページ
基本的に問題無いそうですが

中には利用規約に
「ロボットでのデータ収集や抽出を禁止」みたいに
スクレイピングを禁止する記述がある場合も!

だけど同意をさせてないため
スクレイピングしても利用規約違反にならないそうです!

でも…
やめてって言ってるから僕は止めておきます…!

業務妨害になっていないか?

スクレイピングで業務妨害とは?

Webページを取得する(リクエスト)という事は
相手のサーバーに負荷をかける事になります!

何も制御せずWebページを取得していると
相手サーバーに過剰な負荷 がかかり
サーバーダウンなどサイトに支障をきたしてしまう

そうなったら業務妨害になっちゃいます!

業務妨害にならない為には?

Webページを取得する間隔を1秒以上空ける!

僕はビビりなので場合によっては
3~5秒、それ以上空けるプログラムを作ってますね!

過去にあったLibrahack事件

過去に1秒1回のアクセス設計にしていたにも関わらず
逮捕されてしまった事件がありました!

2010年の事件で「Librahack」で検索すると
詳細が見れます!

・ある人が図書館データを収集するプログラムを作り使っていた
・図書館サイトの動作が悪くなり、見つかって、逮捕される

しかし逮捕までいってしまったのは

・図書館側のシステムが悪かった
・警察のプログラム知識が足りなかった

と言われています。

実際に図書館へシステム提供していたMDISも
お詫びの文面を公開しています!

常識的な設計だったにも関わらず
当時の状況で逮捕までいっちゃった。
と言う話でした!
こんな事もあったんだな~と頭にいれておきましょう!

アクセス禁止ページは確認したか?

robots.txtを確認しよう!

サイトにはrobots.txtと言う
アクセスOKかNGかを示したものがあります!

もう少し具体的に言うと

クローラーに対して
特定のページをクロールさせない為の指示書
です!

※クローラー:インターネット上を巡回してWebページ情報を収集するロボット
※クロール:Webページ内のハイパーリンクを辿ってWebページを取得

チェックしたいサイトのドメイン直下に
直接「robots.txt」
を打てば出てきます!

例)https://www.yahoo.co.jp/robots.txt

CheckRobots.txt

robots.txtでどんな風にアクセス設定されているか解説します!

まずDisallowが許可しない
Allowが許可する

設定になります!

例えば

■例1

User-agentは対象のクローラーです!
なので全てのクローラー( * )に対して
/member/以下のページへのクロールを許可しない!
と言ってますね!

■例2

次にこれは
このサイト全て( / )のページへのクロールを許可しない!

■例3

最後これは
/posts/以下のページは許可する
それ以外の全てのページへのクロールを許可しない!

と言うふうに

アクセス禁止されているページ
「見ないで~!」っと言っているので
スクレイピングも避けましょう!

スクレイピングツールを配布する場合

弁護士ドットコムで質問してみた!

ここは個人的に気になった所で
スクレイピングツールを配布するにあたって
著作権的に問題になることありますか?

って質問したすると

次の各号のいずれかに該当する者は、三年以下の懲役若しくは三百万円以下の罰金に処し、又はこれを併科する。
一 技術的保護手段の回避若しくは技術的利用制限手段の回避を行うことをその機能とする装置(当該装置の部品一式であつて容易に組み立てることができるものを含む。)若しくは技術的保護手段の回避若しくは技術的利用制限手段の回避を行うことをその機能とするプログラムの複製物を公衆に譲渡し、

著作権法120条の2から一部

ここを読めって返事だったんですけど…
まとめると

技術的保護手段の回避」「技術的利用制限の回避
ができるツールは配っちゃダメですよ。

という事です!

技術的保護手段の回避

例えば
Amazonの電子書籍が読めるkindle
これはDRM(デジタル著作権管理)と言う技術で
著作権侵害されない様に守られています!

そのためAmazonの電子書籍を
kindle以外で読むことはできません!

しかしこのDRMを解除して
kindle以外でも読める様にしたらアウト!

そんな感じで
著作物を守ってる技術(暗号化)を解除できる様な
ツールを配っちゃダメですよ!
ということ。

技術的利用制限の回避

例えば
ある体験版をダウンロードして
30日間無料で使えるソフト
があったとします!

そのソフトの中身を有料版に書き換え
制限なく使える様にしたらアウト!

そんな感じで
著作物の視聴にかかっている制限を解放できる様な
ツールを配っちゃダメですよ!
ということ。

十分に気を付けてスクレイピングを身につけよう!

これらどれか1つでも守れなかったらアウトですし
場合によっては他にも気を付けるべき項目が
出てくる人もいるでしょう!

悪気が無くても、知っておかないと
被害が出たり法律違反になるので
十分気を付けましょう!

私は法律の専門家ではないので
間違ってる部分もあるかもしれません!

スクレイピング始める方は
自分が納得いくまで調べましょう!

時代に合わせて法改正もされていくので
その時その時きちんと調べておきましょう!