はじめに
自分のサイトではスクレイピングに関する内容の記事をいくつか取り上げており、また今後も定期的にアップロードする予定なので、一度しっかり調べてみたいと思い纏めることにしました。
結論だけ先に述べておきますと、解析目的でスクレイピング行うのは、著作権法などで認められており、基本的に違法性はありません。
では、詳細について語っていきます。
スクレイピングについて
スクレイピングとは、データを効率的に収集、加工するための技術のひとつです。
"入手したひとまとまりのデータを解析し、不要な部分を削ったり、必要な部分だけを取り出したり、一部を置き換えたり、並べ替えたりして、目的に適う形式に整形すること"※1を指します。
特にスクレイピングを自動化すると、求めている情報を効率的に集めることができるため、データ運用などにかける時間を大幅に削減することができます。
違法性について
スクレイピングはとても便利な一方、一歩誤ると罪に問われる可能性があるため、細心の注意を払って行う必要があります。
解析目的でスクレイピング行うのは、以下の様な著作権法で認められており、基本的に違法性はありません。
(著作権法30条の4)
"著作物は、次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には、その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる。ただし、当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は、この限りでない。"※2
(著作権法47条の3)
"プログラムの著作物の複製物の所有者は、自ら当該著作物を電子計算機にお
いて実行するために必要と認められる限度において、当該著作物を複製するこ
とができる。ただし、当該実行に係る複製物の使用につき、第百十三条第五項
の規定が適用される場合は、この限りでない。"※2
(著作権法47条の3)
"プログラムの著作物の複製物の所有者は、自ら当該著作物を電子計算機において実行するために必要と認められる限度において、当該著作物を複製することができる。ただし、当該実行に係る複製物の使用につき、第百十三条第五項の規定が適用される場合は、この限りでない。"※2
特に著作権30条の4は最近施行されたもので、IT関連に大きく影響を与えていると言っても過言ではありません。ここでは深層学習やビッグデータ、人工知能などで権利者に不利益を及ぼさない場合、権利者の許諾なく行うことが可能となりました。
これによって今までは研究や開発の度に許可が必要だった部分の一部が必要でなくなり、研究や開発のハードルが少し下がり、新たにイノベーションの創出が期待されています。
スクレイピングが違法になる場合
スクレイピングを行なう上で違法となるケースは大きく分けて4種類あります。
サーバーに大きく負荷をかけた場合
スクレイピングはその性質上、特定のサイトにアクセスすることが多く、過度にアクセスすることによって、そのサイトを重くしてしまい閲覧不可能にしてしまう可能性があります。その場合、刑法233条偽計業務妨害罪や234条電子計算機損壊等業務妨害罪にあたる可能性があります。
個人情報を同意なく取得、公開、売買した場合
平成29年の改正個人情報保護法により、個人情報を取得する際には、利用目的を本人に明示する必要があります。これを破ると個人情報保護法違反にあたる可能性があります。基本的にスクレイピングで個人情報を取得することは難しいと思われます。
サイトの利用規約に反するスクレイピングを行なった場合
利用規約でスクレイピングが禁止されているにも関わらず、スクレイピング等を行った場合、利用規約違反となり、債務不履行責任や不法行為責任となる可能性があります。
著作権を無視した利用や複製を行った場合
基本的にインターネットにあるコンテンツは誰かの著作物であるため、原則として著作権者の同意を得る必要があります。データをコピーして保存するだけでも著作物を利用したことに含まれるため、許可されている場合を除き、スクレイピングをする時も著作権者の同意を得る必要があります。
判例
Librahack事件
実際にスクレイピングによって有罪判決を受けてしまった過去の判例があります。
"2010年3月ごろ、岡崎市立図書館のウェブサイトの蔵書システムにアクセスできないとの苦情があったことから、同図書館が不正アクセスについて通報し、蔵書システムに対してWebスクレイピング行っていた男性が、同年5月25日高頻度のリクエストを故意に送りつけたとして偽計業務妨害の容疑で逮捕されました。 実際には1秒1アクセス程度で、サーバーに対して攻撃するような高負荷を与えるものではなかったが、図書館のシステムが旧式であったこともあり、閲覧障害が発生しました。 男性に悪意はなかったものの、犯罪が成立しないことを意味する「嫌疑不十分」ではなく、「起訴猶予」という結果となりました。"※3
このLibrahack事件ではサーバーに対して攻撃するような高負荷を与えるものではなかったことに加えて、本人に悪意もないとされましたが、閲覧障害が発生してしまったため、男性は罪を犯したこととなってしまいました。
まとめ
違法にならないスクレイピングをするために、スクレイピングを行う際はサイトの利用規約を読みスクレイピングが禁止されていないか、また個人情報の様な取得に同意が必要なものを無断で取得していないか、など細心の注意を払いましょう。特にLibrahack事件のように、本人に悪意がない場合でも罪を犯してしまう可能性があることを事前に知っておく必要があります。
またスクレイピングを行えるのは、基本的に情報解析目的であるため、収集したデータを公開したり、売買したりして著作権侵害しないようにしましょう。
使用が難しい場合
特定のサイトからスクレイピングをすることが難しい場合は、そのサイトの管理者から直接許可を得るか、スクレイピングを使用することが許されている似たサイトを探すようにしましょう。
おわりに
今回、スクレイピングについて一度自分の中でまとめてみました。個人利用なら問題ないという漠然とした理解を形づけられてよかったです。
*引用元
※1
https://ewords.jp/w/%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0.html
※2
https://elaws.e-gov.go.jp/document?lawid=345AC0000000048
※3
参考文献
https://elaws.e-gov.go.jp/document?lawid=345AC0000000048
https://www.jla.or.jp/portals/0/html/jiyu/okazaki201103.html