Pythonでスクレイピングして遊んでみる

カテゴリ:Pythonの話

公開日:2020.07.01 最終更新日:2020.07.08
このエントリーをはてなブックマークに追加

こんにちは!伊神です!

この記事では、「Pythonでスクレイピングする方法」について簡単にご紹介します。

具体的には「HPのHTML情報を取得」「画像をスクレイピング」をして遊んでみました!

事前準備

今回はデータ分析用のツール「Jupyter Notebook」を使用します。

Jupyter Notebookとは

Jupyter Notebook(https://jupyter.org/ ) は、ブラウザ上で動作するプログラムの対話型実行環境です。

ノートブックと呼ばれる形式で作成したプログラムを実行し、実行結果を記録しながら、データの分析作業を進めることができます。

Jupyter Notebookをインストール

Anacondaという開発環境のパッケージを利用すると、Jupyter Notebookと共に、データ分析やグラフ描画など、Pythonでよく利用されるライブラリをまとめてインストールできるので便利です。

1. Python3をインストール

Pythonの公式(https://www.python.org/)からインストール

2. Anacondaをダウンロード

Anacondaの公式(https://www.anaconda.com/products/individual)からダウンロード

3. Jupyter Notebookをインストール

Jupyter Notebookの「install」ボタンを押しインストールを行います。

インストールが終わると、ボタンが「Launch」に変わりLaunchをクリックすると、Jupyter Notebookが起動します。

詳しいJupyter Notebookの使い方はこちらを参考にしてください

https://qiita.com/takuyanin/items/8bf396e7b6b051670147
https://code-graffiti.com/how-to-use-jupyter-notebook/

スクレイピングで遊んでみよう

HTMLを解析する

HTMLを簡単に解析できるライブラリ「Beautiful Soup」を使用します。

今回はinglow(https://inglow.jp/)のサイトをスクレイピングしました!

その他にも「id属性」や「class属性」の名前を使用して範囲を絞り込んで検索することもできます!!

画像をスクレイピング

流れとしては

Webスクレイピング→画像のURL抜き出し→URLから画像保存

いらすとやの「pc」で検索結果画像をirasutoya_pcファイルに保存する処理を行います!

こんな感じで画像をスクレイピングすることができます!!

今回はいらすとやでスクレイピングを行いましたが、Google画像検索や違うサイトの画像も同じようにスクレイピングできるのでぜひ試してみて下さい!!

※著作権や利用規約を確認してから行って下さい。

最後に

今回はPythonでスクレイピングして遊んでみました。

pythonには様々なモジュールがあり様々なことが簡単にできたりするので是非調べてみて下さい!

一覧へ戻る