inglow Blog

Tech Blog
エンジニアブログ

PythonでPDF編集をしてみよう

2020.07.31

このエントリーをはてなブックマークに追加

こんにちは!今回はPythonを使ってPDFの編集を行っていきたいと思います。

1.PDF編集ライブラリ

PythonでPDFを編集する場合、以下のようなライブラリが存在します。

PyPDF2
PDFページの操作、テキストの読み取りができるが日本語に対応していない
pdfminer.six日本語対応している。PDFファイルをテキストファイルに変換できる
Apache TikaエクセルやPDFなど様々なファイルからテキストを抽出できる
Tesseract OCROCRでPDFを認識し、請求書などをスキャナーで読み込むことができる


2.pythonでできること(ファイル操作)

pythonのライブラリを使うことで、既存PDFの結合・回転・コピー・重ね合わせやPDFファイルの新規作成も行うことができます。また、今回はPDFファイルについて紹介していますが、エクセルファイルについては、Pythonでマクロを組むことで自動化することもできます。

3.PDFファイルを編集してみよう

では、PyPDF2を使ってPDFファイルの結合をしてみましょう!(先にpipでPyPDF2をインストールしてあります。)

まずは、PythonのIDLEを開き新しファイルを作成します。あとは以下のようなコードを記述すればPDFファイルを結合することができます。

先ほどコードを記述したファイルは「merger_pdf.py」としておきます。そして、「pdf_files」というフォルダの中にいくつかPDFファイルを用意しておきましょう。

では、先ほど作成した「merge_pdf.py」をダブルクリックしてみましょう。すると、以下のように新しいPDFファイルが作成されました。

PDFファイルを確認すると、上から順にPDFファイルの結合ができてました!

4.さいごに

PDFファイルに関して、Pythonでできることは項目2でも述べたようにたくさんあります。PDFファイルはさまざまな場面で使用されるので、覚えておけば時間の節約にもつながるでしょう。例えば、「Tesseract OCR」を使いスキャンしたPDFファイルの整理を自動化することだってできます。このようにPythonにはメリットしかありません!どんどんPythonを使っていきましょう!

Related Blog
関連記事

2020.08.06
[Django]初心者のためのDatabase
2020.08.05
Djangoのテンプレート機能を使ってページを作成する
2020.08.03
DjangoとjQueryで全選択と削除
2020.07.30
機械学習で知るべきアルゴリズム
2020.07.29
関数について【Python入門】戻り値や引数についても解説