自衛隊イラク日報 バグダッド日誌/バスラ日誌 一覧サイトを作りました

公開された陸自の日報が読み物として面白いと話題に!『バグダッド日誌文学』『ゲームの道端に落ちてるアーカイブ』と盛り上がる - Togetter を見て、どれどれとイラク日報のPDFを直接覗いてみたところ、日誌部分はPDFのほんの一部でとても探しづらかったので、ブログ形式にOCRテキストつきでまとめた『自衛隊イラク日報 バグダッド日誌/バスラ日誌 一覧』というサイトを作りました。

jgsdf-iraq-dairy_akiyan_org_

個別ページにはツイートボダンもあります。

貼り付けた画像_2018_04_18_11_26

URLツイートは以下のようになります。

貼り付けた画像_2018_04_18_11_31

Facebookでは以下になります。

貼り付けた画像_2018_04_18_11_33

開発メモ

  • PDFからJPGへの変換はMacで複数ページのpdfを一括でjpegにコマンドラインで変換する – 或る阿呆の記の方法で行いました。
  • OCRにはGoogle Cloud Vision APIを使いました。
  • イラク復興支援群の日報370日分約8000ページをOCRにかけたコストは約1,000円でした。
  • 全ページを直列でOCRにかけるのは時間がかかるので、1画像ごとにシェルスクリプト化してxargsで並列でガッと実行しました。
  • 全8000ページをOCRにかけたあとに『バグダッド日誌』『バスラ日誌』にマッチした330ページを抽出してデータ化しました。
  • デプロイ先はGoogle App Enegine for PHPで、DBは使っていないのでGAEへのリクエスト数と転送量が超えなければ無料枠で運用可能です。
  • 静的ファイルのCDNにCloudFlareの無料プランを通しました。
  • まとめて日誌だけ見るなら日誌ページだけまとめたPDFを作ればいいとも思いましたが、インターネットの養分になればと思い、サイトをこしらえました。
  • ...と思っていましたが「日誌部分をまとめて印刷したい」という需要があったので、まとめたPDFもアップロードしました。Resourcesの項目にリンクがあります。
  • ITMediaで記事になりました。

ゆるふわ日誌の探索にご活用下さいませ。

コメント / トラックバック

コメント / トラックバック 2 件

  1. ふじこ より:

    すごく読みやすくてとてもありがたい!!

    最高すぎる!!!

    セブンイレブンのマルチコピー機でもコピー出来るようにならないかなぁ?

  2. akiyan より:

    >ふじこさん
    ありがとうございます。日誌を1つのPDFにまとめたものをアップしました。サイトの「Resources」の項目からダウンロードできます。