自衛隊イラク日報 バグダッド日誌/バスラ日誌 一覧サイトを作りました
公開された陸自の日報が読み物として面白いと話題に!『バグダッド日誌文学』『ゲームの道端に落ちてるアーカイブ』と盛り上がる - Togetter を見て、どれどれとイラク日報のPDFを直接覗いてみたところ、日誌部分はPDFのほんの一部でとても探しづらかったので、ブログ形式にOCRテキストつきでまとめた『自衛隊イラク日報 バグダッド日誌/バスラ日誌 一覧』というサイトを作りました。
個別ページにはツイートボダンもあります。
URLツイートは以下のようになります。
Facebookでは以下になります。
開発メモ
- PDFからJPGへの変換はMacで複数ページのpdfを一括でjpegにコマンドラインで変換する – 或る阿呆の記の方法で行いました。
- OCRにはGoogle Cloud Vision APIを使いました。
- イラク復興支援群の日報370日分約8000ページをOCRにかけたコストは約1,000円でした。
- 全ページを直列でOCRにかけるのは時間がかかるので、1画像ごとにシェルスクリプト化してxargsで並列でガッと実行しました。
- 全8000ページをOCRにかけたあとに『バグダッド日誌』『バスラ日誌』にマッチした330ページを抽出してデータ化しました。
- デプロイ先はGoogle App Enegine for PHPで、DBは使っていないのでGAEへのリクエスト数と転送量が超えなければ無料枠で運用可能です。
- 静的ファイルのCDNにCloudFlareの無料プランを通しました。
- まとめて日誌だけ見るなら日誌ページだけまとめたPDFを作ればいいとも思いましたが、インターネットの養分になればと思い、サイトをこしらえました。
- ...と思っていましたが「日誌部分をまとめて印刷したい」という需要があったので、まとめたPDFもアップロードしました。Resourcesの項目にリンクがあります。
- ITMediaで記事になりました。
ゆるふわ日誌の探索にご活用下さいませ。
すごく読みやすくてとてもありがたい!!
最高すぎる!!!
セブンイレブンのマルチコピー機でもコピー出来るようにならないかなぁ?
>ふじこさん
ありがとうございます。日誌を1つのPDFにまとめたものをアップしました。サイトの「Resources」の項目からダウンロードできます。