ぼんやりDTP

DTPに関係したりしなかったりするぼんやりとした話をなんとなく。

アラビア語のOCR

アラビア語の画像からテキストを取得したい。

AcrobatOCR には入ってないっぽいので他の手段を探す。

ざっと試した限りでは、Google Docs 使うのが一番精度高かった。

身も蓋もない。

以下手順。

  1. Google Driveに画像をアップロード。
  2. 画像をコンテキストメニューからGoogleドキュメントで開く。
  3. 待つ。言語を指定することさえしない。
  4. 結果が表示される。

参考ページ:

  1. Googleドライブで、画像やPDFの文字をテキストにするOCRにかける方法 | 経験知

その他、オンラインで試したやつ。

  1. アラビア語 OCR (光学文字認識)。オンライン フリー — Convertio
    • なかなかいい。
  2. 無料オンラインOCR - オンライン画像認識 - 無料のOCRソフトウェア - 無料のOCRからWordへの変換 - オンラインでのテキスト認識の変換 - 写真のテキスト認識ソフトウェア - 写真からテキストへ
    • これもまあまあ。
  3. OCR - JPG、PNG、TIFFをオンラインテキストに変換する
    • ちょっと微妙かな

アポストロフィの扱い

アポストロフィUnicodeでの扱いについてあらためて確認、というかググった。

組版的には普通の句読記号としてのアポストロフィには「U+2019 RIGHT SINGLE QUOTATION MARK」を使用する。

参照ページ

  1. Unicodeのアポストロフィとシングル引用符 - Mac OS Xの文字コード問題に関するメモ
  2. Unicodeのアポストロフィ | yasuokaの日記 | スラド
  3. Unicode Character 'MODIFIER LETTER APOSTROPHE' (U+02BC)
  4. Unicode Character 'RIGHT SINGLE QUOTATION MARK' (U+2019)
  5. Unicode Character 'APOSTROPHE' (U+0027)

Illustratorでデータ結合

Illustratorcsvファイルを利用したデータ結合はできるか?

Illustratorでデータ結合したい、csvファイルでInDesignのように。

ググったところ、できるようだが、csvファイルの利用は最新版のCC 2018でしかできない?

  1. Illustrator でデータを結合して、テンプレートと変数によるデータ駆動型グラフィックを作成します
  2. Merge data to create data-driven graphics through templates and variables in Illustrator

更にググったら、CC 2018の3月リリースからの機能のようだ。

できたてだったんか…。変なタイミングでググってしまった。

  1. Illustrator CCの新機能 | 新しいアセット書き出しパネル
  2. 新機能の概要 | Illustrator CC 2018 年 3 月および 2017 年 10 月リリース

CC 2018の2018年3月リリース版のヘルプの画像:

f:id:bonyari_dtp:20180314185248p:plain

CC 2018の2017年10月リリース版の変数パレットの画像:

f:id:bonyari_dtp:20180314185148p:plain

過去バージョンでのデータ結合

過去バージョンでは、xmlファイルしか利用できないため、csvファイルを利用する場合はスクリプト等を利用するのが必要な模様。

  1. Adobe Illustrator Variable Data - The EASY way!
    1. Adobe-Illustrator/Variable Importer at master · Silly-V/Adobe-Illustrator · GitHub
  2. https://bulan.co/swings/illustrator_script/
  3. Illustratorで『データ結合』もどき改良(!)版 - InDesignerの悪あがき
  4. It's Automatic! イラレで時短、ノンプログラマーでもできる自動組版! - V.G.M.@Akira Kohno
  5. Adobe IllustratorでJavaScriptを使う (CSVファイルのテキストを流し込む) « 来栖川電算

csvファイルからIllustratorで利用可能なxmlに変換してくれるwebサービス

過去バージョンのヘルプ。

余談だがadobeのオンラインヘルプは対象のバージョンがわからないので不便。

  1. 以前のバージョンの Adobe Illustrator 用ヘルプ
  2. Help for older versions of Adobe Illustrator

実際の作業の流れ

  1. ベースのaiファイル作成
  2. 任意のオブジェクトを選択、「変数」パレットで「オブジェクトを動的に設定」ボタンで変数作成してオブジェクトとバインドする
    1. 「表示を動的に設定」ボタンは「レイヤー」パレットでの表示/非表示の状態に対応
  3. 変数名とオブジェクトのリストをExcel等で作成、CSVファイルに書き出し
    1. CC 2018(3月リリース版)以降
      • 「変数」パレットからCSVファイルを読み込み
    2. 〜CC 2018(10月リリース版)以前
  4. アクションのバッチ処理でそれぞれのデータセットのファイルを書き出し
    1. 複製を保存するアクションを作成
    2. 「バッチ」選択
    3. 作成したアクションを選択
    4. ソースはデータセット
    5. 保存先を選択
    6. ファイル名は任意
    7. OK

Illustratorで線に縁取りをつける

Illustratorで線に縁取りをつける。引出線(callout)とか用に。

基本なんだろうとは思うが、メモ。

  1. アピアランス」パレットで、「線」を選択。
  2. アピアランス」パレットの「選択した項目を複製」ボタンを押すか、ボタンに「線」をドラッグ。
  3. 下の線の太さ、色を任意に設定する。
  4. 設定を済ませたオブジェクトを「グラフィックスタイル」にドラッグして登録、再利用。

Acrobat DCでテキスト選択

Acrobat DCでテキスト選択ツールが見当たらないのでググった。

Acrobat DCでテキスト選択するにはいくつか方法がある。

  1. コンテキストメニューから「選択ツール」を選択。
  2. 「表示」→「表示」→「表示切り替え」→「ページコントロール」→「ページコントロールを表示」を選択してページコントロールを表示、選択ツールアイコンを選択。
  3. 「環境設定」→「一般」の「手のひらツールでテキストを選択可能にする」のチェックを入れる。

参照ページ:

  1. 文字の選択や編集はできますか (Acrobat DC)
  2. Reader8以降でテキスト範囲選択が出来ない | Adobe Community
  3. Reader ヘルプ | 画像やテキストをコピーして他のアプリケーションに貼り付ける方法 (Adobe Reader XI/Acrobat Reader DC)
  4. Adobe Acrobat Reader DCで手のひらツールが見つからない | Adobe Community

PDFの差分を取る

PDFの差分を取りたいとき。

これまで、Acrobatの比較する機能を使ってきたが、Acrobatの9以降?の比較機能は重すぎるし、どうもわかりやすさにかける。

追記(2018-10-20)最新版の Acrobat Pro DC の比較機能は大分良くなった。テキストの比較ぐらいしか試していないが、比較的わかりやすいし、動作も重くないので今後改悪されない限りは Acrobat Pro DC の比較機能を使う方が現実的かと思う。

最近のMacのOSだと、もうAcrobat 8を入れるのも動かすのも現実的ではない。

他にないものかとぐぐったら diff-pdf なるものがあるそう。

導入手順

ターミナルで下記のような感じでインストール、実行。

# homebrewでインストール。
brew install diff-pdf

# output-diff に a.pdf と b.pdf の差分PDFを出力。
diff-pdf --output-diff=diff.pdf a.pdf b.pdf

# a.pdf と b.pdf の差分を新規ウィンドウに表示。
diff-pdf --view a.pdf b.pdf

「新規ウィンドウに表示」は実際にやってみたらパーミッション?の確認みたいな表示がターミナルに出た。

/usr/local/include/wx-3.0/wx/strvararg.h(456): assert "(argtype & (wxFormatStringSpecifier<T>::value)) == argtype" failed in wxArgNormalizer(): format specifier doesn't match argument type
Collecting stack trace information, please wait...An admin user name and password is required to enter Developer Mode.
Admin user name (hoge): 
Password:
# コマンドオプションを表示
diff-pdf --help

補足

  • 差分の表示は赤い表示が a.pdf(前者)、青い(シアン)表示が b.pdf(後者)。
  • ページずれがあっても面倒は見てくれないので、空白ページを入れてページ構成が同じになるようにするなど、調整したほうが良い模様。

参考ページ