PDFpen logo PDFpen logo

ヘルプ: OCR (光学文字認識)

OCR(光学文字認識)はテキストのビットマップ画像(スキャン文書など)を PDFpen や他のテキストエディタにより選択、コピーおよび検索可能なテキストに変換するプロセスです。 一旦テキストがOCRにより認識されれば、テキスト画像の上に見えないレイヤーが配置されます。テキストをコピーした場合、テキストはこの見えないOCRレイヤーからコピーされます。OCRの技術はビットマップテキストからの完全なレンダリングを生成する物ではありません。OCR結果は校正と編集が必要です。

OCRの実行

  1. PDFpen を使って、スキャンされたPDFを開きます。
  2. 警告ボックスが表示され、
    「これはスキャンされた書類です。光学式文字認識(OCR)しますか? OCRの処理後にテキストを選択することができます。」 というメッセージが現れます。
    このダイアログでは、3つの操作を選択できます:
    • キャンセル:
      OCRを実行しません。
    • OCRページ:
      OCRを現在開かれているページで実行します。
    • OCR書類:
      ドキュメントが複数ページあるときは、OCRは全てのページで実行されます。

    OCRで認識する言語を選択します。詳細は環境設定>OCRをご参照ください。

PDFpen でOCRを実行しているときには、プログレスバーが表示されます。この操作はスキャンされたドキュメントの内容量によりますが、2、3分以上かかります。
マニュアル操作でOCRを実行するときは、「編集>ページOCR」を選んでください。PDFpen がOCR操作を開始し、プログレスバーが表示されます。

まとめてOCR

一度に複数の文書をOCR。

 

ocr files window

 

  1. メニューバーからファイル > ファイルをOCRを選択。
  2. ファイルをOCR ウィンドウで、OCRする複数の文書を選択します。ファイルをウィンドウにドラッグアンドドロップするか、[PDFを追加]を選択します。
  3. 文書のリストが準備できたら、OCRの実行 をクリックします。

進捗

進行状況インジケータは、ファイルが完了するごとに色が緑に変わり、成功を示します。黄色または赤色は、OCRが失敗したことを意味します。ファイル名の横に黄色または赤の円が表示された場合は、もう一度試すか、 サポートに文書を送信してください。

PDFpen で作業を続けると、文書はバックグラウンドでOCRに表示されます。いつでもリストに文書を追加できます。 各文書は元のファイルに保存されます。

ウィンドウをFile > ファイルをOCRから再度開きます。

完全なリストが完成するとチャイムが鳴ります。完成したファイルの一覧がウィンドウに残ります。 削除をクリックすると、完了したエントリを削除します。

OCRテキストの選択、コピーおよび編集

OCRの終了後、ドキュメントのテキストは他のテキストと同様に編集できます。表示テキストの変更を行うにはテキスト訂正を使用します。詳しくはテキストの編集をご参照ください。

OCRテキストの検索

OCR操作で作成されたテキストは、普通のテキストのように編集することができます。詳細はPDF内の検索をご参照ください。

OCR結果を改善するためのヒント

  • オリジナルドキュメントの質によってOCRの結果が左右されます。 くしゃくしゃのしわになったような紙や、かすれたコピー紙を避け、はっきりとしたテキストの読めるしわのないものをご使用ください。
  • オリジナルドキュメントをスキャナー上にまっすぐにおいてください。まっすぐにスキャンされていないときには、「編集> イメージのアンスキュー&調整...」を開いて、PDFpen 上のイメージをアンスキューするかまっすぐにすることができます。
  • スキャンされたドキュメントのコントラストを高めることによって、背景がより白くなります。編集> イメージのアンスキュー&調整...を開いて、コントラストを調整してください。

OCRの強制

PDFpen はドキュメントを見て、1ページのサイズのイメージを見ると、ドキュメントがスキャンであるとみなし、自動的にOCRを実行するようにします。場合によっては、 PDFpen がスキャンしたドキュメントを認識しないことがあります。 [編集]メニューの下に、OCRページがグレー表示され、選択できません。

  1. CommandキーとOptionキーを同時に押し続けます。
  2. メニューから編集を選択>[OCR Page]を選択します。

OCRテキストレイヤー

OCRによるテキストの認識後、目に見えるイメージレイヤー上に見えないテキストレイヤーが配置されます。テキストをコピーした場合、テキストはこの見えないOCRテキストレイヤーからコピーされます。

OCRテキストレイヤーのテキストはビットマップテキストのレンダリングに近いですが完全ではありません。OCR結果は校正と編集が必要です。OCRテキストをコピー&ペーストするといくつかの誤りが確認できますが、これはその時点で訂正が可能です。

OCRテキストレイヤーの表示:

  1. 「表示>OCRレイヤー」を選択します。テキストのレイヤーがドキュメントの上に表示され、通常では見えないOCRテキストを見ることが出来ます。

OCRレイヤーを削除する

ドキュメントからOCRレイヤーを完全に削除するには:

  1. [編集]メニューを開き、[OCRレイヤーを消去]を選択します… (Cmd+Opt+O).

この時点で、OCRをやり直すか、そのままドキュメントを使用することができます。ドキュメントからOCRを削除してそれをやり直す場合は、強制OCRを使用することができます。

OCRテキストレイヤーの編集 (PRONAMEのみ)

OCRテキストレイヤーに修正を行うには次のように行います。

  1. 「表示>OCRレイヤー」を選択します。テキストのレイヤーがドキュメントの上に表示され、通常では見えないOCRテキストを見ることが出来ます。
  2. テキストをいくつか選択すると、テキストを同時に1単語または1行編集できるオプションウィンドウが表示されます。

OCRテキストレイヤーへの変更は、ドキュメントの目視できるテキストに対して行われる物ではない為、テキストの修正による変更とは異なります。

また、テキストの修正ツールの使用と同じく、これはドキュメント全体の再編成ではなく誤字脱字の修正を支援します。レイアウト変更や大きな編集にはWord形式へドキュメントをエクスポートし、ワードプロセッサで変更を行います。

辞書とOCR

PDFpen のOCRエンジンには、医学辞書および法律辞書が入っています。そのため、医学および法律の専門用語を認識でき、高品質な文書のスキャンが可能です。内蔵機能なので、設定を行ったり調整したりする必要はありません。OCRテキストを編集する場合、選択したテキスト中にスペルミスの単語があれば赤い波線が文字の下に表示されます。




© 2003-2020 SmileOnMyMac, LLC dba Smile. All rights reserved.
PDFpen and PDFpenPro are registered trademarks of Smile. The Smile logo is a trademark of Smile.