パワーポイント文書からテキストを《正しく》抽出する方法 - デジタル小噺

2011年9月30日金曜日

パワーポイント文書からテキストを《正しく》抽出する方法

パワポ文書からテキストだけを抜き出したい!

最近は、後割の原稿をレイアウトごとパワーポイントで作成して納品しています。具体的には以下のような感じ。

この方法だと手はかかりますが、画像のトリミング指定や引き出し罫の指定も同時にできます。なにより画面を並べながら構成と原稿を考えられるので、最近はもっぱらこの方法です。賛否両論はあると思いますが。

使い方はともかく、手持ちのパワポ文書(PPTファイル)からテキストだけを抽出したいこともあるでしょう。私の場合も上記のページはあくまでもラフレイアウトとして渡すだけで、テキストと画面写真は別ファイルで納品します(PPTファイルで納品するような鬼畜なマネはできません)。

ちなみにパワポから直接テキスト化することはできません。一度ワードに貼り付ける、フリーソフトで変換するなどいろいろ試してみましたが、思うように変換されませんでした。そこで、試行錯誤の結果あみだした方法を紹介します。
パワポ文書をPDFに変換する
なんのことはありません。パワポの文書を一度PDFに変換すればいいのです。簡単ですね。Office2010なら標準で出力できますし、2007ならアドインの追加で可能です。2003ユーザーは、仮想プリンターなどを利用してください。


あとはアドビリーダーでテキストファイルとして保存します。


これにて解決、よかったね!

と思ったら大間違いです。

まず、アドビリーダーのテキスト変換はあてになりません。たとえば、縦書きの文書はひと文字ずつ改行されてしまいます。


なので、PDFを表示してからCtrl+Aキーですべて選択し、テキストエディターに貼り付けるのが正しい方法です。この方法なら、多少の修正でおさまります。
PDF化する前にも作業が必要!
オフィスの仕様かPDF側の問題かはわかりませんが、PDF出力時に縦書きの文章が崩れることがあります。


どうやら、オフィス標準のフォントを使わないと崩れてしまうようです。とりあえず、MSゴシックとMS明朝、メイリオ、HG系フォントでは正常に出力されるのを確認しました。縦書きの文章をPDF化するときは気をつけましょう。

PDF化もうまくできて、テキストもコピーできた。でもよく見ると、テキストの並び順がおかしいぞ。


各要素のテキストの順番がバラバラになっています。ちゃんとレイアウト順に並んでほしいのに……。

これは、オブジェクトを作成した順番、つまり最背面にあるものからテキストを参照しているためです。凝ったデザインのページでは、あとからオブジェクトを追加することが多々あります。これにより、ページでは一番初めに参照するテキストでも、途中や最後のほうに移動する可能性があるわけです。

この問題を解決するには、テキストを含んだオブジェクトを並べたい順番にカット&ペーストするのがベストです。ページタイトルを切り取ってペースト、見出しを切り取ってペースト、本文を切り取ってペースト……といった具合です。

一見面倒なように思えますが、最初の画像のようなページでも1~2分で作業が終わります。ちなみにこの作業を行なわないとテキストの切り貼りで順番を入れ替えることになり、1ページあたり10分くらいかかってしまいます。楽するために努力しましょうね。


以上がここ最近で編み出した方法なのですが、なんだかもっと効率のいい方法があるような気がしてなりません。もし、いい方法をご存知でしたらぜひ教えてください。