書籍の表をスキャンしエクセルに取り込む。
印刷されたものはワープロ(古いな)で打ち込んだものとは少し異なるスペースがある。
たとえば改行のタイミングで句読点「、」や「。」がある場合は、行頭に句読点を用いずに、少し行の長さ(文字と文字の間の空間)を短縮し句読点を行内に納め、他の行と高さを合わせる。
今回は表を取り込もうとした。上下にしか罫線がないという、罫線が少ない表だったのでなおの事、OCRが利かなかった。
wordに変換すると、(計算結果が異なった時に)修正がし辛いので、エクセルに読み込んだ。
スキャンしOCRをかけたところ下図のようになった。
このままエクセルに吐き出すとひとつのセルの中に青線内の文字がすべて入ってしまう。そこで補助線ツールで補助線を引いてやる。
こんな具合だ。
そしてエクセルに吐き出すと、修正は必要だが労力ははるかに少ない。
ところがエクセルで半角スペース削除の修正をかけたもののどうしても修正できないセルが出てきた。下図のようにSubsutitute関数を使い、半角スペースを削除するができない。
見えない改行符号かと思い、改行符合の削除も行った。
これでもダメだったので、そこでCODEにより文字コードを表示した。
結果上図のセルC2は「160」と表示つまり、セルB2後ろから3文字目はchar(160)の改行符合だった。OCRの結果こんなものが入るんだ。そこで次にchar(160)を削除する。
これで完了。
下記サイトを参考にさせてもらいました。
REMEMBER3.11
不断の努力「民主主義を守れ」