2009年11月17日(火) << 前の日記 | 次の日記 >>
これまでの11月17日 編集

■1 続・PDFファイルのテキスト化[http://www.nantoka.com/~kei/diary/?20091115&to=200911151#T200911151][プログラミング] このエントリーをはてなブックマークに追加

結局、3種類のパーサを書き分けて、12万件ほどのデータ抽出が完了した。
パーサ自体を書くのはそれほど大変では無いのだけれども、人間の入力ミスを見つけ出して、補正してやると言う、もはやプログラミングでは無いような仕事が時間を食った。
税金を使って整備されているデータなのだけれども、こんなに杜撰で良いのだろうか。パーサ作っている過程で、少なくとも百件程度のエラーレコードを見つけたから、エラー率0.1%程度ということになる。
もちろん、市内電話番号が間違っているとか、住所の番地が間違っているというエラーはチェックのしようが無いので、実際のエラー率はもっと高くなるだろう。
見つけたエラーをどこかに報告すれば、翌月の調査では修正されたりするのだろうか。
明日はDBに投入して、もう少し大局的なエラーチェックを掛けてみよう。

■ 関連記事

今日のつぶやき

  • とある事情で、厚労省が取りまとめてる医療関係の一覧表を加工しているのだけど、入力エラーが1%近くあるのはどうよ。2009-11-17 13:39:10 webで
  • 他の信頼できそうなデータベースを使って、郵便番号,住所表記,電話番号のつじつまが合っているかどうかをチェックしただけでこんだけエラーがあると言うことは、中身は信用に値しないんじゃなかろうか。2009-11-17 13:42:54 webで
  • 突然だけれども、日本ではSNSは仮想世界を志向している気がする。ネットにまで現実世界の人間関係を持ち込みたくないよと。2009-11-17 13:45:17 webで
  • 人口が増えていくにしたがって、だからtwitterも他の例に漏れず仮名化、仮想世界化が進むに違いない。2009-11-17 13:47:04 webで
  • 「人口が増えていくにしたがって、だからtwitterも…」と書いて気づいたけれども、@medtoolz さんのtweetに独特の味があるのは、こういう倒置が使われているからかも知れない。2009-11-17 13:49:14 webで
  • @seri_nazuna そのスープは洋風でしょうか。洋風の場合、味が決まるためには最低限の塩分を必要とするようです。それこそ指二本でつまむ程度の塩で急にうまみが出て、味が決まったりします。そもそも野菜なんかからダシが取れていないときは、薄口しょうゆを何滴か入れたりなんか。2009-11-17 22:11:16 webで seri_nazuna宛て
以上、1 日分です。

指定日の日記を表示

前月 2009年11月 翌月
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30

最近の日記

2019年04月01日

新元号「令和」について

2019年03月23日

DXアンテナ ワイヤレスチューナー メディアコンセント DMC10F1

2019年02月17日

#例のグラボを活用する

2019年01月03日

シリーズ5・myHomeAlexaで自分のCDをかける

2018年12月25日

シリーズ4・英語の楽曲・アルバム・アーティスト名をカタカナに直す

2018年12月23日

シリーズ3: Echo Dotがやってきた

2018年12月19日

続・Echo Dotがやってきた

分野別タイトル一覧


全て
CLIP
SYA!nikki
book
freebsd
hns
magic
おさけ
おしごと
お買いもの
ぐる
ごはん
アクセシビリティ
オープンソース
セキュリティ
音楽
地域情報化
電子自治体
日記

keikuma on Twitter

keikuma Name:前田勝之
Location:長崎市
Web:http://www.nantok...
Bio:前田勝之(まえだかつゆき)。長崎在住。コンサル、SE、プログラマー、 なんとか株式会社代表、非常勤講師(情報セキュリティ)。 セキュアド、テクニカルエンジニア(SV,NW)。サーバ管理とWeb日記を10年ほど。 ネットとリアルの接点に関心あり。食べること・歌うこと・愛すること・作ること・飲むこと。おいしいものがぜんぶすき。

サイト内検索

Google AdSense

Powered by hns-2.19.9, HyperNikkiSystem Project