徒然なるままに、郵便番号を見ています。
NIIBE Yutaka wrote:
> Git のリポジトリを作って、郵便局の郵便番号の CSV のデータを入れました。
>
> http://git.debian.org/?p=pkg-anthy/postal-code-jp.git;a=summary
* zipcode.t の出自は?
anthy の zipcode.t はどこから来たものなのでしょうか。大元が郵便局なのは
間違いないとしても。
2001 年5月から2002年頭にかけての canna-yubin というパッケージを発見しました。
https://build.opensuse.org/package/files?package=canna-yubin&project=openSUSE%3AFactory
SKK の Open Lab に下記の説明を発見しました。
http://openlab.jp/skk/skk/dic/zipcode/README.ja
SKK は Emacs で処理して作っている模様です。CVS あるいは tar ball の配布
なので今、取ってくる気力がありません。ブラウズできるのであれば見たけれど。
* 事業所データも入れますか?
事業所データも入れないといかんですか。
* index を作ってみる実験
cmph (http://sf.net/projects/cmph )というライブラリで 7桁の郵便番号の
index を(chm で)作ってみたらファイルサイズは 1MB 弱でした。index のファ
イルは機種依存なので、「どうにかなりませんか?」と作者に連絡しました。
SKK の入力のように 151* と入力して候補を出したいとなると trie にするの
ですか。
Theppitak さんの trietool-0.2 でファイルサイズは 2MB 以上です。フォーマッ
トが機種依存かどうかは確認していません。
* 利用したいデータ形式の考察
0600001 で、元データは
北一条西(1〜19丁目)
ですが、これを
北一条西1丁目
北一条西2丁目
...
と展開しても日本語入力の際には(特に19丁目の人には)嬉しくないような気が
します。「北一条西(1〜19丁目)」を出して手で編集する... という使用
形態でいいかも。
「以下に掲載がない場合」と出すのはおかしいですね。
Web アプリでリストから選ぶ時には一つ一つに分かれている方が、嬉しいですか。
Web アプリでリストから選ぶというと、1400002 から
東品川一丁目
東品川二丁目
東品川三丁目
東品川四丁目
と出したいところですが、このように出すには、今、ソースとなっている郵便
番号データに加えて、この場合だと東品川という地域が 1から4丁目で構成され
るというデータが必要になります。
細かいデータがあれば、「以下に掲載がない場合」、「*一円」、「*(その他)」
という記述をワイルドカードではなく、具体的に特定する事も可能でしょうか。
住所のデータについて丁目の粒度までの情報は、LASDEC が保守している模様で
す。
http://www.lasdec.nippon-net.ne.jp/cms/11,515,34.html
むぅ。ここで使われている用語がメインフレームの感がします。
--
_______________________________________________
Anthy-dev mailing list
[email protected]
http://lists.sourceforge.jp/mailman/listinfo/anthy-dev