Closed yamamoto-ryuzo closed 9 months ago
@yamamoto-ryuzo 2で良いとおもいますが、1,2の作業内容についてどのような違いがでてくるのか理解できていません。そのあたりを開示可能な範囲で(必要に応じて抽象化して)説明いただくことはできますか?
@urashin ザックリ言うと 1.前提条件 結構、自治体はあらゆる情報を持っている
2.簡単なデータ処理の差 ・特定の自治体での利用を想定する場合 自治体標準オープンデータセットへ例えば、その自治体のコード等を入れるとことは定数で処理できる 例)全国地方公共団体コード 011002 とかの定数 ・不特定の自治体での利用を想定する場合 一応、データからそれがどこの自治体かを判断し、変数として処理しなければならない 例)地方公公共団体名等リレーションの対象となる属性を探してコードを参照 3.複雑?なデータ ・特定の自治体での利用を想定する場合 座標-字ID等の関係が明らかなので、自治体の持つ地籍座標から検索 例)字:山本 はどこか明白 ・不特定の自治体での利用を想定する場合 座標-字ID等の関係が国のアドレスベースレジストリに頼るとして、全国となると結構大きいデータ 例)字:山本 は全国にたくさんあってどこの市区町村なのかの検索から始まる などなど、2を目指すと結構大変。 「自治体が持つクローズドデータからオープンデータを生成について」ならば1を前提でよいのではと思いました。
追伸 1.の場合でも、当然自治体ごとにカスタマイズするのではなくて、コンフィグファイルとかで対応できる仕組みは前提だと思います。
訂正です コンフィグはシステムを複雑にするので失敗例でした。 JSONを採用しているので、 "全国地方公共団体コード" : "%011002%" %-----% は定数 "全国地方公共団体コード" : ["定数","011002"] 定数と宣言 みたいな感じはいかがでしょうか。 これにより、データ置き換え及び読み込みデータチェックの両方を行えば、変換エラーチェックもできるような気がします。 朝の思い付きでした・・・
いったん、1で動いているようなので。 以下へ引き継いでクロースです。
https://github.com/dx-junkyard/OpenData-Bridge-DataNorm/issues/18 https://github.com/dx-junkyard/OpenData-Bridge-DataNorm/issues/19
プロンプト作成において、例えば緯度経度の情報を字とかで生成する場合について
1.特定の自治体での利用を想定する場合 その自治体のデータのみがあればいい 2.不特定の自治体での利用を想定する場合 精度は低いが全国的なデータが必要
となると思うのですが、1.2どちらを目指すのでしょうか。 12/05の打ち合わせでは2となっていましたが、「自治体が持つクローズドデータからオープンデータを生成について」となる前提なら、そもそも前提となるデータの品質や量が変わるのでコンセプト自体も変わると思います。
一応、Discordにも投稿しますが、解答は話が流れ意味不明にならないため、こちらで回答お願いします。