気象庁データダンプ(をくれ!)
「東京は暑くてムリ」「チャットによると仙台は涼しいらしいよ」「天気予報見てたら仙台も暑かったよ」という会話があったので、どこかにデータないかな・・・と調べたら気象庁にあった
がしかし、CSV のダウンロードサイズ制限厳しすぎてだりーしかも Shift-JIS と来たもんだ・・・
が、めげず、いい機会だから Colab に逃げるのをぐっと我慢し simonw も推薦する marimo で適当に可視化。チャットインテグレーションがあるのでデータの整形もかんたーん、といいたいところだが Pandas のコードはどうがんばってもゴミ化しがちなのでさっさと諦め duckdb で reshape. いい時代になったもんです。
仙台、2022 までは涼しかったが 23, 24, 25 と三年続けて8月の最高気温平均が 30 度を大幅に超えており、仙台が涼しい時代は終わっていたらしい。
それはさておきいくら marimo と duckdb が素晴らしくても気象庁の SJIS CSV データダウンロードのサイズ制限がある限りこれ以上 EDA する気が起きないんだけど、どっかにデータダンプないんですかね・・・ GCP に置いて BigQuery 使わせろ・・・とはいいません AWS と Parquet でいいから!たのむ!
FAQ を見たところ 気象業務支援センター Japan Meteorological Business Support Center から磁気メディアで買えるらしいまじか・・・俺達の税金(払ってないけど)・・・。
Bot でも書いてぜんぶぶっこ抜くか・・・とおもいページを眺めると:
- アクセス集中の原因となりますので、自動化ツール等による過度のアクセスはお控えいただくようお願いいたします。
おまえらがそのデータを BQ なり S3 … じゃなくていいいですよ Torrent にでも流してくれれば!アクセスは!!集中しないんだよ!!!アホか!!!!
クラウド業者の営業のひと、がんばって気象庁を説得してデータをホストしてあげて!人類のためだから!
追記
追記2
気象庁|過去の気象データ検索 このページを scrape すれば必要なデータは取得できそうである。