SatAI.challenge 勉強会 みんなで作るメタサーベイ
衛星データを活用したマルチモーダルAI 編
2025/4/12(土)に外部の発表者を交えたリモートセンシングxマルチモーダルAIの論文紹介を行う勉強会を開催しました(connpassリンク)。
A multimodal data fusion model for accurate and interpretable urban land use mapping with uncertainty analysis(Takayuki Shinohara)
本研究では、都市土地利用マッピングの精度向上と解釈性の強化を行うために、人口密度とタクシーデータとリモセン画像を統合的に扱うMDFNetを提案しました。シンセン市を対象に、土地利用分類を行った結果、画像だけでは達成できなかった分類が可能になり、さらにアテンションの値を可視化してどのモーダルが効くかの解釈も可能であることを示した。
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization (Kota Yuhara)
本研究では、全世界のどこで撮影された画像からでもそのGPS座標を特定するタスクにおいて、画像の特徴とGPS座標の特徴を直接結びつけるCLIPに着想を得た検索ベースの手法(GeoCLIP)を提案しています。GeoCLIPによって、少ない訓練データ(全体の20%)でも競争力のある高い精度が得られ、さらに画像だけでなくテキスト情報を用いた地理位置情報の特定も可能になります。
SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery (takeofuture7)
本研究は、衛星画像とその位置情報(緯度・経度)との対照学習を通じて、全地球規模で利用可能な汎用位置埋め込み「SatCLIP」を構築する手法を提案しています。 画像エンコーダ(MoCo事前学習済みのResNet/ViT)と、球面調和+Sirenによる位置エンコーダを組み合わせ、CLIP Lossで両者の特徴空間を統一することで、環境・社会経済タスクで高い予測性能と地理的汎化性を実現しました。
Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment, (Shu Hiroki)
AIをはじめとする自動分析手法は、日々取得される膨大な衛星画像データを効率的に処理する上で不可欠です。特に、Open-vocabularyモデルは、従来のAIモデルのように固定された概念(例: 建物、植生、車両など)しか認識できないのではなく、多種多様な概念を認識できる点で、衛星画像分析に適しています。 しかし、Open-vocabularyモデルを構築するには、膨大な数の衛星画像と言語(キャプション)のペアデータセットを用いてモデルをトレーニングする必要があります。ところが、衛星画像にキャプションを付与する作業には多大な労力がかかり、実現は非常に困難です。そこで本研究では、ジオタグ付き地上画像を活用して地上画像と衛星画像のペアを構築し、それを介して、Open-vocabularyモデルである CLIP が獲得したテキスト表現にアクセスすることで、テキストアノテーションを必要としない衛星画像向けOpen-vocabularyモデルを構築する手法 GRAFT を提案しました。 GRAFTによって構築されたモデルは、従来のテキストアノテーションを用いてトレーニングされたCLIPモデルと比較して、Zero-shotの画像レベルおよびピクセルレベルのタスクにおいて大幅に優れた性能を示しました。本研究は、大量のテキストアノテーションを用意するよりも、大量の地上画像を活用し、間接的にテキスト表現を獲得するアプローチがより効果的であることを証明しました。
SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imager (Naoyoshi Hirade)
SkySenseはWorldView-3/4の高空間分解能光学衛星データ、Sentinel-2の時系列中空間分解能光学衛星データ、Sentinel-1の時系列中空間分解能SAR衛星データという3つのモダリティを統合し、マルチモーダルな特徴学習を実現する自己教師ありの大規模リモートセンシング地理空間基盤モデルです。時系列データ、複数スケール、モダリティ間、地理的特徴を学習させることで汎用性のあるモデルの作成が可能となりました。SkySenseを用いて、ベンチマークを比較した結果、7つのタスク/16のデータセットでSoTAを達成しました。
Adaptive fusion of multi-modal remote sensing data for optimal sub-fieldcrop yield prediction (Ringun)
本研究では、作物予測タスクにおいて、複数モダリティの重み付けをデータごとに動的に切り替えることで、天候や地域特性に応じた柔軟な予測を可能にするMulti‑Modal Gated Fusion(MMGF)手法を提案。従来の単一モダリティモデルや静的融合手法では達成できなかった一貫した性能向上と高い解釈性を実証した。
CSP: Self-Supervised Contrastive Spatial Pre-Training for Geospatial-Visual Representations (Kazuma Nakata)
地球上の位置情報(緯度、経度)と、対応する画像の埋め込み特徴ペアを学習する自己教師あり事前学習を提案しています。これにより、テストデータ推論時に画像特徴と位置情報をマルチモーダルとして入力可能となり、推論の精度向上が期待できます。また、大量のラベルなしデータを学習することでラベル付きデータが少量の場合でも高精度な推論を可能にします。実験では、従来手法としてシングルモダリティ(画像のみ入力)やラベルなしデータを用いない場合と比較して最大34%の精度向上を実現しました。
Self-supervised audiovisual representation learning for remote sensing data (Ryo Nakamura)
本研究では、ジオタグ付きの音声情報とその位置情報から取得した航空写真のペアデータセットSoundingEarthを提案、音声情報と航空写真の対照学習の性能を向上するための学習方法Batch Triplet Lossを提案しています。航空写真認識において、視覚情報だけでなく、音声情報を活用することで高精度な認識が行えることを示した。