これまでの内部勉強会スライド
SatAI.challengeの内部勉強会で発表したリモートセンシングxAIに関する論文のスライドをまとめています。
第9回 SatAI.challenge 勉強会
2025年3月17日
Pix2Poly: A Sequence Prediction Method for End-to-end Polygonal Building Footprint Extraction from Remote Sensing Imagery
本研究では、衛星画像からの建物抽出タスクにおいて建物のセグメンテーションマスクを作成せずに直接End-to-Endに建物のポリゴンをグラフとして推定する手法(Pix2Poly)を提案しています。Pix2Polyによって、少ないパラメータでもマスクベースのセグメンテーション手法よりも、建物の角や辺の形状の再現性が高い結果が得られます。
EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing
本研究では、Visual Prompting が可能な EarthMarker というマルチモーダル大規模言語モデル(MLLM)を構築し、image-level、region-level、point-level の各レベルで大規模言語モデルによる衛星画像の自動判読を実現しました。その結果、複数の下流タスクにおいて、従来の MLLM を大幅に上回る性能を達成しました。さらに、Visual Prompting MLLM を構築するためのフレームワークと、新しいデータセットも同時に提案しています。
第8回 SatAI.challenge 勉強会
2025年2月27日
Scale-Aware Recognition in Satellite images Under Resource Constraints
紹介する論文は、「Scale-Aware Recognition in Satellite images Under Resource Constraints」です。本研究では、予算制約がある衛星画像の認識(画像検索)で正確な性能を出すために以下の(1)~(3)の方法を用いています。(1)LLMが衛星画像認識する概念を理解し、概念のスケールに応じてどの解像度(高解像度or 低解像度)が認識において適切なのかを判断します。(2) 高解像度画像が適切な概念の認識タスクが来た時に、それでも予算を節約するために高解像度モデルを低解像度モデルに知識蒸留をする手法を用いて、高解像度知識蒸留モデルで高解像度画像の認識性能を高めます。(3)知識蒸留を用いても認識できない画像があるので、不一致度と呼ばれる指標を計算し、高解像度画像が必要なケースを特定します。
VAGeo: View-specific Attention for Cross-View Object Geo-Localization
紹介する論文は、「VAGeo: View-specific Attention for Cross-View Object Geo-Localization」です。 本研究では、位置情報が分からない地上やドローン視点の画像に映る物体の位置を、衛星画像を手がかりに推定する手法を提案しています。この研究では、地上・ドローン視点の画像と衛星画像では見え方が大きく異なるため、AIモデルがその違いを理解し、画像のどこに注目すればよいかを適切に学習できるよう工夫しています。
第7回 SatAI.challenge 勉強会
2025年2月15日
Dynamic World, Near real-time global 10 m land use land cover mapping
今回紹介する論文「Dynamic World, Near real-time global 10 m land use land cover mapping」では、高解像度な土地被覆分類図の衛星画像撮影時点からのほぼリアルタイムでの作成を目標として、Google Earth Engineと深層学習モデルを組み合わせた手法が提案されています。従来の衛星画像を利用した土地被覆分類図では空間解像度の低さや更新頻度が1年に一度程度であり、小規模農家の拡大や森林伐採などをとらえることに課題を抱えていました。本研究ではクラウド計算環境であるGoogle Earth Engine上に蓄積された10 m空間解像度のSentinel-2画像に対して軽量な深層学習モデルを適用することで、土地被覆分類図をほぼリアルタイムで作成することに成功しました。また、Dynamic Worldは既存のグローバルレベルな土地被覆分類図よりも精度に優れ、また時系列的な情報の活用も可能であるなど、変動する地球環境を分析する上での活用が期待されます。
Individual tree crown delineation in high resolution aerial RGB imagery using StarDist-based model
紹介する論文は、「Individual tree crown delineation in high resolution aerial RGB imagery using StarDist-based model」です。本研究は、航空RGB画像を用いた混合林環境における個々の樹冠抽出タスクに対し、元々細胞核抽出に用いられていたStarDistモデルを適用しています。StarDistでは、各樹冠を星状凸多角形で表現することで、複雑な樹冠形状を高精度に捉えることが可能となります。本論文では、U-Netベースのネットワークを用いて、樹冠存在確率と樹冠中心から多角形の各頂点までの距離を同時に予測したのち、重なりの大きい樹冠候補を排除する手法を提案しています。これにより、Mask R-CNNのような深層学習ベースの従来手法と比較して、樹冠抽出精度の向上が実現されています。今後はハイパースペクトルデータを組み合わせた改善が期待されます。
第6回 SatAI.challenge 勉強会
2025年1月27日
A Segment Anything Model based weakly supervised learning method for crop mapping using Sentinel-2 time series images
紹介する論文は、「A Segment Anything Model based weakly supervised learning method for crop mapping using Sentinel-2 time series images」です。Sentinel-2画像から農地区画を認識するタスクに対して、基盤モデルのSAMを活用しています。SAMではポイントやバウンディングボックスといった物体に対するおおまかな入力で、物体の高精度なセグメンテーションが可能になります。本論文ではSAMをSentinel-2画像にファインチューニングし、農地区画ごとの境界線に重点を置いたロスの設計を行います。これらにより、ポイントやバウンディングボックスのような農地区画領域の弱教師からでも高精度な疑似ラベルが作成可能となり、疑似ラベルを用いた領域分割モデルを精度良く学習するデータとして活用します。
Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications
紹介する論文は 「Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications」です。 Prithvi-EO-2.0は地球観測データを活用した多用途の基盤モデルであり、Harmonized Landsat-8/9 および Sentinel-2 のデータを基に、時系列データ(マルチテンポラルデータ)を活用し、季節変動や環境変化を適切に捉えられる設計となっています。合計 4.2M パッチ(1パッチ 256×256ピクセル)のデータで事前学習を行い、緯度・経度および時間情報を埋め込むことで、地理的・時間的な変動を考慮した高精度な予測が可能となりました。モデルの評価では、GEO-Bench(地球観測タスク向けのベンチマーク)を用いた分類・セグメンテーションタスクにおいて、競合モデルおよび旧バージョン(Prithvi-EO-1.0)を上回る性能を達成しました。
第5回 SatAI.challenge 勉強会
2025年1月9日
Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment
紹介する論文は、「Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment」(ICLR 2024)です。AIをはじめとする自動分析手法は、日々取得される膨大な衛星画像データを効率的に処理する上で不可欠です。特に、Open-vocabularyモデルは、従来のAIモデルのように固定された概念(例: 建物、植生、車両など)しか認識できないのではなく、多種多様な概念を認識できる点で、衛星画像分析に適しています。 しかし、Open-vocabularyモデルを構築するには、膨大な数の衛星画像と言語(キャプション)のペアデータセットを用いてモデルをトレーニングする必要があります。ところが、衛星画像にキャプションを付与する作業には多大な労力がかかり、実現は非常に困難です。そこで本研究では、ジオタグ付き地上画像を活用して地上画像と衛星画像のペアを構築し、それを介して、Open-vocabularyモデルである CLIP が獲得したテキスト表現にアクセスすることで、テキストアノテーションを必要としない衛星画像向けOpen-vocabularyモデルを構築する手法 GRAFT を提案しました。 GRAFTによって構築されたモデルは、従来のテキストアノテーションを用いてトレーニングされたCLIPモデルと比較して、Zero-shotの画像レベルおよびピクセルレベルのタスクにおいて大幅に優れた性能を示しました。本研究は、大量のテキストアノテーションを用意するよりも、大量の地上画像を活用し、間接的にテキスト表現を獲得するアプローチがより効果的であることを証明しました。
Satellite Sunroof: High-res Digital Surface Models and Roof Segmentation for Global Solar Mapping
紹介する論文は、「Satellite Sunroof: High-res Digital Surface Models and Roof Segmentation for Global Solar Mapping」(arXiv 2024)です。従来のSolar API(Google, 2024)での住居の太陽光発電ポテンシャル計算は高品質な航空写真が整備されているアメリカやヨーロッパ、日本といった地域において100万件以上の住居のプロジェクトで利用されてきました。これを衛星画像に置き換えることができれば、航空写真が整備されていない地域や、衛星画像が航空写真より高頻度に撮影されていることから頻繁に更新できるようになります。本研究では衛星画像を利用したモデルを構築することで、より広範囲において太陽光発電ポテンシャルを計算することができるようになりました。 具体的にはRGBの衛星画像および低分解能のDSMを入力とし、高分解能なDSM・直下視RGB画像・屋根セグメントを出力するU-Net構造のモデルを構築しました。本モデルによりフィリピンなど一部の国で精度が出ない場合があるが、ほとんどの国においてある程度の精度が確認されました。今後はより正確に太陽光発電ポテンシャルを計算できるようにしていく予定です。
第4回 SatAI.challenge 勉強会
2025年12月28日
SpectralMamba: Efficient Mamba for Hyperspectral Image Classification
紹介する論文は、「SpectralMamba: Efficient Mamba for Hyperspectral Image Classification」(arXiv 2024)です。ハイパースペクトル画像は、光の波長ごとに異なる反射率を持つ物体を撮影した画像であり、地表面の成分分析や植生の光合成活性度の推定などに広く用いられています。しかし、ハイパースペクトル画像は航空写真や衛星画像と比較して、解像度が低く、物体の形状や位置を特定することが難しいという課題があります。
Trend Classification of InSAR Displacement Time Series Using SAE–CNN
紹介する論文は、「Trend Classification of InSAR Displacement Time Series Using SAE–CNN」(Remote Sens. 2024)です。干渉SAR時系列処理(Persistent Scatterer InSAR, PSInSAR)によって、地盤の変位をモニタリングすることが可能となりました。しかし、実利用を考えると、変位が人間の生活にどのような影響を与えるのかを「分類」する必要がありますが、現状ではこの分類を自動的に処理する方法が確立されていません。そこで本研究では、PS-InSARの時系列変位データに対して、「安定」「線形」「減速」「加速」「エラー」の5つのカテゴリに分類するための、AutoEncoderとCNNを組み合わせた分類手法(SAE-CNN)を提案しました。 Sentinel-1データを用いた実験を昆明市で実施した結果、本手法はF1スコア0.952を達成し、高い分類性能を示しました。
第3回 SatAI.challenge 勉強会
2025年12月6日
Segment Any Change
紹介する論文では、Segment Anything Model(SAM)を活用したzero-shotの変化検出モデルしています。 具体的には、2時点(過去と現在)の衛星画像を入力し、2時点のSAMの提案マスクとEncoderが出力する中間特徴量(埋め込みベクトル)を取得するSAM fowardという操作を行います。その後、①過去の衛星画像のマスクに対応する過去と現在の中間特徴量を比較し非類似度を計算する操作、逆に②現在から得られたマスクに対応する過去と現在の中間特徴量比較し非類似度を計算する操作を双方向に行うBitemporal Latent Matchingと呼ぶ計算を行います。その後、このモデルでは、計算された非類似度をソーティングし、ユーザーが指定したハイパーパラメータに基づいが数の変化検出マスクを出力することでzero-shotの変化検出を実現しています。
Building Height Estimation Using Shadow Length in Satellite Imagery
紹介する論文は、1枚の衛星画像から建物の高さを推定する手法を提案したものです。この研究では、建物の高さを深層学習モデルで直接推定するのではなく、衛星画像に映る影の長さを深層学習モデルで推定し、その結果を用いて関係式に基づき建物の高さを算出しています。
第2回 SatAI.challenge 勉強会
2025年11月15日
Retrieval of Hurricane Rain Rate From SAR Images Based on Artificial Neural Network
紹介する論文ではSAR画像から海上にいるハリケーンの降雨量を推定するモデルをニューラルネットワークを用いて構築しています。従来からSAR画像から海上風を推測する研究はいくつか存在しますが、SAR画像から降雨量をニューラルネットワークを用いて推測する研究はほとんどありませんでした。ニューラルネットワークを用いることで従来は中間過程を経て計算される降雨量を直接出力することができるようになりました。学習したネットワークをハリケーンダグラスに適用したところGPM衛星の観測結果と似た結果になり、一定の有用性が示されました。
Evaluating Tool-Augmented Agents in Remote Sensing Platforms
紹介する論文は、「Evaluating Tool-Augmented Agents in Remote Sensing Platforms」(ICLR ML4RS Workshop)です。本研究では、従来の研究が主に画像とテキストのペアを用いた状況でLLMエージェントの性能を評価していた一方で、実際のリモートセンシングプラットフォーム上での性能評価が行われていなかった点に着目しています。そのため、LLMエージェントが、ズーム、衛星画像の読み込み、物体検知モデルの利用など、一連のステップを正確に実行し、最終的に正確な答えを導き出す能力については十分に検証されていませんでした。本研究では、こうした課題に対応するため、LLMエージェントを実プラットフォームに近い環境で評価可能なベンチマーク「GeoLLM-QA」を開発しました。このベンチマークを用いた評価の結果、強力なLLMエージェントを構築するためには、従来の画像とテキストのペアによる評価だけでは不十分であり、エージェントが答えに至るプロセスそのものを評価する必要性が明らかになりました。
第1回 SatAI.challenge 勉強会
2025年10月17日
Composed image retrieval for remote sensing
紹介する論文は、テキストと画像をクエリとして衛星画像を検索するタスク「組み合わせ衛星画像」を初めて取り組んだものです。CLIPで学習されたテキスト・画像エンコーダーに対応するデータを入力し、得られたベクトルを重みつき平均をとったベクトルを用いて衛星画像検索を行っています。
Geospecific View Generation - Geometry-Context Aware High-resolution Ground View Inference from Satellite Views
紹介する論文はマルチビューの光学衛星画像から地上のパノラマ写真を作成するタスクに対して、「建物の側面のテクスチャ」を条件にして「作成対象の都市をクエリとした」テキストto画像の拡散モデルによる画像生成で取り組んだものです。