伟德国际新闻

我们芮小平老师团队在洪灾监测与多模态预训练模型交叉领域取得进展

发布时间:2025-04-30浏览次数:10文章来源:地学院

洪水灾害频发对全球生态环境和人类社会造成重大威胁,快速准确的洪水监测是灾害预警与管理的关键环节。洪水监测需要整合多源数据,而社交媒体图像和文本等多模态数据虽蕴含丰富实时信息,但存在标注不足、场景复杂等问题。传统洪灾图文分类方法依赖单一模态数据,忽视文本信息的辅助作用。此外,现有数据集多关注严重洪水场景,缺乏对早期、后期等多阶段洪水的覆盖,导致模型泛化能力受限。因此,亟需结合多模态信息与高效算法提升监测精度。 


我们22级博士生汤恒及其所在团队针对这一挑战,开发了适配洪灾场景的新型视觉语言预训练框架 SLIP-Flood,并首次构建了两类海量的洪灾多模态基础数据集:FloodMulS(包含46.5万张多场景洪灾图像及类别标签)、FloodIT(包含23.7万组洪灾相关图文对,且共有118.5万条英文描述文本)。并基于此数据集,通过跨模态数据融合与创新策略(软分类策略、软结合策略),显著提升了洪灾图文分类及图文检索性能,为洪水灾害的智能化监测提供了重要技术支撑。 通过多组实验验证,SLIP-Flood框架在洪水图像分类、图像-文本检索等任务中表现优异:与传统“硬分类”策略相比,软组合策略使洪水相关类别的F1分数最高提升7.62%,误分类率降低12%-28%;图像-文本检索任务中,洪水相关类别的召回率最高达89.24%,实现了从文本描述到洪水图像的精准匹配;框架支持洪水图像分类、辅助文本分类等多任务,为洪水灾害的实时监测、应急响应和灾后评估提供了多维度数据支持。为了促进本研究领域的进一步发展,该团队已将获得的工作成果(数据集、预训练模型)进行开源。 


相关研究成果发表于国际权威TOP期刊《International Journal of Applied Earth Observation and Geoinformation》(影响因子7.6,JCR一区),论文题为“SLIP-flood: Soft-combination of Swin Transformer and Lightweight Language-Image Pre-training for Flood Images Classification”。地学院22级博士研究生汤恒为第一作者,芮小平教授为通讯作者。

  论文信息:Tang, H., Rui, X., Li, J., Ouyang, N., Xie, Y., Liu, X., Bi, Y., 2025. SLIP-flood: Soft-combination of Swin Transformer and Lightweight Language-Image Pre-training for Flood Images Classification. International Journal of Applied Earth Observation and Geoinformation, 139, 104543.

  论文链接:https://doi.org/10.1016/j.jag.2025.104543

 


上一篇:下一篇: