Spatial flood susceptibility assessment using boosting and bagging in machine learning techniques
مریم جهانبانی 1 , hossein aghamohammadi 2 , Mohammad Hassan vahidnia 3 , Zahra Azizi 4
1 - دانشکده منابع طبیعی و محیط زیست، دانشگاه آزاد اسلامی، واحد علوم و تحقیقات، تهران، ایران.
2 - Assistant Professor, Department of Remote Sensing and GIS, Faculty of Natural Resources and Environment, Science and Research Branch, Islamic Azad University, Tehran, Iran
3 - Assistant Professor, Department of Remote Sensing and GIS, Faculty of Natural Resources and Environment, Science and Research Branch, Islamic Azad University, Tehran, Iran
4 - Assistant Professor, Department of Remote Sensing and GIS, Faculty of Natural Resources and Environment, Science and Research Branch, Islamic Azad University, Tehran, Iran.
Keywords: flood, spatial information system, Ensemble machine learning models, Adaptive Boosting algorithm, Bagging algorithm.,
Abstract :
Every year flooding causes countries billions of dollars’ worth of damage that threatens the livelihood of individuals. As a result, it poses significant socio-economic threats to populations worldwide. Therefore, it should be controlled and restrained. In this regard, machine learning algorithms, along with geographic information systems, are primary tools that are effective in flood control modeling and analysis. The purpose of this research is to identify a part of flood-sensitive regions across the Heraz catchment area in Mazandaran province using ensemble methods in machine learning algorithms. The research process is as follows: first, the data of flood points were prepared. Next, 70% of approximately 240 sample positions were used for modeling and map preparation. The remaining 30%, which were randomly selected, were used to validate the produced maps. Then, the effective factors, including slope angle, slope direction, topography, soil type, land cover, distance from the river, annual rainfall, normalized difference vegetation index, index of sediment transmittance, index of topographic wetness, and index of stream density have been used to weight the impact of each factor using machine learning algorithms. Based on the results of this study, the system performance characteristic curve (ROC) was drawn, and the area under the curve (AUC) was calculated to validate the flood-prone area map. Findings demonstrated that the Adaptive Boosting model is more accurate than the Bagging model in preparing a flood sensitivity map. Predictive susceptibility mapping plays a pivotal role in enabling urban planners and managers to mitigate and safeguard proactively against the adverse consequences of flooding. Flood management authorities in the Ministry of Energy can employ the proposed ensemble model to assist disaster management and mitigate hazards in future studies. .
مجله تحقیقات منابع طبیعی تجدیدشونده، سال چهاردهم، شماره2، پائیز و زمستان 1402(پیاپی چهل )، ص 115-101، نوع مقاله : علمی پژوهشی/101
ارزیابی مکانی حساسیت سیلگیری با استفاده از
روشهای تقویت تطبیقی و بستهبندی در یادگیری ماشین
مريم جهانباني1، حسین آقامحمدی2*، محمدحسن وحيدنيا3 و زهرا عزیزی4
1) دانشجوی دکتری رشته سنجش از دور و GIS، دانشکده منابع طبیعی و محیط زیست، دانشگاه آزاد اسلامي، واحد علوم و تحقیقات، تهران، ایران.
2) استادیار گروه سنجش از دور و GIS، دانشکده منابع طبیعی و محیط زیست، دانشگاه آزاد اسلامي، واحد علوم و تحقیقات، تهران، ایران.
*رایانامه نویسنده مسئول مکاتبات: aghamohammadi@srbiau.ac.ir
3) استادیار مرکز مطالعات سنجش از دور و GIS، دانشکده علوم زمین، دانشگاه شهید بهشتی، تهران، ایران.
4) استاد یار گروه سنجش از دور و GIS، دانشکده منابع طبیعی و محیط زیست، دانشگاه آزاد اسلامي، واحد علوم و تحقیقات، تهران، ایران.
تاریخ دریافت: 29/08/1402 تاریخ پذیرش: 09/12/1402
چکيده
سیل هر ساله میلیاردها دلار خسارت به کشورها وارد میسازد و از این طریق معیشت افراد را تهدید میکند. این امر سبب ایجاد تهدیدات اجتماعی- اقتصادی قابل توجهی برای جمعیت سراسر جهان شده که باید کنترل و مهار گردد. در این راستا الگوریتمهای یادگیری ماشین به همراه سیستمهای اطلاعات جغرافیایی، ابزارهای اولیهای هستند که در مدلسازی و تحلیل کنترل سیلاب موثر میباشند. هدف از پژوهش حاضر شناسایی بخشی از مناطق در معرض خطر سیل در حوضه آبریز رودخانه هراز در استان مازندران با استفاده از روشهای مجموعهای در الگوریتمهای یادگیری ماشینی است. روند پژوهش بدین صورت بود که ابتدا دادههای نقاط سیلابی با استفاده از تحقیقات میدانی و همچنین بهدست آوردن آمار سیلهای گذشته از سازمان آب منطقهای مازندران تهیه شد. سپس 70 درصد از حدود 240 موقعیت نمونه برای مدلسازی و 30 درصد باقیمانده برای اعتبارسنجی نقشههای تولیدشده استفاده شد. معیارهای موثر در این خصوص شامل زاویه شیب، جهت شیب، توپوگرافی، نوع خاک، پوشش زمین، فاصله از رودخانه، بارندگی، شاخص پوشش گیاهی تفاوت نرمال شده، شاخص انتقال رسوب، شاخص رطوبت توپوگرافیک و شاخص تراکم آبراهه برای وزن دادن تاثیر هر عامل با استفاده از الگوریتمهای یادگیری ماشین جمعی بود. براساس نتایج این مطالعه، منحنی مشخصه عملکرد سیستم (ROC) ترسیم شد و مساحت زیر منحنی (AUC) برای اعتبارسنجی نقشه منطقه مستعد سیل محاسبه گشت. یافتهها نشان داد مدل تقویت تطبیقی دقیقتر از مدل بگینگ در تهیه نقشه حساسیت سیلگیری بود. تهیه نقشه حساسیت سیلگیری نقش محوری در توانمندسازی برنامهریزان و مدیران شهری جهت کاهش و حفاظت پیشگیرانه در برابر پیامدهای نامطلوب سیل بازی میکند و مقامات مدیریت سیل در وزارت نیرو میتوانند از مدل مجموعه پیشنهادی جهت کمک به مدیریت بلایا و کاهش خطرات در مطالعات آتی استفاده نمایند.
واژههای کلیدی: الگوریتم بگینگ، الگوریتم تقویت تطبیقی، سیل، سیستم اطلاعات مکانی، مدلهای یادگیری ماشین ترکیبی.
مقدمه
سیل یکی از رخدادهای هیدرواقلیمی و از پدیدههای مخاطرهانگیز طبیعی است که جوامع بشری را همواره تهدید میکند. سیل یعنی هرگونه افزایش در جریان رودخانه که از ظرفیت رودخانه بیشتر باشد و پهنهای از زمین را که در شرایط عادی زیرآب نیست، فرا گیرد (Yang et al., 2015). از دلایل تکرار فراوان این پدیده برهم خوردن تعادل هیدرولوژیکی و اکولوژی همانند تغییرات کاربری در طول حوضه (Yari et al., 2019) و تغییر اقلیم و همچنین از بین بردن جنگلها (Vajda et al., 2020) میباشد. در این پژوهش به تهیه نقشه خطرپذیری سیلاب در سطح حوضه آبریز هراز پرداخته شد. رود هراز، رودی در استان مازندران در شمال ایران است که از دره لار در جنوب کوه دماوند سرچشمه گرفته و به دریای خزر میریزد. آب زراعی کشاورزان آمل، فریدونکنار، بخشی از بابل و نور نیز از این رودخانه تامین میگردد. در تاریخ ۲۶ اسفند ۱۳۹۷ بر اثر بارندگیهای شدید در استانهای شمالی ایران از جمله گلستان و مازندران سیل جاری شد. این سیل موجب خسارتهای مالی برای ساکنین این استانها و همچنین فوت ۱۳ نفر و مصدوم شدن حداقل ۱۱۶ نفر شد. یکی از راهکارهاي اساسی جهت کاهش خسارت ناشی از سیل، تهیه و استفاده از نقشههای حساسیت خطرپذیری سیل در سیاستگذاريها و برنامهریزيهاي عملیاتی و اجرایی است. برای تهیه اینگونه نقشهها از سیستم اطلاعات مکانی و تصاویر سنجش از دور استفاده میگردد. سیستمهای اطلاعات مکانی (جغرافیایی) سیستمی است که در دادهکاوی مکانمحور مورد استفاده قرار میگیرد. بهمنظور دقیقتر شدن نقشه خطرپذیری سیل از الگوریتمهای یادگیری ماشین مانند آدابوست1 و بگینگ2 جهت مدلسازی استفاده میشود. این الگوریتمها جز طبقهبندیهای ترکیبی هستند و تاکنون مطالعات بسیاری در زمینه سیل و تهیه نقشه حساسیت سیل با روشهای مختلف صورت پذیرفته است. این مدلها انواع مختلفی منجمله تحلیل تصمیمگیری چند معیاره (Abdullah et al., 2021) مانند تاپسیس (Rafiei-Sardooi et al., 2021; Akay et al., 2021)، فرآیند تحلیل شبکه (Gudiyangada et al., 2020) و روش تحلیل سلسله مراتبی (Bera et al., 2022; Bui et al., 2023) دارند. روشهای تحلیل تصمیم چندمعیاره، زمانی استفاده میشود که بیش از یک معیار در نظر گرفته شود. تصمیمگیرندگان معیارهای ارزیابی را برای انتخاب از بین گزینهها وزن میکنند. روشهای آماری برای ارزیابی رابطه سیلاب و عوامل موثر بر آن جز روشهای سریع و آسان میباشند. روش های آماری مورد استفاده در این امر عبارتند از: نسبت فراوانی و وزن شواهد (Plataridis & Mallios, 2023)، رگرسیون لجستیک (Shafapour Tehrany et al., 2019; Pham et al., 2021; Ali et al., 2019) و تحلیل مولفه اصلی (Sahana & Patel, 2019). مدلهای هیدرولوژیکی مانند ابزار ارزیابی آب و خاک نیز مورد استفاده قرار میگیرند (Wijayarathne & Coulibaly, 2020). در سالهای اخیر، روشهای مختلف متعددی جهت تهیه نقشه حساسیت خطرپذیری سیلاب با افزایش علاقه به تکنیکهای یادگیری ماشین استفاده شده است (Hasanuzzaman et al., 2022; Seydi et al., 2022; Saikh & Mondal, 2023). تکنیکهای رایج یادگیری ماشین، مانند ماشینهای بردار پشتیبان (Khosravi et al., 2019)، شبکههای عصبی مصنوعی (Wang et al., 2020)، جنگل تصادفی (Chen et al., 2019; Avand et al., 2019) و درختان تصمیم (Chen et al,2020) همه در پیشبینی مناطق مستعد سیلاب کارآیی دارند. مزیت این است که مدلهای ترکیبی میتوانند نقاط ضعف مدلهای فردی را حذف کنند تا نتایج دقیقتری بهدست آورند (Nguyen et al., 2023).
مواد و روشها
دادهها: منطقه مورد مطالعه در محدوده جغرافیایی 52 درجه، 3 دقیقه، 30 ثانیه طول شرقی و 36 درجه، 34 دقیقه، 6 ثانیه عرض شمالی قرار گرفته است (شکل 1). محدوده مورد نظر در شبکه مختصات UTM در زون 39 قرار داشته و فاصله آن تا ساحل دریا به کمتراز 300 متر میرسد. ارتفاع آن از سطح دریاهای آزاد از 20 تا 43 متر است که شیب عمومی آن بین 3 -0 درصد میباشد. وجود دریای مازندران آب و هوای معتدل و مرطوب را در این منطقه بهوجود آورده است. حوضه آبریز رودخانه هراز و رودخانههای بین هراز و قرهسو با نام اختصاری هراز- نکا یکی از حوضههای باز ایران است که در تقسیمبندی حوضههای آبریز ایران، حوضه فرعی بهشمار میرود و زیرمجموعه حوضه آبریز دریای مازندران است. مساحت این حوضه، ۱۸,۶۴۴ کیلومترمربع است و مهمترین رودهای آن بابلرود، هراز و تجن میباشند (افشین، 1374). پس از سرازیر شدن رود هراز از دره لار، روانابهای دره قاضیکلا و جنگلدره از کوههای شمیمکوه، آب زیارو و لاسم از کوههای غربی قزقانچای فیروزکوه و آب رودهای جاری از دهکدههای دلارستاق نیز به این رود وارد میشوند. شیب رودخانه هراز در محدوده کوهستانی بسیار متغیر است و طول آن ۱۸۵ کیلومتر میباشد (ستوده، 1349).
پارامترهای موثر در وقوع سیل: متغیرهای مختلفی بر وقوع سیل در یک حوضه آبریز تاثیر میگذارند و تعیین پهنههای سیلابی حوضه آبریز فاکتور مهمی در بررسی دشتهای سیلابی است. در این رابطه، مهمترین عوامل و فاکتورهای موثر در وقوع سیل شامل ارتفاع، شیب زمین، جهت شیب، میزان بارندگی، شاخص رطوبت توپوگرافیک1، شاخص توان رودخانه2، شاخص پوشش گیاهی نرمالشده3، کاربری اراضی، گروههای خاک، فاصله از رودخانه، فاصله از آبراهه، تراکم آبراهه، شاخص قدرت آبراهه و شاخص حمل رسوب هستند (Saha et al., 2022).
Topographic Wetness Index (TWI) 2 Stream Power Index (SPI) 3 Normalized Difference Vegetation Index (NDVI) |
بارندگی و بافت خاک: از دیگر فاکتورهای مهم در وقوع سیل، عامل بارندگی است که در ارزیابی پتانسیل سیل حوضههای آبریز دارای اهمیت فراوانی است. بارندگی رابطه معنیداری با دبی رودخانه دارد و بهطور مستقیم وقوع سیل را کنترل میکند. دادههای مربوط به متوسط بارندگی سالیانه از سازمان کل هواشناسی استان مازندران اخذ گردید و سپس بهمنظور کنترل کیفی و آزمون همگنی آنها و رفع نواقص آماری از آزمون Run Test در محیط نرمافزار SPSS استفاده شد. سپس لایه اطلاعاتی آنها در محیط نرمافزار ARCGIS پیادهسازی شد. پس از بررسی دقت روشهای مختلف درونیابی در نرمافزار ARC GIS، لایه توزیع میانگین بارندگی سالانه حوزه آبخیز هراز بر اساس روش کریجینک ساده بهدلیل داشتن کمترین مقدار خطای میانگین ریشه مربعات1 تهیه شد. خاکها از نظر رنگ، بافت، مواد تشکیلدهنده و دانهبندی انواع مختلفی دارند. عمق خاكها نیز متفاوت است. نوع خاك در یك منطقه نوع گیاهانی كه میتواند در آن رشد كنند را تعیین میكند. پوشش گیاهی نقش مهمی در جلوگیری از فرسایش خاک دارد. جذب آب در خاک با توجه به تخلخل، تراکم و بافت خاک متفاوت است. آب بارش زمانی به سیلاب تبدیل می گردد که شدت بارش از شدت نفوذ آب به داخل خاک بیشتر باشد، بنابراین پارامتر نفوذپذیری خاک در کنار پارامترهایی همچون نوع پوشش گیاهی از مهمترین فاکتورهای ایجاد سیلاب در هر حوضهای محسوب میگردد. نقشه بافت هیدرولوژیکی خاک بهمنظور استفاده در مدلهای یادگیری ماشین تهیه شد و بهمنظور تهیه لایههای اطلاعاتی از محیط نرمافزار ARC GIS استفاده گشت.
شاخص پوشش گیاهی نرمال شده: شاخصی است که خصوصیات پوشش گیاهی منطقه و تراکم آنها را توصیف میکند. این امر خصوصیاتی که بر رواناب سطحی و قابلیت نفوذپذیری یک منطقه تاثیر میگذارد را مشخص میسازد. مناطق دارای تراکم پوشش گیاهی کمتر بیشتر مستعد سیل هستند. در پژوهش حاضر، بهمنظور تهیه نقشه تراکم پوشش گیاهی منطقه از شاخص تفاضل پوشش گیاهی نرمال شده استفاده شد. از تصویر سنجنده OLI مربوط به ماهواره LANDSAT 8 در قالب نرمافزار ENVI استفاده شد. این شاخص بین 1- و 1+ میباشد. با افزایش پوشش گیاهی، میزان ارزش حاصل از این نسبتگیری نیز افزایش مییابد. مقادیر منفی شاخص پوشش گیاهی نرمال شده (اعداد نزدیک به ۱-) نشاندهنده پهنههای آبی است. مقادیر نزدیک به صفر (بین 1/0- تا 1/0+) معمولا نشاندهنده سطوح برهنه سنگی، ماسهای یا برفی هستند. مقادیر پایین و مثبت شاخص (حدود 2/0+ تا 4/0+) نشاندهنده پوشش درختچهای و علفزار و مقادیر بالای شاخص (اعداد نزدیک به ۱+) نشاندهنده جنگلها میباشند. مقادیر شاخص پوشش گیاهی نرمالشده از طیف نور قرمز و مادون قرمز نزدیک بهدست میآید (Chen et al., 2019). در سنجنده لندست هشت باند ۴ نشاندهنده نور قرمز در طول موج ۰٫۶۳۰ تا ۰٫۶۸۰ و باندهای ۵ نشاندهنده نور مادون قرمز نزدیک در بازه ۰٫۸۴۵ تا ۰٫۸۸۵ میکرومتر استفاده میشود. لایه پوشش گیاهی در هشت کلاس درياچهها و خليج؛ جنگل راش، بلوط و پهنبرگ (خزري)؛ مراتع متوسط در كوهستانها (نسبتا سرد)؛ اراضي كشاورزي آبي؛ اراضي كشاورزي ديم بههمراه ديمزارهاي خزري؛ پوشش گياهي ويژه دشتهاي شور، تپههاي شني و دشتهاي سيلابي؛ جنگل بلوط، ارس و گاه پسته، بادام، گز و كهور؛ و مراتع مرغوب و استپي گاه با درختهاي پراكنده طبقهبندی شدند.
کاربری اراضی: کاربری اراضی هر منطقه اهمیت زیادی برای پاسخهای هیدرولوژیکی در دورههای زمانی مختلف دارد. این امر در تحقیق نشان داد تغییرات در کاربری اراضی میتواند احتمال وقوع سیل در منطقه را افزایش دهد (Saha et al., 2022). با استفاده از روش طبقهبندی نظارتشده و الگوریتم حداکثر احتمال در محیط نرمافزار ENVI به هیجده کلاس طبقهبندی شد.
1 Root Means Square Error (RMSE)
|
تراکم جریان: یکی دیگر از عواملی است که تاثیر مستقیم بر سیل دارد. میتوان آن را به صورت کل طول نهرها در یک حوضه زهکشی تقسیم بر مساحت کل حوضه زهکشی بیان کرد. بهطور کلی، مناطقی که تراکم جریان بالاتری دارند بیشتر در معرض سیل هستند (Nguyen, 2023). نقشه توپوگرافی برای محاسبه و استخراج تراکم رودخانه استفاده شد. بهمنظور تهیه لایههای اطلاعاتی از محیط نرمافزار ARC GIS استفاده شد.
شاخص رطوبت توپوگرافیک: این پارامتر در سال 1979 توسط بیون و کرکپی1 معرفی شد که نشاندهنده تغییرات فضایی رطوبت در حوضه آبریز است. شاخص رطوبت توپوگرافیک مقدار انباشت آب در هر پیکسل از حوضه آبریز را نشان میدهد. بهطور کلی مقادیر زیاد شاخص رطوبت توپوگرافیک و وقوع سیل همبستگی قوی با یکدیگر دارند و جز شاخصهایی بهشمار میروند که از روی تصویر مدل رقومی ارتفاع استخراج میشوند. در طی سالهای اخیر برای ارزیابی خطر وقوع سیلاب در سطح حوضههای آبریز مورد استفاده قرار گرفتهاند. شاخص رطوبت توپوگرافیک بر این فرض استوار است که توپوگرافی حرکت آب را در چشمانداز کنترل میکند. این شاخص کنترل توپوگرافی محلی در فرآیندهای هیدرولوژیکی را کمّی میسازد. از شاخص رطوبت توپوگرافیک بهطور گسترده برای توصیف توزیع فضایی و گستره پهنههای اشباع و سطوح منبع متغیر جهت تولید رواناب استفاده میشود.
شاخصهای قدرت جریان و حمل رسوب: شاخص قدرت جریان، قدرت فرآیند فرسایشی ناشی از رواناب سطحی را نشان میدهد. پارامتر شاخص حمل رسوب نیز نشاندهنده قدرت جریان آب از نظر فرسایش است که بر شرایط هیدرولوژیکی اثر میگذارد. شاخص انتقال رسوب عامل مهمی در مدلسازی حساسیت به سیل است. این شاخص شکل کلی رواناب را نشان میدهد و مناطق با رواناب بیشتر، انتقال رسوب بالاتر و حساسیت کمتری برای سیل دارد.
در مطالعه حاضر، از انواع دادههای مختلف برای مدلسازی حساسیت به سیل استفاده گردید. برای تولید نقشههای پوشش زمین و کاربری زمین از سنجنده لندست 8 (OLI) از ردیف 138 و ستون 42 با اندازه پیکسل زمینی 30 متر در تاریخ 19 مارس 2019 از وب سایت رسمی سازمان زمینشناسی ایالات متحده (USGS) استفاده شد. لایههای هیدرولوژیکی و توپوگرافی با استفاده از ASTER GDEM (نسخه 2) با اندازه پیکسل زمینی 30 متر استخراج شد. نقشه خاک از دادههای موجود در سازمان نقشهبرداری بهدست آمد، درحالیکه دادههای بارندگی از سازمان آب و هواشناسی تهیه شد. در این پژوهش پایگاه داده از 240 نقطه سیلابی استفاده شد که از کل مکانهای سیلابی، 70 درصد را برای آموزش الگوریتمهای انتخاب شده و30 درصد را نیز برای اهداف اعتبارسنجی مدل استفاده شد.
Bion & Kirkpi
|
Ensemble 2 weak Learner 3 Ensemble Methods 4 AdaBoost
|
5 Bagging 6 Data Set 7 Boosting 8 Adaptive Boosting
|
الگوریتم آدابوست، یک روش یادگیری جمعی است و معروفترین الگوریتم از خانواده الگوریتمهای بوستینگ7 است که توسط فروند، شاپیره ارایه شده است (Freund & Schapire, 1997). آدابوست اختصار کلمه تقویت سازگار8 است و همانطور که از اسم این تکنیک مشخص است هدف آن تقویت سازگار توان مدل یادگیری ماشین در حل مسئله است. در روش آدابوست در هر تکرار، تمرکز کلاسهبند مربوطه بیشتر بر تشخیص نمونههایی است که به اشتباه توسط کلاسهبندهای مراحل قبل برچسبگذاری شدهاند. در این روش، اولین کلاسهبند با یک بوتاسترب از مجموعه آموزشی، آموزش داده میشود. سپس کلاسهبند مرحله اول با تمام نمونههای آموزشی تست میشود و تعیین میگردد که کدام نمونهها توسط این کلاسهبند به درستی قابل تشخیص میباشند و کدام نمونهها به اشتباه کلاسهبندی شدهاند. سپس احتمال انتخاب نمونههایی که به اشتباه کلاسهبندی شدهاند، برای نمونهگیری مرحله بعد افزایش مییابد و احتمال انتخاب نمونههایی که به درستی کلاسهبندی شدهاند، کاهش مییابد. بنابراین، کلاسهبندهای بعدی به احتمال زیاد با نمونههایی آموزش داده میشوند که توسط کلاسهبندهای مراحل قبلی به درستی قابل تشخیص نبوده و احتمال آنکه مجدداَ با نمونههایی که توسط کلاسهبندهای قبلی به درستی قابل تشخیص بودهاند و آموزش داده میشوند، کاهش مییابد (Aydin & Iban, 2023).
ارزیابی الگوریتم یادگیری ماشین با استفاده از ماتریس درهم ریختگی (Confusion Matrix): الگوریتم یادگیری ماشین را میتوان با تکنیکهای تخمین دقت که دادهها را در یک مجموعه آموزشی و آزمایشی تقسیم میکند (معمولا 2/3 مجموعه آموزشی و 1/3 تعیین مجموعه آزمایشی) اعتبارسنجی کرد و عملکرد مدل آموزشی را ارزیابی نمود. در بحث دستهبندی1 یک مجموعه داده با استفاده از روشهای دستهبندی، هدف دستیابی به بالاترین دقت ممکن در دستهبندی و تشخیص دستهها است. ماتریس درهم ریختگی، نتایج حاصل از طبقهبندی را بر اساس اطلاعات واقعی موجود، نمایش میدهد. حال بر اساس این مقادیر میتوان معیارهای مختلف ارزیابی دستهبند و اندازهگیری دقت را تعریف کرد. پارامتر دقت2، متداولترین، اساسیترین و سادهترین معیار اندازهگیری کیفیت یک دستهبند است و میزان تشخیص صحیح دستهبند در مجموع دو دسته را نشان میدهد. این پارامتر در واقع نشانگر میزان الگوهایی است که درست تشخیص داده شدهاند (رابطه 1).
رابطه (1) Accuracy = (TP+TN) / (TP+FN+FP+TN)
معیار دیگر، معیار حساسیت3 است که آن را «نرخ پاسخهای مثبت درست» نیز میگویند. حساسیت به معنی نسبتی از موارد مثبت است که آزمایش آنها را به درستی بهعنوان نمونه مثبت تشخیص داده است. معیاری است که مشخص میکند دستهبند به چه اندازه در تشخیص تمام مناطق پرخطر موفق بوده است. به کمک این معیار، مناطق کمخطری که توسط دستهبند به اشتباه بهعنوان مناطق پرخطر تشخیص داده شدهاند، هیچ تاثیری در محاسبه این پارامتر ندارد و در واقع زمانی که پژوهشگر از این پارامتر بهعنوان معیار ارزیابی برای دستهبند خود استفاده میکند، هدفش دستیابی به نهایت صحت در تشخیص نمونههای کلاس مثبت است (رابطه 2).
رابطه (2) Sensitivity (TPR) =TP / (TP+FN)
در نقطه مقابل این معیار، ممکن است در مواقعی صحت
تشخیص کلاس منفی حایز اهمیت باشد. از متداولترین معیارها که معمولا در کنار حساسیت بررسی میشود، پارامتر ویژگی4 است که به آن نرخ پاسخهای منفی درست نیز میگویند. ویژگی به معنی نسبتی از موارد منفی است که آزمایش آنها را به درستی بهعنوان نمونه منفی تشخیص داده است (رابطه 3).
رابطه (3) Specificity (TNR) = TN / (TN+FP)
دو پارامتر حساسیت و ویژگی نیز مشابه معیار دقت، معمولا به صورت درصد بیان میشوند. واضح است که پیشبینی عالی، پیشبینی است که مقادیر حساسیت و ویژگی مربوط به آن، هر دو صد درصد باشند، اما احتمال وقوع این اتفاق در واقعیت بسیار کم است و همیشه یک حداقل خطایی وجود دارد. پارامترهای حساسیت و ویژگی، بنابر ماهیتی که دارند همواره در رقابت با یکدیگر هستند، یعنی افزایش یکی با کاهش دیگری همراه است و برعکس. همین وضعیت منجر به تولید ابزاری دیگر برای ارزیابی کیفیت دستهبندها شده است.
معیار دیگر منحنی مشخصه عملکرد سیستم5 میباشد که عبارت است از منحنی که ارتباط بین دو پارامتر حساسیت و ویژگی را بیان میکند. محور عمودی منحنی مشخصه عملکرد سیستم نشاندهنده نرخ مثبت صحیح (حساسیت)، و محور افقی نشاندهنده مقدار نرخ مثبت غلط (ویژگی) است. نتایج مختلف دستهبندی نشانگر نقاط مختلف بر این نمودار هستند و در نهایت یک منحنی را تشکیل میدهند. مساحت زیرمنحنی6، بهعنوان معیار برای ارزیابی عملکرد دستهبند مورد استفاده قرار میگیرد. منحنی مشخصه عملکرد سیستم یک معیار کارآیی، بر اساس مقادیر آستانه متغیر برای مسایل طبقهبندی است. به بیان سادهتر، معیار AUC-ROC، درباره قابلیت مدل در زمینه تشخیص کلاسها به ما اطلاعات میدهد. هر چه سطح زیر منحنی بالاتر باشد، مدل بهتر است. در حالت ایدهآل، مساحت زیر منحنی برابر با بیشترین مقدار خود، یعنی یک است. بنابراین، هر چه مساحت زیر نمودار به عدد یک نزدیکتر باشد، به معنای بهتر بودن عملکرد دستهبند است. فلوچارت پژوهش در شکل (2) نشان داده شده است.
Classification 2 Accuracy 3 Sensitivity
|
4 Specificity 5 Receiver Operating Characteristic Curve (ROC) 6 Area under the curve (AUC)
|
شکل 2. فلوچارت پژوهش
نتایج
بهمنظور ارزیابی پتانسیل سیل، تجزیه و تحلیل سیلهای ثبت شده ضروری است. صحت وقایع سیلابی گذشته تاثیر بسیار بالایی بر صحت نقشه حساسیت سیلاب دارد (Mia et al., 2023). حوضه آبخیز هراز در دهههای اخیر به شدت تحت تاثیر سیلهای خطرناک بوده است. در این مرحله برای ایجاد مجموعه دادههای آموزشی و اعتبارسنجی از روش نمونهبرداری استفاده شد. با استفاده از دستگاه GPS و بازدیدهای میدانی و بهرهگیری از امکانات نرمافزاری Google Earth و همچنین اطلاعات دبی و بارش شرکت مدیریت منابع آب ایران و سازمان آب منطقهای مازندران و سازمان هواشناسی کشور یک نقشه از موقعیت 240 نقطه سیلابی و غیرسیلابی در حوزه آبخیز هراز تهیه گردید. این 240 نقطه به دو گروه تقسیمبندی گردید. 70 درصد از موقعیت نقاط برای آموزش و مدلسازی و 30 درصد موقعیت نقاط که در مدلسازی بهکار رفته نشدند برای اعتبارسنجی مورد استفاده قرار گرفتند (شکل 3).
تحلیل همخطی چندگانه
تست همخطی بین پارامترها بهمنظور برآورد همبستگی بین متغیرهای سیل به وسیله دو شاخص ضریب تولرانس1 و عامل تورم واریانس2 صورت گرفت. اگر مقدار ضرایب تحمل کمتر یا مساوی 1/0 باشد و مقدار تورم واریانس بیشتر یا مساوی پنج باشد نشانگر همخطی پارامترها است (Mia et al., 2023). مقدار ضریب تولرانس بین 0 و 1 متغیر است. هرچه مقدار آن بزرگتر باشد (نزدیک به 1)، همپوشی با متغیرهای دیگر و در نتیجه همخطی کمتر است. عامل تورم واریانس با تولرانس نسبت معکوس دارد، یعنی با افزایش مقدار تولرانس، عامل تورم واریانس کاهش مییابد. متغیرهایی که ممکن است همبستگی داخلی زیادی داشته باشند باید بهمنظور بهبود عملکرد مدلهای پیشبینیکننده از فرآیند تحلیل حذف شوند. بنابراین در این بخش از پژوهش تجزیه و تحلیل همخطی چندگانه انجام گرفت (جدول 1). برای هر یک از پارامترها مقدار عامل تورم واریانس نیز محاسبه شد که
کمتر از حد آستانه نظری برای همخطی چندگانه بود.
جدول 1. نتایج تحلیل همخطی چندگانه
همبستگی با دیگر پارامترها | ضریب تولورانس | عامل تورم واریانس | |
ارتفاع | 65/0 | 35/0 | 85/2 |
شیب | 75/0 | 25/0 | 4 |
جهت شیب | 4/0 | 67/1 | 6/0 |
متوسط بارندگی | 55/0 | 45/0 | 2/2 |
شاخص پوشش گیاهی | 6/0 | 4/0 | 5/2 |
کاربری اراضی | 5/0 | 5/0 | 2 |
فاصله از آبراهه | 7/0 | 3/0 | 33/3 |
گروههای خاک | 3/0 | 7/0 | 43/1 |
تراکم جریان | 2/0 | 5/0 | 32/1 |
شاخص رطوبت توپوگرافیک (TWI) | 8/0 | 25/0 | 4 |
شاخص قدرت جریان (SPI) | 45/0 | 55/0 | 82/1 |
شاخص حمل رسوب (STI) | 55/0 | 45/0 | 2/2 |
|
| |
|
|
|
|
|
|
|
|
|
شکل 4. توزیع فضایی معیارهای موثر در تهیه نقشه حساسیت سیل در سطح حوضه آبریز هراز
پیادهسازی الگوریتمهای یادگیری ماشین ترکیبی
مرحله اولیه مستلزم آمادهسازی دقیق دادهها برای تجزیه و تحلیل بعدی میباشد. این امر شامل مجموعهای از متغیرهای موثر در وقوع سیل است. قبل از شروع دادهکاوی در الگوریتمهای یادگیری ماشین، کاربر باید مطمئن شود که همه مجموعه دادهها دارای سیستم مختصات یکسانی برای لایههای رستری و برداری در محیط نرمافزاری ArcGIS هستند. یک فرآیند ارزیابی کیفیت داده بهویژه در قالب بسته GeoPandas ، برای تسهیل تجزیه و تحلیل اعمال شد. متعاقبا دادههای سیستم اطلاعات جغرافیایی آماده شده به برنامه پایتون وارد شد و در نتیجه امکان استفاده از آن در الگوریتمهای یادگیری ماشین فراهم شد.
انتخاب ویژگیهای گام بعدی برای مدلسازی حساسیت به سیل میباشد. برای دستیابی به این هدف از تحلیل همبستگی استفاده گردید. از قابلیتهای کتابخانه scikit-learn برای پیادهسازی و ارزیابی یکپارچه الگوریتمهای یادگیری ماشین و سایر راهبردهای مجموعهای که برای مدلسازی حساسیت به سیل در پایتون طراحی شدهاند، استفاده گردید.
در الگوریتم بگینگ در ابتدا نوع و تعداد مدلهای پایه مشخص شد، سپس با کمک رویکرد بوتاسترپ1 برای هر مدل پایه یک داده آموزشی از روی داده آموزشی انتخاب و آموزش داده شد. مفهوم بوتاسترپ آن است که دادهها به صورت تصادفی از روی داده آموزشی انتخاب شوند، منتهی در این داده انتخاب شده ممکن است یک نمونه آموزشی چندین بار انتخاب شود. در الگوریتم بگینگ، داده جدید به تکتک مدلهای پایه آموزش دیده ارایه میشود، تک تک مدلها بر اساس دانشی که دارند، یک خروجیای برای داده جدید تخمین میزنند. در نهایت نظر همه مدلها با هم ترکیب میشوند تا خروجی داده جدید را تخمین زنند. جهت طبقهبندی، یک رایگیری ساده بین مدلها اتفاق میافتد و داده جدید به کلاسی تعلق دارد که بیشترین رای را نسبت به آن کلاس در مقایسه با سایر کلاسها داشته باشد. به عبارتی الگوریتم بگینگ مستلزم آموزش مدلهای متعدد بر زیرمجموعههای تصادفی دادههای آموزشی است. در این چارچوب، از درخت تصمیم بهعنوان طبقهبندیکننده پایه استفاده شد. نتایج بهدستآمده از روششناسی متعاقبا در محیط ArcGIS برای تولید نقشههای حساسیت به سیل گنجانده شد.
در الگوریتم آدابوست بهطور متوالی یک طبقهبندی ضعیف برای نسخههای اصلاحشده دادهها اعمال گردید. با افزایش وزن مشاهدات طبقهبندی نشده، هر یادگیرنده ضعیف بر خطای قبلی تمرکز مییابد. پیشبینیها از طریق رای اکثریت وزنی جمعآوری شد. در این قسمت الگوریتمهای یادگیری ماشین ترکیبی بر اساس مجموعه دادههای آموزشی و ارزیابی عملکرد این مدل براساس مجموعه دادههای اعتبارسنجی در بسته نرمافزاری پایتون2 انجام گرفت. برای اجرای الگوریتم آدابوست از درخت تصمیمگیری CART بهعنوان طبقهبندی کننده پایه3 انتخاب شد. بهمنظورانتقال لایههای اطلاعاتی از محیط نرمافزار ARCGIS به محیط نرمافزار پایتون و اجرای مراحل الگوریتم در این نرمافزار، ابتدا این لایهها به فرمت ASCII تبدیل شد و سپس با استفاده از نرمافزار SPSS به فرمت جدول عددی (CSV) درآمد. این جدول عددی داده وارد نرمافزار پایتون گشت و بهعنوان داده اولیه در محیط نرمافزاری پایتون با استفاه از الگوریتمهای یادگیری ماشین پردازش شد.
نقشههای حساسیت به سیلگیری با استفاده از روشهای یادگیری ماشینی مورد استفاده در این مطالعه، به چهار کلاس مجزا، با حساسیت کم، متوسط، زیاد و بسیارزیاد طبقهبندی شدند (شکل 5). عمدتا مناطق در دستههای حساسیت کم و متوسط قرار گرفتند، د حالیکه مناطق با حساسیت بالا و بسیار بالا عمدتا در بخش شمالی حوضه هراز متمرکز شدهاند. علاوه بر این، بخشی از مناطق مستعد سیل در بخش شرقی منطقه مورد مطالعه مشاهده شد. جدول (2) خلاصهای جامع از نتایج را اریه میدهد که مناطق مربوط به هر کلاس حساسیت را بر حسب کیلومترمربع به صورت درصدی از کل مساحت مشخص میکند.
Bootstrap (the random sampling with replacement) 2 phyton 3 Base Classifier |
جدول 2. مساحت هر یک از طبقات در ارتباط با حساسیت سیلاب
طبقهبندی کلاسها | مساحت | الگوریتم | |||
پرخطر | خطر | متوسط | کم خطر | ||
391/6437 | 1258/8877 | 1423/5718 | 1538/8968 | کیلومترمربع | آداوست با طبقهبند درخت تصمیم |
48/8 | 29/27 | 86/30 | 36/33 | درصد | |
553/56 | 1096/5101 | 1605/7853 | 1356/222 | کیلومترمربع | بگینگ با طبقهبند درخت تصمیم |
12 | 77/23 | 81/34 | 40/29 | درصد |
بحث و نتیجهگیری
سیلها تهدیدی اساسی برای مناطق شهری و اکوسیستمها بهشمار میروند و در ردیف خطرناکترین بلایای طبیعی قرار میگیرند. حوضه آبریز هراز بهدلیل موقعیت توپوگرافی خاص خود و دریافت بارش مناسب در طول سال و بهخصوص در فصل بهار، از حوضههای با حساسیت سیلخیزی زیاد محسوب میشود. مطالعاتی بر روی حوزه آبخیز هراز با روشهای مختلف انجام شده است. نوهانی و همکاران (1395) از روش آنتروپی شانون برای تخمین حساسیت به سیلاب در حوزه هراز استفاده کردند. نتایج ایشان نشان داد روش آنتروپی شانون با دستیابی به دقت 42/91 درصد انجام شد. در مطالعه دیگر مدلهای بگینگ و آنتروپی شانون توسط شهابی (1400) استفاده شد و نشان داد مدل بگینگ با دقت بالاتری (96/0) نسبت به مدل آنتروپی شانون (88/0) است. جدول (3)، نتایج حاصل از تجزیه و تحلیل مقایسهای بین مطالعه حاضر و 4 مطالعه مرتبط اخیر را ارایه میکند. این مطالعه با در نظر گرفتن 12 عامل مهم در مدلسازی با درصد بالایی با مقالات مورد مقایسه مطابقت دارد. قابل ذکر است، مطالعه حاضر به AUC چشمگیر 96/0 دست یافت که در بین 4 مطالعه برتر در این زمینه رتبهبندی شد. علاوه بر این، اجرای روش ترکیبی AdaBoost-Decision Tree یک دستاورد پیشگام در مطالعات اخیر است که باید مد نظر قرار گیرد.
جدول 3. تجزیه و تحلیل مقایسهای مطالعات در تهیه نقشههای حساسیت سیلگیری
بهترین AUC بهدست آمده | مدل بهتر | تعداد مدلها | تاثیرگذارترین متغیرها | تعداد نقاط سیلابی | تعداد معیارهای موثر در سیل | مطالعات | شماره |
96/0 | AdaBoost- Decision Tree Ensemble Learning | 2 | ارتفاع، فاصله از رودخانه، شیب زمین | 240 | 12 | مطالعه حاضر | 0 |
91/0 | Evidential Belief Function (EBF) | 6 | ارتفاع، شیب زمین، فاصله از رودخانه | 189 | 15 | Anand & Pradhan, 2023 | 1 |
95/0 | Iterative Classifier Optimizer | 6 | ارتفاع، شیب زمین، فاصله از رودخانه، بارندگی | 158 | 10 | Costache et al., 2023 | 2 |
93/0 | ADT-ICO, NB-ICO, ANN-ICO, and DLNN-ICO | 4 | بارندگی، ارتفاع، فاصله از رودخانه | 350 | 16 | Mia et al., 2023 | 3 |
92/0 | Reduced Error Pruning Tree (REPTree) | 7 | ارتفاع، شیب زمین، بارندگی، پوشش گیاهی، فاصله از رودخانه | 200 | 14 | Saikh et al., 2023 | 4 |
پژوهش حاضر تلاشی بهمنظور بررسی حساسیت خطر وقوع سیل در این حوضه بوده است. بنابراین از 240 نقطه مشاهداتی و میدانی در ارتباط با مناطق سیلگیر و بدون سیل و همچنین پارامترهای موثر در وقوع سیل استفاده شد. از الگوریتمهای یادگیری ماشین ترکیبی مانند آدابوست و بگینگ با استفاده از طبقهبندیکننده درخت تصمیم جهت تهیه نقشههای حساسیت به سیل در منطقه مازندران ایران بهره گرفته شد. تجزیه و تحلیل طیف وسیعی از پارامترها شامل ارتفاع، شیب، جهت شیب، کاربری اراضی، نوع خاک، بارندگی، شاخص تفاوت نرمال شده پوشش گیاهی، فاصله تا رودخانه، شاخص رطوبت توپوگرافی، شاخص توان جریان و شاخص انتقال رسوب را صورت پذیرفت و از تکنیکهای ارزیابی دقت آماری دقیق از جمله دقت، حساسیت، ویژگی و منحنی مشخصه عملکرد سیستم استفاده شد. یافتهها نشان داد الگوریتم آدابوست با استفاده از طبقهبند درخت تصمیم بالاترین دقت را در بین مدلها دارد.
پیشنهادها
با توجه به نتایج و چشمانداز تهیه نقشه حساسیت سیل، تلاشهای تحقیقاتی آینده بر چندین راه امیدوارکننده متمرکز خواهد شد. اولا، پالایش دقت مدلهای حساسیت به سیل یک هدف اصلی باقی میماند. هدف این است که از پتانسیل تکنیکهای یادگیری ماشینی در حال ظهور استفاده شود و بهطور بالقوه الگوریتمهای یادگیری عمیق پیشرفته یکپارچه شود تا قابلیتهای پیشبینی بیشتر گردد. علاوه بر این، ترکیب دادهها و استفاده از فنآوریهای سنجش از راه دور، توسعه مدلهای پویا و پاسخگو را قادر میسازد که با شرایط متغیر محیطی سازگار شوند. علاوه بر این، گسترش دامنه تحقیقات به مناطق جغرافیایی وسیعتر و مناطق آب و هوایی متنوع، درک جامعتری از الگوهای حساسیت به سیل را تسهیل میکند. تلاشهای مشترک برای ایجاد پروتکلها و معیارهای استاندارد شده جهت تهیه نقشههای حساسیت سیلگیری به مقایسهپذیری مطالعات آینده کمک میکند و رویکرد یکپارچهتر را در جامعه تحقیقاتی تقویت میکند. در نهایت، تحقیق حاضر نه تنها به دنبال ارتقای دقت و قابلیت اطمینان تهیه نقشههای حساسیت سیلگیری است، بلکه به دنبال ارایه بینشها و ابزارهای عملی برای سیاستگذاران و برنامهریزان شهری است تا به طور موثر تاثیر سیل را در مناطق آسیبپذیر کاهش دهند.
سپاسگزاری و قدردانی
نویسندگان مایل هستند نهایت قدردانی خود را از آقای مهندس علی اکبری، دانشجوی دکتری رشته الکترونیک دانشگاه تهران برای حمایت و کمک وی در تکمیل فرآیند پیادهسازی الگوریتمهای یادگیری ماشین ترکیبی ابراز نمایند.
افشین، ی.ا. (1374) رودخانههای ایران، جلد اول، تهران: انتشارات وزارت نیرو، شرکت مهندسین مشاور جاماب، صفحات: 534-540.
ستوده، م. (1349) از آستارا تا استرآباد، جلد چهارم، چاپ اول، تهران: انتشارات انجمن آثار و مفاخر، 1104 صفحه.
شهابی، ه. (1400) پهنهبندی حساسیت وقوع سیل در مناطق شمالی ایران با استفاده از الگوریتمهای پیشرفته دادهکاوی، منطقه مورد مطالعه حوزه آبخیز هراز. نشریه برنامهریزی منطقهای، 11(41): 165-182.
نوهانی، ا. دارابی، ف. معروفینیا، ا. و خسروی، خ. (1395) ارزیابی مدل آنتروپی شانون در تهیه نقشه حساسیت و احتمال به وقوع سیل در حوزه آبخیز هراز. مخاطرات محیط طبیعی، 5(10): 99-116.
Abdullah, M.F., Siraj, S. and Hodgett, R.E. (2021) An overview of multi-criteria decision analysis (MCDA) application in managing water-related disaster events: Analyzing 20 years of literature for flood and drought events. Water, 13(10): 1358. Retrieved from https://doi.org/10.3390/w13101358/
Akay, H. (2021) Flood hazards susceptibility mapping using statistical, fuzzy logic, and MCDM methods. Soft Computing, 25(14): 9325–9346. Retrieved from https://doi.org/10.1007/s00500-021-05903-1/
Ali, S.A., Khatun, R., Ahmad, A. and Ahmad, S.N. (2019) Application of GIS-based analytic hierarchy process and frequency ratio model to flood vulnerable mapping and risk area estimation at Sundarban region, India. Modeling Earth Systems and Environment, 5(3): 1083–1102. Retrieved from https://doi.org/10.1007/s40808-019-00593-z/
Anand, A.K. and Pradhan, S.P. (2023) Evaluation of bivariate statistical and hybrid models for the preparation of flood hazard susceptibility maps in the Brahmani River Basin, India. Environmental Earth Sciences, 82(16): 395–408. Retrieved from https://doi 10.1007/s12665-023-11069-w/
Avand, M., Janizadeh, S., Naghibi, S.A., Pourghasemi, H.R., Khosrobeigi Bozchaloei, S. and Blaschke, T. (2019) A comparative assessment of random forest and k-nearest neighbor classifiers for gully erosion susceptibility mapping. Water, 11(10): 2076. Retrieved from https://doi.org/10.3390/w11102076/
Aydin, H.E. and Iban, M.C. (2023) Predicting and analyzing flood susceptibility using boosting-based ensemble machine learning algorithms with SHapley Additive exPlanations. Natural Hazards (Dordrecht, Netherlands), 116(3): 2957–2991. Retrieved from https://doi.org/10.1007/s11069-022-05793-y/
Breiman, L. (1996) Bagging predictors. Machine Learning, 24(2): 123–140. https://doi.org/10.1007/bf00058655/
Bui, Q.D., Luu, C., Mai, S.H., Ha, H.T., Ta, H.T. and Pham, B.T. (2023) Flood risk mapping and analysis using an integrated framework of machine learning models and analytic hierarchy process. Risk analysis: An official publication of the Society for Risk Analysis, 43(7): 1478–1495. Doi: 10.1111/risa.14018/
Chen, J., Li, Q., Wang, H. and Deng, M. (2019) A machine learning ensemble approach based on random forest and radial basis function neural network for risk evaluation of regional flood disaster: A case study of the Yangtze River Delta, China. International Journal of Environmental Research and Public Health, 17(1): 49-49. Retrieved from https://doi.org/10.3390/ijerph17010049/
Costache, R., Abdo, H.G., Pratap Mishra, A., Pal, S.C., Islam, A.R.M.T., Pande, C.B. and Albanai, J.A. (2023) Using fuzzy and machine learning iterative optimized models to generate the flood susceptibility maps: case study of Prahova River basin, Romania. Geomatics Natural Hazards and Risk, 14(1); 2281241. Doi: 10.1080/19475705.2023.2281241/
Freund, Y. and Schapire, R. (1997) A Decision-Theoretic generalization of on-line learning and an application to boosting. Journal of Computer and System Sciences, 55(1): 119-139. Retrived from https://doi.org/10.1006/jcss.1997.1504/
Gudiyangada Nachappa, T., Tavakkoli Piralilou, S., Gholamnia, K., Ghorbanzadeh, O., Rahmati, O. and Blaschke, T. (2020) Flood susceptibility mapping with machine learning, multi-criteria decision analysis and ensemble using Dempster Shafer Theory. Journal of Hydrology, 590(125275): 125275. Retrieved from https://doi.org/10.1016/j.jhydrol.2020.125275/
Hasanuzzaman, M., Islam, A., Bera, B. and Shit, P.K. (2022) A comparison of performance measures of three machine learning algorithms for flood susceptibility mapping of river Silabati (tropical river, India). Physics and Chemistry of the Earth (2002), 127(103198): 103198. Retrieved from https://doi.org/10.1016/j.pce.2022.103198/
Khosravi, K., Shahabi, H., Pham, B.T., Adamowski, J., Shirzadi, A., Pradhan, B., Dou, J., Ly, H.-B., Gróf, G., Ho, H. L., Hong, H., Chapi, K. and Prakash, I. (2019) A comparative assessment of flood susceptibility modeling using Multi-Criteria Decision-Making Analysis and Machine Learning Methods. Journal of Hydrology, 573: 311–323. Retrieved from https://doi.org/10.1016/j.jhydrol.2019.03.073/
Mia, M.U., Chowdhury, T.N., Chakrabortty, R., Pal, S.C., Al-Sadoon, M.K., Costache, R. and Islam, A.R.M.T. (2023) Flood susceptibility modeling using an advanced deep learning-based iterative classifier optimizer. Land, 12(4): 810-810. Retrieved from https://doi.org/10.3390/land12040810/
Nguyen, H.D. (2023) Spatial modeling of flood hazard using machine learning and GIS in Ha Tinh province, Vietnam. Journal of Water and Climate Change, 14(1): 200–222. Retrieved from https://doi.org/10.2166/wcc.2022.257/
Pham, B.T., Jaafari, A., Van Phong, T., Yen, H.P.H., Tuyen, T.T., Van Luong, V., Nguyen, H.D., Van Le, H. and Foong, L.K. (2021) Improved flood susceptibility mapping using a best first decision tree integrated with ensemble learning techniques. Geoscience Frontiers, 12(3): 101105. Retrieved from https://doi.org/10.1016/j.gsf.2020.11.003/
Plataridis, K. and Mallios, Z. (2023) Flood susceptibility mapping using hybrid models optimized with Artificial Bee Colony. Journal of Hydrology, 624(129961): 129961. Retrieved from https://doi.org/10.1016/j.jhydrol.2023.129961/
Rafiei-Sardooi, E., Azareh, A., Choubin, B., Mosavi, A.H. and Clague, J.J. (2021) Evaluating urban flood risk using hybrid method of TOPSIS and machine learning. International Journal of Disaster Risk Reduction: IJDRR, 66(102614): 102614. Retrieved from https://doi.org/10.1016/j.ijdrr.2021.102614/
Saha, S., Gayen, A. and Bayen, B. (2022) Deep learning algorithms to develop Flood susceptibility map in Data-Scarce and Ungauged River Basin in India. Stochastic Environmental Research and Risk Assessment: Research Journal, 36(10): 3295–3310. Retrieved from https://doi.org/10.1007/s00477-022-02195-1/
Sahana, M. and Patel, P.P. (2019) A comparison of frequency ratio and fuzzy logic models for flood susceptibility assessment of the lower Kosi River Basin in India. Environmental Earth Sciences, 78(10): 1-27. Retrieved from https://doi.org/10.1007/s12665-019-8285-1/
Saikh, N.I. and Mondal, P. (2023) GIS-based machine learning algorithm for flood susceptibility analysis in the Pagla river basin, Eastern India. Natural Hazards Research, 3(3): 420–436. Retrieved from https://doi.org/10.1016/j.nhres.2023.05.004/
Seydi, S.T., Kanani-Sadat, Y., Hasanlou, M., Sahraei, R., Chanussot, J. and Amani, M. (2022) Comparison of machine learning algorithms for Flood Susceptibility Mapping. Remote Sensing, 15(1): 192-192. Retrieved from https://doi.org/10.3390/rs15010192/
Shafapour Tehrany, M., Kumar, L., Neamah Jebur, M. and Shabani, F. (2019) Evaluating the application of the statistical index method in flood susceptibility mapping and its comparison with frequency ratio and logistic regression methods. Geomatics Natural Hazards and Risk, 10(1): 79–101. Retrieved from https://doi.org/10.1080/19475705.2018.1506509/
Vajda, V., McLoughlin, S., Mays, C., Frank, T.D., Fielding, C.R., Tevyaw, A., Lehsten, V., Bocking, M. and Nicoll, R.S. (2020) End-Permian (252 Mya) deforestation, wildfires and flooding—An ancient biotic crisis with lessons for the present. Earth and Planetary Science Letters, 529(115875): 115875. Retrieved from https://doi.org/10.1016/j.epsl.2019.115875/
Wang, Y., Fang, Z., Hong, H. and Peng, L. (2020) Flood susceptibility mapping using convolutional neural network frameworks. Journal of Hydrology, 582(124482): 124482. Retrieved from https://doi.org/10.1016/j.jhydrol.2019.124482/
Wijayarathne, D.B. and Coulibaly, P. (2020) Identification of hydrological models for operational flood forecasting in St. John’s, Newfoundland, Canada. Journal of Hydrology, Regional Studies, 27(100646): 100646. Retrieved from https://doi.org/10.1016/j.ejrh.2019.100646/
Yang, Y.C.E., Ray, P.A., Brown, C.M., Khalil, A.F. and Yu, W.H. (2015). Estimation of flood damage functions for river basin planning: a case study in Bangladesh. Natural Hazards (Dordrecht, Netherlands), 75(3): 2773–2791. Retrieved from https://doi.org/10.1007/s11069-014-1459-y/
Yari, M., Soltani-Gerdefaramarzi, S. and Ghasemi, M. (2019) Investigation of the effect of to land use changes on flood hydrograph and fluctuations of groundwater level in part of Ghareh Souh Basin. Journal of Geography and Environmental Hazards, 8(3): 41-58. Doi: 10.22067/GEO.V8I3.80976/
Spatial flood susceptibility assessment using boosting and bagging in machine learning techniques
Maryam Jahanbani1, Hossein Aghamohammadi2*, Mohammad H. Vahidnia3 and Zahra Azizi4
1) PhD Student, Department of Remote Sensing and GIS, Faculty of Natural Resources and Environment, Science and Research
Branch, Islamic Azad University, Tehran, Iran.
2) Assistant Professor, Department of Remote Sensing and GIS, Faculty of Natural Resources and Environment, Science and Research
Branch, Islamic Azad University, Tehran, Iran. *Corresponding Author Email Address: aghamohammadi@srbiau.ac.ir
3) Assistant Professor, Center for Remote Sensing and GIS Research, Faculty of Earth Sciences, Shahid Beheshti University, Tehran,
Iran
4) Assistant Professor, Department of Remote Sensing and GIS, Faculty of Natural Resources and Environment, Science and Research
Branch, Islamic Azad University, Tehran, Iran.
Date of Submission: 2023/11/20 Date of Acceptance: 2024/02/28
Abstract
Floods cause billions of dollars in damage to countries every year and threaten people's livelihoods. This has caused significant socio-economic threats to the world's population, which must be controlled and contained. In this regard, machine learning algorithms along with geographic information systems are primary tools that are effective in flood control modeling and analysis. The Purpose of this research is to identify a part of flood-sensitive regions across the Heraz catchment area in Mazandaran province using ensemble methods in machine learning algorithms. The research process is as follows: first, the data of flood points were prepared. Next, 70% of approximately 240 sample positions were used for modeling and map preparation. The remaining 30%, which were randomly selected, were used to validate the produced maps. Then, the effective factors, including slope angle, slope direction, topography, soil type, land cover, distance from the river, annual rainfall, normalized difference vegetation index, index of sediment transmittance, index of topographic wetness, and index of stream density have been used to weight the impact of each factor using machine learning algorithms. Based on the results of this study, the system performance characteristic curve (ROC) was drawn, and the area under the curve (AUC) was calculated to validate the flood-prone area map. Findings demonstrated that the Adaptive Boosting model is more accurate than the Bagging model in preparing a flood sensitivity map. Predictive susceptibility mapping plays a pivotal role in enabling urban planners and managers to mitigate and safeguard proactively against the adverse consequences of flooding. Flood management authorities in the Ministry of Energy can employ the proposed ensemble model to assist disaster management and mitigate hazards in future studies.
Keywords: Adaptive Boosting algorithm, Bagging algorithm, Ensemble machine learning models, Flood, Spatial information system.