Recognition and extraction of palm trees from satellite images with high spatial resolution of Google Earth based on residual deep learning networks
Subject Areas : Spatial data infrastructures and standardisation
Mostafa Kabolizadeh
1
,
Kazem Rangzan
2
,
Mohammas Abbasi
3
1 - RS and GIS department, Earth science faculty, shahiud Chamran university of Ahvaz
2 - RS and GIS department, earth science faculty, Shahid Chamran university of Ahvaz
3 - RS and GIS Department
Keywords: Features extraction, convolutional neural network, Machine Learning, Automatic recognition,
Abstract :
Identifying the location of trees is the first step to manage green spaces, gardens and forests. The preparation of the location map of the trees can be done by ground mapping operations, which require a lot of money and time, or by using aerial or satellite images. In this research, satellite images with the high spatial resolution of Google Earth have been used to detect and extract palm trees, considering the role and importance of palm trees in the southern regions of Iran, but automatic recognition of trees from satellite images is a challenge. In this regard, deep learning methods are considered as an important solution for extracting objects from images. In this research, residual deep learning methods with the number of layers 18, 34 and 50 have been used. First, more than 3000 image samples were cut in two classes containing palm trees and without palm trees with dimensions of 64 x 64 pixels, then the models were trained with 80% samples for learning and 20% for validation with 30 epochs. The training accuracy of the models has been above 99%. The trained model was implemented on 500 test samples and the evaluation results of all three models show that the precision is more than 0.96, the recall is equal to 1, and the F1Score is more than 0.98. Running the models on Google Earth satellite images by moving the 64 x 64 pixel window with a step of 16 pixels and applying the non maximum suppression method shows that the satellite images of the Google Earth system can be used to prepare a map of palm trees. Considering the processing time and the possibility of better estimating the number and extracting the position of palm trees, the residual deep learning model with 34 layers is suggested.
1. Ahl R, Hogland J, Brown S. 2019. A Comparison of Standard Modeling Techniques Using Digital Aerial Imagery with National Elevation Datasets and Airborne LiDAR to Predict Size and Density Forest Metrics in the Sapphire Mountains MT, USA. Ijgi 8 (1), 24. doi:10.3390/ijgi8010024.
2. Bulatov D, Wayand I, Schilling H. 2016. Automatic tree-crown detection in challenging scenarios International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences - ISPRS Archives 41 575–582.
3. Chong K L, Kanniah K D. Pohl C, Tan K P. 2017. A review of remote sensing applications for oil palm studies.Geo-Spat. Inf. Sci. 20, 184–200, doi:10.1080/10095020.2017.1337317.
4. He K, Zhang X, Ren S, Sun J. 2015. Deep Residual Learning for Image Recognition. In: arXiv e-prints. arXiv: 1512.03385.
5. Hu J, Zhang Y, Zhao D, Yang G, Chen F, Zhou C, Chen W. 2022. A robust deep learning approach for the quantitative characterization and clustering of peach tree crowns based on UAV images. Ieee T Geosci Remote, 1-14.
6. Hu R, Bournez E, Cheng S, Jiang H, Nerry F, Landes T, Saudreau M, Kastendeuch P, Najjar G, Colin J, Yan G. 2018. Estimating the leaf area of an individual tree in urban areas using terrestrial laser scanner and path lengthdistribution model. ISPRS J. Photogramm. Remote Sens. 144, 357–368.
7. Iglovikov V, Mushinskiy S, Osin V. 2017. Satellite Imagery Feature Detection using Deep Convolutional Neural Network: A Kaggle Competition. arXiv:1706.06169.
8. Jintasuttisak T, Edirisinghe E, Elbattay A. 2022. Deep neural network-based date palm tree detection in drone imagery. Comput Electron Agr, 192, 106560.
9. Li W, Dong R, Fu H, Yu L. 2019. Large-scale oil palm tree detection from high-resolution satellite images using two-stage convolutional neural networks Remote Sens. 11 11.
10. Li W, Fu H, Yu L. 2017. Deep convolutional neural network based large-scale oil palmtree detection for high-resolution remote sensing images. In Proceedings of the 2017 IEEE International Geoscience and Remote Sensing Symposium (IGARSS), FortWorth, TX, USA, 23–28 July 2017; pp. 846–849, doi:10.1109/IGARSS.2017.8127085.
11. Lin J, Kroll C N, Nowak D J, Greenfield E J. 2019. A review of urban forest modeling: Implications for management and future research. Urban For. Urban Green. 43, 126366 https://doi.org/10.1016/j.ufug.2019.126366.
12. Maschler J, Atzberger C, Immitzer M. 2018. Individual Tree Crown Segmentation and Classification of 13 Tree Species Using Airborne Hyperspectral Data Remote Sens. 10 1218.
13. Mckinnon T, Hoff P. 2017. Comparing RGB-Based Vegetation Indices with NDVI For Drone Based Agricultural Sensing 1–8.
14. Natesan S, Armenakis C, Vepakomma U. 2019. Resnet-based tree species classification using UAV images. Int. Arch. Photogramm. Remote Sens. Spatial Inf. Sci. XLII-2/W13: 475–481.
15. Olivares R J L. 2019. PALM TREE IMAGE CLASSIFICATION A convolutional and 40 machine learning approach.
16. Osco L P, Marcato Junior J, Marques Ramos A P. 2021. de Castro Jorge, L.A.; Fatholahi, S.N.; de Andrade Silva, J.; Matsubara, E.T.;Pistori, H.; Gonçalves, W.N.; Li, J., A review on deep learning in UAV remote sensing. Int J Appl Earth, 102, 102456.
17. Ponti M A, Ribeiro L S F, Nazare T S, Bui T, Collomosse J. 2017. Everything you wanted to know about deep learning for computer vision but were afraid to ask. In: 2017 30th SIBGRAPI Conference on Graphics, Patterns and Images Tutorials (SIBGRAPI-T), pp. 17–41. doi:10.1109/SIBGRAPI-T.2017.12.
18. Ren S. et al. 2017. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(6), pp. 1137–1149. doi: 10.1109/TPAMI.2016.2577 031.
19. Srestasathiern P, Rakwatin P. 2014. Oil Palm Tree Detection with High Resolution Multi-Spectral Satellite Imagery. In: Remote Sensing 6, pp. 9749–9774. DOI: 10.3390/rs6109749.
20. Torres-Sánchez J, López-Granados F, Serrano N, Arquero O and Peña J M. 2015. High-throughput 3-D monitoring of agricultural-tree plantations with Unmanned Aerial Vehicle (UAV) technology PLoS One 10 6.
21. Tuominen S, Näsi R, Honkavaara E, Balazs A, Hakala T, Viljanen N, Pölönen I, Saari H, Ojanen H. 2018. Assessment of classifiers and remote sensing features of hyperspectral imagery and stereo-photogrammetric point clouds for recognition of tree species in a forest area of high species diversity Remote Sens. 10 714.
22. Wang X, Wang Y, Zhou C, Yin L, Feng X. 2021. Urban forest monitoring based on multiple features at the single tree scale by UAV. Urban For. Urban Green. 58, 126958 https://doi.org/10.1016/j.ufug.2020.126958.
23. Weinstein B G, Marconi S, Bohlman S, Zare A, White E. 2019. Individual tree-crown detection in RGB imagery using semi-supervised deep learning neural networks. Remote Sensing 11, 1309.
24. Yao L, Liu T, Qin J, Lu N, Zhou C. 2021. Tree counting with high spatial-resolution satellite imagery based on deep neural networks. Ecol Indic, 125, 107591.
25. Zhu X X, Tuia D, Mou L, Xia G, Zhang L, Xu F, Fraundorfer F. 2017. Deep Learning in Remote Sensing: A Comprehensive Review and List of Resources. IEEE Geosci. Remote Sens. Mag. 5, 8–36, doi:10.1109/MGRS.2017.2762307.
تشخیص و استخراج درختان نخل از تصاویر ماهوارهای با قدرت تفکیک مکانی بالای گوگل ارث بر مبنای شبکههای یادگیری عمیق باقیمانده
چکیده
شناسایی موقعیت درختان اولین گام جهت مدیریت فضای سبز، باغها و جنگلها است. تهیه نقشه موقعیت درختان میتواند با عملیات زمینی نقشهبرداری که نیاز به هزینه و زمان زیادی دارد یا با استفاده از تصاویر هوایی یا ماهوارهای انجام شود. در این پژوهش از تصاویر ماهوارهای با قدرت تفکیک مکانی بالای گوگل ارث برای تشخیص و استخراج درختان نخل با توجه به نقش و اهمیت درخت نخل در مناطق جنوبی ایران استفاده شده است، اما تشخیص خودکار درخت از تصاویر ماهوارهای یک چالش است. در این راستا روشهای یادگیری عمیق به عنوان یک راهحل مهم برای استخراج اشیا از تصاویر مطرح هستند. در این تحقیق از روشهای یادگیری عمیق باقیمانده با تعداد لایههای 18، 34 و 50 استفاده شده است. ابتدا بیش از 3000 نمونه تصویر در دو کلاس حاوی درخت نخل و بدون درخت نخل با ابعاد 64 در 64 پیکسل بریده شده و سپس مدلها با 80 درصد نمونهها برای یادگیری و 20 درصد برای اعتبارسنجی با 30 دوره تکرار و دقت بالای 99 درصد برای هر سه مدل آموزش داده شده است. مدل آموزش دیده بر روی 500 نمونه تست اجرا شده و نتایج ارزیابی هرسه مدل نشان داد که معیار دقت بیش از 0.96 و معیار بازیابی برابر 1 و معیار F1Score بیش از 0.98 است. اجرای مدلها بر روی تصاویر ماهوارهای گوگل ارث با حرکت پنجره 64 در 64 پیکسل با گام 16 پیکسل و سپس اعمال روش سرکوب غیرحداکثری نشان میدهد که میتوان از تصاویر ماهوارهای سامانه گوگل ارث برای تهیه نقشه موقعیت درختان نخل استفاده نمود. با توجه به زمان پردازش و امکان برآورد بهتر تعداد و استخراج موقعیت درختان نخل، مدل یادگیری عمیق باقیمانده با 34 لایه پیشنهاد شد.
واژههای کلیدی: یادگیری ماشین، تشخیص خودکار، استخراج اهداف، شبکه عصبی کانولوشنال
مقدمه
تشخیص و استخراج موقعیت درختان میتواند به کشاورزی دقیق به ویژه در صنعت کاشت و مدیریت کارآمد باغها و جنگلها کمک کند. این مهم به ابزار و فناوری نیاز دارد که اطلاعات قابل اعتماد را با دقت قابل قبول ارائه دهد. استفاده از روشهای برداشت زمینی با استفاده از دوربینهای نقشهبرداری یا گیرندههای تعیین موقیعت ماهوارهای هر چند دارای دقت بالایی میباشند اما چالشهای زیادی علاوه بر زمان و هزینه بالا دارند. در این راستا استفاده از تصاویر هوایی و ماهوارهای میتواند یک راهحل بهتر با در نظر گرفتن زمان و هزینه باشد. تحقیقات اخیر با استفاده از پیشرفت فناوری سنجش از دور و ادغام الگوریتمهای مختلف، این هدف را تامین میکند. تشخیص درخت بر اساس تصاویر سنجش از دور یک فناوری حیاتی برای ایجاد یک پایگاه داده درختان و پایش منابع کاشت درخت است که برای برنامهریزی منظر شهری و نظارت بر محیط زیست محیطی اهمیت زیادی دارد (1). پوشش درختی در خدمات اکوسیستمی نقش ویژهای بهعنوان جزء اصلی زیرساختهای فضای سبز خصوصا در محیطهای شهری ایفا میکنند (22). کمیتهای کلیدی ساختار و توزیع مکانی پوشش درختی میتوانند درک عملکرد اکوسیستم و انعطافپذیری آنرا تسهیل کنند (11). محققان در حال توسعه روشهای دقیق و مؤثری برای شناسایی ویژگیهای پوشش درختی و کمی کردن عملکرد آنها هستند (6).
مطالعات در تشخیص و استخراج درخت برای جنگلداری و کشاورزی دقیق مانند درختان نخل در چند دهه اخیر به ویژه با استفاده از سنجش از دور در حال رشد بوده است. در مطالعات مناطق دارای پوشش درختی، سنجش از دور عموماً برای نقشهبرداری، شناسایی و ترسیم تاج درختان، ارزیابی ترکیب گونههای درختی، تشخیص و شمارش درخت، تخمین سن، تشخیص آفات یا بیماری و همچنین برای پایش استفاده میشود (2، 12، 20 و 21).
در طول دههها، روشهای مختلفی برای تشخیص و استخراج درخت از پردازش تصاویر سنتی در سالهای اولیه تا آخرین روشهای مبتنی بر یادگیری عمیق در 10 سال گذشته استفاده شده است. توسعه سریع الگوریتم جدید اخیراً موازی با پیشرفت های تکنولوژیکی در زمینه سنجش از دور بوده است. با این حال، این فرض هنوز در نشان دادن رابطه بین الگوریتمهای خاص با دادههای سنجش از دور مشخص نیست، زیرا هر مطالعه ملاحظات خاص خود را دارد. انواع مختلفی از فنآوریهای تصویربرداری به سرعت در حال رشد هستند، که میتواند شامل تصویربرداری هوایی معمولی (فتوگرامتری کلاسیک)، پرندههای هدایتپذیر از دور (پهپاد) و تصاویر ماهوارهای با قدرت تفکیک مکانی بالا باشد. بطور کلی روشهای موجود برای تشخیص درخت از تصاویر را میتوان به سه گروه کلی طبقهبندی نمود: اول روشهای مبتنی بر پردازش تصویر، دوم روشهای مبتنی بر یادگیری ماشین و سوم روشهای مبتنی بر یادگیری عمیق. از روشهای مبتنی بر پردازش تصویر میتوان روشهای فیلتر حداکثر محلی، تشخیص و قطعهبندی لبه، عملگرهای مورفولوژیکی، تطبیق الگو و شاخصهای پوشش گیاهی را نام برد (13). روشهای تشخیص درخت مبتنی بر یادگیری ماشین (ML) معمولاً به استخراج ویژگی، قطعهبندی تصویر، آموزش طبقهبندیکننده و پیشبینی نیاز دارند (9).
طبقهبندیکنندهها که مهمترین بخش در یادگیری ماشین هستند را میتوان به دو گروه نظارت شده یا بدون نظارت طبقهبندی کرد. روشهای جنگل تصادفی (RF)، ماشین بردار پشتیبان (SVM)، درخت تصمیم (DT) و شبکه عصبی برخی از نمونههای طبقهبندیکننده نظارتشده هستند. در حالی که نزدیکترین همسایگی K (k-NN) و K-means دستهبندیکنندههای بدون نظارت هستند. یادگیری ماشین نظارت شده نیاز به پایگاه داده تصاویر با برچسب مثبت و منفی با کلاسهای مربوطه (به عنوان مثال درخت و پس زمینه) هستند که برای نمونههای آموزشی استفاده میشوند. پیشرفتهای اخیر در یادگیری عمیق تأثیر زیادی بر سنجش از دور به طور کلی (25) و به طور خاص، بر طبقهبندی پوشش زمین (7) داشته است. یادگیری عمیق امکان شناسایی خودکار موقعیت تک تک درختان نخل در مناطق بزرگ را در یک زمان معقول ارائه میدهد. چنین دادههای برای ذینفعان مختلف مورد توجه است. کشاورزان بهتر میتوانند توسعه مزارع خود را نظارت کرده و فرآیندهای مدیریتی خود را تنظیم کنند (3).
اخیراً، چندین مدل تشخیص و کلاسبندی اشیاء یادگیری عمیق به تدریج در تشخیص و کلاسبندی درختان منفرد مانند درختان زیتون، نخل و نارگیل بر اساس تصاویر با قدرت تفکیک مکانی بالا و لیدار به دست آمده از ماهوارهها و پهپادها به کار گرفته شده است (5، 8 و 24). واینستین و همکاران (23) یک خط لوله یادگیری عمیق نیمه نظارت شده برای تشخیص تاج درختان بر اساس دادههای مرئی و لیدار پیشنهاد کردند و به ترتیب 69 و 60 درصد دقت تولید کننده و دقت کاربر را به دست آوردند. سرستاساتیرن و راکواتین (19) از تصاویر کوئیک برد (Quickbird) و وردویو (WorldView-2) با وضوح فضایی 60 سانتی متر و چهار باند طیفی در تایلند استفاده کردند. آنها موقعیت نخل را از یک شاخص پوشش گیاهی، با استفاده از تبدیل داده و حداکثر استخراج، استخراج کردند. با استفاده از این رویکرد، آنها به امتیاز F1 بین 89.7 و 99.3 درصد رسیدند. با این حال، ذکر این نکته مهم است که آنها الگوریتم خود را در مزارعی اعمال کردند که در آن نخلهای جداگانه به خوبی بدون تاجهای همپوشانی از هم جدا شده بودند و مرزهای کاشت قبلاً مشخص شده بود. لی و همکاران (10) یک طبقهبندی شبکه عصبی کانولوشنال (CNN) را با استفاده از چندین هزار نمونه تصویر 17 در17 پیکسلی با وضوح 60 سانتیمتر آموزش دادند. شبکه قطعههای تصویر کوچک با (یا بدون) درخت در مرکز خود را به عنوان ورودی دریافت میکند و یک احتمال را برای هر قطعه تصویر حاوی یک درخت محاسبه میکند. پنجره ورودی کوچک روی کل تصویر جابجا میشود و در هر موقعیت احتمال مربوطه ثبت میشود. با این روش، یک نقشه احتمال درخت ایجاد شد. با استفاده ازروش سرکوب غیر حداکثری، موقعیت درخت تعیین شد. این رویکرد نتایج بسیار خوبی به همراه داشت. آنها به امتیازات F1 بین 92.2 و 97.1 درصد رسیدند.
دادههای مکانی و شمارش درختان نخل برای بررسی منطقه کاشت، پیشبینی عملکرد میوه، مدیریت و برنامهریزی هوشمند باغها بسیار مهم هستند. این دادهها معمولاً از طریق بررسی دستی و آماری و با تلاش زمانبر و پرزحمت بهدست میآیند. مدلهای تشخیص اشیا در یادگیری عمیق که به طور گسترده در بینایی کامپیوتری استفاده میشوند، میتوانند فرصتی برای تشخیص دقیق درختان نخل فراهم کنند که برای بدست آوردن سریع دادهها و کاهش خطاهای عملیات انسانی ضروری است. تشخیص درختان در تصاویر نوری همچنان یک چالش است. بهندرت مطالعهای برای تشخیص درخت با استفاده از منابع اینترنتی مجانی و در دسترس مانند سامانه گوگل ارث انجام شده است. برای بهدست آوردن اطلاعات پوشش درختی به صورت مقرون به صرفه و کارآمد، در این پژوهش، یک مجموعه مدل یادگیری عمیق برمبنای شبکههای باقیمانده برای تشخیص درختان نخل از تصاویر گوگل ارث ارائه شده است.
هدف اصلی این تحقیق تشخیص درختان نخل از تصاویر ماهوارهای با قدرت تفکیک بالای گوگل ارث است که در نتیجه آن بتوان موقعیت مکانی، تعداد و توزیع مکانی درختان را برآورد نمود. با دستیابی به این اهداف، دادههای زیادی برای بروزرسانی درختان نخل بدست خواهد آمد. همچنین بینش جدیدی ارائه میدهد که با استفاده از روشهای مبتنی بر یادگیری عمیق، میتوان اطلاعات در مقیاس بزرگ را از تصاویر ماهورهای در دسترس به دست آورد.
روش تحقیق
منطقه مورد مطالعه
منطقه مورد مطالعه در این تحقیق درختان نخل در محدوده حریم شهری، شهر اهواز در استان خوزستان میباشد. در این تحقیق از تصاویر ماهوارهای با قدرت تفکیک مکانی بالا استفاده شده است. چون در ایران تنها تصاویر ماهوارهای با قدرت تفکیک مکانی بالای در دسترس تصاویر ماهوارهای در پایگاه داده گوگل ارث میباشد، از تصاویر ماهوارهای گوگل ارث استفاده شده است. تصویر ماهوارهای منطقه مورد مطالعه از گوگل ارث توسط نرمافزار Google Earth Images Downloader با بزرگنمایی 21 دانلود شد. زمان اخذ تصاویر دانلود شده 6/26/2021 است. اندازه تصویر اصلی دانلود شده برابر 28062 × 6377 پیکسل است. شکل 1 موقعیت تصاویر ماهوارهای دانلود شده از گوگل ارث را نشان میدهد.
شکل1. منطقه مورد مطالعه و نمونه تصاویر ماهوارهای دانلود شده از گوگل ارث
Fig. 1- The study area and sample satellite images downloaded from Google Earth
روند کلی پژوهش
در این پژوهش با توجه به نقش مهم درختان نخل در مناطق جنوبی ایران، استخراج درختان نخل از تصاویر ماهوارهای مورد توجه قرار گرفته است. برای تعیین موقعیت درختان دو روش کلی عملیات میدانی با استفاده از ابزارهایی مانند گیرندههای تعیین موقعیت ماهوارهای و دوربینهای توتال استیشن و عملیات هوایی بر مبنای سکوهای ماهوارهای، هواپیماها و پرندههای هدایتپذیر از دور (پهپاد) وجود دارد. در این پژوهش با توجه به اینکه تصاویر ماهوارهای گوگل ارث بصورت مجانی در دسترس است، هدف تشخیص و استخراج درختان نخل از تصاویر ماهوارهای با قدرت تفکیک بالای مکانی گوگل ارث میباشد. این تصاویر در باند مرئی در دسترس هستند و فاقد باند مادون قرمز نزدیک هستند که چالش شناسایی درختان را بیشتر میکند. با توجه به اینکه روشهای یادگیری عمیق ابزار مهمی در تشخیص اشیا در تصاویر هستند (8)، در این پژوهش برای آموزش مدل از روشهای یادگیری عمیق باقیمانده با تعداد لایههای 18 (ResNet18)، 34 (ResNet34) و 50 (ResNet50) با توجه به موفقیت این مدلها استفاده شده است (14). شکل (2) روند کلی این پژوهش را نشان میدهد.
شکل2. روند کلی پژوهش
Fig. 2- The general process of research
از آنجایی که درختان نخل وقتی از بالا دیده میشوند، شکل سادهای مثل «ستاره» دارند، امکان تشخیص آنها با استفاده از یک مدل یادگیری عمیق وجود دارد. پارامترهای مدل اجرا شده در این مطالعه شامل تعداد دورههای آموزشی برابر 30 اپک میباشد. آموزش مدلهای پیشنهادی بر روی دادههای آموزشی با یک کامپیوتر شخصی لپتاپ با پردازشگر مرکزی نسل هشت Core i7 و RAM برابر 12 گیگابایت انجام شده است. زمان پردازش حدود 1 ساعت و 20 دقیقه برای مدل ResNet18 و حدود 2 ساعت و 1 دقیقه برای مدل ResNet34 و حدود 3 ساعت و 16 دقیقه برای مدل ResNet50 طول کشیده است. هرچه تعداد لایهها بیشتر باشد، شبکه عمیقتر شده و زمان یادگیری بیشتر خواهد شد.
دادههای مورد استفاده
در ابتدا تصاویر ماهوارهای با قدرت تقکیک مکانی بالا از نرمافزار گوگل ارث دانلود شده است. تصویر گوگل ارث دانلود شده در باند مرئی (RGB) بوده و فاقد باندهای دیگر در تصاویر اصلی کوئیک برد میباشد که چالش تشخیص و استخراج درخت را بدلیل عدم امکان استفاده از سایر باندها بیشتر میکند. نمونههای آموزشی در دوکلاس شامل تصاویر حاوی درخت نخل و بدون درخت نخل (پسزمینه) تهیه گردید. نمونههای آموزشی طوری از تصاویر اصلی بریده شدهاند که درخت نخل در وسط تصویر باشد. با توجه به برآورد اندازه درختان نخل، بیش از 1600 نمونه حاوی درخت نخل برای یادگیری با ابعاد 64 در 64 پیکسل استخراج گردید. همچنین بیش از 1600 نمونه تصویری بدون درخت نخل به عنوان پسزمینه تهیه گردید. در نمونههای استخراج شده کیفیت تصویر، رنگ، کنتراست یا حذف سایه تغییری نکرده است. در نهایت نمونهها در دو کلاس با درخت و بدون درخت برچسبگذاری شدهاند. از نمونههای انتخاب شده 20 درصد بهصورت تصادفی برای اعتبارسنجی در مدل استفاده شدهاند. شکل (3) تعدادی از نمونههای آموزشی در منطقه مورد مطالعه را نشان میدهد.
|
|
نمونه تصاویر آموزشی با درخت | نمونه تصاویر آموزشی بدون درخت (پسزمینه) |
شکل3. نمونه تصاویر آموزشی برای ورود به مدل یادگیری عمیق
Fig. 3- Examples of educational images to enter the deep learning model
شبکه های عصبی کانولوشن
در دهه اخیر، با پیشرفت تجهیزات سخت افزاری کامپیوتر و توسعه سریع فناوری هوش مصنوعی (AI)، شبکه های عصبی کانولوشن (CNN) در یادگیری عمیق، راههای جدیدی را برای تشخیص اشیا و استخراج ویژگیها ارائه کردهاند. در تصاویر سنجش از دور بسیاری از معماریهای شبکه های عصبی کانولوشن برای تشخیص اشیا در بینایی کامپیوتری و تجزیه و تحلیل تصویر ارائه شدهاند (16). شبکههای عصبی کانولوشنال یک کلاس از شبکههای عصبی مصنوعی عمیق را تشکیل میدهند که بر کانولوشنها (عملیات خطی محلی) و به دنبال آن تبدیلهای غیر خطی تکیه میکنند و نمایش دادههای ورودی مختلف را ایجاد میکنند. لایههای کانولوشن به عنوان استخراج کننده ویژگیهای تصاویر ورودی عمل میکنند. شبکههای عصبی کانولوشنال در ابتدا برای تشخیص حضور اشیا در تصاویر و تولید خروجی بدون هیچ بعد مکانی توسعه یافتند (17). شبکههای عصبی کانولوشنال به طور گسترده در وظایف تشخیص اشیا به عنوان استخراج کننده ویژگی با هدف تغذیه آن اطلاعات در مدل های یادگیری ماشین برای طبقه بندی تصاویر استفاده میشوند (15). در این پژوهش از شبکههای یادگیری عمیق باقیمانده استفاده شده است.
شبکههای یادگیری عمیق باقیمانده (ResNet)
معماری شبکههای یادگیری عمیق باقیمانده اولین بار در سال 2015 توسط هی و همکاران (4) در تیم تحقیقاتی مایکروسافت طراحی گردید. در آن زمان، این معماری برنده چندین مسابقه شد و رکورد جدیدی را برای طبقهبندی مجموعه داده ImageNet به ثبت رساند. ایده اصلی معماری شبکههای یادگیری عمیق باقیمانده این است که بلوکهای ساختمان آن برای «یادگیری توابع باقیمانده با ارجاع به ورودیهای لایه، به جای یادگیری توابع غیر مرجع» طراحی شدهاند. یک ورودی دلخواه x به یک لایه از یک شبکه عصبی و خروجی بهینه y را تصور کنید. در مورد یک تابع بدون مرجع، شبکه مستقیماً تابع f را که y (y = f (x)) را تولید میکند، تقریب میزند. منظور از "تابع باقیمانده" در این زمینه، این است که شبکه جدید اکنون y = x + f (x) را تقریب میزند. بنابراین شبکه به جای اینکه یاد بگیرد که چگونه ورودی باید تبدیل شود تا خروجی مورد نظر را ایجاد کند، تفاوت بین ورودی و خروجی بهینه را یاد میگیرد. شکل 4 نشان میدهد که چگونه این مفهوم بر روی لایههای یک شبکه کانولوشن اعمال میشود. بلوک اصلی یک ورودی دریافت میکند که در آن یک کانولوشن اعمال میشود، به دنبال آن نرمالسازی دستهای و تابع فعالسازی ReLU اعمال میشود که مسیر اصلی نامیده میشود. همچنین این عمل برای بار دوم نیز تکرار میشود و ورودی مستقیم به نقشه ویژگی حاصل اضافه میشود که مسیر میانبر نامیده میشود. با این معماری یادگیری تبدیل هویت آسانتر است، زیرا بهینهساز کافی است که فقط وزنها را در لایههای کانولوشن به صفر برساند.
شکل4. بلوک ساختمان مدل ResNet (4)
(4) Fig. 4- ResNet model building block
نتایج مشاهداتی حاصل از مدلهای شبکههای عصبی کانولوشن قبلی نشان میداد که افزودن لایههای بیشتر به یک شبکه موجود لزوماً عملکرد را افزایش نمیدهد. اما نقش کلیدی شبکههای باقیمانده ایجاد یک لایه یا بلوک بود که بتواند به راحتی تغییر هویت را یاد بگیرد (به عنوان مثال با تنظیم f(x)=0). چیدمان این بلوکها در بالای شبکه موجود در حالت ایدهآل نباید عملکرد آن را بدتر کند، زیرا بلوکهای جدید میتوانند تغییر هویت را یاد بگیرند و در نتیجه عملکرد مدل پایه را حفظ کنند. اما بلوکهای جدید اضافه شده تعداد درجات آزادی و عمق شبکه را افزایش میدهند، بنابراین ظرفیت یادگیری ویژگیهای پیچیده را افزایش میدهند. همچنین در صورتی که نمایش بهتری از دادهها وجود داشته باشد، شبکه جدید باید قادر به یادگیری آن باشد.
دو لایه کانولوشن در بلوک معمولاً مجموعهای از پارامترهای مشابه مانند تعداد فیلترها، اندازه هسته و غیره را به اشتراک میگذارند. مجموعهای از بلوکها را که فراپارامترهای یکسانی دارند، را میتوان یک واحد نامید. برای بدست آوردن شبکه باقیمانده کامل، چندین واحد از این واحدها روی هم چیده میشوند و به دنبال آن یک لایه کاملا متصل قرار میگیرد. بنابراین، شبکه باقیمانده را میتوان با تعداد واحدها، تعداد بلوکها در هر واحد، فراپارامترهای بلوکها در واحدها و با تعداد گرهها در اتصال کامل مشخص نمود. لایه خروجی شبکه باقیمانده بر اساس تعداد کل لایهها نامگذاری میشود. به عنوان مثال، ResNet18 دارای 18 لایه و ResNet34 دارای 34 لایه است. ابتدا، یک کانولوشن با پرش دو گام بر روی تصویر ورودی، و به دنبال آن تابع ادغام ماکزیمم، که منجر به کاهش شدید نمونهگیری ورودی میشود، اعمال میشود. سپس یک واحد با دو بلوک پایه اعمال میشود. واحد دوم نیز شامل دو بلوک است. اما در اینجا، کانولوشن اول مقدار پرش برابر دو گام است، بنابراین نقشههای ویژگی را کمنمونه میکند. شکل 5 ساختار کلی شبکههای یادگیری عمیق باقیمانده با 18، 34 و 50 لایه را نشان میدهد.
شکل5. ساختار مدلهای یادگیری عمیق باقیمانده با 18، 34 و 50 لایه
Fig. 5- Structure of residual deep learning models with 18, 34 and 50 layers
آموزش و استنتاج شبکههای عصبی باقیمانده مانند هر طبقهبندیکننده دیگری آموزش داده میشود. شبکه تصاویر متعلق به کلاسهای مشخصی را دریافت میکند. این دادهها به عنوان یک بردار بارز کدگذاری میشوند که در آن همه ورودیها صفر هستند، به جز ورودی کلاس واقعی که روی یک تنظیم شده است. استنباط نیز به همین ترتیب انجام میشود. شبکه یک تصویر دریافت میکند و بردار طبقهبندی را با احتمالات برای هر کلاس خروجی میدهد.
برای ارزیابی عملکرد شبکه، باید یک تابع ضرر (loss) نیز تعریف شود. تابع ضرر، اثربخشی شبکه را در مدلسازی مجموعه داده آموزشی ارزیابی میکند. هدف از آموزش به حداقل رساندن خطای تابع ضرر است. آنتروپی متقاطع تابع softmax به صورت معادله 1 تعریف میشود:
[1] |
|
[2] |
| ||||||
[3] |
|
[4] |
|
|
|
|
ResNet50 | ResNet34 | ResNet18 |
شکل6. تابع ضرر بر اساس دورههای یادگیری (دستههای پردازش شده)
Fig. 6- Loss function based on learning periods (batchs processed)
جدول 1 ماتریس ابهام را برای هر سه مدل شبکههای عمیق باقیمانده بر روی دادههای اعتبارسنجی در فرآیند آموزش مدل را نشان میدهد.
جدول1. ماتریس ابهام برای مدلهای شبکه عمیق باقیمانده با 18، 34 و 50 لایه برای دادههای اعتبارسنجی
Table 1. Confusion matrix for residual deep network models with 18, 34 and 50 layers for validation data
ResNet50 | ResNet34 | ResNet18 |
| ||||
0 | 329 | 1 | 328 | 2 | 327 | Palm | Actual |
321 | 0 | 320 | 1 | 321 | 0 | No Palm | |
Predicted |
|
|
معیارهای ارزیابی برای دادههای اعتبارسنجی در جدول 2 نشان داده شده است.
جدول2. معیارهای ارزیابی دقت برای مدلهای شبکه عمیق باقیمانده با 18، 34 و 50 لایه برای دادههای اعتبارسنجی
Table 2. Accuracy evaluation criteria for residual deep network models with 18, 34 and 50 layers for validation data
معیار F1 Score | معیار بازیابی (Recall) | معیار دقت (Precision) | نام مدل |
0.997 | 0.994 | 1 | ResNet18 |
0.997 | 0.997 | 0.997 | ResNet34 |
1 | 1 | 1 | ResNet50 |
برای ارزیابی مدلها، 500 نمونه به عنوان دادههای تست که در روند یادگیری مدلها شرکت نکردهاند، تهیه گردید. مدلها بر روی تصاویر دادههای تست اجرا گردید. جدول 3 ماتریس ابهام نتایج را نشان میدهد.
جدول3. ماتریس ابهام برای مدلهای شبکه عمیق باقیمانده با 18، 34 و 50 لایه برای دادههای تست
Table 3. Confusion matrix for residual deep network models with 18, 34 and 50 layers for test data
ResNet50 | ResNet34 | ResNet18 |
| ||||
0 | 250 | 0 | 250 | 0 | 250 | Palm | Actual |
240 | 10 | 244 | 6 | 246 | 4 | No Palm | |
Predicted |
|
|
معیارهای ارزیابی برای دادههای تست در جدول 4 نشان داده شده است.
جدول4. معیارهای ارزیابی دقت برای مدلهای شبکه عمیق باقیمانده با 18، 34 و 50 لایه برای دادههای تست
Table 4. Accuracy evaluation criteria for residual deep network models with 18, 34 and 50 layers for test data
معیار F1 Score | معیار بازیابی (Recall) | معیار دقت (Precision) | نام مدل |
0.992 | 1 | 0.984 | ResNet18 |
0.988 | 1 | 0.976 | ResNet34 |
0.980 | 1 | 0.961 | ResNet50 |
برای تشخیص و استخراج درخت از تصاویر ماهوارهای گوگل ارث، تصویر ماهوارهای ورودی در قطعات 64 در 64 پیکسل با گام یک چهارم اندازه هر قطعه یعنی 16 پیکسل بریده شده است. بدیهی است کاهش گام میتواند دقت نهایی را افزایش دهد، اما زمان پردازش مقرون به صرفه نخواهد بود. سپس تصاویر به مدلهای آموزش دیده جهت تشخیص کلاس آنها وارد شده است، مدلها برای هر قطعه نوع کلاس با و بدون درخت نخل را با ضریب اطمینان بین 0 تا 1 محاسبه میکنند. موقعیت هر قطعه با یک کادر مستطیلی بر روی تصویر ماهوارهای ژئورفرنس شده، نشان داده شده است. از بین قطعاتی که دارای همپوشانی زیادی هستند، قطعاتی که دارای ضریب اطمینان بالاتری هستند انتخاب و بقیه حذف میشوند. برای اینکار از روش سرکوب غیرحداکثری (NMS) برای حذف قطعههای تکراری که روی همان شیء همپوشانی دارند، اعمال میشود (18). پارامتر امکان همپوشانی روش سرکوب غیرحداکثری برابر 25 درصد اعمال شده است. شکل 7 نتیجه اعمال مدلهای پیشنهادی بر روی یک نمونه تصویر ماهوارهای گوگل ارث را نشان میدهد. فقط نتایجی که دارای ضریب اطمینان بالای 0.9 بودهاند، برای نمایش نهایی موقعیت درختان نخل استفاده شده است.
|
|
|
ResNet50 | ResNet34 | ResNet18 |
شکل7. نمونهای از نتیجه استخراج مکان درختان نخل بر منبای مدلهای یادگیری عمیق باقیمانده با 18، 34 و 50 لایه
Fig. 7- Example of the result of extracting palm trees based on the residual deep learning models with 18, 34 and 50 layers.
زمان پردازش برای مدل 50 لایه تقریبا دو برابر مدل 18 لایه بوده و زمان پردازش مدل 34 لایه حدود یک و نیم برابر مدل 18 لایه بوده است. بررسی نتایج بر روی تصاویر مختلف نشان میدهد که هر سه مدل امکان تشخیص درخت نخل از تصاویر ماهوارهای گوگل ارث را با دقت مناسب بالای 90 درصد دارند. اما مدل 34 لایه با توجه به زمان پردازش و دقت بالاتر پیشنهاد میشود. مدل 18 لایه نسبت به مدل 34 لایه دقت کمتری دارد. بطور کلی مدل 34 لایه برای شمارش درختان نتایج بهتری نشان میدهد.
بحث و نتیجهگیری
بدست آوردن مکان، نوع و اندازه درختان در یک منطقه خاص بر اساس نوع کاربرد ضروری است. به عنوان مثال، یک باغدار ممکن است نیاز به شمارش درختان خود داشته باشند تا برای فعالیتهای برداشت خود برنامهریزی کند. برای مدیریت بهینه جنگلها اغلب به اطلاعاتی در مورد سن، تراکم و انواع درختان در مناطق جنگلی نیاز است. همچنین دانستن اینکه چه مقدار چوب برای برداشت در یک منطقه خاص و به طور بالقوه، چه مقدار برای احتراق در صورت آتشسوزی در دسترس است، میتواند مفید باشد. با توجه به رشد سریع شهرها، شناسایی درختان در محدوده شهری برای حفظ پوشش درختی شهری ضروری است. به این دلایل، تلاش قابل توجهی برای یافتن راههای سریع و ارزان برای بدست آوردن چنین دادههایی صورت گرفته است.
مدیریت هوشمند پوشش درختی مانند باغها و پارکها به دادههای مربوط به مکان و ویژگیهای تک درختان در منطقه پوشش درختی نیاز دارد، زیرا این دادهها نقش مهمی در بررسی دقیق منطقه کاشت، پیشگیری و کنترل بیماریها و آفات، و پیشبینی عملکرد میوه دارند. به طور سنتی، از تحقیقات میدانی و عملیات زمینی برای جمعآوری این دادهها از جمله مکان، توزیع مکانی و غیره در باغها استفاده میشود. این تحقیقات زمانبر، نیاز به کار گسترده و پرهزینه هستند، اما نمیتوانند نیازهای مدیریت هوشمند مناطق دارای پوشش درختی را برآورده کنند. توسعه روشی سریع، ارزان و دقیق برای بدست آوردن این دادهها ضروری است. تصاویر درختان در یک باغ نسبتا بزرگ را میتوان با تصویربرداری ماهوارهای یا هوایی اخذ نمود. اما برای مناطق خیلی بزرگ نیاز به تصاویر ماهوارهای با قدرت تفکیک بالای مکانی وجود دارد. در مورد استفاده از تصاویر ماهوارهای، هوای ابری در ابتدا چالش بزرگی است و به دلیل کیفیت پایین تصاویر گرفته شده، تشخیص درختان را دشوارتر میکند. این مطالعه رویکردی را برای تشخیص درختان نخل و نقشهبرداری توزیع مکانی آنها با ادغام یادگیری عمیق با تصاویر ماهوارهای پیشنهاد میکند. یک مجموعه داده تصویری از نمونههای یادگیری عمیق درختان نخل از طریق تفسیر بصری بر اساس تصاویر درختان نخل از تصاویرماهوارهای با قدرت تفکیک بالای مکانی دانلود شده از گوگل ارث ساخته شد. در این پژوهش برای تشخیص اشیا از روشهای یادگیری عمیق باقیمانده، استفاده شده است.
در این پژوهش بدلیل عدم دسترسی به تصاویر ماهوارهای با قدرت تفکیک بالای مکانی مانند کوئیک برد و ژئوآی از تصاویر ماهوارهای گوگل ارث استفاده شده است. چالش اصلی این تصاویر عدم دسترسی به همه باندهای تصاویر ماهوارهای است و فقط تصاویر باند مرئی قابل دانلود است. در این پژوهش تصویر مناسب از بین تصاویر در دسترس انتخاب و با نرمافزارهای دانلود تصاویر گوگل در تاریخ مورد نظر با بزرگنمایی بالا دانلود گردید. سپس نمونه تصاویر آموزشی در دو کلاس با درخت نخل و بدون درخت نخل با ابعاد 64 در 64 پیکسل با بیش از 1500 نمونه برای هر کلاس استخراج گردید. از نمونههای آموزشی 80 درصد برای آموزش مدلهای پیشنهادی و 20 درصد برای اعتبارسنجی استفاده شده است. سپس مدلهای شبکه یادگیری عمیق باقیمانده با تعداد لایه 18، 34 و 50 با نمونههای آموزشی، آموزش داده شد. زمان لازم برای یادگیری مدل برای مدل باقیمانده 50 لایه تقریبا سه برابر مدل باقیمانده 18 لایه و برای مدل 34 لایه نیز تقریبا دو برابر 18 لایه باشد. تعداد دوره آمورشی برای هر سه مدل، 30 اپک در نظر گرفته شده است. با توجه به رفتار تابع ضرر بر روی نمونههای آموزشی و اعتبارسنجی، هر سه مدل بخوبی آموزش دیدهاند. مقدار پارامترهای ارزیابی مدل شامل معیار دقت، معیار بازیابی و معیار F1Score برای هر سه مدل بیش از 99 درصد میباشد که دارای دقت بهتری از روش لی و همکاران (10) که به دقت بین 92.1 تا 97.1 برای معیار F1Score دست یافتند، است. در میان مدلهای پیشنهادی، مدل شبکه عصبی یاقیمانده 50 لایه نتایج بهتری برروی دادههای اعتبارسنجی نشان داده است.
برای ارزیابی مدلها با دادههای تست، بیش از 500 نمونه تصویری که در فرآیند یادگیری شرکت نکردهاند، استخراج گردید. نتایج اجرای مدلهای شبکه عصبی پیشنهادی بر روی دادههای تست نشان میدهد که مدل شبکه عصبی باقیمانده 18 لایه نسبت به مدل 34 و 50 لایه نتایج بهتری دارد. هر چند معیارهای ارزیابی دقت برای هر سه مدل بیش از 0.96 درصد میباشد که نشاندهنده توانایی هر سه مدل در تشخیص درخت نخل از تصاویر ماهوارهای گوگل ارث است.
برای تشخیص و استخراج موقعیت درختان نخل از تصاویر ماهوارهای یک پنجره با ابعاد 64 در 64 پیکسل بر روی تصویر ورودی حرکت داده شده است. برای کاهش زمان پردازش گام حرکت برابر یک چهارم ابعاد پنجره یعنی 16 پیکسل درنظر گرفته شد. با ورود قطعات تصویری به مدلهای پیشنهادی تعلق هر قطعه به یکی از دو کلاس ورودی با محاسبه و تعریف ضریب اطمینان آن بدست آمده است. برای تشخیص درخت نخل فقط قطعههای تصوبری با ضریب اطمینان بالای 90 درصد انتخاب شد. چون قطعات با هم همپوشانی دارند از روش سرکوب غیرحداکثری برای حذف قطعات تکراری با امکان پوشش 25 درصدی قطعات استفاده گردید. نتایج نشان میدهد که هر سه مدل با دقت بالای 90 درصد امکان شمارش و تعیین موقعیت درختان نخل را دارند. در مدل شبکه عصبی باقیمانده 18 لایه تعداد کمتری از درختان نسبت به مدلهای 34 و 50 لایه تشخیص داده میشود. مدل 50 لایه چون حساسیت بیشتری دارد، قطعات نهایی دارای همپوشانی بیشتری هستند و در نتیجه تعداد درختان از حالت واقعی بیشتر خواهد بود. با توجه به زمان پردازش و بررسی دقت نتایج در تهیه نقشه موقعیت درختان نخل مدل شبکه یادگیری عمیق باقیمانده 34 لایه پیشنهاد میشود. در صورت استفاده از تصاویر هوایی و همچنین افزایش تعداد نمونههای آموزشی، دقت مدل افزایش خواهد داشت. همچنین میتوان با ادغام تصاویر چندطیفی کارکرد مدل را بهبود بخشید.
تقدیر و تشکر
بدین وسیله از حمایت مالی معاونت پژوهش و فناوری دانشگاه شهید چمران اهواز در قالب پژوهانه شماره (SCU.EG1401.26151) در انجام این تحقیق تشکر و قدردانی میگردد.
منابع مورد استفاده
1. Ahl R, Hogland J, Brown S. 2019. A Comparison of Standard Modeling Techniques Using Digital Aerial Imagery with National Elevation Datasets and Airborne LiDAR to Predict Size and Density Forest Metrics in the Sapphire Mountains MT, USA. Ijgi 8 (1), 24. doi:10.3390/ijgi8010024.
2. Bulatov D, Wayand I, Schilling H. 2016. Automatic tree-crown detection in challenging scenarios International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences - ISPRS Archives 41 575–582.
3. Chong K L, Kanniah K D. Pohl C, Tan K P. 2017. A review of remote sensing applications for oil palm studies.Geo-Spat. Inf. Sci. 20, 184–200, doi:10.1080/10095020.2017.1337317.
4. He K, Zhang X, Ren S, Sun J. 2015. Deep Residual Learning for Image Recognition. In: arXiv e-prints. arXiv: 1512.03385.
5. Hu J, Zhang Y, Zhao D, Yang G, Chen F, Zhou C, Chen W. 2022. A robust deep learning approach for the quantitative characterization and clustering of peach tree crowns based on UAV images. Ieee T Geosci Remote, 1-14.
6. Hu R, Bournez E, Cheng S, Jiang H, Nerry F, Landes T, Saudreau M, Kastendeuch P, Najjar G, Colin J, Yan G. 2018. Estimating the leaf area of an individual tree in urban areas using terrestrial laser scanner and path lengthdistribution model. ISPRS J. Photogramm. Remote Sens. 144, 357–368.
7. Iglovikov V, Mushinskiy S, Osin V. 2017. Satellite Imagery Feature Detection using Deep Convolutional Neural Network: A Kaggle Competition. arXiv:1706.06169.
8. Jintasuttisak T, Edirisinghe E, Elbattay A. 2022. Deep neural network-based date palm tree detection in drone imagery. Comput Electron Agr, 192, 106560.
9. Li W, Dong R, Fu H, Yu L. 2019. Large-scale oil palm tree detection from high-resolution satellite images using two-stage convolutional neural networks Remote Sens. 11 11.
10. Li W, Fu H, Yu L. 2017. Deep convolutional neural network based large-scale oil palmtree detection for high-resolution remote sensing images. In Proceedings of the 2017 IEEE International Geoscience and Remote Sensing Symposium (IGARSS), FortWorth, TX, USA, 23–28 July 2017; pp. 846–849, doi:10.1109/IGARSS.2017.8127085.
11. Lin J, Kroll C N, Nowak D J, Greenfield E J. 2019. A review of urban forest modeling: Implications for management and future research. Urban For. Urban Green. 43, 126366 https://doi.org/10.1016/j.ufug.2019.126366.
12. Maschler J, Atzberger C, Immitzer M. 2018. Individual Tree Crown Segmentation and Classification of 13 Tree Species Using Airborne Hyperspectral Data Remote Sens. 10 1218.
13. Mckinnon T, Hoff P. 2017. Comparing RGB-Based Vegetation Indices with NDVI For Drone Based Agricultural Sensing 1–8.
14. Natesan S, Armenakis C, Vepakomma U. 2019. Resnet-based tree species classification using UAV images. Int. Arch. Photogramm. Remote Sens. Spatial Inf. Sci. XLII-2/W13: 475–481.
15. Olivares R J L. 2019. PALM TREE IMAGE CLASSIFICATION A convolutional and 40 machine learning approach.
16. Osco L P, Marcato Junior J, Marques Ramos A P. 2021. de Castro Jorge, L.A.; Fatholahi, S.N.; de Andrade Silva, J.; Matsubara, E.T.;Pistori, H.; Gonçalves, W.N.; Li, J., A review on deep learning in UAV remote sensing. Int J Appl Earth, 102, 102456.
17. Ponti M A, Ribeiro L S F, Nazare T S, Bui T, Collomosse J. 2017. Everything you wanted to know about deep learning for computer vision but were afraid to ask. In: 2017 30th SIBGRAPI Conference on Graphics, Patterns and Images Tutorials (SIBGRAPI-T), pp. 17–41. doi:10.1109/SIBGRAPI-T.2017.12.
18. Ren S. et al. 2017. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(6), pp. 1137–1149. doi: 10.1109/TPAMI.2016.2577 031.
19. Srestasathiern P, Rakwatin P. 2014. Oil Palm Tree Detection with High Resolution Multi-Spectral Satellite Imagery. In: Remote Sensing 6, pp. 9749–9774. DOI: 10.3390/rs6109749.
20. Torres-Sánchez J, López-Granados F, Serrano N, Arquero O and Peña J M. 2015. High-throughput 3-D monitoring of agricultural-tree plantations with Unmanned Aerial Vehicle (UAV) technology PLoS One 10 6.
21. Tuominen S, Näsi R, Honkavaara E, Balazs A, Hakala T, Viljanen N, Pölönen I, Saari H, Ojanen H. 2018. Assessment of classifiers and remote sensing features of hyperspectral imagery and stereo-photogrammetric point clouds for recognition of tree species in a forest area of high species diversity Remote Sens. 10 714.
22. Wang X, Wang Y, Zhou C, Yin L, Feng X. 2021. Urban forest monitoring based on multiple features at the single tree scale by UAV. Urban For. Urban Green. 58, 126958 https://doi.org/10.1016/j.ufug.2020.126958.
23. Weinstein B G, Marconi S, Bohlman S, Zare A, White E. 2019. Individual tree-crown detection in RGB imagery using semi-supervised deep learning neural networks. Remote Sensing 11, 1309.
24. Yao L, Liu T, Qin J, Lu N, Zhou C. 2021. Tree counting with high spatial-resolution satellite imagery based on deep neural networks. Ecol Indic, 125, 107591.
25. Zhu X X, Tuia D, Mou L, Xia G, Zhang L, Xu F, Fraundorfer F. 2017. Deep Learning in Remote Sensing: A Comprehensive Review and List of Resources. IEEE Geosci. Remote Sens. Mag. 5, 8–36, doi:10.1109/MGRS.2017.2762307.
Recognition and extraction of palm trees from satellite images with high spatial resolution of Google Earth based on residual deep learning networks
Abstract
Identifying the location of trees is the first step to manage green spaces, gardens and forests. The preparation of the location map of the trees can be done by ground mapping operations, which require a lot of money and time, or by using aerial or satellite images. In this research, satellite images with the high spatial resolution of Google Earth have been used to detect and extract palm trees, considering the role and importance of palm trees in the southern regions of Iran, but automatic recognition of trees from satellite images is a challenge. In this regard, deep learning methods are considered as an important solution for extracting objects from images. In this research, residual deep learning methods with the number of layers 18, 34 and 50 have been used. First, more than 3000 image samples were cut in two classes containing palm trees and without palm trees with dimensions of 64 x 64 pixels, then the models were trained with 80% samples for learning and 20% for validation with 30 epochs. The training accuracy of the models has been above 99%. The trained model was implemented on 500 test samples and the evaluation results of all three models show that the precision is more than 0.96, the recall is equal to 1, and the F1Score is more than 0.98. Running the models on Google Earth satellite images by moving the 64 x 64 pixel window with a step of 16 pixels and applying the non maximum suppression method shows that the satellite images of the Google Earth system can be used to prepare a map of palm trees. Considering the processing time and the possibility of better estimating the number and extracting the position of palm trees, the residual deep learning model with 34 layers is suggested.
Keywords: Machine learning, Automatic recognition, Features extraction, Convolutional Neural Network
تشخیص و استخراج درختان نخل از تصاویر ماهوارهای با قدرت تفکیک مکانی بالای گوگل ارث بر مبنای شبکههای یادگیری عمیق باقیمانده
چکیده مبسوط
هدف: هدف اصلی این تحقیق تشخیص درختان خرما از تصاویر ماهوارهای با قدرت تفکیک بالای گوگل ارث است که در نتیجه آن بتوان موقعیت مکانی، تعداد و توزیع مکانی درختان را برآورد نمود. با دستیابی به این اهداف، دادههای زیادی برای بروزرسانی درختان نخل بدست خواهد آمد. همچنین بینش جدیدی ارائه میدهد که با استفاده از روشهای مبتنی بر یادگیری عمیق، میتوان اطلاعات در مقیاس بزرگ را از تصاویر ماهورهای در دسترس به دست آورد.
روش تحقیق: در ابتدا تصاویر ماهوارهای با قدرت تقکیک مکانی بالا از نرمافزار گوگل ارث دانلود شد. تصویر گوگل ارث دانلود شده در باند مرئی (RGB) بوده و فاقد باندهای دیگر در تصاویر اصلی کوئیک برد میباشد که چالش تشخیص و استخراج درخت را بدلیل عدم امکان استفاده از سایر باندها بیشتر میکند. نمونههای آموزشی در دوکلاس شامل تصاویر حاوی درخت خرما و بدون درخت نخل تهیه گردید. نمونههای آموزشی طوری از تصاویر اصلی بریده شدهاند که درخت نخل در وسط تصویر باشد. با توجه به برآورد اندازه درختان خرما، بیش از 1600 نمونه حاوی درخت نخل برای یادگیری با ابعاد 64 در 64 پیکسل استخراج گردید. همچنین بیش از 1600 نمونه تصویری بدون درخت نخل تهیه گردید. در نمونههای استخراج شده کیفیت تصویر، رنگ، کنتراست یا حذف سایه تغییری نکرده است. در نهایت نمونهها در دو کلاس با درخت و بدون درخت برچسبگذاری شدهاند. از نمونههای انتخاب شده 20 درصد بهصورت تصادفی برای اعتبارسنجی در مدل استفاده شدهاند. در نهایت شبکههای یادگیری عمیق باقیمانده با 18، 34 و 50 لایه آموزش داده شدهاند و با حرکت پنجره جستجو در تصویر موقعیت مکانی درختان نخل با ضریب اطمینان برای هر قطعه تصویر محاسبه شده است. برای حذف تکراری قطعههای دارای همپوسانی از روش سرکوب غیرحداکثری استفاده شده است و نقشه موقعیت درختان نخل تهیه شده است.
نتایج و بحث: در این پژوهش برای آموزش مدل از روشهای یادگیری عمیق باقیمانده با تعداد لایههای 18 (ResNet18)، 34 (ResNet34) و 50 (ResNet50) استفاده شده است. پارامترهای مدل اجرا شده در این مطالعه شامل تعداد دورههای آموزشی برابر 30 اپک میباشد. آموزش مدلهای پیشنهادی بر روی دادههای آموزشی با یک کامپیوتر شخصی لپتاپ با پردازشگر مرکزی نسل هشت Core i7 و RAM برابر 12 گیگابایت انجام شده است. زمان پردازش حدود 1 ساعت و 20 دقیقه برای مدل ResNet18 و حدود 2 ساعت و 1 دقیقه برای مدل ResNet34 و حدود 3 ساعت و 16 دقیقه برای مدل ResNet50 طول کشیده است. هرچه تعداد لایهها بیشتر باشد، شبکه عمیقتر شده و زمان یادگیری بیشتر خواهد شد. میانگین دقت دادههای اعتبارسنجی مدلها بالای 99 درصد میباشد که نشان دهنده دقت بالای مدلها در تشخیص درخت نخل در شرایط این پژوهش میباشد. برای ارزیابی مدل 500 نمونه به عنوان دادههای تست که در روند یادگیری مدلها شرکت نکردهاند، تهیه گردید. ارزیابی نتایج بر روی دادههای تست نشان میدهد با افزایش لایههای مدل لزوما دقت افزایش نیافته است. ضریب اطمینان نمونههای تشخیصی اشتباه کمتر از 0.8 بوده است.
برای تشخیص و استخراج درخت از تصاویر ماهوارهای گوگل ارث، تصویر ماهوارهای ورودی در قطعات 64 در 64 پیکسل با گام یک چهارم اندازه هر قطعه یعنی 16 پیکسل بریده شده است. بدیهی است کاهش گام میتواند دقت نهایی را افزایش دهد، اما زمان پردازش مقرون به صرفه نخواهد بود. سپس تصاویر به مدلهای آموزش دیده جهت تشخیص کلاس آنها وارد شده است، مدلها برای هر قطعه نوع کلاس با و بدون درخت نخل را با ضریب اطمینان بین 0 تا 1 محاسبه میکنند. موقعیت هر قطعه با یک کادر مستطیلی بر روی تصویر ماهوارهای ژئورفرنس شده، نشان داده میشود. از بین قطعاتی که دارای همپوشانی زیادی هستند، قطعاتی که دارای ضریب اطمینان بالاتری هستند با روش سرکوب غیرحداکثری انتخاب و بقیه حذف شدهاند. بررسی نتایج بر روی تصاویر مختلف نشان میدهد که هر سه مدل امکان تشخیص درخت نخل از تصاویر ماهوارهای گوگل ارث را با دقت مناسب بالای 90 درصد دارند. اما مدل 34 لایه با توجه به زمان پردازش و دقت بالاتر پیشنهاد میشود. مدل 18 لایه نسبت به مدل 34 لایه دقت کمتری دارد. بطور کلی مدل 34 لایه برای شمارش درختان نتایج بهتری نشان میدهد.
نتیجهگیری: در این پژوهش زمان لازم برای یادگیری مدل برای مدل باقیمانده 50 لایه تقریبا سه برابر مدل باقیمانده 18 لایه و برای مدل 34 لایه نیز تقریبا دو برابر 18 لایه بوده است. تعداد دوره آمورشی برای هر سه مدل، 30 اپک در نظر گرفته شده است. با توجه به رفتار تابع ضرر بر روی نمونههای آموزشی و اعتبارسنجی، هر سه مدل بخوبی آموزش دیدهاند. مقدار پارامترهای ارزیابی مدل شامل معیار دقت، معیار بازیابی و معیار F1Score برای هر سه مدل بیش از 99 درصد میباشد. مدل شبکه عصبی باقیمانده 50 لایه نتایج بهتری برروی دادههای اعتبارسنجی نشان داده است. برای ارزیابی مدلها با دادههای تست، بیش از 500 نمونه تصویری که در فرآیند یادگیری شرکت نکردهاند، استخراج گردید. نتایج اجرای مدلهای شبکه عصبی پیشنهادی بر روی دادههای تست نشان میدهد که مدل شبکه عصبی باقیمانده 18 لایه نسبت به مدل 34 و 50 لایه نتایج بهتری دارد. معیارهای ارزیابی دقت برای هر سه مدل بیش از 96 درصد میباشد که نشاندهنده توانایی هر سه مدل در تشخیص درخت نخل از تصاویر ماهوارهای گوگل ارث است. برای تشخیص و استخراج موقعیت درختان نخل از تصاویر ماهوارهای یک پنجره با ابعاد 64 در 64 پیکسل بر روی تصویر ورودی حرکت داده شده است. برای کاهش زمان پردازش گام حرکت برابر یک چهارم ابعاد پنجره یعنی 16 پیکسل درنظر گرفته شد. با ورود قطعات تصویری به مدلهای پیشنهادی تعلق هر قطعه به یکی از دو کلاس ورودی با محاسبه و تعریف ضریب اطمینان آن بدست آمده است. برای تشخیص درخت نخل فقط قطعههای با ضریب اطمینان 90 درصد انتخاب شد. چون قطعات با هم همپوشانی دارند از روش سرکوب غیرحداکثری برای حذف قطعات تکراری با امکان پوشش 25 درصدی قطعات استفاده گردید. نتایج نشان میدهد که هر سه مدل با دقت بالای 90 درصد امکان شمارش و تعیین موقعیت درختان نخل را دارند. در مدل شبکه عصبی باقیمانده 18 لایه تعداد بیشتری از درختان نسبت به مدلهای 34 و 50 لایه تشخیص داده نشدهاند. مدل 50 لایه چون حساسیت بیشتری دارد، قطعات نهایی دارای همپوشانی بیشتری هستند و در نتیجه تعداد درختان از حالت واقعی بیشتر خواهد بود. با توجه به زمان پردازش و بررسی دقت نتایج در تهیه نقشه موقعیت درختان نخل مدل شبکه یادگیری عمیق باقیمانده 34 لایه پیشنهاد میشود. در صورت استفاده از تصاویر هوایی و همچنین افزایش تعداد نمونههای آموزشی دقت مدل افزایش خواهد داشت. همچنین میتوان با ادغام تصاویر چندطیفی کارکرد مدل را بهبود بخشید.
واژگان کلیدی: یادگیری ماشین، تشخیص خودکار، استخراج اهداف، شبکه عصبی کانولوشنال
Recognition and extraction of palm trees from satellite images with high spatial resolution of Google Earth based on residual deep learning networks
Abstract
Statement of the Problem: Spatial data and counting of palm trees are very important for surveying the planting area, predicting fruit yield, management and intelligent planning of orchards. This requires tools and technology that provide reliable information with acceptable accuracy. Using land Surveying methods using mapping cameras or satellite positioning receivers, although they have high accuracy, they have many challenges in addition to time and high cost. In this regard, using aerial and satellite images can be a better solution considering time and cost. Studies in the detection and extraction of trees for forestry and precision agriculture, such as palm trees, have been growing in recent decades, especially using remote sensing. Object recognition models in deep learning, which are widely used in computer vision, can provide an opportunity to recognize palm trees, which is necessary for rapid data acquisition and reduction of human operation errors. Automatic detection of trees in optical images is still a challenge. Rarely, a study has been done to identify a tree using free and available internet resources such as Google Earth. In order to obtain tree cover information in a cost-effective and efficient way, in this research, deep learning models based on residual networks are presented to recognize palm trees from Google Earth images.
Purpose: The main goal of this research is to identify palm trees from high-resolution satellite images of Google Earth, so that the location, number and distribution of trees can be estimated. By achieving these goals, a lot of data will be obtained to update palm trees. It also provides a new insight that by using methods based on deep learning, large-scale information can be obtained from available satellite images.
Methodology: At first, satellite images with high spatial resolution were downloaded from Google Earth software. The downloaded Google Earth image is in the visible band (RGB) and lacks other bands in the original quickboard images. i.e., increases the challenge of tree detection and extraction due to the impossibility of using other bands. Learning samples were prepared in two classes, including pictures containing palm trees and without palm trees. The training examples are cut from the original images so that the palm tree is in the middle of the image. According to the estimation of the size of palm trees, more than 1600 samples containing palm trees were extracted for learning with dimensions of 64 x 64 pixels. Also, more than 1600 image samples without palm trees were prepared. In the extracted samples, image quality, color, contrast or shadow removal have not changed. Finally, the samples are labeled in two classes with trees and without trees. 20% of the selected samples were randomly used for validation in the model. Finally, the remaining deep learning networks were trained with 18, 34 and 50 layers and by moving the search window in the image, the location of the palm trees was calculated with the confidence factor for each image piece. Non-maximum suppression method has been used to repeatedly remove overlapping parts, and a location map of palm trees has been prepared.
Results and discussion: In this research, residual deep learning methods with the number of (ResNet18) 18, (ResNet34) 34 and (ResNet50) 50 layers have been used to train the model. The parameters of the model implemented in this study include the number of training courses equal to 30 epochs. The training of the proposed models has been done on the training data with a personal laptop computer with the eighth generation Core i7 central processor and 12 GB of RAM. The processing time took about 1 hour and 20 minutes for the ResNet18 model, about 2 hours and 1 minute for the ResNet34 model, and about 3 hours and 16 minutes for the ResNet50 model. The higher the number of layers, the deeper the network and the longer the learning time. The average accuracy of the validation data of the models is above 99%, which shows the high accuracy of the models in detecting the palm tree in the conditions of this research. To evaluate the model, 500 samples were prepared as test data that did not participate in the model learning process. The evaluation of the results on the test data shows that the accuracy has not necessarily increased with the increase of model layers. The reliability coefficient of wrongly diagnosed samples was less than 0.8. To detect and extract the tree from Google Earth satellite images, the input satellite image is cut into 64 x 64 pixel pieces with a step of a quarter of the size of each piece, i.e. 16 pixels. Obviously, reducing the step can increase the final accuracy, but the processing time will not be economical. Then the images are entered into the trained models to recognize their class, the models calculate the type of class with and without palm trees for each plot with a confidence factor between 0 and 1. The position of each piece is shown with a rectangular box on the georeferenced satellite image. Among the parts that have a lot of overlap, the parts that have a higher confidence factor are selected by the non-maximum suppression method and the rest are removed. Examining the results on different images shows that all three models are able to recognize palm trees from Google Earth satellite images with a suitable accuracy of over 90%. But the 34-layer model is recommended due to the processing time and higher accuracy. The 18-layer model is less accurate than the 34-layer model. In general, the 34-layer model shows better results for counting trees.
Conclusion: In this research, the time required to learn the model for the 50-layer residual model was almost three times that of the 18-layer residual model, and for the 34-layer model, it was almost twice as much as 18 layers. The number of Learning periods for all three models is 30 epochs. According to the behavior of the loss function on the training and validation samples, all three models are well trained. The value of model evaluation parameters including precision, recall and F1Score for all three models is more than 99%. The residual neural network model of 50 layers has shown better results. To evaluate the models with test data, more than 500 image samples that did not participate in the learning process were extracted. The results of the implementation of the proposed neural network models on the test data show that the remaining 18-layer neural network model has better results than the 34 and 50-layer models. The accuracy evaluation criteria for all three models are more than 96%, which indicates the ability of all three models to recognize palm trees from Google Earth satellite images. To detect and extract the position of palm trees from satellite images, a window with dimensions of 64 x 64 pixels has been moved on the input image. In order to reduce the processing time, the movement step equal to a quarter of the window dimensions, i.e., 16 pixels, was considered. By entering image parts into the proposed models, the belonging of each part to one of the two input classes has been obtained by calculating and defining its reliability coefficient. To detect the palm tree, only pieces with a confidence factor of 90% were selected. Because the parts overlap each other, the non-maximum suppression method was used to remove duplicate parts with the possibility of covering 25% of the parts. The results show that all three models are able to count and determine the position of palm trees with an accuracy of over 90%. In the residual neural network model of 18 layers, more number of trees are not detected than in the 34 and 50 layer models. Because the 50-layer model is more sensitive, the final parts have more overlap, and as a result, the number of trees will be more than the 18-layer model. Considering the processing time and checking the accuracy of the results in preparing the position map of palm trees, the remaining 34-layer deep learning network model is suggested. If aerial images are used and the number of training samples is increased, the accuracy of the model will increase. It is also possible to improve the performance of the model by integrating multispectral images.
Keywords: Machine learning, Automatic recognition, Features extraction, Convolutional Neural Network