New structure-based models using mixture descriptors to predict the flammabiliy temperature of binary organic mixtures
Subject Areas : ModelingZohreh Faramarzi 1 , Fatemeh Abbasitabar 2 , Vahid Zare-Shahabadi 3
1 - Institute of Mining, Oil and Energy, Mahs.C., Islamic Azad University, Mahshahr, Iran.
2 - Department of Chemistry, Marv. C., Islamic Azad University, Marvdasht, Iran.
3 - Institute of Mining, Oil and Energy, Mahs.C., Islamic Azad University, Mahshahr, Iran.
Keywords: QSPR, Flammability point, Memorized-Ant Colony optimization, Mixture descriptors, Multiple linear regression.,
Abstract :
Due to the importance of binary mixtures and their wide application in industry, it is important to estimate their flammability temperature. Therefore, in this study, quantitative structure-property relationship(QSPR) models were developed to predict the flammability point of binary organic mixtures. The biggest challenge in QSPR studies of mixtures is the calculation of a numerical descriptor to describe the property of a mixture. In this study, a set of twenty-two formulas was used to calculate mixture descriptors from molecular descriptors of pure compounds. Memorized Ant Colony(Memorized-ACO) Algorithm along with multivariate linear regression(MLR) was used to select the best subset of descriptors that have a significant contribution to the flammability property. The model based on sqr−fmol−sum descriptor was selected as the best model. R2 training and R2test of this model were 0.93 and 0.94, respectively. The mean absolute error(MAE) for the training and test datasets was 3.75 and 2.97, respectively. A group model was also obtained through a simple averaging strategy using the models generated by the best descriptors. This improved the statistical quality of the final QSPR model.
1. L. O. Chemicals. Globally harmonized system of classification and labelling of chemicals (GHS); 10th revised ed (United Nations, 2023).
2. D. A. Crowl, J. F. Louvar. Chemical process safety: fundamentals with applications; 4th ed (Pearson Education, 2019).
3. J. A. Dean, N. A. Lange. Lange's handbook of chemistry; 5th ed (McGraw-Hill, 1999).
4. H. J. Liaw, S. C. Lin. J. Hazard. Mater. 140, 155 (2007).
5. H. J. Liaw, T. P. Lee, J. S. Tsai, W. H. Hsiao, M. H. Chen, T. T. Hsu. J. Loss Prev. Process Ind. 16, 173 (2003).
6. L. Catoire, S. Paulmier, V. Naudet. Process Saf. Prog. 25, 33 (2006).
7. E. Torabian, M. A. Sobati. Thermochim. Acta 672, 162 (2019).
8. Y. Pan, J. Cheng, X. Song, G. Li, L. Ding, J. Jiang. J. Loss Prev. Process Ind. 34, 56 (2015).
9. H. J. Liaw, T. P. Tsai. Fluid Phase Equilib. 345, 45 (2013).
10. H. J. Liaw, H. Y. Chen. Industrial & Engineering Chemistry Research 52, 7579 (2013).
11. H. J. Liaw, C. L. Tang, J. S. Lai. Comb. Flame. 138, 308 (2004).
12. B. Nazari, M. H. Keshavarz, A. Hassanzadeh. Process Saf. Environ. Prot. 132, 134 (2019).
13. F. A. Carroll, C. Y. Lin, F. H. Quina. Industrial & Engineering Chemistry Research 50, 4796 (2011).
14. X. Liu, Z. Liu. Journal of Chemical & Engineering Data 55, 2943 (2010).
15. G. Fayet, P. Rotureau, V. Prana, C. Adamo. In 14. International Symposium on Loss Prevention and Safety Promotion in the Process Industry, 31, 925 (2013).
16. L. Jiao, X. Zhang, Y. Qin, X. Wang, H. Li. Chemometr. Intell. Lab. Syst. 156, 211 (2016).
17. H. J. Liaw, Y. Y. Chiu. J. Hazard. Mater. 101, 83 (2003).
18. Z. Faramarzi, F. Abbasitabar, V. Zare-Shahabadi, H. J. Jahromi. J. Mol. Liq. 296, 111854 (2019).
19. W. A. Affens, G. W. McLaren. J. Chem. Eng. Data 17, 482 (1972).
20. T. Gaudin, P. Rotureau, G. Fayet. Fire Saf. J. 74, 61 (2015).
21. M. Vidal, W. Rogers, M. Mannan. Process Saf. Environ. Prot. 84, 1 (2006).
22. T. Gaudin, P. Rotureau, G. Fayet. Industrial & Engineering Chemistry Research 54, 6596 (2015).
23. D. Wu, R. Finkelman. In Abstracts of Papers of the American Chemical Society, 175, 12 (1978).
24. H. J. Liaw, W. H. Lu, V. Gerbaud, C. C. Chen. J. Hazard. Mater. 153, 1165 (2008).
25. H. J. Liaw, V. Gerbaud, Y. H. Li. Fluid Phase Equilib. 300, 70 (2011).
26. H. J. Liaw, V. Gerbaud, H. T. Wu. J. Chem. Eng. Data 55, 3451 (2010).
27. H. J. Liaw, V. Gerbaud, C. Y. Chiu. J. Chem. Eng. Data 55, 134 (2010).
28. M. Mitu, E. Brandes, D. Pawel. Rev. Chim. 57, 770 (2006).
29. M. Noorollahy, A. Z. Moghadam, A. A. Ghasrodashti. Chem. Eng. Res. Des. 88, 81 (2010).
30. D.-M. Ha, S. Lee. Korean J. Chem. Eng. 28, 1161 (2011).
31. A. Z. Moghaddam, A. Rafiei, T. Khalili. Fluid Phase Equilib. 316, 117 (2012).
32. A. Donaldson, S. Al-Sharafi. Eng. J. Qatar Univ. 7, 27 (1994).
33. M. Hristova. Cent. Eur. J. Chem. 11, 57 (2013).
34. M. Hristova, D. Damgaliev. Cent. Eur. J. Chem. 11, 388 (2013).
35. Ultra, ChemDraw; Cambridge soft corporation, Cambridge, USA: 2001. 36. Koala-Software for kohonen artificial neural networks; Milano chemometrics and QSAR research group: 2007.
37. E. N. Muratov, E. V. Varlamova, A. G. Artemenko, P. G. Polishchuk, V. E. Kuz'min. Mol. Inform. 31, 202 (2012).
38. T. Gaudin, P. Rotureau, G. Fayet. Ind. Eng. Chem. Res. 54, 6596 (2015).
39. S. Khorsand Ahmadi, M. Mahmoodian Moghadam, P. Mokaberi, M. Reza Saberi, J. Chamani. J. Biomol. Struct. Dyn. 33, 1880 (2015).
40. M. Shamsipur, V. Zare-Shahabadi, B. Hemmateenejad, M. Akhond. Anal. Chim. Acta 646, 39 (2009).
41. F. Abbasitabar, V. Zare-Shahabadi. SAR QSAR Environ. Res. 23, 1 (2012).
42. V. Zare‐shahabadi, F. Abbasitabar. J. Comput. Chem. 31, 2354 (2010).
43. M. Jalali-Heravi, H. Ebrahimi-Najafabadi, A. Khodabandehloo. QSAR Comb. Sci. 28, 1432 (2009).
44. F. Abbasitabar, V. Zare-Shahabadi. Chemosphere 172, 249 (2017).
45. V. Zare-Shahabadi. Med. Chem. Res. 25, 2787 (2016).
46. D. Baumann, K. Baumann. J. Cheminform. 6, 47 (2014).
47. D. Massart, B. Vandeginste, L. Buydens, S. de Jong. Handb. Chemom. Qualimetr., 379 (1997).
48. K. Roy, S. Kar, P. J. C. Ambure, I. L. Systems. 145, 22 (2015).
49. V. Zare-Shahabadi, F. Abbasitabar, M. Akhond, M. Shamsipour. J. Braz. Chem. Soc. 24, 1561 (2013).
39. S. Khorsand Ahmadi, M. Mahmoodian Moghadam, P. Mokaberi, M. Reza Saberi, J. Chamani. J. Biomol. Struct. Dyn. 33, 1880 (2015).
40. M. Shamsipur, V. Zare-Shahabadi, B. Hemmateenejad, M. Akhond. Anal. Chim. Acta 646, 39 (2009).
41. F. Abbasitabar, V. Zare-Shahabadi. SAR QSAR Environ. Res. 23, 1 (2012).
42. V. Zare‐shahabadi, F. Abbasitabar. J. Comput. Chem. 31, 2354 (2010).
43. M. Jalali-Heravi, H. Ebrahimi-Najafabadi, A. Khodabandehloo. QSAR Comb. Sci. 28, 1432 (2009).
44. F. Abbasitabar, V. Zare-Shahabadi. Chemosphere 172, 249 (2017).
45. V. Zare-Shahabadi. Med. Chem. Res. 25, 2787 (2016).
46. D. Baumann, K. Baumann. J. Cheminform. 6, 47 (2014).
47. D. Massart, B. Vandeginste, L. Buydens, S. de Jong. Handb. Chemom. Qualimetr., 379 (1997).
48. K. Roy, S. Kar, P. J. C. Ambure, I. L. Systems. 145, 22 (2015).
49. V. Zare-Shahabadi, F. Abbasitabar, M. Akhond, M. Shamsipour. J. Braz. Chem. Soc. 24, 1561 (2013).
مدل های جدید مبتنی بر ساختار با استفاده از توصیف کننده های مخلوط برای پیش بینی دمای اشتعال مخلوط های آلی دو جزئی
زهره فرامرزی1، فاطمه عباسی تبار2، *، وحید زارع شاه آبادی1
1 دانشکده معدن، نفت و انرژی، دانشگاه آزاد اسلامی واحد ماهشهر، خوزستان، ایران.
2 گروه شیمی، واحد مرودشت، دانشگاه آزاد اسلامی، مرودشت، ایران.
fa.abbasitabar@iau.ac.ir
1- مقدمه
نقطه اشتعال1 پایینترین درجهی دمایی است که در آن ماده، بخار کافی برای تشکیل مخلوط قابل احتراق با هوا تولید میکند. این خصوصیت یک مسئله کلیدی ایمنی در ارزیابی خطر فرآیندهای صنعتی است که در چارچوب های مختلف نظارتی برای استفاده، ذخیره سازی و حمل و نقل به مواد شیمیایی اختصاص یافته است[1, 2]. داده های نقطه اشتعال برای مواد شیمیایی خالص را میتوان از منابع مختلف مانند اس دی اس های علمی ترمو فیشر2، کتاب راهنمای شیمی لانژ[3]، ایندکس مرک[4] یا راهنمای جیبی نیوش برای خطرات شیمیایی بدست آورد. متاسفانه، به دلیل وابستگی نقطه اشتعال یک مخلوط به اجزای تشکیل دهنده آن، اطلاعات کمی از نقطه اشتعال مخلوط ها در دسترس است. علاوه بر این، در اکثر موارد، مخلوط ها رفتار غیر ایده آل نشان میدهند که موجب افزایش و یا کاهش شدید نقطه اشتعال نسبت به مقادیر نقطه اشتعال هر یک از اجزای تشکیل دهنده مخلوط میگردد[5, 6]. آزمونهای محفظه باز و محفظه بسته برای تعیین نقطه اشتعال مخلوط ها به طور تجربی استفاده میشوند[7]. با این حال، اندازه گیری نقطه اشتعال در مواردی مانند مخلوط های رادیواکتیو و سمی، دشوار و پر هزینه است[8]. بنابراین، با توجه به اینکه دادههای نقطه اشتعال برای مخلوط ها به راحتی در دسترس نیستند، پیشبینی دقیق آنها برای آنالیزهای ایمنی ضروری است. مدلهای مختلفی برای تخمین نقطه اشتعال مخلوط ها گزارش شده است. این مدلها شامل مدلهای تجربی[9, 10]، مدلهای مبتنی بر روشUNIFAC [11-13] و مدلهای رابطه کمی خصوصیت-ساختار3QSPR))[11, 14-17] است. در مدل تجربی نقطه اشتعال مخلوط ها با استفاده از دادههای تجربی به عنوان توصیف کننده(متغیرهای مستقل) پیشبینی میشود. مدلهای مبتنی بر روش UNIFAC نیز تا حدودی پیچیده هستند.
در سالهای اخیر، تخمین نقطه اشتعال با استفاده از رابطه کمی خصوصیت-ساختار(QSPR) مورد توجه قرار گرفته است. مدلسازی QSPR توانایی پیش بینی خصوصیت بر اساس صرفا توصیفکنندههای ساختارهای مولکولی را دارد. مدل های پیش بینی کننده QSPR بار تجربی و هزینههای انتخاب عوامل مناسب برای فرآیندهای صنعتی را به طور قابل توجهی کاهش میدهند. با این حال، تاکنون، روابط کمی خصوصیت-ساختار عمدتا برای پیش بینی نقطه اشتعال ترکیبات خالص به کار برده شده است و فقط تعداد کمی از کارهای اخیر به تخمین خصوصیات مخلوط ها اختصاص یافته است [8, 18-20]. چالش برانگیزترین مسئله در کاربرد مطالعاتQSPR در مخلوط ها، محاسبه توصیفکنندههای عددی است. برای پیشبینی خواص مخلوط ها، معمولا قوانین اختلاط برای محاسبه توصیفکنندههای مخلوط با استفاده از اجزاء تشکیلدهنده مخلوط به کار میرود. قوانین اختلاط مختلفی پیشنهاد شده است که برخی برای مخلوط های ایده آل و برخی دیگر برای مخلوط های غیر ایده آل با در نظر گرفتن بر هم کنش بین اجزاء تشکیلدهنده مخلوط با استفاده از ضرایب فعالیت به کار میرود[21-23]. جیو و همکاران مدل سازی QSPR را برای تعیین نقطه اشتعال مخلوط های دو جزیی آلی مورد بررسی قرار دادند. برای محاسبه توصیفکننده مخلوط، ابتدا، شاخص وضعیت الکتروتوپولوژیک(وضعیت E) اجزای سازنده مخلوط محاسبه شد. سپس، شاخص وضعیت الکتروتوپولوژیک هر جزء توسط کسر مولی مربوطه وزن داده شد و نهایتا توصیفکننده مخلوط از جمع شاخصهای وزن داده شده اجزاء تشکیل دهنده مخلوط بدست آمد[18]. ثباتی و همکاران نیز[8] مدلهای QSPR جدید برای پیشبینی نقطه اشتعال مخلوط های آلی چند جزئی ارائه کردند. در این کار، آنها توصیفکنندههای مخلوط را توسط قوانین مخلوط کی4، قانون اختلاط الهام گرفته از فاصله اقلیدسی و با استفاده از ریشه سوم توصیفکننده مخلوط بدست آوردند. اخیرا، گادین و همکاران نیز با به کار بردن فرمولهای ریاضی مختلف برای محاسبه توصیفکنندههای مخلوط از اجزاء تشکیلدهنده، مدلهای QSPR جدید برای پیشبینی نقطه اشتعال مخلوط های دوتایی ایجاد کردند[24]. سولوو و همکاران[25] مدل های QSPR را برای پیش بینی نقطه جوش نرمال آزیوتروپهای دوتایی با استفاده از رگرسیون خطی چندگانه گروهی و توصیفگرهای مولکولی زیرساختاری ایجاد کردند. توصیفگرهای یک مخلوط با ادغام توصیفگرهای هر یک از اجزای مولکولی آن تولید شدند. زارع شاه آبادی و همکاران[20] نیز مدلهایQSPR برای نقطه جوش نرمال آزیوتروپهای دوتایی به دست آوردند. توصیفگرهای مخلوط، بر اساس دو رویکرد مختلف بود: میانگین توصیفگرهای مولکولی مربوط به هر یک از اجزای مولکولی در مخلوط و وزندهی توصیفگرهای مولکولی منفرد با کسرهای مولی آنها. در محاسبه حالت دوم، به مقادیر تجربی کسرهای مولی نیاز است.
هدف از این مطالعه، توسعه مدلهای QSPR جدید و توانمند برای پیشبینی نقطه اشتعال مخلوط های آلی دو جزئی میباشد. پتانسیل فرمولهای مختلف ریاضی برای توسعه چنین مدلهایی جهت پیشبینی نقطه اشتعال مورد ارزیابی قرار گرفت. در واقع، تمرکز بر این موضوع به این دلیل بود که تعریف توصیفکنندههای مخلوط به عنوان یک مرحله مهم در مدلهایQSPR برای مخلوط ها، به ویژه برای خواصی که میتوانند یک روند غیرخطی با کسر مولی اجزاء تشکیلدهنده را دنبال کنند، شناخته شده است.
۲- مواد و روش ها
1-2- داده های تجربی
در مطالعه حاضر، یک مجموعه داده بزرگ شامل 400 داده تجربی برای مخلوط های آلی دوتایی از منابع منتشر شده استخراج شده است[5, 26-37]. این مجموعه داده شامل 33 ترکیب خالص است. از مخلوط این ترکیبها با ترکیب درصدهای متفاوت، 400 مخلوط دوتایی با ویژگیهای متفاوت ایجاد گردیده است. ترکیبات شیمیایی با گروههای عاملی مختلف شامل کتونها، هیدروکربنها، و الکلها در این مجموعه داده یافت میشوند. مقادیر نقطه اشتعال در محدودهC ˚ 5/27- تا C˚ 89 و کسرهای مولی در محدوده 005/0 تا 995/0 است. مجموعه دادهها به طور تصادفی به ترتیب به دو دسته آموزش و آزمون با اندازههای 320 و 80 تقسیم شدند.
2-2-توصیف کننده های مولکولی
برای محاسبه توصیف کنندهها، ساختار مولکولی ترکیبات تشکیل دهنده هر مخلوط بطور جداگانه در ChemDraw 2D ترسیم شد[38]. برای ایجاد ساختارهای سه بعدی از ماژول مربوطه درCS Chem3D Ultra استفاده شد. سپس ساختارهای سه بعدی در نرم افزار عملیات مولکولی((MOE 5 با استفاده از روشAM1 تحت بهینهسازی هندسی قرار گرفتند. در مجموع 3475 توصیف کننده شامل 251 توصیف کننده ازMOE و 3224 توصیف کننده از نرم افزار دراگون برای توصیف ساختار مولکولی هر ترکیب خالص محاسبه شد[39]. از بین توصیفکنندههای محاسبه شده، توصیف کنندههایی که مقادیر صفر یا ثابت داشتند حذف شدند، زیرا این توصیفکنندهها تفاوتهای ساختاری میان ترکیباتی که دارای مقادیر نقطه اشتعال متفاوت میباشند را رمزگذاری نمیکنند. سپس، ضریب همبستگی میان توصیف کنندههای باقیمانده محاسبه و از بین توصیفکنندههایی که ضریب همبستگی بالای 9/0 داشتند، توصیفکنندهای که بیشترین همبستگی با نقطه اشتعال مخلوط های دو تایی را داشت نگه داشته و بقیه حذف شدند. در نهایت، 255 توصیفکننده مولکولی برای هر ترکیب باقی ماند که در قسمتهای بعدی کار مورد استفاده قرار گرفت.
2-2- توصیف کننده مخلوط
در مطالعات QSPR مخلوط ها، راهکارهای متفاوتی برای محاسبه توصیفکنندههای مخلوط با استفاده از توصیفکنندههای مولکولی ترکیبات خالص به کار برده میشود[40, 41]. در این پژوهش، بیست و دو نوع توصیفکننده مخلوط، از توصیفکنندههای مولکولی که از قسمت قبل نتیجه شدند، محاسبه شد. برای این کار، فرمولهای مختلفی که بر مبنای معادلات ریاضی خطی و غیرخطی هستند بکار گرفته شدند(جدول 1). لازم به ذکر است که از بین بیست و دو نوع توصیفکننده برای مخلوط ها، 10 نوع توسط گروه تحقیقاتی ما ارایه شده است[20] و پژوهش حاضر در ادامه کارهای تحقیقاتی قبلی و با هدف نشان دادن توانایی فرمولهای ارایه شده در توصیف مخلوط ها جهت مدلسازی QSPR و پیشبینی خصوصیات مختلف آنها است. فهرستی از کلیه توصیفکنندههای مخلوط، همراه با توضیحات مختصر و فرمول ریاضی، در جدول 1 آورده شده است. این توصیفکنندهها را میتوان به سه گروه طبقه بندی کرد: (1) دستهای که کسر مولی در فرمول آنها استفاده شده است، (2) دستهای که کسر مولی و اطلاعات دیگر را در نظر نمیگیرد و (3) دستهای که اطلاعات کسر مولی و انرژی پتانسیل را استفاده میکند. آخرین دسته برای اولین بار در گروه تحقیقاتی ما پیشنهاد شده است. انرژیهای پتانسیل در نرم افزار MOE با استفاده از روش MNDO Hamiltonian محاسبه شدند. برای توضیح بیشتر، یک مخلوط دوتایی شامل دو جزء خالص A و B را در باید در نظر گرفت. برای درک و مقایسه بهتر انرژی پتانسیل مخلوط با ترکیبات خالص، انرژی پتانسیل سه سیستم شاملAA ، BB و AB محاسبه شدند. ساختار مولکولهای شرکتکننده در هر سیستم به صورت SIMLES به نرم افزار MOE وارد شد. سپس، بهینه سازی هندسی با استفاده از روش میدان
[1] Flammability Point
[2] Thermo Fisher Scientific’s SDSs
[3] Quantitative Structure-Property Relationship
[4] Kay’s Rule
[5] Molecular Operating Environment
جدول 1 . انواع توصیف کننده های مخلوط، توصیف و فرمول های مربوط.
توصیف کننده | فرمول | توصیف |
centroid |
| میانگین توصیف کننده های ترکیبات خالص |
sqr-diff |
| مربع تفاوت توصیف کننده های ترکیبات خالص |
abs-diff |
| قدر مطلق تفاوت توصیف کننده های ترکیبات خالص |
fmol-sum |
| مجموع توصیف کننده های وزن دارشده توسط کسرهای مولی |
fmol-diff |
| تفاوت توصیف کننده های وزن دار شده توسط کسر مولی |
sqr-fmol |
| مجموع توصیف کننده های وزن دار شده توسط مجذور کسرهای مولی |
root-fmol |
| مجموع توصیف کننده های وزن دار شده توسط ریشه کسرهای مولی |
sqr-fmol-sum |
| مجموع مربع توصیف کننده های وزن دار شده توسط کسرهای مولی |
norm-cont |
| اندازه اقلیدوسی توصیف کننده های وزن داده شده با کسر مولی |
mol-dev |
| ترکیب انحرافی 1: حاصلضرب قدر مطلق تفاوت توصیف کننده های مولکولی و یک عبارت وابسته به قدر مطلق تفاوت کسر مولی ها |
sqr- mol-dev |
| ترکیب انحرافی 2: حاصلضرب قدر مطلق تفاوت توصیف کننده های مولکولی و یک عبارت وابسته به قدر مطلق تفاوت توان دو کسر مولی ها |
mol-dev-sqr |
| ترکیب انحرافی 3: حاصلضرب قدر مطلق تفاوت توصیف کننده های مولکولی و یک عبارت وابسته به قدر مطلق توان دو تفاوت کسر مولی ها |
poten-sum |
| مجموع توصیف کننده های وزن دار شدهتوسط ضرایب پتانسیل |
poten-diff |
| تفاوت توصیف کننده های وزن دار شده توسط ضرایب پتانسیل |
sqr-poten |
| مجموع توصیف کننده های وزن دار شده توسط مربع ضرایب پتانسیل |
root-poten |
| مجموع توصیف کننده های وزن دار شده توسط ریشه ضرایب پتانسیل |
sqr-poten-sum |
| مربع مجموع توصیف کننده های وزن دار شده توسط ضرایب پتانسیل |
poten-norm-cont |
| اندازه اقلیدوسی توصیف کننده های وزن داده شده با ضرایب پتانسیل |
poten-dev |
| ترکیب انحرافی 4: حاصلضرب قدر مطلق تفاوت توصیف کننده های مولکولی و یک عبارت وابسته به قدر مطلق تفاوت ضرایب پتانسیل |
sqr-poten-dev |
| ترکیب انحرافی 5: حاصلضرب قدر مطلق تفاوت توصیف کننده های مولکولی و یک عبارت وابسته به قدر مطلق تفاوت توان دو ضرایب پتانسیل |
poten-dev-sqr |
| ترکیب انحراف6: حاصلضرب قدر مطلق تفاوت توصیف کننده های مولکولی و یک عبارت وابسته به قدر مطلق توان دو تفاوت ضرایب پتانسیل |
fmol-poten-sum |
| مجموع توصیف کننده های وزن دار شده توسطکسرمولی و ضرایب پتانسیل |
نیرویMMFF94x انجام و در آخر انرژی پتانسیل با استفاده از همان نرم افزار MOE محاسبه گردید[42]. در مرحله بعد، انرژی پتانسیل سیستم AB به طور جداگانه با سیستم های AA و BB مقایسه میشود. اگر، به عنوان مثال، انرژی پتانسیل سیستم AB به سیستم AA نزدیک باشد، فرض میشود که A بیشترین سهم را در پایداری مخلوط AB دارد. بنابراین، باید در محاسبه توصیفکننده مخلوط، به A وزن بیشتری داده شود. ضرایب انرژی پتانسیل که سهم هر ترکیب خالص در پایداری مخلوط را نشان میدهد، با استفاده از معادلات 1-2 به دست آمدند:
((1
(2)
که درآن EAB، EAA، و EBB به ترتیب به کل انرژی پتانسیل(kcal mol−1) محاسبه شده برای سیستمهای حاوی AA،BB و AB اشاره دارد. اگر چه با روش فوق، میتوان تخمینهای تقریبی از انرژیهای پتانسیل را به دست آورد، ضرایب منتج شده، یعنی CA و CB، سهم هر ترکیب خالص در پایداری مخلوط را نشان خواهد داد.
2-3- ایجاد مدل و انتخاب توصیف کننده
در این مطالعه، رگرسیون خطی چندگانه1 (MLR)برای ارتباط نقاط اشتعال مخلوط های آلی دوتایی به ویژگیهای فیزیکی و شیمیایی مخلوط ها به کار گرفته شد. توصیفکنندههای مخلوط ها یا همان ویژگیهای فیزیکی و شیمیایی بر اساس جدول 1 و با استفاده از توصیفکنندههای مولکولی محاسبه شد. علیرغم مزایای سادگی و تفسیر آسان، مشکل اصلی رگرسیون خطی چندگانه نیاز به یک ابزار انتخاب متغیر کارامد برای انتخاب زیر مجموعهای مناسب از متغیرها(توصیفکنندهها) است. در این مطالعه از الگوریتم بهینه سازی کولونی مورچه حافظه دار2(Memorized-ACO)، برای انتخاب بهترین توصیفکنندهها و ایجاد مدل MLR استفاده شد. این الگوریتم از رفتار مورچه های واقعی، که میتوانند کوتاهترین مسیر را از یک منبع غذایی به لانه پیدا کنند، الهام گرفته شده است. الگوریتم ACO حافظهدار از حافظه خارجی مبتنی بر دانش تکرارهای قبلی ACO استفاده میکند. در ابتدا حافظه خالی است، اما با اجرای چندین بار الگوریتم ACO پر میشود. بعد از هرACO ، بهترین مورچه منتخب در حافظه ذخیره میشود و فرایند تا پر شدن کل حافظه ادامه مییابد. به روزرسانی فرومون توسط کل مورچههای منتخب جمعآوری شده در حافظه انجام میشود. سپس حافظه خالی شده و با انجام چندین الگوریتم ACO با استفاده از مسیرهای فرومون به روز شده دوباره پر میشود. این روند چندین مرتبه تکرار میشود. در پایان، حافظه شامل چندین راه حل برتر مساله پیش رو است. تعداد دفعات ظاهر شدن هر توصیفکننده در حافظه خارجی ملاک اهمیت آن است. سرانجام، پیشبینی توسط منتخبترین مورچه و تفسیر با در نظر گرفتن اهمیت هر توصیفکننده انجام میشود[43-45]. قابلیت اطمینان مدل های نهایی ساخته شده با استفاده از اعتبار سنجی داخلی و خارجی ارزیابی گردید. مقادیر آماریR2training ، R2test، و q2 برای مقایسه مدلها استفاده شد. R2training و R2test به ترتیب مجذور ضریب همبستگی بین نقاط اشتعال پیشبینی شده و مقادیر تجربی برای مجموعه آموزش و آزمون میباشند. q2 مجذور ضریب همبستگی است که از طریق روش ارزیابی متقابل یکتایی3(LOO-CV) بدست آمده است. اعتبار مدلهای MLR بدست آمده توسط روشهای ارزیابی تقاطع مونته کارلو4(MCCV)، ارزیابی متقاطع 5 برابری5(5-CV) ، و ارزیابی متقاطع دو حلقهای6(D-CV) نیز مورد بررسی قرار گرفت. روش ارزیابی متقاطع یکتایی در یک زمان، یک داده از دادهها را از سری آموزش حذف میکند، مدل را با دادههای باقی مانده میسازد و این مدل برای پیشبینی خصوصیت داده بیرون گذاشته شده به کار میرود. این شیوه تکرار میشود تا اینکه خصوصیت مربوط به تمام دادهها(در اینجا، مخلوط های دوتایی) توسط این روش پیشبینی شود. ارزیابی متقاطع پنج برابری، مجموعه داده را به 5 زیر مجموعه تقسیم کرده، هر بار چهار زیر مجموعه از 5 زیر مجموعه برای تشکیل یک مجموعه آموزشی و یک مجموعه باقیمانده را به عنوان مجموعه آزمون در نظر گرفته و متوسط خطا در پنج ارزیابی محاسبه میگردد[46]. در روش ارزیابی متقاطع مونته کارلو، دادهها مجموعه آموزش به طور تصادفی و با نسبت معین از پیش تعیین شده به دو دسته آموزش و آزمون تقسیم میشوند. مدلسازی برای دسته آموزش جدید انجام و مقادیر نقطه اشتعال دسته آزمون پیشبینی میشود و مقادیر مجذور ضریب همبستگی مقادیر پیشبینی شده و مقادیر تجربی دسته آزمون محاسبه و ثبت میشود. روش ارزیابی متقاطع پنج برابری و مونته کارلو 100 مرتبه تکرار میشوند و از مقادیر محاسبه شده میانگین گرفته و گزارش میشوند[47, 48]. ارزیابی متقاطع دو حلقه روشی مناسب هم برای انتخاب مدل و هم ارزیابی مدل است[49]. این روش شامل دو حلقه داخلی و خارجی است. در ابتدا، کل دادههای آموزش به طور تصادفی به دو زیر مجموعه آموزش و آزمون تقسیم میشوند. مجموعه آزمون فقط برای ارزیابی مدل استفاده میشود. مجموعه آموزش در حلقه داخلی استفاده شده و به مجموعه دادههای آموزش و ارزیابی به طور مکرر تقسیم میشود(برای مثال 50 مرتبه). مدل توسط مجموعه داده آموزش ساخته شده ولی مجموعه داده آزمون برای تخمین خطای مدل استفاده میشود. کل الگوریتم D-CV، 400 مرتبه تکرار شد.
تمام محاسبات بر روی یک رایانه شخصی با Core ™ i7 3/50 GHz Intel CPU و رم 4 گیگابایتی اجرا شد. سیستم عامل مایکروسافت ویندوز XP بود. تمام برنامههای لازم در متلب(MATLAB, MathWork) نوشته شده است.
۳- نتایج و بحث
در این پژوهش، پتانسیل 22 نوع مختلف از توصیفکنندههای مخلوط برای ایجاد مدلهای QSPR جدید جهت پیشبینی نقطه اشتعال مخلوط های دو جزئی مورد ارزیابی قرار گرفت. این توصیفکنندهها براساس فرمولهای ریاضی متفاوت و با استفاده از توصیفکنندههای مولکولی که برای هر جزء بدست آمده بود، محاسبه شدند. جدول 1 اطلاعات مورد نیاز این توصیفکنندهها را ارائه میدهد.
لازم به ذکر است که برای هر نوع توصیفکننده مخلوط، تعداد 255 توصیفکننده که ویژگیهای مختلفی مانند ویژگیهای فیزیکی و شیمیایی یک مخلوط را توصیف میکنند، محاسبه شده است. برای ایجاد مدل MLR، لازم است، از میان این انبوه توصیفکنندهها، تعداد معدودی، اغلب زیر 10 عدد، انتخاب گردند. انتخاب بهترین توصیفکنندهها از میان یک جمعیت انبوه یک مساله NP سخت میباشد. مساله NP سخت به مسالهای گفته میشود که زمان برای حل دقیق آن با افزایش اندازه مساله(در اینجا، تعداد توصیفکنندهها) به صورت نمایی بالا میرود. بنابراین در مواجهه با مسائلی از این دست، به جای حل دقیق، با استفاده از الگوریتمهایی همچون کولونی مورچگان و ژنتیک الگوریتم، راه حل تقریبی ارایه میگردد. در اینجا، برای هر نوع توصیفکننده، مدلهای MLR با اندازه 2 تا 10 با استفاده از توصیفکنندههایی که الگوریتم Memorize انتخاب کرده است، ایجاد میگردد. ارزیابی آماری انواع توصیفکنندههای مخلوط در ایجاد مدلهای QSPR با اندازه های مختلف در جدول S1 پیوست آورده شده است. شکل 1 مقادیر q2 محاسبه شده برای مدلهایMLR ساخته شده برای انواع توصیفکنندههای مخلوط را نشان میدهد. نمودارهای مربوط به آموزش R2و آزمون R2در شکلهای S1-S2 فایل پیوست آورده شده است. نتایج ارایه شده در شکل 1 و جدول S1 فایل پیوست نشان میدهند که به جز 10 توصیف کننده مخلوط، بقیه توصیف کننده های مخلوط بکار گرفته شده در ایجاد مدلهای QSPR پیشبینیکننده، توانمند هستند. ده توصیفکننده مخلوط با کارآیی پایین عبارتند از شش توصیفکننده mol−dev، sqr−mol−dev، mol−dev−sqr، poten−dev، poten−dev−sqr، sqr−poten−dev(به دست آمده از فرمول انحراف) و چهار توصیفکننده sqr−diff، abs−diff، fmol−diff و poten−diff که براساس رابطه تفاضل ایجاد گردیده بودند. مقادیر آموزشR2 و آزمون R2 مدلهای MLR بدست آمده با استفاده از این توصیف کننده ها به ترتیب در محدوده 70/0-27/0 و 71/0-23/0 قرار داشتند. محدوده q2 برای این توصیف کننده ها 65/0-06/0 بود. میانگین خطای مطلق7((MAE برای مجموعه آموزش 43/8 و مجموعه آزمون C˚ 89/9 بود که خطای زیادی را نشان میدهد. مدل های QSPR به دست آمده با استفاده از باقی توصیفکنندهها از کیفیت آماری خوبی برخوردار بودند. مقادیر آموزشR2، آزمون R2 و q2 برای مدلهای MLR با اندازههای مختلف به ترتیب در محدوده 90/0-70/0، 88/0-63/0 و 89/0-69/0 بدست آمد که برازش خوب مدلها را نشان میدهد. میانگین مقادیر MAE مجموعه آموزش و آزمون نیز به ترتیب در محدوده 61/8-74/4 و 09/10-35/5 درجه سانتی گراد بود. بر اساس پارامترهای آماری مدلها و همانطور که در شکل 1 دیده میشود، ترتیب توصیفکنندههای مخلوط با کارآیی قابل قبول در ایجاد مدلهایQSPR پیشبینیکننده به صورت زیر میباشد:
sqr-fmol-sum > fmol-sum > root-fmol > sqr-Poten > Poten-sum > root-Poten > sqr-Poten-sum > fmol-Poten-sum > centroid > Poten-norm-cont > norm-cont > sqr-fmol
براساس ترتیب بدست آمده، بهترین نوع توصیفکننده مخلوط sqr-fmol-sum میباشد که بهترین مدل QSPR با بالاترین کیفیت آماری را میدهد. جدول 2 پارامترهای آماری مدلهای MLR بر اساس توصیفکننده مخلوط sqr-fmol-sum با اندازههای متفاوت را نشان میدهد. همانطور که در جدول 2 مشاهده میشود، کلیه پارامترهای آماری با افزایش توصیفکنندههای به کار برده شده در مدل تا اندازه مدل 6 به شدت بهبود یافتهاند. از این رو، مدل با اندازه 6 به عنوان بهترین مدل انتخاب شد. این یافتهها توسط ارزیابی D-CV که نتایج آن در ستونهای 9-10 جدول 2 آورده شده است، تایید میشوند. نتیجه ارزیابی D-CV در مقادیر ارزیابیR2D-CV و آزمون R2D-CV خلاصه میشوند و همانطور که در جدول 2 مشهود است، هر دو به طور همزمان با افزایش اندازه مدل تا 6 افزایش مییابند. لازم به یادآوری است که فقط مجموعه آموزش در فرآیند ارزیابی متقاطع دو برابری(ارزیابی D-CV) به کار برده میشود. برای بهترین مدل QSPR ایجاد شده بر اساس توصیفکننده sqr-fmol-sum و با اندازه 6، مقادیر آموزشR2، آزمون R2، و q2 به ترتیب 91/0، 88/0 و 90/0 بدست آمد. مقادیر MAE برای مجموعه آموزش و آزمون نیز به ترتیب 51/4 و 44/4 محاسبه شد. پارامترهای آماری بیشتری برای تایید بهترین مدل QSPR بدست آمده در جدول 3 آورده شده است.
[1] Multiple Linear Regression
[2] Memorized_Ant Colony Optimization
[3] Leave-one-out Cross Validation
[4] Monte Carlo Cross Validation
[5] 5-Fold Cross Validation
[6] Double Cross Validation
[7] Mean Average Error
جدول 2. پارامترهای آماری مدل های QSPR بر اساس توصیف کننده sum-fmol- sqr با اندازههای مختلف.
تعداد توصیف کننده | آموزش R2 | آموزش RMSE | q2 | RMSEcv
| 5CVa | MCCVb | R2DCVvalidation | R2testDCV | آزمون R2 | آزمون RMSE | F | اموزش MAE | آزمون MAE | |||
q2 | RMSE | آموزش R2 | آزمون R2 | |||||||||||||
2 | 71/0 | 6/11 | 70/0 | 8/11 | 69/0 | 8/11 | 71/0 | 71/0 | 71/0 | 71/0 | 54/0 | 3/13 | 8/381 | 12/8 | 31/9 | |
3 | 79/0 | 7/9 | 79/0 | 9/9 | 79/0 | 9/9 | 79/0 | 79/0 | 78/0 | 79/0 | 77/0 | 8/7 | 5/404 | 02/7 | 61/6 | |
4 | 84/0 | 6/8 | 83/0 | 8/8 | 83/0 | 8/8 | 84/0 | 83/0 | 83/0 | 83/0 | 70/0 | 1/9 | 6/405 | 57/6 | 35/7 | |
5 | 88/0 | 5/7 | 87/0 | 6/7 | 87/0 | 7/7 | 88/0 | 87/0 | 87/0 | 87/0 | 82/0 | 1/7 | 8/451 | 36/5 | 58/5 | |
6 | 91/0 | 4/6 | 90/0 | 6/6 | 90/0 | 7/6 | 91/0 | 90/0 | 90/0 | 90/0 | 88/0 | 9/5 | 9/533 | 51/4 | 44/4 | |
7 | 92/0 | 2/6 | 91/0 | 5/6 | 91/0 | 5/6 | 92/0 | 91/0 | 90/0 | 91/0 | 87/0 | 8/5 | 3/480 | 59/4 | 53/4 | |
8 | 92/0 | 9/5 | 92/0 | 2/6 | 92/0 | 2/6 | 92/0 | 92/0 | 91/0 | 91/0 | 89/0 | 4/5 | 8/471 | 13/4 | 93/3 | |
9 | 93/0 | 8/5 | 92/0 | 0/6 | 92/0 | 1/6 | 93/0 | 92/0 | 92/0 | 92/0 | 88/0 | 9/5 | 8/429 | 02/4 | 70/4 | |
10 | 93/0 | 6/5 | 92/0 | 9/5 | 92/0 | 9/5 | 93/0 | 92/0 | 92/0 | 92/0 | 88/0 | 7/5 | 9/413 | 98/3 | 55/4 |
a مقادیر گزارش شده میانگین 100 تکرار 5-CV است.
b مقادیر گزارش شده میانگین 100 تکرار MCCV است.
جدول 3. پارامترهای آماری برای بهترین مدل QSPR بر اساس توصیف کننده sqr-fmol-sum.
توصیف کننده ها | توصیف | beta | t | p-value | VIF |
intercept |
| 37/15 | 68/42 | 6/1 × ۱۰-۱۳۲ |
|
PEOE_PC+ | Total positive partial charge | 31/23 | 60/43 | 1/5 × ۱۰-۱۳۵ | 2/2 |
vsurf_D8 | Properties of molecular interaction fields with a hydrophobic DRY probe | 38/20 | 30/24 | 8/4 × ۱۰- ۷۴ | 4/5 |
Jhetm | Balaban-type index from mass weighted distance matrix | 12/8- | 50/16- | 8/1 ×۱۰-۴۴ | 9/1 |
MAXDP | maximal electrotopological positive variation | 02/7 | 20/16 | 7/2 × ۱۰-۴۳ | 4/1 |
EEig08d | Eigenvalue 08 from edge adj. matrix weighted by dipole moments | 07/8- | 34/13- | 0/2 × ۱۰-۳۲ | 8/2 |
H6m | H autocorrelation of lag6 / weighted by atomic masses | 96/18- | 84/26- | 4/3 × ۱۰ -۸۳ | 8/3 |
همانطور که مشاهده میشود، تمام مقادیر t معنی دار بودند. فاکتور تورم واریانس1(VIF) برای کلیه توصیفکنندههای انتخابی در این مدل کمتر از 10 بود که نشان دهنده عدم وجود همبستگی چندگانه در بین توصیف کنندهها است[50]. همچنین، به منظور نشان دادن عدم وابستگی دوتایی بین توصیفکنندهها، ماتریس همبستگی در جدول 4 آورده شده است. دادهها جدول 4 به وضوح نشان میدهند که هیچ همبستگی معناداری میان توصیفکنندهها وجود ندارد.
برای امکانسنجی همبستگی شانسی در مدل QSPR انتخابی، آزمون به هم ریختگی Y استفاده شد. این آزمون الگوریتم تکراری دارد و معمولا 100 مرتبه اجرا میشود. در هر مرتبه، مقادیر نقطه اشتعال به طور تصادفی به مولکولهای متفاوت اختصاص داده میشود و سپس، یک مدل رگرسیون خطی با توصیفکنندههای انتخابی(جدول 3) با استفاده از نقاط اشتعال بهم ریخته، ساخته شده و ضریب همبستگی محاسبه میشود. در صورت شانسی بودن مدل حاصله، پارامتر آموزشR2 برای مدلهای ساخته شده در این آزمون نیز مقادیر بالایی را از خود نشان میدهند. همانطور که در شکل 2 نشان داده شده است بیشترین میزان همبستگی مربوط به دادههای واقعی بوده است. همبستگی پایین مربوط به 100 بار بهم ریختگی نشان دهندهی این است که ارتباط شانسی بین مقادیر تجربی نقطه اشتعال و توصیفکنندههای محاسباتی وجود ندارد و اثباتی است بر این حقیقت که مدل اصلی بصورت شانسی توسعه نیافته و اهمیت مدل را در پیشبینی نقطه اشتعال مخلوط های دو جزئی تأیید میکند. QSPR تعریف شد. دامنه کاربرد یک منطقه فضایی تئوری است
جدول 4. ماتریس همبستگی میان توصیفکنندههای ظاهر شده در بهترین مدل.
| PEOE_PC+ | vsurf_D8 | Jhetm | MAXDP | EEig08d | H6m |
PEOE_PC+ | ۱ |
|
|
|
|
|
vsurf_D8 | 04/0 | ۱ |
|
|
|
|
Jhetm | 02/0 | 24/0 | ۱ |
|
|
|
MAXDP | 06/0 | 02/0 | 10/0 | ۱ |
|
|
EEig08d | 03/0 | 37/0 | 06/0 | 03/0 | ۱ |
|
H6m | 35/0 | 31/0 | 04/0 | 00/0 | 01/0 | ۱ |
که امکان ارزیابی عدم قطعیت در پیشبینی خصوصیت یک ترکیب جدید را فراهم میکند. شایان ذکر است که یک مدل QSPR بسته به نوع ترکیبات شیمیایی استفاده شده در ایجاد مدل و همچنین مقادیر توصیفکنندههای در نظر گرفته شده، دامنه کاربرد خاص خود را دارد. از این رو، تمام مدلهای MLR ایجاد شده دارای دامنه کاربرد متفاوتی هستند زیرا بر اساس انواع متفاوتی از توصیفکنندههای مخلوط به دست آمدهاند. از میان راهکارهای متفاوتی که برای تعریف دامنه کاربرد ارایه شده است، در اینجا نمودار ویلیامز به کار برده شد[47, 51]. این نمودار با استفاده از مقیاس دوری و درجه نفوذ مخلوط های دوتایی، دادههای پرت را شناسایی میکند. باقیماندههای استاندارد شده را در مقابل درجه نفوذ2 نمایش میدهد. باقیماندههای استاندارد، تفاوت بین مقادیر مشاهده شده و مقادیر پیشبینی شده مقیاسبندی شده و درجه نفوذ (h)تأثیر آن ترکیب بر مدل را نشان میدهد. اگر مقادیر باقیمانده استاندارد خارج از محدوده ی 3± قرار گیرند، داده به عنوان دادهی پرت شناسایی میشود. همچنین نقاطی که درجه نفوذ آنها بیشتر از مقدار بحرانی باشند، از لحاظ ساختاری بر مدل تأثیر زیادی دارند. مقدار بحرانی برای درجه نفوذ به صورت زیر تعریف میشود:
(3)
که p تعداد پارامترهای مدل و n تعداد مخلوط های دوتایی در دسته آموزش میباشد. برای هر توصیفکننده مخلوط، بهترین اندازه مدل یا تعداد بهینه توصیفکننده ظاهر شده در مدل با توجه به ماکسیمم مقدار q2 انتخاب گردید.
با توجه به اینکه در این مقاله از چندین فرمول ریاضی مختلف برای محاسبه توصیفکنندههای مخلوط استفاده شده، برای بررسی بیشتر میزان کاربردی بودن آنها، دامنه کاربردی برای هر نوع توصیفکننده مخلوط با در نظر گرفتن بهترین اندازه مدل محاسبه و دادهها پرت یا دورافتاده شناسایی شدند. براساس تعداد دادههای پرت شناسایی شده در دسته آموزش و تعداد دادههای خارج محدوده در دسته آزمون، عملکرد توصیفکنندههای استفاده شده به صورت زیر میباشند(شکل 3):
sqr-Poten < Poten-sum < root-Poten < centroid < Poten-norm-cont < norm-cont < sqr-Poten-sum < root-fmol < sqr-fmol-sum < fmol-sum < sqr-fmol < fmol-Poten-sum
همانطور که از ترتیب بدست آمده مشهود است، بهترین توصیفکننده از حیث داشتن کمترین داده پرت و خارج از محدوده و یا داشتن بزرگترین دامنه کاربردی، sqr-Poten و سپس Poten-sum میباشد. در ادامه نیز یکی دیگر از توصیفکنندههایی که بر مبنای پتانسیلهای انرژی محاسبه شدند، قرار دارد. این ترتیب، قدرت کاربردی فرمولهای ارائه شده برمبنای پتانسیلهای انرژی برای محاسبه توصیفکنندههای مخلوط را نشان میدهد. لازم به ذکر است که این فرمولها اولین بار در گروه تحقیقاتی ما ارائه شدهاند. شکل 4 بهبود پارامترهای آماری مختلف را برای بهترین مدل QSPR که براساس sqr-fmol-sum بدست آمد، را نشان میدهد. میزان بهبود در آمارهها، در این شکل به وضوح دیده میشود. مقادیر آموزشR2، آزمونR2 و q2 قبل از حذف دادههای پرت به ترتیب 91/0، 88/0 و 90/0 و بعد از حذف دادههای پرت به ترتیب به 93/0، 94/0 و 93/0 بهبود پیدا کردند. شکل 5 مقادیر پیشبینی شده برحسب مقادیر تجربی نقاط اشتعال با بهترین مدل و بعد از حذف دادههای پرت را نشان میدهد. فهرست کاملی از دادههای پرت و دادههای خارج از محدوده کاربردی شناسایی شده و همچنین نقاط اشتعالپذیری تجربی و پیشبینی شده برای آنها در جدول 5 آورده شده است. همانطور که قابل مشاهده است مخلوط دوتایی بعضی از ترکیبات مانند متانول/ ایزو-اکتان با ترکیب درصدهای متفاوت به عنوان داده پرت شناسایی شدهاند. قابل تامل اینکه در بعضی از ترکیب درصدها، نقطه اشتعالپذیری این مخلوط دوتایی به خوبی پیشبینی شده است، به طوریکه از 27 ترکیب درصد مختلف مخلوط متانول/ ایزو-اکتان، 12 ترکیب درصد در دسته آزمون ظاهر شدهاند و از این 12 ترکیب درصد، 7 ترکیب درصد به عنوان داده خارج از محدوده کاربردی شناسایی شدهاند. از میان ترکیب درصدهای مختلف مخلوط متانول/ ایزو-اکتان، آنهایی که میزان کسر مولی متانول کمتر از 3/0 داشتند به خوبی پیشبینی شده بودند. در مورد مخلوط استون/ ان-دکان میتوان گفت که برای تقریبا تمام ترکیب درصدها، از کسر مولی پایین استون تا کسر مولی بالای آن، پیشبینی مدل برای این مخلوط قابل قبول نبوده است. در مجموع، با بررسی ساختار مولکولی اجزاء مخلوط هایی که به عنوان داده پرت یا داده خارج از محدوده شناسایی شدهاند، نمیتوان نتیجهگیری کرد که محدوده کاربردی مدل چگونه خواهد بود.
همانطور که عنوان شد، از بین 22 نوع روش محاسبه توصیفکنندههای مخلوط براساس توصیفکنندههای مولکولی محاسبه شده برای اجزاء سازنده مخلوط، 12 نوع از آنها منجر به توصیفکنندههایی شدند که براساس آنها مدلهای QSPR با کیفیت خوب ایجاد شدند. از میان این 12 نوع، بهترین عملکرد مربوط به sqr-fmol-sum بود، درحالیکه بقیه توصیفکنندهها نیز عملکرد خوبی داشتند. دادهها ارایه شده در شکل 1 و جدول S1 و اشکال S1-S2 این حقیقت را تایید میکند. در هر حال، در دست داشتن چندین مدل QSPR با قابلیت پیشبینیکنندگی خوب، استفاده از پیشبینی گروهی را ترغیب میکند[52]. در مقایسه با پیشبینی یک مدل واحد، پیشبینیهای انجام شده توسط گروهی از مدلها از صحت بالاتری برخوردار خواهد بود که به دلیل ادغام پیشبینی چندین مدل مستقل برای رسیدن به پیشبینی نهایی است. این امر سبب میشود که خطاهای تصادفی که در نتایج ظاهر شدهاند همدیگر را خنثی و حذف کنند. تمام 12 مدل QSPR با قدرت پیشبینی بالا در ایجاد یک مدل گروهی از طریق یک راهکار میانگینگیری ساده لحاظ شدند. پارامترهای آماری آموزشR2، آزمونR2 و q2 مربوط به مقادیر پیشبینی شده از مدل گروهی به ترتیب برابر با 94/0، 93/0 و 93/0 بودند. در مقایسه با مقادیر پیشبینی شده از مدل تکی بر مبنای sqr-fmol-sum نتایج بهبود پیدا کردهاند. لازم به ذکر است که در استفاده از مدل گروهی، برای هیچکدام از انواع توصیفکنندهها دادههای پرت حذف نشده بودند. مهمترین علت آن امر، تنوع در دادههای پرت شناسایی شده بود و برای ایجاد مدل گروهی لازم بود که تمام دادههای پرت شناسایی شده برای هر توصیفکننده، از تمام دسته دادههای مورد استفاده برای بقیه توصیفکنندهها حذف گردد. در نتیجه، تعداد زیادی از دادهها از دسته داده اولیه حذف خواهند شد که باعث محدود شدن کاربرد و گستردگی مدلهای ایجاد شده میگردد. نکته دیگر اینکه، استفاده از راهکار پیشبینی گروهی به بهبود نتایج کمک میکند و این شک وجود داشت که با استفاده از این راهکار میتوان بر مشکل اشاره شده فائق آمد. متاسفانه بررسی نتایج در جدول 5 نشان میدهد که در اغلب موارد این راهکار بهبودی در کیفیت پیشبینی برای دادههای پرت و دادههای خارج از محدوده ایجاد نمیکند.
1-3- جزئیات بهترین مدل
بر اساس نتایج، مدل QSPR به دست آمده از sqr-fmol-sum به عنوان بهترین مدل انتخاب گردید. پس از حذف داده های پرت، مدل بدست آمده توسط معادله (5) نشان داده شده است.
(5) |
که در معادله (5)، FP نقطه اشتعالپذیری بر حسب درجه سانتی گراد است. لازم به ذکر است که ضرایب داده شده در معادله 5 متفاوت از ضرایب موجود در جدول 3 است، زیرا قبل از توسعه معادله 5، تمام دادههای پرت شناسایی شده حذف شدند. بزرگی ضرایب مربوط به هر توصیفکننده در این مدل نشانگر اهمیت
[1] Variance Inflation Factor
[2] Leverage
جدول 5 . دادههای پرت و خارج از محدوده کاربردی به همراه نقاط اشتعالپذیری پیشبینی شده توسط مدل QSPR بر اساس توصیف کننده sqr- fmol-sum و تخمین گروهی.
| ترکیب 1 | ترکیب 2 |
کسر مولی 1 |
کسر مولی2 | نقاط اشتعال بذیر | RE% | RE %گروهی | |||||
مقادیر تجربی | پیش بینی شده | |||||||||||
sqr-fmol-sum | مدل گروهی | |||||||||||
داده های پرت |
|
|
|
|
|
|
|
| ||||
۱ | فنول | استوفنون | 50/0 | 50/0 | ۸۹ | 1/109 | 9/92 | 6/22 | 3/4 | |||
۲ | ایزو-آمیل الکل | ایزو-آمیل استات | 30/0 | 70/0 | 3/38 | 1/46 | 6/44 | 4/20 | 6/16 | |||
۳ | ۱-اکتانول | ان-آمیل استات | 10/0 | 90/0 | ۴۱ | 0/36 | 1/40 | 3/12- | 3/2- | |||
۴ | استون | ان-دکان | 01/0 | 00/1 | 9/41 | 8/19 | 2/12 | 8/52- | 8/70- | |||
۵ | ان-دکان | ان-دودکان | 78/0 | 22/0 | ۵۶ | 3/34 | 9/43 | 7/38- | 5/21- | |||
۶ | ۱-اکتانول | ان-آمیل استات | 50/0 | 50/0 | ۵۰ | 3/40 | 2/49 | 3/19- | 7/1- | |||
۷ | اتانول | ان-تترا دکان | 01/0 | 99/0 | 5/39 | 5/23 | 3/24 | 6/40- | 4/38- | |||
۸ | هگزان-۱-ال | سیکلوهگزانون | 10/0 | 90/0 | 1/46 | 3/54 | 0/52 | 8/17 | 7/12 | |||
۹ | متیل استات | متیل آکریلات | 10/0 | 90/0 | 9/2- | 8/3- | 0/5- | 3/31 | 6/72 | |||
۱۰ | استون | ان-دکان | 10/0 | 90/0 | 9/11- | 0/13 | 4/9 | 3/209- | 3/179- | |||
۱۱ | ان-دکان | ان-دودکان | 12/0 | 89/0 | ۷۶ | 6/77 | 2/55 | 0/2 | 3/27- | |||
۱۲ | استون | ان-دکان | 08/0 | 92/0 | 6/11- | 4/14 | 0/10 | 1/224- | 0/186- | |||
۱۳ | ۱-اکتانول | ان-آمیل استات | 25/0 | 75/0 | ۴۴ | 3/35 | 7/42 | 7/19- | 0/3- | |||
۱۴ | اتانول | ان-تترا دکان | 02/0 | 98/0 | 4/29 | 6/23 | 2/24 | 7/19- | 8/17- | |||
۱۵ | استون | ان-دکان | 07/0 | 93/0 | 6/6- | 1/15 | 3/10 | 6/328- | 4/255- | |||
۱۶ | اتانول | ان-تترا دکان | 10/0 | 90/0 | ۲۰ | 7/24 | 1/23 | 5/23 | 3/15 | |||
۱۷ | اتانول | ان-هگزان | 68/0 | 32/0 | 2/24- | 4/2- | 8/8- | 2/90- | 7/63- | |||
۱۸ | استون | ان-دکان | 20/0 | 80/0 | 8/14- | 5/6 | 8/6 | 6/143- | 7/145- | |||
۱۹ | اتانول | ان-تترا دکان | 15/0 | 85/0 | 6/17 | 2/25 | 4/22 | 9/42 | 2/27 | |||
۲۰ | ایزو-آمیل الکل | ایزو-آمیل استات | 50/0 | 50/0 | 7/38 | 5/50 | 2/43 | 4/30 | 5/11 | |||
خارج از دامنه کاربردی |
|
|
|
|
|
|
|
| ||||
۱ | استون | ان-دکان | 4/0 | 6/0 | 5/17- | 9/4- | 5/21 | 9/71- | 8/222- | |||
۲ | استون | ان-دکان | 3/0 | 7/0 | 5/17- | 5/0 | 9/92 | 7/102- | 6/630- | |||
۳ | اتانول | ان-تترا دکان | 2/0 | 8/0 | 2/14 | 5/25 | 6/12- | 3/79 | 7/188- | |||
۴ | ایزو-آمیل الکل | ایزو-آمیل استات | 4/0 | 6/0 | 6/38 | 9/48 | 2/21 | 8/26 | 1/45- | |||
۵ | متانول | ایزو-اکتان | 93/0 | 07/0 | 9/11- | 9/2 | 8/11 | 0/124- | 4/199- | |||
۶ | متانول | ایزو-اکتان | 9/0 | 1/0 | 6/11- | 6/2 | 9/6 | 5/122- | 5/159- | |||
۷ | متانول | ایزو-اکتان | 8/0 | 2/0 | 7/11- | 8/1 | 1/40 | 2/115- | 4/442- | |||
۸ | متانول | ایزو-اکتان | 7/0 | 3/0 | 6/11- | 9/0 | 9/26 | 9/107- | 1/332- | |||
۹ | متانول | ایزو-اکتان | 6/0 | 4/0 | 7/11- | 0/0 | 9/18 | 3/100- | 2/261- | |||
۱۰ | متانول | ایزو-اکتان | 4/0 | 6/0 | 6/11- | 8/1- | 7/7- | 6/84- | 9/33- | |||
۱۱ | متانول | ایزو-اکتان | 3/0 | 7/0 | 7/11- | 7/2- | 7/4 | 6/76- | 4/140- |
نسبی آن توصیفکننده در مدل و میزان تاثیر آن بر نقطه اشتعالپذیری مخلوط ها میباشد. همچنین علامت ضرایب، نشان دهنده مثبت و یا منفی بودن این اثر است. تعریف توصیفکنندههای موثر در معادله (5) در جدول 3 آمده است. PEOE_PC+ شاخص بار مثبت جزئی را نشان میدهد. به عبارت دیگر، این توصیفکننده بیانگر چگالی بار مثبت روی اتمهای مولکول سازنده مخلوط است. افزایش این توصیفکننده در یک مولکول یا مولکولهای تشکیلدهنده یک مخلوط نشان دهنده حضور نواحی با بار مثبت قویتر است، مانند زمانی که در مولکول گروههای الکترونکشنده بیشتر و قویتری وجود دارند. داشتن ضریب مثبت بزرگ(07/20) نشان دهنده این حقیقت است که هرچه مقدار این توصیفکننده بیشتر باشد، نقطه اشتعال بالاتر میرود یا به عبارت دیگر مخلوط هایی با بار مثبت جزئی بیشتر، پایداری حرارتی بیشتری دارند و دیرتر مشتعل میشوند. به بیان دیگر، داشتن بارهای مثبت جزئی بیشتر برهم کنش بین مولکولهای اجزای مخلوط را افزایش میدهد. vsurf_D8 یکی از توصیفکنندههای سطحی است که به قطبیت و توزیع بار سطحی مولکول مربوط است. مقدار بالای این توصیفکننده نشان دهنده سطح قطبی بیشتر و توزیع بار سطحی بالاتر است که سبب افزایش میزان برهمکنش میان مولکولها شود. ضریب مثبت(87/15) این توصیفکننده، سبب افزایش میزان برهم کنش ها میان مولکولها، فراریت کمتر و در نتیجه باعث میشود مولکولها، فراریت کمتر و در نتیجه باعث میشود که مخلوط دیرتر مشتعل گردد. Jhetm از نوع بالابان1 یک توصیفگر توپولوژیکی است که از گراف مولکولی مشتق شده و به طور خاص وزنهای جرمی اتمها را در نظر میگیرد. این شاخص، نسخه توسعهیافتهای از نمایه کلاسیک بالابان است که در آن جرم نسبی اتمهای موجود در مولکول (با در نظر گرفتن کربن به عنوان استاندارد مرجع) لحاظ میشود. این توصیفگر، شاخصهایی مانند انشعاب مولکولی، حلقوی بودن و توزیع جرم اتمی را در ساختار مولکول رمزگذاری میکند. مقدار بالاتر Jhetm یعنی ساختار مولکول پیچیدهتر و متنوعتر است مثلاً به معنای شاخهدار یا دارای حلقههای متنوع در مولکول است. ضریب منفی (05/7-) نشان میدهد که افزایش مقدار این توصیفکننده باعث کاهش مقدار FP میشود. MAXDP بیشینه اختلاف پتانسیل دو نقطه از مولکول را نشان داده و شاخصی از قطبیت کلی مولکول است. ضریب مثبت آن نشان میدهد که افزایش قطبیت سبب افزایش برهمکنشهای بین مولکولی و در نتیجه افزایش FP مخلوط میشود. EEig08d یک توصیفکننده ساختاری-الکترونیکی است که از ریاضیات گراف مولکولی به دست میآید. در محاسبه این توصیفکننده، ابتدا برای هر مولکول یک ماتریس مجاورت2 ایجاد میشود و سپس این ماتریس براساس مقادیر ممان دوقطبی هر پیوند وزنگذاری میشود. مقدار ویژه هشتم این ماتریس به عنوان EEig08d گزارش میشود. بنابراین میتوان گفت که این توصیفکننده تا حدودی ساختار مولکولی از نظر شاخهدار بودن و تا حدودی میزان ممان دوقطبی مولکول را نشان میدهد. در اینجا، ضریب منفی این توصیفکننده نشان میدهد که افزایش این توصیفکننده، به معنی افزایش شاخهدار شدن و لذا کاهش میزان برهمکنش و کاهش FP خواهد بود. H6m یکی از توصیفکنندههای GETAWAY است که از عناصر ماتریس لوریج3 استخراج میشود که با استفاده از مختصات اتمی متمرکز شده محاسبه میگردد. مقدار بالای H6m نشان دهنده ساختار پیچیدهتر و متصلتر است. هرچه مقدار این توصیفکننده بیشتر باشد، FP کاهش مییابد.
4- نتيجه گيری
نكات در این پژوهش، با هدف پیشبینی دقیق نقاط اشتعال پذیری مخلوط های دوتایی، مدلهای QSPR قابل اعتماد ارائه و بررسی شدند. برای این منظور، یک مجموعه داده بزرگ حاوی 400 مخلوط دوتایی متشکل از 33 ترکیب خالص استفاده شد. با بهرهگیری از فرمولهای ریاضی گوناگون و ویژگیهای مولکولی مولکولهای تشکیلدهنده هر مخلوط، 22 نوع توصیفکننده برای مخلوط ها محاسبه گردید. به کمک الگوریتم کولونی مورچگان حافظهدار، چندین مدل QSPR با اندازه های مختلف برای هر نوع توصیفکننده مخلوط توسعه یافت. مدل ایجاد شده بر اساس توصیفکننده sqr-fmol-sum عملکرد بهتری نسبت به سایر مدلها داشت و از کیفیت آماری خوبی برخوردار بود. یک مدل گروهی نیز با استفاده از راهکار میانگینگیری ساده و با در نظر گرفتن بهترین مدلهای به دست آمده بر اساس بهترین توصیفکنندهها ایجاد شد. استفاده از یک مدل گروهی، صحت پیشبینی را به طور قابل توجهی بهبود بخشید. همچنین تحلیل مدل QSPR بدست آمده بر اساس sqr-fmol-sum نشان داد که تمام توصیفکنندههایی که در مدلهای QSPR ظاهر شدند را میتوان با خواص مولکولی مربوط دانست.
مراجع
1. L. O. Chemicals. Globally harmonized system of classification and labelling of chemicals (GHS); 10th revised ed (United Nations, 2023).
2. D. A. Crowl, J. F. Louvar. Chemical process safety: fundamentals with applications; 4th ed (Pearson Education, 2019).
3. J. Shah, M. R. Jan, A. U. Haq. Tenside, Surfactants, Detergents 51, 240 (2014).
4. M. J. O’Neil, P. E. Heckleman, C. B. Koch, K. J. Roman. White House Station, NJ, USA 945, 160 (2006).
5. H. J. Liaw, S. C. Lin. J. Hazard. Mater. 140, 155 (2007).
6. H. J. Liaw, T. P. Lee, J. S. Tsai, W. H. Hsiao, M. H. Chen, T. T. Hsu. J. Loss Prev. Process Ind. 16, 173 (2003).
7. X. Y. Guo, S. Liang, Q. H. Tian. Removal of heavy metal ions from aqueous solutions by adsorption using modified orange peel as adsorbent. In Advanced Materials Research, 2011; Vol. 236-238, pp 237.
8. E. Torabian, M. A. Sobati. Thermochim. Acta 672, 162 (2019).
9. L. Catoire, S. Paulmier, V. Naudet. Process Saf. Prog. 25, 33 (2006).
10. Y. Pan, J. Cheng, X. Song, G. Li, L. Ding, J. Jiang. J. Loss Prev. Process Ind. 34, 56 (2015).
11. H. J. Liaw, T. P. Tsai. Fluid Phase Equilib. 345, 45 (2013).
12. H. J. Liaw, H. Y. Chen. Industrial & Engineering Chemistry Research 52, 7579 (2013).
13. H. J. Liaw, C. L. Tang, J. S. Lai. Comb. Flame. 138, 308 (2004).
14. B. Nazari, M. H. Keshavarz, A. Hassanzadeh. Process Saf. Environ. Prot. 132, 134 (2019).
15. F. A. Carroll, C. Y. Lin, F. H. Quina. Industrial & Engineering Chemistry Research 50, 4796 (2011).
16. X. Liu, Z. Liu. Journal of Chemical & Engineering Data 55, 2943 (2010).
17. G. Fayet, P. Rotureau, V. Prana, C. Adamo. In 14. International Symposium on Loss Prevention and Safety Promotion in the Process Industry, 31, 925 (2013).
18. L. Jiao, X. Zhang, Y. Qin, X. Wang, H. Li. Chemometr. Intell. Lab. Syst. 156, 211 (2016).
19. H. J. Liaw, Y. Y. Chiu. J. Hazard. Mater. 101, 83 (2003).
20. Z. Faramarzi, F. Abbasitabar, V. Zare-Shahabadi, H. J. Jahromi. J. Mol. Liq. 296, 111854 (2019).
21. W. A. Affens, G. W. McLaren. J. Chem. Eng. Data 17, 482 (1972).
22. T. Gaudin, P. Rotureau, G. Fayet. Fire Saf. J. 74, 61 (2015).
23. M. Vidal, W. Rogers, M. Mannan. Process Saf. Environ. Prot. 84, 1 (2006).
24. T. Gaudin, P. Rotureau, G. Fayet. Industrial & Engineering Chemistry Research 54, 6596 (2015).
25. V. P. Solov’ev, I. Oprisiu, G. Marcou, A. Varnek. Industrial & Engineering Chemistry Research 50, 14162 (2011).
26. D. Wu, R. Finkelman. In Abstracts of Papers of the American Chemical Society, 175, 12 (1978).
27. H. J. Liaw, W. H. Lu, V. Gerbaud, C. C. Chen. J. Hazard. Mater. 153, 1165 (2008).
28. H. J. Liaw, V. Gerbaud, Y. H. Li. Fluid Phase Equilib. 300, 70 (2011).
29. H. J. Liaw, V. Gerbaud, H. T. Wu. J. Chem. Eng. Data 55, 3451 (2010).
30. H. J. Liaw, V. Gerbaud, C. Y. Chiu. J. Chem. Eng. Data 55, 134 (2010).
31. M. Mitu, E. Brandes, D. Pawel. Rev. Chim. 57, 770 (2006).
32. M. Noorollahy, A. Z. Moghadam, A. A. Ghasrodashti. Chem. Eng. Res. Des. 88, 81 (2010).
33. D.-M. Ha, S. Lee. Korean J. Chem. Eng. 28, 1161 (2011).
34. A. Z. Moghaddam, A. Rafiei, T. Khalili. Fluid Phase Equilib. 316, 117 (2012).
35. A. Donaldson, S. Al-Sharafi. Eng. J. Qatar Univ. 7, 27 (1994).
36. M. Hristova. Cent. Eur. J. Chem. 11, 57 (2013).
37. M. Hristova, D. Damgaliev. Cent. Eur. J. Chem. 11, 388 (2013).
38. Ultra, ChemDraw; Cambridge soft corporation, Cambridge, USA: 2001.
39. Koala-Software for kohonen artificial neural networks; Milano chemometrics and QSAR research group: 2007.
40. E. N. Muratov, E. V. Varlamova, A. G. Artemenko, P. G. Polishchuk, V. E. Kuz'min. Mol. Inform. 31, 202 (2012).
41. T. Gaudin, P. Rotureau, G. Fayet. Ind. Eng. Chem. Res. 54, 6596 (2015).
42. S. Khorsand Ahmadi, M. Mahmoodian Moghadam, P. Mokaberi, M. Reza Saberi, J. Chamani. 33, 1880 (2015).
43. M. Shamsipur, V. Zare-Shahabadi, B. Hemmateenejad, M. Akhond. Anal. Chim. Acta 646, 39 (2009).
44. F. Abbasitabar, V. Zare-Shahabadi. SAR QSAR Environ. Res. 23, 1 (2012).
45. V. Zare‐shahabadi, F. Abbasitabar. J. Comput. Chem. 31, 2354 (2010).
46. M. Jalali-Heravi, H. Ebrahimi-Najafabadi, A. Khodabandehloo. QSAR Comb. Sci. 28, 1432 (2009).
47. F. Abbasitabar, V. Zare-Shahabadi. Chemosphere 172, 249 (2017).
48. V. Zare-Shahabadi. Med. Chem. Res. 25, 2787 (2016).
49. D. Baumann, K. Baumann. J. Cheminform. 6, 47 (2014).
50. D. Massart, B. Vandeginste, L. Buydens, S. de Jong. Handb. Chemom. Qualimetr., 379 (1997).
51. K. Roy, S. Kar, P. J. C. Ambure, I. L. Systems. 145, 22 (2015).
52. V. Zare-Shahabadi, F. Abbasitabar, M. Akhond, M. Shamsipour. J. Braz. Chem. Soc. 24, 1561 (2013).
[1] Balaban
[2] Adjacency matrix
[3] Leverage matrix
New structure-based models using mixture descriptors to predict the flammabiliy temperature of binary organic mixtures
Zohreh Faramarzi1, Fatemeh Abbasitabar2,*, Vahid Zare-Shahabadi1
1 Institute of Mining, Oil and Energy, Mahs.C., Islamic Azad University, Mahshahr, Iran..
Abstract: Due to the importance of binary mixtures and their wide application in industry, it is important to estimate their flammability temperature. Therefore, in this study, quantitative structure-property relationship(QSPR) models were developed to predict the flammability point of binary organic mixtures. The biggest challenge in QSPR studies of mixtures is the calculation of a numerical descriptor to describe the property of a mixture. In this study, a set of twenty-two formulas was used to calculate mixture descriptors from molecular descriptors of pure compounds. Memorized Ant Colony(Memorized-ACO) Algorithm along with multivariate linear regression(MLR) was used to select the best subset of descriptors that have a significant contribution to the flammability property. The model based on sqr−fmol−sum descriptor was selected as the best model. R2 training and R2test of this model were 0.93 and 0.94, respectively. The mean absolute error(MAE) for the training and test datasets was 3.75 and 2.97, respectively. A group model was also obtained through a simple averaging strategy using the models generated by the best descriptors. This improved the statistical quality of the final QSPR model. |
Keywords: QSPR, Flammability point, Memorized-Ant Colony optimization, Mixture descriptors, Multiple linear regression.