آموزش نحوه محاسبه مدل رگرسیون لجستیک
در پست قبلی مفاهیم کاربردی، حجم نمونه، نحوه تعریف و همچنین انتخاب متغیرها را در رگرسیون لجستیک مورد بررسی قرار دادیم. در این پست قصد داریم تا با یک مثال به نحوه تجزیه و تحلیل رگرسیون لجستیک دو وجهی در نرم افزار SPSS بپردازیم.
تجزیه و تحلیل رگرسیون لجستیک اسمی دو وجهی زمانی مورد استفاده قرار می گیرد که متغیر وابسته در سطح اسمی دو وجهی (دوشقی) است و می خواهیم وجود یا عدم وجود یک صفت را بر اساس مجموعه ای از متغیرهای مستقل پیش بینی کنیم. بنابراین در رگرسیون لجستیک اسمی دو وجهی ما نمی توانیم همانن رگرسیون خطی چندمتغیره مقدار عددی دقیق یک متغیر وابسته را بر اساس اطلاعاتی که راجع به متغیرهای مستقل داریم تعیین کنیم. بلکه در این روش ما با نسبت احتمال سر و کار داریم که آن را با کد صفر و یک نشان می دهند.
مثال های زیادی وجود دارند که در آن ها با یک متغیر اسمی دو وجهی سر و کار داریم. مثلا چرا برخی از نوزادان در بیمارستان می میرند و برخی زنده می مانند. یا اینکه چرا برخی موفق به دریافت مدرک تحصیلی می شوند و برخی دیگر خیر.
در این نوع رگرسیون متغیر وابسته حتماً باید دو وضعیتی باشد و همچنین متغیرهای مستقل می توانند هم در سطح کمی و هم در سطح کیفی طبقه بندی شده باشند. اما چنانچه یک یا چند متغیر مستقل در سطح اسمی/ترتیبی بودند حتماً باید ابتدا این متغیرها را به متغیرهای تصنعی (طریقه آن در پست قبلی توضیح داده شده است) تبدیل کنیم.
رگرسیون لجستیک یک روش آماری است که برای مدل سازی رابطه بین یک متغیر وابسته باینری و یک یا چند متغیر مستقل استفاده می شود. به طور گسترده ای برای پیش بینی احتمال وقوع یک رویداد بر اساس مقادیر متغیرهای پیش بینی کننده استفاده می شود. علیرغم نامش، رگرسیون لجستیک در واقع نوعی تحلیل رگرسیونی است که برای کارهای طبقه بندی استفاده می شود.
متغیر وابسته باینری: رگرسیون لجستيک زمانی استفاده میشود که متغیر نتیجه (متغیر وابسته) باینری باشد، به این معنی که میتواند فقط دو مقدار ممکن را بگیرد که اغلب به صورت 0 و 1 کد میشوند. مثالهایی شامل بله/خیر، موفقیت/شکست، یا حضور/غیاب است.
تابع لجستیک (Sigmoid): تابع لجستیک (همچنین به عنوان تابع sigmoid شناخته می شود) برای مدل سازی رابطه بین متغیرهای مستقل و احتمال وقوع رویداد استفاده می شود. خروجی تابع لجستیک بین 0 و 1 محدود می شود و آن را برای مدل سازی احتمالات مناسب می کند.
Log Odds and Odds Ratio: در رگرسیون لجستیک، ضرایب نشان دهنده تغییر در شانس ثبت رویدادی است که برای تغییر یک واحدی در متغیر پیش بینی کننده رخ می دهد. توان این ضرایب نسبت شانس را نشان می دهد که نشان می دهد چگونه شانس رویداد برای یک تغییر یک واحدی در پیش بینی تغییر می کند.
برآورد حداکثر درستنمایی: مدل رگرسیون لجستیک ضرایبی را تخمین می زند که با حداکثر کردن تابع درستنمایی به بهترین وجه با داده ها تناسب دارند. این شامل یافتن مجموعه ای از ضرایب است که احتمال وقوع نتایج مشاهده شده را بیشتر می کند.
تفسیر: ضرایب مدل رگرسیون لجستیک بینش هایی را در مورد جهت و میزان رابطه بین متغیرهای پیش بینی کننده و شانس وقوع رویداد ارائه می دهد. ضرایب مثبت نشان دهنده افزایش شانس ورود و ضرایب منفی نشان دهنده کاهش است.
ارزیابی مدل: شبیه به رگرسیون خطی، مدلهای رگرسیون لجستیک را میتوان با استفاده از تکنیکهای مختلفی مانند آزمونهای نسبت احتمال، آزمونهای برازش خوب و معیارهایی مانند AIC (معیار اطلاعات آکایک) یا BIC (معیار اطلاعات بیزی) ارزیابی کرد.
رگرسیون لجستيک چند متغیره: رگرسیون لجستيک را می توان گسترش داد تا چندین متغیر مستقل (رگرسیون لجستيک چند متغیره) را برای مدل سازی روابط پیچیده تر شامل شود.
رگرسیون لجستيک معمولاً در زمینه های مختلفی از جمله تحقیقات پزشکی، علوم اجتماعی، بازاریابی، مالی و یادگیری ماشین استفاده می شود. این ابزار قدرتمندی برای کارهای طبقهبندی است که میخواهید بر اساس مقادیر متغیرهای پیشبینیکننده، پیشبینی کنید که آیا یک رویداد رخ میدهد یا خیر. این روش در بسیاری از بسته های نرم افزاری آماری و زبان های برنامه نویسی پیاده سازی شده است.
برای درک بهتر مطلب به مثال زیر که در نرم افزار SPSS حل شده است توجه نمایید.
رگرسیون لجستیک در نرمافزار SPSS
جهت دانلود پروژه و دیتا همراه با تحلیل در spss کلیک کنید .