اگر مدل رگرسیون مورد نظر خطی باشد (در پارامترها) و شامل یک قطع باشد و اگر پارامترها با حداقل مربعات معمولی (OLS) تخمین زده شوند، آنگاه R2 دارای تعدادی خواص شناخته شده است. آنها عبارتند از:
با این حال، به محض اینکه با مدلی برخورد می کنیم که یک رهگیری را حذف می کند یا در پارامترها غیر خطی است، یا از تخمینگر دیگری غیر از OLS استفاده می کنیم، هیچ یک از خواص فوق تضمین نمی شود.
به عنوان مثال، وقتی یک مدل خطی را گزارش می کنیم که توسط متغیرهای ابزاری تخمین زده می شود، دریافت می کنیم ناهمسان آر2 مقادیر بسته به این که کدام یک از دو تعریف ذکر شده در ویژگی 3 در بالا اتخاذ شده باشد. به طور مشابه، هنگام تخمین مدل های Logit و Probit (به عنوان مثال)، اکثر بسته های اقتصادسنجی چندین “شبه-R” را گزارش می کنند.2“آمار، زیرا یک معیار واحد وجود ندارد همه چيز از ویژگی های مورد نظر ما در مورد مدل خطی/OLS استفاده می کنیم.
دادههای به اصطلاح «شمارش» اغلب در اقتصاد تجربی به وجود میآیند. این دادههایی است که مقادیری را میگیرد که فقط اعداد صحیح غیر منفی هستند، یعنی 0، 1، 2، 3، 4، …….. مدلهای چنین دادههایی اغلب بر اساس توزیع دوجملهای پواسون یا منفی هستند. اگرچه می توان از توزیع های دیگر نیز استفاده کرد. رگرسیون ها با معادل سازی میانگین توزیع انتخاب شده با تابع مثبت این متغیرها و ضرایب آنها وارد مدل می شوند.
به عنوان مثال، اگر yمن داده ها (i = 1، 2، ….، n) با استفاده از توزیع پواسون با میانگین μ مدل می شوند، سپس ما معمولا μ را اختصاص می دهیم.من = انقضا[xi‘β]، با استفاده از نماد رگرسیون آشنا. سپس مدل غیر خطی حاصل توسط MLE (یا شبه MLE) تخمین زده می شود.
راه منطقی برای گزارش R چیست2 اندازه گیری رگرسیون پواسون برآورد شده؟
همانند مورد Logit-Probit که در بالا ذکر شد، چندین احتمال پیشنهاد شده است. با این حال، بر خلاف این مورد دیگر، هنگام مدلسازی دادههای «شمارش»، در واقع یک تعریف واحد از R وجود دارد2 این واقعاً به عنوان یک انتخاب واضح برجسته است.
چیست؟
قبل از پاسخ به این سوال، بیایید ببینیم که چگونه Rآر2آره2و آردرجه سانتی گراد2 هنگامی که در زمینه رگرسیون پواسون یا رگرسیون دو جمله ای منفی اعمال می شود رفتار کنید. برخی از حقایق کلیدی عبارتند از:
- این سه معیار به طور کلی از نظر ارزش با یکدیگر متفاوت خواهند بود.
- ما هنوز 0 ≤ R داریمدرجه سانتی گراد2 ≤ 1. با این حال، اگرچه Rآر2 ≤ 1 می تواند منفی باشد (حتی اگر رهگیری در مدل گنجانده شود). و اگرچه Rه2 ≥ 0 می تواند بزرگتر از یک باشد (حتی با عبور).
- هر سه اقدام می تواند کاهش همانطور که رگرسیورها به مدل اضافه می شوند.
وقتی این نتایج را با شش ویژگی ذکر شده در بالا برای مورد OLS مقایسه می کنیم، آنها پیشنهاد می کنند که این R2 احتمالاً با مدلهای دادههای سرشماری بهتر است از اقدامات اجتناب شود. جالب اینجاست که Rآر2 این به عنوان یک امر طبیعی توسط بسته EViews گزارش شده است. از سوی دیگر، Stata، “شبه-R” مک فادن را گزارش می کند.2برای این مدل ها، اما خواص آن بهتر نیست.
Cameron and Windmeijer (1996) به طور مؤثر به سؤالی که در بالا مطرح کردم پاسخ می دهند.
آنها R مختلف را در نظر می گیرند2-انواع اندازه گیری برای مدل های داده های شمارش. این معیارها در درجه اول در نوع باقیمانده ها (از مدل پیش بینی کننده) که در ساخت آنها استفاده می شود متفاوت است. همانطور که در مورد رگرسیون خطی، باقی مانده های معمول یا “خام”. تفاوت بین y واقعی هستندمن مقادیر و میانگین های “پیش بینی شده” آنها. یعنی به شکل (yمن – ممن*)، جایی که μمن* = انقضا[xi‘β*]و β* MLE بردار β است. این باقیمانده ها به ما R می دهندآر2در بالا ذکر شد.
در تحلیل رگرسیون به طور کلی، در واقع اشکال مختلفی از باقیمانده ها وجود دارد که می توانند ساخته شوند، و می توانند در موقعیت های مختلف مفید باشند – به ویژه با مدل های خطی تعمیم یافته (که مدل های پواسون نمونه ای از آن هستند). برخی از نمونه ها شامل باقیمانده های پیرسون (استاندارد شده) و باقیمانده های به اصطلاح “انحراف” هستند. (برای اطلاعات بیشتر در مورد مفهوم “انحراف” و حسن نیت به این پست مراجعه کنید.)
Cameron و Windmeijer (1996) خواص R را بررسی کردند2 اندازه گیری برای مدل های پواسون و مدل های دوجمله ای منفی بر اساس دو نوع باقیمانده دیگر و همچنین باقیمانده های “خام”. (کامرون و ویندمایجر (1997) این نتایج را به مدلهای غیرخطی مختلف دیگر گسترش میدهند.)
آنها یک مورد قانع کننده برای ساخت R ایجاد می کنند2 اندازه گیری با استفاده از باقیمانده های انحراف هنگام کار با مدل رگرسیون پواسون یا مدل دو جمله ای منفی (NegBin2).
(به عنوان یک کنار، وقتی مدل خطی است و از OLS استفاده می کنیم، باقیمانده های انحراف فقط باقیمانده های معمولی هستند..)
برای مدل پواسون iهفتم انحراف باقیمانده به این صورت تعریف می شود
همن = علامت (yمن – ممن*)[2{yilog(yi / μi*) – (yi – μi*)}]½ ; i = 1، 2، ….، n
و انحراف R2 برای این مدل به صورت زیر تعریف می شود:
آردی، پی2 = 1 – Σ{yمندفتر خاطرات (yمن / مترمن*) – (yمن – ممن*)} / Σ{yمندفتر خاطرات (yمن /ybar)}،
که در اینجا و زیر همه مجموع برای i = 1، 2، ….، n هستند.
اگر مدل شامل یک رهگیری باشد، این فرمول به صورت زیر ساده می شود:
آردی، پی2 = 1 – Σ{yمندفتر خاطرات (yمن / مترمن*)} / Σ{yمندفتر خاطرات (yمن /ybar)}.
(توجه: اگر yمن = 0، سپس yمندفتر خاطرات (yمن) = 0. در این حالت دمن = – [2μi*]½.)
نکته مهم این است که ردی، پی2 ویژگی های 1 تا 5 را که قبلا ذکر شد برآورده می کند.
در مورد مدل NegBin2، R مربوطه2 شکل می گیرد:
آرD، NB2 = 1 – (A / B)،
جایی که
A = Σ{yمندفتر خاطرات (yمن / مترمن*) – (yمن + الف*-1) دفتر خاطرات[(yi + α*-1) / (μi* + α*-1)]}
و
B = Σ{yمندفتر خاطرات (yمن / ybar) – (ومن + الف*-1) دفتر خاطرات[(yi + α*-1) / (ybar + α*-1)]}.
(“ybar” میانگین y استمن ارزش های؛ و α* MLE پارامتر واریانس برای توزیع NegBin2 است.)
آرD، NB2 معیار خوب بودن برازش ویژگی های 1، 3، و 4 را که قبلا ذکر شد برآورده می کند.
بنابراین وقتی نوبت به گزارش R2 برای مدلهای دادههای سرشماری، چنین اندازهگیری معمولی – بر اساس باقیماندههای “خام” – معمولاً انتخاب بسیار ضعیفی است. از دیگر گزینه های موجود، R2 اقدامات ساخته شده با استفاده از به اصطلاح “بقایای انحراف” به عنوان رقبای عالی برجسته می شوند.