گزارش یک اندازه گیری R-squared برای مدل های داده های سرشماری

اگر مدل رگرسیون مورد نظر خطی باشد (در پارامترها) و شامل یک قطع باشد و اگر پارامترها با حداقل مربعات معمولی (OLS) تخمین زده شوند، آنگاه R² دارای تعدادی خواص شناخته شده است. آنها عبارتند از:

با این حال، به محض اینکه با مدلی برخورد می کنیم که یک رهگیری را حذف می کند یا در پارامترها غیر خطی است، یا از تخمینگر دیگری غیر از OLS استفاده می کنیم، هیچ یک از خواص فوق تضمین نمی شود.

به عنوان مثال، وقتی یک مدل خطی را گزارش می کنیم که توسط متغیرهای ابزاری تخمین زده می شود، دریافت می کنیم ناهمسان آر² مقادیر بسته به این که کدام یک از دو تعریف ذکر شده در ویژگی 3 در بالا اتخاذ شده باشد. به طور مشابه، هنگام تخمین مدل های Logit و Probit (به عنوان مثال)، اکثر بسته های اقتصادسنجی چندین “شبه-R” را گزارش می کنند.²“آمار، زیرا یک معیار واحد وجود ندارد همه چيز از ویژگی های مورد نظر ما در مورد مدل خطی/OLS استفاده می کنیم.

داده‌های به اصطلاح «شمارش» اغلب در اقتصاد تجربی به وجود می‌آیند. این داده‌هایی است که مقادیری را می‌گیرد که فقط اعداد صحیح غیر منفی هستند، یعنی 0، 1، 2، 3، 4، …….. مدل‌های چنین داده‌هایی اغلب بر اساس توزیع دوجمله‌ای پواسون یا منفی هستند. اگرچه می توان از توزیع های دیگر نیز استفاده کرد. رگرسیون ها با معادل سازی میانگین توزیع انتخاب شده با تابع مثبت این متغیرها و ضرایب آنها وارد مدل می شوند.

به عنوان مثال، اگر y_من داده ها (i = 1، 2، ….، n) با استفاده از توزیع پواسون با میانگین μ مدل می شوند، سپس ما معمولا μ را اختصاص می دهیم._من = انقضا[x_i‘β]، با استفاده از نماد رگرسیون آشنا. سپس مدل غیر خطی حاصل توسط MLE (یا شبه MLE) تخمین زده می شود.

راه منطقی برای گزارش R چیست² اندازه گیری رگرسیون پواسون برآورد شده؟

همانند مورد Logit-Probit که در بالا ذکر شد، چندین احتمال پیشنهاد شده است. با این حال، بر خلاف این مورد دیگر، هنگام مدل‌سازی داده‌های «شمارش»، در واقع یک تعریف واحد از R وجود دارد² این واقعاً به عنوان یک انتخاب واضح برجسته است.

چیست؟

قبل از پاسخ به این سوال، بیایید ببینیم که چگونه R_آر²آر_ه²و آر_{درجه سانتی گراد}² هنگامی که در زمینه رگرسیون پواسون یا رگرسیون دو جمله ای منفی اعمال می شود رفتار کنید. برخی از حقایق کلیدی عبارتند از:

این سه معیار به طور کلی از نظر ارزش با یکدیگر متفاوت خواهند بود.
ما هنوز 0 ≤ R داریم_{درجه سانتی گراد}² ≤ 1. با این حال، اگرچه R_آر² ≤ 1 می تواند منفی باشد (حتی اگر رهگیری در مدل گنجانده شود). و اگرچه R_ه² ≥ 0 می تواند بزرگتر از یک باشد (حتی با عبور).
هر سه اقدام می تواند کاهش همانطور که رگرسیورها به مدل اضافه می شوند.

وقتی این نتایج را با شش ویژگی ذکر شده در بالا برای مورد OLS مقایسه می کنیم، آنها پیشنهاد می کنند که این R² احتمالاً با مدل‌های داده‌های سرشماری بهتر است از اقدامات اجتناب شود. جالب اینجاست که R_آر² این به عنوان یک امر طبیعی توسط بسته EViews گزارش شده است. از سوی دیگر، Stata، “شبه-R” مک فادن را گزارش می کند.²برای این مدل ها، اما خواص آن بهتر نیست.

Cameron and Windmeijer (1996) به طور مؤثر به سؤالی که در بالا مطرح کردم پاسخ می دهند.

آنها R مختلف را در نظر می گیرند²-انواع اندازه گیری برای مدل های داده های شمارش. این معیارها در درجه اول در نوع باقیمانده ها (از مدل پیش بینی کننده) که در ساخت آنها استفاده می شود متفاوت است. همانطور که در مورد رگرسیون خطی، باقی مانده های معمول یا “خام”. تفاوت بین y واقعی هستند_من مقادیر و میانگین های “پیش بینی شده” آنها. یعنی به شکل (y_من – م_من*)، جایی که μ_من* = انقضا[x_i‘β*]و β* MLE بردار β است. این باقیمانده ها به ما R می دهند_آر²در بالا ذکر شد.

در تحلیل رگرسیون به طور کلی، در واقع اشکال مختلفی از باقیمانده ها وجود دارد که می توانند ساخته شوند، و می توانند در موقعیت های مختلف مفید باشند – به ویژه با مدل های خطی تعمیم یافته (که مدل های پواسون نمونه ای از آن هستند). برخی از نمونه ها شامل باقیمانده های پیرسون (استاندارد شده) و باقیمانده های به اصطلاح “انحراف” هستند. (برای اطلاعات بیشتر در مورد مفهوم “انحراف” و حسن نیت به این پست مراجعه کنید.)

Cameron و Windmeijer (1996) خواص R را بررسی کردند² اندازه گیری برای مدل های پواسون و مدل های دوجمله ای منفی بر اساس دو نوع باقیمانده دیگر و همچنین باقیمانده های “خام”. (کامرون و ویندمایجر (1997) این نتایج را به مدل‌های غیرخطی مختلف دیگر گسترش می‌دهند.)

آنها یک مورد قانع کننده برای ساخت R ایجاد می کنند² اندازه گیری با استفاده از باقیمانده های انحراف هنگام کار با مدل رگرسیون پواسون یا مدل دو جمله ای منفی (NegBin2).

(به عنوان یک کنار، وقتی مدل خطی است و از OLS استفاده می کنیم، باقیمانده های انحراف فقط باقیمانده های معمولی هستند..)

برای مدل پواسون i^هفتم انحراف باقیمانده به این صورت تعریف می شود

ه_من = علامت (y_من – م_من*)[2{y_ilog(y_i / μ_i*) – (y_i – μ_i*)}]^½; i = 1، 2، ….، n

و انحراف R² برای این مدل به صورت زیر تعریف می شود:

آر_{دی، پی}² = 1 – Σ{y_مندفتر خاطرات (y_من / متر_من*) – (y_من – م_من*)} / Σ{y_مندفتر خاطرات (y_من /ybar)}،

که در اینجا و زیر همه مجموع برای i = 1، 2، ….، n هستند.

اگر مدل شامل یک رهگیری باشد، این فرمول به صورت زیر ساده می شود:

آر_{دی، پی}² = 1 – Σ{y_مندفتر خاطرات (y_من / متر_من*)} / Σ{y_مندفتر خاطرات (y_من /ybar)}.

(توجه: اگر y_من = 0، سپس y_مندفتر خاطرات (y_من) = 0. در این حالت د_من = – [2μ_i*]^½.)

نکته مهم این است که ر_{دی، پی}² ویژگی های 1 تا 5 را که قبلا ذکر شد برآورده می کند.

در مورد مدل NegBin2، R مربوطه² شکل می گیرد:

آر_{D، NB}² = 1 – (A / B)،

جایی که

A = Σ{y_مندفتر خاطرات (y_من / متر_من*) – (y_من + الف*^-1) دفتر خاطرات[(y_i + α*^-1) / (μ_i* + α*^-1)]}

B = Σ{y_مندفتر خاطرات (y_من / ybar) – (و_من + الف*^-1) دفتر خاطرات[(y_i + α*^-1) / (ybar + α*^-1)]}.

(“ybar” میانگین y است_من ارزش های؛ و α* MLE پارامتر واریانس برای توزیع NegBin2 است.)

آر_{D، NB}² معیار خوب بودن برازش ویژگی های 1، 3، و 4 را که قبلا ذکر شد برآورده می کند.

بنابراین وقتی نوبت به گزارش R² برای مدل‌های داده‌های سرشماری، چنین اندازه‌گیری معمولی – بر اساس باقیمانده‌های “خام” – معمولاً انتخاب بسیار ضعیفی است. از دیگر گزینه های موجود، R² اقدامات ساخته شده با استفاده از به اصطلاح “بقایای انحراف” به عنوان رقبای عالی برجسته می شوند.

دیدگاهتان را بنویسید لغو پاسخ