وقتی داده های زیادی دارید همه چیز مهم است


خب… نه واقعا!

ممکن است در نگاه اول اینطور به نظر برسد، اما به این دلیل است که شما احتمالاً از معیاری کاملاً نامناسب برای اینکه چه چیزی (از نظر آماری) قابل توجه است و چه چیزی نیست استفاده می کنید.

من کمی در این مورد در یک صحبت کردم پست قبلیجایی که گفتم:

“گرنجر (1998، 2003) به ما یادآوری کرد که اگر حجم نمونه به اندازه کافی بزرگ باشد، این عملا غیرممکن است نه تقریباً هر فرضیه ای را رد می کند. بنابراین اگر نمونه بسیار بزرگ باشد و پ– مقادیر مرتبط با ضرایب تخمین زده شده در یک مدل رگرسیونی از مرتبه مثلاً 0.10 یا حتی 0.05 هستند، پس این در واقع بد اخبار. خیلی، خیلی، کوچکتر پ– قبل از اینکه در مورد نتایج «آماری معنی دار» هیجان زده شویم، زمانی که حجم نمونه هزاران یا حتی بزرگتر است، مقادیر مورد نیاز است.”

این نکته کلی، یعنی سطح انتخابی ما از اهمیت باید باشد کاهش یافته با افزایش حجم نمونه، اکثر آماردانان و اقتصادسنجی ها به خوبی درک می کنند. (به عنوان مثال، به Good، 1982 مراجعه کنید.) با این حال، معمولاً توسط نویسندگان مطالعات تجربی اقتصادی بر اساس نمونه‌هایی از هزاران (یا بیشتر) مشاهدات نادیده گرفته می‌شود. علاوه بر این، بسیاری از تمرین‌کنندگان دقیقاً مطمئن نیستند چقدر نیاز به تجدید نظر دارند سطوح اهمیت آنها (یا تفسیر مجدد مقادیر p آنها) در چنین شرایطی.

واقعاً هیچ بهانه ای برای این وجود ندارد زیرا دستورالعمل های ثابت شده ای برای کمک به ما وجود دارد. در واقع، همانطور که خواهیم دید، برخی از آنها حداقل از دهه 1970 وجود داشته اند.

بیایید نگاهی گذرا به این بیندازیم زیرا این چیزی است که همه دانش‌آموزان باید با آن آشنا باشند، زیرا ما بیشتر و بیشتر با «داده‌های بزرگ» کار می‌کنیم. دانش‌آموزان مطمئناً با مشاهده تفسیر نتایج در اکثر مقالات تجربی تجربی که حتی از نمونه‌های بزرگ استفاده می‌کنند، این آگاهی را به دست نمی‌آورند!

نتیجه اصلی که می خواهم برجسته کنم نتیجه ای است که توسط لیمر (1978) به ادبیات اقتصاد سنجی معرفی شد. (به فصل 4 کتاب او، که در زیر ذکر شده است – و به ویژه ص 116 مراجعه کنید.)

بیایید با نقل قول از دیتون (2018، فصل 2) صحنه را آماده کنیم:

تأثیری که بیشتر توسط محققان تجربی به آن اشاره شده این است که به نظر می رسد فرضیه صفر در نمونه های بزرگ بیشتر از نمونه های کوچک رد می شود. از آنجایی که سخت است باور کنیم که حقیقت به حجم نمونه بستگی دارد، باید چیز دیگری در جریان باشد… ……. با افزایش حجم نمونه و به شرط استفاده از یک روش تخمین ثابت، تخمین های ما نزدیک تر خواهد شد. و به حقیقت نزدیک تر و کمتر در اطراف آن پراکنده شده است، بنابراین مغایرت هایی که با نمونه های کوچک غیرقابل کشف بود، منجر به رد در نمونه های بزرگ می شود………..

اضافه برازش در نمونه های بزرگ را می توان به عنوان خطای نوع I و II نیز در نظر گرفت. هنگامی که خطای نوع I را ثابت نگه می داریم و حجم نمونه را افزایش می دهیم، هر مزیت افزایش دقت به طور ضمنی به کاهش خطای نوع II اختصاص داده می شود………

تصحیح این مشکلات مستلزم آن است که مقادیر بحرانی آمار آزمون با حجم نمونه افزایش یابد تا مزایای افزایش دقت به طور یکنواخت بین کاهش خطاهای نوع I و نوع II توزیع شود. با این حال، تصمیم گیری دقیق برای انجام این کار و به دست آوردن قاعده کلی نسبتاً دشوارتر است. از آنجایی که روش‌های کلاسیک نمی‌توانند چنین مبنایی را فراهم کنند، جایگزین‌های بیزی مکان آشکاری برای بررسی هستند.

و این دقیقاً همان کاری است که لیمر انجام می دهد. همچنین رجوع کنید به شوارتز (1978).

فرض کنید یک مدل رگرسیون چندگانه خطی با k رگرسیون و n مشاهده داریم و می‌خواهیم این فرضیه صفر را آزمایش کنیم که مجموعه‌ای از محدودیت‌های خطی مستقل q در ضرایب رگرسیون برآورده می‌شوند. فرضیه جایگزین این است که حداقل یکی از محدودیت ها نقض شده است. تحت مفروضات بسیار محدودکننده‌ای که معمولاً در این زمینه با آن شروع می‌کنیم، از یک آزمون F استفاده می‌شود و اگر عدد درست باشد، آمارهای مرتبط با q و (n – k) درجه آزادی توزیع می‌شوند.

اگر F > F فرضیه صفر را رد می کنیمدرجه سانتی گراد(α)، که در آن α سطح معناداری انتخاب شده و F استدرجه سانتی گراد(α) مقدار بحرانی مرتبط است. متناوبا، ما مقدار p مربوط به مقدار F مشاهده شده را محاسبه می کنیم و اگر این مقدار p “به اندازه کافی کوچک” باشد رد می کنیم.

ما به موقعیت‌هایی علاقه‌مندیم که n بزرگ باشد – احتمال دارد فوق العاده بزرگ. بنابراین می توانیم تفاوت بین n و (n – k) را نادیده بگیریم. اگر عدد درست باشد، qF به صورت مجانبی به آماره خی دو با درجه آزادی q همگرا می شود. این معادل آزمون والد است. علاوه بر این، اگر محدودیت های آزمایش شده به جای خطی غیرخطی باشند، این همگرایی همچنان پابرجاست. اگر qF > χ باشد، عدد صفر را رد می کنیم2درجه سانتی گراد(α)، جایی که دوباره زیرنویس “c” مقدار بحرانی مناسب را نشان می دهد.

انتخاب α باید در اینجا مورد سوال قرار گیرد. آیا اگر n باشد، باید α = 10٪، 5٪، 1٪ را تنظیم کنیم؟ خیلی خیلی بزرگ? (نه، نباید!)

به طور معادل، اگر n بسیار بزرگ است، مقدار مناسب p-value چقدر است که در زیر آن باید تصمیم به رد فرضیه صفر بگیریم؟ یا، مجدداً معادل آن، چگونه باید مقدار بحرانی این آزمایش را در نمونه های بسیار بزرگ تغییر داد؟

نتیجه لیمر به ما می گوید که اگر F > (n / q) (n) باید عدد تهی را رد کنیمq/n – 1)؛ یا به طور معادل اگر qF = χ2 > n(nq/n – 1)

توجه به این نکته مهم است که این نتیجه بر اساس یک تحلیل بیزی با رویکرد خاصی به انتشار توزیع قبلی است.

همچنین، به یاد بیاورید که اگر یک آماره t با درجه آزادی v داشته باشیم، t2 F با درجه آزادی 1 و v توزیع شده است. بنابراین اگر اهمیت یک رگرسیور را آزمایش کنیم (یعنیما فقط یک محدودیت را آزمایش می کنیم)، سپس نتیجه لیمر به ما می گوید که باید عدد صفر را رد کنیم، که اگر t این ضریب صفر است.2 > n(n1/n – 1). به این معنا که اگر |t| باشد، باید فرضیه جایگزین دو طرفه را رد کنیم > √[n(n1/n – 1)] (به یاد داشته باشید، q = 1 در این مورد.)

در واقع، به راحتی می توان تأیید کرد که n(n1/n – 1) تقریباً برابر است با logه(n) برای مقادیر بزرگ n. در واقع، اگر n بسیار بسیار بزرگ باشد، این تقریب همچنان عالی است حتی اگر q > 1 باشد (تا زمانی که q محدود باشد). به مثال های عددی زیر توجه کنید:

میز 1

بنابراین، این بدان معنی است که برای نمونه های بسیار بزرگ، قانون Leamer برابر با زیر است:

طرد شدن ساعت0: “قید مستقل q در پارامترهای مدل درست است” اگر F > logه(ن)؛ یا به طور معادل، اگر χ2 > qlogه(ن).

این چه تفاوتی با آنچه ما به طور سنتی انجام می دهیم دارد؟ (به یاد داشته باشید که برای n بزرگ می توانیم تفاوت بین n و (n – k) را نادیده بگیریم.) در اینجا مقادیر F حیاتی مربوطه آمده است:

جدول 2

می بینیم که اگر n = 100000 و q = 5 باشد، با استفاده از آزمون F با سطوح معنی داری متعارف، اعتبار محدودیت ها را در سطوح معنی داری 10، 5، و 1 درصد رد می کنیم اگر آماره F از 1 بیشتر شود. ، 8، 2.2 یا 3.0 به ترتیب. از جدول 1 می بینیم که مقدار بحرانی در این مورد در واقع باید 11.5 باشد! شما می توانید به سرعت خودتان بررسی کنید که اگر از آزمون t دو طرفه (q = 1) با n = 100000 استفاده کنیم، باید فرضیه صفر را رد کنیم اگر |t| > √(11.5162) = 3.394.

بنابراین، با استفاده از معیارهای مرسوم، اعتبار محدودیت‌ها را خیلی بیشتر از آنچه باید رد می‌کنیم. شما!

برای نگاه کردن به چیزها از منظری متفاوت، می‌توانیم بپرسیم پیشنهاد لیمر نسبت به سطوح (10٪، 5٪) چه سطوحی از اهمیت را نشان می‌دهد. و غیره.) که ما معمولا در عمل استفاده می کنیم؟”

بیایید به جدول 1 برگردیم و روی آخرین ستون گزارش تمرکز کنیمهن) مقادیر بحرانی. سطوح اهمیت مرتبط به شرح زیر است:

جدول 3


و در مورد مثال t-test ارائه شده در زیر جدول 2، سطح معنی داری مرتبط با مقدار بحرانی 3.394 0.000345 است.

همانطور که می بینیم، وقتی n بسیار بزرگ است، سطوح معنی داری این است باید استفاده کنیم (یا به طور معادل، مقادیر p که باید استفاده کنیم) هستند بسیار کمتر از سطوح معمولی که ما تمایل داریم به آنها فکر کنیم!

به عنوان یک تمرین، چرا به یکی از مقالات مورد علاقه اقتصاد سنجی کاربردی خود که از حجم نمونه بسیار بزرگی استفاده می کند نگاه نکنید و از خود بپرسید “آیا من واقعاً به نتیجه گیری هایی که نویسنده به آن رسیده اعتقاد دارم؟”

اگر می خواهید در مورد این موضوع بیشتر بخوانید، پیشنهاد می کنم نگاهی به لین بیندازید و همکاران. (2013) و لیکنز (2018).

دیدگاهتان را بنویسید