برآوردیابی پارامترهای یک مدل خطی برای داده های - دانلود رایگان



دانلود رایگان در این فصل تعاریف و مقدمات اولیه برای مدل­های خطی، مدل­های خطی با خطای اندازه­گیری، برآوردگرهای استوار به­ویژه برآورد M، آنالیز بقا، برآوردگر کاپلان مایر،

دانلود رایگان
برآوردیابی پارامترهای یک مدل خطی برای داده های سانسورشده wordچکیده
در مدل­های رگرسیونی، معمولا برای برآورد پارامترها از دو روش، حداقل مربعات خطا و یا روش ماکزییم درستنمایی ،MLE، استفاده می شود. در این پایان نامه هدف، برآورد پارامتر در مدل­های رگرسیونی است که شامل داده­های سانسور شده تصادفی از راست و همچنین، علاوه بر خطای مدل، متغیر مستقل در این مدل نیز همراه با خطا می­باشد. در این تحقیق، برای برآورد پارامتر از تعمیم این دو روش استفاده می­شود.
Koul و همکارانش در سال 1980 مدل­های رگرسیونی با داده­های سانسور شده تصادفی از راست را ارائه کردند، وبرآوردگر پارامترها را نیز به­دست آوردند. تعمیم­ها و اصلاحات این روش نیز مورد مطالعه قرار گرفته است.
و همچنین Liu و Xue در سال 2008 مدل­های رگرسیونی با خطا در متغیرهای پیش­بینی کننده را ارائه دادند و برآوردگر پارامتر مجهول آن را در حالت مجانبی بدست آوردند.
و در این پایان نامه ابتدا مدل رگرسیونی با خطای اندازه­گیری با وجود داده­های سانسور شده را معرفی می­شود و سپس دو روش برای برآورد پارامترهای این مدل و ساخت نواحی اطمینان ارائه و با بیان مثالی این دو روش را با هم مقایسه می­­گردد.
کلید واژه. مدل­های رگرسیون خطی، داده­های سانسور شده، مدل­های رگرسیونی با خطای اندازه­گیری (EV)، نرمال تجربی، درستنمایی تجربی.
فهرست مطالب
عنوان صفحه
فصل اول:تعاریف و مقدمات اولیه
M................................................................................................................................................................... 5
فصل دوم : دادها­ی سانسور شده از راست و مدل های رگرسیونی
فصل سوم : برآورد مدل مدل های خطی خطا با داده های سانسور شده
. مدل رگرسیون خطی با داده­های سانسور شده با وجود خطا در متغیرهای مستقل................................. 40
فصل چهارم :مطالعات شبیه سازی
پیوست
واژه­ نامه
مراجع........................................................................................................................................................................................ 82
فهرست جداول
عنوان صفحه
جدول شماره 2.1: مجموع مربعات باقیمانده................................................................................................................... 31
جدول شماره 2.2: مجموع مربعات باقیمانده.................................................................................................................. 34
جدول شماره 3.2: ضرائب برآورد شده (برای مدل کامل)........................................................................................... 35
جدول شماره 1.3: متوسط طول و احتمالات پوشش فواصل اطمینان روش NA برای .................................. 62
جدول شماره 1.3: متوسط طول و احتمالات پوشش فواصل اطمینان روش AEL برای ............................... 63
فهرست شکل­ها
عنوان صفحه
شکل شماره 1.2: نمودار باقیمانده ها برای داده های پیوند قلب استانفورد، برازش درجه دوم............................ 20
شکل شماره 2.2: نمودار باقیمانده ها برای داده های پیوند قلب استانفورد، برازش خطی................................... 21
فصل اول:
مقدمات
در این فصل تعاریف و مقدمات اولیه برای مدل­های خطی، مدل­های خطی با خطای اندازه­گیری، برآوردگرهای استوار به­ویژه برآورد M، آنالیز بقا، برآوردگر کاپلان مایر، داده­های سانسورشده و انواع سانسور ارائه می­شود.
1-1- مدل خطی
یکی از کاربردی­ترین­­ روش­ها برای تحلیل داده­ها در بین ابزارهای آماری، تحلیل رگرسیونی است. تحلیل رگرسیونی،روشی کارآمد برای بررسی و مدل­سازی ارتباط بین متغیرها است که از این مدل های رگرسیونی در توصیف داده­ها، برآورد پارامترهای مجهول، پیش­گویی و کنترل استفاده می شود.
در بیشتر موارد، پاسخ یک آزمایش به چندین متغیر مستقل مثلا k متغیر مستقل، وابسته است. در این صورت یک مدل خطی رابطه­ای به صورت زیر را در نظر می­گیرد:
که n اندازه نمونه می­باشد. متغیرهای را متغیرهای توضیحی و متغیر تصادفی قابل مشاهده y را متغیر پاسخ می­نامند.
متغیر تصادفی غیرقابل مشاهده متغیر خطا تلقی می­شود، بدین معنی که به عنوان متغیری تصادفی، انداره ناتوانی مدل در برازش دقیق داده­ها را اندازه­گیری می­کند. این خطا ممکن است به دلیل عدم حضور برخی از متغیر­های مؤثر، خطاها­ی تصافی مربوط به مشاهدات و اندازه­گیری­ها و غیره صورت پذیرد.
همچنین فرض می­شود که خطا­ها دارای توزیع نرمال با میانگین صفر و واریانس نامعلوم و ناهمبسته باشند.
پارامترها­ی و مجهول هستند و باید با استفاده از داده­ها برآورد شوند. فرض می­­شودداده­ها عبارتند از که در آن پاسخ متناظر با k سطح از متغیرها­ی مستقل است. یعنی بنابر معادله (1.1.1) می­توان نوشت:
آن­گاه هدف ما به دست آوردن برآوردها­ی برای به ترتیب به نام­های و در نتیجه به دست آوردن رابطه زیر است.
که در آن نشان دهنده مقدار برآورد شده y به ازای مقادیر است. در این صورت معادله (3.1.1) به عنوان معادله پیش بینی کننده می­تواند مورد استفاده قرار گیرد.
معمول­ترین روش در برآورد پارامترهای یک مدل خطی، استفاده از روش "کمترین مربعات معمول (OLS)" است که روشی بسیار سودمند و کارا است.
پایه و اساس روش کمترین مربعات به Gaussو Legendreباز می­گردد. این روش (و تعمیم­های آن ) به دلیل راحتی محاسبات و جواب­های بسته مبتنی برآن مورد توجه بسیاری از آماردانان است.
برآوردهای را به گونه­ای برمی­گزینیم که مجموع توان دوم انحراف­ها را کمینه کند، یعنی آن­ها را به ­گونه­ای به ­دست می­آوریم که در معادله زیر هنگامی که به ترتیب جایگزین می­شوند، کمترین مقدار ممکن را تولید کنند.
برآوردهای با مشتق گرفتن از معادله (4.1.1) نسبت به و مساوی صفر قرار دادن آن­ها به دست می­آیند. ملاحظه می­شود که برای حل این معادله ها­ی نرمال بهتر است که از روش ماتریسی استفاده شود. می توان رابطه (1.1.1) را به فرم ماتریسی زیرر در نظر گرفت.
بطوری­که .
فرم ماتریسی را می­توان بصورت زیر نوشت.
این مدل را یک مدل خطی گویند، زیرا نسبت به پارامترها­ی مدل، خطی است.
در این مدل خطی Yیک ماتریس ، X یک ماتریس ، یک ماتریس و یک ماتریس هستند.
آن­گاه می­توان معادله­ها­ی نرمال را به صورت زیر نوشت:
زیرا

چون یک ماتریس است در نتیجه با ترانهاده خود برابر است پس:
و خواهیم داشت:
با مشتق گرفتن از رابطه (7.1.1) نسبت به بردار و جایگزین کردن به جای و مساوی صفر قرار دادن آن، معادله­های نرمال (6.1.1) به دست می­آیند.
ماتریس­های و عبارتند از:
با فرض معکوس­پذیر بودن ماتریس داریم:
که در این صورت معادله پیش بینی کننده عبارت است از:
که در آن داریم:
اما زمانی که داده پرت داشته باشیم روش کمترین مربعات معمولی جوابگو نیست، به همین دلیل به معرفی برآوردگرهای استوار می پردازیم.
1-2- انواع برآوردگرهای استوار:
برآوردگرهای استوار برآوردهایی هستند که با استفاده از آن­ها می­توان حساسیت روش حداقل مربعات را نسبت به وجود داده­های پرت کاهش داد.
برای این منظور روش کمیزیر را معرفی می­کنیم:
می­توان را توسط تابع دیگری مانند جایگزین کرد. و با کمینه کردن به برآوردگری استوار دست یافت. برآوردهای ، برآوردهای M و برآوردهای GM با این روش حاصل می­شوند. که در این پایان نامه فقط به معرفی برآورد M می­پردازیم.
تذکر. جایگزین کردن مجموع یا میانگین با کمیت­های استوار نظیر آن­ها مانند میانه یا میانگین پیراسته است. بر این اساس، روش­هایی تحت عنوان LMS (کمترین میانه مربعات) یا LTS (کمترین میانگین پیراسته مربعات) معرفی شده­اند.
1-2-1- برآوردM
می­توان در رابطه ی به جای توابع دیگری مانند را قرار داد و برآوردهای پارامترها را به­گونه­ای یافت که کمیت زیر حاصل شود.
که یک تابع حقیقی با ویژگی­های زیر است:
الف.
ب. تابع متقارن است.
ج. تابع پیوسته است.
د. اگر آنگاه است.
ه. فرض کنید باشد، آنگاه است.
و. اگر و ، آنگاه است.
تذکر.می­باشد.
1-3- مدل رگرسیون خطی با خطای اندازه­گیری
تجزیه و تحلیل مدل رگرسیونی، هنگامی که برخی متغیرها را نتوان دقیقا مشاهده یا اندازه­گیری نمود، از مدت­ها پیش به عنوان یک مسئله مهم در برخی از بخش­های کاربردی آمار شناخته شده است.
مشکل عمده در این مدل­ها عدم وجود برآوردهای مناسب (نااریب و ساگار)، برای پارامترهای مدل می­باشد و تحقیقات بیش­تر در این زمینه بر مبنای اضافه نمودن فرض­های مناسب و بدست آوردن برآوردهای مناسب می­باشد.
اگر بخواهیم رابطه میان دو متغیر را بررسی نمائیم، روش معمول استفاده از یک مدل رگرسیونی است. برای قابل شناسایی بودن مدل، لازم است فرضیاتی در نظربگیریم، و اگر هر یک از این فرضیات برقرار نباشد نتایج حاصله اعتبار نخواهند داشت. از جمله فرض­های هر مدل رگرسیونی عدم وابستگی بین متغیرهای خطا و متغیرهای مستقل مدل می­باشد. تحت این فرض، به­راحتی و با استفاده از روش­های موجود ، می­توان مدل را کاملا تجزیه و تحلیل و پارامترهای آن را برآورد نمود.
اما در بسیاری از مواقع این فرض برقرار نبوده و بین متغیرهای خطا و متغیرهای مستقل وابستگی وجود دارد. این مشکل زمانی به وجود می­آید که متغیر مستقل را فقط با خطا بتوان مشاهده نمود. در این صورت در مدل یک متغیر خطای دیگر نیز ظاهر می­شود. این مدل­ها را مدل­های رگرسیونی با خطا در متغیرها می­نامند.
مهمترین مشکل این مدل­ها این است که از روش­های از قبیل حداقل مربعات و ماکزیمم درستنمایی مستقیما نمی­توان استفاده نمود و برآوردهای مناسب برای مدل وجود نخواهند داشت، مگر آن­که فرضیاتی بر مدل اضافه شود. اما در عمل بسیاری از این فرضیات کاربردی ندارند. اما بهرحال روش­های مختلفی برای تجزیه و تحلیل این مدل­ها موجود می­باشد. برخی فقط جنبه تئوری دارند و برخی دیگر از جنبه عملی کاربردهای بسیاری دارند.
مدل رگرسیونی زیر را در نظر بگیرید:
در این مدل مقادیر غیر قابل مشاهده و مقادیر قابل مشاهده می­باشند. همچنین پارامترهای مدل، متغیرهای تصادفی خطا که دارای توزیع مستقل با میانگین صفر و واریانس می­باشند. متغیر قابل مشاهده را متغیر آشکار و متغیر غیر قابل مشاهده را متغیر پنهان می نامند.
تذکر. زمانی که خطای اندازه­گیری نداشته باشیم، مدل رگرسیونی تبدیل به مدل رگرسیون خطی معمول می­شود، در این صورت با برابر است.
برای روشن شدن مطلب مثالی را ارائه می­دهیم:
در این مثال رابطه بین میزان محصول ذرت و میزان نیتروژن موجود در خاک را در نظر می­گیریم. فرض کنید که رابطه بین تولید ذرت و میزان نیتروژن به صورت یک مدل رگرسیون خطی معمولی است، ، میزان نیتروژن خاک، ، میزان محصول ذرت و ضریب نشان دهنده­ رابطه بین این دو می­باشد. به عبارتی با افزایش میزان نیتروژن موجود در خاک میزان تولید محصول هم بالا می­رود. برای برآورد میزان نیتروژن، نمونه­ای از خاک برای انجام آزمایش و تحلیل­های آزمایشگاهی انتخاب می­شود. میزان نیتروژن مشاهده شده برآوردی از می­باشد که با نشان می­دهیم و که خطای اندازه­گیری به وسیله نمونه­گیری و تحلیل­های آزمایشگاهی می­باشد.
در این مدل ها ممکن است متغیرهای تصادفی و یا مقادیر ثابت باشند. اگر ها متغیرهای تصادفی باشند. مدل را ساختاری و اگر مقادیر ثابت باشند، مدل را تابعی می­نامیم (برای اطلاعات بیش­تر به Fuller در سال 1987 مراجعه شود).
در مدل رگرسیون خطی معمولی برآوردگر پارامتر به صورت زیر به دست می­آید:


دریافت فایل
جهت کپی مطلب از ctrl+A استفاده نمایید نماید





مقاله


پاورپوینت


فایل فلش


کارآموزی


گزارش تخصصی


اقدام پژوهی


درس پژوهی


جزوه


خلاصه