تبلیغات
Loading by : javacity

آمار - مقاله آمار کاربرد علم آمار در داده کاوی

آمار

! به وب ما خوش آمدید

صفحه نخست تماس با ما RSS 2.0

درباره ما


پیام مدیر :
مدیر سایت :روشن پیام نور

آمار سایت

تعداد مطالب :
تعداد نویسندگان :
آخرین بروزرسانی :
بازدید امروز :
بازدید دیروز :
بازدید این ماه :
بازدید ماه قبل :
بازدید کل :
آخرین بازدید در :
» کاربر: Admin

این وبلاگ را صفحه خانگی خود كن ! به مدیر وبلاگ ایمیل بزنید ! ذخیره كردن صفحه! اضافه کردن این وبلاگ به علاقه مندیها! لینک RSS

site map site map ror html site map
Add to Technorati

طراح قالب

طراح قالب :

Template.IRANMOB.tk

برای تبادل لینک اول ما را لینک کنید سپس به ما اطلاع دهید تا ما شما را لینک کنیم

مقاله آمار کاربرد علم آمار در داده کاوی

نوشته شده توسط : روشن پیام نور

 

کاربرد علم آمار در داده کاوی


مقدمه و مقا یسه
آمار شاخه ای از علم ریاضی است که به جمع آوری توضیح و تفسیر داده ها می پردازد.[3 ] این مبحث به گونه ای است که روزانه کاربرد زیادی دارد. در مقایسه این عام با data mining قدمت بیشتری دارد و جزء ورشهای کلاسیک داده کاوی محسوب می شود،وجه اشتراک تکنیکهای آماری وdata mining بیشتر درتخمین وپیش بینی است.[2]البته از آزمونهای آماری در ارزیابی نتایج داده کاوی نیزاستفاده می شود. درکل
ا گر تخمین و پیش بینی جزء وظایف data mining در نظر گرفته شوند،تحلیل های آماری،data mining را بیش از یک قرن اجرا کرده است.به عقیده بعضی DM ابتدا ازآمار و تحلیل های آماری تحلیل شروع شد. [ 2] می توان تحلیل های آماری از قبیل فاصله اطمینان،رگرسیون و... را مقدمه و پیش زمینه DMرا دانست که بتدریج در زمینه های دیگر ومتد های دیگررشد و توسعه پیدا کرد. پس در واقع متدهای آماری جزو روشهای کلاسیک و قدیمی DM محسوب می شوند.در جایی اینگونه بحث می شود که با تعریف دقیق ، آماریا تکنیکهای آماری جزء داده کاویdata mining نیستند.این روشها خیلی قبل تر از data mining استفاده می شدند.با این وجود، تکنیکها آماری توسط داده ها بکار برده می شوند و برای کشف موضوعات و ساختن مدلهای پیشگویانه مورد استفاده قرار می گیرند.[3]
تهیه کننده : مهرداد حمیدی
کاربرد آمار دا داده کاوی
مقدمه و مقا یسه
آمار شاخه ای از علم ریاضی است که به جمع آوری توضیح و تفسیر داده ها می پردازد.[3 ] این مبحث به گونه ای است که روزانه کاربرد زیادی دارد. در مقایسه این عام با data mining قدمت بیشتری دارد و جزء ورشهای کلاسیک داده کاوی محسوب می شود،وجه اشتراک تکنیکهای آماری وdata mining بیشتر درتخمین وپیش بینی است.[2]البته از آزمونهای آماری در ارزیابی نتایج داده کاوی نیزاستفاده می شود. درکل ا گر تخمین و پیش بینی جزء وظایف data mining در نظر گرفته شوند،تحلیل های آماری،data mining را بیش از یک قرن اجرا کرده است.به عقیده بعضی DM ابتدا ازآمار و تحلیل های آماری تحلیل شروع شد. [ 2] می توان تحلیل های آماری از قبیل فاصله اطمینان،رگرسیون و... را مقدمه و پیش زمینه DMرا دانست که بتدریج در زمینه های دیگر ومتد های دیگررشد و توسعه پیدا کرد. پس در واقع متدهای آماری جزو روشهای کلاسیک و قدیمی DM محسوب می شوند.در جایی اینگونه بحث می شود که با تعریف دقیق ، آماریا تکنیکهای آماری جزء داده کاویdata mining نیستند.این روشها خیلی قبل تر از data mining استفاده می شدند.با این وجود، تکنیکها آماری توسط داده ها بکار برده می شوند و برای کشف موضوعات و ساختن مدلهای پیشگویانه مورد استفاده قرار می گیرند.[3]
همانگونه که واضح و مشخص است با گذشت زمان علم نیز پیشرفت می کند،هر چه به جلوتر می رویم روشهای جدید تر و بهترمورد استفاده قرار می گیرد،علم امروز نسبت به دیروز جدیدتر است.روشهای جدید علمی در پی کشف محدودیتهای روشهای قدیمی ایجاد می شود،و از آنجایی که روشهای آماری جزء روشهای قدیمیData miningمحسوب می شوند،از این قاعده کلی که دارای محدودیت هستند مستثنی نیستند.داشتن فرض اولیه در مورد داده ها، یکی از این موارد است.در اینجا به تشریح بیشتر تفاوتهای بین مباحث و متدهای آماری و دیگر متدهای داده کاوی که در کتابهای مختلف بحث شده است می پردازیم.
تکنیکهای داده کاوی و تکنیکهای آماری در مباحثی چون تعریف مقدار هدف برای پیش گویی،ارزشیابی خوب و داده های دقیق تمیزclean data خوب عمل می کنند،همچنین این موارد در جاهای یکسان برای انواع یکسا نی از مسایل پیش گویی ،کلاس بندی و کشفاستفاده می شوند، بنابراین تفاوت این دو چیست؟چرا ماآنچنان که علاقه مند بکاربردن روشهای دا ده کاوی هستیم علاقه مند روشهای آماری نیستیم؟ برای جواب این سوال چندین دلیل وجود دارد اول اینکه روشها ی کلاسیک داده کاوی از قبیل شبکه های عصبی،تکنیک نزدیک ترین همسایه روشهای قوی تری برای داده های واقعی به ما می دهند و همچنین استفاده از آنها برای کاربرانی که تجربه کمتری دارند راحت تر است و بهتر می توانند از آن استفاده کنند.دلیل دیگر اینکه بخاطر اینکه معمولاُ داده ها اطلاعات زیادی در اختیار ما نمی گذارند،این روشها با اطلاعات کمتر بهتر می توانند کار کنند وهمچنین اینکه برای داده ها وسیع کابرد دارند.[3]
در جایی دیگر اینگونه بیان شده که داده ها ی جمع آوری شده نوعاُ خیلی از فرضهای قدیمی آماری را در نظر نمی گیرند،از قبیل اینکه مشخصه ها باید مستقل باشند،تعیین توزیع داده ها،داشتن کمترین همپوشانی در فضا و زمان اغلب داده ها هم پوشانی زیاد می دارند،تخلف کردن از هرکدام از فرضها می توان مشکلات بزرگی ایجاد کند،زمانی که یک کاربرتصمیم گیرنده سعی می کند که نتیجه ای را بدست آورد. داده های جمع آوری شده بطورکلی تنها مجموعه ای از مشاهدات چندی بعد است بدون توجه به اینکه چگونه جمع آوری شده اند[5].
در جایی پایه و اساس Data mining به دو مقوله آمار و هوش مصنوعی تقسیم شده است که روشهای مصنوعی به عنوان روشهای یادگیری ماشین در نظر گرفته می شوند.فرق اساسی بین روشهای آماری و روشهای یادگیری ماشین machine learning بر اساس فرضها و یا طبیعت داده هایی که پردازش می شوند.بعنوان یک قانون کلی فرضها تکنیکهای آماری بر این اساس است که توزیع داده ها مشخص است که بیشتر موارد فرض بر این است که توزیع نرمال است و در نهایت درستی یا نادرستی نتایج نهایی به درست بودن فرض اولیه وابسته است.در مقابل روشهای یادگیری یادگیری ماشین از هیچ فرض در مورد داده ها استفاده نمی کند و همین مورد باعث تفاوتهایی بین این دو روش می شود.
به هر حال ذکر این نکته ضروری به نظر می رسد که بسیاری از روشهای یادگیری ماشین برای ساخت مدل dataset از حداقل چند استنتاج آماری استفاده می کنندکه این مساله بطور خاص در شبکه عصبی دیده می شود.[1]
بطور کلی روشهای آماری روش های قدیمی تری هستند که به حالت های احتمالی مربوط می شوند.Data mining جایگاه جدید تری دارد که به هوش مصنوعی یادگیری ماشین سیستمهای اطلاعات مدیریت MIS و متدلوژی Database مربوط می شود.
روشهای آماری بیشتر زمانی که تعداد دادهها کمتر است و اطلاعات بیشتری در مورد داده ها می توان بدست آورد استفاده می شوند به عبارت دیگر این روشها با مجموعه داده ها ی کوچک تر سر و کار دارند همچنین به کاربران ابزارهای بیشتری برای امتحان کردن داده ها با دقت بیشتر فهمیدن ارتباطات بین داده ها می دهد. بر خلاف روشهایی از قبیل شبکه عصبی که فرآیند مبهمی دارد. پس به طور کلی این روش در محدوده مشخصی از داده های ورودی بکار می رود.بکار بردن این روشها مجموعه داده های مجموعه داده های زیاد احتمال خطا در این روشها را زیاد می کند.چون در داده ها احتمالnoise وخطا بیشتر می شود و نیز روشهای آماری معمولابه حذف noiseمی پردازند، بنابراین خطای محاسبات در این حالت زیاد می شود.[7]،[8]
در بعضی از روشهای آماری نیازداریم که توزیع داده ها را بدانیم. اگر بتوان به آن دسترسی پیدا کرده با بکار بردن روش آماری می توان به نتایج خوبی رسید.
روشهای آماری چون پایه ریاضی دارندنتایج دقیق تری نسبت به دیگر روشها ی Data miningاریه می دهند ولی استفاده از روابط ریاضی نیازمند داشتن اطلا عات بیشتری در مورد داده ها است.
مزیت دیگر روشهای آماری در تعبیر و تفسیر داده ها است.هر چند روشهای آماری به خاطر داشتن ساختار ریاضی تفسیر سخت تری دارند ولی دقت نتیجه گیری و تعبیر خروجی ها در این روش بهتر است بطور کلی روشهای آماری زمانی که تفسیر داده ها توسط روشهای دیگر مشکل است بسیار مفید هستند.
تفاوتهای کلی روشهای آماری و دیگر روشهای Data mining در جدول اریه شده است:






ِِدیگر روشهای Data mining
روشهای آماری


بدون فرض اولیه
داشتن فرض اولیه

در انواع مختلفی از داده ها کاربرد دارند نه فقط داده های عددی تنها برای داده های عددی کاربرد دارند
در محدوده وسیع تری از داده ها در محدوده کوچکی از داده ها
Data mining به دادهای درست clean data بستگی دارند حذفnoise ها ، داده های نامشخص ووفیلتر کردن dirty data
استفاده از شبکه عصبی روشهای رگرسیون و استفاده از معادلات
استفاده ازData visulization استفاده از چارتهای دو بعدی و سه بعدی
استفاده از روشهای یادگیری ماشین و هوش مصنوعی استفاده از روابط ریاضی
در یادگیری غیر نظارتی کاربرد بیشتر دارد در descriptive statisticalوcluster analysis کاربرد دارد.

همچنین می توان گفت که درDM داده ها اغلب بر اساس همپوشانی نمونه هاست،نسبت به اینکه بر اساس احتمال داده ها باشد.همپوشانی نمونه ها برای آشنایی همه انواع پایه ها برای تخمین پا را مترها مشهور است. وهمچنین اغلب استنتاج های آماری نتایج ممکن است مشارکتی باشد تا اینکه سببی باشند.
تکنیکهای ماشین را به سادگی می توان تفسیر کرد .مثلاَُ روش شبکه عصبی بر اساس یک مدل ساده بر اساس مغز انسان استوار است.یعنی همان ساختار مغز انسان را اجرا می کنند ولی خروجی های بسیاری از روشهای آماری ساختار ریاضی دارند،مثلاَُ یک معادله است که تعبیر و تفسیر آن مشکل تر است.در مورد روش های آماری بایداین مطلب را گفت بدون توجه به اینکه مدل کاربردی،مدل آماری است یا خیر،تستهای آماری می تواند برای تحلیل نتایج مفید باشد.
با ارایه توضیحات داده شده درباره های تفاوتهای روشهای آماری و دیگر روشهای DM در ادامه به کابردهای روش روشهای آماری و بحثهای مشترک آما روDM می پردازیم .





کاربردهای روشهای آماری:
Data mining معمولا وظایف یا به عبارت بهتر استراتژهای زیر را در داده ها بکار می برد:

- توضیح و تفسیر description
- تخمینestimation
- پیش بینیprediction
- کلاس بندیclassification
- خوشه سازی clustering
- وابسته سازی وایجاد رابطه association
در جدول زیر استراتژی ها و روشهای هر استراتژی مشخص شده است:
روشها استراتژیها

تحلیل داده ها توضیح وتفسیر
تحلیل های آماری تخمین
تحلیل های آماری پیش بینی
الگوریتم نزدیک ترین همسایه کلاس بندی
درخت تصمیم کلاس بندی
شبکه های عصبی کلاس بندی
خوشه سازی k-mean خوشه سازی
شبکه های kohonen خوشه سازی
وابسته سازی و ایجاد رابطه رابطه سازی


البته باید گفت که روشهای data mining تنها به یک استراتژی خاص محدود نمی شوندو نتایج یک را همپوشانی بین روشها نشان می دهد. برای مثال درخت تصمیم ممکن است که درکلاس بندی تخمین وپیش بینی کاربرد داشته باشد. بنابراین این جدول را نباید به عنوان تعریف تعریف تقسیم بندی از وظایف در نظرگرفته شود‏‎ بلکه به عنوان یک خروجی از آنچه که ما به عنوان وظایف dataminig آشنایی پیدا کردیم در نظر گرفته می شود.
همانگونه که ازجدول پیداست روشهای آماری در مباحث تخمین وپیش بینی کاربرد دارند. در تحلیل آماری تخمین وپیش بینی عناصری از استنباطهای آماری هستند.استنباطهای آماری شامل روشهایی برای تخمین وتست فرضیات درباره جمعیتی از ویژگیها براساس اطلاعات حاصل از نمونه است .یک جمعیت شامل مجموعه ای از عناصر از قبیل افراد ایتم یاداده ها یی که دریک مطالعه خاص آمده است. بنابراین در اینجا به توضیح این دواستراتژی می پردازیم.

1- تخمین:
در تخمین به دنبال این هستیم که مقدار یک مشخصه خروجی مجهول را تعیین کنیم،مشخصه خروجی در مسا یل تخمین بیشتر عددی هستند تا قیاسی [1] .بنابراین مواردی که بصورت قیاسی هستند باید به حالت عددی تبدیل شوند.مثلا موارد بلی،خیر به 0 و1 تبدیل می شود.
تکنیکهای نظارتیDM قادرند یکی از دو نوع مسایل کلاس بندی یا تخمین را حل کنند، نه اینکه هر دو
را.یعنی اینکه تکنیکی که کار تخمین را ا نجام می دهد، کلا س بندی نمی کند.
روشهای آماری مورد استفاده دراین مورد بطورکلی شامل تخمین نقطه و فا صله اطمینان میباشد. تحلیل های آماری تخمین وتحلیل های یک متغیره و...از این جمله می باشند.
در توضیح اینکه چرا به سراغ تخمین می رویم باید گفت که مقدار واقعی پارامترها برای ما ناشناخته است.مثلا مقدار واقعی میانگین یک جامعه مشخص نیست.داده ها ممکن است که بطور رضایت بخشی جمع آوری نشده باشد‏ یا به عبارتی warehouse نشده باشد. به همین دلیل تحلیل گران از تخمین استفاده میکنند.
در خیلی از موارد تعیین میانگین مجموعه ای از داده ها برای ما مهم است.مثلا میانگین نمرات درسی یک کلاس،میانگین تعداد نفراتی که در یک روز به بانک مراجعه می کنند،متوسط مقدار پولی که افراد دریک شعبه خاص از بانک واریز می کنند وموارد اینچنینی.
زمانی که مقدار یک آماره را برای براورد کردن پارامتر یک جامعه به کار ببریم،آن پارامتر را تخمین زده ایم،وبه مقدار این آماره برآورد نقطه ای پرامتر اطلاق می کنیم.در واقع از کلمه نقطه برای تمایز بین براورد کننده های نقطه ای و فاصله ای استفاده می کنیم.از مهمترین تخمین زننده ها است که به ترتیب برآورد واریانس و میانگین جامعه هستند.خود برآورد کننده ها دارای خاصیت هایی چون ناریبی، کارایی،ناسازگاری،بسندگی و... هستند،که هر یک به بیان ویژگی خاصی از آنها می پردازندو میزان توانایی آنها را در تخمین درست و دقیق یک پارامترتعیین می کنند.
در تخمین نیازمند داشتن اندازه نمونه هستیم،در تعیین اندازه نمونه می توان از رابطه زیر استفاده کرد:

که p احتمال رخدادو e درصد خطای پذیرفته شده است که در اینجا 5% در نظر می گیریم.
پر کاربرد ترین تخمین زننده ،تخمین زننده میانگین جامعه است،ساده ترین رابطه ای که برای میانگین داده ها می توان نوشت بدین صورت است:

که n تعداد نمونه ها و مقدارهر نمونه است.در اینجا تمام نمونه ها ارزش یکسانی دارند ولی گاهی اوقات نیاز است که نمونه ها بر اساس اهمیتی که دارند وزن دهی شوند.
بدین صورت :

که ها در اینجا وؤن هر نمونه i ام هستند. در این حالت برای تعیین مجموع اوزان نمونه ها به جایn ،می باشد.
در مواردی نیز تخمین فاصله برای ما اهمیت دارد.فاصله اطمینان شامل فاصله ای است که با درصدی از اطمینان می توانیم بگوییم که مقدار یک پارامتر درون این این فاصله قرار می گیرد.به عبارت دیگراگر چه برآورد نقطه ای طریقه متداول توصیف .برآورد هاست اما درباره آن، جا برای پرسشهای زیادی باقی است.مثلا برآورد نقطه ای به ما نمی گوید که برآورد بر چه مقداری از اطلاعات مبتنی است.و چیزی درباره خطا بیان نمی کند. بنابراین می توانیم که برآورد پارامتر را با بعلاوه کردن اندازه کردن اندازه نمونه و مقدار واریانس ،یا اطلاعات دیگری درباره توزیع نمونه گیری کامل کنیم.این کار ما را قادر می سازد که اندازه ممکن خطا را برآورد کنیم.
یک براورد فاصله ای ،فاصله ای به شکل است که درآن و مقادیر متغییرهای تصادفی مناسبی برای هستند،منظور از مناسب آن است که به ازای احتمال مشخصی مانند داریم:


برای مقدار مشخص ، را یک فاصله اطمینان برای می نامیم. همچنین، درجه اطمینان ،و دو سر فاصله کرانهای اطمینان پایینی و بالایی نامیده می شود.مثلا برای ، درجه اطمینان 95%است ویک فاصله اطمینان 95% بدست می آوریم.فاصله اطمینان از اکثر توزیع ها ،همانند توزیع نرمال ،خی دو،t استودنت وتوزیع F و... استفاده می کند.مثلا اگر مقدار میانگین یک نمونه تصادفی به اندازه n از جامعه نرمال ووایانس معلوم باشد آنگاه


یک فاصله اطمینان برای میانگین جامعه است.[6]
در خیلی از موارد تعیین نقطه دقیق یک پارامتر ممکن نیست،ولی فاصله اطمینان ،اطمینان ما را از قرار گرفتن مقدار پارامتر در یک بازه تضمین می کند.فاصله اطمینان را می توان برای اکثر توزیع ها از جمله توزیع خی دو،توزیع t استودنت وتوزیع F و ...بدست آورد.


2- پیش بینی prediction :
هدف از انجام پیش بینی تعیین ترکیب خروجی با استفاده از رفتار موجود می باشد. یعنی در واقع رسیدن به یک نتیجه بوسیله اطلاعات موجود از داده ها. مشخصه های خروجی در این روش هم می توانند عددی باشند وهم قیاسی.[1] این استراتژی در بین استراتژی های data mining از اهمییت خاصی بر خوردار است، و مفهوم کلی تری را نسبت به موارد دیگر دارد.خیلی از تکنیکهای نظارتی data mining که برای کلاس بندی و تخمین مناسب هستند در واقع کار پیش بینی انجام می دهند.
آنچه از کتابهای آماری وdata minig تحت عنوان پیش بینی برمی آید رگرسیون و مباحث مر بوط به آن است .در واقع در اکثر این کتابها هدف اصلی از انجام تحلیل های آماری برای داده کاوی، رگرسیون داده هاست واین بعنوان وظیفه اصلی متد های آماری معرفی می شود.
اهداف تحلیل رگرسیون:
با انجام رگرسیون می خواهیم اهداف زیررا دنبال کنیم:
1- بدست آوردن رفتار متغییرy توسط متغییر x ،یعنی اینکه متغیرy با تغییرx در نمونه ها چه رفتاری را از خود نشان می دهد.مثلا در نمونه ای این رفتار خطی است یا اینکه شکل منحنی خواهد داشت.

2- پیش بینی بر اساس دادهها برای نمونه های آینده،که هدف اصلی در داده کاوی از طریق متدهای آماری است.مثلا از روی اطلاعاتی مثل داشتن کارت اعتباری یک فرد جدید،نوع جنسیت او،سن فرد،میزان درآمد سالیانه او بتوان حدس زد که این فرد از بیمه عمر استفاده می کند یا خیر. ویا اینکه با داشتن اطلاعات در مورد داشتن یا نداشتن کارت اعتباری و بیمه عمر، سن فردبتوان جنسیت فرد را تعیین کرد.

3- استنباط استنتاجی یا تحلیل حساسیت، تعیین اینکه اگرx به اندازه خاصی تعییر کندy تا چه اندازه تغییر خواهد کرد.هدف از فهمیدن اینکه چگونه تغییرات y تابعی ازx است. باید توجه داشت که نوع تغییرات مدل گرسیونی خاصی را می دهد.
اهداف مدلسازی برای تشریح ارتباط بین x وy استفاده از نتایج مدل برای پیش بینی کاربردهای تخمین عبارت است.اما استنباط استنتاجی یک مقوله ظریف تری است.زمانی که به استنباط آماری فکر میکنیم در واقع درباره متغییر رفتاری و متغییر های کنترل فکر می کنیم.
متغییرهای رفتاری مشخصه هایی را ارایه میکنندکه تبحروتجربه خاصی دارندیا اینکه قابلیت آن نبحر را دارند.مثلا مقدار دز دارو که برای بیمار استفاده می شود در تجربه پزشکی .همچینین متغییرهای کنترل دیگر ویژگی ها در یک محیط آزمایشی را اندازه میگیرند،از قبیل وزن بیمار که قبل از رفتار اندازه گیری می شود.
اگر ما برای یکی از متغییر های رفتاری، کنترل انجام دهیم، رگرسیون ما احتمالا استنباط های استنتاجی را درست حدس میزند.و اگر ما علاقه مند به هر دو مورد پیش بینی انتخاب سهم وتخمین اثرات علتها باشیم تایید هر دومورد را بعنوان متغییرهای خروجی که همپوشانی دارند در نظر می گیریم.
روشهای مختلف رگرسیون برای داده کاوی وجود دارد .رگرسیون خطی بیشترین کاربردرا دارد وهمچنین مشتقات آن حایزاهمییت است.یک نمونه از آن مشتقات آن رگرسیون خطی سلسله مراتبی یا رگرسیون چند سطحی است. این روش یکی از ابزارهای تحلیل دادههای پیچیده از قبیل افزایش فر کانس در تحقیقات مقداری را شامل می شود.مدلهای رگرسیون چند سطحی برای حالتهایی که همپوشانی در سطوح مختلف وجود دارد مفید است. برای مثال اطلاعات آموزشی ممکن است اطلاعاتی از قبیل اطلاعات فردی دانش آموزان نام، نام خانوادگی و در کل پیش زمینه خانوادگی،اطلاعات سطح کلاس از قبیل ویژگی های معلم وهمچینین اطلاعات درباره مدرسه همانند سیاست آموزشی و... باشد. حالت دیگر مد لهای چند سطحی ،تحلیل دادههای بدست آمده از نمونه های خوشه بندی شده است. یک خانواده از مدلهای رگرسیون، به عنوان متغییرهای شاخص بری رتبه بندی یا خوشه بندی است علاوه بر اینکه همپوشانی را اندازه می گیرد. با نمونه خوشه بندی شده مدلسازی چند سطحی برای توسعه نمونه هایی که داخل خوشه نیستند،لازم است.[4]
در روش رگرسیون چند سطحی یا سلسله مراتبی محدودیتی برای تعداد سطوح تغییر که می تواند انجام شود،وجود نداردروشهای بیزی در تخمین پارامترهای مجهول کمک می کند،هرچند که محاسبات پیچیده ای دارد.ساده ترین توسعه از رگرسیون همپوشانی مجموعه ای از متغیرهای شاخص برای کلاس بندی نمونه های آموزشی یا رتبه بندی وخوشه بندی درنمونه های داده شده است.همچنین به عنوان توسعه رگرسیون خطی در نظر گرفته می شود،که در ادامه به توضیح آن می پردازیم[4]

1- رگرسیون خطیLinear regression
یکی از هدفهای اصلی بسیاری از پژوهشهای آماری ا یجاد وابستگی هایی است تا پیش بینی یک یا چند متغیر را بر حسب سایرین ممکن می سازد.مثلاَُ مطالعاتی انجام می شودتا فروشهای بالقوهُ یک محصول جدید را بر حسب قیمت آن،وزن یک بیماررا بر حسب تعداد هفته هایی که پرهیز داشته است،پیش بینی کند.
در عمل مسایل متعددی وجود دارند که در آن ها مجموعه ای از داده ها زوج شده بر آن دلالت می کند که رگرسیون خطی است و در آن توزیع توأم متغیرهای تصادفی تحت بررسی رانمی دانیم اما با این حال می خواهیم که ضرایب رگرسیون را برآ ورد کنیم.
روش رگرسیون خطی یک تکنیک یادگیری نظارتی است که به وسیله آ ن می خواهیم تغییرات یک متغیر وابسته بوسیلهُ ترکیب خطی از یک یا چند متغیرمستقل مدل کنیم .حالت کلی معادله آن به این صورت است :
1 fx1+x2+…+xn=a1x1+a2 x2+…+an xn+b

کهxها متغیر مستقل و aهاو b ضرایب ثابت هستند وfx1.x1…xn متغیر وابسته می باشند.حالت ساده این معادله بصورت 2 y=ax+b است که در اینجا yمتغیر وابسته است به حالت ساده شده معادله 1یعنی معادله2 shope-intercept fromمی گویند.
یک روش برای تعیین ضرایب a,b روش حداقل مربعات است.ملاک کمترین مربعات این است که مجموع مربعات ا نحراف ها را مینیمم کنیم؛بنابراین اگر مجموعهای از داده های زوج شده مانند {xi,yi,i=1,2,…,n} داده شده باشد، برآ وردهای کم ترین مر بعات ضرایب رگرسیون، مقادیری مانندa,bهستند که به ا زای آنها کمیت


مینیمم است؛

در شکل مشخص شده است: e




ei



yi
axi+b



بنابر این در حالت ساده اگر یک نمونه n تایی داشته داشته باشیم مقادیر a,bرا از طریق روابط زیر برآورد می کنیم :

مزیت رگرسیون خطی این است که فهمیدن و کار با آن ساده است در حالت کلی برای استراتژی و پیش بینی مناسب است. با بکار بردن این روش از نتایج خروجی می توان دریافت که این روش مناسب بوده یا خیر . بنابر این معیارهایی داریم که با استفاده از آنها می توان دریافت که آیا می توان به نتایج خروجی اطمینان کرد یا خیر.
آنچه در انجام رگرسیون مهم به نظر می رسد،تعیین میزان همبسته بودن داده ها به یکدیگر است.با مشخص کردن میزان همبسته بودن داده های متغیرهای ورودی و خروجی می توان دریافت که رگرسیون خطی برای انجام داده کاوی مناسب است یا خیر، بنابراین ضریب همبستگی و برآوردهای آن در بسیاری از پژوهشهای آماری اهمیت دارند. شرایطی که وقتی چند متغیر پیشگوxi با یکدیگر هم پوشانی دارند،این هم پوشانی منجر نااستواری و تزلزل در فضای جواب می شود،همچنین منجر به نتایج بی ارتباطبی ربط می شود.حتی اگر از این تزلزل اجتناب شود هم پوشانی بین متغیرهایی که میزان بین متغیرهایی همبستگی آنها زیاد است ،منجر به تاکید کردن روی بخش خاصی از مدل می شود.[2]
بنابر این از بین متغیر های ورودی مواردی که با هم بستگی زیادی دارند،نباید با هم در تعیین ارزش متغیر خروجی بکار بره شوند.واز طرفی کاربردرگرسیون خطی منوط به همبستگی متغیر های ورودی و خروجی است.در تحلیل همبستگی نرمال مربوط به داده های زوج شده ،با استفاده از روابط ریاضی می توان به ،که بیانگر ضریب همبستگی نمونه ای ا ست رسید. رابطه چنین است :




که به ترتیب میانگین متغیر های ورودی و خروجی هستند. را معمولاَُبا rنمایش می دهند و رابطه ساده شده آن به این صورت است:


که: وشدت بستگی بین x,y را اندازه می گیرد

در صورتی که 0=r باشد،این دو متغیر x,y نسبت به هم نا همبسته اند ،و هر چه صفر فا صله می گیرد، بطرف 1+و 1- میزان همبسته بودن آنها زیادتر می شود،و 1+همبستگی خطی مثبت و 1- همبستگی خطی منفی را نشان می دهد.در حالت توزیع نرمال دو متغیر، صفر بوده r=0 r مستقل بودن این دو متغیر را از هم نشان می دهد. رابطه روبرو را در نظر بگیرید:

وقتی که باشد،نتیجه می شودکه و این بدان معنی است که همبستگی خطی کاملی بین xوy موجود است.برای تفسیر مقادیرr بین 0و1+ یا 0و-1 ، این معادله رانسبت به حل کرده نتیجه را در 100 ضرب می کنیم بنابراین داریم:

که در آ ن تغییر کلی yها و تغییر شرطی yها را به ازای مقادیر ثابت xاندازه می گیرند..بنابراین آن قسمت از کل yها که در اثر بستگی به xقابل توضیح است اندازه می گیرد .پس 100r2درصد تغییر کلی ا زyها ستکه در اثر بستگی به xقابل توضیح است.
مثلاُ وقتی r=%5 در این صورت 25% از تغییر yهاست که در اثر بستگی بهx قابل توضیح است.و وقتی r=%7 در این صورت 49 درصد از تغییر yها در اثر بستگی به x قابل توضیح است.بنابراین می توانیم بگوییم که یک همبستگی r=%7 تقریباُ دو برابر قوی تر یک همبستگیr=%5 است.[6]

همچنین تحلیل رگرسیونی نرمال برای حالت چند گانه رابطه مفید زیر را که بر اساس توزیع tبدست می دهد، ا رایه می کند:

که در این رابطه ضریب متغیر xi و مقدارعدد ثابت در معادله رگرسیون است.
nتعداد نمونه ها،k تعداد متغیر های ورودیxiهااست.
همچنین در نظر بگیرید که یک سری داده متشکل از k متغیر ورودی و یک متغیرخروجی که تعداد هر نمونه از متغیر n تا باشد،با ضرایب و i=0,1,…,kبصورت ماتریس به شکل زیر نمایش داده شود:







همچنین را ترانهاده و را نهاد? و B= در نظر بگیرید.بدین ترتیب و cii درایه ماتریس معکوس x یعنی است.باید درایه c22 در این ماتریس را حساب کنیم.
عبارتt دارای توزیع tبا n-k-1درجه آزادی است.که یک آمار? مناسب برای آزمون میزان تاثیری که ضریب هر یعنیدر معادله رگرسیونی دارد.[6]

2-Logistic Regression
این روش یکی از تکنیکهای یادگیری نظارتی و در حالتی که نتایج خروجی به صورت binaryهستند،مورد توجه قرار می گیرد.در کل زمانی نتایج خروجی به صورت binary هستند رگرسیون خطی خیلی کارا نیست،در این حالت استفاده از این تکنیک مناسب تر است.نکته دیگر اینکه این روش یک تکنیک رگرسیون غیر خطی است و لزومی ندارد که داده ها حالت خطی داشته باشند.ا گر بخواهیم دلیل استفاده Logistic regression را بیان کنیم باید اینگونه بحث کنیم در رگرسیون خطی علاوه بر اینکه نتایج خروجی باید به صورت عددی باشد،متغیر ها هم باید به صورت عددی باشد بنابراین حالتهایی که به صورت کتگوری قیاسی هستند باید به حالت عددی تغییر شکل پیدا کنند.مثلاُ جنسیت افراد از حالت زن و مرد بوده به ترتیب به حالتهای 0 و1تغییر پیدا می کند.در این روش اگر نتایج خروجیمتغیر خروجی بصورت binary باشد می تواند مفید باشد. چون اساس رگرسیون خطی در این حالت ایراد پیدا می کند و ارزش قیدی که بر روی متغیر وابسته قرار می گیرد توسط معادله رگرسیون در نظر گرفته نمی شود.
در وا قع چون رگرسیون خطی،معاد له یک خط را ترسیم می کند،نمی تواند حالت مثبت و منفی یا به عبارتی صفر و یک را در نظر بگیرد.
به همین دلیل برای اینکه بتوان حالتهای binary را هم در نظر گرفت،باید شکل معادله را تغییر داد.با این تغییر شکل معادله رگرسیون احتمال اتفاق افتادن یا اتفاق نیفتادن یک واقعه را بدست می دهد.
با تغییر شکل رگرسیون خطی به حالت Logistic regression این مشکل حل می شود.
معادله خطی را می توان بدین صورت نوشت:

که بیانگر احتمال اینکه متغیروا بسته y مقدار 1 را بگیرد به شرط اینکه ترکیبی ا ز xرا داشته باشیم.بصورت کلی تر و برای حذف محدودیت های مسأله ها حالت احتمالی y=1 را نسبت به y=0 در نظر می گیریم یعنی به صورت

ولگاریتم طبیعی این عبارت را برابر قرار می دهیم که x برداری بصورت است ،ودر نهایت از رابطهln بالا مقدا ر بدست می آید که برابر است با:

این معادله ،معادله Logistic regression را تشکیل می دهد.
اگر بخواهیم منحنی این معادله را نشان دهیم بصورت روبرو می باشد:


که بیانگرغیر خطی بودن این معادله است.در نهایت برای فهم بهتر مسأ له مثا لی ارائه می شود.
داده های زیر را وارد Excel کرده و ضرایب متغیر ها و مقدار ثابت bرا توسط تابع LINESTبدست می آ وریم داده ها و نتایج به این صورت می باشد؛
Computed probability Life insurance promotion age sex Credit card insurance income instance
0.007 0 45 1 0 40 1
0.987 1 40 0 0 30 2
0.024 0 42 1 0 40 3
1.000 1 43 1 1 30 4
0.999 1 38 0 0 50 5
0.049 0 55 0 0 20 6
1.000 1 35 1 1 30 7
0.584 0 27 1 0 20 8
0.005 0 43 1 0 30 9
0.981 1 41 0 0 30 10
0.985 1 43 0 0 40 11
0.380 1 29 1 0 20 12
0.999 1 39 0 1 50 13
این مثال 4 مشخصه ورودی و یک مشخصه خروجی دارد که ضرایب متغیرهای ورودی در زیر محاسبه شده است:
ax+b= 0.0001income+19.827credit card ins-8.314sex+0.415age+17.691



با این معادله می توان نتایج Life Insuranee promotion بدست آ ورد ، که همانطور که در جدول فوق نشان داده شده نتایج ماسبه شده با متغیر وا بسته هم خوا نی زیادی دارد.حال اگر نمونه جدیدی به این صورت داشته باشیم:
In cone=35k credit card Insuranee=1 sex=0 age=39
با محاسبات احتمال بدست آمده برابر 0.999می باشد.که این فرد یک کاندیدا را برای بیمه عمر Life Insuranee promotion می باشد حا لت دیگر اینکه نمونه جدید به صورت :
Ineome=35k credit card Insuran =0 sex=1 age=39
باشد در این حالت مقدار احتما لی بدست آمده برابر0.035است که نشان می دهد یک مرد 39 ساله که در آمد سالیانه او 35000است و بیمه کارت اعتباری ندارد یک نمونه ضعیف برای داشتن بیمه عمرا ست.
3- Bayse classsifire
این مقدار یکی از روشهای ساده یادگیری نظارتی است،که در آن فرض می شود که تمام متغیرها ی ورودی به یک اندازه مهم هستند و مستقل از هم می باشند و نیز ا گریکی از شرایط هم برقرار نباشد این روش در شرایطی کاربرد دارد این روش بر اساس تئوری بیز بنا شده است.که این تئوری به صورت زیر است:


که در این جا H متغیر وابسته است و E بوسیله مقدار ویژگی های ورودی تعیین می شود.
Bayse classifier برخلاف اکثر روشهای آماری برای حالتی که مقدار دادهُ یک متغیر ورودی نامعلوم است نیز کاربرد دارد.در ادا مه با ا رائه یک مثال می توان به توضیح این روش پرداخت.
دراینجا نیز ابتدا متغیر خروجی را تعیین می کنیم.فرض کنید که یک سری داده داریم، و با استفاده از آن داده ها می خواهیم برای یک نمونه جدید به شکل زیر،جنسیت فرد را تعیین کنیم:
Magazine promotnio=Yes watch promotion=Yes
Life Insurance Promotion=No credit card Insurance=No
Sex=?
اگر بخواهیم این نمونه را با فرمولBayse classifier بنویسیم داریم:

که برابر است با:


و همچنین باید جنسیت زن نیز محاسبه شود بعنی عبارت زیر
همانند روش فوق باید را محاسبه کرد.
با محاسبه این احتمال داریم:


و چون 281%<593%بنابر این احتمال اینکه جنسیت فرد در نمونه جدید مرد باشد بیشتر است. پس احتمال اینکه یک نمونه با این مشخصات مذکر باشددو برابر مونث بودن آن است.
مطلب دیکر اینکه زمانی که مقدار یک احتمال صفر باشد چون احتمال ها در هم ضرب می شوند کل احتمال صفر خواهد شد مثلاُ وقتی که باشد مقدار احتمالخواهد شد،Bayes classifier برای رفع این مشکل به یک مقدار k به صورت کسر ضرب در یک احتمالp و یک مقدار kبه مخرج اضافه می کند.بدین صورت :

می باشد که kمقداری بین صفر و یک دارد که معمولاُ مقدار یک می گیرد و نیزp بستگی به تعداد انتخابهای متغیر خروجی دارد مثلاُ اگر متغیر خروجی دو حالتی باشدyes,No،مقدارp برابر0.5
می باشد. نیز همان مقدار های یا است.مثلاُ اگر مقدار
باشد آنگاه برابر خواهد بود.
علاوه برا ین روش Bayse chassifire برای حالت Missing data نیز کاربرد دارد.یعنی اگر مقدار یکی از مشخصه های ورودی در یک نمونه جدید را نداشته باشیم،در این روش این مشخصه را کلاُ حذف می شود.
حالت دیگری که می توان این روش را بکار برد وجود مشخصه هایی با داده های عددی در بین مشخصه های ورودی است.مثال زیر که یک نمونه جدید است در نظر بگیرید:
Magazine promotion=Yes , wateh promotion=Yes
Life insurance promotion=No , credite card Insurance=No, Age=45
یعنی همان نمونه قبلی با این تغییر که سن نیز به مشخصه های ورودی اضافه شده.در اینجا با استفاده از این روش ابتدا باید باید توزیع مشخصه ورودی تعیین کنیم،که معمولاُ فرض می شود که مشخصه از توزیع نرمال پیروی می کند.مثلاُ مورد روبرو را می خواهیم حساب کنیم:

که برابر است با:

عبارت از مثال قبلی که age جز متغیرهای ورودی نبود، بدست آمده
در اینجا ابتدا بایدرا حساب کنیم که با بدست آوردن میانگین و واریانس داده های سن داریم:
با قرار دادن در فرمول توزیع نرمال داریم:

که این مقدار برابر با0.03 است و به همین ترتیب برای حالت نیز حساب می کنیم.
نتیجه لازم را از داده های خروجی می گیریم.با حساب کردن احتمال قائده بیز داریم:


که در اینجا نیز احتمال مرد بودن بیشتراست.



ابزار رگرسیون خطی : توضیح تابع LINEST
برای اجرای رگرسیون خطی می توان از نرم افزار Excelاستفاده کرد.در قسمت توابع Excle،تابع LINEST برای اجرای یک رگرسیون خطی ایجاد شده است.در اینجا به چگونگی کار با این تابع و استفاده از نتایج بدست آمده اجرای آن می پردازیم.
1- روش کار با نرم افزار: بعد از باز کردن Excel داده هایی را که می خواهیم بوسیلهُ آنها رگرسیون خطی را اجرا کنیم،وارد می کنیم و نیز محلی را که می خواهیم داده ها خروجی نشان داده شوندتعیین می کنیم سپس از منوی Insert، furctionرا انتخاب می کنیم.در قسمت select a cotegoryمقولهُ statistical را انتخاب می کنیم.با انجام این کار تابع های آماری در قسمت پایین همین پنجره نمایش داده می شود.از بین تابع ها تابع LINESTرا انتخاب می کنیم و OK می کنیم.
در پنجره LINEST چهار قسمت وجود دارد که باید پر شوند. در قسمت اول باید ستون متغیر وابسته y را مشخص می کنیم.مثلاُ اگر دادهای شما در ستونEاز ردیف 2تا12هستند،در این قسمت می نویسیم E2:E12، درقسمت دوم ستون متغیرهای مستقل ها را به همین ترتیب مشخص می کنیم.قسمت سوم مقدار عدد ثابت رگرسیون را به ما می دهد،اگر این مقدار True انتخاب کنیم ،مقدار عدد ثابت را بر میگرداندواگر False باشدمقدار عدد ثابت صفراست. درقسمت چهارمstate اگر عبارتTure تایپ می شوداطلاعاتی را در مورد نتایج رگرسیون بدست می دهد که مفید است،مثلاُ ضریب همبستگی،بین مقدار تخمینی و مقدار واقعی متغیر وابسته،مقدار آماره Fو...که با مثال بیشتر توضیح داده می شودواگر این مقدار False باشد Excelاین نتایج را ارائه نمی دهد.پس از آنکه هر چهار قسمت پر شد،با نگه داشتن ctrl+shiftو زدنinterیاokکردن نتایج اجرای رگرسیون دیده می شود.برای فهم بهتر این ابزار در زیر مثالی آورده می شود.
مثالی را در نظر بگیرید که 4 متغیر مستقل و یک متغیر وابسته داده ها مربوط به ساختمان اداری می باشد که با داده های ورودی که می گیریم،قصد داریم،ارزش یک ساختمان را به واحد پولی دلار تخمین بزنیم. متغیرهایتا و به شرح زیر می باشند:
توضیح متغیر
قیمت ساختمان Y
میزان فضای ساختمان X1
تعداد اتاقهای ساختمان X2
تعداد ورودی ها X3
میزان عمری که ساختمان داشته به سال X4

این داده ها بدین شکل در Excel نوشته می شود.




سپس ناحیه ای را که می خواهید داده ها خروجی در آنجا نوشته شود انتخاب کنید
سپس با آدرس زیر پنجرهُ تابع LINEST را باز کنید.

با انتخاب LINEST از مقوله statistical،OK کنید،


تا پنجره LINEST باز شوددرقسمتs known-yعبارت E2:E12 و در قسمتkown-x s عبارت
A2:D12 را تایپ کنید،سپس در قسمت const وstats عبارت True را تایپ کنید.




با نگه داشتن ctrl+shift و زدن ok نتایج در جایی که قبلا" انتخاب کردید، نوشته می شود.

231.8145 2709.2 12618.39 25.5609 56587.02
13.72808 549.07 413.9391 5.617636 12661.69
0.996544 1004.233 #N/A #N/A #N/A
432.4997 6 #N/A #N/A #N/A
1.74E+09 6050904 #N/A #N/A #N/A

2- تو ضیح نتایج خروجی:
ردیف اول ضرایب متغیر های مستقل و عدد ثابت bرا نشان می دهد.در واقع همانها وb در معادله

هستند که بصورت بر عکس از راست به چپ نوشته شده اند.یعنی از سمت راست ترین عدد مقدارb وعدد بعدی ضریبx1 کهspace floorمی باشد نشان داده شده و آخرین عدد سمت چپ ضریبx4 یعنی Age می باشد.
ردیف دوم نتایج خروجی خطای استاندارد هر ضریب و عدد ثابت bرا نشان می دهد.که میزان انحراف نتایج هر ضریب از مقدار میانگین آن نشان می دهد و مثلا"عدد 13.72808 میزان انحراف ضریب x4 را از مقدار میانگین آن نشان می دهد.
داده اول ردیف سوم میزان ضریب همبستگی بین مقدار تخمینی متغیر وابسته و مقدار واقعی این متغیر را نشان می دهد که بین -1و1 می باشد و هر چه این ضریب به1,-1 نزدیکتر باشد نشان می دهد که معادله رگرسیون پیشگویی خوبی برای مقدارهای واقعی متغیر وابسته است و هر چه به صفر نزدیک تر باشد نشان می دهد که روش رگرسیون خطی نامعتبر است که یک معیار برای فهمیدن اینکه رگرسیون خطی مناسب است یا خیر می باشد.دادهُ دوم در همین سطر خطای استاندارد متغیر وابسته را از میانگین آن نمایش می دهد.
دادهُ اول سطر چهارم یکی از داده های خروجی مفید است و معیاری خوبیست برای پی بردن به اینکه آیا رگرسیون خطی مناسب است یا خیر. این مقدار آماره F را بدست می دهد.این آماره بعنوان توزیع نمونه گیری دومتغیرتصادفی مستقل که بر درجه آزادیشان تقسیم شده اند،مورد مطالعه قرار می گیرد.برای تفسیر Fباید به دو درجه آزادی دسترسی داشته باشیم،این مقادیر اغلب جدول توزیعF را به دو مقدار V1 وV2 تفکیک می کند.مقدارV1 تعداد متغیر های مستقل می باشد که در اینجا برابر4 میباشد وv2 حاصل تفریق تعداد کل دادهها از کل متغیرهانیز5تا می باشد4تا مستقل و یک وابسته پس v2 برابر است با 6 =5-11 در اینجا از سطح 5% نیز برای آزمون آماره Fاستفاده می شود.با این توضیح می توان مقدار6و4و5% F را ازجدول توزیع F که در کتابهای آمارموجود می باشد بدست آورد.خلاصه مطلب اینکه اگر مقدار اول داده اول سطر چهارم از مقدار F0/05,V1,V2که از جدول بدست می آید بزرگتر باشد،معادله رگرسیون به دقت توانسته ارزش متغیر وابسته را تعیین کند یا به عبارتی رابطه مشاهده شده بین متغیر های مستقل ومتغیر وابسته اتفاقی نیست واگر این مقدارکوچکترباشداین روش، روش معتبری برای داده ها نیست،یا به صورت آماری می گوییم فرض صفر را مبنی بر اتفاقی بودن رابطهُ متغیر های مستقل و متغیر وابسته را نمی توان رد کرد.
داده دوم در همین سطر درجه آزادی V2 را نشان می دهد.در سطر آخر نیز نشان دهندهُ مجموع مربعات رگرسیون و مجموع مربعات باقیمانده است که از لحاظ آماری فرمول آن بدین شکل است:
مقدار هر داده می باشد.


نویسندگان

امکانات

اللّهُمَّ كُنْ لِوَلِیِّكَ الْحُجَّةِ بْنِ الْحَسَنِ صَلَواتُكَ عَلَیْهِ وَعَلى آبائِهِ فی هذِهِ السّاعَةِ وَفی كُلِّ ساعَةٍ وَلِیّاً وَحافِظاً وَقائِدا ‏وَناصِراً وَدَلیلاً وَعَیْناً حَتّى تُسْكِنَهُ أَرْضَك َطَوْعاً وَتُمَتِّعَهُ فیها طَویلاً

خدمات وبلاگ نویسان جوان

كد عكس تصادفی