10 متغیر توضیحی طبقه بندی ، متغیرهای ساختگی و تعامل

  • 2021-03-20

این آزمایشگاه بر روشهایی که از متغیرهای مستقل طبقه بندی شده استفاده می کنیم و درک می کنیم ، تمرکز دارد. تاکنون متغیرهای مستقل که با آنها کار کرده ایم ، فاصله یا داده های منظم بوده اند. هنگام کار با داده های طبقه بندی ، رویکردها و تکنیک های مختلف تفسیر وجود دارد. بسته های زیر برای این آزمایشگاه مورد نیاز است:

  1. مرتب
  2. روان
  3. ستاره دار
  4. توجیه
  5. ماشین
  6. تغییر شکل 2
  7. جارو

10. 1 متغیرهای ساختگی

ما اغلب در علوم اجتماعی موقعیت هایی داریم که برای ایجاد متغیرهای کیفی نیاز به ساخت مدل دارند. برای تسهیل این امر ، ما از متغیرهای ساختگی دوگانگی استفاده می کنیم تا عملکرد مدل را از طریق 0 و 1 انجام دهیم. در هنگام استفاده از متغیرهای ساختگی دوگانگی برای داده های پذیرایی ، پیش بینی دسته علاقه یک مقدار 1 را دریافت می کند و در غیاب آن مقدار 0 است.

برای نشان دادن متغیرهای ساختگی در مدل ها ، به مجموعه داده های کلاس نگاه خواهیم کرد. متغیر جنسیتی به عنوان 0 برای زنان و 1 برای مردان کدگذاری می شود. این امر آن را به یک متغیر ساختگی برای مردان تبدیل می کند ، با زنان به عنوان گروه مرجع. اگر می خواستیم مدلی بسازیم که بررسی کند که چگونه اطمینان از تغییرات آب و هوا از طریق ایدئولوژی ، آموزش ، درآمد ، سن و جنس متفاوت است ، مدل ما به این شکل خواهد بود:

\ [y_i = \ alpha + \ beta_ + \ beta_ + \ beta_ + \ beta_ + \ beta_ + \ epsilon_i \] که در آن b_gend یک شاخص باینری از جنس است ، 0 برای زن و 1 برای مردان. این بدان معنی است که وقتی جنسیت زن است ، جنسیت برابر با 0 است.

داده ها را بکشید ، متغیرهای گمشده را حذف کنید و به متغیر جنسیتی که می خواهیم استفاده کنیم نگاه کنید:

توجه: متغیر جنسیتی Factored مردان را به عنوان 0 و زنان به عنوان 1 لیست می کند. اگر به یک جدول از نسخه غیر عاملی نگاه می کنید ، برعکس آن را نشان می دهد. این امر به این دلیل است که R متغیرهای فاکتور شده را به ترتیب الفبایی می خواند. اگر می خواستیم ترتیب متغیر فاکتور را تغییر دهیم:

هنگام کار با یک متغیر توضیحی دسته ای باینری (مانند متغیر جنسیتی) ، می توانید از نسخه عددی متغیر استفاده کنید. با این حال ، هنگام کار با متغیرهای طبقه بندی شده با بیش از دو دسته ، استفاده از نسخه فاکتور شده متغیر اغلب ساده تر است ، به دلایلی که به زودی بحث خواهیم کرد. ما در مدل خود از متغیر جنسیتی فاکتور استفاده خواهیم کرد:

با تکیه بر درک ما از آزمایشگاههای قبلی ، می دانیم که ایدئولوژی و آموزش بر اطمینان کسی از تغییرات آب و هوا تأثیر دارد. با این حال ، اکنون می خواهیم به نقش جنسیت بازی کنیم. ما از نسخه فاکتور جنسیت در مدل استفاده کردیم ، بنابراین باید نتایج را به همین ترتیب تفسیر کنیم. در جدول خلاصه آمده است: "F. Gendermen" ، به این معنی که این متغیر یک متغیر ساختگی برای مردان است و گروه مرجع زن است. ضریب تفسیر می شود: تفاوت در متغیر وابسته از دسته مرجع به دسته ساختگی. در این حالت ، ضریب از نظر آماری معنی دار است. برای تفسیر آن ، ما می گوییم که مردان به طور متوسط 408 واحد هستند که بیشتر از تغییرات آب و هوا اطمینان بیشتری دارند ، در مقیاس 0 تا 10 ، همه موارد دیگر ثابت هستند. بقیه ضرایب همانطور که در گذشته بوده اند تفسیر می شوند. اما اکنون به احتمال زیاد شما یک مدل دقیق تر دارید ، زیرا شما برای جنسیت "کنترل" می کنید.

تجسم مدل باید این مسئله واضح تر باشد. اگر می خواهیم رابطه بین ایدئولوژی و خطر تغییر آب و هوا را در مدل خود از طریق جنسیت تجسم کنیم ، ما به روشی مشابه با تجسم های قبلی می پردازیم:

  1. مقادیر متناسب و خطاهای استاندارد را برای هر سطح ایدئولوژی و جنس از طریق عملکرد تقویت () ایجاد کنید.
  2. برای پیوستن به فریم های داده برای زنان و مردان با هم از عملکرد Full_Join () استفاده کنید.
  3. مرزهای بالا و پایین فاصله اطمینان را با استفاده از mutate () محاسبه کنید.
  4. تجسم کنید

اکنون فواصل اطمینان را اضافه کنید:

حالا تجسم کن!برای جدا کردن زن و مرد، می توانید از group=DummyVariable برای جدا کردن این دو گروه استفاده کنید. متأسفانه، این روشی برای تمایز بین آنها نیست. همچنین می‌توانید از color=DummyVariable برای جدا کردن گروه‌ها، اختصاص رنگ‌ها و گنجاندن یک افسانه استفاده کنید.

شما می توانید تأثیر متغیرهای ساختگی را به عنوان تغییر در مقدار رهگیری در نظر بگیرید. در این مورد، متغیر ساختگی ما برای مردان حدود 0. 41 است، و متوجه خواهید شد که خط برای مردان تقریباً بالاتر از خط زنان است.

10. 1. 1 متغیرهای ساختگی چندگانه

گاهی اوقات چندین متغیر ساختگی در مدل ها ضروری است. این مورد زمانی است که شما نیاز دارید که متغیرهای طبقه‌بندی با بیش از دو گزینه، مانند ایدئولوژی (به عنوان مثال، جمهوری‌خواه، دموکرات، مستقل، دیگر) را وارد کنید. هنگام کار با این متغیرهای طبقه بندی شده، باید یک گروه مرجع انتخاب کنید. گاهی اوقات این تصمیم بر اساس تئوری و یا به راحتی هدایت می شود. اگر چیزی ارائه نشده باشد، R به طور خودکار یک گروه مرجع را انتخاب می کند. هنگام استفاده از متغیرهای طبقه‌بندی با گزینه‌های متعدد، مدل از چندین متغیر ساختگی برای هر یک از گروه‌ها (منهای گروه مرجع) تشکیل می‌شود. شما همیشه یک متغیر ساختگی کمتر از تعداد گزینه ها خواهید داشت. به عنوان مثال، برای جمهوری خواه، دموکرات، مستقل، و سایر به عنوان گزینه ها، با جمهوری خواه به عنوان گروه مرجع، شما 3 متغیر ساختگی خواهید داشت.

بیایید به مثالی با استفاده از حزب سیاسی به عنوان یک متغیر ساختگی نگاه کنیم. با نگاه کردن به جدولی از متغیر حزب عامل شروع کنید:

توجه: دموکرات ابتدا فهرست شده است، بنابراین مقوله مرجع است. بنابراین، در یک مدل، ضرایب و متغیرهای ساختگی برای هر یک از احزاب سیاسی بدون دموکرات وجود خواهد داشت. به عبارت دیگر، R ایدئولوژی را به عنوان یک متغیر فاکتورگیری می‌خواند و با هر گزینه حزبی به عنوان یک متغیر ساختگی مستقل با دموکرات‌ها به عنوان مقوله مرجع رفتار می‌کند. بیایید یک مدل بر اساس مدلی که قبلا استفاده کردیم ایجاد کنیم، اما متغیر حزب فاکتور را به عنوان یک متغیر مستقل بگنجانیم. به دلیل مسائل بالقوه چند خطی، متغیر ایدئولوژی را از مدل حذف می کنیم. برای ساده‌تر کردن محاسبات، می‌خواهیم از نسخه بدون فاکتور جنسیت استفاده کنیم. از آنجایی که یک گروه باینری است، هیچ یک از ضرایب را تغییر نخواهد داد:

می‌توانیم ببینیم که مدل ما نشان می‌دهد که مستقل‌ها و جمهوری‌خواهان به‌طور متوسط در مورد تغییرات آب و هوا مطمئن نیستند. ضریب برای دیگری قابل توجه نیست، که منطقی است با توجه به اینکه Other می تواند نشان دهنده انبوه احزاب سیاسی باشد که طیف ایدئولوژیکی را در بر می گیرند.

حال این مدل را تجسم می کنیم. متغیرهای ساختگی شبیه به انجام آزمون های t هستند، اما با کنترل های آماری. ابتدا مقادیری را بر اساس وابستگی حزبی با استفاده از تابع augment() برای R پیش‌بینی می‌کنیم تا مقادیر قطعیت تغییرات آب و هوایی پیش‌بینی‌شده را بر اساس حزب سیاسی، همراه با خطاهای استاندارد مرتبط، ثابت نگه‌داشتن متغیر یکدیگر، برگردانیم. شی جدید ایجاد شده را به یک قاب داده اختصاص دهید و قاب داده را چاپ کنید:

همچنین فواصل اطمینان را با استفاده از تابع mutate() محاسبه خواهیم کرد. به یاد داشته باشید، نمره t 1. 96 با فاصله اطمینان 95٪ همراه است:

با ایجاد چارچوب داده، سپس تصویرسازی را بسازید. محور x ما حزب است و محور y قطعیت تغییرات آب و هوا است. ما از geom_point() و geom_errorbar() برای ایجاد تخمین نقطه و فواصل اطمینان استفاده خواهیم کرد:

شاید متوجه شده باشید که مدل ما نشان می دهد که جنسیت نیز در این مورد نقش دارد. سپس با ایجاد پیش‌بینی‌های مختلف برای هر جنسیت در هر حزب، رابطه را بر اساس حزب و جنسیت به طور همزمان تجزیه می‌کنیم. ما یک مدل جدید شامل متغیر جنسیت عامل ایجاد می کنیم:

تفاوت بین مدل ها این است که از متغیر جنسیت فاکتور گرفته شده استفاده می شود که هیچ یک از نتایج را تغییر نمی دهد. اکنون ما یک فرآیند مشابه را در ساخت گرافیک دنبال می کنیم، با این تفاوت که مقادیر متفاوتی را برای مردان و زنان پیش بینی می کنیم و قبل از ترکیب آنها، فریم های داده را جداگانه می سازیم. از augment() دو بار استفاده کنید، یک بار برای مردان و یک بار برای زنان، سپس از full_join() برای ترکیب آنها در یک فریم داده استفاده کنید. از آنجا می توانیم فواصل اطمینان را درست مانند همیشه محاسبه کنیم:

حالا فواصل اطمینان:

تجسم را بسازید. ایجاد یک طرح نوار گروه بندی شده به ما امکان می دهد تا هر یک از طرفین را بر اساس جنسیت تقسیم بندی کنیم. برای ایجاد یک نمودار نوار گروه بندی شده، موقعیت = position_dodge() را در توابع geom_bar() و geom_errorbar() قرار دهید.

به نظر می رسد که ممکن است در قطعیت تغییر آب و هوا بین احزاب سیاسی بر اساس جنسیت تفاوت وجود داشته باشد. اگر بخواهیم بررسی کنیم که چگونه باورهای سیاسی به عنوان تابعی از جنسیت متفاوت است و با نظرات در مورد قطعیت تغییرات آب و هوا مرتبط است، باید شرایط تعامل را بررسی کنیم.

10. 2 تعاملات

فعل و انفعالات زمانی رخ می دهند که اثر یک x به مقدار دیگری در یک مدل وابسته باشد. قبلاً، مقدار در هر نقطه از x در تمام سطوح دیگری در پیش‌بینی y یکسان بود. برای نشان دادن اثر متقابل، تعامل جنسیت و ایدئولوژی را بر قطعیت تغییرات آب و هوا بررسی خواهیم کرد. ما پیش‌بینی‌کننده‌های دیگر را نیز اضافه می‌کنیم و این مدل را مشخص می‌کنیم:

\[y_i=\beta_0 + \beta_1*(ایده) + \beta_2*(جنس) + \beta_3*(ایده*جنس) + \beta_4*(educ) + \beta_5*(inc) + \beta_6*(سن)+ \varepsilon_i\]

که در آن جنسیت یک شاخص دوتایی مردان (1) یا زنان (0) است. برای مشخص کردن این مدل در R:

توجه: فرمول شامل ایدئولوژی و تعامل جنسیتی است اما متغیرها را به صورت جداگانه مشخص نمی کند. R تعامل را تفسیر می کند و شامل اصطلاحات متغیر جداگانه برای شما می شود. برای تفسیر نتایج، توجه داشته باشید که ضریب تعامل ایدئول: جنسیت از نظر آماری معنادار نیست.

بیایید مدل جدیدی را بررسی کنیم که به جای قطعیت، به خطر تغییرات آب و هوایی نگاه می کند. متغیرهای مستقل و تعامل ثابت باقی می مانند:

همانطور که انتظار می رود، ایدئولوژی، تحصیلات و درآمد نیز از نظر آماری تأثیر معنی داری دارند. علاوه بر این، تعامل ایدئولوژی و جنسیت نیز از نظر آماری معنادار است. برای تفسیر این نتایج، می گوییم که یک تعامل وجود دارد (ایدئولوژی بر خطر تغییر اقلیم درک شده به عنوان تابعی از جنسیت تأثیر می گذارد). همچنین می دانیم که شیب خطوط منفی است. اغلب اوقات شهودی ترین راه برای درک تعاملات، پیش بینی و تجسم آنها است.

تجسم یک اثر تعاملی زمانی که عبارت تعامل باینری است بسیار ساده است. دو خط ممکن وجود دارد، زمانی که z=0 و زمانی که z=1، در این مورد زمانی که جنسیت زن یا مذکر است. این باعث می شود که فرآیند تجسم شبیه به تصویر اول باشد، با متغیر ساختگی:

حال تجسم:

توجه کنید که چگونه شیب ها برای مردان و زنان متفاوت است. شیب برای مردان تندتر است، که نشان می دهد تعامل بیشتری برای مردان وجود دارد.

تفاوت بین اولین مقدار پیش بینی شده و آخرین مقدار "اولین تفاوت" نامیده می شود. اولین تفاوت های مردان و زنان را پیدا کنید:

می توانیم بگوییم که تفاوت اول برای مردان بزرگتر است. آنها مقدار اول بالاتری دارند و آخرین مقدار کمتری دارند.

10. 2. 1 تعامل با دو متغیر غیر باینری

نظریه و فرضیه ها اغلب نیاز به تعامل بین دو متغیر را نشان می دهد که هیچکدام باینری نیستند. این باعث می شود تفسیر ضرایب تعامل دشوار باشد ، اما با این وجود روند هنوز یکسان است. فرض کنید می خواهید نگرش مردم را در مورد نقش دولت فدرال در مدیریت تغییرات آب و هوا کشف کنید. ما می توانیم نظریه بگیریم که دو پیش بینی کننده اصلی این نگرش ها ایدئولوژی و خطر تغییر آب و هوا هستند. محافظه کاران تمایل به مخالفت با مداخله دولت فدرال دارند و شخصی که بیشتر نگران تغییرات آب و هوا است ، باید از نگرش در مورد نقش دولت فدرال حمایت کند و خطر درک شده از تغییرات آب و هوا در بین لیبرال ها و محافظه کاران متفاوت خواهد بود. ما می توانیم بیشتر تئوریزه کنیم که رابطه بین مدیریت تغییرات آب و هوایی فدرال و ریسک تغییرات آب و هوایی بدون در نظر گرفتن گروه مثبت خواهد بود ، در حالی که افراد خطر بیشتری را از تغییرات آب و هوا حمایت می کنند و از مدیریت بیشتر دولت حمایت می کنند ، اما این رابطه برای محافظه کاران ضعیف تر خواهد بود. ما فرضیه زیر را مشخص خواهیم کرد:

رابطه بین ریسک تغییرات آب و هوایی درک شده و پشتیبانی از مدیریت دولت فدرال در مورد تغییرات آب و هوایی مثبت ، اما مشروط به ایدئولوژی خواهد بود. این رابطه بیشتر برای لیبرال ها و کمتر برای محافظه کاران برجسته تر خواهد شد.

ابتدا به متغیر مدیریت تغییر آب و هوا فدرال نگاهی بیندازید:

ما می بینیم که این یک متغیر معمولی است که از 0 (درگیر نیست) تا 10 (بسیار درگیر).

اکنون باید مدل را از جمله کنترل های مناسب مشخص کنیم:

از همان ابتدا می بینیم که ایدئولوژی و تغییرات آب و هوا هر دو نقش مهمی دارند. این ضرایب از نظر آماری معنی دار و مهم هستند. تغییر یک واحد در هر یک از متغیرها با تغییر بیش از نیم نقطه در نظرات در مورد مدیریت تغییرات آب و هوایی فدرال مطابقت دارد. آموزش و درآمد نیز نقش هایی را ایفا می کند و توجه می کند که تعامل قابل توجه است. تفسیر شهودی زیادی وجود ندارد که بتوانیم به تنهایی از ضریب جمع شویم. با این حال ، ما می بینیم که بسیار کوچک است ، 026 ، و احتمالاً دامنه ها را تغییر نمی دهد. بهترین راه برای درک تعامل دو متغیر غیر باینری ، پیش بینی و تجسم است. ما با پیش بینی شروع می کنیم.

ثبت دیدگاه

مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰
قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.