(1) زمینه: از زمان بحران های فعلی که به طور اجتناب ناپذیری بر بازار مالی تأثیر گذاشته است، پیش بینی بازار بیش از هر زمان دیگری حیاتی شده است. این سوال که چگونه مدیران ریسک می توانند با در نظر گرفتن ریسک های سیستمیک ناشی از یک بحران سیستمی، با دقت بیشتری تکامل پرتفوی خود را پیش بینی کنند، با نرخ پایین موفقیت مدل های مدیریت ریسک پرتفوی مطرح می شود. تجزیه و تحلیل احساسات در جملات زبان طبیعی می تواند دقت پیش بینی بازار را افزایش دهد زیرا بازارهای مالی تحت تأثیر احساسات سرمایه گذار هستند. بسیاری از سرمایه گذاران نیز تصمیمات خود را بر اساس اطلاعات گرفته شده از روزنامه ها یا بر اساس غرایز خود قرار می دهند.(2) روشها: در این مقاله، هدف ما این است که نشان دهیم چگونه تجزیه و تحلیل احساسات میتواند دقت مدلهای رگرسیونی را هنگام پیشبینی تکامل قیمتهای باز شدن برخی از سهام منتخب بهبود بخشد. هدف ما این است که با مقایسه نتایج و دقت دو مورد پیشبینی بازار با استفاده از مدلهای رگرسیون با و بدون تحلیل احساسات اخبار بازار، این کار را انجام دهیم.(3) نتایج: نشان داده شده است که مدل خودرگرسیون غیرخطی وقتی از تحلیل احساسات به عنوان یک عامل برون زا استفاده می شود، برازش خوبی را بهبود می بخشد. علاوه بر این، نتایج نشان میدهد که خودرگرسیونهای چند جملهای برازش بهتری نسبت به خودرگرسیونهای خطی دارند.(4) نتیجهگیری: با استفاده از امتیاز احساسات برای مدلسازی بازار، پیشرفتهای قابلتوجهی در عملکرد خودرگرسیونهای خطی به نمایش گذاشته میشود.
1. مقدمه
مدیران ریسک می توانند با استفاده از کلان داده های مالی، مجموعه بزرگی از دارایی ها، بزرگتر از اندازه پرتفوی خود را در نظر بگیرند. به ویژه، هنگامی که نوبت به گرفتن ریسک سیستماتیک در بازارها می رسد، این سودمندی می تواند منجر به دقت بالاتر پیش بینی ریسک شود. بنابراین، به منظور حفظ ثبات بازارهای مالی و در نتیجه کاهش احتمال تحقق یک ریسک سیستمیک، تنظیم کننده های مالی می توانند از دقت بالایی در پیش بینی ریسک برای فعالان بازار بهره مند شوند.
دادههای مالی شرکتهای دولتی معمولاً بر مبنای نسبتاً نادری منتشر میشوند که باعث تاخیر زمانی واضح میشود. در همین حال، داده های مالی تمایل بیشتری به نمایش در اخبار مالی دارند.
رویکردهای وزن دهی پرتفوی و انتخاب سهام به دلیل افزایش محبوبیت معاملات با فرکانس بالا به طور قابل توجهی غیر حساس هستند. در واقع، اطلاعاتی که سرمایهگذاران میتوانند به صورت بلادرنگ مشاهده کنند، دادههای معاملات سهام از جمله باز شدن، بالاترین، پایینترین و پایانی قیمت سهام و همچنین شاخصهای فنی مختلف و غیره است. علاوه بر این، سرمایهگذاران اکنون میتوانند از احساسات تصمیمگیری خود بر اساس دادههای متنی موجود در اخبار مالی در وب استفاده کنند، که به لطف در دسترس بودن رو به رشد دادههای مبتنی بر وب، میتواند در تجزیه و تحلیل ارزش سهام-سرمایهگذاری گنجانده شود.
از آنجایی که قیمت دارایی ها ویژگی های بسیاری را در ارزش خود گنجانده است، رویکردهای کلاسیک و مدرن را می توان به دو نوع طبقه بندی کرد، بسته به داده هایی که برای پیش بینی قیمت دارایی ها مدل شده اند. بنابراین، رویکرد بنیادی ممکن است شامل دادههایی مانند پارامترهای اطلاعات سهام و «پارامترهای ترازنامه و صورت سود و زیان» [1] باشد. در همین حال، در [2]، این دو بر اساس تجزیه و تحلیل شرکت، تجزیه و تحلیل صنعت [2]، شاخص های کلان اقتصادی [2]، شرایط سیاسی [3] و شرایط جغرافیایی و هواشناسی [3] گروه بندی می شوند. در همین حال، تحلیل تکنیکال به تجزیه و تحلیل قیمت ها [3]، احساسات، داده های خام، حجم، چرخه، نوسانات، جریان وجوه [2] یا سایر شاخص های فنی [1] اشاره دارد.
در حالی که بیشتر دادههای فنی و بنیادی به روشی ساختاریافته در رویکردهای کلاسیک ارائه میشوند، رویکردهای مدرن ممکن است بر روی منابع داده بدون ساختار، که عمدتاً از طریق اخبار مالی مبتنی بر وب، رسانههای اجتماعی، وبلاگها، انجمنهای مبتنی بر وب و غیره به دست میآیند، عمل کنند.[4]. با افزایش تعداد وب سایت ها و کاربران اینترنتی، مکان یابی و سازماندهی اطلاعات مرتبط می تواند چالش برانگیز باشد. خراش دادن وب فرآیند استخراج اطلاعات از یک وب سایت با "خراش دادن" آن است. از نظر تئوری، خراش دادن سایر منابع داده، مانند اسناد اسناد، امکان پذیر است. با این وجود، اکثریت قریب به اتفاق خراش دادن اغلب در صفحات وب انجام می شود.
همانطور که در اقتصاد رفتاری، قیمت ها صرفا یک ارزش درک شده است [5]. جستجو برای تأثیر نظرات جامعه بر قیمت دارایی منطقی است. این تکنیک را عقیده کاوی می نامند و شامل شناسایی احساسات (مثبت یا منفی) از طریق کلمات است.
بسیاری از دانشگاهیان اکنون از احساسات سرمایه گذار برای پیش بینی حرکت قیمت سهام و بهینه سازی پرتفوی استفاده می کنند [6،7،8]. مطالعات مربوطه در مورد استفاده از پیام های آنلاین برای پیش بینی حرکات بازار سهام توسط [9] در مقاله خود گردآوری شده است. یافتههای تجربی آنها نشان میدهد که پیامرسانی شبکه پتانسیل خاصی برای کاربرد در پیشبینی مالی دارد.
به منظور بررسی ارزش سرمایه گذاری سهام، بسیاری از دانشگاهیان نیز شروع به ادغام داده ها از منابع دیگر کرده اند. تعدادی از آزمایشهای پیشبینی قیمت سهام با استفاده از منابع دادههای متعدد، از جمله آزمایشهای [10،11،12،13] و غیره انجام شده است. تا آنجا که ما اطلاع داریم، برخی از دانشگاهیان نیز استفاده از داده های بزرگ را برای مطالعه انتخاب سهام و بهینه سازی پرتفوی پیشنهاد کرده اند، اما قابل اجرا بودن این پیشنهاد ثابت نشده است (یعنی [7]). بنابراین، هدف ما نشان دادن چگونگی استفاده از تکنیکهای علم داده برای شناسایی سهام مناسب برای سرمایهگذاری در بازار اوراق بهادار با داراییهای زیاد است.
ادبیات اخیر بسیاری از تکنیکهای پیشبینی بازار سهام را پیشنهاد میکند که برای تحلیل تکنیکی و بنیادی مفید است. الگوریتمهای یادگیری ماشینی شامل تکنیکهای طبقهبندی (ماشینهای بردار پشتیبان، k-نزدیکترین همسایه، رگرسیون لجستیک، بیز ساده، طبقهبندی درخت تصمیم و طبقهبندی جنگل تصادفی)، تکنیکهای رگرسیون (رگرسیون چند جملهای، رگرسیون خطی ساده، رگرسیون درخت تصمیم، رگرسیون جنگل تصادفی و پشتیبانی است. رگرسیون برداری)، الگوریتم های منطق فازی، شبکه های عصبی عمیق، الگوریتم های ژنتیک و شبکه های عصبی مصنوعی [14،15،16،17،18]. در [15]، دو تکنیک تشخیص الگو، یعنی تطبیق الگو و نقاط مهم ادراکی (PIP) یافت شد.
مراحل بیشتری در فرآیند پیشبینی بازار یادگیری ماشینی پیشنهاد شد که میتوان آنها را در سه مرحله خلاصه کرد، همانطور که شکل 1 نشان میدهد:
در [3]، تکنیک های انتخاب ویژگی به شرح زیر طبقه بندی شدند: کیسه کلمات. n-گرم به عنوان دنباله های پیوسته از کلمات. الگوریتم ژنتیک؛و بهینه سازی کلنیدر همین حال، تکنیکهای نمایش ویژگی ممکن است شامل افزایش اطلاعات (IG)، آمار مجذور کای (CHI)، بسامد سند (DF)، دقت متعادل (ACC2)، فرکانس مدت معکوس فرکانس سند (TF–IDF)، باینری/بولی (0) باشد./1) یا ارزش احساسات.
تجزیه و تحلیل نظرات انسانی بیان شده در متن به عنوان تجزیه و تحلیل احساسات شناخته می شود و یکی از وظایف پردازش زبان طبیعی (NLP) است [19]. به دست آوردن دسته بندی ها با توجه به قطبیت (بیان مثبت/منفی/خنثی) ، طبقه بندی موضوع (تعیین ذهنیت یا عینیت یک عبارت) و تشخیص طنز (تعیین اینکه آیا یک عبارت طعنه آمیز است) اهداف اصلی تجزیه و تحلیل احساسات است ، بر اساس سطوح مختلفاز دانه بندی ، مانند اسناد ، جملات یا جنبه ها. با تشکر از توسعه شبکه های اجتماعی و استفاده از آنها در صنایع مختلف ، مانند کالاهای مصرفی و مراقبت های بهداشتی ، تجزیه و تحلیل احساسات مالی طیف گسترده ای از کاربردهای ممکن را دارد.
تجزیه و تحلیل احساسات معمولاً ممکن است شامل برخی از تکنیک های نمایندگی ویژگی به همراه تکنیک های یادگیری ماشین باشد (به عنوان مثال ، مدل کیف های کلمه به علاوه ماشین های بردار پشتیبانی [20]) ، اما برخی از مدل ها به طور گسترده ای مورد استفاده قرار گرفته اند ، یعنی قبل از ردیابی ترانسفورماتورهای دو طرفه عمیق (برت) و فرهنگ لغت آگاهانه برای استدلال احساسات (Vader) [21،22،23].
بخش بعدی شامل رویکرد روش شناختی مورد استفاده در زمینه تجزیه و تحلیل احساسات در پیش بینی های بازار است ، در حالی که طرح تحقیق در شکل 2 ارائه شده است. برای رسیدنرگرسیون مکعب. در بخش سوم ، نتایج ارائه می شود ، با نمودارهایی که نمره احساسات را برای هر یک از سهام مورد بررسی قرار می دهد ، شروع می شود. علاوه بر این ، یک طرح پراکنده که رابطه بین نمره احساسات و قیمت باز شدن سهام را در بخش 3. 1 ارائه می دهد. در بخش 3. 2 ، مدل های رگرسیون ارائه و مورد بحث قرار می گیرند ، در حالی که اهمیت ادغام نمره احساسات در این رگرسیون ها برجسته می شود. در بخش 4 ، بحث در مورد نتایج و مقایسه با مطالعات مشابه معرفی شده است ، در حالی که بخش آخر بر نتیجه گیری اصلی متمرکز است.
2. مواد و روشها
به منظور انجام تجزیه و تحلیل خود ، ما از پلت فرم FinViz برای به دست آوردن اخبار مالی در سهام مختلف فعال استفاده کردیم. ما همچنین از پایتون استفاده کردیم که دومین زبان برنامه نویسی محبوب در سال 2020 بود ، در پشت C [24]. این زبان برنامه نویسی که در سال 1991 معرفی شد ، در طی سالها بازپرداختهای بعدی را دریافت کرد و مهمترین نسخه در سال 2008 با انتشار پایتون 3. 0 رخ داد. پایتون یک کتابخانه استاندارد گسترده با ابزارهای مفید مختلف ، مانند BeautifulSoup ، بسته ای را ارائه می دهد که می تواند برای خراش دادن و تجزیه داده های وب سایت استفاده شود [25].
پس از انتخاب منبع داده ، ما یک اسکریپت پایتون را اجرا کردیم که از گروه زیبا برای تهیه عناوین مقاله از Finviz استفاده می کند ، که بستر تحقیق در مورد بورس سهام است که از طریق یک مرورگر وب در دسترس است [26]. پس از آن ، ما از Vader برای اجرای تجزیه و تحلیل احساسات استفاده کردیم و از پاندا (کتابخانه تجزیه و تحلیل داده های پایتون) برای تجزیه و تحلیل و بازگشت نمرات تجزیه و تحلیل احساسات حاصل برای عناوین مقالات مالی استفاده کردیم.
Beautifulsoup محبوب ترین بسته برای خراش دادن و تجزیه داده های وب سایت است. به گفته سازندگان کتابخانه ، می تواند هر ورودی را تفسیر کند. BeautifulSoup این کار را با استفاده از روشهای ساده و اصطلاحات فیثونی برای ساختن یک درخت پارس قابل جستجو و قابل جستجو انجام می دهد. فایده استفاده از BeautifulSoup این است که داده های تجزیه شده را به UTF-8 ، یک قالب گسترده در اینترنت ترجمه می کند [27]. Scraper وب ما برای جمع آوری داده ها با استفاده از ابزارهای موجود در کتابخانه BeautifulSoup ایجاد شده است.
برای انجام تجزیه و تحلیل احساسات ، لازم است یک مدل اعمال شود. Vader (که مخفف "فرهنگ لغت آگاهانه برای استدلال احساسات" است) یک الگوی ساده مبتنی بر قانون برای تجزیه و تحلیل احساسات عمومی است. این مدل هم به قطبیت و هم به قدرت احساسات حساس است و می تواند برای داده های متن بدون برچسب استفاده شود. Vader در بسته NLTK گنجانده شده است ، که نشان دهنده سکویی برای ساخت برنامه های پایتون است که کار با داده های زبان انسانی را امکان پذیر می کند [28]. Vader مزایای واژگان احساسات سنتی ، مانند LIWC (تحقیق زبانی و تعداد کلمات) را به اشتراک می گذارد و بر آنها بهبود می یابد. Vader با LIWC متفاوت است زیرا این امر به طور مطلوب تر از حوزه های مختلف تعمیم می یابد و نسبت به بیان احساسات در محیط های رسانه های اجتماعی پاسخگوتر است. هوتو و گیلبرت توانستند مجموعه ای از خصوصیات واژگانی را طراحی و اعتبارسنجی کنند که به ویژه در شرایط شبیه میکروبلاگ نسبت به احساسات حساس هستند. Vader و همچنین یازده ابزار تجزیه و تحلیل احساسات بسیار مورد توجه را انجام داد [22]. بنابراین ، Vader می تواند برای تجزیه و تحلیل احساسات عناوین مربوط به اخبار مالی منتشر شده در محیط آنلاین و به اشتراک گذاشته شده در رسانه های اجتماعی استفاده شود. با این حال ، ذکر این نکته حائز اهمیت است که تاریخ های مختلفی وجود داشته است که در آن سهام منتخب تحت پوشش نشریات مهم اخبار مالی قرار نگرفته است که Finviz داده های خود را از آن جمع می کند. بنابراین ، نمره احساسات 0 بود.
پس از به دست آوردن نمره احساسات ، در مرحله مدل سازی ، اتورهای خطی دو انجام شد. یکی بدون فاکتور اگزوژن و دیگری با یک (فاکتور اگزوژن که نمره احساسات است) به عنوان معادله (1) و معادله (2) ، به ترتیب ، نشان می دهد:
y = β 1 + β 2 y t - 1 + β 3 y t - 2 + β 4 y t - 3 + β 5 y t - 4 + β 6 x + β 7 x t - 1 + β 8 x t - 2 + ε
جایی که β 1 رهگیری است ، β 2 شیب است ، yt −1/2/3/4متغیرهای تغییر قیمت سهام در روزهای گذشته ، X و X هستندt−1آیا متغیرهای اگزوژن در روزهای فعلی و روز گذشته نمره احساسات هستند و ε اصطلاح خطا است. y تغییر قیمت سهام در زمان t است.
در همین حال به منظور تجزیه و تحلیل رابطه بین نمره احساسات و تغییر قیمت سهام ، از رگرسیون خطی ، درجه دوم و مکعب استفاده شد. رابطه برای اتورژهای خطی ، درجه دوم و مکعب به ترتیب در معادله (3) ، معادله (4) و معادله (5) ارائه شده است:
در جایی که y تغییر قیمت باز سهام است ، β 1 ، β 2 ، β 3 و β 4 پارامترهای ناشناخته هستند ، x متغیر نمره احساسات و ε اصطلاح خطا است. y تغییر قیمت سهام در زمان t است.
پس از اجرای رگرسیون های خطی ، درجه دوم و مکعب ، ما یک اتور غیرخطی را با یک عامل اگزوژن (NARX) اجرا کردیم ، همانطور که در معادله مشاهده می شود (6):
جایی که y تغییر قیمت در زمان t است ، x نمره احساسات و y استT-1/2/3/4تغییرات قیمت افتتاح در زمان t-1 ، t-2 ، t-3 و t-4 است.
ما همچنین از داده های جمع شده به منظور انجام اتورژهای خطی با و بدون فاکتور برون زا استفاده کردیم ، که در آن نمره احساسات با وزن سرمایه بازار جمع می شد. نتایج نشان می دهد که مدل های دارای وزن برابر ضرایب تعیین کننده بهتری برای داده های آموزش داشتند. بنابراین ، ما برای همه رگرسیون های موجود در مطالعه حاضر یک وزن مساوی حفظ کردیم.
دوره زمانی مورد تجزیه و تحلیل داده ها از اوت تا سپتامبر 2022 ، شامل 37 روز است. تمام داده ها با استفاده از وزن برابر جمع شدند.
بیشتر شرکت هایی که مشغول مطالعه هستند به دلیل محبوبیت آنها از S& P 500 انتخاب شده اند ، و همچنین این واقعیت که هر سرمایه گذار علاقه مند به بازار سهام و سرمایه گذاری در این شاخص در معرض آنها قرار دارد. یک شرکت ، Unity Technologies ، به دلیل IPO اخیر (پیشنهاد عمومی عمومی) در تاریخ 17. 09. 2020 انتخاب شد [29]. علاوه بر این ، ما شرکتی را در بر گرفتیم که در ایالات متحده ، سونی مستقر نیست ، تفاوت در نمرات احساسات اخبار شرکت ها را در داخل و خارج از ایالات متحده مشاهده کنیم. داده های بازار شرکت ها از بورس اوراق بهادار نیویورک استخراج شد.
3. نتایج
3. 1تجزیه و تحلیل احساسات
پس از ضبط متن از Finviz برای هر شرکت منتخب و تجزیه و تحلیل احساسات مقالات از اوت و سپتامبر 2022 ، ما در اخبار 0. 06 و نوسانات متوسط 0. 18 نمره احساسات متوسط را محاسبه کردیم. برای هر سهام ، نمرات احساسات در شکل 3 ارائه شده است ، که از آن می توانیم جنبه های زیر را رعایت کنیم.
میانگین نمره احساسات برای سهام AMD (دستگاه های میکرو پیشرفته) یک مورد مثبت با مقدار 0. 08 ، مقدار بالاتر از میانگین کل و نوسانات 0. 18 بود.
به طور متوسط ، نمره احساسات در اخبار مربوط به BRK-B (Berkshire Hathaway Inc. کلاس B) 0. 11 بود که نشانگر احساسات مثبت در اخبار مربوط به این سهام بود. نمره نوسانات 0. 202 بود ، نسبتاً بالا ، که بالاتر از میانگین نوسانات 0. 18 بود. علاوه بر این ، برای سهام F (شرکت فورد موتور) ، میانگین نمره احساسات 0. 04 بود که نشانگر احساسات مثبت در اخبار مربوط به این سهام است و دارای نوسانات زیر متوسط 0. 17 است. در مورد MSFT (Microsoft Corp.) ، یک احساسات مثبت در رابطه با سهام مشاهده شد ، با میانگین نمره احساسات 0. 09 و کمترین نوسانات 0. 14 در طی دوره تجزیه و تحلیل. میانگین نمرات احساسات برای سهام GM (جنرال موتورز) و متا (Meta ، Inc. ، قبلاً Facebook ، Inc.) سهام 0. 001 و 01/0 001 بود که نشانگر احساسات منفی در اخبار مربوط به این سهام است ، هم دارای نوسانات 0. 17 و هم0. 16. در همین حال ، در حالی که برای سهام NFLX (Netflix) ، میانگین نمره احساسات 0. 09 بود ، که نشانگر احساسات مثبت در اخبار مربوط به این سهام است و نوسانات در طی دوره تجزیه و تحلیل 0. 14 بود ، زیر نوسانات متوسط 0. 18. مشابه MSFT ، اخبار مربوط به PG (Procter & Gamble) نمره احساسات مثبت 0. 11 و نمره نوسانات 0. 20 را داشت که بالاتر از حد متوسط بود.
برای NVDA (NVIDIA) ، میانگین نمره احساسات 0. 03 بود که نشانگر احساسات مثبت در اخبار مربوط به این سهام بود و نوسانات 0. 16 داشت که نسبتاً کم بود. اخبار مربوط به سهام V (ویزا) دارای بالاترین نمره مثبت 0. 12 با نوسانات 0. 17 بود. در همین حال ، میانگین نمره احساسات برای U (فن آوری های وحدت) با ارزش 0. 09 مثبت بود و بالاترین نوسانات را داشت ، یکی از 0. 25. اخبار مربوط به سونی با ارزش 04/0 - منفی ترین امتیاز را داشت ، در حالی که نوسانات آن بالاتر از حد متوسط با مقدار 0. 20 بود.
با توجه به نوسانات قیمت افتتاح ، شکل 4 نوسانات دوره را برای هر سهام مورد تجزیه و تحلیل نشان می دهد.
در حالی که بالاترین انحراف استاندارد (نوسانات) برای سهام U (وحدت) 0. 25 بود ، کمترین نوسانات برای سهام MSFT (Microsoft Corp.) در 0. 14 بود. در کوتاه مدت ، برای سهام AMD ، قیمت افتتاح بازار در 19. 08. 2022 از 18. 08. 2022 افزایش یافته است زیرا بالاترین نمره احساسات را برای دستگاه های میکرو پیشرفته (AMD) 0. 66 در 19. 08. 2022 و بالاترین میانگین ارائه می دهد. نمره احساسات 0. 12 در دوره فوق الذکر. این ممکن است نشان دهد که احساسات خبری ممکن است بر این تغییر تأثیر بگذارد.
3. 2مدلهای رگرسیون
به منظور پیش بینی و پیش بینی تغییر قیمت افتتاح ، ما یک اتور خطی را پیشنهاد کردیم ، بدون و با یک فاکتور برونزا. اتوراسیون خطی بدون فاکتور برون زا ، R از 0. 189 را نشان می دهد همانطور که در جدول 1 نشان داده شده است ، در حالی که نمره احساسات را به عنوان یک فاکتور اگزوژن اضافه می کند ، ضریب R را به 0. 192 افزایش می دهد ، همانطور که در جدول 2 نشان داده شده است.
مدل اتور خطی با یک فاکتور اگزوژن در جدول 3 ارائه شده است. با افزایش یک واحد در تغییر قیمت ، زمان t-2 تغییر 0. 124 در تغییر قیمت روز بعد را پیش بینی می کند ، در حالی که رشد یک واحدی در نمره احساسات پیش بینی می کند0. 063 واحد رشد در تغییر قیمت افتتاحیه روز بعد. از مقایسه ضرایب غیر استاندارد ، هنگام استفاده از مدل در داده های آزمایش ، می توان مشاهده کرد که ضرایب همان علامت را حفظ کرده و به طور تقریبی همان مقدار را دارند ، به جز ضریب بتا برای تغییر قیمت باز روز گذشته (تغییر t−1) و برای نمره احساسات روز قبل (احساسات t-1).
علاوه بر این ، تجزیه و تحلیل ANOVA به دو خودروگرایی اعمال شد ، که نتایج آن در جدول 4 نشان داده شده است. پس از اجرای ANOVA ، از آزمون F برای مقایسه مناسب بودن تناسب دو مدل استفاده شد.
آمار F به منظور تجزیه و تحلیل خوبی از تناسب دو مدل محاسبه شد. آمار F محاسبه شده برای مدلها با تعداد متفاوتی از پارامترها 1. 1144 بود ، در حالی که P-Value محاسبه شده نزدیک به 0 (1729/0) تخمین زده می شود. بنابراین ، مدل اول از مدل دوم متناسب تر بود ، اگرچه مجموع مربع ها در مدل اول بزرگتر است.
انواع دیگر رگرسیون در بین تغییر قیمت سهام و نمره احساسات در جدول 5 ارائه شده است.
همانطور که در جدول 5 نشان داده شده است ، مقدار مربع R در رگرسیون محاسبه شده ، که از قیمت باز به عنوان متغیر وابسته و نمره احساسات به عنوان متغیر مستقل استفاده می کند ، نشان می دهد که رگرسیون چند جمله ای در بین دو متغیر مناسب تر از خطی بود. ضرایب رگرسیون درجه دوم در معادله (7) ارائه شده است و رگرسیون مکعب در معادله نشان داده شده است (8):
از آنجا که مدل های درجه دوم و مکعب بهترین مدل های مناسب بودند ، یک مدل اتورگرایی غیرخطی با فاکتور اگزوژن برای داده های موجود مناسب است و این دو مدل را همانطور که در جدول 6 نشان داده شده است ، ترکیب می کند.
4. بحث
در مقاله حاضر ، ما از پلت فرم FinViz برای به دست آوردن عناوین خبری مالی در سهام منتخب از وب سایت های خبری مالی محبوب استفاده کردیم و به دنبال آن استفاده از مدل Vader به منظور تقویت احساسات عمومی نسبت به رویدادهایی که می تواند در مورد سهام مورد تجزیه و تحلیل رخ دهد ، استفاده کردیم. این مدل شامل یک اسکریپت پایتون است که از گروه زیبا برای تهیه عناوین مقاله از Finviz و Pandas برای تجزیه و تحلیل و بازگشت نمرات تجزیه و تحلیل احساسات حاصل برای عناوین مقالات مالی استفاده می کند.
تجزیه و تحلیل روند سهام آینده یک تلاش چالش برانگیز به دلیل تعدد متغیرهای درگیر است. ما فرض کردیم که اخبار و قیمت سهام با همبستگی دارند و ممکن است این خبر با نوسانات قیمت سهام مطابقت داشته باشد.
تجزیه و تحلیل احساسات روزانه برای دوره مورد تجزیه و تحلیل با جمع آوری عناوین اخبار از Finviz و استفاده از مدل Vader در پایتون برای به دست آوردن نمرات احساسات انجام می شد. همانطور که از نتایج می بینیم ، نمرات احساسات از یک روز به روز دیگر متفاوت است. متوسط احساسات اخبار بازار بین 06. 08. 2022 و 30. 09. 2022 0. 06 بود که این نشانگر احساسات مثبت برانگیخته شده توسط این خبر است. پایین ترین نمره احساسات برای شرکت سونی در 24. 08. 2022 و بالاترین امتیاز احساسات در 22. 09. 2022 0. 743 بود.
برای سهام سونی ، قیمت افتتاح بازار در 24. 08. 2022 از قیمت 23. 08. 2022 کاهش یافته است. علاوه بر این ، برای سهام AMD ، قیمت افتتاح بازار در 19. 08. 2022 از قیمت 18. 08. 2022 افزایش یافته است. این نشان می دهد که احساسات خبری ممکن است این تغییر را تحت تأثیر قرار داده باشد. پس از محاسبه نوسانات احساسات برای این نمرات ، سهام U (فناوری های وحدت) را به عنوان بالاترین نوسانات در نمره احساسات خود و سهام MSFT (Microsoft Corp.) به عنوان کمترین نوسانات شناسایی کردیم. این می تواند به این ایده کمک کند که سهام MSFT (Microsoft Corp.) سرمایه گذاری کمتری است ، با توجه به اینکه عناوین خبری آن در احساسات آنها نسبتاً سازگار است و نظرات نشریات عمده مالی در مورد این شرکت خیلی تقسیم نمی شود.
رگرسیون مورد استفاده ما رگرسیون مکعب ، درجه دوم و خطی بود ، زیرا رگرسیون مکعب از دقت بالاتری نسبت به خطی برخوردار بود [14]. نتایج ما نشان می دهد که رگرسیون چند جمله ای نسبت به مدل خطی متناسب با مدل بود ، زیرا مقدار مربع R برای رگرسیون مکعب 0. 005 بود ، در حالی که برای خطی ، این مقدار 0. 001 بود. علاوه بر این ، در [14] ، دقت رگرسیون چند جمله ای فقط با نوع رگرسیون درخت تصمیم پیشی گرفت. علاوه بر این ، از رگرسیون درخت تصمیم ، رگرسیون جنگلی تصادفی بالاترین دقت را داشت [14،30].
نتایج مشابه ، مانند نتایج ارائه شده در [31] ، الگوریتمی را پیشنهاد می کند که شاخص های قیمت سهام مورد تجزیه و تحلیل را با احساسات روزانه هر سهام ترکیب می کند و "سیگنال های اضافی" را بر اساس احساسات مورد بررسی توصیه می کند. با استفاده از دو "خاطرات کوتاه مدت طولانی" که از طریق منطق تصمیم گیری هوشمند در [32] ادغام شدند ، دقت سود برای سود فارکس یک تا پنج روز 63. 91-73. 09 ٪ یافت شد. در [33] ، یک سرمایه گذار قطبی شده به عنوان تعیین کننده بیشتر در حباب های سوداگرانه در بازار نسبت به حجم عمومی اخبار و نمایش داده های Google مشخص شد.
در یک مطالعه دیگر ، بر اساس اخبار مالی منتشر شده در چین مربوط به شرکت های ذکر شده در بورس اوراق بهادار تایوان ، یک بازار "شاخص احساسات خبری کل" (ANSI) ایجاد شده و برای بررسی همبستگی بین ANSI و واکنش های بازار استفاده شده است [34]. در [35] ، با استفاده از داده های جمع آوری شده از فیس بوک در مورد به روزرسانی های وضعیت برای ارزیابی شکاف بین احساسات مثبت و منفی که روزانه در 20 کشور جهان رخ می دهد ، ارتباط خوبی بین اختلافات احساسات و نوسانات قیمت سهام یافت شد. به منظور ارزیابی قیمت و حجم حرکت سهام در روز معاملاتی زیر ، برخی از مطالعات بر روی چهار مجموعه داده جداگانه (مانند اخبار Google News ، اطلاعات تجاری ویکی پدیا در مورد صفحات تجاری ، شاخص های فنی معمولی و داده های معاملاتی تاریخی) ساخته شده است. 36]یافته ها نشان می دهد که گسترش تعداد منابع داده می تواند دقت پیش بینی را افزایش دهد. به منظور مطالعه اثرات ترکیبی بسیاری از منابع اطلاعاتی بر حرکات قیمت سهام ، ماتریس های اتصال و تجزیه تنش در [37] استفاده شد. آنها همچنین از مشترکات بین سهام برای پیش بینی حرکات قیمت تعداد زیادی سهام متصل به یکباره سوء استفاده کردند.
مطالعات آینده ممکن است بر گسترش انواع منابع داده به منظور افزایش دقت پیش بینی های بازار متمرکز شود ، همانطور که [36] نشان می دهد ، یا از تکنیک های ترکیبی به منظور دستیابی به پیش بینی های بهتر استفاده می کنند. علاوه بر این ، ممکن است از مدل های غیر پارامتری برای تقویت رفتار دقیق تر بورس استفاده شود (به عنوان مثال ، جنگل تصادفی یا رگرسیون درخت تصمیم گیری) [33].
5. نتیجه گیری ها
در مقاله حاضر ، از ضریب احساسات برای افزایش مناسب بودن مناسب برای پیش بینی قیمت سهام با استفاده از مدل های رگرسیون استفاده شده است. ما از مدل Vader برای تولید نمره احساساتی که هر روز اتفاق می افتد ، بر اساس عناوین خبری مالی که Finviz برای سهام منتخب تهیه کرده بود ، استفاده کردیم.
در مرحله بعد ، ما سه نوع مدل رگرسیون (اتورهای خطی ، درجه دوم و مکعب) را انجام دادیم و دریافتیم که اتورهای چند جمله ای دارای یک نشانگر مربع R بالاتر از خطی هستند و از یافته های آن پشتیبانی می کنند. علاوه بر این ، به منظور بهبود خوبی از تناسب خودکار ، از نمره احساسات به عنوان یک عامل اگزوژن در اتورهای غیرخطی استفاده کردیم.
نتایج ما مطابق با [14،30،35] است ، در حالی که شواهدی را بهبود می بخشد که شامل تجزیه و تحلیل احساسات به عنوان یک عامل برونزا در مدل های رگرسیون می تواند باعث افزایش مناسب بودن مدل ها شود.
به طور کلی ، نتایج نشان می دهد که استفاده از نمره احساسات به عنوان یک عامل اگزوژن در اتوروژن خطی ، ضریب R را از 0. 189 به 0. 192 افزایش داده است. بنابراین ، می توان نتیجه گرفت که ادغام عامل احساسات در تحلیل رگرسیون بازار ، رگرسیون بهتری را در مورد خوبی بودن تناسب ایجاد می کند.
کمک های نویسنده
مفهوم سازی ، M. P. C. ، R. A. N. ، D. A. M. و S.-V. O. ؛روش شناسی ، M. P. C. ، R. A. N. ، D. A. M. و S.-V. O.؛نرم افزار ، M. P. C. ، R. A. N. ، D. A. M. و S.-V. O.؛اعتبار سنجی ، M. P. C. ، R. A. N. ، D. A. M. و S.-V. O.؛تجزیه و تحلیل رسمی ، M. P. C. ، R. A. N. ، D. A. M. و S.-V. O.؛تحقیقات ، M. P. C. ، R. A. N. ، D. A. M. و S.-V. O.؛منابع ، M. P. C. ، R. A. N. ، D. A. M. و S.-V. O.؛Curation Data ، M. P. C. ، R. A. N. ، D. A. M. و S.-V. O.؛نوشتن - پیش نویس آماده سازی ORIGINAL ، M. P. C. ، R. A. N. ، D. A. M. و S.-V. O.؛نوشتن - بررسی و ویرایش ، M. P. C. ، R. A. N. ، D. A. M. و S.-V. O.؛تجسم ، M. P. C. ، R. A. N. ، D. A. M. و S.-V. O.؛نظارت ، M. P. C. ، R. A. N. ، D. A. M. و S.-V. O.؛مدیریت پروژه ، M. P. C. ، R. A. N. ، D. A. M. و S.-V. O.؛کسب بودجه ، M. P. C. ، R. A. N. ، D. A. M. و S.-V. O. همه نویسندگان نسخه منتشر شده نسخه خطی را خوانده و موافقت کرده اند.
منابع مالی
این پروژه توسط دانشگاه لوسیان بلاگا SIBIU از طریق کمک هزینه تحقیق LBUS-IRG-2022-08 تأمین شد. APC توسط دانشگاه لوسیان بلاگا سیبیو تأمین شد.