این یک مقاله دسترسی آزاد است که تحت شرایط مجوز انتساب Creative Commons توزیع شده است ، که امکان استفاده ، توزیع ، بازتولید و سازگاری نامحدود در هر رسانه و به هر منظور را فراهم می کند به شرط اینکه به درستی نسبت داده شود. برای انتساب ، نویسنده اصلی (ها) ، عنوان ، منبع انتشار (علوم کامپیوتر PEERJ) و یا DOI یا URL مقاله باید ذکر شود.
داده های مرتبط
اطلاعات تکمیلی 1: مجموعه داده ها و کد تجزیه و تحلیل احساسات با استفاده از BERT در پیش بینی قیمت چینی و سهام که در این مقاله شرح داده شده است/ دایرکتوری از جمله داده های آزمایش تنوع آموزش تجزیه و تحلیل احساسات در چینی با استفاده از BERT. کدها نیز گنجانده شده اند. مدل پیش از استرین BERT گنجانده نشده است.
احساسات/ داده/ فهرست شامل مجموعه داده ها
Sentiment/intent. py: استفاده از مدل برای احساسات استنتاج یک جمله ای/چینی_-12_H-768_A-12: مدل pretrain از Google (گنجانده نشده است)
StockPrice/ دایرکتوری از جمله داده های آزمایش تنوع آموزش اطلاعات سهام از داده های باز Twse. کدها نیز گنجانده شده اند.
سهام/ داده/ دایرکتوری شامل مجموعه داده های اطلاعات سهام
کدهای موجود در این مقاله.
اطلاعات زیر در مورد در دسترس بودن داده ها ارائه شده است:
داده ها و کدها در پرونده های تکمیلی موجود است.
چکیده
سرمایه گذاری در سهام ابزاری مهم برای مدیریت مالی افراد مدرن است و چگونگی پیش بینی قیمت سهام به یک مسئله مهم تبدیل شده است. در سالهای اخیر ، روشهای یادگیری عمیق با موفقیت بسیاری از مشکلات پیش بینی را حل کرده است. در این مقاله ، ما از عوامل مختلفی برای پیش بینی قیمت سهام استفاده کردیم. مقالات خبری و مباحث مربوط به انجمن PTT به عنوان تجزیه و تحلیل اساسی در نظر گرفته می شود ، و اطلاعات معاملات تاریخی سهام به عنوان تحلیل فنی رفتار می شود. از ابزار پیشرفته پردازش زبان طبیعی BERT برای تشخیص احساسات متن استفاده می شود و شبکه عصبی حافظه کوتاه مدت کوتاه مدت (LSTM) ، که در تجزیه و تحلیل داده های سری زمانی خوب است ، برای پیش بینی قیمت سهام اعمال می شودبا اطلاعات معاملات تاریخی سهام و احساسات متنی. با توجه به نتایج تجربی با استفاده از مدلهای پیشنهادی ما ، میانگین میانگین خطای مربع ریشه (RMSE) دارای دقت 12. 05 است.
مقدمه
طبق آمار بانک مرکزی تایوان (بانک مرکزی جمهوری چین ، 2021) ، در دو دهه گذشته ، میانگین نرخ سود سپرده ثابت سالانه از 5. 02 ٪ به 0. 77 ٪ کاهش یافته است. با افزایش شاخص قیمت سال به سال ، اگر مردم مدیریت مالی محافظه کارانه را بگیرند ، ثروت با تورم تبخیر می شود. بنابراین ، تعداد بیشتری از افراد سهام با بازده بالا و نقدینگی بالا را به عنوان ابزارهای سرمایه گذاری برای سودآوری انتخاب می کنند. دیدن خرابی سرمایه گذاری در بورس سهام غیر معمول نیست. اگر یک سیستم بتواند روند سهام را به طور دقیق پیش بینی کند ، کمک بزرگی به سرمایه گذاران خواهد بود.
در مقایسه با سایر ابزارهای سرمایه گذاری ، روش عملیاتی برای چانه زنی سهام به راحتی قابل درک است. بسته به قیمت سهام هدف سرمایه گذاری ، میزان سرمایه گذاری مورد نیاز انعطاف پذیر است. طبق آمار (TWSE ، 2021) ، ما می توانیم توجه کنیم که تعداد حساب سرمایه گذاری سهام تقریباً 10. 64 میلیون نفر بیش از 23 میلیون جمعیت در تایوان است. این نشان می دهد که تقریبا نیمی از تایوانی ها از سهام به عنوان یک ابزار سرمایه گذاری استفاده کرده اند یا از آنها استفاده می کنند. با این حال ، هر سرمایه گذاری با خطرات قابل توجهی همراه است. در گذشته ، به منظور کاهش خطرات و به دست آوردن مزایای بالاتر در بورس ، سرمایه گذاران عموماً اصول ، جنبه های فنی و اخبار سهام هدف را مورد تجزیه و تحلیل قرار می دادند. در این مقاله به تجزیه و تحلیل اطلاعات مربوطه در مورد اخبار و مقالات انجمن می پردازیم. از آنجا که قیمت سهام نه تنها به دلیل اطلاعات اخبار ، بلکه روانشناسی مورد انتظار و واکنش سرمایه گذاران به این خبر از دیگران تغییر می کند. با توجه به این واقعیت که اخبار و مقالات انجمن معمولاً توسط سرمایه گذاران عمومی برای دریافت اطلاعات مربوط به بازار سهام استفاده می شود. بسیاری از مطالعات اخیر وجود دارد که نشان می دهد اخبار (لی و سو ، 2017) و انجمن ها (لی ، بو و وو ، 2017 ؛ لیو و همکاران ، 2017) بر تغییر قیمت در بورس تأثیر می گذارد.
سالهاست که چه از نظر مالی و چه از نظر دانشگاهی ، پیش بینی قیمت سهام یک موضوع تحقیق بسیار مهم بوده است. بسیاری از مطالعات از مدل سازی آماری یا روشهای یادگیری ماشین ، مانند دستگاه بردار پشتیبانی (SVM) ، از داده های تاریخی استفاده می کنند و سپس تغییرات آینده سهام را پیش بینی می کنند. در سالهای اخیر ، به دلیل پیشرفت فن آوری های GPU ، قدرت محاسبات بسیار بهبود یافته است. مدل های شبکه عصبی مرتبط با یادگیری عمیق برای بسیاری از برنامه های موفق در زمینه های مختلف به همراه مقدار زیادی از آموزش داده ها تسریع و در دسترس است. این موفقیت به ما کمک می کند تا با بسیاری از برنامه های پیش بینی شده حل و حل کنیم. همانطور که می دانیم قیمت سهام داده های سری زمانی است و می توان از آن برای استخراج الگوهای و شناسایی روند با استفاده از مدل های یادگیری عمیق استفاده کرد. شاید این روندها برای درک انسان یا سایر فرآیندهای رایانه ای معمولی بسیار پیچیده باشند. شبکه عصبی مکرر (RNN) یک شبکه عصبی مصنوعی است که برای حل مشکلات سری زمانی مناسب است. اتصالات بین نورونهای آن یک حلقه کارگردانی را تشکیل می دهد و این امکان را می دهد تا مانند رفتارهای پویا عمل کند. RNN اکنون در پردازش زبان طبیعی ، پردازش داده های صوتی و غیره مورد استفاده قرار می گیرد و نتایج خوبی را به همراه دارد. خاطره RNN اصلی به دلیل تعداد لایه های پیچیده پس از اعلان های متعدد ، تأثیر خود را کاهش می دهد. بنابراین ، مفهوم شبکه عصبی کوتاه مدت (LSTM) مفهوم شبکه عصبی معرفی شده است. این یک مدل RNN خاص و مهم است که می تواند مقادیر بلند مدت یا کوتاه مدت را به خاطر بسپارد و به صورت انعطاف پذیر به شبکه عصبی اجازه دهد فقط اطلاعات لازم را حفظ کند. شبکه های عصبی LSTM برای ساخت مدل های پیش بینی قیمت سهام که توسط این مقاله پرداخته شده است ، مناسب هستند.
با آخرین پیشرفت ها در یادگیری عمیق برای پردازش زبان طبیعی. محققان بیشتر و بیشتر از تکنیک های یادگیری عمیق برای تشخیص احساسات موجود در محتوای متن یا پیام های توصیفی استفاده می کنند. با شناخت محتوای پستهای انجمن و درک روند سرمایهگذاری سهام، میتوان فوراً دیدگاه سرمایهگذاران سهام در مورد بازار سهام را درک کرد. عملکرد بورس نیز تحت تأثیر اخباری است که منبع اطلاعات عمومی و جهانی برای همه است. با شناخت احساسات موجود در اخبار، بردارهای مهمی برای پیش بینی قیمت سهام خواهند بود. بنابراین، این مقاله سعی میکند تاریخچه قیمت سهام و نمایشهای رمزگذار دوطرفه از مدل ترانسفورماتور (BERT) را ترکیب کند تا احساسات را به عنوان بردارهای ورودی از اخبار و پستهای انجمن برای سهام فردی تشخیص دهد. همچنین مدل های شبکه عصبی LSTM برای پیش بینی قیمت سهام آموزش داده می شود.
کارهای اصلی این پژوهش را می توان به شرح زیر خلاصه کرد:
ما از عوامل متعددی به عنوان تحلیل بنیادی و تحلیل تکنیکال برای پیشبینی قیمت سهام استفاده کردیم. این به عادات سرمایه گذاران عادی سهام برای پیش بینی قیمت نزدیک تر خواهد بود.
مقالات خبری و پستهای انجمن از پلتفرم معروف PTT تایوان هر دو به عنوان تحلیل اساسی در نظر گرفته میشوند. پیشرفته ترین ابزار پردازش زبان طبیعی BERT برای تشخیص احساسات متن استفاده می شود.
شبکه عصبی حافظه کوتاه مدت بلند مدت (LSTM)، که در تجزیه و تحلیل داده های سری زمانی خوب است، برای پیش بینی قیمت سهام با اطلاعات معاملات تاریخی سهام و احساسات متنی استفاده می شود.
کارهای مرتبط
یادگیری عمیق در سال های اخیر به یک حوزه تحقیقاتی بسیار مهم برای پیش بینی یا تشخیص وظایف تبدیل شده است. در این بخش تحقیقات مربوط به شبکه های عصبی LSTM، پیش بینی قیمت سهام، تجزیه و تحلیل احساسات متنی و مدل BERT در ادامه توضیح داده می شود.
شبکه های عصبی LSTM
شبکه عصبی LSTM یکی از مشتقات RNN است. این نه تنها کمبود حافظه بلند مدت RNN را بهبود می بخشد، بلکه از مشکل ناپدید شدن گرادیان نیز جلوگیری می کند. شبکه عصبی LSTM می تواند به صورت پویا یاد بگیرد و تعیین کند که آیا یک خروجی خاص باید ورودی بازگشتی بعدی باشد یا خیر. بر اساس این مکانیسم که می تواند اطلاعات مهم را حفظ کند، مرجع و کاربرد خوبی در هنگام ساخت یک مدل پیش بینی برای این مطالعه ارائه می دهد.
شبکه عصبی LSTM ساختار جدیدی به نام سلول حافظه دارد (Gao, Chai & Liu, 2017). سلول حافظه شامل چهار جزء اصلی است: دروازه ورودی، دروازه فراموشی، دروازه خروجی و نورون ها، از طریق این سه دروازه تصمیم می گیرند چه اطلاعاتی را ذخیره کنند و چه زمانی اجازه خواندن، نوشتن و فراموشی را بدهند. شکل 1 نشان می دهد که چگونه داده ها از طریق واحد ذخیره سازی جریان می یابد و توسط هر دروازه کنترل می شود.
پیش بینی قیمت سهام
در چند دهه گذشته با گسترش مستمر بازار سهام، افراد بیشتری در مورد پیشبینی قیمت سهام تحقیق کردهاند. آنها سعی در تحلیل و پیش بینی نوسانات و تغییرات قیمتی بازار سهام دارند. قیمت سهام دارای ویژگی های دینامیک بالا، غیر خطی بودن و نویز بالا است. قیمت هر سهام تحت تأثیر عوامل زیادی مانند اقتصاد جهانی، سیاست، سیاستهای دولت، بلایای طبیعی یا انسانساز، رفتار سرمایهگذاران و غیره قرار میگیرد. این یکی از وظایف چالش برانگیز در مسائل پیشبینی سری زمانی است.
لی، بو و وو (2017) و لیو و همکاران.(2017) توضیح داد که برخی از مطالعات بازار سهام بر اساس نظریه پیادهروی تصادفی و فرضیه بازار کارآمد است. آن مطالعات گذشته معتقد بودند که نوسانات قیمت سهام تصادفی است، بنابراین نمی توان آن را پیش بینی کرد. بر اساس فرضیه بازار کارا، قیمت سهام به جای قیمت های فعلی یا گذشته، بر اساس اخبار پیش می رود. از آنجایی که اخبار غیرقابل پیش بینی است و قیمت سهام از یک الگوی تصادفی تبعیت می کند. پیش بینی قیمت سهام با دقت بیش از 50 درصد دشوار است. اما تحقیقات بیشتر و بیشتر در سال های اخیر نشان می دهد که قیمت بورس تصادفی نیست و تا حدودی قابل پیش بینی است.
شاه ، ایزا و زولکرین (2019) و سلوین و همکاران.(2017) بازار سهام را مورد تجزیه و تحلیل قرار داد و قیمت سهام را پیش بینی کرد. آنها از دو روش متداول استفاده می کردند که تجزیه و تحلیل اساسی و فنی بودند. تجزیه و تحلیل اساسی یک تحلیل سرمایه گذاری است که ارزش سهام را با تجزیه و تحلیل پروفایل شرکت ، چشم انداز صنعت ، عوامل سیاسی ، عوامل اقتصادی ، اخبار و رسانه های اجتماعی تخمین می زند. اطلاعات مورد استفاده در تجزیه و تحلیل اساسی معمولاً بدون ساختار است. این روش برای پیش بینی طولانی مدت مناسب است. روش تجزیه و تحلیل فنی سعی دارد از قیمت های تاریخی سهام برای پیش بینی روند توسعه آینده سهام فردی استفاده کند. با ضبط افزایش روزانه و سقوط قیمت سهام در قالب نمودارها. و سپس با مشاهده تغییرات آن ، بهترین امتیاز خرید یا فروش را تعیین کنید. k-line ، میانگین متحرک و شاخص مقاومت نسبی معمولاً در تجزیه و تحلیل فنی از الگوریتم های استفاده می شود و برای پیش بینی کوتاه مدت مناسب هستند.
بررسی ادبیات پیش بینی سهام شاه ، ایزا و زولکرین (2019) ؛Bustos & Pomares-Quimbaya (2020) خاطرنشان كردند كه تجزیه و تحلیل فنی یكی از روشهای متداول برای پیش بینی بازار سهام است و به طور گسترده مورد مطالعه قرار گرفته و به عنوان سیگنال مورد استفاده قرار می گیرد تا نشان دهد چه موقع خرید یا فروش سهام را نشان می دهد. با این حال ، برخی از مطالعات نشان داده اند که بازده های به دست آمده از استراتژی تجارت بر اساس تجزیه و تحلیل فنی محدود است. تجزیه و تحلیل اساسی به ندرت در تحقیقات سنتی مورد استفاده قرار می گرفت زیرا ساخت مدل ها از طریق اطلاعات مربوطه دشوار است. با این حال ، با توسعه پردازش زبان طبیعی و تجزیه و تحلیل متن ، برخی از مطالعات اخیر اطلاعات مربوط به سهام غیر ساختار را برای بهبود دقت پیش بینی تجزیه و تحلیل کرده اند. این اطلاعات می تواند اسناد رسمی ، اخبار مالی یا پست ها در سایت های شبکه های اجتماعی باشد. با توجه به پیشرفت سریع هوش مصنوعی ، Bustos & Pomares-Quimbaya (2020) و Nelson ، Pereira & de Oliveira (2017) با استفاده از SVM و شبکه های عصبی مصنوعی برای پیش بینی بازار سهام به نتایج خوبی رسیده اند.
SVM یک ابزار یادگیری ماشینی است که می تواند برای مقابله با مشکلات طبقه بندی و رگرسیون استفاده شود. همچنین به آن رگرسیون بردار پشتیبان (SVR) برای رگرسیون گفته می شود. این می تواند هایپرپلن را در یک فضای ویژگی با ابعاد بالا شناسایی کند تا به طور دقیق توزیع داده ها را پیش بینی کند. Xia, Liu & Chen (2013) از SVR برای ایجاد یک روش پیش بینی سهام بر اساس مدل رگرسیون با داده های سری زمانی تاریخی، قیمت افتتاحیه امروز، بالاترین قیمت، پایین ترین قیمت، قیمت بسته شدن، حجم معاملات و قیمت بسته شدن تعدیل شده برای پیش بینی قیمت افتتاحیه در بازار استفاده کردند. روز بعد. نتایج نشان داد که میانگین مربعات خطا (MSE) 0. 0000253 درصد است.
RNN اغلب در بین بسیاری از ANN برای مقابله با کارهای سری زمانی مورد استفاده قرار می گیرد ، و همچنین یکی از مناسب ترین تکنیک ها برای پیش بینی سری زمانی پویا است. لیو و همکاران.(2017) از RNN برای پیش بینی نوسانات سهام استفاده کرد و دریافت که صحت مدل RNN بهتر از مدل های MLP و SVM است. با این حال ، RNN مشکل ناپدید شدن شیب و انفجار را با تعلیق های متعدد خواهد داشت. شبکه عصبی LSTM برای تقویت عملکرد RNN در زمینه های هوش مصنوعی توسعه یافته است. Gao ، Chai & Liu (2017) داده های معاملاتی تاریخی 500 استاندارد و Poor's 500 (S& P 500) را از بازار سهام در 20 روز گذشته به عنوان متغیرهای ورودی جمع آوری کردند ، آنها قیمت ، قیمت بسته شدن ، بالاترین قیمت ، کمترین قیمت را باز می کردندقیمت تنظیم شده و حجم معامله. آنها از شبکه عصبی LSTM به عنوان مدل پیش بینی استفاده کردند و سپس عملکرد را با میانگین خطای مطلق (MAE) ، میانگین خطای مربع (RMSE) ، میانگین نرخ خطای مطلق (MSE) و میانگین خطای درصد مطلق (MAPE) ارزیابی کردند. روش آنها بهتر از سایر پیش بینی ها بود. لی و سو (2017) شبکه عصبی LSTM و CNN را برای پیش بینی قیمت سهام تایوانی بر اساس قیمت سهام تاریخی و تجزیه و تحلیل اخبار مالی ترکیب کردند و دریافتند که می تواند خطای پیش بینی را کاهش دهد. Li ، Bu & Wu (2017) از شبکه عصبی LSTM برای پیش بینی فراز و نشیب های شاخص اوراق بهادار چین 300 (CSI 300) با وارد کردن قیمت افتتاح ، قیمت بسته شدن و حجم معاملات ده روز گذشته استفاده کرد. دقت می تواند به 78. 57 ٪ برسد. خال و همکاران.(2017) همچنین دریافت که شبکه عصبی LSTM می تواند با موفقیت فراز و نشیب قیمت سهام را با موفقیت پیش بینی کند. Lu (2018) نتایج مثبت و منفی را که فقط از پست های PTT به دست آمده و اطلاعات معاملات تاریخی سهام را به عنوان بردارهای ورودی شبکه عصبی LSTM تجزیه و تحلیل کرده است. روش پیشنهادی آنها می تواند دقت پیش بینی قیمت سهام را بهبود بخشد.
تجزیه و تحلیل احساسات
احساسات یا احساسات حالات بیولوژیکی مرتبط با سیستم عصبی و واکنش به محرکهای خارجی است. آنها می توانند خوشبختی ، عصبانیت ، غم ، ترس و غیره باشند. ما می توانیم آنها را با دوگانگی به احساسات مثبت یا منفی تقسیم کنیم. با توسعه سریع اینترنت و محبوبیت دستگاه های تلفن همراه ، افراد دوست دارند نظرات خود را بیان کنند و اطلاعات را از طریق سیستم عامل های آنلاین تبادل کنند. این مقدار زیادی از داده های متن حاوی اطلاعات عاطفی ، مانند مقاله های وبلاگ ، رسانه های اجتماعی و پست های انجمن آنلاین ، پاسخ ها و بررسی محصولات و غیره ایجاد می کند. اگر احساسات مربوط به سهام بیان شده توسط کاربران می تواند به طور مؤثر از این متن تجزیه و تحلیل شود. این می تواند به ما در درک نظرات عمومی آنلاین به موقع کمک کند.
طبق تحقیقات لی ، جین و کوان (2020) ، کومار و گارگ (2019) و رن ، وو و لیو (2018) به تجزیه و تحلیل احساسات متن (SA) بخشی از زمینه پردازش زبان طبیعی (NLP) هستند. مجموعه ای از روش ها برای داده های آنلاین مانند تجزیه و تحلیل بررسی محصول ، تجزیه و تحلیل شبکه های اجتماعی ، نظارت بر افکار عمومی ، پیش بینی های گیشه فیلم ، پیش بینی روند نوسان بازار سهام و غیره ارائه شده است (Ali et al. ، 2019 ؛ Ali et al. ، 2020 ؛ Basiriو همکاران ، 2020 ؛ لی و همکاران ، 2020).
Mäntylä ، Graziotin & Kuutila (2018) ابراز داشتند که اینترنت اولیه به اندازه امروز توسعه یافته و راحت نیست. میزان داده های متن انباشته زیاد نیست ، بنابراین تحقیقات کمتری در مورد تجزیه و تحلیل احساسات متنی وجود دارد. نظرات آنلاین ، وبلاگ ها و رسانه های اجتماعی (مانند فیس بوک ، توییتر) پس از موفقیت وب 2. 0 یکی پس از دیگری ظاهر شده اند و تعداد پیام های متنی به سرعت افزایش یافته است. برای پردازش مقادیر گسترده داده ها ، SA به یکی از فعال ترین زمینه های تحقیقاتی در NLP تبدیل شده است. Turney (2002) از یک الگوریتم بدون نظارت برای تعیین اینکه آیا محتوای بررسی سایت های بررسی مصرف کننده توصیه شده است یا خیر ، از جمله اتومبیل ، بانک ها استفاده کرده است. میانگین دقت الگوریتم می تواند به 74 ٪ برسد. Pang ، Lee & Vaithyanathan (2002) SVM و Na ”Bayes را اقتباس کرد و روش طبقه بندی حداکثر آنتروپی را برای طبقه بندی بررسی های فیلم به گرایش های عاطفی مثبت و منفی پیشنهاد کرد.
در سالهای اخیر ، بسیاری از تکنیک ها برای تجزیه و تحلیل احساسات در زمینه ها و وظایف مختلف ارائه شده است. لی ، جین و کوان (2020) ، زین الدین ، سلمات و ابراهیم (2018) و سونگ و همکاران.(2019) آنها را به سه دسته تقسیم کنید. آنها محاسبه احساسات مبتنی بر فرهنگ لغت معنایی ، روش طبقه بندی احساسات مبتنی بر یادگیری ماشین سنتی و روش یادگیری عمیق هستند.
روش مبتنی بر فرهنگ لغت به هیچ داده آموزشی نیاز ندارد. با توجه به فرهنگ لغت متن باز احساسی، کلمات احساسی که در جمله ظاهر می شوند را بشمارید. هر کلمه احساسی یک نمره احساسی دارد و سپس نمره کلمه احساسی کل جمله را محاسبه کنید. و گرایش عاطفی جمله را با توجه به امتیاز خروجی خواهد داد. روشهای یادگیری ماشین سنتی از تعداد زیادی از پیکرههای برچسبگذاری شده به عنوان دادههای آموزشی برای ایجاد یک مدل طبقهبندی استفاده میکنند و سپس این مدل را برای تعیین پاسخ احساسی جمله هدف، مانند SVM، Naïve Bayes و Decision Tree به کار میبرند. علاوه بر این، از آنجایی که بیشتر فرهنگ لغت های احساسی پوشش کافی از کلمات احساسی، کمبود کلمات دامنه و نادیده گرفتن زمینه را دارند و عملکرد روش های یادگیری ماشینی به تعداد نمونه های برچسب گذاری شده بستگی دارد، برخی از مطالعات روش ترکیبی ترکیبی با فرهنگ لغت های معنایی و معنایی را پیشنهاد کرده اند. ماشین آلاتیاد بگیرید که کاستی های یکدیگر را جبران کنید تا اثربخشی تجزیه و تحلیل احساسات را افزایش دهید.
مطالعه بولن، مائو و زنگ (2011) نشان داد که محتوای متنی توییتر با نوسانات شاخص میانگین صنعتی داوجونز (DJIA) مرتبط است. لیو و همکاران(2017) احساسات پستهای انجمن سهام چین را تحلیل کرد و احساسات را به عنوان ورودی RNN برای پیشبینی نوسانات بازار سهام چین تبدیل کرد. آنها دریافتند که شاخص های احساسات می توانند به طور موثری دقت پیش بینی را بهبود بخشند.
نوفسینگر (2001) دریافت که احساسات سرمایه گذار یک عامل کلیدی در بازار مالی است. در برخی موارد، سرمایه گذاران پس از انتشار اخبار خوب تمایل به خرید سهام دارند و این امر منجر به افزایش قیمت سهام می شود. آنها پس از انتشار اخبار منفی سهام را فروختند، بنابراین قیمت کاهش یافت. اطلاعات موجود در اینترنت منابع ارزشمندی را برای انعکاس احساسات سرمایه گذار فراهم می کند. اکنون بسیاری از محققان از SA و تحلیل اخبار برای پیشبینی قیمت سهام استفاده میکنند.
ساختار مدل BERT یک رمزگذار ترانسفورماتور دو طرفه چند لایه است. ترانسفورماتور یک مدل یادگیری عمیق با استفاده از رمزگذار و رمزگشا برای کار ترجمه بود. مدل BERT از مزایای بخش رمزگذار در ترانسفورماتور استفاده کرد. شکل 2 نمودار مدل BERT است که E را می گیرد1E2. Enبه عنوان ورودیآنها می توانند کلمات یا نمادهای خاص باشند. پس از محاسبه از طریق رمزگذار ترانسفورماتور دو طرفه چند لایه، E1E2. Enبردارهای خروجی هستند. در تحقیقات گذشته از روش word2vec استفاده میکردیم تا یک کلمه را به بردار نگاشت کنیم که از ورودی NLP استفاده میشد. با این حال، یک کلمه مهم نیست در چه زمینه ای همیشه به همان بردار نگاشت می شد. مدل BERT از رمزگذار ترانسفورماتور دو طرفه چند لایه استفاده می کند، آنها یک کلمه را با توجه به زمینه های مختلف در اطراف کلمه ورودی به بردارهای مختلف نگاشت می کنند. به عبارت دیگر، مدل BERT مدلی است که با توجه به زمینه، یک کلمه را با دقت بیشتری به کلمه برداری نگاشت می کند. بر خلاف مدلهای بازنمایی زبان قبلی، BERT پیشآموز یک مدل نمایش زبان دوطرفه عمیق را بر اساس معناشناسی بالا و پایین همه لایهها ارائه میکند.
مدل پیشآموزشی BERT بر اساس رمزگذارهای ترانسفورماتور دو جهته. E1E2. Enنهادهای ورودی هستند.
پس از دریافت کلمه برداری از مدل BERT، میتوانیم سایر روشهای یادگیری عمیق را برای حل وظایف NLP با استفاده از مزایای بردارهای کلمه که کلمه را با توجه به زمینههای مختلف نشان میدهند، ترکیب کنیم. دولین و همکاران(2018) BERT را از طریق دو مرحله اصلی، یعنی پیشآموزش و تنظیم دقیق پیادهسازی کرد. از مقدار زیادی داده بدون برچسب برای پیشآموزش مدل برای کارهای مختلف استفاده کنید و سپس از دادههای مرتبط با برچسب برای تنظیم دقیق وظایف پایین دستی خاص (مانند طبقهبندی متن، طبقهبندی جمله به جمله و سیستمهای پاسخگویی به سؤال) استفاده کنید.. شکل 3 نمایش فرآیند تنظیم دقیق BERT است که ورودی متن چینی و طبقهبندیکننده خطی را برای تولید خروجی به عنوان مثال میگیرد.[CLS] یک نماد ویژه است که قبل از هر ورودی اضافه می شود. و بردار تعبیه کلمه خروجی از مدل پیشآموزشی BERT به یک طبقهبندی خطی ارسال میشود که میتواند برای کارهای طبقهبندی بعدی استفاده شود.
روش شناسی
این بخش معماری سیستم روش پیشنهادی ما را توضیح خواهد داد. جمعآوری دادهها و پیشپردازش، مدل BERT و مدل LSTM برای پیشبینی قیمت سهام به تفصیل شرح داده میشود.
معماری سیستم
بازار سهام تحت تاثیر عوامل زیادی است. اگر می خواهید به طور دقیق تغییرات قیمت سهام تک تک سهام را پیش بینی کنید، درک موثر اطلاعات مربوط به بازار سهام بسیار مهم است. در این مقاله، ما روشی را پیشنهاد میکنیم که سعی میکند احساسات را در اخبار و پستهای انجمن به عنوان تجربه پس از تحلیل بنیادی تحلیل کند. و دانلود قیمت تاریخی سهام به عنوان تحلیل تکنیکال.
جریان داده های روش پیشنهادی ما برای پیش بینی قیمت سهام در شکل های نشان داده شده است. 4 و و 5. 5 . شکل 4 فرآیند تحلیل احساسات متنی را برای پست های اخبار و انجمن نشان می دهد. اخبار در اینترنت جمع آوری شد و پست های انجمن در تابلوی سهام معروف انجمن PTT در تایوان جمع آوری شد. جملات استخراج شده از مقالات یا پست ها برای تعیین احتمالات مثبت یا منفی به مدل BERT ارسال می شد. شکل 5 نشان می دهد که ما داده های چهار بعدی احساسات از مقالات خبری و پست های انجمن را با داده های پنج بعدی اطلاعات تاریخی ترکیب می کنیم که عبارتند از قیمت افتتاحیه، قیمت بسته شدن، بالاترین قیمت، پایین ترین قیمت و حجم معاملات در 20 روز گذشته. داده های 9 بعد به عنوان ویژگی های ورودی مدل پیش بینی شبکه عصبی LSTM برای پیش بینی قیمت سهام برای سهام جداگانه استفاده می شود.
جریان داده های روش پیشنهادی ما برای پیش بینی قیمت سهام با استفاده از اطلاعات معاملات تاریخی سهام و هر دو احساسات از مقالات خبری و پست های انجمن، که در آن Pposنسبت مقالات یا پست های مثبت است و Pنفینسبت منفی است.
جمع آوری داده ها
در این مقاله سعی شده است قیمت سهام پیش بینی شود. با توجه به روش پیشنهادی ما، سه دسته داده مورد نیاز است. آنها اطلاعات تاریخی معاملات سهام، اخبار و پست های انجمن از PTT هستند. ما عمدتاً از ماژول های Python Requests و Beautiful Soup برای انجام خزیدن وب و تجزیه HTML برای به دست آوردن داده های آزمایشی از 1 ژانویه 2015 تا 31 مارس 2020 استفاده می کنیم.
ابتدا، اطلاعات معاملات روزانه تک تک سهام را از داده های باز شرکت بورس اوراق بهادار تایوان، از جمله قیمت افتتاحیه، قیمت بسته شدن، بالاترین قیمت، پایین ترین قیمت و حجم معاملات جمع آوری می کنیم. و سپس، ما محتوای اخبار مالی، سیاسی و بینالمللی مربوط به سهام فردی را از The Epoch Times (2021)، China-Times (2021)، Liberty Tines Net (2021)، News in United Daily Network (UDN) (United Daily) جمعآوری میکنیم. Network، 2021)، Money Daily در UDN (Money Daily، 2021)، TVBS Media (2021)، و Yahoo (2021). اخبار تکراری حذف می شود.
PTT یکی از معروف ترین و مورد استفاده ترین انجمن های آنلاین در تایوان است. بسیاری از کاربران اطلاعات مربوط به بازار سهام را در تابلوی سهام پست می کنند یا در مورد آنها بحث می کنند. ما همچنین پست های مربوط به سهام فردی را از PTT جمع آوری می کنیم.
پیش پردازش داده ها
دادههای خام مقالات خبری و پستهای فروم جمعآوریشده از اینترنت توسط خزنده نمیتواند مستقیماً به مدلهای یادگیری عمیق ارسال شود. نحوه پیشپردازش دادههای خام را با جزئیات در بخشهای زیر شرح خواهیم داد.
پیش پردازش داده های خبری
پس از جمعآوری اخبار از اینترنت، ابتدا تمامی اخبار مربوط به تک تک سهام را نگه میداریم و اخبار را به جملات تفکیک میکنیم. اگر مقاله بیش از حد طولانی باشد، با توجه به آزمایش، دقت SA کمتر خواهد بود. در این مقاله احساسات یک مقاله را با توجه به جملات موجود در آن تشخیص خواهیم داد.
اخبار به صورت مقالات رسمی نوشته می شود، بنابراین قوانین خاصی برای استفاده از علائم نگارشی در مقالات وجود دارد که معمولا نقطه، علامت سوال یا علامت تعجب است. آنها انتهای یک جمله هستند، بنابراین از سه علامت نگارشی بالا برای بخش بندی محتوای اخبار استفاده می شود. پس از بخش بندی جملات، نویزهای جملاتی مانند نمادهای خاص، متن در یادداشت و پرانتز را نیز فیلتر می کنیم. جملات پس از پردازش اولیه برای تجزیه و تحلیل احساسات بیشتر در پایگاه داده ذخیره می شوند.
پیش پردازش پست های انجمن از PTT
مدیریت هیئت مدیره سهام PTT سختگیرانه است، مدیران هیئت مدیره فقط پست هایی را در 9 دسته اخبار، تجربه، موضوع، پرسش، مشاوره سرمایه گذاری، گفتگو، اعلان، پرسشنامه و موارد دیگر مجاز می دانند. شکل 6 طرح نموداری تابلوی سهام انجمن های PTT است. مقولههای مشاوره سرمایهگذاری، گفتگو، اعلان، پرسشنامه و موارد دیگر مقولههای مرتبط با این تحقیق نیستند، بنابراین برای تحلیل بیشتر حذف شدند. هر دسته از پست ها دارای مشخصات دقیق هستند، بنابراین محتوای مقاله با استفاده از روش های مختلف پردازش می شود.
عنوان نشان دهنده دسته بندی های مختلف مقالات است.[افسانه].
ابتدا پست هایی را جستجو می کنیم که با نام تک تک سهام ها از عنوان پست مطابقت داشته باشند. و سپس کاراکترها و URL های خاص را در پست یا پاسخ ها حذف کنید. پست های دسته بندی SUBJECT را می توان به چهار زیر مجموعه تقسیم کرد که توسط مدیران هیئت مدیره تعیین می شود. آنها طولانی برای پیشنهاد خرید، کوتاه برای پیشنهاد برای فروش، سوال برای پرسیدن یک سوال، و تجربه برای بیان تجربه به سهام موضوع هستند. اگر بلند یا کوتاه باشد، مشخص شده است که نظر نویسنده نسبت به این سهام مثبت یا منفی است. محتوای مقاله صرفا جهت توضیح دیدگاه و تحلیل ایشان می باشد، فقط این پست را با توجه به طولانی یا کوتاه، مثبت یا منفی قرار دهید. اگر مقوله سؤال است، به این معنی است که نویسنده فقط سؤال می کند. محتوای پست احساسی ندارد، می توانید آن را حذف کنید، فقط پاسخ ها را نگه دارید. اگر Experience باشد، محتوای مقاله بر اساس خطوط تقسیم می شود، زیرا اکثر نویسندگان یک جمله را با یک خط جدید پایان می دهند و سپس جملات و پاسخ ها در پایگاه داده ذخیره می شوند.
محتوای پست های NEWS شامل سه مورد است که عبارتند از لینک اصلی، محتوای اصلی و پاسخ های پست ها. از آنجایی که محتوای اصلی همان اخبار جمع آوری شده قبلی است، فقط از قسمت پاسخ ها برای تقسیم بندی استفاده می شود. از آنجایی که محتوای پستهای دستهبندی EXPERIENCE و QUESTION مشابه زیر دستهبندی SUBJECT است، روش پردازش یکسانی اتخاذ میشود. علاوه بر این، از آنجایی که محتوای پاسخ ها دارای محدودیت تعداد کلمات است، محتوایی که از تعداد کلمات بیشتر باشد به طور خودکار در چندین پاسخ نمایش داده می شود. اگر پاسخ های متوالی توسط یک کاربر نوشته شده باشد، می توان آنها را در یک جمله ترکیب کرد. پس از پردازش فوق، جمله در پایگاه داده ذخیره می شود و سپس تجزیه و تحلیل احساسات انجام می شود.
مدل BERT
کد BERT Devlin (2019) منبع باز است که توسط گوگل ارائه شده است. ما مدل سنتی و ساده شده چینی پیش آموزش BERT را انتخاب می کنیم (انکودر با 12 لایه ترانسفورماتور، 768 واحد پنهان، 12 سر خود توجه، 110 میلیون پارامتر). ما کد را در TensorFlow نسخه 1. 14. 0 برای تجزیه و تحلیل احساسات متن اعمال می کنیم.
9،600 جمله با احساسات مثبت و منفی با برچسب دستی به عنوان داده های آموزشی استفاده می شود ، از 1200 جمله به عنوان داده های تأیید استفاده می شود و 1200 جمله به عنوان داده های آزمون استفاده می شود. یک مدل طبقه بندی خطی پس از آموزش BERT برای انجام طبقه بندی. پارامترهای تنظیم دقیق روی مقادیر زیر تنظیم شده است ، حداکثر دنباله طول 300 ، اندازه دسته 16 ، میزان یادگیری 0. 00002 و دوره های 3 است.
جملات از پیش پردازش شده مقالات خبری و پست های PTT را به مدل آموزش دیده ما وارد کنید ، تعیین کنید که آیا هر جمله متعلق به احساسات مثبت یا منفی است. به منظور جلوگیری از نتیجه طبقه بندی احساسات که بر پیش بینی قیمت سهام تأثیر می گذارد ، فقط جمله با احتمال برابر یا بالاتر از 0. 7 به عنوان مثبت یا منفی خواهد بود. اگر تعداد جملات مثبت در یک مقاله بیش از منفی باشد ، این مقاله به عنوان یک مثبت در نظر گرفته می شود و بالعکس. محاسبه Eqs.(1) و (2) برای به دست آوردن هر احتمال مثبت و منفی احساسات برای اخبار و PTT استفاده می شود. جایی که Pposاحتمال مقالات یا پست های مثبت است (npos) در nجمع، و Pنفیاحتمال مقالات یا پست های منفی است (nنفی) در nجمعواددر این مقاله ، ما از روش دوگانگی برای مقاله واحد استفاده می کنیم. مقالات زیادی در رابطه با یک سهام در روز وجود دارد ، مقادیر Pposو صنفیمحاسبه شده توسط Eqs.(1) و (2) می تواند تأثیر پیش بینی خطا را در چند مقاله کاهش دهد.
مدل های LSTM برای پیش بینی قیمت سهام
به منظور تشخیص تأثیر اطلاعات احساساتی ضمنی در مقالات خبری و پست های PTT در تغییرات قیمت سهام و بهبود صحت پیش بینی. ما سه سهام را از 50 سهام با وزن برتر و سه سهام پس از 50 مورد برتر از داده های باز شرکت بورس اوراق بهادار تایوان انتخاب خواهیم کرد (TWSE ، 2021). سهام منتخب براساس تعداد کل مقالات خبری از سایتهای خبری آنلاین است (دوره دوره ، 2021 ؛ چین-تایمز ، 2021 ؛ آزادی تینز خالص ، 2021 ؛ شبکه روزانه متحد ، 2021 ؛ روزانه ، 2021 ؛ رسانه های TVBS ، 2021؛ یاهو ، 2021) و پست های PTT از سیستم انجمن آنلاین (PTT Forum ، 2021). آنها شرکت Plastics Formosa (FPC 1301) ، شرکت Hon Hai Precision Industry Industry ، Ltd. (Hon Hai 2317) ، شرکت تولید نیمه هادی تایوان ، آموزشی ویبولیتین (TSMC 2330) ، شرکت HTC (HTC 2498) ، هواپیمایی هواپیمایی چین (کال 2610) ، نوری الکترونیکی نبوغ (GSEO 3406). سهام وزن به عنوان هدف پیش بینی انتخاب می شود ، عمدتا به دلیل میزان داده های آموزش است ، زیرا سهام وزنی سهام دارای سهام دارای سهام بزرگتر و ارزش بازار بالاتر در تایوان است. این شرکت ها معمولاً اخبار و بحث بیشتری دارند. علاوه بر این ، ما همچنین می خواهیم بدانیم که آیا مدل آزمایشی همچنین می تواند نتایج پیش بینی شده برای سهام فردی را که بخش کمی از بازار را تشکیل می دهند ، بهبود بخشد. بنابراین ، از سهام موجود در زیر 50 ، سه سهام نیز برای این تحقیق انتخاب شده اند.