یک چارچوب تجزیه و تحلیل داده های ترکیبی با همگرایی احساسات و همجوشی چند منظوره برای پیش بینی روند سهام

  • 2022-08-16

تجزیه و تحلیل بازار سهام نقش مهمی در کسب دانش در مورد بازار سهام ، توسعه استراتژی های معاملاتی و تعیین ارزش ذاتی سهام دارد. با این وجود ، پیش بینی روند سهام به دلیل انواع عوامل تأثیرگذار ، اخبار بی ثبات در بازار و احساسات بسیار دشوار است. در این مطالعه ، ما یک چارچوب تجزیه و تحلیل داده های ترکیبی را ارائه می دهیم که شبکه های عصبی حلقوی و حافظه کوتاه مدت دو طرفه (CNN-BILSTM) را برای ارزیابی تأثیر همگرایی رویدادهای خبری و روند احساسات با داده های مالی کمی در پیش بینی روند سهام ارائه می دهد. ما چارچوب پیشنهادی را با استفاده از دو مطالعه موردی از بخش های املاک و مستغلات و ارتباطات بر اساس داده های جمع آوری شده از بازار مالی دبی (DFM) بین 1 ژانویه 2020 تا 1 دسامبر 2021 ارزیابی کردیم. نتایج نشان می دهد که ترکیب رویدادهای خبری و روندهای احساسات با مالی کمیداده ها دقت پیش بینی روند سهام را بهبود می بخشد. در مقایسه با مدل های یادگیری ماشین معیار ، CNN-BILSTM بهبود 11. 6 ٪ در املاک و مستغلات و 25. 6 ٪ در ارتباطات را در هنگام ترکیب رویدادهای خبری و روندهای احساسات ارائه می دهد. این مطالعه چندین پیامدهای نظری و عملی برای تحقیقات بیشتر در مورد عوامل زمینه ای که بر پیش بینی و تجزیه و تحلیل روند سهام تأثیر می گذارد ، ارائه می دهد.

1. مقدمه

بازارهای سهام مالی تأثیر عظیمی بر اقتصاد جهانی و همچنین سازمان های مالی و اجتماعی دارند. بازار سهام که به آن اوراق بهادار نیز گفته می شود ، شامل یک روش جمع شده برای خرید و فروش سهام مختلف در سطح دولتی یا خصوصی است [1]. در حالی که بازارهای مالی با دستاوردهای عظیم همراه است ، دستاوردهای بزرگی نیز خطراتی را به همراه دارد که می تواند منجر به بدبختی شود. این امر پیش بینی بازار سهام را به یک تلاش جالب اما دشوار تبدیل می کند ، زیرا پیش بینی بازار سهام با دقت بالا به دلیل بی ثباتی بالا ، نوسانات تصادفی ، ناهنجاری ها و آشفتگی بسیار دشوار است. به طور معمول ، هوش بازار سهام شامل تجزیه و تحلیل داده های مربوط به سهام برای پیش بینی نوسانات ارزش سهام بر اساس داده های سری زمانی ، یعنی یک مجموعه زمانی از مشاهدات مربوطه ، مانند ارقام فروش روزانه و قیمت سهام است. داده های سری زمانی قابل تأیید از بورس سهام مالی اطلاعات مفصلی در مورد سهام خاص در چرخه بازار سهام داده شده ارائه می دهد [2]. این داده های زمانی شامل افتتاح و بسته شدن قیمت ها ، بالا و پایین و حجم سهام معامله شده در یک دوره زمانی خاص است. تکنیک های بنیادی و فنی به طور معمول به داده های کمی سهام مانند هزینه سهام ، حجم و پرتفوی و همچنین داده های ذهنی در مورد شرکت های درگیر ، پروفایل های آنها و استراتژی های تجاری آنها متکی هستند [3].

تحقیقات موجود در مورد پیش‌بینی روند سهام عمدتاً بر روی کاربرد روش‌های مختلف مبتنی بر اقتصاد برای پیش‌بینی روند سهام بر اساس داده‌های تاریخی ساختاریافته و خطی، عمدتاً با استفاده از رگرسیون خطی و تکنیک‌های تخمین پارامتر متمرکز شده است [4،5،6،7]. با این حال، نوسانات قیمت سهام نه تنها تحت تأثیر داده های تاریخی معاملات سهام، بلکه تحت تأثیر عوامل غیرخطی مانند عوامل سیاسی، روانشناسی سرمایه گذاری و رویدادهای غیرمنتظره نیز قرار می گیرد. در عمل، ماهیت بدون ساختار رویدادهای خبری و عدم خطی بودن و سازگاری آنها، روش‌های سنتی تحلیل سرمایه‌گذاری کمی را بی‌اثر کرده است. با پیشرفت تکنولوژی، اخبار رسانه‌ها به سیگنال مهمی تبدیل شده‌اند که عوامل غیرخطی مؤثر بر عملکرد قیمت سهام را در بر می‌گیرد و در نتیجه دقت پیش‌بینی قیمت سهام را بهبود می‌بخشد. مطالعات اخیر نشان داده‌اند که اخبار رسانه‌ها و احساسات مرتبط می‌توانند بر رفتار شرکت‌ها و سرمایه‌گذاران و همچنین عملکرد بازار سهام تأثیر بگذارند [8]. به طور مشابه، روندهای بازار سهام تحت تأثیر رویدادهای مختلفی مانند تأثیرات سیاسی، رویدادهای امنیت اطلاعات [9،10]، اخبار یا اطلاعیه های خاص [2] و سیاست ملی [11] قرار می گیرند. با گسترش رویدادهای بازار سهام، اخبار مالی و تصمیمات سرمایه گذاران، درک اینکه چگونه این رویدادها و احساسات بر روندهای بازار سهام تأثیر می گذارد، ضروری است.

اگرچه حرکات قیمت سهام تصادفی است و به طور کلی شامل رویدادهای غیر تصادفی است ، اما هنوز هم می توان آنها را با تجزیه و تحلیل رفتار سرمایه گذار و الگوهای معاملاتی پیش بینی کرد [12،13،14]. در حالی که روشهای آماری مبتنی بر اقتصاد سنج می توانند به محل آزمایشی متکی باشند ، روشهای یادگیری ماشین به دلیل تفسیر محدود ، نیاز به انتخاب ویژگی های دستی و مشکل بیش از حد ، چالش هایی را ایجاد می کنند. برای پرداختن به این موضوعات ، روشهای یادگیری عمیق بر اساس شبکه های عصبی معمولی (CNN) و شبکه های عصبی مکرر (RNN) برای پیش بینی روند بازار سهام استفاده شده است [15،16،17]. با استخراج ویژگی های اساسی داده های بسیار بدون ساختار ، از چنین تکنیک های پیش بینی عمیق یادگیری می توان برای کشف الگوهای پیچیده ذاتی حرکات قیمت سهام بر اساس داده های سری زمانی استفاده کرد. CNN ها و RNN ها به طور کلی مفهوم زمان را در ساختار شبکه ادغام می کنند و ذاتاً برای پردازش داده های سری زمانی مناسب هستند. با این حال ، روش های شبکه عصبی با این مشکل روبرو می شوند که شیب ناپدید می شود وقتی توالی داده های سری زمانی خیلی طولانی می شود. برای حل این مشکل ، مدل حافظه کوتاه مدت (LSTM) به عنوان نسخه بهبود یافته RNN پیشنهاد شده است. مطالعات اخیر نشان داده است که LSTM از الگوریتم های یادگیری ماشین RNN و معمولی مانند جنگل تصادفی (RF) ، دستگاه بردار پشتیبانی (SVM) و درخت تصمیم (DT) در پرداختن به مشکلات پیش بینی سهام بر اساس داده های سری زمانی استفاده می کند [4،18، 19،20،21،22].

به تازگی ، محققان از تکنیک های یادگیری عمیق برای پیش بینی سهام با استفاده از LSTM ها یا LSTM های اصلاح شده مانند PSOLSTM ، LSTM انباشته و LSTM با وزن زمان استفاده کرده اند [2،6،23،24]. مدل های پیش بینی سهام بر اساس LSTM ها ، قطبیت احساسات اطلاعات متنی و همچنین قطبیت احساسات اخبار رسانه ای را با داده های معاملاتی تاریخی به عنوان ورودی تجزیه و تحلیل می کنند. با این وجود ، تعدادی از مشکلات تحقیقاتی وجود دارد که برای بهبود پیش بینی و عملکرد روند سهام با استفاده از داده های کمی و کیفی مربوط به سهام باید مورد توجه قرار گیرد:

اول، در حالی که داده های کمی سهام می توانند بینشی در مورد عملکرد سهام مربوطه ارائه دهند، بسیاری از عوامل دیگر نیز نقش مهمی در این زمینه ایفا می کنند. عوامل مختلف خاص کشور مانند رویدادهای سیاسی، سیاست های شرکتی، انشعاب و ادغام شرکت های مختلف و همچنین رویدادهای جهانی می توانند تأثیر زیادی بر بازار سهام داشته باشند. با این حال، شناسایی چنین رویدادهایی و ارتباط آنها با سرمایه گذاران سرمایه گذاری در بازار سهام یک کار چالش برانگیز است. چنین رویدادهایی تأثیر عمده ای بر بازار سهام دارند. بنابراین، گنجاندن آنها در تجزیه و تحلیل سهام و شناسایی ارتباط آنها با عملکرد سهام می تواند تا حد زیادی به بهبود پیش بینی سهام کمک کند.

دوم، علاوه بر نوسانات ناشی از انواع رویدادها، بازارهای سهام غیرخطی نیز تحت تأثیر احساسات مرتبط با این رویدادها قرار می گیرند که می تواند به طور مستقیم یا غیرمستقیم بر حرکات قیمت تأثیر بگذارد [25]. به عنوان مثال، استفاده از داده‌های تاریخی بازار سهام برای پیش‌بینی عملکرد در یک مقطع زمانی معین می‌تواند سرنخ‌هایی از تأثیر احساسات عمومی ارائه دهد. با این حال، مشخص نیست که چگونه داده های خبری بدون ساختار را می توان با اطلاعات سازمان یافته بازار سهام ادغام کرد. به طور معمول، داده‌های احساسات از متون خبری با اطلاعات قابل تأیید بازار سهام و داده‌های مالی شرکت ترکیب می‌شوند تا به معیارهای سهام کمک کنند [26،27،28]. با این حال، این روش به راحتی داده های احساسات را در داده های مالی با ابعاد بالا از دست می دهد. روش‌های پیش‌بینی سهام با جنبه‌های احساسات اضافی حتی کمتر از روش‌های بدون دقت نشان داده شده است. انتظار می رود که ادغام این منابع داده (عوامل) در یک هوش واحد، دقت پیش بینی را در بازار سهام بهبود بخشد. با این حال، ادغام اطلاعات از منابع داده های مختلف در یک مجموعه داده برای تجزیه و تحلیل بازار چالش برانگیز است زیرا آنها فرمت های متفاوتی دارند (عددی یا متنی).

سوم ، در حالی که رویکردهای مختلفی برای یادگیری ماشین و یادگیری عمیق وجود دارد ، مطالعات اخیر نشان می دهد که می توان از روشهای ترکیبی برای غلبه بر محدودیتهای ذاتی رویکردهای جدا شده استفاده کرد ، به عنوان مثال ، مشکل شیب ناپدید شدن در RNN می تواند تا حد زیادی توسط شبکه های عمیق تغذیه ای جلوگیری شودوادبنابراین ، با ادغام تکنیک های مکمل ، می توان اثربخشی مدل های پیش بینی کننده را بهبود بخشید. به گفته Alotaibi [29] ، بازارهای مالی ذاتاً غیر ثابت ، غیر خطی و هرج و مرج هستند. در یک بورس سهام بی ثبات ، تعیین الگوهای ذاتی نیاز به نمایش داده های مناسب دارد. بنابراین ، به دلیل سازگاری DNN ها و LSTM ها برای بازارهای مالی غیرخطی ، ما ادغام DNN ها و BILSTM ها را با داده های بازار سهام پیشنهاد می کنیم و مناسب بودن آنها را برای ارائه بینش های عمیق تر و بهبود عملکرد پیش بینی های بازار سهام ارزیابی می کنیم.< Pan> سوم ، در حالی که رویکردهای مختلفی برای یادگیری ماشین و یادگیری عمیق وجود دارد ، مطالعات اخیر نشان می دهد که می توان از روشهای ترکیبی برای غلبه بر محدودیت های ذاتی رویکردهای جدا شده استفاده کرد ، به عنوان مثال ، مشکل شیب ناپدید شدن در RNN می تواند تا حد زیادی توسط خوراک عمیق از آن جلوگیری شودشبکه های مختلف. بنابراین ، با ادغام تکنیک های مکمل ، می توان اثربخشی مدل های پیش بینی کننده را بهبود بخشید. به گفته Alotaibi [29] ، بازارهای مالی ذاتاً غیر ثابت ، غیر خطی و هرج و مرج هستند. در یک بورس سهام بی ثبات ، تعیین الگوهای ذاتی نیاز به نمایش داده های مناسب دارد. بنابراین ، با توجه به سازگاری DNN ها و LSTM ها برای بازارهای مالی غیرخطی ، ما ادغام DNN ها و BILSTM ها را با داده های بازار سهام پیشنهاد می کنیم و مناسب بودن آنها را برای ارائه بینش های عمیق تر و بهبود عملکرد پیش بینی بازار سهام ارزیابی می کنیم. رویکردهای مربوط به یادگیری ماشین و یادگیری عمیق ، مطالعات اخیر نشان می دهد که می توان از روشهای ترکیبی برای غلبه بر محدودیتهای ذاتی رویکردهای جدا شده استفاده کرد ، به عنوان مثال ، مشکل شیب ناپدید شدن در RNN می تواند تا حد زیادی توسط شبکه های عمیق تغذیه ای اجتناب شود. بنابراین ، با ادغام تکنیک های مکمل ، می توان اثربخشی مدل های پیش بینی کننده را بهبود بخشید. به گفته Alotaibi [29] ، بازارهای مالی ذاتاً غیر ثابت ، غیر خطی و هرج و مرج هستند. در یک بورس سهام بی ثبات ، تعیین الگوهای ذاتی نیاز به نمایندگی مناسب داده ها دارد. بنابراین ، به دلیل سازگاری DNN ها و LSTM ها برای بازارهای مالی غیرخطی ، ما ادغام DNN ها و BILSTM ها را با داده های بازار سهام پیشنهاد می کنیم و مناسب بودن آنها را برای ارائه بینش های عمیق تر و بهبود عملکرد پیش بینی های بازار سهام ارزیابی می کنیم.

برای پرداختن به سه چالش تحقیقاتی فوق ، این مطالعه یک چارچوب تجزیه و تحلیل داده های ترکیبی را ارائه می دهد که شبکه های عصبی Convolutional و حافظه کوتاه مدت دو طرفه (CNN-BILSTM) را برای ارزیابی تأثیر همگرایی رویدادهای خبری و روند احساسات با داده های مالی کمی ارائه می دهد. در مورد پیش بینی روند سهام. CNN ابزاری قدرتمند برای استخراج ویژگی های رویداد از News Text است ، در حالی که BILSTM از دو شبکه LSTM برای به دست آوردن اطلاعات متنی به جلو و عقب استفاده می کند ، که برای تبعیض قطبیت احساسات با توجه به زمینه مناسب تر است و می تواند در مقایسه با یک LSTM واحد ، تجزیه و تحلیل احساسات را بهبود بخشد [11 ،15،24]. در این مطالعه ، ما از CNN و BILSTM استفاده کردیم زیرا این دو تکنیک به ما امکان می دهد ویژگی های ورودی مفصلی را بر اساس این واقعیت ایجاد کنیم که CNN می تواند ساختارهای داخلی مربوطه را در داده های سری زمانی از طریق عملیات حلقوی و جمع آوری تشخیص دهد [3]. علاوه بر این ، الگوریتم های CNN و BILSTM نشان داده شده است که در طبقه بندی داده های سری زمانی ، دقیق تر و مقاوم تر در برابر آشفتگی هستند [24،30،31]. بنابراین الگوریتم های CNN و BILSTM قادر به یادگیری روابط در سری زمانی هستند بدون اینکه به مقادیر زیادی از داده های سری زمانی تاریخی نیاز داشته باشند. به طور مشابه ، BILSTM و CNN قبلاً نشان داده شده است که نتایج بسیار دقیقی را برای کارهای استخراج متن که به اطلاعات مدل سازی متوالی نیاز دارند ارائه می دهند [7]. علاوه بر این ، اجرای آنها نیاز به زمان و تلاش کمتری دارد [25]. مدل پیشنهادی از رویدادهای مالی عینی که از گزارش های خبری مانند رویدادهای اضافی ، قیمت سهام و رویدادهای تعلیق استخراج شده است ، از یک طرف استفاده می کند. از طرف دیگر ، از BILSTM برای تجزیه و تحلیل قطبیت احساسات گزارش های خبری و محاسبه مقادیر احساسات متون خبری استفاده می شود. از ویژگی های اخبار سهام ، از جمله انواع رویدادهای خبری و ارزش های احساسات ، همراه با ویژگی های مالی عددی سهام به عنوان ورودی به شبکه LSTM استفاده می شود و از اطلاعات تاریخی سهام برای پیش بینی افزایش و سقوط آینده استفاده می شودموجودی.

یک چارچوب پیش بینی تجزیه و تحلیل داده های ترکیبی بر روی الگوریتم های یادگیری عمیق CNN و BILSTM که ترکیبی از شاخص های قیمت سهام ناهمگن (دسته های مختلف رویدادهای خبری ، احساسات کاربر ، متغیرهای کلان اقتصادی تاریخی و داده های قیمت سهام تاریخی) برای پیش بینی حرکت قیمت سهام آینده است. بنابراین ، این مطالعه نشان می دهد که تکنیک های تجزیه و تحلیل کمی سنتی همراه با نظرات سرمایه گذار و متخصص (تجزیه و تحلیل بنیادی) پیش بینی های دقیق تری از عملکرد سهام ارائه می دهد.

ما به طور تجربی با استفاده از دو مطالعه موردی از بخش های املاک و مستغلات و ارتباطات ، اثربخشی چارچوب پیشنهادی را با داده های سهام واقعی از بازار مالی دبی (DFM) بررسی کردیم. ما یک تجزیه و تحلیل مقایسه ای از رویکرد خود با سه روش اساسی برای بررسی اهمیت ویژگی ها و همجوشی احساسات در بهبود عملکرد پیش بینی روند سهام ارائه می دهیم. نتایج نشان می دهد که عملکرد پیش بینی مدل های یادگیری ماشین با ترکیب اطلاعات مختلف مربوط به سهام می تواند به طور قابل توجهی بهبود یابد.

از آنجا که داده های بازار سهام در طول همه گیر COVID-19 جمع آوری شد ، نتایج این مطالعه استدلال های معتبری را ارائه می دهد تا نشان دهد چگونه رویدادهای خبری و در نتیجه بازار سهام می توانند تحت تأثیر داده های همه گیر قرار گیرند. تجزیه و تحلیل وقایع خبری در طول همه گیر Covid-19 و همچنین وضعیت عاطفی مردم از طریق تجزیه و تحلیل رویدادهای خبری ، می تواند تأثیر اقتصادی COVID-19 را در بورس سهام نشان دهد. این بینش ها می توانند منجر به پیش بینی دقیق بازار سهام شوند. با توجه به پیشرفت های اخیر در الگوریتم های هوش مصنوعی و اطلاعات عظیمی از اطلاعات در مورد همه گیر ، این مطالعه داده های بازار را سنتز می کند و یک طبقه بندی کننده را برای پیش بینی جهت حرکت بازار سهام بعدی آموزش می دهد.

باقیمانده این مقاله به شرح زیر سازماندهی شده است. بخش 2 ادبیات فعلی و مرتبط را در مورد تجزیه و تحلیل و پیش بینی بازار سهام بررسی می کند. بخش 3 تکنیک ها و روش های مورد استفاده در این مطالعه را برای ادغام داده های مرتبط با سهام و تجزیه و تحلیل تأثیر آنها در پیش بینی بازار سهام شرح می دهد. بخش 4 طرح آزمایشی و توضیحات موردی را برای ارزیابی کاربرد مدل پیشنهادی ارائه می دهد. بخش 5 نتایج تجربی این مطالعه را گزارش می کند و در مورد پیامدهای آن برای تحقیق و عمل بحث می کند. سرانجام ، بخش 6 نتیجه گیری از این کار را ارائه می دهد و راه های احتمالی تحقیقات آینده را پیشنهاد می کند.

2. بررسی ادبیات

پیش بینی بازار سهام یک موضوع تحقیقاتی مهم است که توجه قابل توجهی را هم از سوی محققان و هم از سوی سرمایه گذاران به خود جلب کرده است. تحقیقات قبلی در مورد پیش‌بینی بازار سهام را می‌توان به طور کلی به دو دسته اصلی تقسیم کرد: روش‌های آماری مبتنی بر اقتصاد سنجی، که شامل تجزیه و تحلیل داده‌های مالی سری‌های زمانی است. و تکنیک های مبتنی بر هوش محاسباتی، که هم داده های کمی و هم اطلاعات متنی را در بر می گیرد [2،3،25].

تجزیه و تحلیل آماری مبتنی بر اقتصاد سنجی عمدتاً بر داده‌های معاملات تاریخی، داده‌های مالی شرکت و داده‌های کلان برای شناسایی و توصیف الگوهای تغییر در داده‌های سهام در طول زمان و پیش‌بینی روندهای آتی سهام متکی است [30،32،33]. چندین الگوریتم یادگیری ماشین برای شناسایی الگوها در حجم زیادی از اطلاعات مالی، از جمله ماشین‌های بردار پشتیبان (SVM)، شبکه‌های عصبی مصنوعی (ANN)، Parsimonious Bayes و Random Forest استفاده شد [24،34]. جیانگ، لیو [35] نشان دادند که یادگیری ماشینی می‌تواند برای پیش‌بینی عملکرد آینده سهام فردی با استفاده از داده‌های تاریخی سهام استفاده شود. کیم، کو [36] از SVM برای پیش‌بینی صعود و سقوط تک تک سهام استفاده کرد و اثربخشی SVM را در طبقه‌بندی صعود و سقوط سهام فردی از طریق تحلیل تجربی تأیید کرد. لهمیری [37] عملکرد شبکه های عصبی مصنوعی و SVM را در پیش بینی حرکات سهام مقایسه کرد و دریافت که ANN از نظر دقت پیش بینی بهتر از SVM بود و ANN پیشخور به دلیل توانایی آن در پیش بینی حرکات صعودی و نزولی سهام و همچنین به طور گسترده ای مورد استفاده قرار گرفته است. قیمت سهام [38].

با این حال، از آنجایی که قیمت سهام ذاتاً در کوتاه مدت غیرقابل پیش بینی است، استفاده از داده های معاملات تاریخی برای تجزیه و تحلیل قیمت سهام دارای محدودیت هایی است و نمی تواند نتایج پیش بینی را بیشتر بهبود بخشد. تئوری اقتصاد رفتاری بیان می‌کند که سرمایه‌گذاران در مسائل تصمیم‌گیری پیچیده و نامطمئن مستعد احساسات شخصی و اجتماعی هستند [18]. علت اصلی تغییرات قیمت سهام، واکنش به اطلاعات جدید است و اخبار در رسانه ها می تواند به عنوان منابع اطلاعاتی برون زا برای پیش بینی کوتاه مدت قیمت سهام مفید باشد [13،19]. با پیشرفت در تجزیه و تحلیل متن و شیوع روزافزون رسانه های اجتماعی، وبلاگ ها و اخبار به اشتراک گذاشته شده توسط کاربران، ترکیب محتوای متنی در تحقیقات بازار سهام به موضوع جالبی تبدیل شده است. ترکیبی از رویدادهای خبری و پیام‌های رسانه‌های اجتماعی برای بهبود دقت پیش‌بینی مدل‌های پیش‌بینی، به اهمیت توسعه تکنیک‌های مناسب برای تحلیل تأثیر آن‌ها بر بازار منجر شده است. در سال‌های اخیر، تعداد مطالعاتی که تأثیر ترکیبی احساسات رسانه‌های اجتماعی و اخبار وب کاربران را بر عملکرد قیمت سهام بررسی می‌کنند، افزایش یافته است. به عنوان مثال، ژانگ، لی [39] همبستگی بالایی بین عملکرد قیمت سهام و احساسات عمومی، با دقت پیش‌بینی بین 55 تا 63 درصد گزارش کردند. آنها همچنین یک روش مارکوف پنهان جفت شده توسعه یافته را برای پیش بینی قیمت سهام بر اساس اخبار اینترنتی و داده های تاریخی سهام پیشنهاد کردند. مرجع.[40] یک سیستم یادگیری چندمنظوره چندمنظوره را بر اساس سه منبع داده مختلف پیشنهاد کرد و دریافت که دقت هنگام استفاده از منابع داده چندگانه در مقایسه با منابع منفرد افزایش می‌یابد.

با پیشرفت تکنیک‌ها و کاربردهای یادگیری عمیق، توجه بیشتری به مدل‌های یادگیری مبتنی بر شبکه عصبی برای پیش‌بینی قیمت سهام شده است که هم داده‌های کمی سهام و هم داده‌های خبری را در بر می‌گیرد. هیرانشا، گوپالاکریشنان [41] چهار نوع معماری یادگیری عمیق، یعنی پرسپترون چندلایه (MLP)، شبکه های عصبی مکرر (RNN)، حافظه کوتاه مدت (LSTM) و شبکه های عصبی کانولوشنال (CNN) را برای پیش بینی سهام یک شرکت ارائه کردند. قیمت بر اساس قیمت های تاریخی موجودبه طور مشابه، نبی پور، نیری [20] از RNN و LSTM برای بررسی اینکه آیا اخبار مربوط به قیمت سهام و قطبیت احساسات مرتبط با آن بر قیمت سهام تأثیر می گذارد یا خیر، استفاده کردند. آنها در مطالعه خود دریافتند که LSTM نتایج دقیق تری را با بالاترین تناسب مدل نشان می دهد. آنها همچنین گزارش دادند که دقت پیش‌بینی می‌تواند زمانی بهبود یابد که هم متون خبری مرتبط با سهام و هم توییت‌ها شمارش شده و به عنوان ورودی برای پیش‌بینی قیمت سهام استفاده شود. نصیر، شوکت [42] قیمت‌های شاخص داو جونز را بر اساس احساسات کاربران ثبت‌شده در توییتر تحلیل کردند و نشان دادند که سیگنال‌های احساسی تعبیه‌شده در اخبار، پیش‌بینی‌کننده قابل اعتمادی برای قیمت سهام هستند. پولاموری، سرینیواس [43] از یک مدل RNN با واحدهای مکرر دروازه‌ای برای پیش‌بینی حرکات سهام و ویژگی‌های عددی ترکیب شده قیمت سهام برای بررسی قطبیت احساسات اخبار مالی در توییتر استفاده کردند. به طور مشابه، پریا، روادی [26] از CNN و RNN برای مطالعه مدل روند سهام که هم عناوین اخبار و هم شاخص های فنی را شامل می شود، استفاده کردند و نشان دادند که عناوین اخبار دقت پیش بینی را بیشتر از محتوای اخبار بهبود می بخشند. شوبانا و اومامهسواری [44] اثرات سیگنال‌های بازار سهام تعبیه‌شده در وب‌سایت‌های خبری، نوارهای سهام، وبلاگ‌ها و سایر اطلاعات رسانه‌ای را بررسی کردند و دریافتند که سرمایه‌گذاران سریع‌تر و قوی‌تر به احساسات مثبت پاسخ می‌دهند.

به تازگی ، روشهای یادگیری عمیق ترکیبی برای بهبود عملکرد پیش بینی روند بازار سهام پیشنهاد شده است. Srivastava ، Zhang [45] یک مدل ترکیبی به نام RCNN ایجاد کرد که RNN و CNN را با بهره برداری از مزایای هر دو مدل ترکیب می کند. آزمایشات آنها نشان داد که سیستم ترکیبی ترکیبی در هنگام استفاده از داده های متن و شاخص های فنی به عنوان داده های ورودی ، تأثیر مثبتی بر عملکرد مدل دارد و مدل پیشنهادی بهتر از مدل CNN عمل می کند. یک مدل ترکیبی دیگر به نام RNN-BOOST برای پیش بینی نوسانات سهام اعمال شد [35]. این ویژگی های LDA و احساسات را از داده های رسانه های اجتماعی استخراج می کند و آنها را با شاخص های فنی سهام ترکیب می کند. مدل پیشنهادی RNN و Adaboost را برای دستیابی به دقت متوسط 66. 54 ٪ ترکیب می کند [41]. مدل RNN از واحدهای بازگشتی دروازه (GRUS) برای پیش بینی قیمت سهام استفاده می کند. ترکیبی از سه مدل پیش بینی ، یعنی SVM ، سیستم استنتاج عصبی-فازی سازگار و شبکه عصبی مصنوعی (ANN) ، برای پیش بینی قیمت سهام با استفاده از افکار عمومی پیشنهاد شده است [46]. مدل های پیشنهادی با استفاده از شاخص سهام تاریخی شاخص استانبول BIST 100 مورد بررسی قرار گرفت و نتایج خوبی به همراه داشت. NTI ، Adekoya [3] پیش بینی حرکت قیمت سهام در چهار کشور را بر اساس احساسات در توییت بررسی کرد و همبستگی بالایی بین قیمت سهام و توییت پیدا کرد.

علیرغم توسعه روزافزون و کاربرد تکنیک‌های تجزیه و تحلیل داده‌های ترکیبی مبتنی بر رویکردهای یادگیری شبکه‌های عصبی برای تحلیل بازار سهام، مدل‌های فعلی که داده‌های کمی سهام و داده‌های خبری را در بر می‌گیرند، استخراج قطب‌های احساسات اطلاعاتی را عمدتاً به‌عنوان پشتیبان و نه بخشی جدایی‌ناپذیر از روند سهام در نظر می‌گیرند. پیش بینی. اکثر مطالعات قبلی از متون توییتر و توییتر به عنوان منبع داده های اطلاعاتی برای انتقال بهتر احساسات استفاده کرده اند [2،5،10،14،20،21،47]. با این حال، با توجه به اینکه اخبار واقعیت درک شده را منعکس می‌کنند و قطبیت احساسات معمولاً مبهم است، بهبود دقت پیش‌بینی با برجسته کردن نظرات را نمی‌توان بدیهی تلقی کرد. Arosemena، Pérez [30] پیشنهاد استفاده از مدل موضوعی تخصیص دیریکله پنهان (LDA) را برای استخراج کلمات کلیدی از متون توییت، و سپس تجزیه و تحلیل ویژگی های احساسی متون توییت بر اساس کلمات کلیدی به عنوان ورودی برای پیش بینی سهام ارائه کرد. برخلاف مطالعات قبلی، و با توجه به اینکه رویدادهای خبری بیشتر نمایانگر تأثیرات اطلاعات رسانه‌ها بر حرکت سهام هستند تا احساسات خبری، این مطالعه از یک روش همجوشی چند ویژگی استفاده می‌کند که رویدادهای خبری و هم‌گرایی احساسات را در بر می‌گیرد تا ویژگی‌های عددی سهام و بیشتر را گسترش دهد. بهبود دقت پیش بینی سهام

3. روش شناسی

هدف اصلی این مطالعه بهبود دقت پیش‌بینی روند بازار سهام با ترکیب رویدادهای خبری و الگوهای احساسات با داده‌های مالی کمی در یک مدل ترکیبی CNN-BiLSTM است. روش تحقیق پیشنهادی در شکل 1 نشان داده شده است. این شامل پنج مرحله اصلی است: (1) داده های مالی مرتبط با سهام و اخبار به طور جداگانه غربال شده و پیش پردازش شده تا پایگاه داده سهام و پایگاه خبری ایجاد شود.(2) اخبار سهام به رویدادهای سهام تقسیم می شوند و هر رویداد خبری با یک نوع رویداد برچسب گذاری می شود.(3) یک طبقه‌بندی‌کننده CNN برای طبقه‌بندی نوع رویداد ایجاد و آموزش داده شده است.(4) رویدادهای خبری با یک احساس برچسب گذاری می شوند و یک طبقه بندی کننده احساسات خبری با استفاده از BiLSTM ایجاد می شود. و (5) ویژگی های اخبار سهام و ویژگی های قیمت سهام آموزش داده شده در مراحل (3) و (4) به شبکه LSTM داده می شود تا تناسب همجوشی آنها برای پیش بینی افزایش و سقوط روند سهام ارزیابی شود.

3. 1. استخراج ویژگی های کمی داده های سهام

تحقیقات قبلی در مورد پیش‌بینی بازار سهام نشان داده است که شاخص‌های مختلفی مانند نسبت قیمت به درآمد یک شرکت، نسبت قیمت به خالص و خالص جریان نقدی می‌توانند به پیش‌بینی عملکرد تک تک سهام کمک کنند [6،10،16،17،19]. برای به دست آوردن ویژگی‌های مالی عددی یک سهام، داده‌های مالی (مانند نسبت قیمت به درآمد و نسبت قیمت به خالص)، داده‌های جریان نقدی (مانند نسبت‌های ورودی و فروش)، و اطلاعات سهام (مانند قیمت‌های افتتاح و بسته شدن) را انتخاب می‌کنیم.). علاوه بر این، شاخص کل بازار و شاخص بخش تک تک سهام به دلیل تأثیرگذاری بر حرکت سهام، به عنوان شاخص ارزش مالی سهام نیز مورد استفاده قرار می گیرند.

سپس ویژگی‌های مالی کمی برای سهام نمونه‌گیری شده از قبل پردازش شد تا مقادیر گمشده حذف شوند. به عنوان مثال، اگر داده های یک اندیکاتور برای یک روز خاص از بین رفته باشد (مثلاً در طول توقف معاملات)، داده های آن روز حذف می شود. علاوه بر این، با توجه به نوع و مقیاس متفاوت شاخص‌های مالی کمی، استفاده مستقیم از مقادیر خام شاخص‌ها ممکن است باعث تسلط شاخص‌های با ارزش بالاتر بر آموزش و تضعیف تأثیر شاخص‌های با مقادیر کمتر شود. بنابراین، داده‌های مالی کمی با استفاده از z-score برای اطمینان از قابلیت مقایسه بین داده‌های شاخص نرمال شدند. با X j = [ x 1 j , x 2 j , … , x ij , … , x nj ] به عنوان بردار متشکل از مقادیر j امین شاخص مالی در T n روز و x ij به عنوان مقدار jنشانگر مالی در روز i، هر مقدار در X j با امتیاز z- نرمال می شود، همانطور که در رابطه (1) نشان داده شده است.

که در آن μ j و σ j نشان دهنده میانگین و انحراف معیار تمام مقادیر شاخص مالی X j است. جدول 1 ویژگی های کمی سهام مالی متشکل از شاخص های سهام p را در T n روز نشان می دهد که در آن X 1~X p نشان دهنده خصوصیات مالی p است.

3. 2. استخراج ویژگی های رویدادهای خبری

استخراج ویژگی رویدادهای خبری برای شناسایی و استخراج رویدادهای عینی مالی از سرفصل های اخبار انجام شد. ابتدا، داده‌های سرفصل از پیش پردازش شدند و از ابزار نشانه‌گذار کلمه طبیعی (NLTK) برای توکن کردن کلمات و حذف کلمات توقف استفاده شد. در همان زمان، کلمات توقف سفارشی و واژگان مالی برای بهبود دقت توکن سازی کلمات اضافه شدند. واژگان مالی سفارشی شامل کلمات رایج مالی، کدها و اختصارات شرکت های پذیرفته شده در بورس و همچنین نام مدیران اجرایی شرکت های بورسی می باشد. اخبار مالی بر اساس رویدادهای عینی بر اساس فیلد کلیدواژه اخبار در طبقه بندی اخبار بازار مالی دبی (DFM) دسته بندی شدند که در مجموع 82 رویداد خبری به دست آمد. جدول 2 فهرستی از دسته بندی های انتخابی رویدادهای خبری و اصطلاحات توصیفی آنها را نشان می دهد.

3. 3. طبقه بندی رویدادهای خبری بر اساس مدل CNN

برای طبقه بندی اخبار بازار سهام بر اساس 82 رویداد خبری طبقه بندی شده، ما یک طبقه بندی اخبار مبتنی بر CNN ایجاد کردیم که شامل یک لایه ورودی، یک لایه پیچیدگی، یک لایه ادغام و یک لایه کاملاً متصل است. خروجی هر لایه ورودی لایه بعدی است [2،48]. ابتدا عناوین اخبار با استفاده از Word2Vec آموزش داده شدند و ماتریس بردار کلمه حاصل به عنوان ورودی لایه کانولوشن استفاده شد. لایه کانولوشن از فیلترهایی برای در هم پیچیدن ماتریس برداری کلمه سرفصل ها و تولید نقشه های ویژگی استفاده می کند. لایه ادغام نمونه هایی از نقشه های ویژگی می گیرد و مهم ترین ویژگی ها را در هر نقشه ویژگی استخراج می کند تا به لایه کاملاً متصل منتقل شود. در نهایت، لایه کاملاً متصل، نتیجه طبقه‌بندی نهایی سرفصل‌ها را با استفاده از تابع SoftMax [12] به دست می‌آورد و نوع رویداد سرفصل‌ها را خروجی می‌دهد. اخبار روزانه در مورد یک سهم خاص توسط طبقه بندی اخبار CNN شمارش می شود. برای هر ورودی خبر به طبقه‌بندی‌کننده اخبار، یک نوع رویداد واحد تولید می‌شود. بنابراین، فرکانس هر رویداد در روز برای به دست آوردن ماتریس ویژگی اخبار، همانطور که در جدول 3 نشان داده شده است، شمارش می شود. در اینجا، N 1~N p نشان دهنده رویدادهای خبری p است، که در آن p = 82 و n ij نشان دهنده فراوانی ویژگی رویداد N j در روز T i است.

3. 4. تشخیص احساسات متن خبری

رویداد خبری یک رویداد عینی را توصیف می‌کند، در حالی که احساس یک متن خبری، نظرات زمینه‌ای درباره رویداد خبری، یعنی منفی یا مثبت را توصیف می‌کند. بنابراین، برای تعیین احساس یک متن خبری، باید اطلاعات زمینه ای داده شده را در نظر گرفت. برای این منظور، BiLSTM با دو شبکه LSTM آموزش داده می شود، یک دنباله آموزشی که از ابتدای متن شروع می شود و یک دنباله آموزشی که از انتهای متن شروع می شود، که به همان لایه خروجی متصل می شوند. BiLSTM قادر به ادغام اطلاعات توالی جلو و عقب هر نقطه است که از یک LSTM واحد برای تعیین قطبیت احساسات متن مؤثرتر است [13،48]. شکل 2 روند محاسبه قطبیت احساسات تیترهای اخبار را با استفاده از BiLSTM نشان می دهد.

پس از پیش پردازش داده ها برای تجزیه و تحلیل احساسات مبتنی بر BiLSTM، هر تیتر خبری x با حداکثر N کلمه کوتاه می شود و مرحله پردازش LSTM روی N تنظیم می شود. برای عناوین با طول کمتر از N، آنها با صفر کردن سمت چپ پایان می یابند. برای هر زمان نمونه برداری (t ≤ N)، کلمه بردار x t بدست آمده توسط آموزش Word2Vec به یک لایه LSTM با نورون های L داده می شود. این لایه شبکه عصبی یک بردار حالت ضمنی h t با بعد L را خروجی می دهد. هر نورون سه ساختار آستانه را تنظیم می کند، یعنی دروازه f را فراموش کرده، دروازه ورودی i و دروازه خروجی o. بر اساس بردار حالت ضمنی گذشته ht − 1 و ورودی فعلی xt، تصمیم می‌گیرد که چه اطلاعاتی باید فراموش شود، چه اطلاعات جدیدی باید وارد شود و چه اطلاعات حافظه جدیدی باید کدگذاری شود تا ht به عنوان خروجی به دست آید. لایه LSTM در زمان t همانطور که در معادلات (2) - (7) نشان داده شده است محاسبه می شود.

  • نویسنده : عفت السادات شجاعی
  • منبع : thesundayschool.space
  • بدون دیدگاه

ثبت دیدگاه

مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰
قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.