در این مقاله ما یک روش شاخص فنی غیرخطی ترکیبی برای شناسایی ترکیبات مناسب شاخص های فنی سهام به عنوان ورودی در مدل های غیرخطی ارائه می دهیم. این روش با مثال از شاخص های سهام چینی و 35 شاخص فنی مختلف سهام با استفاده از شبکه های عصبی به عنوان روش غیر خطی انتخاب شده نشان داده شده است. شاخص های فنی بازار سهام می توانند در مورد عملکرد آینده سهام مورد تجزیه و تحلیل سیگنال های متناقض ایجاد کنند. علاوه بر این ، برخی از روشهای غیرخطی ، مانند شبکه های عصبی ، می توانند در هنگام برخورد با مشکلات ابعاد بالا به دلیل مسئله حداقل محلی ، قدرت عمومی سازی ضعیفی داشته باشند. بنابراین ، رویکردهای غیرخطی که می توانند ترکیبات مناسب متغیرهای ورودی را شناسایی کنند از اهمیت روشنی برخوردار هستند. نشان داده می شود که رویکرد پیشنهادی ، هنگام استفاده از شبکه های عصبی به عنوان طبقه بندی ، نرخ خطا را پایین تر از آنهایی که از شبکه های عصبی مستقیم و بدون کاهش ابعاد استفاده می کنند ، تولید می کند. همچنین نشان داده می شود که صرفاً افزایش تعداد نورون ها باعث افزایش دقت نمی شود. رویکرد ارائه شده در این مقاله با برنامه ای برای بورس با استفاده از شبکه های عصبی نشان داده شده است اما می تواند در زمینه های دیگر اعمال شود و همچنین می تواند با سایر تکنیک های غیرخطی مانند دستگاه های بردار پشتیبانی به عنوان مثال استفاده شود.
1. مقدمه
در طی چند دهه گذشته افزایش تکنیک های پیش بینی غیرخطی ، مانند مثال شبکه های عصبی (NN) و دستگاه های بردار پشتیبانی (SVM) افزایش یافته است. غیرخطی بودن عملکرد بازار سهام توسط بسیاری از محققان مانند مثال VRBKA و رولند ذکر شده است [1]. در حقیقت ، غیرخطی بودن بازار سهام یکی از دلایل انتخاب شبکه های عصبی (یک رویکرد غیر خطی) توسط VRBKA و Rowland [1] به عنوان الگویی برای پیش بینی قیمت سهام در بورس پراگ بود. در این مقاله ، نویسندگان با موفقیت شبکه های چند لایه Perceptron و Radial Base را در آن بازار سهام خاص به کار بردند. در حالی که شبکه های عصبی یک روش مهم پیش بینی سهام هستند ، باید توجه داشت که مانند هر تکنیک دیگری محدودیت هایی دارد. هوراک و کرولیکی [2] در این زمینه مقایسه جالبی بین روش تراز سری زمانی نمایی و تراز سری زمانی با روش شبکه های عصبی انجام دادند. نویسندگان بر اهمیت شبکه های عصبی در زمینه پیش بینی سهام تأکید کردند و ذکر کردند که به طور کلی شبکه های عصبی پیش بینی بهتری نسبت به روشهای سنتی دارند. با این حال ، آنها همچنین نتیجه گرفتند که در مثال خود ، به یک سهام بی ثبات ، روش پیش بینی سنتی نتایج بهتری نسبت به شبکه عصبی ایجاد کرده است. این امر اهمیت استفاده از تکنیک های مناسب پیش بینی سهام را با مقالات موجود در ادبیات موجود نشان می دهد که کمتر از نتایج بهینه برای برخی از تکنیک های محبوب پیدا می کند. به عنوان مثال ، Groda و Vrbka [3] نتیجه گرفتند که روش جعب ه-جنکینز در مورد سهام ذکر شده در بورس پراگ روش مناسبی نیست.
یک پیشرفت مهم در سال های اخیر افزایش بسیار زیاد داده های موجود در بسیاری از رشته ها است. داشتن تعداد بالایی از متغیرها که به طور بالقوه می توانند در فرآیندهای غیر خطی تأثیر بگذارند نسبتاً مکرر است، به Guyon و Elisseeff [4] مراجعه کنید. تحقیقات قابل توجهی وجود دارد که موضوع انتخاب متغیر را با استفاده از روشهای خطی پوشش میدهد، مانند مثال Hocking [5]، اما این تکنیکها ممکن است زمانی ایدهآل نباشند که برای مدلسازی غیر خطی در نظر گرفته شوند. ادبیات نسبتا کمی در مورد موضوع انتخاب متغیر فرآیندهای غیرخطی از رویکرد ترکیبی وجود دارد. فرض اساسی این است که در فرآیندهای غیر خطی، روشی که در آن متغیرهای مستقل مختلف با یکدیگر تعامل دارند، میتواند بسیار پیچیده باشد. مشخص کردن اینکه کدام ترکیب از متغیرها برای یک مسئله غیر خطی بهتر کار می کنند، به وضوح بی اهمیت نیست، به یوان و لین [6] مراجعه کنید. روش های جالبی مانند Rech و Terasvirt [7] وجود دارد که از تقریب چند جمله ای استفاده می کنند. اشکال این نوع رویکرد این است که فقط زمانی قابل اجرا است که تعداد نسبتاً کمی از متغیرها وجود داشته باشد.
Ye و Sun [8] یک روش تکراری پیشنهاد کردند که در آن با شروع از همه متغیرهای در نظر گرفته شده، از بین متغیرها حذف شده و مجموعه متغیرهای حاصل با استفاده از شبکههای عصبی استفاده میشود و سپس نتایج مقایسه میشوند.
بازار سهام، مانند بسیاری از زمینه های دیگر، شاهد افزایش زیادی در تعداد داده های موجود بوده است. به طور خاص، بسیاری از محققان و پزشکان تعداد زیادی از شاخص های فنی را توسعه داده اند. ورود به جزئیات این شاخصها خارج از محدوده این مقاله است، اما ذکر این نکته مهم است که آنها معمولاً با استفاده از دادههای تاریخی مانند قیمت پایانی یک سهام ساخته میشوند. میانگین متحرک یک شاخص فنی شناخته شده است [9،10،11،12،13،14،15]. یک میانگین متحرک ساده را می توان به عنوان میانگین قیمت پایانی یک سهام یا شاخص خاص در یک دوره زمانی معین ساخت. چندین شاخص فنی و استراتژی های مختلف بر اساس آن شاخص ها با سطوح مختلف سودآوری وجود دارد [16،17،18،19]. شبکه های عصبی با موفقیت در زمینه پیش بینی بازار سهام اعمال شده اند [20،21،22،23،24،25]. یکی از اشکالات شبکه های عصبی که اغلب ذکر شده است، موضوع حداقل های محلی است [26،27،28،29] که می تواند باعث تعمیم ضعیف شبکه عصبی یا به عبارت دیگر، پیش بینی ضعیف در مواجهه با داده های جدید شود. در این راستا تمرکز بر کاهش ابعاد داده ها برای جلوگیری از گیرکردن شبکه عصبی در این حداقل محلی وجود داشته است [30،31،32،33،34]. در این مقاله ما یک رویکرد ترکیبی غیر خطی برای انتخاب متغیر اعمال شده برای شاخصهای فنی بازار سهام پیشنهاد میکنیم. با توجه به تعداد شاخص های فنی احتمالی که امروزه در دسترس هستند، واضح است که همه ترکیبات ممکن را نمی توان آزمایش کرد.
در این کار ما از مجموعه ای از 35 شاخص فنی استفاده می کنیم، بنابراین تعداد ترکیب های ممکن خیره کننده است. به همین دلیل رویکرد پیشنهادی به تصادفی سازی متوسل می شود. الگوریتم با تولید تعداد ترکیبی از پیش تعیین شده هر کدام با اندازه نصف تعداد نشانگرهای موجود شروع می شود. دلیل استفاده از چنین اندازه ای این است که حداکثر تعداد ترکیبات برای یک n و k معین، یعنی ضریب دوجمله ای n انتخاب k، برای k = ⌊ n 2 ⌋ به دست می آید. این با بررسی مثلث پاسکال مشهود است، اما می توان با استفاده از خواص دوجمله ای نیوتن ثابت کرد. از این مجموعه اولیه ترکیبات، ترکیبهای جدید بهطور تصادفی تولید میشوند و بهترینها را در یک فرآیند تکراری حفظ میکنند که با برآورده شدن شرط توقف به پایان میرسد. روش پیشنهادی برای بهبود رویکرد پایه، یعنی استفاده از تمام شاخصهای موجود، هنگام اعمال پیشبینی روند بازار، نشان داده شده است. به عنوان مطالعه موردی برای روش پیشنهادی، این مقاله بر بازار سهام چین تمرکز دارد. بازار سهام چین به دلیل رشد اقتصادی چین بسیار پویا و از اهمیت فزاینده ای برخوردار است. مرتبط ترین شاخص های سهام چینی در نظر گرفته شده است. استراتژی توصیف شده در این مقاله نتایج خوبی به دست آورده است و ترکیبات بهتری از شاخص های فنی برای این شاخص ها شناسایی شده است.
بقیه مقاله به شرح زیر سازماندهی شده است: بخش 2 رویکرد پیشنهادی را ارائه می کند. بخش 3 کاربرد رویکرد پیشنهادی را در بازار سهام چین نشان می دهد. نتایج در بخش 4 مورد بحث قرار می گیرد و بخش 5 نتیجه گیری مقاله را ارائه می دهد.
2. رویکرد انتخاب شاخص فنی
فرض کنید X T i (t) چند برابر از مقادیر T شاخص فنی i-امین از مجموعهای از تا N شاخص فنی غیرخطی محاسبهشده در دوره زمانی t باشد (معمولاً دوره زمانی به روز اندازهگیری میشود، اما میتواند هفتهها، ماهها باشد. یا هر چیز دیگری)، مانند میانگین متحرک:
فرض کنید R T (t ) برداری باشد که جهت تغییر قیمت یک سهام یا شاخص را در دوره از t − ( T − 1 ) به t گروه بندی می کند، یعنی R T =< 0 , 1 >T با 0 به این معنی است که سهام در پایان یک دوره افزایش می یابد یا ثابت می ماند، 1 به معنای در غیر این صورت. علاوه بر این، اجازه دهید ϕ ^ یک نگاشت غیرخطی از XT i (t) به RT (t) تعریف کند.
که در آن ^ T (t) تخمینی از R T (t) است. برای تضمین یافتن برآوردگر ϕ ^ لازم است موارد زیر را فرض کنیم:
( وجود تابع حقیقت زمینی ) . فرض بر این است که، ϕ، یک نقشه برداری از XTi (t) به RT (t) وجود دارد.
شاخصهای فنی در بازار سهام میتوانند سیگنالهای متناقضی ایجاد کنند و برخی از تکنیکهای غیر خطی میتوانند در هنگام استفاده از متغیرهای ورودی با ابعاد بالا (مقدار N یا T بزرگ) مسائل حداقل محلی داشته باشند. بنابراین ممکن است یافتن ترکیبی از شاخص های فنی X T i به جای استفاده از همه N شاخص های موجود راحت باشد. ما یک رویکرد انتخاب ترکیبی را برای شاخصهای فنی ارائه میکنیم که لازم نیست ترکیب متغیر خطی در فرآیندهای غیر خطی باشند.
نمونه های موجود داده های XT i (t) و RT (t) را به دو زیر مجموعه تقسیم کنید، یک زیر مجموعه تخمینی Se ≜< X T , e i ( t ) , R T , e ( t ) >و یک اعتبارسنجی (برای اینکه نماد تا حد امکان واضح باشد، ما در اینجا از اصطلاح اعتبار سنجی به معنای تست استفاده می کنیم) زیر مجموعه S v ≜< X T , v i ( t ) , R T , v ( t ) >.
تولید C s، مجموعه ای از ترکیبات M از اعداد تصادفی ⌊ N 2 ⌋ در محدوده< 1 , 2 , … , N >از i 1 تا i ⌊ N 2 ⌋ نشان داده شده است. تکرار را در هر ترکیب بررسی کنید. اگر تکرار وجود دارد، اعداد تکراری را کنار بگذارید و به تولید اعداد تصادفی در محدوده فوق ادامه دهید تا زمانی که تکراری وجود نداشته باشد. به همین ترتیب، بررسی کنید که ترکیبات تکراری وجود نداشته باشد و اقدام به جایگزینی ترکیبات اضافی کنید.
ϕ ^، یعنی نگاشت طبقه بندی غیرخطی تخمین زده شده را با استفاده از هر تکنیک انتخابی محاسبه کنید. در این حالت، نگاشت غیرخطی به عنوان آرگومان های X T i ( t ) , ∀ i ∈ I خواهد بود. با استفاده از شبکه های عصبی به عنوان مثال، این مرحله شامل آموزش یک شبکه عصبی با مجموعه داده های آموزشی است< X T , e i ( t ) , R T , e ( t ) >با من ∈ من .
ϕ ^ را روی مجموعه اعتبارسنجی ارزیابی کنید. بگذارید R ^ T , v نشان دهنده خروجی طبقه بندی تخمینی R T , v باشد.
خطای ξ T ( t ) رویکرد طبقه بندی غیرخطی را برای هر نمونه در مجموعه اعتبارسنجی محاسبه کنید، به طوری که
که در آن کارت (S v) نشان دهنده اصلی بودن S v است. بنابراین این خطای کل برای ترکیب تصادفی اولیه شاخص های فنی انتخاب شده در مرحله 2 است.
به طور تصادفی یک مقدار منفرد i a ∈ ایجاد کنید< 1 , 2 , … , N >که نشان دهنده یک شاخص فنی است که باید به ترکیب انتخاب شده در مرحله 2 اضافه شود. با مقادیر N 2 ایجاد شده قبلی، تکرار را بررسی کنید. اگر تکرار وجود دارد، به طور تصادفی مقدار دیگری i a ایجاد کنید. این مرحله را تکرار کنید تا جایی که تکرار نشود.
به طور تصادفی یک مقدار منفرد i r ∈ ایجاد کنید< i 1 , … , i N 2 >. این مقدار بعداً برای نشان دادن یک نشانگر فنی که باید از ترکیب انتخاب شده در مرحله 2 حذف شود، استفاده خواهد شد.
ترکیب جدیدی از شاخص های شاخص فنی I u p as I u p ≜ I ∪ را تشکیل دهید< i a >. به همین ترتیب، یک ترکیب جدید ایجاد کنید I d o w n as I d o w n ≜ I −< i r >. اگر برخی از این ترکیب ها قبلاً در Cs هستند، مرحله 3d یا 3e را تکرار کنید تا زمانی که ترکیبی متفاوت از ترکیبات C به دست آید.
همانطور که در مرحله 3a، دو نگاشت جدید را محاسبه کنید که با استفاده از این حالت به عنوان آرگومان های ورودی شاخص های فنی ارائه شده توسط ترکیب های شاخص I u p و I d o w n به ترتیب ϕ ^ u p و ϕ ^ d o w مشخص می شوند.
همانطور که در مرحله 3c، خطای کل حاصل از ارزیابی دو نگاشت محاسبه شده در مرحله قبل را در مجموعه اعتبارسنجی محاسبه کنید. این کل خطاها را به صورت ξ u p T o t a l و ξ d o w n T o t a l نشان دهید.
با توجه به سه ترکیب شاخص قبلی I , I u p , I d o w n و مجموع خطاهای حاصل از آنها ξ T o t a l , ξ u p T o t a l و ξ d o w n T o t a l دو ترکیب با کوچکترین خطا را انتخاب کنید.
ترکیب اولیه I را با دو ترکیب انتخاب شده در مرحله قبل جایگزین کنید. با این کار تعداد ترکیبهای مجموعه C دو برابر میشود، یعنی بعد از این مرحله، Cs حاوی 2 M ترکیب خواهد بود.
ترکیب های M را در C با کمترین خطا حفظ کنید و ترکیب های M باقیمانده را با بیشترین خطا کنار بگذارید.
مرحله 3 را با شروع از 3d تکرار کنید تا زمانی که یک شرط توقف خاص برآورده شود. در اینجا پیشنهاد می شود بررسی شود که آیا یک خطای هدف مشخص به دست آمده است یا حداکثر تعداد تکرارها برآورده شده است، به طوری که از یک حلقه بی نهایت اجتناب شود.
این استراتژی را می توان به راحتی موازی کرد زیرا وظایف در مرحله 3 را می توان به طور مستقل برای هر ترکیب انجام داد، از این رو می تواند به صورت موازی انجام شود، با یک استثنا. قسمت آخر مرحله 3f، یعنی رد ترکیبات مکرر، نمی تواند به صورت موازی انجام شود و باید به صورت متوالی در یک مرحله جداگانه خارج از مرحله 3 انجام شود.
تعداد ترکیبات در C ، یعنی M ، و تعداد تکرارها به این معنا مرتبط است که می توان با استفاده از یک تکرار بیشتر و کمتر یا برعکس ، اجراهای مشابه را بدست آورد. علاوه بر تفاوت در عملکرد به دلیل ماهیت تصادفی استراتژی پیشنهادی ، یک تفاوت عملی می تواند منجر به یک انتخاب یا دیگری شود. با یک m بیشتر می توان از ماهیت موازی الگوریتم سوء استفاده کرد ، در حالی که در مورد تعداد زیادی از تکرارها که نمی توان انجام داد.
برای نشان دادن رویکرد پیشنهادی ، یک مثال ساده را فقط با دو ترکیب (یعنی M = 2) و یک تکرار در نظر بگیرید. به عنوان مثال ، ما فرض می کنیم که در مجموع 6 شاخص فنی برای انتخاب ، یعنی ،< X 5 1 , X 5 2 , X 5 3 , X 5 4 , X 5 5 , X 5 6 >، جایی که زیر شاخص 5 به این معنی است که هر یک از شاخص ها در پنج دوره زمانی ارزیابی می شوند. همچنین یک بردار طبقه بندی مرتبط R 5 وجود دارد که حرکات بالا و پایین در سهام را در هر زمان t مشخص می کند (در این حالت r 5 ∈< 0 , 1 >5)اول ، این الگوریتم به طور تصادفی 2 ترکیب از 3 شاخص شاخص فنی اولیه را انتخاب می کند. مثلا:
سپس خطای طبقه بندی غیر خطی برای این پیکربندی تخمین زده می شود. بگذارید فرض کنیم که مقدار به دست آمده است (با سوءاستفاده اندک از نماد پارامترهای هر ترکیب در این مثال مجموعه پارامترهای هر دو ترکیب را نشان می دهد):
افزودن شاخص شاخص فنی جدید به طور تصادفی انجام می شود ، اطمینان حاصل می شود که هیچ تکرار وجود ندارد ، یعنی از هر متغیر ورودی (شاخص فنی) فقط یک بار استفاده می شود. شاخص حذف شده نیز به طور تصادفی محاسبه می شود. سپس ترکیباتی که من p و i d o w n شکل می گیرند:
توجه داشته باشید که در هر ترکیبی که تاکنون ایجاد شده است ، هیچ شاخصی تکرار نمی شود و ترکیب های مکرر وجود ندارد. پس از تشکیل ترکیبات جدید ، خطاهای طبقه بندی کل آنها محاسبه می شود:
برای هر ترکیبی در C S ما دو ترکیب (از من ، من ، من و من d o w n) را با کوچکترین خطا انتخاب می کنیم. از ترکیب مشتی که در آن زمان انتخاب می کنیم ، من 1 d o w n و i 1. از طرف دیگر ، از ترکیب دوم I 2 U P و I 2 D O W N را انتخاب می کنیم. بنابراین ، وصیت نامه C S شامل موارد زیر است:
اکنون می توانیم تعداد ترکیبات را به شماره اصلی آن کاهش دهیم (M = 2) این دو را با کوچکترین خطا انتخاب می کنیم:
سپس در پایان این تکرار اول ، الگوریتم ترکیب I 2 d o w n را به عنوان بهترین ترکیب فنی فنی انتخاب می کند ، زیرا کمترین خطا را دارد (0. 2). بنابراین ، شاخص های فنی پیشنهاد شده برای پیش بینی جهت تغییر قیمت خواهد بود< X 5 1 , X 5 3 >.
در عمل ، تعداد ترکیبات و تکرارها با قدرت محاسباتی موجود تعیین می شود. بنابراین این روند تا زمانی که معیارهای توقف حاصل شود تکرار می شود (یعنی حداکثر تعداد تکرارها یا خطای طبقه بندی هدف).
3. کاربرد بازار سهام چین
3. 1داده ها و روش شناسی
بازار سهام چین یک بازار به طور فزاینده ای است که با گسترش اقتصادی بزرگ اقتصاد چین طی چند دهه گذشته حرکت می کند. بازار سهام چین به دو بورس سهام اصلی تقسیم می شود. بورس سهام شانگهای و شنژن با چندین شاخص اصلی سهام که عملکرد آن بازارها را توصیف می کند. ما از 6 شاخص سهام مختلف توصیف سهام چینی استفاده کردیم. برای اهداف کامل ، و برای حذف برخی از تعصب های منطقه ای در نتایج ، ما همچنین به سایر شاخص های بین المللی (غیر چینی) استفاده کردیم (جدول 1 را ببینید).
همانطور که در بخش قبلی توضیح داده شده از روش انتخاب برای پیش بینی جهت حرکت شاخص سهام (بالا یا پایین) در دوره زمانی بعدی به جای قیمت نهایی دقیق آن دوره استفاده می شود. قیمت بسته شدن روزانه برای کلیه شاخص های ذکر شده در جدول 1 از پایگاه داده بلومبرگ برای دوره از 14 فوریه 2007 تا 30 مارس 2020 جمع آوری شد. بازده آن شاخص را می توان در شکل 1 مشاهده کرد. بازده مثبت یا صفر منجر به R T می شودمقدار 0 و 1 در غیر این صورت.
از روش پیشنهادی برای شناسایی ترکیب مناسب از شاخص های فنی که در تلاش برای توصیف عملکرد بازار سهام است ، استفاده شد. شاخص های فنی سهام شاخص ها به طور معمول مبتنی بر عملکرد تاریخی سهام و همچنین حجم معامله شده آن سهام هستند. در ادبیات موجود تعداد زیادی از شاخص های فنی وجود دارد که می تواند سیگنال های متناقض ایجاد کند. ما از 35 شاخص فنی متداول استفاده کردیم (جدول 2 را ببینید) استخراج شده از پایگاه داده بلومبرگ.
فرضیه اصلی این است که می توان یک الگوریتم را ساخت که ترکیبی مناسب از ورودی ها (شاخص های فنی) را برای ابزارهای پیش بینی غیر خطی تخمین می زند و در هنگام پیش بینی جهت حرکت سهام ، نرخ خطای پایین تر از استفاده مستقیم از تمام شاخص های فنی موجود ایجاد می کند. فرضیه دیگر این است که به طور متوسط چنین الگوریتم نرخ خطای کمتری را نسبت به ترکیبات کاملاً تصادفی از متغیرهای ورودی (شاخص های فنی) ایجاد می کند.
رویکرد پیشنهادی در MATLAB با استفاده از شبکه های عصبی به عنوان طبقه بندی کننده اجرا شد. 100 بار تنظیمات اولیه 2500 تکرار برای هر شاخص انجام شد ، که در 250،000 شبکه عصبی در هر شاخص و در کل 2000،000 شبکه عصبی (8 فهرست) ترجمه می شود. شبکه های عصبی مورد استفاده شبکه های عصبی طبقه بندی انتشار برگشتی با یک لایه پنهان با 25 نورون و با قانون Levenberg-Marquardt آموزش دیده بودند. مقدار تعداد نورون ها در نتیجه تجزیه و تحلیل حساسیت اولیه در تعداد نورون های ارائه شده در بخش 3. 2 انتخاب شد.
3. 2نتایج
پیش از این برای آزمایش استراتژی پیشنهادی ، تجزیه و تحلیل حساسیت اولیه در مورد تعداد نورون ها برای یافتن راحت ترین تعداد نورون ها در لایه پنهان انجام شده است. از مجموعه کامل 35 شاخص فنی استفاده شد و تعداد نورون های موجود در لایه پنهان از 25 تا 25000 در مراحل 25 نورون افزایش یافته است. به سادگی افزایش تعداد نورون ها به نظر نمی رسد که دقت طبقه بندی شبکه های عصبی برای عملکرد در شاخص سهام در دوره بعد (T + 1) (شکل 2) را برای هر یک از شش شاخص مورد تجزیه و تحلیل افزایش دهد.
از طرف دیگر ، شکل 3 نمونه ای از تکامل نرخ خطا (سوء طبقه بندی روزهای بالا/پایین) در آموزش یکی از شبکه های عصبی را نشان می دهد. مشاهده می شود که آموزش باعث افزایش متناسب با داده ها تا تعداد قابل توجهی از تکرارهای آموزش می شود و نشان می دهد که NN واقعاً در حال یادگیری عملکرد حقیقت زمین است.
رویکرد انتخاب شاخص یک روش ترکیبی است که می تواند برای انتخاب ترکیبی مناسب از متغیرها در مدلهای غیر خطی ، با استفاده از تکنیک هایی مانند شبکه های عصبی استفاده شود. در مثال نشان داده شده در این مقاله ، رویکرد پیشنهادی در شش شاخص مختلف سهام چینی به علاوه دو فهرست جهانی اجرا شد. میزان خطای به دست آمده با استفاده از الگوریتم در ترکیب با شبکه های عصبی پایین تر از نرخ خطای به دست آمده با استفاده از شبکه های عصبی مستقیم از جمله 35 متغیر موجود بود ، به جدول 3 مراجعه کنید. میانگین بهبود در نرخ خطا (بیش از همه شاخص های در نظر گرفته شده) 9. 1 بود٪. به نظر می رسد که این یک نتیجه بسیار خوب است با توجه به اینکه وظیفه پیش بینی حرکات بازار و مزایای زیادی که حتی با پیشرفت اندک در پیش بینی می تواند تحقق یابد ، دشوار است. علاوه بر این ، در برخی از شاخص ها ، پیشرفت بیش از 11 ٪ (A50 ، کامپوزیت شانگهای و SSE50) بسیار زیاد است. یک یافته بسیار جالب این است که رویکرد پایه ، یعنی با توجه به تمام شاخص های فنی موجود برای پیش بینی نرخ خطا در برخی موارد بیشتر از 50 ٪ (A50 ، CSI800 ، Shanghai Composite ، SSE 50 و Euro Stoxx 50). این بدان معنی است که پرتاب یک سکه نتایج بهتری نسبت به استفاده از استخر کامل شاخص ها ایجاد می کند. دلیل این امر این است که ، همانطور که در بخش 3. 1 ذکر شد ، برخی از شاخص های فنی سیگنال های متناقضی تولید می کنند.
هیستوگرام که نشان دهنده فرکانس ظاهر شاخص های فنی در خروجی الگوریتم برای شاخص های مختلف نشان داده شده در جدول 3 در شکل 4 است. بدیهی است که برخی از شاخص های فنی بیشتر از سایرین انتخاب می شوند ، بنابراین آنها آنهابه احتمال زیاد در پیش بینی جهت تغییر قیمت ، دقت بهتری را ارائه می دهند. با این وجود ، این بدان معنا نیست که استفاده از این نشانگرهای مرتبط بیشتر منجر به پیش بینی بهتر می شود. به عنوان نمونه ترکیبی که توسط شاخص ها با بالاترین فرکانس Ocurrence در جدول 3 و شکل 4 ایجاد شده است ، یعنی.< 2 , 4 , 12 , 25 , 34 >، میانگین بهبود 2. 3 ٪ نسبت به رویکرد پایه را نشان می دهد ، که به طور قابل توجهی بدتر از آن است که با استفاده از ترکیبات پیشنهادی حاصل می شود.
در جدول 4 پیشرفت در طول تکرار در الگوریتم نشان داده شده است. میانگین پیشرفت از اولین تکرار به آخرین 7. 1 ٪ بود. در حالی که این مقدار به وضوح نشان می دهد که الگوریتم ترکیبات اولیه را بهبود می بخشد ، آزمایش دقیق تری انجام شده است. آزمایش Wilcoxon با مقایسه توزیع نرخ خطای به دست آمده در اولین و آخرین تکرار برای هر شاخص انجام شد. آزمون Wilcoxon این فرضیه را برای کلیه شاخص های مورد تجزیه و تحلیل رد می کند ، که میانگین نرخ خطا برای توزیع های اولیه و نهایی از نظر آماری یکسان است (جدول 5) ، نشان می دهد که روند تکراری به طور قابل توجهی دقت را بهبود می بخشد. همین روش برای مقایسه میزان خطا با استفاده از شبکه های عصبی به طور مستقیم (با 35 شاخص فنی) با میزان خطای به دست آمده با استفاده از روش انتخاب نشانگر فنی (جدول 6) دنبال شد. آزمون Wilcoxon فرضیه تهی را رد می کند که میانگین نرخ خطای به دست آمده با استفاده از این دو روش از نظر آماری معادل است ، نشان می دهد که روش پیشنهادی از نظر آماری به طور قابل توجهی دقت پیش بینی حرکات شاخص بالا/پایین را بهبود می بخشد.
نکته 2 نیز مورد توجه قرار گرفته است ، و از این الگوریتم نیز با M = 2 و 125،000 تکرار استفاده شده است که باید تقریباً معادل پارامترهای مورد استفاده در گذشته باشد ، یعنی 100 ترکیب و 2500 تکرار. میانگین پیشرفت در این مورد 8. 7 ٪ بود که از نظر حاشیه ای از آنچه که قبلاً حاصل شده بود ، بدتر است. این تفاوت می تواند به دلیل تنوع پایین مجموعه راه حل های نامزد ، بلکه به ماهیت تصادفی استراتژی باشد.
میانگین زمان کل در هر شاخص (100 بار تنظیمات اولیه 2500 تکرار) 157،691 ثانیه بود. زمان محاسبه برای هر شاخص را می توان در جدول 7 مشاهده کرد. محاسبات در MATLAB 2016 در یک رایانه Intel ، I5-3470 ، 3. 2 گیگاهرتز ، 64 بیتی انجام شد. رویکرد انتخاب به مقدار قابل توجهی از زمان محاسبه نیاز دارد اما به وضوح سریعتر از محاسبه تمام ترکیبات ممکن از شاخص های فنی است ، که برای مثال ارائه شده در این مقاله یک محاسبه عملی در یک رایانه معمولی نیست.
4. بحث
روش پیشنهادی می تواند یک روش امکان پذیر باشد هنگام تلاش برای تعیین ترکیبی از متغیرها یا ویژگی هایی که هنگام پیش بینی رفتار فرآیندهای غیرخطی مورد استفاده قرار می گیرد. در مثال خاص از بورس سهام تعداد بسیار زیادی از شاخص های فنی وجود دارد که در نظر گرفته شده است تا به سرمایه گذار نشانه هایی از عملکرد آینده سهام ارائه دهد. این شاخص ها می توانند سیگنال های متناقض ایجاد کنند و انتخاب ترکیب مناسب شاخص های فنی می تواند به یک کار دشوار تبدیل شود. کاهش ابعاد مسئله نیز برای جلوگیری از مسائلی مانند حداقل محلی که می تواند باعث تعمیم ضعیف هنگام استفاده از تکنیک هایی مانند شبکه های عصبی شود ، مهم است. ما در این مقاله نشان دادیم که می توان از رویکرد خود در بازار سهام چین (تولید ترکیبی مناسب از متغیرهای مستقل برای مدلهای غیر خطی) استفاده کرد و نتایج بهتری نسبت به استفاده مستقیم از شبکه های عصبی در تمام متغیرهای مستقل موجود بدست آورد. این با استفاده از 6 شاخص سهام چینی (و همچنین دو شاخص بین المللی) و 35 شاخص فنی مورد آزمایش قرار گرفت.
به طور متوسط 9. 1 ٪ بهبود در هنگام استفاده از رویکرد ترکیبی با شبکه های عصبی بیش از نتایج با استفاده از مستقیم تمام شاخص های فنی و شبکه های عصبی به عنوان تکنیک پیش بینی غیرخطی وجود داشت. تجزیه و تحلیل آماری رسمی با مقایسه نتایج با استفاده از شبکه های عصبی به طور مستقیم (تمام شاخص های فنی) با نتایج حاصل از رویکرد ترکیبی با استفاده از شبکه های عصبی نشان می دهد که از نظر آماری تفاوت معنی داری برای نرخ خطای به دست آمده در سطح اهمیت 1 ٪ ، 5 ٪ و 10 ٪ وجود دارد، با پشتیبانی یک بار دیگر این فرضیه مبنی بر اینکه رویکرد ترکیبی با استفاده از شبکه های عصبی ابزاری مناسب تر برای پیش بینی جهت حرکت بازار سهام است ، حداقل برای 8 شاخص مورد تجزیه و تحلیل ، از استفاده مستقیم از شبکه های عصبی. بنابراین ، برای هشت شاخص مختلف ، ترکیبات بهتری از شاخص های فنی یافت شده است که یک انتخاب عملی برای بهبود دقت پیش بینی و از این رو مزایای مورد انتظار ارائه می دهد. زمان کل محاسبه در هر شاخص (100 تنظیم اولیه زمان 2500 تکرار) 157،691 بود. در حالی که این زمان قابل توجهی است ، محاسبه ای است که می تواند با یک رایانه لپ تاپ معمولی انجام شود. علاوه بر این ، بسیاری از عملیات الگوریتم پیشنهادی را می توان به موازات کوتاه کردن زمان محاسبه انجام داد.
در حالی که مقایسه مستقیم رویکرد استفاده از رویکرد ترکیبی با شبکههای عصبی را به چالش میکشد، به نظر میرسد نتایج بهتری برای اهداف پیشبینی سهام نسبت به سایر رویکردهای مورد استفاده در ادبیات موجود مانند رویکرد باکس-جنکینز مورد استفاده توسط گرودا و وربکا [3] ایجاد میکند.، که نویسندگان آن را مناسب نمی دانستند. مقاله قابل مقایسهتر کیم و هان [36] است که با استفاده از الگوریتم ژنتیک در ترکیب با شبکههای عصبی به نرخ ضربه 61 درصدی در بازار کره دست یافتند که با نرخ 59 درصدی که در بازار چین به دست آوردیم قابل مقایسه است. با این وجود، مقایسه در بازارهای مختلف سهام باید با احتیاط انجام شود. به عنوان مثال، باید ساده لوحانه باشد که باور کنیم رویکرد یکسان نتایج یکسانی را در دو بازار متفاوت مانند کره جنوبی و چین ایجاد می کند، در حالی که چین یک بازار سهام آزاد است که تحت سلطه سرمایه گذاران نهادی است در حالی که بازار چین بازاری است که خرده فروشی محلی تحت سلطه است. سرمایه گذاران.
رویکرد انتخاب در چارچوب بازار سهام و با استفاده از شبکههای عصبی نشان داده شد، اما این رویکرد به راحتی در زمینههای دیگر قابل اجرا است. این امر به طور فزاینده ای مهم است، زیرا میزان داده های موجود در بسیاری از زمینه ها به طور قابل توجهی در چند دهه گذشته افزایش یافته است و نیاز روزافزون به ابزارهایی برای پردازش پایگاه های داده بزرگ وجود دارد. علاوه بر شبکههای عصبی، مدلهای غیرخطی دیگری، مانند ماشینهای بردار پشتیبان، میتوانند با استفاده از رویکرد پیشنهادی استفاده شوند. این می تواند زمینه جالبی برای کار آینده باشد.
5. نتیجه گیری ها
روش ترکیبی پیشنهادی برای انتخاب متغیر برای مسئله پیشبینی جهت حرکت بازار سهام با استفاده از تکنیکهای غیرخطی مانند شبکههای عصبی قابل استفاده است. این رویکرد نتایج بهتری نسبت به استفاده مستقیم از روشهای پیشبینی غیرخطی مانند شبکههای عصبی با استفاده از تمام متغیرهای موجود ایجاد میکند. برای مقدار زیادی از شاخصهای فنی (متغیرهای مستقل) به وضوح نمیتوان پیشبینیها را برای همه ترکیبها با روش پیشنهادی که جایگزین معقولی ارائه میکند، تخمین زد. در واقع، نشان داده شده است که استفاده از تمام شاخص های موجود می تواند معکوس باشد، زیرا خطای بالاتری نسبت به رویکرد تصادفی خالص دارد. یکی دیگر از نتایج مرتبط این است که انتخاب های شاخص بهتر برای 8 شاخص مختلف تحقیق شده است. زمان محاسبه برای رویکرد ترکیبی عامل دیگری است که باید در نظر گرفته شود، زیرا از نظر زمانی محاسباتی، از نظر زمانی محاسباتی، بسیار کارآمدتر از تخمین پیشبینیها برای همه ترکیبهای ممکن است.
رویکرد ترکیبی به طور کامل برای بازار سهام چین و همچنین برای برخی از شاخصهایی که بازار سهام ایالات متحده و اروپا را توصیف میکنند، آزمایش شد. دقت پیشبینی این رویکرد در بازارهای دیگر ممکن است متفاوت باشد و این میتواند به طور بالقوه زمینهای برای کار آینده باشد. عوامل متعددی وجود دارد که می تواند به طور بالقوه بر دقت پیش بینی این رویکرد تأثیر بگذارد. به عنوان مثال، بازارهای باریک و عمیق ممکن است رفتارهای متفاوتی داشته باشند و از این رو رویکرد ترکیبی نیز ممکن است دقت پیشبینی متفاوتی داشته باشد.
به طور کلی ، هنگامی که بسیاری از متغیرهای بالقوه (شاخص های فنی) وجود دارد که می تواند بر عملکرد بازار سهام تأثیر بگذارد و هیچ پشتیبانی اساسی قوی برای انتخاب ترکیبی خاص از این متغیرها ، رویکرد پیشنهادی می تواند یک جایگزین مناسب باشد. به طور مشابه ، در حالی که این رویکرد با استفاده از شبکه های عصبی مورد آزمایش قرار گرفت ، می توان به راحتی در سایر تکنیک های پیش بینی غیر خطی مانند دستگاه های بردار پشتیبانی اعمال شد. همچنین می تواند علاوه بر سهام ، به سایر مشکلات پیش بینی تعمیم یابد. از این نظر یک رویکرد نسبتاً کلی با بسیاری از برنامه های بالقوه است.
کمک های نویسنده
مفهوم سازی ، G. A. و D. R. R. ؛روش شناسی ، G. A. ؛نرم افزار ، G. A. و D. R. R. ؛اعتبار سنجی ، G. A. و D. R. R. ؛تجزیه و تحلیل رسمی ، G. A. و D. R. R. ؛تحقیقات ، G. A. و D. R. R. ؛منابع ، G. A. و D. R. R. ؛درمان داده ها ، G. A. ؛نوشتن - پیش نویس آماده سازی ، G. A. ؛تجسم ، G. A. و D. R. R. ؛نظارت ، G. A. و D. R. R. ؛مدیریت پروژه ، G. A. و D. R. R. ؛کسب بودجه ، D. R. R. همه نویسندگان نسخه منتشر شده نسخه خطی را خوانده و موافقت کرده اند.
منابع مالی
این کار از طرف وزیرخانه دینسیا و Innovación اسپانیا تحت پروژه PID2019-106212RB-C41 پشتیبانی کرده است.