Tuesday 22 August 2017

Autoregressive moving average model definition


Autoregressive Integrated Moving Average - ARIMA DEFINISI Autoregressive Integrated Moving Average - ARIMA Model analisis statistik yang menggunakan data deret waktu untuk memprediksi tren masa depan. Ini adalah bentuk analisis regresi yang berusaha memprediksi pergerakan masa depan sepanjang jalan acak yang tampaknya diambil oleh saham dan pasar keuangan dengan memeriksa perbedaan antara nilai dalam rangkaian daripada menggunakan nilai data aktual. Lags dari seri yang berbeda disebut sebagai autoregressive dan lags dalam data perkiraan disebut sebagai moving average. BREAKING DOWN Autoregressive Integrated Moving Average - ARIMA Tipe model ini umumnya disebut ARIMA (p, d, q), dengan bilangan bulat mengacu pada autoregressive. Terpadu dan bergerak rata-rata bagian dari kumpulan data, masing-masing. Pemodelan ARIMA bisa memperhitungkan tren akun, musiman. Siklus, kesalahan dan aspek non-stasioner dari kumpulan data saat membuat perkiraan. A RIMA adalah singkatan dari model Autoregressive Integrated Moving Average. Vektor univariat (single vector) ARIMA adalah teknik peramalan yang memproyeksikan nilai masa depan dari seri yang didasarkan sepenuhnya pada inersianya sendiri. Aplikasi utamanya adalah di bidang peramalan jangka pendek yang membutuhkan setidaknya 40 titik data historis. Ini bekerja paling baik bila data Anda menunjukkan pola yang stabil atau konsisten dari waktu ke waktu dengan jumlah outlier minimum. Terkadang disebut Box-Jenkins (setelah penulis asli), ARIMA biasanya lebih unggul dari teknik pemulusan eksponensial saat data cukup panjang dan korelasi antara pengamatan terakhir stabil. Jika datanya pendek atau sangat mudah menguap, maka beberapa metode pemulusan bisa berkinerja lebih baik. Jika Anda tidak memiliki setidaknya 38 titik data, Anda harus mempertimbangkan beberapa metode lain selain ARIMA. Langkah pertama dalam menerapkan metodologi ARIMA adalah memeriksa stasioneritas. Stationarity menyiratkan bahwa rangkaian tetap pada tingkat yang cukup konstan dari waktu ke waktu. Jika ada tren, seperti pada sebagian besar aplikasi ekonomi atau bisnis, maka data Anda TIDAK stasioner. Data juga harus menunjukkan varians konstan dalam fluktuasi dari waktu ke waktu. Hal ini mudah dilihat dengan seri yang sangat musiman dan tumbuh pada tingkat yang lebih cepat. Dalam kasus seperti ini, pasang surut di musim ini akan menjadi lebih dramatis dari waktu ke waktu. Tanpa kondisi stasioneritas ini terpenuhi, banyak perhitungan yang terkait dengan proses tidak dapat dihitung. Jika plot grafis dari data menunjukkan nonstationarity, maka Anda harus membedakan deretnya. Perbedaan adalah cara terbaik untuk mentransformasi rangkaian nonstasioner menjadi yang stasioner. Hal ini dilakukan dengan mengurangi pengamatan pada periode berjalan dari sebelumnya. Jika transformasi ini dilakukan hanya satu kali untuk satu seri, Anda mengatakan bahwa data telah dibedakan terlebih dahulu. Proses ini pada dasarnya menghilangkan tren jika rangkaian Anda tumbuh dengan kecepatan yang cukup konstan. Jika tumbuh pada tingkat yang meningkat, Anda dapat menerapkan prosedur yang sama dan membedakan data lagi. Data Anda kemudian akan dibedakan kedua. Autokorelasi adalah nilai numerik yang menunjukkan bagaimana rangkaian data dikaitkan dengan dirinya sendiri dari waktu ke waktu. Lebih tepatnya, ia mengukur seberapa kuat nilai data pada sejumlah periode tertentu yang terpisah berkorelasi satu sama lain dari waktu ke waktu. Jumlah periode terpisah biasanya disebut lag. Sebagai contoh, autokorelasi pada lag 1 mengukur bagaimana nilai 1 periode terpisah berkorelasi satu sama lain sepanjang rangkaian. Autokorelasi pada lag 2 mengukur bagaimana data dua periode terpisah berkorelasi sepanjang rangkaian. Autokorelasi dapat berkisar dari 1 sampai -1. Nilai mendekati 1 menunjukkan korelasi positif tinggi sementara nilai mendekati -1 menyiratkan korelasi negatif yang tinggi. Langkah-langkah ini paling sering dievaluasi melalui plot grafis yang disebut correlagrams. Sebuah correlagram memplot nilai korelasi otomatis untuk rangkaian yang diberikan pada kelambatan yang berbeda. Ini disebut sebagai fungsi autokorelasi dan sangat penting dalam metode ARIMA. Metodologi ARIMA mencoba menggambarkan pergerakan dalam rangkaian waktu stasioner sebagai fungsi dari apa yang disebut parameter rata-rata autoregressive dan moving average. Ini disebut parameter parameter AR (autoregessive) dan MA (moving averages). Model AR dengan hanya 1 parameter dapat ditulis sebagai. X (t) A (1) X (t-1) E (t) di mana rangkaian waktu X (t) dalam penyelidikan A (1) parameter autoregresif dari urutan 1 X (t-1) deret waktu tertinggal 1 periode E (T) istilah kesalahan model Ini berarti bahwa setiap nilai X (t) dapat dijelaskan oleh beberapa fungsi dari nilai sebelumnya, X (t-1), ditambah beberapa kesalahan acak yang tidak dapat dijelaskan, E (t). Jika nilai estimasi A (1) adalah 0,30, maka nilai seri saat ini akan terkait dengan 30 nilainya 1 periode yang lalu. Tentu saja, serial ini bisa dikaitkan dengan lebih dari satu nilai masa lalu. Sebagai contoh, X (t) A (1) X (t-1) A (2) X (t-2) E (t) Ini menunjukkan bahwa nilai seri saat ini adalah kombinasi dari dua nilai sebelumnya, X (t-1) dan X (t-2), ditambah beberapa kesalahan acak E (t). Model kami sekarang merupakan model pesanan autoregresif 2. Moving Average Models: Tipe kedua dari model Box-Jenkins disebut model moving average. Meski model ini terlihat sangat mirip dengan model AR, konsep di baliknya sangat berbeda. Parameter rata-rata bergerak berhubungan dengan apa yang terjadi pada periode t hanya pada kesalahan acak yang terjadi pada periode waktu lalu, yaitu E (t-1), E (t-2), dan seterusnya daripada X (t-1), X ( T-2), (Xt-3) seperti pada pendekatan autoregresif. Model rata-rata bergerak dengan satu istilah MA dapat ditulis sebagai berikut. X (t) - B (1) E (t-1) E (t) Istilah B (1) disebut MA pesanan 1. Tanda negatif di depan parameter digunakan hanya untuk konvensi dan biasanya dicetak. Secara otomatis oleh sebagian besar program komputer. Model di atas hanya mengatakan bahwa setiap nilai X (t) secara langsung hanya terkait dengan kesalahan acak pada periode sebelumnya, E (t-1), dan pada istilah error saat ini, E (t). Seperti dalam kasus model autoregresif, model rata-rata bergerak dapat diperluas ke struktur orde tinggi yang mencakup kombinasi yang berbeda dan panjang rata-rata bergerak. Metodologi ARIMA juga memungkinkan model dibangun yang menggabungkan parameter rata-rata autoregressive dan moving average. Model ini sering disebut sebagai model campuran. Meskipun ini membuat peramalan alat yang lebih rumit, struktur ini memang bisa mensimulasikan seri lebih baik dan menghasilkan perkiraan yang lebih akurat. Model murni menyiratkan bahwa struktur hanya terdiri dari parameter AR atau MA - tidak keduanya. Model yang dikembangkan oleh pendekatan ini biasanya disebut model ARIMA karena mereka menggunakan kombinasi autoregressive (AR), integration (I) - mengacu pada proses reverse differencing untuk menghasilkan forecast, dan moving average (MA) operations. Model ARIMA biasanya dinyatakan sebagai ARIMA (p, d, q). Ini mewakili urutan komponen autoregresif (p), jumlah operator differensiasi (d), dan urutan tertinggi dari istilah rata-rata bergerak. Misalnya, ARIMA (2,1,1) berarti Anda memiliki model autoregresif pesanan kedua dengan komponen rata-rata bergerak urutan pertama yang serinya telah dibedakan satu kali untuk menginduksi stasioneritas. Memilih Spesifikasi yang Tepat: Masalah utama dalam Box-Jenkins klasik adalah mencoba untuk menentukan spesifikasi ARIMA yang akan digunakan - i. e. Berapa banyak parameter AR dan atau MA yang disertakan. Inilah yang dilakukan Box-Jenkings 1976 dalam proses identifikasi. Ini tergantung pada evaluasi grafis dan numerik dari autokorelasi sampel dan fungsi autokorelasi parsial. Nah, untuk model dasar Anda, tugasnya tidak terlalu sulit. Masing-masing memiliki fungsi autokorelasi yang terlihat dengan cara tertentu. Namun, ketika Anda naik dalam kompleksitas, pola tidak begitu mudah dideteksi. Untuk membuat lebih sulit, data Anda hanya mewakili contoh proses yang mendasarinya. Ini berarti bahwa kesalahan sampling (outlier, error pengukuran, dll.) Dapat mendistorsi proses identifikasi teoritis. Itulah mengapa pemodelan ARIMA tradisional adalah seni dan bukan model ARMA (p, q) Bergerak untuk Seri Waktu - Bagian 3 Ini adalah pos ketiga dan terakhir dalam seri mini pada Autoregressive Moving Average (ARMA) Model untuk analisis deret waktu. Weve memperkenalkan model Autoregressive dan model Moving Average di dua artikel sebelumnya. Kini saatnya menggabungkan mereka untuk menghasilkan model yang lebih canggih. Pada akhirnya, ini akan membawa kita pada model ARIMA dan GARCH yang memungkinkan kita memprediksi pengembalian aset dan meramalkan volatilitas. Model ini akan menjadi dasar untuk sinyal perdagangan dan teknik manajemen risiko. Jika Anda telah membaca Bagian 1 dan Bagian 2 Anda akan melihat bahwa kita cenderung mengikuti pola untuk analisis model waktu seri. Saya mengulanginya sebentar di sini: Dasar Pemikiran - Mengapa kita tertarik dengan model khusus ini Definisi - Definisi matematis untuk mengurangi ambiguitas. Correlogram - Merencanakan korelogram sampel untuk memvisualisasikan perilaku model. Simulasi dan Pemasangan - Memasukkan model ke simulasi, untuk memastikan kita memahami model dengan benar. Data Keuangan Nyata - Terapkan model ke harga aset historis yang nyata. Prediksi - Perkiraan nilai berikutnya untuk membangun sinyal atau filter perdagangan. Untuk mengikuti artikel ini disarankan untuk melihat artikel sebelumnya mengenai analisis deret waktu. Mereka semua bisa ditemukan di sini. Kriteria Informasi Bayesian Pada Bagian 1 dari seri artikel ini, kami melihat Kriteria Informasi Akaike (AIC) sebagai alat untuk membantu kami memilih antara model rangkaian waktu terbaik yang terpisah. Alat yang terkait erat adalah Bayesian Information Criterion (BIC). Intinya memiliki perilaku yang mirip dengan AIC karena menisumsi model karena memiliki terlalu banyak parameter. Hal ini dapat menyebabkan overfitting. Perbedaan antara BIC dan AIC adalah bahwa BIC lebih ketat dengan penaliasinya terhadap parameter tambahan. Kriteria Informasi Bayesian Jika kita mengambil fungsi likelihood untuk model statistik, yang memiliki parameter k, dan L memaksimalkan kemungkinannya. Maka Kriteria Informasi Bayesian diberikan oleh: Dimana n adalah jumlah titik data dalam deret waktu. Kami akan menggunakan AIC dan BIC di bawah saat memilih model ARMA (p, q) yang sesuai. Uji Ljung-Box Pada Bagian 1 dari rangkaian artikel ini, Rajan menyebutkan dalam komentar Disqus bahwa uji Ljung-Box lebih tepat daripada menggunakan Kriteria Informasi Akaike terhadap Kriteria Informasi Bayesian dalam menentukan apakah model ARMA sesuai untuk satu waktu. seri. Uji Ljung-Box adalah tes hipotesis klasik yang dirancang untuk menguji apakah seperangkat autokorelasi dari model rangkaian waktu yang dipasang berbeda secara signifikan dari nol. Tes ini tidak menguji setiap lag individu untuk keacakan, namun menguji keacakan pada sekelompok kelambatan. Uji Ljung-Box Kami mendefinisikan hipotesis nol sebagai berikut: Data deret waktu pada setiap lag adalah i. i.d .. yaitu, korelasi antara nilai seri populasi adalah nol. Kami mendefinisikan hipotesis alternatif sebagai berikut: Data deret waktu bukan i. i.d. Dan memiliki korelasi serial. Kami menghitung statistik uji berikut. T: Dimana n adalah panjang sampel deret waktu, hat k adalah autokorelasi sampel pada lag k dan h adalah jumlah kelambatan yang diuji. Aturan keputusan mengenai apakah menolak hipotesis nol adalah untuk memeriksa apakah Q gt chi2, untuk distribusi chi-kuadrat dengan derajat kebebasan pada persentil 100 (1-alfa). Sementara rincian tes mungkin tampak sedikit rumit, sebenarnya kita bisa menggunakan R untuk menghitung tes untuk kita, menyederhanakan prosedurnya dengan agak. Autogressive Moving Average (ARMA) Model order p, q Sekarang yang membahas BIC dan uji Ljung-Box, siap untuk membahas model campuran pertama kami, yaitu Autoregressive Moving Average dari order p, q, atau ARMA (p, Q). Sampai saat ini kami telah mempertimbangkan proses autoregresif dan proses rata-rata bergerak. Model sebelumnya menganggap perilaku masa lalu sebagai masukan bagi model dan upaya untuk menangkap efek partisipan pasar, seperti momentum dan pembalikan rata-rata dalam perdagangan saham. Model yang terakhir digunakan untuk mengkarakterisasi informasi kejutan ke dalam rangkaian, seperti pengumuman pendapatan mengejutkan atau kejadian tak terduga (seperti tumpahan minyak BP Deepwater Horizon). Oleh karena itu, model ARMA mencoba menangkap kedua aspek ini saat memodelkan deret waktu keuangan. Perhatikan bahwa model ARMA tidak memperhitungkan pengelompokkan volatilitas, fenomena empiris kunci dari banyak rangkaian waktu keuangan. Ini bukan model heteroscedastic kondisional. Untuk itu kita perlu menunggu model ARCH dan GARCH. Definisi Model ARMA (p, q) adalah kombinasi linier dari dua model linier dan dengan demikian sendiri masih linier: Model Rata-rata Moving Average Autoregressive order p, q Model time series,, adalah model rata-rata bergerak autoregresif dari order p, q . ARMA (p, q), jika: mulai xt alpha1 x alpha2 x ldot wt beta1 w beta2 w ldots betaq w end Dimana white noise dengan E (wt) 0 dan varians sigma2. Jika kita mempertimbangkan Backward Shift Operator. (Lihat artikel sebelumnya), maka kita dapat menulis ulang fungsi fta dan phi di atas: Kita dapat dengan mudah melihatnya dengan menetapkan p neq 0 dan q0 kita mengembalikan model AR (p). Demikian pula jika kita menetapkan p 0 dan q neq 0 kita mengembalikan model MA (q). Salah satu fitur utama model ARMA adalah bahwa hal itu bersifat pelit dan berlebihan dalam parameternya. Artinya, model ARMA seringkali memerlukan parameter yang lebih sedikit daripada model AR (p) atau MA (q) saja. Selain itu jika kita menulis ulang persamaan dalam hal BSO, maka theta dan phi polinomial kadang-kadang dapat berbagi faktor yang sama, sehingga mengarah ke model yang lebih sederhana. Simulasi dan Correlogram Seperti model rata-rata autoregressive dan moving average, kita sekarang akan mensimulasikan berbagai seri ARMA dan kemudian mencoba menyesuaikan model ARMA dengan realisasi ini. Kami melaksanakan ini karena kami ingin memastikan bahwa kami memahami prosedur pemasangannya, termasuk cara menghitung interval kepercayaan untuk model, serta memastikan bahwa prosedur tersebut benar-benar menghasilkan perkiraan yang masuk akal untuk parameter ARMA yang asli. Pada Bagian 1 dan Bagian 2 kita secara manual menyusun seri AR dan MA dengan menggambar sampel N dari distribusi normal dan kemudian menyusun model deret waktu tertentu dengan menggunakan lag dari sampel ini. Namun, ada cara yang lebih mudah untuk mensimulasikan AR, MA, ARMA dan bahkan data ARIMA, cukup dengan menggunakan metode arima. sim di R. Mari kita mulai dengan model ARMA non-sepele yang paling sederhana, yaitu ARMA (1,1 ) model. Artinya, model pesanan autoregresif satu dikombinasikan dengan model rata-rata bergerak dari pesanan satu. Model seperti itu hanya memiliki dua koefisien, alpha dan beta, yang mewakili kelambatan pertama dari deret waktu itu sendiri dan istilah white noise yang mengejutkan. Model seperti ini diberikan oleh: Kita perlu menentukan koefisien sebelum simulasi. Mari kita ambil alpha 0.5 dan beta -0.5: Outputnya adalah sebagai berikut: Mari juga plot correlogram: Kita dapat melihat bahwa tidak ada autokorelasi yang signifikan, yang diharapkan dari model ARMA (1,1). Akhirnya, mari kita coba dan tentukan koefisien dan kesalahan standarnya dengan menggunakan fungsi arima: Kita dapat menghitung interval kepercayaan untuk setiap parameter dengan menggunakan kesalahan standar: Interval kepercayaan mengandung nilai parameter sebenarnya untuk kedua kasus tersebut, namun kita harus mencatat bahwa 95 interval kepercayaan sangat luas (konsekuensi dari kesalahan standar yang cukup besar). Mari sekarang coba model ARMA (2,2). Artinya, model AR (2) dikombinasikan dengan model MA (2). Kita perlu menentukan empat parameter untuk model ini: alpha1, alpha2, beta1 dan beta2. Mari kita ambil alpha1 0.5, alpha2-0.25 beta10.5 dan beta2-0.3: Output dari model ARMA (2,2) kami adalah sebagai berikut: Dan autocorelation yang sesuai: Sekarang kita dapat mencoba model ARMA (2,2) sesuai dengan Data: Kita juga dapat menghitung interval kepercayaan untuk setiap parameter: Perhatikan bahwa interval kepercayaan untuk koefisien untuk komponen rata-rata bergerak (beta1 dan beta2) sebenarnya tidak mengandung nilai parameter asli. Ini menguraikan bahaya mencoba menyesuaikan model dengan data, bahkan ketika kita mengetahui nilai parameter sebenarnya. Namun, untuk tujuan trading kita hanya perlu memiliki kekuatan prediksi yang melebihi kebetulan dan menghasilkan keuntungan yang cukup di atas biaya transaksi, agar menguntungkan Jangka panjang. Sekarang kita melihat beberapa contoh model ARMA yang disimulasikan, kita memerlukan mekanisme untuk memilih nilai p dan q saat menyesuaikan model dengan data keuangan riil. Memilih Model ARMA Terbaik (p, q) Untuk menentukan urutan p, q dari model ARMA yang sesuai untuk satu seri, kita perlu menggunakan AIC (atau BIC) pada subset nilai untuk p, q, dan Kemudian menerapkan uji Ljung-Box untuk menentukan apakah kecocokan yang baik telah tercapai, untuk nilai p tertentu, q. Untuk menunjukkan metode ini, kita akan mensimulasikan proses ARMA (p, q) pertama. Kita kemudian akan mengulang semua nilai berpasangan dari p dalam dan q dan menghitung AIC. Kita akan memilih model dengan AIC terendah dan kemudian menjalankan tes Ljung-Box pada residu untuk menentukan apakah kita telah mencapai kecocokan yang baik. Mari kita mulai dengan mensimulasikan seri ARMA (3,2): Kami sekarang akan membuat objek akhir untuk menyimpan model terbaik dan nilai AIC terendah. Kami mengulang kombinasi p, q dan menggunakan objek saat ini untuk menyimpan kecocokan model ARMA (i, j), untuk variabel perulangan i dan j. Jika AIC saat ini kurang dari AIC yang dihitung sebelumnya, kami menetapkan nilai akhir AIC ke nilai saat ini dan memilih pesanan tersebut. Setelah penghentian loop kita memiliki urutan model ARMA yang tersimpan di final. order dan ARIMA (p, d, q) sesuai dengan dirinya sendiri (dengan komponen d Integrated set to 0) yang disimpan sebagai final. arma: Mari output AIC , Koefisien order dan ARIMA: Kita dapat melihat bahwa orde awal dari model ARMA simulasi telah ditemukan, yaitu dengan p3 dan q2. Kita bisa merencanakan corelogram residu model untuk melihat apakah mereka terlihat seperti realisasi white noise diskrit (DWN): Corelogram memang terlihat seperti realisasi DWN. Akhirnya, kami melakukan uji Ljung-Box selama 20 lag untuk mengkonfirmasi ini: Perhatikan bahwa nilai p lebih besar dari 0,05, yang menyatakan bahwa residu independen pada tingkat 95 dan dengan demikian model ARMA (3,2) menyediakan Model yang bagus cocok Jelas hal ini seharusnya terjadi karena kita telah mensimulasikan data diri kita Namun, inilah prosedur yang akan kita gunakan saat kita menyesuaikan model ARMA (p, q) dengan indeks SampP500 pada bagian berikut. Data Keuangan Sekarang telah dijelaskan prosedur pemilihan model time series yang optimal untuk seri simulasi, agak mudah untuk menerapkannya pada data keuangan. Untuk contoh ini kita akan sekali lagi memilih Indeks Ekuitas AS Sampp500. Mari kita download harga penutupan harian menggunakan quantmod dan kemudian menciptakan arus kembali log: Mari kita melakukan prosedur pemasangan yang sama seperti seri simulasi ARMA (3,2) di atas pada seri pengembalian kembali SampP500 menggunakan AIC: Model pas terbaik Telah memesan ARMA (3,3): Mari plot residu model yang dipasang ke arus pengembalian harian SampP500 log: Perhatikan bahwa ada beberapa puncak yang signifikan, terutama pada kelambatan yang lebih tinggi. Ini menunjukkan kecocokan yang buruk. Mari kita melakukan uji Ljung-Box untuk mengetahui apakah kita memiliki bukti statistik untuk hal ini: Seperti yang kita duga, nilai p kurang dari 0,05 dan karena itu kita tidak dapat mengatakan bahwa residu adalah realisasi dari noise putih diskrit. Oleh karena itu ada tambahan autokorelasi pada residu yang tidak dijelaskan oleh model ARMA (3,3) yang dipasang. Langkah Selanjutnya Seperti yang telah kita bahas selama ini dalam seri artikel ini, kita telah melihat bukti adanya heteroskedastisitas bersyarat (volatility clustering) pada seri SampP500, terutama pada periode sekitar 2007-2008. Saat kita menggunakan model GARCH nanti di seri artikel kita akan melihat bagaimana cara menghilangkan autokorelasi ini. Dalam prakteknya, model ARMA tidak pernah umum cocok untuk pengembalian ekuitas log. Kita perlu mempertimbangkan heteroskedastisitas bersyarat dan menggunakan kombinasi ARIMA dan GARCH. Artikel berikutnya akan mempertimbangkan ARIMA dan menunjukkan bagaimana komponen Terpadu berbeda dari model ARMA yang telah kita pertimbangkan dalam artikel ini. Mulai dengan Trading Kuantitatif

No comments:

Post a Comment