Neste artigo, exploraremos em profundidade ARIMA e sua relevância na sociedade atual. Desde o seu impacto na história até à sua influência na vida quotidiana, ARIMA captou a atenção de pessoas de todas as idades e origens. Através de uma análise detalhada, examinaremos os aspectos mais significativos de ARIMA e seu papel na esfera cultural, social e emocional. Além disso, examinaremos como ARIMA evoluiu ao longo do tempo e como continua a moldar a nossa percepção do mundo que nos rodeia. Este artigo fornecerá uma visão geral completa e abrangente de ARIMA, oferecendo aos leitores uma compreensão mais profunda de sua importância no mundo moderno.
Em estatística e econometria, particularmente em análise de séries temporais, um modelo auto-regressivo integrado de médias móveis (autoregressive integrated moving average ou ARIMA, na sigla em inglês) é uma generalização de um modelo auto-regressivo de médias móveis (ARMA). Ambos os modelos são ajustados aos dados da série temporal para entender melhor os dados ou para prever pontos futuros na série. Modelos ARIMA são aplicados em alguns casos em que os dados mostram evidências de não estacionariedade, em que um passo inicial de diferenciação (correspondente à parte "integrada" do modelo) pode ser aplicado uma ou mais vezes para eliminar a não estacionariedade.[1]
A parte auto-regressiva (AR) do modelo ARIMA indica que a variável evoluinte de interesse é regressada em seus próprios valores defasados, isto é, anteriores. A parte de média móvel (MA) indica que o erro de regressão é na verdade uma combinação linear dos termos de erro, cujos valores ocorreram contemporaneamente e em vários momentos no passado. A parte integrada (I) indica que os valores de dados foram substituídos com a diferença entre seus valores e os valores anteriores e este processo diferenciador pode ter sido realizado mais de uma vez. O propósito da cada uma destas características é fazer o modelo se ajustar aos dados da melhor forma possível.[2]
Modelos ARIMA não sazonais são geralmente denotados como ARIMA(), em que os parâmetros , e são números inteiros não negativos, é a ordem (número de defasagens) do modelo auto-regressivo, é o grau de diferenciação (o número de vezes em que os dados tiveram valores passados subtraídos) e é a ordem do modelo de média móvel. Modelos ARIMA sazonais são geralmente denotados como ARIMA()(), em que se refere ao número de períodos em cada temporada e , e se referem aos termos de auto-regressão, diferenciação e média móvel para a parte sazonal do modelo ARIMA.[3][4]
Quando dois dos três termos são iguais a zero, o modelo pode ser referido com base no parâmetro diferente de zero, retirando "AR", "I" ou "MA" do acrônimo que descreve o modelo. Por exemplo, ARIMA() é AR(), ARIMA() é I() e ARIMA() é MA().
Modelos ARIMA podem ser estimados seguindo a abordagem de Box–Jenkins.[5]
Dada uma série temporal de dados , em que é um índice representado por um número inteiro e são números reais, um modelo ARMA() é dado por:[6]
ou equivalentemente por
em que é operador de defasagem, são os parâmetros da parte auto-regressiva do modelo, são os parâmetros da parte de média móvel e são os termos de erro. Os termos de erro são geralmente assumidos como variáveis independentes e identicamente distribuídas amostradas a partir de uma distribuição normal com média zero. Assuma agora que o polinômio tem uma raiz unitária (um fator ) de multiplicidade . Então, isto pode ser rescrito como:
Um processo ARIMA() expressa a propriedade de fatoração deste polinômio com , sendo dado por:
e assim pode ser pensado como um caso particular de um processo ARMA() que tem o polinômio auto-regressivo com raízes unitárias. Por esta razão, nenhum modelo ARIMA com é estacionário em sentido amplo. O que foi descrito acima pode ser generalizado como:
Isto define um processo ARIMA() com deriva .
A identificação explícita da fatoração do polinômio de auto-regressão em fatores como descrita acima pode ser estendida a outros casos, primeiramente para aplicar ao polinômio de média móvel e, em segundo lugar, para incluir outros fatores especiais. Por exemplo, ter um fator em um modelo é uma forma de incluir uma sazonalidade não estacionária do período no modelo. Este fator tem o efeito de reexpressar os dados como mudanças a partir de períodos atrás. Outro exemplo é o fator , que inclui uma sazonalidade não estacionária de período igual a 2. O efeito do primeiro tipo de fator é permitir ao valor de cada temporada derivar separadamente ao longo tempo, enquanto os valores do segundo tipo para temporadas adjacentes se movem juntos.[6]
A identificação e a especificação de fatores apropriados em um modelo ARIMA podem ser passos importantes na modelagem, já que permitem uma redução no número geral de parâmetros a serem estimados, enquanto autorizam a imposição de tipos de comportamento sugeridos pela lógica e pela experiência sobre o modelo.[6]
A diferenciação em estatística é uma transformação aplicada aos dados de uma série temporal a fim de tornar esta série estacionária. As propriedades de uma série temporal estacionária não dependem do tempo em que a série é observada.
A fim de diferenciar os dados, a diferença entre observações consecutivas é computada. Matematicamente, isto é mostrado como:[7]
A diferenciação remove as mudanças no nível de uma série temporal, eliminando tendência e sazonalidade e consequentemente estabilizando a média da série temporal. Pode ser necessário às vezes diferenciar os dados uma segunda vez para obter uma série temporal estacionária, processo referido como diferenciação de segunda ordem:[8]
Outro método de diferenciar os dados é a diferenciação sazonal, que envolve computar a diferença entre uma observação e a observação correspondente no ano anterior. Isto é mostrado como:
Os dados diferenciados são então usados para a estimação de um modelo ARMA.
Alguns casos especiais bem conhecidos surgem naturalmente ou são matematicamente equivalentes a outros modelos de previsão populares. Por exemplo:
Para determinar a ordem de um modelo ARIMA não sazonal, um critério útil é o critério de informação de Akaike (AIC).[9] É escrito como:
em que é verossimilhança dos dados, é a ordem da parte auto-regressiva e é a ordem da parte de média móvel. O parâmetro neste critério é definido como o número de parâmetros no modelo sendo ajustado aos dados. Para o AIC, se , então , e se , então . O AIC corrigido para modelos ARIMA pode ser escrito como:
O critério de informação bayesiano (BIC) pode ser escrito como:
O objetivo é o minimizar os valores de AIC, AICc e BIC para um bom modelo. Quanto menor o valor de um destes critérios para uma gama de modelos investigados, melhor o modelo se adequará aos dados. Deve-se notar entretanto que o AIC e o BIC são usados para dois propósitos completamente diferentes. Enquanto o AIC tenta aproximar modelos da realidade da situação, o BIC tenta encontrar o ajuste perfeito. A abordagem do BIC é frequentemente criticada, já que nunca há um ajuste perfeito aos dados complexos da vida real. No entanto, ainda é um método útil para seleção, já que penaliza mais intensamente modelos por terem mais parâmetros do que o AIC faria.
O AICc pode ser usado apenas para comparar modelos ARIMA com as mesmas ordens de diferenciação. Para modelos ARIMA como ordens distintas de diferenciação, a raiz do erro quadrático médio pode ser usada para comparação de modelos.
O modelo ARIMA pode ser visto como uma "cascata" de dois modelos. O primeiro é não estacionário:
enquanto o segundo é estacionário em sentido amplo:
Agora, previsões podem ser feitas para o processo , usando uma generalização do método de previsão auto-regressiva.[11]
Os intervalos de previsão (intervalos de confiança para previsões) para modelos ARIMA são baseados no pressuposto de que os resíduos são não correlacionados e normalmente distribuídos. Se um destes dois pressupostos não se aplicar, então, os intervalos de previsão podem estar incorretos. Por esta razão, pesquisadores mapeiam a função autocorrelação e o histograma dos resíduos para checar os pressupostos antes de produzirem os intervalos de previsão.
No caso de intervalo de previsão de 95%, tem-se:
,
em que é a variância de .
Para , para todos os modelos ARIMA, independentemente dos parâmetros e das ordens.
No caso de um modelo ARIMA(), , temos:
Em geral, intervalos de previsão de modelos ARIMA aumentarão conforme o horizonte de previsão aumenta.
Uma quantidade de variações sobre o modelo ARIMA é comumente empregada. Se séries temporais múltiplas forem usadas, então, podem ser pensados como vetores e um modelo auto-regressivo integrado de médias móveis vetorial (VARIMA).[12] Algumas vezes, suspeita-se de um efeito sazonal no modelo. Neste caso, geralmente é melhor usar um modelo auto-regressivo integrado de médias móveis sazonal (SARIMA) do que aumentar a ordem das partes AR ou MA do modelo.[13] Se se suspeitar que a série temporal exibe dependência de longo intervalo, então, pode-se permitir ao parâmetro ter valores não inteiros em um modelo auto-regressivo fracionariamente integrado de médias móveis, que também é chamado de modelo ARIMA fracionário (FARIMA ou ARFIMA).[14]