Tuesday, November 29, 2016

Móvil Exponencial Irregular Serie Promedio De Tiempo

5.2 de tiempo de filtrado Serie Smoothing generalmente se hace para ayudarnos a ver mejor los patrones, tendencias, por ejemplo, en las series temporales. Generalmente suavizar la rugosidad irregular para ver una señal más clara. Para los datos estacionales, podríamos suavizar la estacionalidad de manera que podamos identificar la tendencia. Suavizar duerma nos proporcionan un modelo, pero puede ser un buen primer paso en la descripción de los diversos componentes de la serie. El filtro de término a veces se utiliza para describir un procedimiento de suavizado. Por ejemplo, si el valor suavizado para un momento determinado se calcula como una combinación lineal de las observaciones para los tiempos que rodea, se podría decir que hayamos aplicado un filtro lineal a los datos (no lo mismo que decir el resultado es una línea recta, por la manera). El uso tradicional del término promedio móvil es que en cada punto en el tiempo determinamos promedios ponderados (posiblemente) de los valores observados que rodean un momento determinado. Por ejemplo, en el tiempo t. una media móvil centrada de longitud con 3 pesos iguales sería la media de los valores en los tiempos t -1. t. y t1. Para llevar estacionalidad de una serie, por lo que podemos ver mejor tendencia, podríamos utilizar una media móvil con un palmo de temporada longitud. Así, en la serie suavizada, cada valor se ha suavizado en promedio en todas las estaciones. Esto podría hacerse por mirar una media móvil de un solo lado en el que se promedia todos los valores correspondientes a los años anteriores por valor de datos o una media móvil centrada en las que utilice los valores antes y después de la hora actual. Para los datos trimestrales, por ejemplo, podríamos definir un valor suavizado para el tiempo t como (x t x t-1 x T-2 x T-3) / 4, el promedio de este tiempo y los 3 trimestres anteriores. En el código R este será un filtro de un solo lado. Una media móvil centrada crea un poco de dificultad cuando tenemos un número par de periodos de tiempo en el lapso de temporada (ya que normalmente no). Para suavizar la estacionalidad en los datos trimestrales. con el fin de identificar tendencias, la convención habitual es usar la media móvil suavizada en el tiempo t es Para suavizar la estacionalidad en los datos mensuales. con el fin de identificar tendencias, la convención habitual es usar la media móvil suavizada en el tiempo t es que es, se aplica a los valores de peso 1/24 en momentos T6 y T6 y peso 1/12 a todos los valores en todo momento entre t5 y t5. En el comando de filtro R, así especificar un filtro de dos caras cuando queremos utilizar los valores que vienen tanto antes como después de que el tiempo para el que fueron suavizando. Tenga en cuenta que en la página 71 de nuestro libro, los autores aplican el mismo peso a través de una media móvil centrada de temporada. Eso está bien también. Por ejemplo, una suave trimestral podría ser suavizado en el tiempo t es frac frac x x xt frac frac frac x x Un mes más suave podría aplicar un peso de 1/13 a todos los valores de los tiempos t-6 a T6. El código de los autores utilizan en la página 72 se aprovecha de un comando representante que se repite un valor de un cierto número de veces. Ellos no utilizar el parámetro de filtro dentro del comando de filtro. Ejemplo 1 Trimestral producción de cerveza en Australia Tanto en la lección 1 y la lección 4, nos fijamos en una serie de la producción de cerveza trimestralmente en Australia. El siguiente código R crea una serie suavizada que nos permite ver el patrón de tendencia, y las parcelas de este patrón de tendencia en el mismo gráfico que la serie temporal. El segundo comando crea y almacena la serie suavizada en el objeto llamado trendpattern. Tenga en cuenta que dentro del comando de filtro, el filtro de parámetro con nombre da los coeficientes para nuestra suavizado y los lados 2 provoca un centrado suave a calcular. exploración beerprod (beerprod. dat) trendpattern filtro (beerprod, filtro de c (1/8, 1/4, 1/4, 1/4, 1/8), sides2) parcela (beerprod, tipo b, la principal tendencia anual promedio móvil (líneas) trendpattern) Aquí está el resultado: podríamos restar el patrón de tendencia a partir de los valores de los datos para obtener una mejor visión de la estacionalidad. He aquí cómo que se llevaría a cabo: seasonals beerprod - parcela trendpattern (seasonals, tipo b, patrón estacional principal para la producción de cerveza) El resultado sigue: Otra posibilidad para suavizar la serie para ver la tendencia es el filtro trendpattern2 de un solo lado del filtro (beerprod, filtro de c (1/4, 1/4, 1/4, 1/4), sides1) Con esto, el valor suavizado es el promedio del año pasado. Ejemplo 2. EE. UU. mensual de desempleo en la tarea para la semana 4 se analizó una serie mensual de desempleo EE. UU. para 1948-1978. Aquí está una suavización hecha para observar la tendencia. trendunemployfilter (desempleo, filterc (1 / 24,1 / 12,1 / 12,1 / 12,1 / 12,1 / 12,1 / 12,1 / 12,1 / 12,1 / 12,1 / 12, 1 / 12,1 / 24), sides2) ct trendunemploy (trendunemploy, comenzar c (1948,1), frec 12) parcela (trendunemploy, Maintrend de desempleo en Estados Unidos, 1948-1978, xlab Año) Sólo se representa la tendencia suavizada. El segundo comando identifica las características de tiempo del calendario de la serie. Eso hace que la trama tiene un eje más significativo. La trama sigue. Para la serie no estacional, te enviaban obligado a suavizar cualquier tramo en particular. Para alisar usted debe experimentar con los promedios de los diferentes tramos en movimiento. Esos espacios de tiempo podrían ser relativamente corto. El objetivo es eliminar las asperezas para ver qué tendencia o patrón podría estar allí. Otros métodos de suavizado (Sección 2.4) Sección 2.4 describe varias alternativas sofisticadas y útiles a mover suavizado promedio. Los detalles pueden parecer rara, pero eso es aceptable porque no queremos que empantanarse en un montón de detalles para esos métodos. De los métodos alternativos que se describen en la sección 2.4, lowess (regresión ponderada localmente) puede ser el más ampliamente utilizado. Ejemplo 2 Continúa la figura siguiente se suaviza la línea de tendencia para la serie de desempleo EE. UU., que se encuentra utilizando un lowess más suave en el que una cantidad sustancial (2/3) contribuyó a cada estimación suavizada. Tenga en cuenta que esto se alisó la serie más agresiva que la media móvil. Los comandos utilizados fueron ts desempleo (el desempleo, puesta en marcha C (1948,1), freq12) parcela (lowess (desempleo, f 2/3), la principal suavizado Lowess de desempleo en Estados Unidos Tendencia) Individual suavizado exponencial La ecuación básica para la previsión de alisamiento exponencial simple a menudo se da como el sombrero alfa xt (1-alfa) t sombrero texto prevemos que el valor de x en el instante t1 ser una combinación ponderada del valor observado en el tiempo t y el valor pronosticado en el tiempo t. Aunque el método se denomina método de alisado, su utiliza principalmente para la predicción de corto plazo. El valor de la constante se denomina suavizado. Por la razón que sea, 0,2 es un popular opción por defecto de los programas. Esto pone un peso de 0,2 en la más reciente observación y un peso de 1 0,2 0,8 en el pronóstico más reciente. Con un valor relativamente pequeño de, la suavización será relativamente más extensa. Con un valor relativamente grande de, el alisado es relativamente menos extensa como más peso será puesto en el valor observado. Esto es simple de un solo paso por delante método de pronóstico que a primera vista parece no requerir un modelo para los datos. De hecho, este método es equivalente a la utilización de un modelo ARIMA (0,1,1) con no constante. El procedimiento óptimo es ajustar un modelo ARIMA (0,1,1) para el conjunto de datos observados y utilizar los resultados para determinar el valor de. Esto es óptimo en el sentido de crear el mejor para los datos ya observados. Aunque el objetivo es suavizar y un paso por delante previsión, la equivalencia con el modelo ARIMA (0,1,1) modelo trae un buen punto. ciegamente que no deberíamos aplicar suavizado exponencial debido a que el proceso subyacente podría no estar bien modelado por un ARIMA (0,1,1). ARIMA (0,1,1) y suavizado exponencial Equivalencia Considere un modelo ARIMA (0,1,1) con media 0 para las primeras diferencias, xt - xt-1: iniciar el sombrero amp amp xt theta1 peso amp amp xt theta1 (xt - hat t) amp amp (1 theta1) xt - theta1hat tienden. Si dejamos que (1 1) y por lo tanto - (1) 1, vemos la equivalencia con la ecuación (1) anterior. ¿Por qué se llama al método de suavizado exponencial se obtiene la siguiente: begin amp sombrero amp alfa xt (1-alfa) alfa x (1-alfa) sombrero amp amp alfa xt alfa (1-alfa) x (1-alfa) 2hat final Continuar de esta manera, sustituyendo sucesivamente por el valor previsto en el lado derecho de la ecuación. Esto conduce a: Sombrero alfa xt alfa (1-alfa) x alfa (1-alfa) 2 x puntos alfa (1-alfa) JX puntos alfa (1-alfa) x1 texto ecuación 2 muestra que el valor pronosticado es un promedio ponderado de todos los valores anteriores de la serie, con los pesos de manera exponencial cambiantes a medida que nos movemos hacia atrás en la serie. Óptima de suavizado exponencial en I Básicamente, que acaba de ajustar un modelo ARIMA (0,1,1) a los datos y determinar el coeficiente. Podemos examinar el ajuste de la suave mediante la comparación de los valores predichos a la serie actual. suavizado exponencial tiende a ser utilizado más como una herramienta de pronóstico que una verdadera suave, por lo que estaban buscando para ver si tenemos un buen ajuste. Ejemplo 3. n 100 observaciones mensuales del logaritmo de un índice de precios del petróleo en los Estados Unidos. La serie de datos es: Un ARIMA (0,1,1) en forma de I dio un MA (1) coeficiente de 0,3877. Así, (1 1) 1,3877 y 1- -0.3877. La ecuación de predicción de suavizado exponencial es 1.3877xt sombrero - 0.3877hat t A la hora 100, el valor observado de la serie es 100 x 0,86601. El valor predicho para la serie en ese momento es, pues, la previsión en el tiempo 101 es 1.3877x sombrero - 0.3877hat 1,3877 (0,86601) -0,3877 (0,856789) 0.8696 Lo que sigue es lo bien que se ajusta a la más suave de la serie. Es un buen ajuste. Eso es una buena señal para el pronóstico, el propósito principal de esto más suave. A continuación se muestran los comandos que se utilizan para generar la salida para este ejemplo: exploración oilindex (oildata. dat) parcela (oilindex, tipo b, el principal medio litro de aceite Index Series) expsmoothfit Arima (oilindex, para c (0,1,1)) expsmoothfit para ver los resultados ARIMA predicteds oilindex - expsmoothfitresiduals predijeron parcela de valores (oilindex, TypeB, principal suavizado exponencial de Log del Índice de Petróleo) líneas (predicteds) 1.3877oilindex100-0.3877predicteds100 pronóstico para el tiempo 101 doble suavizado exponencial doble suavizado exponencial podría ser utilizado cuando los theres tendencia (ya sea a largo plazo o de corto plazo), pero ningún cambio estacional. En esencia, el método crea un pronóstico mediante la combinación de las estimaciones suavizadas exponencialmente de la tendencia (pendiente de una línea recta) y el nivel (básicamente, la intersección de una línea recta). Dos pesos diferentes, o parámetros de suavizado, se utilizan para actualizar estos dos componentes en cada momento. El nivel suavizado es más o menos equivalente a una simple de suavizado exponencial de los valores de los datos y la tendencia alisado es más o menos equivalente a una simple de suavizado exponencial de las primeras diferencias. El procedimiento es equivalente al montaje de un modelo ARIMA (0,2,2), con no constante se puede llevar a cabo con una (0,2,2) ajuste ARIMA. (1-B) 2 xt (1theta1B theta2B2) wt. Exponential Filtrar esta página se describen filtrado exponencial, el filtro simple y más popular. Esto es parte de la sección de filtrado que es parte de la Guía para la detección y diagnóstico de fallos .. Descripción general, constante de tiempo, y el equivalente analógico El filtro más simple es el filtro exponencial. Sólo tiene un parámetro de ajuste (que no sea el intervalo de muestreo). Se requiere el almacenamiento de una sola variable - la salida anterior. Es un (autorregresivo) filtro IIR - los efectos de un cambio de entrada decaimiento exponencial hasta los límites de la muestra o la aritmética computacional disimulan. En diversas disciplinas, el uso de este filtro también se conoce como smoothing8221 8220exponential. En algunas disciplinas como el análisis de la inversión, el filtro exponencial se llama un 8220Exponentially ponderado Average8221 en movimiento (EWMA), o simplemente 8220Exponential Moving Average8221 (EMA). Este abusa de la tradicional ARMA 8220moving terminología average8221 de análisis de series temporales, ya que no hay antecedentes de entrada que se utiliza - sólo la entrada de corriente. Es el equivalente de tiempo discreto de la orden 8220first lag8221 comúnmente utilizado en modelado analógico de sistemas de control de tiempo continuo. En los circuitos eléctricos, un filtro RC (filtro con una resistencia y un condensador) es un retardo de primer orden. Al destacar la analogía con circuitos analógicos, el parámetro de ajuste es la única constant8221 8220time, generalmente escrita como la minúscula letra griega Tau (). De hecho, los valores a los tiempos de muestreo discretos coincidir exactamente con el retraso de tiempo continuo equivalente con la misma constante de tiempo. La relación entre la aplicación digital y la constante de tiempo se muestra en las ecuaciones de abajo. ecuaciones de filtro exponencial y la inicialización El filtro exponencial es una combinación ponderada de la estimación anterior (salida) con los datos de entrada más reciente, con la suma de los pesos iguales a 1 para que la salida coincide con la entrada en el estado estacionario. Siguiendo la notación de filtro ya introducido: y (k) ay (k-1) (1-a) x (k) donde x (k) es la entrada en bruto en el momento de paso ky (k) es la salida filtrada a ka paso de tiempo es una constante entre 0 y 1, normalmente entre 0,8 y 0,99. (A-1) o una a veces se llama la constant8221 8220smoothing. Para sistemas con un paso fijo T de tiempo entre muestras, la constante de 8220a8221 se calcula y almacena sólo para la comodidad cuando el desarrollador de la aplicación especifica un nuevo valor de la constante de tiempo deseada. Para sistemas con muestreo de datos a intervalos irregulares, la función exponencial anterior se debe utilizar con cada paso de tiempo, donde T es el tiempo transcurrido desde la muestra anterior. La salida del filtro es generalmente inicializa para que coincida con la primera entrada. Como la constante de tiempo se aproxima a 0, una tiende a cero, así que no hay filtrado de 8211 la salida es igual a la nueva entrada. Como la constante de tiempo se hace muy grande, una se acerca a 1, por lo que la nueva entrada es casi ignorado 8211 filtrado muy pesado. La ecuación de filtro anterior puede ser reorganizado en el siguiente equivalente de predicción-corrección: Esta forma hace que sea más evidente que la estimación variable (salida del filtro) se predice como sin cambios desde la estimación anterior y (k-1) más un término de corrección basado en el inesperado 8220innovation8221 - la diferencia entre la nueva entrada x (k) y la predicción y (k-1). Esta forma es también el resultado de derivar el filtro exponencial como un caso especial simple de un filtro de Kalman. que es la solución óptima a un problema de estimación con un conjunto particular de supuestos. Paso respuesta Una manera de visualizar el funcionamiento del filtro exponencial es para trazar su respuesta en el tiempo a una entrada de paso. Es decir, comenzando con la entrada del filtro y de salida en 0, el valor de entrada se cambia repentinamente a 1. Los valores resultantes se representan a continuación: En la trama anterior, el tiempo se divide por el tiempo de filtrado constante tau para que pueda predecir con más facilidad los resultados para cualquier período de tiempo, para cualquier valor de la constante de tiempo del filtro. Después de un tiempo igual a la constante de tiempo, la salida del filtro se eleva a 63,21 de su valor final. Después de un tiempo igual a 2 constantes de tiempo, el valor se eleva a 86,47 de su valor final. Las salidas después de tiempos iguales a 3,4, y 5 constantes de tiempo son 95,02, 98,17, 99,33 y del valor final, respectivamente. Dado que el filtro es lineal, esto significa que estos porcentajes pueden ser utilizados para cualquier magnitud del cambio de paso, no sólo por el valor de 1 se utiliza aquí. Aunque la respuesta al escalón en teoría toma un tiempo infinito, desde un punto de vista práctico, pensar en el filtro exponencial como 98 a 99 8220done8221 responder después de un tiempo igual a 4 a 5 constantes de tiempo del filtro. Variaciones sobre el filtro exponencial Hay una variación del filtro exponencial llamado 8220nonlinear filter8221 exponencial Weber, 1980. destinado a filtrar el ruido en gran medida dentro de un cierto 8220typical8221 amplitud, pero entonces responder más rápidamente a los cambios más grandes. Derechos de autor 2010 - 2013, Greg Stanley Compartir esta página: El uso de R para el análisis de series de series de tiempo Tiempo de análisis En este folleto se itells cómo utilizar el software estadístico R para llevar a cabo algunos análisis simples que son comunes en el análisis de series temporales de datos. Este folleto asume que el lector tiene un conocimiento básico de análisis de series temporales, y el foco principal del folleto no es explicar el análisis de series temporales, sino más bien para explicar cómo llevar a cabo estos análisis utilizando R. Si usted es nuevo en la serie temporal análisis, y quieren aprender más acerca de cualquiera de los conceptos que aquí se presentan, lo recomiendo encarecidamente el libro Open University 8220Time series8221 (código de producto M249 / 02), disponible a partir de la Open University Shop. En este folleto, que va a utilizar conjuntos de datos de series temporales que han sido amablemente facilitados por Rob Hyndman en su biblioteca de datos de series de tiempo en robjhyndman / TSDL /. Si te gusta este folleto, también es posible que a la salida de mi folleto sobre el uso de R para las estadísticas biomédica, a-little-book-of-r-for-biomedical-statistics. readthedocs. org/. y mi folleto sobre el uso de R para el análisis multivariado, little-book-of-r-for-multivariate-analysis. readthedocs. org/. La lectura de datos de series de tiempo Lo primero que tendrá que hacer para analizar los datos de series de tiempo será para leerlo en R, y para trazar la serie de tiempo. Usted puede leer datos en R utilizando la función de búsqueda (), que parte del supuesto de que los datos de los puntos de tiempo sucesivos se encuentra en un archivo de texto simple con una sola columna. Por ejemplo, el archivo robjhyndman / tsdldata / misc / kings. dat contiene datos sobre la edad de la muerte de los sucesivos reyes de Inglaterra, comenzando por Guillermo el Conquistador (fuente original: Hipel y McLeod, 1994). El conjunto de datos es el siguiente: sólo las primeras líneas del archivo se ha demostrado. Las tres primeras líneas contienen algunos comentarios sobre los datos, y queremos hacer caso omiso de esto cuando leemos los datos en R. Podemos usar esto usando el parámetro 8220skip8221 de la función de exploración (), que especifica el número de líneas en la parte superior de el archivo de ignorar. Para leer el archivo en R, haciendo caso omiso de las tres primeras líneas, escribimos: En este caso, la edad de la muerte de 42 reyes sucesivos de Inglaterra ha sido leído en la variable 8216kings8217. Una vez que haya leído los datos de series temporales en R, el siguiente paso consiste en almacenar los datos en un objeto de series de tiempo en I, por lo que se puede utilizar R8217s muchas funciones para el análisis de series temporales de datos. Para almacenar los datos en un objeto de series de tiempo, usamos la función ts () en R. Por ejemplo, para almacenar los datos de la variable 8216kings8217 como un objeto de series de tiempo en R, escribimos: A veces, los datos de series de tiempo establecidos que se pueden haber sido recogidos a intervalos regulares que eran menos de un año, por ejemplo, mensual o trimestral. En este caso, se puede especificar el número de veces que se recoge que los datos anuales utilizando el parámetro 8216frequency8217 en los ts () función. Para los datos de series de tiempo mensuales, se establece frequency12, mientras que para las series temporales de datos trimestrales, se establece frequency4. También puede especificar el primer año en que se recogieron los datos, y el primer intervalo en ese año mediante el parámetro 8216start8217 en los ts () función. Por ejemplo, si el primer punto de datos corresponde al segundo trimestre de 1986, configuraría startc (1986,2). Un ejemplo es un conjunto de datos del número de nacimientos por mes en la ciudad de Nueva York, desde enero 1946 hasta diciembre 1959 (originalmente recogidos por Newton). Estos datos están disponibles en el archivo robjhyndman / tsdldata / datos / nybirths. dat Podemos leer los datos en R, y almacenarlo como un objeto de series de tiempo, escribiendo: Del mismo modo, el robjhyndman archivo / tsdldata / datos / fancy. dat contiene ventas mensuales de una tienda de recuerdos en un centro turístico de playa en Queensland, Australia, para enero 1987 a diciembre 1993 (datos originales de Wheelwright y Hyndman, 1998). Podemos leer los datos en R escribiendo: Trazado de series temporales Una vez que haya leído una serie de tiempo en R, el siguiente paso es por lo general para hacer una gráfica de los datos de series temporales, que se pueden hacer con los plot. ts () Función en R. Por ejemplo, para graficar la serie temporal de la edad de la muerte de 42 reyes sucesivos de Inglaterra, escribimos: podemos ver en el gráfico de tiempo que esta serie de tiempo probablemente podría describirse utilizando un modelo aditivo, ya que las fluctuaciones aleatorias en los datos son más o menos constante en tamaño con el tiempo. Del mismo modo, para graficar la serie temporal del número de nacimientos por cada mes en la ciudad de Nueva York, escribimos: Podemos ver en esta serie de tiempo que no parece haber una variación estacional en el número de nacimientos por mes: hay un pico cada verano , y un canal cada invierno. Una vez más, parece que esta serie de tiempo probablemente podría describirse utilizando un modelo aditivo, ya que las fluctuaciones estacionales son más o menos constante en tamaño con el tiempo y no parecen depender del nivel de la serie histórica, y las fluctuaciones aleatorias también parece ser más o menos constante en tamaño con el tiempo. Del mismo modo, para graficar la serie temporal de las ventas mensuales de la tienda de recuerdos en un centro turístico de playa en Queensland, Australia, escribimos: En este caso, parece que un modelo aditivo no es apropiado para describir esta serie de tiempo, ya que el tamaño de las fluctuaciones estacionales y fluctuaciones aleatorias parecen aumentar con el nivel de la serie de tiempo. Por lo tanto, es posible que tengamos para transformar las series de tiempo con el fin de obtener una serie temporal transformado que puede describirse utilizando un modelo aditivo. Por ejemplo, podemos transformar las series de tiempo calculando el logaritmo natural de los datos originales: Aquí podemos ver que el tamaño de las fluctuaciones estacionales y fluctuaciones aleatorias en las series de tiempo diario de transformar parece ser más o menos constante en el tiempo, y hacer no dependerá del nivel de la serie temporal. Por lo tanto, la serie de tiempo diario de transformar probablemente puede describirse utilizando un modelo aditivo. La descomposición de serie temporal de la descomposición de una serie de tiempo significa que la separa en sus componentes, que son por lo general un componente de tendencia y un componente irregular, y si se trata de una serie de tiempo de temporada, un componente estacional. La descomposición no estacional de datos Una serie de tiempo no estacional consiste en un componente de tendencia y un componente irregular. Descomposición de la serie de tiempo implica tratar de separar la serie de tiempo en estos componentes, es decir, la estimación de la tendencia del componente y el componente irregular. Para estimar el componente de tendencia de una serie temporal no estacional que puede describirse utilizando un modelo aditivo, es común el uso de un método de suavizado, tales como el cálculo de la media móvil simple de la serie temporal. La función de SMA () en el paquete 8220TTR8221 R se puede utilizar para suavizar los datos de series de tiempo usando una media móvil simple. Para utilizar esta función, en primer lugar hay que instalar el paquete 8220TTR8221 R (para obtener instrucciones sobre cómo instalar un paquete de R, ver cómo instalar un paquete de R). Una vez que haya instalado el paquete 8220TTR8221 R, puede cargar el paquete 8220TTR8221 R escribiendo: A continuación, puede utilizar el 8220SMA () 8221 función para suavizar los datos de series de tiempo. Para utilizar la función de SMA (), es necesario especificar el orden (intervalo) de la media móvil simple, utilizando el parámetro 8220n8221. Por ejemplo, para calcular una media móvil simple de orden 5, fijamos N5 en la función de SMA (). Por ejemplo, como se discutió anteriormente, la serie de tiempo de la edad de la muerte de 42 reyes sucesivos de Inglaterra aparece es no estacional, y probablemente puede ser descrito mediante un modelo aditivo, ya que las fluctuaciones aleatorias en los datos son más o menos constante en tamaño durante tiempo: por lo tanto, podemos tratar de estimar el componente de tendencia de esta serie de tiempo mediante el suavizado utilizando una media móvil simple. Para suavizar las series de tiempo usando una media móvil simple de orden 3, y trazar los datos de series de tiempo suavizadas, escribimos: Hay todavía parece ser un buen montón de fluctuaciones aleatorias en las series de tiempo suavizadas utilizando una media móvil simple de orden 3. Por lo tanto, para estimar el componente de tendencia con mayor precisión, lo que se quiere tratar suavizar los datos con una media móvil simple de un orden superior. Esto toma un poco de ensayo y error, para encontrar la cantidad correcta de suavizado. Por ejemplo, podemos tratar de usar una media móvil simple de orden 8: Los datos suavizados con una media móvil simple de orden 8 da una imagen más clara del componente de tendencia, y podemos ver que la edad de la muerte de los reyes ingleses parece han disminuido de unos 55 años a aproximadamente 38 años de edad durante el reinado de los primeros 20 reyes, y luego aumentó después de eso a cerca de 73 años de edad antes del final del reinado del rey 40º en la serie temporal. La descomposición estacional de datos Una serie de tiempo de temporada consta de un componente de tendencia, un componente estacional y un componente irregular. La descomposición de las series de tiempo implica la separación de la serie de tiempo en estos tres componentes: es decir, la estimación de estos tres componentes. Para estimar el componente de tendencia y el componente estacional de una serie de tiempo de temporada que puede ser descrito utilizando un modelo aditivo, podemos utilizar el () la función 8220decompose 8221 en R. Esta función calcula la tendencia, estacional y componentes irregulares de una serie temporal que puede describirse utilizando un modelo aditivo. El 8220decompose función () 8221 devuelve un objeto de lista como su resultado, donde se almacenan las estimaciones de la componente estacional, componente de tendencia y componente irregular de elementos nombrados de que los objetos de la lista, llamada 8220seasonal8221, 8220trend8221, y 8220random8221 respectivamente. Por ejemplo, como se mencionó anteriormente, la serie temporal del número de nacimientos por mes en la ciudad de Nueva York es de temporada con un pico cada verano y Trough cada invierno, y probablemente puede ser descrito utilizando un modelo aditivo ya que las fluctuaciones estacionales y aleatorios parecen ser más o menos constante en tamaño con el tiempo: Para estimar la tendencia, componentes estacionales e irregulares de esta serie de tiempo, nos escriben: los valores estimados de la temporada, tendencia y componentes irregulares ahora se almacenan en las variables birthstimeseriescomponentsseasonal, birthstimeseriescomponentstrend y birthstimeseriescomponentsrandom. Por ejemplo, podemos imprimir los valores estimados del componente estacional escribiendo: Los factores estacionales estimados se dan en los meses de enero a diciembre, y son los mismos para cada año. El factor estacional es más grande para julio (aproximadamente 1,46), y la más baja es de febrero (aproximadamente -2,08), lo que indica que parece que hay un pico en los nacimientos en julio y un mínimo en los nacimientos en febrero de cada año. Podemos trazar la tendencia estimada, estacional y componentes irregulares de las series temporales mediante el uso de la 8220plot () 8221 función, por ejemplo: El gráfico de arriba muestra la serie de tiempo original (arriba), el componente de tendencia estimada (segundo desde la parte superior), el componente estacional estimado (tercero desde la parte superior), y el componente irregular estimado (parte inferior). Vemos que el componente de tendencia estimada muestra una pequeña disminución de alrededor de 24 en 1947 a aproximadamente 22 en 1948, seguido de un aumento constante a partir de entonces hasta alrededor de 27 en 1959. La estación Ajuste Si usted tiene una serie de tiempo de temporada que puede ser descrito usando un modelo aditivo, se puede ajustar por estacionalidad de la serie temporal mediante la estimación de la componente estacional, y restando el componente estacional estimado de la serie de tiempo original. Podemos hacer esto mediante la estimación de la componente estacional calculada por el 8220decompose () 8221 función. Por ejemplo, para ajustar estacionalmente la serie temporal del número de nacimientos por mes en la ciudad de Nueva York, se puede estimar el componente estacional usando 8220decompose () 8221, y luego restar el componente estacional de la serie de tiempo original: A continuación, podemos trazar la desestacionalizado de series de tiempo usando el 8220plot () 8221 función, escribiendo: se puede ver que la variación estacional se ha eliminado de la serie de tiempo ajustado estacionalmente. La serie de tiempo ajustado estacionalmente ahora sólo contiene el componente de tendencia y un componente irregular. Las previsiones utilizando suavizado exponencial suavizado exponencial se pueden utilizar para hacer predicciones a corto plazo para los datos de series de tiempo. Suavizado exponencial simple Si usted tiene una serie de tiempo que puede ser descrito utilizando un modelo aditivo con nivel constante y sin estacionalidad, se puede utilizar suavizado exponencial simple de hacer predicciones a corto plazo. El simple técnica de alisamiento exponencial proporciona una manera de estimar el nivel en el punto de tiempo actual. Smoothing es controlado por el alfa de parámetros para la estimación del nivel en el punto de tiempo actual. El valor de alfa se encuentra entre 0 y 1. Los valores de alfa que están cerca de 0 significa que poco peso se coloca en las más recientes observaciones al hacer previsiones sobre los valores futuros. Por ejemplo, el archivo robjhyndman / tsdldata / Hurst / precip1.dat contiene la precipitación total anual en pulgadas para Londres, desde 1913/12 (datos originales de Hipel y McLeod, 1994). Podemos leer los datos en R y trazar el comando: Se puede ver en el diagrama que hay más o menos constante (la media se mantiene constante en alrededor de 25 pulgadas). Las fluctuaciones aleatorias en las series de tiempo parecen ser más o menos constante en tamaño con el tiempo, por lo que es probablemente adecuado para describir los datos utilizando un modelo aditivo. Por lo tanto, podemos hacer predicciones usando suavizado exponencial simple. Para realizar previsiones con suavizado exponencial simple en R, podemos ajustar un modelo predictivo de suavizado exponencial simple usando los 8220HoltWinters () 8221 en función de R. Para utilizar HoltWinters () para suavizamiento exponencial simple, tenemos que configurar los parámetros betaFALSE y gammaFALSE en el HoltWinters función () (los parámetros beta y gamma se utilizan para alisamiento exponencial Holt8217s, o de Holt-Winters suavizado exponencial, como se describe a continuación). La función HoltWinters () devuelve una variable de lista, que contiene varios elementos anteriores. Por ejemplo, el uso de suavizado exponencial simple de hacer previsiones para la serie temporal de la precipitación anual en Londres, escribimos: La salida de HoltWinters () nos dice que el valor estimado del parámetro alpha es de aproximadamente 0.024. Esto es muy cercano a cero, que nos dice que las previsiones se basan en dos observaciones recientes y menos recientes (aunque algo más peso se coloca en observaciones recientes). De forma predeterminada, HoltWinters () sólo hace que las previsiones para el mismo período de tiempo cubierto por nuestra serie de tiempo original. En este caso, nuestra serie de tiempo original incluido precipitaciones de Londres de 1813 a 1912, por lo que las previsiones son también para 1813-1912. En el ejemplo anterior, hemos almacenado la salida de los HoltWinters () en la variable de lista 8220rainseriesforecasts8221. Las previsiones realizadas por HoltWinters () se almacenan en un elemento con nombre de esta variable lista llamada 8220fitted8221, por lo que pueden tener en sus valores escribiendo: Se puede trazar la serie de tiempo original en contra de las previsiones escribiendo: El gráfico muestra la serie de tiempo original en negro, y las previsiones como una línea roja. Las series de tiempo de las previsiones es mucho más suave que la serie temporal de los datos originales aquí. Como una medida de la exactitud de los pronósticos, podemos calcular la suma de errores al cuadrado de los errores de pronóstico dentro de la muestra, es decir, los errores de pronóstico para el período de tiempo cubierto por nuestra serie de tiempo original. La suma de errores cuadrados-se almacena en un elemento con nombre de la variable de lista 8220rainseriesforecasts8221 llamada 8220SSE8221, por lo que puede obtener su valor escribiendo: Es decir, aquí los de suma de cuadrados-errors es 1,828.855. Es común en suavizado exponencial simple de usar el primer valor de la serie de tiempo como el valor inicial para el nivel. Por ejemplo, en la serie temporal de lluvia en Londres, el primer valor es 23.56 (pulgadas) de lluvia en 1813. Se puede especificar el valor inicial del nivel en los HoltWinters () la función mediante el parámetro 8220l. start8221. Por ejemplo, para hacer previsiones con el valor inicial del nivel establecido a 23.56, escribimos: Como se explicó anteriormente, por HoltWinters por defecto () sólo hace previsiones para el período de tiempo cubierto por los datos originales, que es 1813-1912 por la precipitación series de tiempo. Podemos hacer previsiones para otros puntos de tiempo mediante el uso de las 8220forecast. HoltWinters (8221) función en el paquete R 8220forecast8221. Para utilizar las forecast. HoltWinters () la función, en primer lugar hay que instalar el paquete 8220forecast8221 R (para obtener instrucciones sobre cómo instalar un paquete de R, ver cómo instalar un paquete de R). Una vez que haya instalado el paquete 8220forecast8221 R, puede cargar el paquete 8220forecast8221 R escribiendo: Al utilizar los forecast. HoltWinters función (), como primer argumento (de entrada), se le pasa el modelo predictivo que ya ha instalado utilizando el HoltWinters () función. Por ejemplo, en el caso de la serie de tiempo de lluvia, almacenamos el modelo predictivo realizado utilizando HoltWinters () en la variable 8220rainseriesforecasts8221. Se especifica cuántos más puntos de tiempo que desea hacer previsiones para con el parámetro 8220h8221 en forecast. HoltWinters (). Por ejemplo, para hacer un pronóstico de lluvia para los años 1814-1820 (8 años más) utilizando forecast. HoltWinters (), escribimos: Los forecast. HoltWinters () función que muestra el pronóstico de un año, un intervalo de predicción para 80 la previsión, y un intervalo de 95 predicción para el pronóstico. Por ejemplo, la precipitación prevista para 1920 es de aproximadamente 24,68 pulgadas, con un intervalo de predicción de 95 (16.24, 33.11). Para trazar las predicciones hechas por forecast. HoltWinters (), podemos utilizar el 8220plot. forecast () 8221 Función: Aquí las previsiones para 1913-1920 se representan como una línea azul, el intervalo de 80 predicción como un área sombreada de color naranja, y el intervalo de predicción del 95 como un área sombreada en amarillo. El errors8217 8216forecast se calculan como los valores observados menos los valores predichos, para cada punto de tiempo. Sólo podemos calcular los errores de pronóstico para el período de tiempo cubierto por nuestra serie de tiempo original, que es 1813 a 1912 para los datos de precipitación. Como se mencionó anteriormente, una medida de la precisión del modelo de predicción es la suma-de-cuadrado-errors (SSE) para los errores de pronóstico dentro de la muestra. El dentro de la muestra errores de predicción se almacenan en el elemento llamado 8220residuals8221 de la variable lista devuelta por forecast. HoltWinters (). Si el modelo predictivo no puede ser mejorado, no debe haber ninguna correlación entre los errores de predicción para las predicciones sucesivas. En otras palabras, si existen correlaciones entre los errores de predicción para las predicciones sucesivas, es probable que las simples pronósticos de suavizado exponencial pueden mejorarse por otra técnica de pronóstico. Para averiguar si este es el caso, podemos obtener una correlogram de los errores de pronóstico dentro de la muestra para retardos 1-20. Podemos calcular una correlogram de los errores de predicción utilizando el 8220acf () 8221 en función de R. Para especificar el retardo máximo que queremos ver, usamos el parámetro 8220lag. max8221 en ACF (). Por ejemplo, para calcular un correlogram de los errores de pronóstico dentro de la muestra de los datos de precipitación de Londres para retardos 1-20, escribimos: Se puede ver en la correlogram muestra que la autocorrelación el desfase 3 es simplemente tocando los límites de significación. Para probar si existe evidencia significativa de correlaciones no nulos en los retardos 1-20, podemos llevar a cabo una prueba de Ljung-Box. Esto se puede hacer en R utilizando el 8220Box. test () 8221, función. El retraso máximo que queremos mirar se especifica mediante el parámetro 8220lag8221 en la función Box. test (). Por ejemplo, para comprobar si existen autocorrelaciones no nulos en los retardos 1-20, por los errores de pronóstico dentro de la muestra de datos de precipitación Londres, escribimos: Aquí la estadística de prueba de Ljung-Box es 17,4, y el valor de p es 0,6 , por lo que hay poca evidencia de autocorrelaciones no nulos en los errores de pronóstico dentro de la muestra en el GAL 1-20. Para estar seguro de que el modelo predictivo no se puede mejorar, también es una buena idea para comprobar si los errores de pronóstico se distribuyen normalmente con media cero y varianza constante. Para comprobar si los errores de pronóstico tienen varianza constante, podemos hacer una gráfica de tiempo de los errores de pronóstico dentro de la muestra: La figura muestra que el dentro de la muestra errores de pronóstico parecen tener variación más o menos constante en el tiempo, aunque el tamaño de las fluctuaciones en el inicio de la serie de tiempo (1820-1830) puede ser ligeramente menor que en fechas posteriores (por ejemplo. 1840-1850). Para comprobar si los errores de pronóstico se distribuyen normalmente con media cero, podemos trazar un histograma de los errores de pronóstico, con una curva normal superpuesta que tiene media cero y la misma desviación estándar como la distribución de los errores de predicción. Para hacer esto, podemos definir una función 8220plotForecastErrors R () 8221, a continuación: Usted tendrá que copiar la función anterior en R con el fin de usarlo. A continuación, puede utilizar plotForecastErrors () para trazar un histograma (con curva normal superpuesta) de los errores de predicción para las predicciones de lluvia: El gráfico muestra que la distribución de los errores de pronóstico está aproximadamente centrada en cero, y es más o menos normalmente distribuido, aunque parece ser ligeramente sesgada a la derecha en comparación con una curva normal. Sin embargo, la inclinación correcta es relativamente pequeño, por lo que es plausible que los errores de pronóstico se distribuyen normalmente con media cero. El test de Ljung-Box demostró que hay poca evidencia de autocorrelaciones no nulos en los errores de pronóstico dentro de la muestra, y la distribución de los errores de predicción parece que se distribuye normalmente con media cero. Esto sugiere que la sencilla técnica de alisamiento exponencial proporciona un modelo predictivo adecuado para la precipitación de Londres, que probablemente no se puede mejorar. Por otra parte, los supuestos de que los intervalos de 80 y 95 predicciones se basan en (que no hay autocorrelación en los errores de predicción, y los errores de pronóstico se distribuyen normalmente con media cero y varianza constante) son probablemente válida. Holt8217s suavizado exponencial Si usted tiene una serie de tiempo que puede ser descrito utilizando un modelo aditivo con tendencia creciente o decreciente y sin estacionalidad, se puede utilizar Holt8217s suavizado exponencial para hacer predicciones a corto plazo. suavizado exponencial Holt8217s estima el nivel y la pendiente en el punto de tiempo actual. Smoothing es controlada por dos parámetros, alfa, para la estimación del nivel en el punto de tiempo actual, y beta para la estimación de la pendiente b del componente de tendencia en el punto de tiempo actual. Al igual que con suavizamiento exponencial simple, el parametros alfa y beta tienen valores entre 0 y 1, y los valores que están cerca de 0 significa que poco peso se coloca en las más recientes observaciones al hacer previsiones sobre los valores futuros. Un ejemplo de una serie de tiempo que probablemente puede ser descrito utilizando un modelo aditivo con una tendencia ni estacionalidad, es la serie de tiempo del diámetro anual de faldas women8217s en el dobladillo, de 1866 a 1911. Los datos están disponibles en el archivo de robjhyndman / tsdldata / Roberts / skirts. dat (datos originales de Hipel y McLeod, 1994). Podemos leer y representar los datos en R escribiendo: Podemos ver en la trama que hubo un aumento en el diámetro del dobladillo de alrededor de 600 en 1866 a 1050 en 1880, y que después el diámetro del dobladillo disminuido a alrededor de 520 en 1911 . para hacer pronósticos, podemos ajustar un modelo predictivo usando los HoltWinters () en R. para utilizar HoltWinters () para Holt8217s suavizado exponencial, tenemos que establecer el parámetro gammaFALSE (el parámetro gamma se utiliza para Holt-Winters suavizado exponencial, como se describe abajo). Por ejemplo, para usar Holt8217s suavizado exponencial para ajustar un modelo predictivo para el diámetro del dobladillo de la falda, escribimos: El valor estimado de alfa es 0,84, y de la beta es de 1,00. Éstos son altos, que nos dice que tanto la estimación del valor actual del nivel y de la pendiente b de la componente de tendencia, se basan en su mayoría muy recientes observaciones de la serie temporal. Esto tiene sentido intuitivo, ya que el nivel y la pendiente de las series de tiempo tanto cambian mucho con el tiempo. El valor de la suma de los errores al cuadrado--para los errores de pronóstico dentro de la muestra es 16954. Se puede trazar la serie de tiempo original como una línea de negro, con los valores pronosticados como una línea roja en la parte superior de eso, escribiendo: Nosotros se puede ver en la imagen que las previsiones dentro de la muestra coinciden bastante bien con los valores observados, aunque tienden a la zaga de los valores observados un poco. Si lo desea, puede especificar los valores iniciales del nivel y la pendiente b de la componente de tendencia mediante el uso de las 8220l. start8221 y 8220b. start8221 argumentos de los HoltWinters () función. Es común para establecer el valor inicial del nivel para el primer valor de la serie temporal (608 para los datos de faldas), y el valor inicial de la pendiente para el segundo valor menos el primer valor (9 para los datos de faldas). Por ejemplo, para ajustar un modelo predictivo de los datos de la falda del dobladillo utilizando suavizado exponencial Holt8217s, con valores iniciales de 608 para el nivel y 9 de la pendiente b de la componente de tendencia, escribimos: En cuanto a suavizamiento exponencial simple, podemos hacer predicciones para tiempos futuros no cubierta por la serie de tiempo original mediante el uso de las forecast. HoltWinters () en el paquete 8220forecast8221. Por ejemplo, nuestros datos de series de tiempo para dobladillos falda era de 1866 a 1911, por lo que pueden hacer predicciones para 1912-1930 (19 más puntos de datos), y trazarlos, escribiendo: Los pronósticos se muestran como una línea azul, con el 80 intervalos de predicción como un área sombreada de color naranja, y los intervalos de predicción 95 como un área sombreada de color amarillo. En cuanto a suavizamiento exponencial simple, podemos comprobar si el modelo predictivo podría mejorarse mediante la comprobación de la dentro de la muestra errores de pronóstico muestran autocorrelaciones no nulos en los retardos 1-20. Por ejemplo, para los datos de la falda del dobladillo, podemos hacer una correlogram, y llevar a cabo la prueba de Ljung-Box, escribiendo: Aquí el correlogram muestra que la autocorrelación de la muestra para los errores de pronóstico dentro de la muestra en el retardo 5, traspasa los límites de significación. Sin embargo, esperamos que uno de cada 20 de las autocorrelaciones para los primeros veinte queda exceder los límites de significación del 95 por pura casualidad. De hecho, cuando llevamos a cabo la prueba de Ljung-Box, el p-valor es 0,47, lo que indica que hay poca evidencia de autocorrelaciones no nulos en los errores de pronóstico dentro de la muestra en el GAL 1-20. En cuanto a suavizamiento exponencial simple, también hay que comprobar que los errores de pronóstico tienen varianza constante en el tiempo, y normalmente se distribuyen con media cero. Podemos hacer esto haciendo un gráfico de tiempo de los errores de predicción, y un histograma de la distribución de los errores de pronóstico con una curva normal superpuesta: El gráfico de tiempo de los errores de pronóstico muestra que los errores de pronóstico tienen varianza más o menos constante en el tiempo. El histograma de errores de pronóstico muestran que es posible que los errores de pronóstico se distribuyen normalmente con media cero y varianza constante. Por lo tanto, la prueba de Ljung-Box muestra que hay poca evidencia de autocorrelación en los errores de pronóstico, mientras que el gráfico de tiempo y el histograma de errores de pronóstico muestran que es posible que los errores de pronóstico se distribuyen normalmente con media cero y varianza constante. Por lo tanto, podemos concluir que Holt8217s suavizado exponencial proporciona un modelo predictivo adecuado para diámetros de la falda del dobladillo, que probablemente no puede ser mejorado. Además, significa que las suposiciones de que los intervalos de 80 y 95 predicciones se basan en son probablemente válida. Holt-Winters suavizado exponencial Si usted tiene una serie de tiempo que puede ser descrito utilizando un modelo aditivo con tendencia creciente o decreciente y la estacionalidad, se puede utilizar Holt-Winters suavizado exponencial para hacer predicciones a corto plazo. Holt-Winters suavizado exponencial calcula el nivel, la pendiente y la componente estacional en el instante actual. Suavizado es controlado por tres parámetros: alfa, beta, gamma y, por las estimaciones del nivel, la pendiente b de la componente de tendencia, y el componente estacional, respectivamente, en el punto en el tiempo actual. Los parámetros alfa, beta y gamma tienen valores entre 0 y 1, y los valores que están cerca de 0 significa que relativamente poco peso se coloca en las más recientes observaciones al hacer previsiones sobre los valores futuros. Un ejemplo de una serie de tiempo que probablemente puede ser descrito utilizando un modelo aditivo con una tendencia y la estacionalidad, es la serie de tiempo del registro de las ventas mensuales para el departamento de recuerdo en una ciudad de vacaciones de playa en Queensland, Australia (discutido anteriormente): Para hacer previsiones, que pueden adaptarse a un modelo predictivo usando los HoltWinters función (). Por ejemplo, para ajustar un modelo predictivo para el registro de las ventas mensuales en la tienda de recuerdos, escribimos: Los valores estimados de radiaciones alfa, beta y gamma son 0,41, 0,00, y 0,96, respectivamente. El valor de alfa (0.41) es relativamente bajo, lo que indica que la estimación del nivel en el punto de tiempo actual se basa en dos observaciones recientes y algunas observaciones en el pasado más lejano. El valor de beta es 0,00, lo que indica que la estimación de la pendiente b del componente de tendencia no se actualiza sobre la serie de tiempo, y en su lugar se establece igual a su valor inicial. Esto tiene sentido intuitivo, ya que el nivel cambia un poco más de la serie de tiempo, pero la pendiente b de la componente de tendencia sigue siendo más o menos el mismo. En contraste, el valor de gamma (0.96) es alta, lo que indica que la estimación de la componente estacional en el punto de tiempo actual se basa sólo en observaciones muy recientes. En cuanto a la suavización exponencial simple y suavizado exponencial Holt8217s, podemos trazar la serie de tiempo original como una línea de negro, con los valores pronosticados como una línea roja en la parte superior de eso: Vemos en la trama que el método exponencial de Holt-Winters es muy exitosa en la predicción de los picos estacionales, que ocurren más o menos en noviembre de cada año. Para hacer previsiones para futuras ocasiones no incluidos en la serie de tiempo original, utilizamos los 8220forecast. HoltWinters (8221) función en el paquete 8220forecast8221. Por ejemplo, los datos originales para las ventas de recuerdos es de enero de 1987 a diciembre de 1993. Si nos querían hacer previsiones de enero 1994 a diciembre 1998 (48 meses más), y trazar las previsiones, tendríamos que escribir: Los pronósticos se muestran como una línea azul y el naranja y el amarillo áreas sombreadas muestran los intervalos de predicción 80 y 95, respectivamente. Podemos investigar si el modelo predictivo puede ser mejorado mediante la comprobación de la dentro de la muestra errores de pronóstico muestran autocorrelaciones no nulos en los retardos 1-20, haciendo una correlogram y llevar a cabo la prueba de Ljung-Box: La correlogram muestra que las autocorrelaciones para el dentro de la muestra errores de predicción no exceden de los límites de significación de retardos 1-20. Por otra parte, el valor de p para la prueba de Ljung-Box es de 0,6, lo que indica que hay poca evidencia de autocorrelaciones no nulos en los retardos 1-20. Podemos comprobar si los errores de pronóstico tienen varianza constante en el tiempo, y normalmente se distribuyen con media cero, al hacer un gráfico de tiempo de los errores de pronóstico y un histograma (con curva normal superpuesta): A partir del gráfico de tiempo, parece plausible que la errores de pronóstico tienen varianza constante en el tiempo. A partir del histograma de errores de pronóstico, parece plausible que los errores de pronóstico se distribuyen normalmente con media cero.


No comments:

Post a Comment