Modelo Estocástico a partir de Razonamiento Basado en Casos para la Generación de Series Temporales Por José Alfredo Herrera Quispe Tesis presentada en el Doctorado en Ciencias de la Computación de la UNIVERSIDAD NACIONAL DE SAN AGUSTÍN Universidad Nacional de San Agust́ın Facultad de Ingenieŕıa de Producción y Servicios Doctorado en Ciencias de la Computación Modelo Estocástico a partir de Razonamiento Basado en Casos para la Generación de Series Temporales Presentado por el Magister José Alfredo Herrera Quispe Arequipa, 22 de octubre de 2013 Aprobado por: Prof. Dr. Yvan Tupac Valdivia Orientador Prof. Dr. Jose Eduardo Ochoa Co-revisor Prof. Dr. Luis Alfaro Casas Co-orientador iii A Mamá iv Agradecimientos Al Consejo Nacional de Ciencia Tecnoloǵıa e Innovación Tecnológica, CON- CYTEC; por el otorgamiento de una Beca de estudios y las acciones de apoyo en el Doctorado en Ciencia de la Computación de la UNSA. Al Investigador principal de la CATEDRA CONCYTEC en TICs Dr. Luis Alfaro Casas y todos los profesores del doctorado, por las acciones de seguimiento de esta Tesis. Al Profesor Asesor Dr. Yvan Tupac Valdivia por todo su apoyo académico en el presente trabajo de Tesis. Al equipo de Investigación del CIDES-UNSA, Christian Portugal, Herbert Chuc- taya, Jorge Suaña, Julio Vera y Edson Luque por sus apoyo complementario en las tareas de corrección e impresión de esta Tesis. A mi señor padre, Don Alejandro Herrera por su apoyo emocional, incondicional y est́ımulo para la finalización de la presente. A mi familia, Giovanna, Henry, Antonio, Mat́ıas y Fabiola por su cariño, una motivación para seguir adelante. v Índice general Agradecimientos V Resumen XIII Abstract XIV 1. Introducción 1 1.1. Definición del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2. Justificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.3.1. Objetivos Espećıficos . . . . . . . . . . . . . . . . . . . . . . . . 5 1.3.2. Otras aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.3.3. Posibles ventajas y desventajas de la propuesta . . . . . . . . . 6 1.4. Contribuciones del trabajo . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.5. Descripción de caṕıtulos . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2. Marco Teórico 9 2.1. Proceso Estocástico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.1.1. Variable Aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.1.2. Ruido Blanco . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.2. Modelos Lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2.1. Procesos de Medias Móviles (MA) . . . . . . . . . . . . . . . . . 13 2.2.2. Procesos Autorregresivos (AR) . . . . . . . . . . . . . . . . . . 15 2.2.3. Procesos Autorregresivos con Medias Móviles (ARMA) . . . . . 18 2.3. Series Temporales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.3.1. Series Temporales Estacionales . . . . . . . . . . . . . . . . . . 20 2.3.2. Coeficiente de Correlación . . . . . . . . . . . . . . . . . . . . . 20 2.4. Razonamiento Basado en Casos . . . . . . . . . . . . . . . . . . . . . . 23 2.4.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.4.2. Ciclo de vida del Razonamiento Basado en Casos . . . . . . . . 27 2.4.3. Representación e Indexación de casos . . . . . . . . . . . . . . . 29 vi 2.4.4. Recuperación de casos . . . . . . . . . . . . . . . . . . . . . . . 35 2.4.5. Reutilización o adaptación de casos . . . . . . . . . . . . . . . . 42 2.4.6. Retención y Mantenimiento de Casos . . . . . . . . . . . . . . . 44 2.5. Métodos de acceso métrico . . . . . . . . . . . . . . . . . . . . . . . . . 49 2.5.1. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2.5.2. Consultas de Proximidad . . . . . . . . . . . . . . . . . . . . . . 51 2.5.3. Algoritmos de Búsqueda . . . . . . . . . . . . . . . . . . . . . . 51 2.5.4. Omni-Secuencial . . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.6. Álgebra relacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 2.6.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 2.6.2. Operador relacional unario: Selección . . . . . . . . . . . . . . . 57 2.6.3. Operador relacional unario: Proyección . . . . . . . . . . . . . . 57 2.7. Consideraciones finales . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3. Estado del Arte 60 3.1. Modelo Estocástico de Thomas-Fiering . . . . . . . . . . . . . . . . . . 61 3.1.1. Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.1.2. Generación sintética de flujos . . . . . . . . . . . . . . . . . . . 63 3.2. Modelo Estocástico Periódico basado en Redes Neuronales de Campos . 64 3.2.1. Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 3.2.2. Proceso Estocástico Neuronal . . . . . . . . . . . . . . . . . . . 66 3.2.3. Determinación de la Estructura de los Procesos Estocásticos Neu- ronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 3.2.4. Evaluación de los Residuos Generados . . . . . . . . . . . . . . 74 3.3. Otros Trabajos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . 75 3.3.1. Razonamiento Basado en Casos en el Descubrimiento de Conocimien- to y Mineŕıa de Datos . . . . . . . . . . . . . . . . . . . . . . . 75 3.3.2. Razonamiento Basado en Casos en aplicaciones con series de tiempo 76 3.3.3. Aplicación del Razonamiento Basado en Casos para series de tiempo de datos de Pronóstico Financiero . . . . . . . . . . . . 76 3.4. Consideraciones finales . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 4. Propuesta: Modelo Estocástico a partir de Razonamiento Basado en Casos para la Generación de Series Temporales 79 4.1. Componente estocástico . . . . . . . . . . . . . . . . . . . . . . . . . . 81 4.2. Representación e Indexación de casos . . . . . . . . . . . . . . . . . . . 82 4.2.1. Representación de Casos . . . . . . . . . . . . . . . . . . . . . . 82 4.2.2. Indexación de casos para series temporales . . . . . . . . . . . . 83 4.2.3. Indexación sobre una estructura de acceso métrico . . . . . . . 84 4.3. Recuperación de casos para series temporales . . . . . . . . . . . . . . . 84 4.3.1. Concepto de similitud . . . . . . . . . . . . . . . . . . . . . . . 87 vii 4.3.2. Distancia Euclidiana Ponderada . . . . . . . . . . . . . . . . . . 87 4.3.3. Ponderación v́ıa coeficientes de correlación . . . . . . . . . . . . 89 4.3.4. Formulación del nuevo proceso estocástico . . . . . . . . . . . . 91 4.4. Reutilización y adaptación de casos . . . . . . . . . . . . . . . . . . . . 92 4.4.1. Componente aleatorio . . . . . . . . . . . . . . . . . . . . . . . 93 4.5. Retención . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 4.5.1. Encadenamiento de Componentes Estocásticas . . . . . . . . . . 94 4.5.2. Generación de escenarios . . . . . . . . . . . . . . . . . . . . . . 95 4.6. Consideraciones Finales . . . . . . . . . . . . . . . . . . . . . . . . . . 95 5. Estudio de Caso 99 5.1. Caracterización del área de estudio . . . . . . . . . . . . . . . . . . . . 99 5.1.1. Estaciones de medición . . . . . . . . . . . . . . . . . . . . . . . 100 5.2. Contexto del caso de estudio . . . . . . . . . . . . . . . . . . . . . . . . 103 5.2.1. Generador de escenarios . . . . . . . . . . . . . . . . . . . . . . 103 5.3. Formulación del RBC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 5.4. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 5.4.1. Procesos Estocástico de Thomas-Fiering . . . . . . . . . . . . . 107 5.4.2. Proceso Estocástico Neuronal (PEN) . . . . . . . . . . . . . . . 111 5.4.3. Proceso Estocástico a partir de Razonamiento Basado en Casos 115 5.5. Analisis de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 5.5.1. Estimadores de primer orden . . . . . . . . . . . . . . . . . . . . 119 5.5.2. Máximos y mı́nimos . . . . . . . . . . . . . . . . . . . . . . . . 121 5.5.3. MSE y RMSE . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 6. Conclusiones y trabajo futuro 124 6.1. General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 6.2. Espećıficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 6.3. Ventajas del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 6.4. Desventajas del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 6.5. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 6.6. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 6.7. Reflexiones finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 6.8. Publicaciones generadas . . . . . . . . . . . . . . . . . . . . . . . . . . 132 Referencias 134 viii Índice de figuras 2.1. Esquema de un Sistema RBC . . . . . . . . . . . . . . . . . . . . . . . 26 2.2. Componentes Internos del RBC . . . . . . . . . . . . . . . . . . . . . . 27 2.3. Ciclo de vida de RBC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.4. Descomposición de métodos y tareas del RBC . . . . . . . . . . . . . . 30 2.5. Ejemplo de B+ para indexación de números . . . . . . . . . . . . . . . 33 2.6. Indexación de datos en R− tree. . . . . . . . . . . . . . . . . . . . . . 34 2.7. Procesos que involucra un RBC . . . . . . . . . . . . . . . . . . . . . . 37 2.8. RBC dentro de un estado de aprendizaje . . . . . . . . . . . . . . . . . 43 2.9. Mecanismo de aprendizaje en un RBC . . . . . . . . . . . . . . . . . . 45 2.10. Distancia entre casos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.11. Tipos básicos de consultas por proximidad:(a) Ejemplo de búsqueda por rango r en un conjunto de puntos. (b) Ejemplo de búsqueda del vecino más cercano en un conjunto de puntos. (c) Ejemplo de búsqueda de los k-vecinos más cercanos en un conjunto de puntos con k = 4. . . . . . . 51 2.12. Taxonomı́a de algoritmos en base a sus caracteŕısticas. . . . . . . . . . 53 2.13. Tipos básicos de consultas por proximidad:(a) Sin uso de focos todo el conjunto de datos es candidato. (b) Usando un foco el subconjunto de datos candidatos (área sombreada) se reduce. (c) Subconjunto de candidatos usando dos focos. . . . . . . . . . . . . . . . . . . . . . . . . 54 3.1. Componente estocástico del proceso estocástico neuronal. . . . . . . . 66 3.2. Red neuronal del proceso estocástico neuronal de orden pm. . . . . . . . 67 3.3. Neurona de la capa oculta de red neuronal del proceso estocástico neu- ronal de orden pm. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 3.4. Neurona de salida de una red neuronal del proceso estocástico neuronal con lm neuronas en la capa oculta. . . . . . . . . . . . . . . . . . . . . 68 3.5. Encadenamiento entre las entradas/salidas de las componentes estocásti- cas del proceso estocástico neuronal. . . . . . . . . . . . . . . . . . . . 70 3.6. Evaluación de las redes neuronales del proceso estocástico neuronal. . . 72 3.7. Evaluación de las redes neuronales del proceso estocástico neuronal. . . 73 3.8. Evaluación de las redes neuronales del proceso estocástico neuronal. . . 74 ix 4.1. Etapas del Proceso Estocástico a partir del Razonamiento Basado en Casos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 4.2. Componente estocástico del proceso estocástico a partir de Razonamien- to Basado en Casos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 4.3. Registro de Caso Serie Temporal Genérico . . . . . . . . . . . . . . . . 83 4.4. Proceso Estocástico Genérico a partir de Razonamiento Basado en Casos de orden pm y d dimensiones. . . . . . . . . . . . . . . . . . . . . . . . 85 4.5. Adaptación de casos con error aleatorio . . . . . . . . . . . . . . . . . . 93 4.6. Umbral de 10 % para la generación de la distribución de probabilidad . 94 4.7. Umbral de 100 % para la generación de la distribución de probabilidad 95 4.8. Encadenamiento entre las entradas/salidas de las Componentes Estocásti- cas del Proceso Estocástico a partir de Razonamiento Basado en Casos 96 4.9. Generación de un escenario del Procesos estocástico, a partir de los componentes estocásticos. . . . . . . . . . . . . . . . . . . . . . . . . . 97 5.1. Localización de las estaciones de medición consideradas para la investi- gación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 5.2. Arquitectura del sistema de planificación que incluye la generación es- tocástica de escenarios . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 5.3. Registro de Caso Serie Temporal . . . . . . . . . . . . . . . . . . . . . 106 5.4. Series generadas por el modelo Thomas Fiering, data histórica de Agua- da Blanca : años 1970-1999, data sintetizada: 2000. . . . . . . . . . . . 108 5.5. Series generadas por el modelo Thomas Fiering, data histórica del Frayle : años 1970-1999, data sintetizada: 2000. . . . . . . . . . . . . . . . . . 109 5.6. Series generadas por el modelo Thomas Fiering, data histórica del Pañe : años 1970-1999, data sintetizada: 2000. . . . . . . . . . . . . . . . . . 110 5.7. Series generadas por el modelo PEN, data histórica de Aguada Blanca: años 1970-1999, data sintetizada: 2000. . . . . . . . . . . . . . . . . . . 112 5.8. Series generadas por el modelo PEN, data histórica del Frayle: años 1970-1999, data sintetizada: 2000. . . . . . . . . . . . . . . . . . . . . . 113 5.9. Series generadas por el modelo PEN, data histórica del Pañe: años 1970- 1999, data sintetizada: 2000. . . . . . . . . . . . . . . . . . . . . . . . . 114 5.10. Series generadas por el modelo PERBC, data histórica de Aguada Blanca : años 1970-1999, data sintetizada: 2000. . . . . . . . . . . . . . . . . . 116 5.11. Series generadas por el modelo PERBC, data histórica del Frayle : años 1970-1999, data sintetizada: 2000. . . . . . . . . . . . . . . . . . . . . . 117 5.12. Series generadas por el modelo PERBC, data histórica del Pañe : años 1970-1999, data sintetizada: 2000. . . . . . . . . . . . . . . . . . . . . . 118 6.1. a) Modelos Autoregresivos VS b) Proceso Estocástico Neural VS c) Pro- ceso Estocástico RBC (Propuesta). . . . . . . . . . . . . . . . . . . . . 127 x Índice de cuadros 2.1. Operadores relacionales . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 5.1. Comparación anualizada de Medias para el Caudal, Evaporación, Pre- cipitación de la serie Histórica (Hist), el modelo de Thomas Fiering (TF) el modelo Estocástico Neuronal (PEN) y la propuesta (PERBC) . . . 119 5.2. Comparación anualizada de la Desviación Estándar para el Caudal, Evaporación, Precipitación de la serie Histórica (Hist), el modelo de Thomas Fiering (TF) el modelo Estocástico Neuronal (PEN) y la prop- uesta (PERBC) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 5.3. Comparación anualizada de la Asimetŕıa para el Caudal, Evaporación, Precipitación de la serie Histórica (Hist), el modelo de Thomas Fiering (TF) el modelo Estocástico Neuronal (PEN) y la propuesta (PERBC) 120 5.4. Comparación anualizada de los Máximos y mı́nimos para el Cau- dal, Evaporación, Precipitación de la serie Histórica (Hist), el modelo de Thomas Fiering (TF) el modelo Estocástico Neuronal (PEN) y la propuesta (PERBC) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 5.5. Error Medio Cuadrático . . . . . . . . . . . . . . . . . . . . . . . . . . 123 5.6. Ráız del Error Medio Cuadrático . . . . . . . . . . . . . . . . . . . . . 123 xi Glosario PE: Proceso Estocástico PEN: Proceso Estocástico Neuronal PERBC: Proceso Estocástico a partir de Razonamiento Basado en Casos RBC: Razonamiento Basado en Casos TF: Thomas Fiering MSE: Error medio estándar MRSE: Raiz del error medio estándar xii Resumen Se propone un nuevo modelo estocástico a partir del Razonamiento Basado en Casos para la generación de series temporales, esta propuesta extiende los modelos con memoria auto-regresiva, cambiando los parámetros del componente determińıstico por una función de similitud que usa la distancia euclidiana multidimensional ponderada y retardos de tiempo; se adjunta un componente aleatorio heredado del modelo de Thomas-Fiering con manejo de umbrales; la propuesta se clasifica como un modelo estocástico periódico auto-regresivo genérico. El modelo se aplica en la generación de escenarios climáticos en el ámbito de la cuenca del Chili-Arequipa, los resultados muestran que la propuesta genera razonable- mente realizaciones que reproducen las caracteŕısticas de la serie, particularmente para el caso de valores mı́nimos extremos, representando una mejora complementaria a los esfuerzos previos de (Campos, 2010) y Taymoor (Awchi, Srivastava, y cols., 2009); luego el uso de casos multidimensionales y de grados superiores genera series leptocúrticas, lo que en ciertos casos no reproduce las caracteŕısticas de los datos, pero reduce la incertidumbre. Computacionalmente una estructura de datos de acceso secuencial per- mite la indexación en memoria de todos los casos facilitando las tareas de búsqueda de relaciones ocultas. Finalmente, luego de la revisión de los resultados, el modelo se vislumbra como un prometedor complemento en la simulación de escenarios y la modelación de eventos extremos, con un potencial interesante en la toma de decisiones vinculadas al desarrollo de acciones técnicas de previsión, que permitan reducir pérdidas económicas, sociales; dimensionando y escenificando el impacto de una seqúıa, inundación, helada sobre un área cultivable, sobre la producción hidro-energéticas, la producción minera y la de- manda poblacional. Palabras clave: Procesos Estocásticos, Razonamiento Basado en Casos, Series Temporales, Mineŕıa de datos. xiii Abstract We propose a new stochastic model from Case-Based Reasoning for generating time series, this proposal extends the autoregressive memory models, changing the deter- ministic component to a similarity function using the Euclidean distance with weighted multidimensional time delays, we attach a random component inherited from Thomas- Fiering model with threshold management, the proposal is classified as a generic peri- odic autoregressive stochastic model. The model is applied to generate climate scenarios in Chili-Arequipa’s basin, the results show that the proposal generate realizations that reproduce the characteristics of the series, particularly in the case of minimum values; representing an improvement to previous efforts of (Campos, 2010), Taymoor (Awchi y cols., 2009), and Thomas (Fiering, 1967); finally, multidimensional cases generates leptokurtic series, which in some cases not have the characteristics of analized data, but reduces uncertainty. Com- putationally, a data structure allows sequential access to memory, indexing all cases and facilitating task search from hidden relationships. Finally, the model is seen as a promising addition to the scenario simulation and modeling of extreme events, with an interesting potential in the decision-making activ- ities related to development of forecasting techniques; that can reduce economic losses, social, sizing and staging the impact of drought, flood, frost on a cultivable area on hydroenergetic production, mining and population demand. Keywords: Time Series, Stochastic Proces, Case Based Reasoning, Datamining. xiv Caṕıtulo 1 Introducción Muchas variables aleatorias son funciones cuyos valores cambian con el tiempo, se tienen fenómenos climatológicos (Loucks, Van Beek, Stedinger, Dijkman, y Vil- lars, 2005), fenómenos económicos (Hochreiter y Pflug, 2007), fenómenos biológicos (Wilkinson, 2009); un conjunto de estas observaciones son llamadas series temporales a partir de los cuales se generan sintéticamente realizaciones estocásticas utilizadas en tareas de modelado, pronóstico, planificación y toma de decisiones. Los primeros modelos para la generación sintética de series temporales ensayaron, de manera consistente, la regresión lineal simple, usando modelos Auto-regresivos (AR) y algunas variaciones con Medias Móviles (ARMA); con variable exógena (ARMAX ) (Wei, 1994) entre otros; En todos estos modelos, la relación lineal entre las variables rel- evantes es asumida, producto de su popularidad, muchos estudios emplean estos mod- elos con bajo orden para la generación estocástica de series temporales, reproduciendo satisfactoriamente las caracteŕısticas analizadas (Salas, Tabios III, y Bartolini, 1985; Kjeldsen y Rosbjerg, 2004). Sin embargo no siempre producen los mejores resulta- dos, apareciendo entonces los modelos multivariados(Raman y Sunilkumar, 1995).Peng 1 2 muestra que no hay evidencias que estos modelos en grado AR(1) sean inadecuados (Peng y Buras, 2000); finalmente Thomas Fiering afirma, que un modelo AR1 con co- eficientes que vaŕıan estacionalmente es ampliamente aceptado para la generación de series temporales de caudales (Brittan, 1961; Julian, 1961; Thomas y Fiering, 1962; Beard y Kub̂ık, 1967; Fiering, 1967) reproduciendo caracteŕısticas especiales como la periodicidad y considerando los efectos de la correlación lineal.(Colston y Wiggert, 1970; Gangyan, Goel, y Bhatt, 2002). Recientemente Luciana Conceicao (Campos, 2010) y Taymoor (Awchi y cols., 2009) proponen el uso de Redes Neuronales para la generación de series temporales estocásti- cas, ellos afirman que los modelos tradicionales (aproximaciones lineales) son modelos poco eficientes y de aplicabilidad limitada, luego los modelos no-lineales necesitan un conocimiento profundo del dominio para su construcción (Campos, 2010; Han y Wang, 2009; Kantz y Schreiber, 2004). Una de las caracteŕısticas que hacen ventajoso el uso de Redes Neuronales, es la no necesidad de asumir un tipo de distribución a priori, aprenden la distribución a través de ejemplos y manejan datos de diversas fuentes con diferentes niveles de precisión y ruido (Vieira, de Carvalho Júnior, y Solos, s.f.; Prudencio, 2002). Estos modelos manejan fácilmente caracteŕısticas complejas como la no-linealidad y el comportamiento caótico; sin embargo por su naturaleza tienden a ocultar caracteŕısticas extremas, siendo estas últimas de interés en dominios donde los casos excepcionales deben ser modelados, un ejemplo importante son los fenómenos climáticos y el estudio de eventos extremos (Campos, 2010; Taylor, 2008; Meng, So- mani, y Dhar, 2004; El-Shafie y El-Manadely, 2011; Ochoa-Rivera, 2008; Bao y Cao, 2011). Áreas como el Soft Computing y el Datamining ofrecen técnicas donde los casos excepcionales son incorporados a la memoria de las generaciones, sin importar su baja 1.1. DEFINICIÓN DEL PROBLEMA 3 significancia, no es preciso como ((Razonamiento Basado en Casos)), ((Razonamiento Basado en Instacias)), ((Inferencia a partir de ejemplos)). Aqúı, todos los registros son manejados por la memoria, las nuevas experiencias y excepciones son significativas y su nivel de importancia es determinado por el contexto, siendo una ventaja sobre los modelos lineales, inductivos, basados en reglas, basados en aprendizaje o abstrac- ciones matemáticas; sus algoritmos de indexación, recuperación, adaptación y retención (De Mantaras y cols., 2005) presentan el marco ideal para implementarlo en ambientes automáticos de generación de series temporales con énfasis en el descubrimiento de car- acteŕısticas ocultas (Lee, Liu, y Huang, 2010; Lee, Cheng, y Liu, 2008; Loor, Bénard, y Chevaillier, 2011; He, Xu, Means, y Wang, 2009; Smyth y Champin, 2009; Lajmi, Ghedira, y Benslimane, 2006; Pal y Shiu, 2004). Se decidió entonces utilizarlo como base para un nueva forma de generar series temporales llamándose ((Procesos Estocásticos a partir de Razonamiento Basado en Casos)). 1.1. Definición del problema El comportamiento caótico y la no-linealidad de los datos ha fomentado recientes investigaciones en la generación de series temporales (Kantz y Schreiber, 2004; Campos, 2010), los modelos tradicionales que hacen uso de aproximaciones lineales se han con- vertido en modelos poco eficientes y de aplicabilidad limitada, los modelos no-lineales, necesitan un conocimiento profundo del dominio para su construcción (Campos, 2010; Han y Wang, 2009). Recientemente se propuso el uso de Redes Neuronales (Campos, 2010), una de las caracteŕısticas resaltantes es la no necesidad de asumir un tipo de distribución a priori, aprenden la distribución a través de ejemplos y manejan datos de diversas fuentes con diferentes niveles de precisión y ruido. (Vieira y cols., s.f.; Prudencio, 2002). Luego las nuevas propuestas necesitan hacer una suposición a pri- ori sobre el comportamiento de la serie, algunas realizan una descomposición sobre 1.2. JUSTIFICACIÓN 4 la estacionalidad, ciclo o tendencia (Campos, 2010); luego el espacio de generaciones suele ser amplio representando a las soluciones con mayor probabilidad ocultando las caracteŕısticas extremas, siendo estas últimas de interés en dominios donde los casos ex- cepcionales deben ser modelados, un ejemplo importante son los fenómenos climáticos y el estudio de eventos extremos (Campos, 2010; Taylor, 2008; Meng y cols., 2004; Tokdemir y Arditi, 1999; El-Shafie y El-Manadely, 2011; Ochoa-Rivera, 2008; Bao y Cao, 2011). 1.2. Justificación Para el modelado de fenómenos climatológicos son ampliamente usados los modelos auto-regresivos periódicos, un ejemplo común es el Modelo de Thomas Fiering, usado para generar caudales sintéticos, y precipitaciones (Cheng y Bear, 2008; Singh y Yadava, 2003; Ünal, Aksoy, y Akar, 2004; Srikanthan, 2002; Brockwell y Davis, 2009; Jaeger, 2000; Brillinger, 2001); ahora bien existen recientes investigaciones que proponen el uso de Redes Neuronales (Campos, 2010; Kantz y Schreiber, 2004; Han y Wang, 2009; Vieira y cols., s.f.; Prudencio, 2002); todos ellos trabajan bajo dos supuestos, el primero: Existe cierta relación entre un evento y el inmediato próximo, el Segundo: los eventos son periódicos; para el modelado apelan a la generalización a partir de la serie histórica. Ahora bien existen otras técnicas como el Razonamiento Basado en Casos (Lee y cols., 2010, 2008; Loor y cols., 2011; He y cols., 2009; Smyth y Champin, 2009; Lajmi y cols., 2006; Pal y Shiu, 2004), que pueden mantener los mismos supuestos (heredarlos) y para el modelado, manejar toda la serie histórica, evitando la perdida de información por generalización, en este contexto una función de similitud permitirá explorar todas las relaciones de dependencia histórica en un evento espećıfico para intentar reproducirlas en el evento inmediato próximo para generar nuevas realizaciones. 1.3. OBJETIVOS 5 1.3. Objetivos Proponer un modelo de Proceso Estocástico para la generación de series temporales con la capacidad de capturar detalles ocultos, con las siguientes caracteŕısticas: Modelo genérico que puede ser implementado en una amplia gama de fenómenos no lineales de comportamiento estocástico. Modelo con la capacidad de manejar todos los casos incorporados a la memoria. Modelo auto-regresivo, en series temporales que presenten un fenómeno de per- sistencia observable. 1.3.1. Objetivos Espećıficos 1. Estudio de los modelos lineales, familia ARMA y los modelos PAR, junto con una revisión bibliográfica de modelos basados en aprendizaje: Redes Neuronales, luego revisión del Razonamiento Basado en Casos, y su capacidad para mostrar información oculta y manejo de casos en memoria. 2. Propuesta del nuevo modelo a partir de los indicios sobre mineŕıa de datos del RBC para encontrar información oculta, adaptación de modelos anteriores a la propuesta, refinamiento del modelo. 3. Aplicación del modelo propuesto en la generación de series temporales para un caso de estudio basado en variables hidrometeorológicas (Caudales, Evaporación, Precipitación) en la cuenca del Chili, en tres estaciones de medición: el Pañe, Aguada blanca y el Frayle, para periodos mensuales. 4. Evaluación del modelo propuesto con el modelo de Thomas Fiering y el Modelo Estocástico Neuronal de Luciana. los parámetros utilizados para evaluar a nivel 1.4. CONTRIBUCIONES DEL TRABAJO 6 mensual son la media, desviación estándar, el coeficiente de asimetŕıa, máximos y mı́nimos. 5. Análisis detallado de la media, desviación estándar, asimetŕıa para todos los experimentos de los modelos TF, PEN y PERBC para establecer las conclusiones, contribuciones, limitaciones, y trabajo futuro del modelo. 1.3.2. Otras aplicaciones Se espera, que este modelo pueda ser usado también en la generación series tem- porales financieras, económicas, biológicas, y procesos que presenten un fenómeno de persistencia observable y donde los modelos tradicionales no descubran caracteŕısticas ocultas. También en fenómenos, que no requieran una formulación a priori ni procesos de adecuación de las distribuciones. Finalmente, se puede adaptar el modelo para la completación de datos de series temporales. 1.3.3. Posibles ventajas y desventajas de la propuesta Por las caracteŕısticas del problema, la ventaja en la generación de series esta ligada a la capacidad del modelo para descubrir caracteŕısticas ocultas que los modelos tradi- cionales no consiguen y la no necesidad de una formulación a priori. Por la naturaleza de los algoritmos del CBR, la ventaja es la recuperación de consultas y un proceso au- tomático. La desventaja esta ligada a necesidad de hacer un análisis sobre los residuos para ajustarlo formalmente a un Proceso Estocástico. 1.4. Contribuciones del trabajo Un modelo de Proceso Estocástico a partir de Razonamiento Basado en Casos con la capacidad de descubrir caracteŕısticas ocultas, un nuevo modelo con memoria 1.5. DESCRIPCIÓN DE CAPÍTULOS 7 auto-regresiva, con una función de similitud, y un método de acceso métrico para mejorar la velocidad de recuperación, y de proceso automático. 1.5. Descripción de caṕıtulos Capitulo 2: Marco Teórico. Se presenta los fundamentos teóricos de la investi- gación, se explica el concepto de Variable Aleatoria, modelos lineales ARMA, PARMA; ruido blanco, series temporales, finalmente el Razonamiento Basado en Casos, méto- dos de acceso métrico y álgebra relacional; todos estos conceptos serán de utilidad para comprender la propuesta. Capitulo 3: Estado del Arte. Se presenta brevemente los modelos de Thomas Fiering, modelos no-lineales, modelos complejos basados en redes neuronales, luego trabajos donde se muestra la capacidad del Razonamiento Basado en Casos para des- cubrir información oculta. Capitulo 4: Propuesta. Se presenta el nuevo modelo a partir del Razonamiento Basado en Casos; en la etapa de representación, un modelo con memoria a corto plazo, multidimensional; para la indexación una estructura de acceso secuencial; luego la etapa de recuperación, búsqueda y generación de un componente determińıstico; finalmente en la etapa de reutilización se presenta una realización estocástica. Capitulo 5: Estudio de Caso. En este caṕıtulo se evalúa la propuesta mediante la generación de variables hidrometeorológicas (Caudales, Evaporación, Precipitación) en la cuenca del Chili, en tres estaciones de medición: el Pañe, Aguada blanca y el Frayle, por periodos mensuales. se comparan el Modelo de Thomas Fiering el Mod- elo Estocástico Neuronal y la propuesta mediante la media, desviación estándar, el coeficiente de asimetŕıa, máximos y mı́nimos; finalmente se discute los resultados. Caṕıtulo 2 Marco Teórico En este caṕıtulo se presentará brevemente los fundamentos teóricos para compren- der un Proceso Estocástico, se explica el concepto de Variable Aleatoria, modelos lineales ARMA, PARMA y otros; luego el ruido blanco, finalmente se definirá las series temporales y se describirá algunos estimadores usados para caracterizarlas, todos estos conceptos serán de utilidad para comprender las bases sobre la que se desarrollará la propuesta. 2.1. Proceso Estocástico Es un conjunto de variables aleatorias que dependen de un parámetro o argumento. En el análisis de series temporales el argumento es el Tiempo. Formalmente es una familia de variables aleatorias Yt donde t denota el tiempo, tales que para cualquier elección finita de valores de t : t1, t2, ...tn existe la distribución de probabilidad conjunta correspondiente a las variables aleatorias Yt1 , Yt2 , ...Ytn (Ramirez, 2007) Los Procesos Estocásticos (PE) es usado en fenómenos donde se contemplan varia- ciones aleatorias (Cadavid y Salazar, 2008; Wilkinson, 2009; Thomas y Fiering, 1962; 8 2.1. PROCESO ESTOCÁSTICO 9 Jaeger, 2000). 2.1.1. Variable Aleatoria Dada una determinada variable aleatoria Yt, supóngase que fueron observadas T mues- tras {y1, y2, . . . , yT} (2.1) Un ejemplo seŕıa tener una colección de T variables εt independientes e idéntica- mente distribuidas {ε1, ε2, . . . , εT} (2.2) donde: ε ∼ N(0, σ2 t ) Que se refiere a T muestras de un proceso de ruido blanco gaussiano. El ruido blanco gaussiano es una señal aleatoria, caracterizada porque sus valores en instantes de tiem- po distintos no tienen relación alguna entre śı, es decir, no existe correlación estad́ıstica entre sus valores. Debemos diferenciar que las muestras de la Ecuación (2.1) son T números que pueden ser una de las posibles generaciones (o realizaciones) del proceso estocástico que está por detrás de ellos. Aunque se puede pensar en generar estos datos hasta tiempo infinito, llegando a la siguiente secuencia: {y ∞ t}t=−∞= {. . . ,y−1, y0, y1, . . ., yT , yT+1, yT+2, . . .} (2.3) Esta secuencia infinita {yt}∞t=−∞ se puede ver como una única realización de un proceso de seri{e tem}poral (en sentido amplio de un proceso estocástico). Si se genera u{ ∞ (1) na s}ecuencia εt en una computadora, y luego se manda generar otra serie ∞ t=−∞ (2) εt , se puede afirmar que estas son dos realizaciones independientes de un t=−∞ 2.1. PROCESO ESTOCÁSTICO 10 proceso de Ruido blanco Gaussiano. D{e e}sta forma, suponiendo un conjunto de I computadoras generando secuencias ∞ (i) εt { , 1 ≤ i ≤ I y} pudiendo seleccionar el conjunto de I realizaciones en tiem- t=−∞ (1) (2) (I) po t εt , εt , . . . εt . Este conjunto se puede describir como una muestra de I realizaciones de la variable aleatoria Yt. Esta variable aleatoria posee una densidad fYt (yt) denominada la densidad incondi- cional de Yt, que para el proceso de RuidoBlancoGaussiano se define: −y2 fY (yt) =√ 1 t 2σ2 t e (2.4) 2πσ Varianza La varianza γ0t de una variable aleatoria Yt se define como ∫ ∞ γ0t ≡ E[Yt−µt]2= (y −µ )2 t t fYt (yt) dyt (2.5) −∞ Para un proceso que representa una tendencia en el tiempo más un ruido gaussiano, la varianza es [ ]2 γ0t = E[Y − µ ]2t t = E ε2 t = σ2 Estacionaridad Si la media µt y las covarianzas no dependen del tiempo, se puede afirmar que el proceso Yt es estacionario en la covarianza o con estacionaridad débil, es decir que: E [Yt] = µ para todo t y E [(Yt − µ) (Yt−j − µ)] para todo t y cualquier j Si {Y }∞t t=−∞, representa la suma de una constante µ más un ruido gaussiano {ε }∞t t=−∞, es estacionario en la covarianza E [Yt] = µ 2.1. PROCESO ESTOCÁSTICO 11   σ2 si j = 0 E [(Yt − µ) (Yt−j − µ)] = 0 si j 6= 0 En cambio, el proceso Yt=βt+εt no es estacionario, ya que su media βt es depen- diente del tiempo t. Note que si un proceso es estacionario, la covarianza Cov (Yt, Yt−j) sólo depende de j que significa la “distancia temporal” entre las observaciones, y no de t que es el tiempo de la observación. De esto se deduce que para un proceso estacionario, las covarianzas γ−j y γj representan el mismo valor ya que no hay dependencia del tiempo t. γj= E [[(Yt−µ) (Yt(−j−µ)] )] γj= E (Yt+j−µ) Y[t+j]−j−µ (2.6) γj= E [(Yt−µ) (Yt+j−µ)] γj= γ−j , ∀ j ∈ Z 2.1.2. Ruido Blanco Es el bloque más útil en los procesos ARMA(AutoRegressive Moving Average), es decir la secuencia {εt}∞t=−∞ en la cual todos los elementos tienen media 0 y varianza σ2, es decir [ E [ε]t] = 0 (2.7) E (ε )2 t =σ2 (2.8) además, los valores εt no poseen correlación en el tiempo, esto quiere decir que: E [εt, ετ ] = 0,∀t =6 τ (2.9) 2.2. MODELOS LINEALES 12 El proceso que satisface estas condiciones se denomina un proceso de ruido blanco. Muchas veces, la condición (2.9) se cambia por una que es un poco más fuerte, que afirma que los valores εt son independientes en el tiempo, es decir que: εt, ετ son independientes para tτ (2.10) 2.10 implica que 2.9 se cumpla, pero no lo contrario. Un proceso que satisface 2.10 se denomina proceso de ruido blanco independiente. 2.2. Modelos Lineales 2.2.1. Procesos de Medias Móviles (MA) Proceso de Medias Móviles de Primer orden Sea {εt} un proceso de ruido blanco y considérese el siguiente proceso Yt=µ+εt+θεt−1 (2.11) donde µ y θ son constantes. Este proceso es conocido como proceso de medias móviles de 1er orden., MA(1). Este nombre se da porque Yt se construye a partir de una suma ponderada, similar al cálculo de la media aritmética de los dos más recientes valores de ε. El valor esperado de Yt es: E [Yt] = E [µ+ εt + θεt−1] = µ+ E [εt] + θE [εt−1] (2.12) = µ 2.2. MODELOS LINEALES 13 La varianza de Yt es: E[Yt − µ]2 =E [ε[t+θεt−1]2 ] = E ε2 t+2θεtε 2 t−1+θ ε2 − (2.13) t 1 = (1+θ2)σ2 La primera autocovarianza: E (Yt−µ) (Yt−1−µ) = E ((εt+θεt−1) (εt−1+θεt−2) ) = E ε ε 2 t t−1+θεt−1+θε ε +θ2 t t−2 εt−1εt−2 (2.14) =θσ2 Las autocovarianzas de mayor orden son todas = 0 Si la media y covarianzas no dependen del tiempo, un proceso MA(1) es estacionario en la covarianza sin importar el valor de θ, aśı, se satisface que ∑∞ ( ) ∣ ∣ |γ |= 1+θ2 σ2+ ∣θσ2∣ j (2.15) j=0 Si el proceso {εt} es ruido blanco gaussiano, entonces el proceso MA(1) es ergódico 1 en todos sus momentos. La autocorrelación ρj se define como la j-esima autocovarianza, dividida entre la varianza. ρj ≡ γj/γ0 (2.16) es decir, que es la correlación entre Yt y Yt−j Cov (Yt, Yt−j) γj Corr (Yt, Yt−j) = √ √ =√ √ =ρj (2.17) V ar (Yt) V ar (Yt−j) γ0 γ0 1Se aplica a una función aleatoria cuyos valores medios temporales son idénticos a los valores medios estad́ısticos correspondientes. 2.2. MODELOS LINEALES 14 Usando las Ecuaciones (26, 27) la primera autocorrelación ρ1 es dada por θσ2 θ ρ1= = (2.18) (1+θ2)σ2 (1+θ2) Las correlaciones superiores son todas igual a cero, ρj = 0,∀j > 1 2.2.2. Procesos Autorregresivos (AR) Proceso Autorregresivo de 1er orden Un proceso autorregresivo de orden 1, denotado como AR(1), satisface la siguiente Ecuación: Yt= c+ϕYt−1+εt (2.19) donde {εt} también es un proceso de ruido blanco tal como se vio en la Sección (2.1). La Ecuación 2.17 tiene la forma de una ecuación diferencial de 1er orden en la que la variable de entrada es un ruido blanco más una constante. En este modelo de la Ecuación 2.19 se debe cumplir que |ϕ| < 1 para garantizar la estacionaridad en la covarianza, lo que es dado por la siguiente solución Yt = (c+εt) +ϕ (c+εt−1) +ϕ2 (c+εt−2) + · · · (2.20) = [c/(1−ϕ)] +ε 2 t+ϕεt−1+ϕ εt−1+ · · · Que puede verse como un proceso MA (∞) donde cada ψj = ϕj en el cual se satisface la condición |ϕ| < 1 lo que hace que se cumpla: ∑∞ ∑∞ |ψj|= |ϕ|j (2.21) j=0 j=0 Al asumir que |ϕ| < 1 se garantiza que el proceso MA (∞) existe y que puede manipularse y además que el proceso AR (1) es ergódico en la media. 2.2. MODELOS LINEALES 15 Al tomar el valor esperado en 2.20 se observa: E[Y t] = [c/(1−ϕ)] + 0 + 0+ · · · (2.22) Por lo tanto, la media de un proceso estacionario AR (1) es µ= c/(1−ϕ) (2.23) La varianza de un proceso AR (1) está dada por: γ 2 0 = E[Y t−µ] = E[εt+ϕε 2 3 t−1+ϕ εt−2+ϕ εt−3+ · · · 2 ] (2.24) = (1+ϕ+ϕ2+ϕ3+ · · · )σ2 = σ2/(1−ϕ2) y la j -ésima autoconvarianza está definida como: γj = E[Y t−µ][Yt−j−µ] = E [εt+ϕε 2 t−1+ϕ εt−2+ · · ·+ϕjεt−j+ϕj+1εt−j−1+ · · · ]× [ε 2 t−j+ϕεt−j−1+ϕ εt−j−2+ · · · ] (2.25) = [ϕj+ϕj+2+ϕj+4+ · · · ]σ2 = [ϕj/(1−ϕ2)]σ2 Entonces, la función de autocorrelación es: γj ρ = =ϕjj (2.26) γ0 que considerando que |ϕ| < 1 la autocorrelación se comporta como un decaimiento exponencial a medida que aumenta la distancia temporal j. 2.2. MODELOS LINEALES 16 Un proceso autoregresivo de orden 2 AR (2) tendrá la siguiente Ecuación: Yt= c+ϕ1Yt−1+ϕ2Yt−2+εt (2.27) Y un proceso autorregresivo de orden p, AR (p), satisface la siguiente Ecuación: Yt= c+ϕ1Yt−1+ϕ2Yt−2+ · · ·+ϕpYt−p+εt (2.28) Y se prueba que las ráıces del polinomio: 1+ϕ1z+ϕ 2 p 2z + · · ·+ϕpz = 0 (2.29) Están ubicadas fuera del ćırculo unitario. La Ecuación 2.28 se puede reescribir como Yt−µ= c+ϕ1 (Yt−1−µ) +ϕ2 (Yt−2−µ) + · · ·+ϕp(Yt−p−µ)+εt (2.30) Las autocovarianzas se encuentran multiplicando 2.30 por (Yt−j − µ) y calculando los valores esperados: ϕ1γj−1+ϕ2γj−2+ · · ·+ϕpγj−p para j = 1, 2, · · · γj= (2.31) ϕ1γ1+ϕ2γ2+ · · ·+ϕpγp+σ2 para j = 0 Si aplicamos la identidad γ−j = γj en el sistema de Ecuaciones de 2.31 se puede solucionar para encontrar γ0, γ1, . . . , γ en función de σ2 p , ϕ1, ϕ2, . . . , ϕp. Se demuestra que el vector de tamaño (p×1) (γ0,γ1, . . . , γp) ′ es formado por los p primeros elementos de la primera columna de la matriz de tamaño (p2× p2) σ2[Ip2 − (F ⊗ F )]−1, donde F es una matriz (p× p) y ⊗ denota al operador producto de Kronecker. Si se divide la Ecuación 2.31 entre γ0, se obtienen las Ecuaciones de Yule-Walker. 2.2. MODELOS LINEALES 17 ρj=ϕ1ρj−1+ϕ2ρj−2+ · · ·+ϕpρj−p para j = 1, 2, . . . (2.32) Aśı, las autocovarianzas y autocorrelaciones siguen el mismo orden de las Ecuaciones de diferencia como el propio proceso 2.28. Para distintas ráıces, sus soluciones tienen la siguiente forma: γ =g λjj 1 1+g λj j 2 2+ · · ·+gpλp, (2.33) Donde los autovalores (λ1, λ2, . . . , λp) son las soluciones de: λp=ϕ1λ p−1−ϕ λp−2 2 − · · ·−ϕp= 0 (2.34) 2.2.3. Procesos Autorregresivos con Medias Móviles (ARMA) Más conocidos como procesos ARMA (Auto-Regresive Moving Average), que como su nombre indica, incluyen tanto procesos autorregresivos de orden p como procesos de medias móviles de orden q, conformando el modelo ARMA (p, q) Yt= c+ϕ1Yt−1+ϕ2Yt−2+ · · ·+ϕpYt−p+εt+ θ1εt−1+θ2εt−2+ · · ·+θqεt−q (2.35) La estacionaridad de un proceso ARMA depende totalmente de los parámetros autor- regresivos (ϕ1, ϕ2, . . . , ϕp) y no depende de los parámetros (θ1, θ2, . . . , θq) del proceso de medias móviles. Para analizar el modelo ARMA (p, q), conviene escribirlo como desviaciones de la media µ: Yt−µ= c+ϕ1 (Yt−1−µ) + · · ·+ϕp(Yt−p−µ)+εt+ θ1εt−1+ · · ·+θqεt−q (2.36) Las autocovarianzas se obtienen multiplicando 2.36 por el término (Yt−j − µ) y luego 2.3. SERIES TEMPORALES 18 calculando el valor esperado. Para valores j > q se tienen resultados de la forma γj=ϕ1γj−1+ϕ2γj−2+ · · ·+ϕpγj−p (2.37) Para valores j = q + 1, q + 2, . . . 2.3. Series Temporales Una secuencia de datos, observaciones o valores, vinculados a una variable temporal, ordenados cronológicamente y espaciados de manera uniforme, se llama Serie Tempo- ral. Ejemplos se presentan en las observaciones de variables climatológicas, fenómenos f́ısicos, financieros, biológicos, por un determinado tiempo; es de resaltar que para un segmento del tiempo t1 se tiene una curva que representa una realización. Si, bajo las mismas condiciones, se realizan mediciones en otro segmento de t2, se obtiene otra curva que por lo general no es igual a la primera. Cada conjunto de medidas define una trayectoria o realización del proceso que esta siendo observado. Asumiendo algunas condiciones, como la ergodicidad, a partir de una realización (la serie histórica única que se tiene disponible en la práctica) es posible modelar este proceso f́ısico usando un proceso estocástico. Con este modelo se abre la posibilidad de generar un conjunto de trayectorias que son posibles de ser observadas. En este contexto, cada una de estas trayectorias se denomina tambien una serie temporal. Un proceso estocástico es descrito por el conjunto de todas las series temporales (o realizaciones) que lo componen, que son infinitas por lo general como la Ecuación 2.3, o también por la distribución de probabilidades conjunta de todas las variables aleatorias que están en juego. En la realidad no se tiene ninguna de estas formas, queda el modelo de series sintéticas que busca ajustar un modelo, que se cree es el que generó, a la serie histórica y a partir de éste, generar series sintéticas que representan las series temporales que podŕıan ser “muestreadas” del proceso que se está analizando 2.3. SERIES TEMPORALES 19 como un proceso estocástico (Cadavid y Salazar, 2008; Wilkinson, 2009; Thomas y Fiering, 1962; Jaeger, 2000). 2.3.1. Series Temporales Estacionales Muchos procesos f́ısicos (que ocurren aqúı en nuestro planeta Tierra) presentan es- cala diaria o mensual con comportamiento periódico descrito por ciclos estacionales. Cada periodo presenta un conjunto de caracteŕısticas estad́ısticas particulares que se describen usando la media µt, la varianza γ0t y la estructura de correlaciones tomando especial interés en las correlaciones estacionales. Media y varianza muestreadas en un periodo La media muestreada de un periodo m de 12 meses se da por: 1 ∑N µm= zi−112 +m (2.38) N i=1 Donde m = 1, . . . , n y n es el ultimo periodo Análogamente, la desviación está√ndar de cada mes es: √√ 1 ∑N ( ) σ̂ √ m= z(i−1)12+m−µ̂m (2.39) N i=1 donde m = 1, . . . , 12 2.3.2. Coeficiente de Correlación Es el valor que determina el grado de relación que existe entre 2 o más variables. Los valores que puede tomar el coeficiente de correlación r son: −1 < r < 1. 2.3. SERIES TEMPORALES 20 El signo indica la dirección de la correlación, positiva o directamente proporcional (a mayor A mayor B o a menor B menor A) y negativa o inversamente proporcional (a menor A mayor B o viceversa). El valor te indica la fuerza de la correlación. Una correlación perfecta tendŕıa un valor cercano al 1 o -1, mientras que una ausencia de correlación tendŕıa un valor cer- cano al 0. Entre los coeficientes de correlación más conocidos podemos encontrar: Coeficiente de Correlación Lineal Mide el grado de intensidad de esta posible relación entre las variables. Este coeficiente se aplica cuando la relación que puede existir entre las variables es lineal (es decir, si representáramos en un gráfico los pares de valores de las dos variables la nube de puntos se aproximaŕıa a una recta). El coeficiente de correlación lin∑eal se calcula aplicando la siguiente fórmula: 1 r = √ n∑∗ ((Xi −Xm) ∗ (Yi∑− Ym)) (2.40) ( 1 ∗ (Xi −Xm)2) ∗ ( 1 ∗ (Y 2 i − Ym) ) n n Donde el numerador se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x, y) se multiplica el valor de x menos su media, multipli- cado por el valor de y menos su media. Se suma el resultado de todos los pares de valores y este resultado se divide por el tamaño de la muestra. El denominador se calcula como la ráız cuadrada del producto de las varianzas de x y de y. Coeficiente de Correlación de Pearson 2.3. SERIES TEMPORALES 21 Arroja un producto conocido como r de Pearson cuando se habla de muestras y como ρ de Pearson cuando hablamos de poblaciones. Esta dado por la siguiente fórmula. √ ∑ ∑ ∑ ∑ N ∗ (X ∗ Y )− ( X)( Y ) r = ∑ ∑ ∑ (2.41) (N ∗ X2 − ( X)2) ∗ (N ∗ Y 2 − ( Y )2) donde: ∑N es el n∑úmero de sujetos a correlación. ∑ X y ∑Y es la suma de los datos de X y de Y respectivamente. X2 y Y 2 es la suma de los datos elevados al cuadrado de X y Y respecti- vamente. Estructura de correlaciones mensuales En procesos mensuales se puede definir valores que describen la estructura de cor- relación lineal de un mes con los meses anteriores, que puede ser de orden 1, que describe la dependencia de un mes con el inmediato anterior, o una correlación de or- den 2 que describe la dependencia de los meses m con respecto a los meses m − 2, o generalizando, una correlación de orden k que representa la dependencia del mes k con respecto al mes m− k. ∑N1 ( ) ( ) γ̂m(k)= z(i−1)12+m−µ̂m z(i−1)12+m−k−µ̂m (2.42) N i=1 m(k) ρ̂m γ (k)= (2.43) σ̂mσ̂m−k donde m = 1, . . . , 12. 2.4. RAZONAMIENTO BASADO EN CASOS 22 2.4. Razonamiento Basado en Casos En esta sección se describe los fundamentos sobre el Razonamiento Basado en Ca- sos (RBC), los cuales serán aplicados en la propuesta del nuevo modelo de Procesos Estocástico para la generación de series temporales. La presente se inicia con la Sec- ción 2.4.1, Definición, donde se comenta los conceptos asociados al RBC, la definición de un caso, el método de aprendizaje, sus etapas, algunos ejemplos t́ıpicos y el con- texto del RBC, luego se explica el ciclo de vida los cuales se extienden y detallan en las secciones 2.4.3 Representación e Indexación de casos, 2.4.4 Recuperación de ca- sos, 2.4.5 Reutilización o adaptación de casos y 2.4.6 Retención y Mantenimiento de Casos; finalmente se presentan comparaciones entre el RBC con Sistemas Basados en Conocimiento, Reglas, el razonamiento humano, finalmente las ventajas y desventajas y algunos lineamientos para el uso correcto de esta técnica. 2.4.1. Definición El Razonamiento Basado en Casos (RBC) es un cuerpo de conceptos y técnicas que tocan temas relacionados a la representación del conocimiento, razonamiento y aprendizaje a partir de la experiencia (Zadeh, 2003); está basado en Soft Computing 2. Surge a partir de las ciencias cognitivas(Schank, Abelson, y cols., 1977; Schank, 1982). los primeros prototipos fueron: Cyrus (Kolodner, 1983a, 1983b), Mediator (Simpson, 1985), Persuader (Sycara, 1988), Chef (Hammond, 1989), Julia (Hinrichs, 1992) Casey, y protos (Bareiss, 1989). La similitud es el concepto que juega un papel fundamental en RBC; esta se puede definir como una relación donde el numerador es el número de atributos que dos objetos tienen en común y donde el denominador es el número total de atributos, tal como se 2Colección de metodoloǵıas que proveen las bases para la concepción, diseño y utilización de sis- temas inteligentes. (Lógica Difusa, Redes Neuronales, Computación Evolutiva, Computación Proba- biĺıstica, Computación Caótica, Teoŕıa de conjuntos aproximados, mapas auto-organizativos, apren- dizaje máquina y mineŕıa de datos, (Zadeh, 2003). 2.4. RAZONAMIENTO BASADO EN CASOS 23 ve en la ecuación 2.44 (Tversky, 1977). α(A) similitudep,eq = (2.44) α (A) + β(B) donde A representa los atributos comunes, B los atributos diferentes, α y β los pesos determinados por un algoritmo de aprendizaje, un experto o la fuerza de la relación ep, eq representan casos, vea la Sección (2.45). Existen otras definiciones de similitud para casos multivalentes, y atributos pon- derados (Pal y Shiu, 2004) que será analizados en la Sección 2.4.4, página 37. Ademas, el Razonamiento Basado en Casos (RBC) o Case Based Reasoning (CBR); en este contexto se define como un modelo de razonamiento que integra resolución de problemas, entendimiento y aprendizaje con procesos de memoria; estas tareas se realizan en base a situaciones t́ıpicas, llamadas casos (Pal y Shiu, 2004). Definición de un caso También conocido como instancia objeto o ejemplo. Puede ser definido como una pieza de conocimiento contextualizado que representa una experiencia significativa. Enseña una lección fundamental para el logro de un objetivo en un sistema(Pal y Shiu, 2004). Se puede representar un caso como: e(i) = {a(i,1), a(i,2), ...a(i,n)} (2.45) donde e(i) es el i caso indexado, con un esquema e, a(i,1), a(i,2), ...a(i,n) son instancias de n atributos a relacionados para el i caso. Correspondientemente la Base de Casos se define: BC = {e1, e2, ...em} (2.46) donde BC es la libreŕıa de m casos. 2.4. RAZONAMIENTO BASADO EN CASOS 24 Aprendizaje Como un subproducto de la actividad de razonamiento, el sistema aprende, evoluciona, mejora la competencia y eficiencia de los resultados como producto de almacenar la experiencia pasada y recupera los casos pasados en el razonamiento futuro (Pal y Shiu, 2004). Funcionamiento El mecanismo básico de funcionamiento del RBC es la búsqueda por similitud. Para un caso problema, el motor busca en su memoria de casos anteriores (llamado Base de Casos) un caso que tiene el mismo problema que las especificaciones del caso bajo análisis, vea la Figura 2.1. Si el razonador no puede encontrar un caso idéntico en su base de casos, intentará encontrar un caso o casos que se acerquen más al caso proble- ma. En situaciones en que un caso idéntico anterior se recupera, y bajo el supuesto de que su solución se ha realizado correctamente, se puede ofrecer como solución al prob- lema actual. En la situación más probable que el caso recuperado no sea idéntico al caso actual, una fase de adaptación se produce. Durante la adaptación, las diferencias entre el caso actual y los casos recuperados se identifican y luego la solución asociada con el caso recuperado se modifica, teniendo en cuenta estas diferencias. La solución devuelta, en respuesta a la especificación del problema actual, puede ser juzgada en la configuración de dominio correspondiente (Pal y Shiu, 2004). Componentes Los componentes de un sistema RBC suelen ser concebidos de man- era que reflejen las cuatro etapas t́ıpicas separadamente (recuperación, reutilización, revisión y retención); véase la Figura 2.3. Sin embargo, tal como se ve en la Figura 2.1; a un nivel de abstracción mas alto, el RBC puede ser visto como un mecanismo de razonamiento, y sus tres componentes externos: El mecanismo de razonamiento. Condiciones de entrada o problema caso. 2.4. RAZONAMIENTO BASADO EN CASOS 25 Figura 2.1: Esquema de un Sistema RBC (Pal y Shiu, 2004). Salida que define una propuesta de solución al problema. La memoria de los casos anteriores. En la mayoŕıa de los sistemas RBC, el mecanismo de razonamiento se basa en casos, de forma alternativa es conocido como el solucionador de problemas o razonador. Su estructura interna, en un nivel abstracto, está dividida en dos partes principales: El recuperador de casos y el razonador (véase la Figura 2.2). La tarea del recuperador de casos es buscar el caso apropiado en la Base de Casos, mientras que el razonador utiliza los casos recuperados para encontrar una solución a un problema determinado. Este proceso de razonamiento en general, implica tanto la determinación de las diferencias entre los casos recuperados y el caso actual, y la modificación de la solución. El proceso de razonamiento puede, o no, implicar la recuperación de casos adicionales o partes de los casos de la base de casos. 2.4. RAZONAMIENTO BASADO EN CASOS 26 Figura 2.2: Componentes Internos del RBC (Pal y Shiu, 2004). 2.4.2. Ciclo de vida del Razonamiento Basado en Casos El ciclo de vida para la solución de problemas usando un sistema RBC consta de cuatro estados. Recuperación de casos similares de una base de experiencia. Reutilización de casos mediante copia o integración de soluciones desde los casos recuperados. Revisión o Adaptación de la solución(es) recuperada(s) para resolver el nuevo problema Retención de una nueva solución, una vez haya sido confirmada o validada. En muchas aplicaciones prácticas, los estados de Reutilización y Revisión son dif́ıciles de distinguir, y varios investigadores usan solo un estado de adaptación que reemplaza y combina ambos. Sin embargo la adaptación en los sistemas RBC es una pregunta aún abierta porque es un proceso complicado que intenta manipular los casos solución. 2.4. RAZONAMIENTO BASADO EN CASOS 27 Figura 2.3: Ciclo de vida de RBC (Pal y Shiu, 2004). 2.4. RAZONAMIENTO BASADO EN CASOS 28 Generalmente, estos requieren el desarrollo de un modelo causal entre el espacio del problema y el espacio de la solución de los casos relacionados. Como se aprecia en la Figura 2.3, los casos almacenados en la libreŕıa de casos, fueron complementados con el conocimiento general, que usualmente son dependientes del dominio. El soporte puede ser desde muy débil hasta muy fuerte, dependiendo del tipo de método RBC. Por ejemplo, en un sistema de diagnóstico un modelo causal de patoloǵıa y anatomı́a pueden constituir el conocimiento general. Este conocimiento puede estar representado en la forma de un conjunto de reglas IF-THEN o algunas pre-condiciones. Cada estado en el ciclo de vida del RBC está asociado con algunas tareas de la Figura 2.4. Vista orientada a tareas Una visión orientada a tareas es buena para la descripción de los mecanismos inter- nos del RBC, a comparación de la vista orientada a procesos o etapas del ciclo de vida del RBC que solo proporciona una visión global y externa de lo que esta pasando. Las tareas se establecen en función de los objetivos del sistema, y una tarea en particular se lleva a cabo mediante la aplicación de uno o más métodos (vea la Figura 2.4). 2.4.3. Representación e Indexación de casos Para resolver algún problema en un sistema RBC los detalles usualmente están incluidos en la especificación del problema. La base de casos en un sistema RBC es la memoria de todos los casos almacenados previamente, hay tres temas generales que se debe tener en cuenta a la hora de crear una base de casos: La estructura y representación de los casos. El modelo de memoria usado para organizar la base de casos completo. 2.4. RAZONAMIENTO BASADO EN CASOS 29 Figura 2.4: Descomposición de métodos y tareas del RBC (Pal y Shiu, 2004). 2.4. RAZONAMIENTO BASADO EN CASOS 30 La selección de los ı́ndices usados para identificar cada caso. Representación de Casos y almacenamiento Los casos almacenados en una base de casos pueden representar una gran variedad de conocimiento que se pueden almacenar de distintas maneras. En cada tipo de sistema RBC, un caso puede representar a una persona, objeto, situación, diagnóstico, diseño, plano, y todas las entidades imaginables. Factores para la representación de un caso Hay una serie de factores que deben considerarse para elegir un formato de repre- sentación de un caso. El formato elegido: Debe ser capaz de representar varias formas adoptadas para una estructura interna. Tipos y estructuras asociados con el contenido o las caracteŕısticas que describen un caso: Estos tipos tienen que estar disponibles, o ser susceptibles de ser creados. El idioma o Shell elegido para implementar el sistema RBC: La elección de una Shell puede limitar los formatos que se pueden utilizar para la representación. El mecanismo de indexación y búsqueda planificada: Los casos tienen que estar en un formato que el mecanismo de recuperación de casos pueda tratar con eficacia. La forma en que los casos están disponibles: Por ejemplo, si una base de caso se forma a partir de una colección existente de las experiencias pasadas, la facilidad con que estas experiencias se pueden traducir a una forma apropiada para el sistema CBR puede ser importante. 2.4. RAZONAMIENTO BASADO EN CASOS 31 Modelo de memoria para representación de un caso Independientemente del formato elegido para representar los casos, la colección de casos también tiene que estar estructurado de una manera que facilite su recuperación cuando se requiera. Una base de casos plana o Flat Memory es una estructura común. En este método los ı́ndices son elegidos para representar los aspectos importantes del caso, y la recuperación implica la comparación de las caracteŕısticas, consultando cada uno con la base de casos, otra forma es agruparlos por categoŕıas para reducir el número de casos que tienen que ser buscados durante la consulta. El modelo de memoria para la elección de una representación de casos dependerá de una serie de factores. La representación usada en la base de casos. El propósito del sistema RBC. Por ejemplo una estructura jerárquica es una elección natural para un sistema de resolución de problemas de clasificación. El número y la complejidad de los casos que van a ser almacenados. A medida que el número de casos crece en una base de casos, una estructura que busca secuencialmente consume más tiempo durante la recuperación. El número de caracteŕısticas que se utilizan para la búsqueda de casos coinci- dentes. Si algunos casos son bastante similares estos deben agruparse. Cuanto se conoce sobre un dominio espećıfico, esto influye en la capacidad de determinar si los casos son similares. Indexación de casos La indexación de casos se refiere a la asignación de ı́ndices a los casos para futuras recuperaciones y comparaciones. La elección de los ı́ndices es importante para obtener 2.4. RAZONAMIENTO BASADO EN CASOS 32 Figura 2.5: Ejemplo de B+ para indexación de números (Pal y Shiu, 2004). los casos similares en un tiempo rápido. Los ı́ndices deberán ser predictivos de una manera útil. Esto significa que los ı́ndices deben reflejar las caracteŕısticas importantes de un caso y los atributos que influyen en el resultado de un caso, aśı como describir las circunstancias en las que se encuentra para ser recuperados en un futuro. Método de indexación tradicional En los enfoques de base de datos relacionales tradicionales, ı́ndice se refiere a la clave primaria y secundaria de un registro, Indexación se refiere a la tarea de asignación de la clave a un registro para la ubicación de su almacenamiento. Esto se debeŕıa de hacer mediante el uso de métodos de acceso directo como son los hash; métodos indexados, como son la construcción de un B+tree o un Rtree para la organización de los registros o metodos de acceso métrico como Ommi− tree o secuenciales. La búsqueda y recuperación de los registros es para determinar su ubicación, es realizado ya sea mediante la asignación del árbol de ı́ndices o el uso de algoritmos hashing. Indexación v́ıa B−Trees Se tienen diferentes estructuras de datos para indexación, esto dependerá mucho del problema a resolver. Para los B−trees la forma de asignación de los registros puede explicarse por la Figura 2.5. Aqúı, los nodos de la capa inferior del árbol son los nodos hoja y las dos capas de arriba son los nodos intermedios. Los nodos intermedios contienen el valor o valores 2.4. RAZONAMIENTO BASADO EN CASOS 33 Figura 2.6: Indexación de datos en R− tree. (Pal y Shiu, 2004) de un intervalo de ı́ndice, y los nodos hoja contienen los punteros a los lugares de almacenamiento de los casos. Un nodo intermedio puede generar tres nodos secundarios. El ĺımite superior del intervalo en su nodo hijo izquierdo es mas pequeño que el ĺımite inferior de su padre, y el ĺımite inferior de la derecha del hijo es equivalente al mayor que el ĺımite superior de su padre. El ĺımite inferior del hijo medio es igual o mayor que el de su padre, y su ĺımite superior es menor que el de su padre. Otras estructuras de mejora de ı́ndices, como R − tree, R∗ − tree, y R − trees , soportan rangos y búsquedas multidimensionales de los registros, sin embargo, estos se basan en el concepto de concordancia exacta, es decir los objetos están dentro del rango o fuera de este, además la superposición de conceptos no está permitido, vea la Figura 2.6. 2.4. RAZONAMIENTO BASADO EN CASOS 34 2.4.4. Recuperación de casos La recuperación de casos es el proceso de encontrar, dentro de una base de casos, aquellos casos que son mas similares al caso actual. Para llevar a cabo la recuperación eficaz de los casos, hay criterios de selección que son necesarios para determinar cuál es el mejor de los casos para recuperar. Los criterios de selección de los casos dependen en parte del caso que se va recuperar de la base de casos, a menudo se hace una búsqueda completa de las caracteŕısticas de las cuales se comparan con el caso actual. Sin embargo, hay ocasiones en que solo una parte de un caso es la que se busca, esto puede deberse a que no existe un caso completo. Técnicas de recuperación La recuperación es un área de investigación importante en el RBC. Las técnicas de recuperación más investigadas, por el momento, son los k-vecinos más cercanos o Nearest-neigbor retrieval (k-NN), árboles de decisión, y sus derivados. Estas técnicas implican el desarrollo de una métrica de similitud que le permite estar cerca entre los casos más parecidos. K-vecinos más cercanos. En la recuperación, el caso recuperado es elegido por la suma ponderada y la mı́nima distancia euclidiana de sus caracteŕısticas, que coinciden con el caso actual. En términos sencillos, para todas las caracteŕısticas el mismo peso, un caso que coincide o se parece con el caso actual. Enfoque Inductivo. Cuando los enfoques inductivos son utilizados para determinar la estructura del caso base, que determina la importancia de las caracteŕısticas para discriminar entre los casos similares, la estructura jerárquica resultante de la base de casos ofrece un espacio de búsqueda reducido para recuperar un caso, el cual disminuye el tiempo de búsqueda. 2.4. RAZONAMIENTO BASADO EN CASOS 35 Enfoque Conocimiento guiado. Este enfoque es utilizado para determinar las car- acteŕısticas de un caso que son importantes para la recuperación de un caso futuro. En algunas situaciones las diferentes caracteŕısticas de un caso tienen diferentes niveles de importancia o contribución a los niveles de éxito relaciona- dos con ese caso. Recuperación Validada. Ha habido numerosos intentos de mejorar la recuperación. Uno de ellos es la recuperación validada propuesta por Simoudis (Simoudis, 1992), que consta de dos fases. La fase 1 consiste en la recuperación de todos los casos que parecen ser relevantes para un problema, sobre la base de las principales caracteŕısticas del caso actual. La fase 2 implica derivar las caracteŕısticas más exigentes del grupo inicial de casos recuperados, para determinar si estos casos son válidos en la situación actual. Factores para determinar el método de recuperación Los factores que se deben considerar para determinar el mejor método de recu- peración son: El número de casos que se debe buscar. La cantidad de conocimiento del dominio disponible. La facilidad de determinar las ponderaciones de las caracteŕısticas individuales Si todos los casos deben ser indexados por las mismas caracteŕısticas o si cada caso tiene caracteŕısticas que vaŕıan en importancia. Una vez que un caso se ha recuperado, por lo general hay un análisis para deter- minar si este caso está lo suficientemente cerca al caso problema o si los parámetros de búsqueda deben ser modificado y llevar a cabo una nueva búsqueda. Si la opción 2.4. RAZONAMIENTO BASADO EN CASOS 36 Figura 2.7: Procesos que involucra un RBC (Pal y Shiu, 2004). correcta se realiza durante este análisis, no puede haber un ahorro de tiempo significa- tivo. Por ejemplo, el tiempo de adaptación necesario para un caso lejano podŕıa ser significativamente mayor que buscar de nuevo. Cuando consideramos un método de análisis para esta decisión, los siguientes puntos deben ser considerados: El tiempo y recursos requeridos para la adaptación. El número de casos en la base de casos. El tiempo y recursos requeridos para la búsqueda. Cuanto de la base de casos ya se ha buscado. Si revisamos el proceso que involucra la recuperación en un RBC, se puede repre- sentar como se muestra en la Figura 2.7. Concepto de similitud El significado de similitud depende en el contexto en el que se encuentra una apli- cación en particular, y para cualquier contexto comparativo no expresa una carac- teŕıstica fija. 2.4. RAZONAMIENTO BASADO EN CASOS 37 En el RBC, calcular la similitud es un tema muy importante para el proceso de recuperación de los casos; la eficacia de una medida de similitud es determinada por la utilidad de un caso recuperado en resolver un nuevo problema. Se establece una función de similitud, apropiada al manejo de las relaciones escondidas y profundas entre los objetos más relevantes que están relacionados con los casos. Existen dos enfoques principales en la recuperación de casos: El primero está basado en el cálculo de la distancia, entre los casos en donde se determina el caso más similar por una medida (es decir métrica) de evaluación de similitud. El segundo enfoque está relacionado con las estructuras de representación/indexación de los casos, la cual la estructura de indexación puede recorrer en busca de un caso similar. A continuación se describirá los conceptos básicos y caracteŕısticas de algunas me- didas de distancia que se utilizan en este sentido (Pal y Shiu, 2004). Distancia Euclidiana Ponderada Es el tipo mas común de medir una distancia y esta basado en la ubicación de los objetos en el espacio Euclidiano (es decir un conjunto ordenado de números reales). Formalmente los casos son expresados de la siguiente manera: BC = (e1, e2, ...eN) (2.47) donde BC es una libreŕıa de casos y eN es el N − esimo caso e. Para la distancia Euclidiana se tiene que cada caso en esta libreŕıa está representado por un ı́ndice de su correspondiente caracteŕıstica, ademas cada caso esta asociado a una acción. Mas formalmente se usa una colección de caracteŕısticas {Fj(j = 1, 2, ..., n)} 2.4. RAZONAMIENTO BASADO EN CASOS 38 para indexar los casos y una variable V que denota la acción. El i-ésimo caso ei en la libreŕıa puede ser representado por un vector (n + 1)−dimensional que es, ei = (xi1, xi2, ..., xin, θi), donde xij corresponde al valor de la caracteŕıstica Fj(1 ≤ j ≤ n) y θi corresponde a los valores de la acción V (i = 1, 2, ..., N). Supongamos que para cada caracteŕıstica {Fj(j = 1, 2, ..., n)}, un peso wj(wj ∈ [0, 1]) ha sido asignado a la j-ésima caracteŕıstica para indicar la importancia de la caracteŕıstica. Entonces para un par de casos ep y eq en la libreŕıa, una distancia métrica ponderada puede ser definida como: ( ) [∑ ]1/2 (∑ ) n n 1/2 d(w) pq = d(w) ep, eq = w2 j (x − x 2 2 2 pj qj ) = wjxj (2.48) j=1 j=1 donde x2 j = (xpj − xqj)2. Cuando todos los pesos son iguales a 1 la distancia métrica ponderada definida anteriormente degenera a la medida Euclidiana d1 pq esto quiere decir que es denotada (w) por dpq , usando la distancia ponderada una medida de similitud entre dos casos, SMpq , puede ser definida como: SM (w) 1 pq = (2.49) (w) 1 + αdpq (w) donde α es una constante.Cuanto más alto sea el valor de dpq , la similitud entre ep y eq será mas baja. Cuando todos los pesos toman valor de 1, la medida de similitud es (1) (1) denotada por SMpq , SMpq ∈ [0, 1]. Las caracteŕısticas del valor real mencionadas anteriormente, podŕıan extenderse sin dificultad a las caracteŕısticas que tienen los valores en un espacio vectorial nor- malizado. Por ejemplo: para cada caracteŕıstica una medida de distancia ha sido definida. La 2.4. RAZONAMIENTO BASADO EN CASOS 39 medida de distancia para la j-ésima caracteŕıstica está denotada por ρj ; que es , ρj es un mapeo de Fj x Fj a [0,∞] (donde Fj es denotado como el dominio de la j-esima caracteŕıstica) con las siguientes propiedades. ρj(a, b) = 0 si y solo si a = b. ρj(a, b) = ρj(b, a). ρj(a, b) ≤ ρj(a, c) + ρj(c, b). Para caracteŕısticas numéricas y no numéricas, pueden ser usadas algunas fórmulas t́ıpicas para la medida de distancia; se muestran a continuación algunas: ρj(a, b) =| a− b | si a y b son números reales. ρj(A,B) =maxa∈A,b∈B | a− b | si A y B son intervalos.  1 si a =6 b ρj(a, b) = si a y b son śımbolos. 0 si a = b En estas circunstancias, la distancia entre dos casos ep y eq pueden ser calculados por: √√√√∑ndwpq = w2 jρ 2 j(epj, eqj) (2.50) j=1 Medida de similitud de Tversky Mostraremos a continuación una medida de similitud usada comúnmente. Denota- mos a SMpq como una medida de similitud entre dos casos; un nuevo caso consulta ep y un caso almacenado eq. Una medida de similitud que está basada en el modelo de relación propuesto por Tversky (Tversky, 1977): α(comunes) SMpq = (2.51) α (comunes) + β(diferentes) 2.4. RAZONAMIENTO BASADO EN CASOS 40 donde comunes y diferentes representan al número de atributos que son similares o diferentes, respectivamente entre el nuevo caso de consulta ep y el caso almacenado eq. Por lo general, esta decisión implica considerar un valor umbral, para que las carac- teŕısticas se clasifiquen como similares si su similitud está por encima del umbral. Los valores de α y β son los pesos correspondientes, que pueden estar determinados por un experto o mediante el uso de técnicas de aprendizaje automático. Una medida de similitud, que se basa en el número de reglas de producción que se crea en una instancia, ha sido propuesto por Sebag y Schoenauer (Sebag y Schoenauer, 1994). ∑ SMpq = w(ri) (2.52) i donde (ri) representa las reglas que son aprendidas desde el caso base y w es el peso asignado. Una medida de similitud basado en el modelo de cambio propuesto por Weber (Weber, 1995). SMpq = αf(ep ∩ eq)− βf(ep − eq)− γf(eq − ep) (2.53) La intersección (ep ∩ eq) describe aquellos atributos que son comunes a ep y eq, y el conjunto de complementos (ep − eq) y (eq − ep) describe aquellos atributos que son observados solo en el caso consulta (mas no en el caso almacenado) y solo en el caso almacenado (mas no en el caso consulta), respectivamente. f es denotado a algún operador o algoritmo para calcular su correspondiente calificación de la relación de conjuntos. α, β, γ son los pesos correspondientes. Varias métricas de similitud son propuestas. Estas tienen en cuenta diferentes car- acteŕısticas comparativas. tales como el número consecutivo de aportes, el grado de normalización entre los atributos, la “tipicidad” de los casos, la relevancia de ciertos atributos entre un caso de una nueva consulta y un caso almacenado, el grado de simil- itud en las relaciones entre atributos, similitud en la estructura, similitud basada en la 2.4. RAZONAMIENTO BASADO EN CASOS 41 jerarqúıa de clases orientada a objetos y medidas de similitud difusas supervisadas y no supervisadas (Pal y Shiu, 2004). 2.4.5. Reutilización o adaptación de casos La adaptación de casos es el proceso de transformar una solución recuperada en una solución apropiada para un problema actual. Se ha argumentado que la adaptación es el paso más importante de un RBC, ya que añade inteligencia a lo que seŕıa el cálculo de un patrón simple. Enfoques para la adaptación Una serie de enfoques se pueden tomar para llevar a cabo la adaptación de los casos: Las soluciónes devueltas (casos recuperados) podŕıan ser utilizados como una solución al problema actual sin modificaciones, o con las modificaciones donde la solución no es del todo apropiada para la situación actual. Los pasos o procesos que se siguieron para obtener la solución anterior, podŕıa retornar sin modificaciones o con modificaciones que no son plenamente satisfac- torios en la situación actual. Cuando más de un caso ha sido recuperado, una solución podŕıa ser derivada a partir de varios casos, o varias soluciones podŕıan ser presentadas. La adaptación puede usar varias técnicas, incluyendo las reglas o una iteración adicional de razonamiento basado en casos, en un espacio de recuperación mas similar para cada caso. 2.4. RAZONAMIENTO BASADO EN CASOS 42 Figura 2.8: RBC dentro de un estado de aprendizaje (Pal y Shiu, 2004). Consideraciones para escoger la estrategia de adaptación Cuando se elige una estrategia de adaptación de casos, puede ser útil considerar lo siguiente: En promedio, ¿cómo se cerrará el caso de ser recuperado? En general, ¿cómo muchas de las caracteŕısticas difieren entre los casos? ¿Hay sentido común o reglas conocidas que se pueden utilizar en la realización de la adaptación? Después que la adaptación se ha completado, es conveniente comprobar que la solución es adecuada y śı tiene en cuenta las diferencias entre el caso recuperado y el problema actual. En este punto, también hay una necesidad de considerar qué acción se debe tomar, si este control determina que la solución propuesta es poco probable que tenga éxito. En esta etapa, la salida solución desarrollada está lista para las prueba en el mundo real de una aplicación, véase las Figuras 2.8 y 2.10, luego, muchos sistemas entran en 2.4. RAZONAMIENTO BASADO EN CASOS 43 una fase de aprendizaje, tal como se explica en la siguiente sección. 2.4.6. Retención y Mantenimiento de Casos En esencia, el mantenimiento de la base de casos es visto como un proceso de refi- nación del sistema RBC para mejorar el desempeño de los resultados (Craw, Jarmulak, y Rowe, 2001). Los resultados a obtener son definidos por el usuario de acuerdo al dominio del problema y el ambiente externo. Suelen haber dos tareas t́ıpicas en el mantenimiento: cuantitativas y cualitativas. las cualitativas se aseguran de la consis- tencia y las cuantitativas de la eficiencia, existen muchas técnicas para ambas tareas (Pal y Shiu, 2004). Aprendizaje en sistemas RBC Una vez que se genera una solución adecuada y da una salida, hay cierta expectativa de que la solución se ponga a prueba en la realidad, véase la Figura 2.8. Para probar una solución, tenemos que considerar tanto la forma en que puede ser probada y cómo los resultados de la prueba lo clasificará como un éxito o un fracaso. Usando esta evaluación en el mundo real, un sistema RBC puede ser actualizado para tener en cuenta cualquier nueva información descubierta en el procesamiento de la nueva solución. Métodos de aprendizaje El sistema evoluciona y mejora la competencia y eficiencia de los resultados como producto de almacenar la experiencia pasada en el sistema y recuperar los casos pasados en el razonamiento futuro (Pal y Shiu, 2004). Se define un aprendizaje como: ⋃ BC = BC {em+1} (2.54) 2.4. RAZONAMIENTO BASADO EN CASOS 44 Figura 2.9: Mecanismo de aprendizaje en un RBC (Pal y Shiu, 2004). donde {em+1} corresponde al caso m + 1 producto del aprendizaje, representa una experiencia significativa con una nueva instancia sintética {a(m+1)1, a(m+1)2, ...a(m+1)n}, vea las Ecuaciones (2.45), (2.46) en la página 24. El aprendizaje puede ocurrir de varias maneras. Es un método común la adición de un nuevo problema, su solución, y el resultado a la base de casos. La base de casos incrementará la diversidad de situaciones cubiertas por los casos almacenados y reduce la distancia media entre un vector de entrada y el vector más cercano almacenado. Otro método de aprendizaje en un sistema RBC es usar la solución evaluada para modificar los valores de los casos almacenados o modificar los criterios de recuperación de casos. Se define un aprendizaje con modificación del caso i como: e ′ i ← {ai1, a′i2, ...a′in} (2.55) donde {ei} corresponde al caso a modificar, y {a′i1, a′i2, ...a′in} representa una nueva instancia sintética, vea las Ecuaciones (2.45), (2.46) en la página 24. Si un caso tiene valores que no son relevantes para los contextos espećıficos en que debe ser recuperado, ajustamos los ı́ndices para que pueden aumentar la correlación 2.4. RAZONAMIENTO BASADO EN CASOS 45 Figura 2.10: Distancia entre casos (Pal y Shiu, 2004). entre las ocasiones en que un caso es realmente recuperado y las ocasiones en las que debeŕıa haber sido recuperado. Consideraciones para agregar casos Según Sankar Pal (Pal y Shiu, 2004), cuando el aprendizaje implica que se deben agregar nuevos casos a la base de casos, hay una serie de consideraciones: ¿En qué situaciones debe agregarse un caso a la base de casos, y en que situaciones se debe descartar? Tenemos que considerar el nivel de éxito de la solución, que tan similar es el caso actual con otros casos en la base de casos, y si hubiera importantes lecciones que se tuviera que aprender del caso. Si es que se añadiera el caso a la base de casos, los ı́ndices del nuevo caso debe ser determinadas cómo es que el caso se va agregar a la base de casos. Si la estructura de la base de casos y el método de recuperación son muy estructurados es decir usan estructuras jerárquicas determinadas por inducción o un conjunto de redes neuronales, la incorporación de un nuevo caso puede requerir una planificación y re-estructuración significativa de la base de casos. 2.4. RAZONAMIENTO BASADO EN CASOS 46 Lineamientos para el uso de RBC A pesar de que el RBC es útil en muchos dominios y problemas, hay ocasiones donde no es la mas apropiada metodoloǵıa a utilizar. Los problemas candidatos y sus dominios deben reunir ciertas caracteŕısticas que se mencionan a continuación (Pal y Shiu, 2004): ¿Se tiene un modelo de fondo? Si el dominio es imposible de entender comple- tamente o si los factores que determinan el éxito o fracaso de una solución no pueden ser modelados explicitamente; el RBC permite trabajar con la experiencia pasada sin comprender los mecanismos de fondo (Ejemplo Sistemas de pronostico financiero o de diagnóstico). ¿Hay casos nuevos o excepcionales? Dominios sin casos nuevos o excepcionales pueden ser modelados con sistemas basados en reglas, las cuales se determinan inductivamente a partir de los datos históricos. Si embargo, en situaciones donde nuevas experiencias y excepciones son encontradas frecuentemente, haŕıan dif́ıcil mantener la consistencia de las reglas del sistema. En este escenario las carac- teŕısticas de aprendizaje incremental convertiŕıan a un sistema de RBC en una mejor alternativa a un sistema basado en reglas. ¿Existen Casos Recurrentes? Si la experiencia de un caso no es probable de ser usada para un nuevo problema, por tener un bajo grado de similitud, hay poco valor en almacenar los casos. En otras palabras cuando las experiencias no son los suficientemente similares para ser comparados y adaptados, es mejor construir un modelo del dominio para derivar la solución. ¿Hay un beneficio significativo en adaptar una solución pasada? Se debe consid- erar si hay un beneficio significativo en términos de recursos, tiempo de desarrollo, procesamiento al crear una solución a través de la modificación de una solución 2.4. RAZONAMIENTO BASADO EN CASOS 47 similar en vez de crear una solución desde el principio. ¿Son relevantes los casos previos obtenibles? ¿Es posible obtener datos que reg- istren las caracteŕısticas necesarias de los casos pasados? ¿Los casos registrados contienen las caracteŕısticas relevantes del problema y su contexto influye en el resultado de la solución? ¿Tiene la solución guardada el suficiente detalle para ser adaptada en el futuro? si las respuestas son positivas permiten usar el marco del RBC(Pal y Shiu, 2004). Ventajas del uso de RBC A continuación se resumen algunas de las ventajas en el uso del RBC (Pal y Shiu, 2004): Razonamiento a partir de datos incompletos o imprecisos: No es necesario tener toda la información para hacer inferencias, bastara con unos atributos relevantes. Aprendizaje interactivo: mientras el sistema crece, el sistema se entrena y aprende; utiliza los casos nuevos para trabajar con los nuevos; las redes neuronales tienen bien diferenciada una fase de entrenamiento que no lo hacen interactivo a las nuevas soluciones. Reducción de la tarea de adquisición de conocimiento: se elimina la necesidad de extraes un modelo formal o un conjunto de reglas. Evita repetir errores del pasado: Aśı como los casos de éxito, también se al- macenan los errores, en sistemas de generalización como las redes neuronales simplemente solo se trabaja con casos exitosos. Extensible a un amplio rango de dominios: El RBC puede ser aplicado a un extremo, amplio y variado dominio de aplicaciones. 2.5. MÉTODOS DE ACCESO MÉTRICO 48 Reflejan la forma de razonar humana: Los humanos no nos complicamos para la solución de problemas, buscamos a partir de la experiencia propia o ajena y plantemos soluciones rápidas y brillantes. 2.5. Métodos de acceso métrico Los Métodos de Acceso Métrico (MAM) se enfocan en el problema de organización de datos para que, en base a un criterio de similitud, usado en la fase de recuperación del Razonamiento Basado en Casos, pueda facilitar la búsqueda de un conjunto de elementos que estén cerca de un elemento de consulta (Chávez, Navarro, Baeza-Yates, y Marroqúın, 2001). Este problem está presente en un sinfin de aplicaciones que van desde escenarios de la vida cotidiana hasta las ramas de las ciencias de la computación, como el reconocimiento de patrones o la recuperación de información. Tradicionalmente, las estructuras de datos han aplicado operaciones de búsqueda, donde se hace una coincidencia exacta. Por ejemplo, en las bases de datos donde se manejan registros, cada registro es comparado con los demás por medio de una clave y las búsquedas retornan los registros cuya clave coincida con la clave suministrada. Tras la aparición de nuevos contextos, debido principalmente al desarrollo tecnológi- co, vienen surgiendo nuevos algoritmos y métodos de acceso más eficientes y veloces. En las búsquedas por similitud o proximidad, la similitud entre elementos es modela- da a través de una función de distancia que satisfaga la desigualdad triangular, y un conjunto de objetos llamado espacio métrico. 2.5.1. Definiciones Los Métodos de Acceso Métrico son estructuras ampliamente utilizadas en el campo de Recuperación de Información. Un MAM debe organizar un conjunto de datos en base a un criterio de similitud para responder eficientemente a consultas espećıficas de 2.5. MÉTODOS DE ACCESO MÉTRICO 49 proximidad. Los Métodos de Acceso Métrico puedes ser descritos como una herramienta de organización de datos. Los MAMs trabajan sobre espacios métricos definidos por un conjunto de objetos y una función de distancia que mide la disimilitud entre los objetos del espacio métrico (Chávez y cols., 2001). Consideremos un conjunto U que denota el universo de objetos válidos y la función d : U × U −→ R que mide la distancia entre objetos. Se define como espacio métrico al subconjunto S ⊆ U de tamaño n = |S| llamado diccionario o base de datos, que denota el conjunto de objetos de búsqueda, y a la función d(x, y) que mide la disimilitud entre objetos y satisface las propiedades de: ∀x, y ∈ U, d(x, y) ≥ 0, positividad; ∀x, y ∈ U, d(x, y) = 0, simetŕıa; ∀x ∈ U, d(x, x) = 0, reflexibilidad; ∀x, y ∈ U, x =6 y ⇒ d(x, y) ≥ 0, positividad estricta; ∀x, y, z ∈ U, d(x, y) ≤ d(x, z) + d(z, y), desigualdad triangular. La desigualdad triangular es la propiedad más importante porque establece los ĺımites de distancias que aún pueden no haberse calculado, generando algoritmos de búsqueda por similitud significativamente más rápidos. Para los espacios vectoriales (un caso particular de espacios métricos) donde cada objeto es descrito como un vector de caracteŕısticas (x1, x2, x3, . . . , xn) varios Métodos de Acceso Espacial (MAE) como Kd-Tree o R-Tree han sido propuestos para indexar este tipo de objetos multidimensionales. El problema principal de los espacios vec- toriales está relacionado con las altas dimensiones de los datos, la también conocida maldición de la dimensionalidad (Chávez y cols., 2001). 2.5. MÉTODOS DE ACCESO MÉTRICO 50 2.5.2. Consultas de Proximidad Dado un objeto de consulta q ∈ U , para poder recuperar los objetos similares a q, se definen los siguientes tipos básicos de consulta: Consultas de rango Rq(q, r). Recupera todos los elementos que se encuentran dentro de un radio r de q. Esto es, u ∈ U = d(q, v)/d(q, u) ≤ r. Consulta de vecino más cercanoNN(q). Recupera el elemento en U más cercano a q. Esto es u ∈ U/∀v ∈ U, d(q, u) ≤ d(q, v). Adicionalmente se puede establecer un rango máximo r. Consulta de k-vecinos más cercanos NNk(q). Recupera los k elementos en U más cercanos a q. Esto es, A ⊆ U/|A| = k ∧ ∀u ∈ A, v ∈ U − A, d(q, u) ≤ d(q, v). La Figura 2.11 muestra ejemplos de las consultas generadas. (a) (b) (c) Figura 2.11: Tipos básicos de consultas por proximidad:(a) Ejemplo de búsqueda por rango r en un conjunto de puntos. (b) Ejemplo de búsqueda del vecino más cercano en un conjunto de puntos. (c) Ejemplo de búsqueda de los k-vecinos más cercanos en un conjunto de puntos con k = 4. 2.5.3. Algoritmos de Búsqueda Los Métodos de Acceso Métrico son estructuras que trabajan sobre espacios métri- cos, organizando los datos para responder eficientemente a consultas por similitud. De 2.5. MÉTODOS DE ACCESO MÉTRICO 51 acuerdo con (Zezula, Amato, Dohnal, y Batko, 2006), los MAMs pueden ser clasificados en: Particionamiento de esferas: Fixed Queries Tree (Baeza-Yates, Cunto, Manber, y Wu, 1994), Vantage Point Tree (Uhlmann, 1991). Particionamiento de hiperplanos: Generalized Hyper-plane Tree (Uhlmann, 1991). Distancias Precomputadas: Omni-Family (Filho, Traina, Jr., y Faloutsos, 2001), Approximating and Eliminating Search Algorithm (Ruiz, 1986). Métodos h́ıbridos: GNAT (Brin, 1995), Spatial Approximation Tree (Navarro, 2002), Multi Vantage Point Tree (Bozkaya y Özsoyoglu, 1997). Otros métodos: M-Tree (Ciaccia, Patella, y Zezula, 1997), Slim-Tree (Jr., Traina, Seeger, y Faloutsos, 2000), DIndex (Dohnal, Gennaro, Savino, y Zezula, 2003). La Figura 2.12 muestra otra clasificación de los Métodos de Acceso Métrico prop- uesta en (Chávez y cols., 2001), aqúı se clasifican a los métodos de búsqueda en: basados en agrupamiento y basados en pivotes. Los métodos basados en agrupamiento parti- cionan el espacio en regiones representadas por un centroide o centro de grupo, para luego poder descartar regiones completas cuando se hace una búsqueda. Los métodos basados en pivotes seleccionan un conjunto de elementos como pivotes, y construyen un ı́ndice en base a las distancias entre cada elemento y los pivotes. Se pueden encontrar buenas referencias sobre clasificación y definición de los MAMs en (?, ?) y (Hjaltason y Samet, 2003). 2.5.4. Omni-Secuencial La técnica Omni (Filho y cols., 2001) hace uso de un conjunto de puntos de refer- encia llamados “focos” para reducir el número de cálculos de distancia. Cada vez que 2.5. MÉTODOS DE ACCESO MÉTRICO 52 Figura 2.12: Taxonomı́a de algoritmos en base a sus caracteŕısticas. (Chávez y cols., 2001) se inserta un nuevo elemento se calculan las distancias de este elemento hacia cada uno de los focos, información que es luego utilizada en las consultas para reducir los cálculos de distancia haciendo uso de la propiedad de la desigualdad triangular vista anteriormente. Esta técnica introduce los conceptos de Omni-focos y Omni-coordenadas. Los Om- nifocos son definidos como el conjunto F de distintos puntos que pertenecen al espacio métrico. Las Omni-coordenadas son definidas como el conjunto de distancias calculadas entre cada punto del espacio métrico y cada elemento de F , por lo tanto la cardinal- idad de la coordenada es igual al número de focos. El costo adicional de calcular las Omni-coordenadas es compensado por el ahorro obtenido en las consultas. 2.5. MÉTODOS DE ACCESO MÉTRICO 53 Uno de los puntos cŕıticos en esta técnica es la selección del conjunto de focos F y su cardinalidad. Con respecto a la cardinalidad, y como puede ser observado en la Figura 2.13, con un mayor número de focos se puede reducir más el subconjunto de candidatos, acelerando el proceso de búsqueda, pero se requiere mayor espacio y tiempo para procesarlos. Los autores recomiendan una cardinalidad no mayor al doble de la dimensionalidad intŕınseca de los datos ya que a un mayor número de focos se obtiene un pequeño o ningún beneficio. (a) (b) (c) Figura 2.13: Tipos básicos de consultas por proximidad:(a) Sin uso de focos todo el conjunto de datos es candidato. (b) Usando un foco el subconjunto de datos candidatos (área sombreada) se reduce. (c) Subconjunto de candidatos usando dos focos. Para la selección de los focos se recomienda elegir puntos lo más separado posible y equidistantes. Se propone el algoritmo HF para esta tarea. Este algoritmo primero selecciona un objeto aleatoriamente y luego selecciona como primer foco al objeto más alejado de este. El segundo foco es el elemento más distante el primer foco. Por último se selecciona como siguiente foco a aquel objeto con distancias más similares a los focos anteriores, este proceso se repite hasta seleccionar todos los focos. El proceso completo está descrito en el Algoritmo 1 (Filho y cols., 2001). 2.6. ÁLGEBRA RELACIONAL 54 Algorithm 1 Algoritmo HF 1: Seleccionar aleatoriamente un elemento s0 del conjunto de datos. 2: Encontrar el elemento f1 más lejano a s0 y seleccionarlo como foco. 3: Encontrar el elemento f2 más lejano a f1 y seleccionarlo como foco. 4: Encontrar el elemento f1 más lejano a si y seleccionarlo como foco. 5: Establecer edge = d(f1, f2), variable usada para encontrar a los demás focos. 6: Mientras∑se necesiten encontrar más focos repetir los pasos 7 y 8. 7: Para cada punto si del conjunto de datos calcular: errori = k k esfoco|edge− d(fk; si)|. 8: Seleccionar como foco al elemento si que posea el menor errori y que no haya sido seleccionado anteriormente como foco. 2.6. Álgebra relacional Para poder expresar algunas operaciones sobre una Base de Casos multidimensional es necesario usar una notación matemática que permita incluir expresiones de consulta en una expresión matemática, se decide incorporar el Álgebra Relacional para mejorar la expresividad de la propuesta (Romero, Marcel, Abelló, Peralta, y Bellatreche, 2011), (Hajdinjak y Bierman, 2011) 2.6.1. Definición El Álgebra Relacional (AR) es un lenguaje teórico abstracto con operaciones que trabajan sobre relaciones, para definir nuevas relaciones o subconjuntos de ellos sin cambiar las originales, la salida de una operación puede ser la entrada de otra operación (Sumathi y Esakkirajan, 2007), (Elmasri y Navathe, 2010). Elmasri (Elmasri y Navathe, 2011) sugiere que cualquier modelo de datos debe incluir un conjunto de operaciones para manipularlos, además de conceptos para definir la estructura y las limitaciones del modelo de la base. Estas operaciones permiten al usuario especificar solicitudes de recuperación como expresiones matemáticas. El resultado es una nueva relación, la que se puede manipular adicionalmente usando los operadores del álgebra. 2.6. ÁLGEBRA RELACIONAL 55 Nombre Operador asignación ← selección σ proyección Π inner join ./ productor cartesiano × renombrado ρ menor que < mayor que > menor que o igual ≤ mayor que o igual ≥ igual = y ∧ o ∨ no ¬ unión ∪ intersección ∩ división ÷ diferencia − Cuadro 2.1: Operadores relacionales El álgebra relacional es importante porque proporciona una base formal para mostrar las operaciones de relaciones como expresiones matemáticas. En segundo lugar, se uti- liza como base para la aplicación y optimización de consultas. El álgebra relacional se considera a menudo parte integral del modelo de datos relacional. Sus operaciones se pueden dividir en dos grupos. Un grupo incluye las op- eraciones previstas en la teoŕıa matemática de conjuntos, aplicables por las defini- ciones de tuplas en el modelo relacional formal. Un juego de estas operaciones in- cluyen UNION, INTERSECCION, DIFERENCIA DE CONJUNTOS, y el PRODUC- TO CARTESIANO (también conocido como producto vectorial). El otro grupo está for- mado por las operaciones desarrolladas espećıficamente para bases de datos relacionales, que incluyen SELECCION, PROYECCION, entre otros; se presenta un conjunto de ellos en el cuadro 2.1. 2.6. ÁLGEBRA RELACIONAL 56 2.6.2. Operador relacional unario: Selección La operación de selección se utiliza para elegir un subconjunto de registros de una relación que satisface una condición de selección3. Se puede considerar la operación SELECCION como un filtro que mantiene sólo las tuplas que satisfacen una condición de clasificación. Alternativamente, podemos considerar la operación de selección para restringir las tuplas de una relación a sólo aquellos tuplas que satisfacen la condición. La operación SELECCION también puede ser visualizada como una partición horizontal de la relación en dos conjuntos de tuplas, aquellas tuplas que satisfacen la condición y están seleccionadas, y las tuplas que no cumplen la condición y se descartan. En general, la operación SELECCION se denota por: σ(R) (2.56) donde se utiliza el śımbolo σ (sigma) para denotar el operador SELECCION y la condición de seleccion es una expresión que especifica sobre que atributos de la relación R se aplica. Nótese que R es generalmente una expresión del álgebra relacional cuyo resultado es una relación mas simple. La relación resultante de la operación de selección tiene los mismos atributos que R. En condición de selección se pueden usar los operadores de comparación {=, <,≤ , >,≥, 6=} aplicandose a atributos cuyos dominios son valores numéricos u otros. 2.6.3. Operador relacional unario: Proyección Cuando se está interesado en seleccionar ciertos atributos de una relación, se utiliza la operación Proyección, el resultado de la operación se puede visualizar como una partición vertical de la relación en dos relaciones: uno tiene las columnas necesarias 3La operación de selección es diferente de la cláusula SELECT de SQL. La operación elige registros en una tabla, algunas veces se le llama restrición o FILTRO DE FUNCIONAMIENTO. 2.6. ÁLGEBRA RELACIONAL 57 (atributos) y contiene el resultado de la operación, y el otro contiene las columnas desechadas. En forma general de la operación PROYECCION se denota por: Π< attribute list >(R) (2.57) donde π (pi) es el śımbolo usado para representar la operación PROYECCION, y es la lista secundaria deseada de los atributos de la relación R. Una vez más, cuenta de que R es, en general, una expresión de álgebra relacional cuyo resultado es una relación, que en el caso más simple es sólo el nombre de una relación de base de datos. El resultado de la operación PROYECCION sólo tiene los atributos especificados en atributo en el mismo orden en que aparecen en la lista. Por lo tanto, su grado es igual al número de atributos en Ṡi la lista de atributos sólo incluye atributos sin clave de R, tuplas duplicadas son probables de ocurrir. La operación PROYECCION elimina las tuplas duplicadas, por lo que el resultado de la operación PROYECCION es un conjunto de tuplas distintas, y por lo tanto una relación válida. Esto se conoce como eliminación de duplicado. El número de registros o tuplas en una relación resultante de una operación de proyección es siempre menor o igual al número de tuplas en R. Si la lista de proyección es una superclave de R es-que, que incluye alguna clave de R-la relación resultante tiene el mismo número de tuplas como R. Por otra parte, Π(R)) = Π(R) siempre y cuando contiene los atributos en de lo contrario, el lado izquierdo es una expresión incorrecta. Se puede encontrar mas información sobre los operadores y el Álgebra Relacional en (Sumathi y Esakkirajan, 2007; Elmasri y Navathe, 2010). 2.7. CONSIDERACIONES FINALES 58 2.7. Consideraciones finales En este caṕıtulo se ha descrito teóricamente los procesos estocásticos, conceptos de variable aleatoria, modelos lineales ARMA, PARMA, se ha visto la importancia del ruido blanco como un bloque que describe un Proceso Estocástico básico; Luego la definición de series temporales y algunos estimadores usados para describirlos, fi- nalmente el Razonamiento Basado en Casos, Métodos de acceso métrico y el álgebra relacional; todos estos conceptos serán de utilidad para comprender las bases sobre la que se desarrolla la propuesta. En el siguiente Caṕıtulo se desarrollará el estado del arte, y como algunos modelos lineales (PAR1) son utilizados para la generación de series temporales (Modelo de Thomas Fiering). Luego las nuevas propuestas en el área basadas en Redes Neuronales, que reutilizan algunos conceptos aqui presentados. Caṕıtulo 3 Estado del Arte Para el modelado de un Proceso Estocástico los modelos tradicionales (aproxima- ciones lineales) son modelos poco eficientes y de aplicabilidad limitada, los modelos no-lineales, requieren un conocimiento profundo del dominio para su construcción, sien- do finalmente de formulación compleja (Campos, 2010; Han y Wang, 2009; Kantz y Schreiber, 2004), ahora bien existen trabajos que proponen la solución a este prob- lema usando procesos estocásticos basado en redes neuronales, algunos especializados a fenómenos con caracteŕısticas periódicas (Campos, 2010; El-Shafie y El-Manadely, 2011; Ochoa-Rivera, 2008; Bao y Cao, 2011); de las propuestas se destaca la contribu- ción de Luciana Conceicao en su tesis doctoral Modelo Estocástico Periódico baseado em Redes Neurais (Campos, 2010), usada para generar series temporales de caudales el 2010. Luego existen otros trabajos, donde se muestra la capacidad del Razonamien- to Basado en Casos para descubrir información oculta, se tiene los trabajos de Maria Malek en su tesis doctoral Case-based Reasoning in Knowledge Discovery and Data Mining (Malek y Kanawati, 2009), Ning Xiong (Funk y Xiong, 2006) que trabaja so- bre series temporales el 2009; sobre la capacidad de pronóstico del RBC se tiene el trabajo de Pei-Chann Chang Application of a Case Based Reasoning for Financial 59 3.1. MODELO ESTOCÁSTICO DE THOMAS-FIERING 60 Time Series Data Forecasting (Chang, Tsai, Huang, y Fan, 2009) el 2009. 3.1. Modelo Estocástico de Thomas-Fiering Un modelo para la generación de series temporales estocásticas fue desarrollado por Thomas y Fiering (Thomas y Fiering, 1962). Este modelo ademas de la media y la varianza, usa el coeficiente de correlación, pues se considera que los registros históricos de procesos hidrológicos presentan un fenómeno de persistencia observable (Cadavid y Salazar, 2008) 3.1.1. Descripción ( ) √ Q 2 j+1 = Q̄j+1 + bj Qj − Q̄j + tj.sj+1 1− rj (3.1) donde: Q̄j es el caudal en el mes j Qj es el caudal promedio en el mes j Bj es la pendiente de la recta de regresión entre el mes j y j+1 Sj es la varianza de la distribución de los caudales en el mes j Rj es el coeficiente de correlación entre el mes j y j+1 Tj es un número aleatorio que viene de una distribución normal de media nula y de varianza igual a uno. Para calcular los promedios, la pendiente, la varianza y el coeficiente de correlación de los datos históricos. El promedio: 3.1. MODELO ESTOCÁSTICO DE THOMAS-FIERING 61 ∑n1 Q̄j = Qj (3.2) n i=1 La varianza: √ 1 ∑( )2 sj = Qj − Q̄− j (3.3) n 1 El coeficiente de correlación: Para j mayor o igual a 2 ∑( ) ( ) 1 − Qj − Q̄ Q − Q̄ n 1 j j−1 j−1 rj = (3.4) sjsj−1 Para j igual a 1 ∑( ) ( ) 1 − Q n 1 1 − Q̄1 Qm − Q̄m r1 = (3.5) s1sm La pendiente de la recta de correlación: r b = jsj j para j ≥ 2 sj−1 (3.6) para j = 1 b r1s1 1 = sm Para generar datos con una distribución log normal Si el caudal mensual sigue una distribución log normal, su logaritmo sigue una distribución normal, se suele usar y: √ yj+1 = ȳj+1 + byj (yj − ȳj) + tj.s 2 yj+1 1− ryj (3.7) Para calcular los parámetros se tiene: s2 ȳ + yj Q̄ j j = e 2 s = e2s2yj+2ȳ 2 j − esyj+2ȳj j √ s (3.8) e yj−1syjryj r −1 j = √ s2 s2 e yj−1−1 e yj−1 ryjsb = yj yj syj−1 3.1. MODELO ESTOCÁSTICO DE THOMAS-FIERING 62 Se resuelve las dos primeras Ecuaciones 3.2 3.3 para calcular el promedio y la desviación estándar de la nueva variable. Se obtienen estas dos ecuaciones: ( ) s2 ȳj = Ln [Q̄ −( yj j 2) ]2 (3.9) s2 sj yj = Ln 1 + Q̄j Ahora, para calcular los dos otros parámetros: [ √ √ ] r = 1 2 2 yj Ln r syj−1 syj s − s j e − 1 e − 1 + 1 yj 1 yj (3.10) r s b yj yj yj = syj−1 Se usan los 4 parametros para generar los datos sintéticos y(i,j). Luego para obtener los caudales sintéticos que siguen una distribución lognormal se toma el exponencial de y: Q̄ = eyjj (3.11) 3.1.2. Generación sintética de flujos El primer trabajo para generar caudales sintéticos es el de escoger una buena distribu- ción. Se calcula los estimadores (la media, la varianza, etc.) con el método: maximum likelihood estimation. Con n observaciones independientes {x1,. . . , xn} de una variable aleatoria, la función de densidad de probabilidad es: fX1,...,Xn(x1, ..., xn |θ) = fX(x1 |θ) ...fX(xn |θ) (3.12) Donde θ es el vector de los parámetros (µ y σ). Se tiene sólo que maximizar la función f. Por ejemplo para la función log normal: 3.2. MODELO ESTOCÁSTICO PERIÓDICO BASADO EN REDES NEURONALES DE CAMPOS 63 √1 1 fX(x) = exp(− [ln(x)− µ]2) (3.13) x 2πσ2 2σ2 Entonces: ∧ ∑ µ = 1 ∑ni=1 ln(xi)n ∧ ∧ (3.14) σ2 = 1 n (ln(x − µ)2 n i=1 i Se verifica que la ley log normal da resultados correctos, con el test de Kolmogorov- Smirnov. La comparación entre la distribución de probabilidad y la distribución emṕıri- ca está definida como: Prob(Xi < x) = i/n Ahora para verificar que la ley normal funciona, se calcula la desviación máxima entre las dos curvas: i− 1 i D = máx1≤i≤n(F (Yi)− , − F (Yi)) (3.15) n n Después de calcular la desviación es fácil ver si la distribución da una buena repre- sentación de la realidad. Después es fácil generar muchas distribuciones con las mismas caracteŕısticas de los datos de entrada. En efecto con un algoritmo simple se puede generar datos sintéticos. 3.2. Modelo Estocástico Periódico basado en Redes Neuronales de Campos 3.2.1. Descripción El comportamiento caótico y la no-linearidad de los datos a fomentado recientes investigaciones en la generación de series temporales con Redes Neuronales (Kantz y Schreiber, 2004; Campos, 2010) los modelos tradicionales que hacen uso de aproxima- ciones lineales se han convertido en modelos poco eficientes y de aplicabilidad limita- 3.2. MODELO ESTOCÁSTICO PERIÓDICO BASADO EN REDES NEURONALES DE CAMPOS 64 da, y los modelos no-lineales, necesitan un conocimiento profundo del dominio para su construcción (Campos, 2010; Han y Wang, 2009) Una de las caracteŕısticas que hacen ventajoso el uso de Redes Neuronales es la no necesidad de asumir un tipo de distribución a priori, aprenden la distribución a través de ejemplos y manejan datos de diversas fuentes con diferentes niveles de precisión y ruido. (Vieira y cols., s.f.; Prudencio, 2002) El uso de redes neuronales hace que el proceso estocástico neuronal sea un modelo no-lineal capaz de capturar las caracteŕısticas de la serie temporal, sin la necesidad de hacer suposiciones a priori sobre el comportamiento de la serie o efectuar algún tipo de descomposición en la misma. Para ello es preciso que las entradas de las redes neuronales del modelo de proceso estocástico neuronal tengan una memoria de corto plazo, la cual debe contener los términos pasados de la serie temporal a ser simulada. Los parámetros del modelo de proceso estocástico neuronal corresponden a los pesos sinápticos de las redes neuronales y para simular las realizaciones estocásticas es necesario adicionar un valor aleatorio a las salidas de las redes neuronales. Estos valores aleatorios son obtenidos a través de las distribuciones de probabilidad de los residuos de las redes neuronales del proceso estocástico neuronal. Para poder trabajar con las series temporales periódicas, los parámetros del mod- elo de proceso estocástico neuronal se deben ajustar no sólo al intervalo del tiempo de la serie sino también al periodo. El proceso estocástico neuronal es modelado con una componente estocástica para cada periodo de la serie. Por ejemplo, en el caso del periodo mensual en proceso estocástico neuronal esta compuesto por 12 componentes estocásticas (una para cada mes), y si el periodo seria semestral, la cantidad de com- ponentes estocásticos seria de 2 y en el caso de la serie no periódica apenas se usa un compuesto estocástico. Cada componente estocástico del proceso neuronal estocástico esta formada por una red neuronal y por una distribución de probabilidad para generar valores aleatorios en la generación de escenarios como se ilustra en la Figura 3.1. 3.2. MODELO ESTOCÁSTICO PERIÓDICO BASADO EN REDES NEURONALES DE CAMPOS 65 Figura 3.1: Componente estocástico del proceso estocástico neuronal. (Campos, 2010) Cuando el proceso estocástico neuronal está formado por mas de un componente estocástico ocurre un encadenamiento entre ellos, donde el valor de la serie dado por el componente estocástico de un periodo forma parte de la ventana temporal de entradas de la red neuronal del componente estocástico del siguiente periodo. El proceso estocástico neuronal es clasificado como un modelo estocástico periódico no-linear autoregresivo genérico. 3.2.2. Proceso Estocástico Neuronal Sea Z(t) una serie temporal con un periodo estacionario s y con n observaciones simultáneas en todos los periodos. El ı́ndice de tiempo t es descrito por la Ecuación 3.16 t = (r − 1) · s+m (3.16) donde: r = 1 . . . n es el número de observaciones de cada periodo de la serie. m = 1 . . . s corresponde a un periodo de la serie. sεN y es el total de periodos de la serie. n · s es el tamaño de la serie observada. 3.2. MODELO ESTOCÁSTICO PERIÓDICO BASADO EN REDES NEURONALES DE CAMPOS 66 Para que las redes neuronales feedforward se comporten como un modelo de proce- samiento temporal, es necesario que ellas presenten habilidades de memoria de corto plazo, la cual es realizada a través de técnicas de “ventana” (Gutierrez, 2003). Esta técnica consiste en introducir memoria en las neuronas de la primera capa escondida, otorgando de esta forma a las neuronas valores pasados de la serie temporal. Por eso el proceso estocástico neuronal es clasificado como un modelo autoregresivo. La red neuronal de cada componente estocástico del proceso estocástico neuronal posee un número determinado de términos pasados de la serie, llamados orden de la red neuronal. El orden de la red neuronal del componente estocástico del periodo m es representado por pm. Para obtener un valor de la serie en un instante de tiempo t, el proceso estocástico neuronal accede al componente estocástico m correspondiente y su red neuronal recibe los pm. La Figura 3.2 muestra la estructura de la red neuronal de orden pm. Figura 3.2: Red neuronal del proceso estocástico neuronal de orden pm. La Figura 3.3 representa en detalle a la neurona perteneciente a la capa oculta de la red neuronal de orden pm, cuya salida esta dada por la Ecuación 3.17 ∑pm yi = ϕ(ωi,0 · Z(t− s) + ( ωi,j · Z(t− j)) + θi) (3.17) j=1 3.2. MODELO ESTOCÁSTICO PERIÓDICO BASADO EN REDES NEURONALES DE CAMPOS 67 Figura 3.3: Neurona de la capa oculta de red neuronal del proceso estocástico neuronal de orden pm. donde ϕ es la función de activación de la neurona i, ωi,j es el peso sináptico de la conexión entre la entrada j y la neurona i y θi es el bias de esta neurona. Considerando que la red neuronal de orden pm contiene lm neuronas en la capa oculta, esta puede ser representada como se muestra en la Figura 3.4, donde esta salida es calculada por la Ecuación 3.18: Figura 3.4: Neurona de salida de una red neuronal del proceso estocástico neuronal con lm neuronas en la capa oculta. ∑lmm yout = ϕout( ωout,i · yi + θout) (3.18) i=1 3.2. MODELO ESTOCÁSTICO PERIÓDICO BASADO EN REDES NEURONALES DE CAMPOS 68 donde ϕout es la función de activación de la neurona de la capa de salida representado por out, ωout,i es el peso sináptico de la conexión entre la entrada i y la neurona out y θout es el bias de la neurona. Como se ve en la Figura 3.1, la salida de un componente estocástico corresponde a la sumatoria de la salida de las redes neuronales con un valor aleatorio proveniente de la distribución de probabilidad de residuos de la red neuronal. La serie temporal Z(t) que posee como ı́ndice de tiempo t descrito por la Ecuación 3.16 es simulada a través de la siguiente Ecuación: Z(t) = yout + α(t) (3.19) donde α(t) es el valor aleatorio proveniente de la distribución de probabilidad de los residuos de la red neuronal de los componentes estocásticos del periodo m. Uniendo las Ecuaciones 3.17 3.18 4.3 obtenemos la descripción matemática de la componente estocástica del periodo m del proceso estocástico neuronal. Z(t) = yout(Σ lm i=1ω pm out,i · ϕi[ωi,0Z(t− s) + (Σj=1ωi,jZ(t− j)) + θi]θout) + α(t) (3.20) Los términos de las series son simulados por el proceso estocástico. La Figura 3.5 muestra de forma genérica el encadenamiento de los componentes estocásticos del pro- ceso estocástico neuronal en un determinado tiempo t. Se debe ajustar el modelo del proceso estocástico neuronal a la serie temporal histórica a ser simulada, este ajuste debe seguir los siguientes pasos: Determinar la estructura del modelo, Estimar los primeros parámetros y Validar los residuos. 3.2. MODELO ESTOCÁSTICO PERIÓDICO BASADO EN REDES NEURONALES DE CAMPOS 69 Figura 3.5: Encadenamiento entre las entradas/salidas de las componentes estocásticas del proceso estocástico neuronal. 3.2.3. Determinación de la Estructura de los Procesos Es- tocásticos Neuronales La arquitectura de la red neuronal consiste en determinar el número de entradas, salidas, capas ocultas, neuronas por capa, padrón de conexión entre las neuronas y la función de activación. Para la determinación de la arquitectura general de la red neuronal se usa una sola capa oculta(según Haykin (Haykin, 2001)) con funciones sig- moideas para la activación de las neuronas. Posee una sola neurona en la capa de salida y el número de neuronas de la capa oculta es determinado en forma emṕırica (probando las diferentes arquitecturas de redes neuronales y variando el número de neuronas en la capa oculta). El modelo del proceso estocástico neuronal referenciado por PEN(p, l). La cantidad de parámetros del modelo es la suma del número de parámetros (número de 3.2. MODELO ESTOCÁSTICO PERIÓDICO BASADO EN REDES NEURONALES DE CAMPOS 70 pesos sinápticos, incluyendo el bias de la red neuronal) de cada componente estocástico del proceso estocástico neuronal. ∑s plmm + 2 · lm + 1 (3.21) m=1 La definición del modelo PEN(p, l) consiste en la identificación de los términos p y l, los cuales pueden ser determinados a partir de estudios preliminares sobre la serie o por tentativa de error. En el modelo de proceso estocástico neuronal, los pesos de la red son ajustados por un algoritmo de entrenamiento supervisado, donde los parámetros utilizados son formados por el conjunto de entradas y el conjunto de salidas deseadas. Este algoritmo de entrenamiento es ejecutado por un número dado de épocas donde en cada época los pesos sinápticos son ajustados de forma independiente. Para cada red neuronal es creado un conjunto de padrones de entrenamiento con salidas deseadas, y datos de entrada normalizados dentro los ĺımites establecidos por la función de activación. Como el entrenamiento es supervisado, la respuesta de la neurona de salida es comparada con la respuesta deseada que se encuentra en el padrón de los datos. La diferencia de estos valores corresponden al error usado en el ajuste de pesos sinápticos por el algoritmo de entrenamiento, y el calculo del desempeño del entrenamiento. La métrica para medir el desempeño de los modelos de series temporales es el error medio porcentual absoluto (MAPE) (Tang, 1991). El MAPE es calculo a través de la Ecuación 3.22 1 ∑N · |Z(k)− Y (K) MAPE = | · 100 (3.22) N Z(K) k=1 donde N corresponde al total de padrones y Z(k) es el valor de la k-ésima salida deseada del padrón de entrenamiento del periodo m. Y (k) es la salida desnormalizada 3.2. MODELO ESTOCÁSTICO PERIÓDICO BASADO EN REDES NEURONALES DE CAMPOS 71 de la red neuronal del periodo m para el k-ésimo padrón de entrada. El objetivo de la etapa de evaluación es generar un escenario de x · s elementos como se ilustra en la Figura 3.6, envolviendo de esta forma todas las redes neuronales del proceso estocástico neuronal. La construcción del escenario es realizada de forma secuencial a través del encadenamiento entre las redes, donde la red neuronal m = 1 muestra la ventana temporal y genera la salida, el cual es el primer elemento del escenario de evaluación que es usado en la ventana temporal de la red m+ 1. Figura 3.6: Evaluación de las redes neuronales del proceso estocástico neuronal. Se calcula una métrica de desempeño, similar a la usada en el entrenamiento us- ando los datos de evaluación. Para calcular la métrica de desempeño de evaluación, se compara los datos del escenario con los datos que se encuentran en el padrón de salida deseada. De esta forma se tiene dos tipos de métrica de evaluación: 3.2. MODELO ESTOCÁSTICO PERIÓDICO BASADO EN REDES NEURONALES DE CAMPOS 72 1. Por escenario: se calcula la métrica recorriendo de manera secuencial todo el escenario. 2. Se comparan los valores de x del periodo m presentes en el escenario con los patrones x de salida del conjunto de evaluación de periodo m. Existen dos formas de calcular el MAPE de evaluación obteniendo dos tipos de función de costo para evaluar la interrupción de entrenamiento: 1. En conjunto: Se interrumpe el entrenamiento de todas las redes neuronales del proceso estocástico neuronal como se muestra en la Figura 3.7. Figura 3.7: Evaluación de las redes neuronales del proceso estocástico neuronal. 2. Separado por red neuronal: Cuando el MAPE comienza a subir la red neuronal interrumpe su entrenamiento en distintas épocas, como se ilustra en la Figura 3.8. 3.2. MODELO ESTOCÁSTICO PERIÓDICO BASADO EN REDES NEURONALES DE CAMPOS 73 Figura 3.8: Evaluación de las redes neuronales del proceso estocástico neuronal. 3.2.4. Evaluación de los Residuos Generados Durante la fase de entrenamiento de la red neuronal artificial es calculado un con- junto de diferencias entre la salida dada por la red neuronal y la salida deseada del padrón de entrenamiento. Al termino del entrenamiento, el conjunto de diferencias obtenido por la red neuronal del periodo m corresponde a las serie de residuos del estimador. En esta etapa se busca ajustar una distribución de probabilidad teórica que tenga una buena adherencia con la serie de residuos de la red neuronal entrenada para el periodo m, luego a través de la distribución de probabilidad teórica se obtiene una descripción aproximada de las caracteŕısticas de los residuos. Para verificar la adheren- cia de la distribución se usa la prueba de Kolmogorov-Smirnov el cual ayuda a conseguir el menor error de ajuste, en este caso corresponde a la distribución de probabilidad 3.3. OTROS TRABAJOS RELACIONADOS 74 del componente estocástico del periodo m del proceso estocástico neuronal como se muestra la Figura 3.1. 3.3. Otros Trabajos Relacionados 3.3.1. Razonamiento Basado en Casos en el Descubrimiento de Conocimiento y Mineŕıa de Datos Maleky Kalawaty presenta el 2010 la tesis de PHD con algunas contribuciones en tres áreas de investigación: razonamiento basado en casos, descubrimiento de conocimien- tos y representación del conocimiento. Se introduce un lenguaje para representar varia- ciones entre casos. Primero se muestra como este lenguaje puede ser utilizado para representar la adaptación del conocimiento y modelar la fase de adaptación en el ra- zonamiento basado en casos. Este lenguaje es luego aplicado a la tarea de aprendizaje del conocimiento de adaptación. El proceso de descubrimiento del conocimiento, lla- mado CabamakA, aprende el conocimiento adaptado por generalización a partir de una representación de variaciones entre los casos. La discusión continúa sobre cómo hacer este proceso de descubrimiento del conocimiento operacional en una adquisición de conocimiento. La discusión conduce a la proposición de un nuevo enfoque para la adquisición de conocimiento de adaptación, en el cual el proceso de descubrimiento de conocimiento es lanzado como una manera oportunista en el tiempo de resolución del problema. Los conceptos introducidos en esta tesis son ilustrados en el dominio de tema a través de su aplicación en el sistema TAAABLE, de razonamiento basado en casos, que constituye el dominio de la aplicación del estudio (Malek y Kanawati, 2009). 3.3. OTROS TRABAJOS RELACIONADOS 75 3.3.2. Razonamiento Basado en Casos en aplicaciones con se- ries de tiempo Basado en Ning Xiong (Funk y Xiong, 2006). Este trabajo discute sobre el rol e integración del descubrimiento del conocimiento (DC) en sistemas de razonamiento basado en casos (RBC). La opinión general es que DC es complementaria a la tarea de conocimiento de retención y puede ser tratado como un proceso separado fuera del tradicional ciclo RBC. A diferencia de la retención de conocimiento que esta relacionado a experiencias de casos espećıficos, los objetivos del DC en la elicitación del nuevo conocimiento son más generales y valiosas para mejorar las diferentes tareas del RBC. El trabajo se ejemplificó por un escenario de aplicación real en la medicina en el que series de tiempo de patrones son analizados y clasificados. Como un único patrón no puede transmitir la información suficiente en la aplicación, las secuencias de patrones son más adecuadas. Por lo tanto, es más ventajoso si las secuencias de patrones y su co-ocurrencia con las categoŕıas pueden ser descubiertas. La evaluación de los casos que contienen series clasificadas en un número de categoŕıas e inyectadas con secuencias de indicadores muestra que el enfoque es capaz de identificar secuencias ocultas. En una aplicación cĺınica con una biblioteca de casos representativa del mundo real, estas secuencias clave mejoraran la habilidad de clasificación y puede generar investigación cĺınica para explicar la co-ocurrencia entre ciertas secuencias y clases. 3.3.3. Aplicación del Razonamiento Basado en Casos para se- ries de tiempo de datos de Pronóstico Financiero Sobre la capacidad de pronóstico del RBC se tiene el trabajo de Pei-Chann Chang Application of a Case Based Reasoning for Financial Time Series Data Forecasting (Chang y cols., 2009). Este trabajo establece un modelo de predicción de series de tiempo financieros, por 3.4. CONSIDERACIONES FINALES 76 clustering y la evolución del Support Vector Machine para las acciones de S & P 500 en los E.E.U.U. Este modelo de predicción integra una técnica de clustering de datos con RBC ponderado, clustering con un Support Vector Machine (SVM) para construir un sistema de toma de decisiones basado en datos históricos y técnicas de indexación. El precio futuro de las acciones es predicho por el modelo propuesto y la precisión de modelo de predicción se mejora al dividir la data histórica en diferentes clusters. En general, los resultados apoyan el nuevo modelo para predecir el precio de acciones al mostrar que puede reaccionar precisamente a la tendencia actual del movimiento del precio de las acciones a a partir de estos casos más pequeños. La tasa de éxito del modelo RBC-SVM es 93,85 %, el más alto rendimiento, a la fecha. 3.4. Consideraciones finales En este caṕıtulo se ha presentado los modelos usados en la literatura para la generación de series temporales asociadas a variables climatológicas, el modelo lin- eal de Thomas Fiering, luego un modelo basado en redes neuronales (no-lineal, prop- uesto recientemente)y otros especializado a fenómenos con caracteŕısticas periódicas (Campos, 2010; El-Shafie y El-Manadely, 2011; Ochoa-Rivera, 2008; Bao y Cao, 2011); de las propuestas se destaca la contribución de Luciana Conceicao, que trabajan si información a priori y que no requieren de una formulación compleja, se evidencian algunas limitaciones sobre la aplicabilidad de las propuestas para caracterizar informa- ción oculta. Luego se presentan algunos trabajos, donde se muestra la capacidad del Razonamiento Basado en Casos para descubrir información oculta, se tiene los traba- jos de Maria Malek en su tesis doctoral Case-based Reasoning in Knowledge Discovery and Data Mining (Malek y Kanawati, 2009) de Ning Xiong (Funk y Xiong, 2006) que trabaja sobre series temporales, sobre la capacidad de pronóstico del RBC se tiene el trabajo de Pei-Chann Chang (Chang y cols., 2009). 3.4. CONSIDERACIONES FINALES 77 En el siguiente Caṕıtulo se describirá, a un nivel de detalle significativo, el Razon- amiento Basado en Casos, se apreciará sus ventajas y desventajas, su capacidad para trabajar con información oculta, finalmente se discutirá sobre su aplicabilidad en la generación de series temporales estocásticas. Caṕıtulo 4 Propuesta: Modelo Estocástico a partir de Razonamiento Basado en Casos para la Generación de Series Temporales En este caṕıtulo se presenta el nuevo modelo de Proceso Estocástico a partir del Razonamiento Basado en Casos; el objetivo es generar series temporales que muestran información oculta. Para ello en la etapa de representación se indexa las series tempo- rales de los registros históricos en una estructura de datos de acceso secuencial, Para ello se propone, en la etapa de representación un modelo con memoria a corto plazo, multidimensional. se sugiere la indexación en una estructura de acceso secuencial; luego en la etapa de recuperación, la búsqueda y generación de un componente determińısti- co a partir de la extensión de los modelos con memoria auto-regresiva de 3 términos, donde se cambia los parámetros promedio, varianza, coeficiente de correlación y pendi- 78 79 Figura 4.1: Etapas del Proceso Estocástico a partir del Razonamiento Basado en Casos. ente de la recta de regresión, por una función de similitud. La búsqueda por similitud usará la distancia euclidiana basada en la ubicación de objetos en el espacio euclidiano representado por un vector (n+ 1)− dimensional donde n es una entrada ponderada por el coeficiente de correlación de las variables relativas al caso de búsqueda; en la etapa de reutilización se genera una realización estocástica, agregando un error aleato- rio, proveniente de una distribución de probabilidad asociada a la ventana de similitud buscada; la etapa de Retención almacena las series temporales generadas que cumplan las consideraciones f́ısicas; vea la Figura 4.1 Etapas del Proceso Estocástico a partir del Razonamiento Basado en Casos. A continuación vea el detalle de la propuesta. 4.1. COMPONENTE ESTOCÁSTICO 80 4.1. Componente estocástico El Proceso Estocástico a partir de Razonamiento Basado en Casos es modelado con un componente estocástico para cada periodo de la serie; para un periodo mensual, el nuevo proceso está compuesto por 12 componentes estocásticos (uno para cada mes), y si el periodo es semestral, la cantidad de componentes estocásticos seria 2, para una diaria se tendŕıa 360 y para el caso de una serie no periódica solo un componente estocástico. Cada componente esta formado por la Base de Casos, un razonador basa- do en casos con su algoritmo de recuperación, una distribución de probabilidad para generar valores aleatorios, los elementos del componente estocástico son ilustrados en la Figura 4.2. Figura 4.2: Componente estocástico del proceso estocástico a partir de Razonamiento Basado en Casos. Cuando el proceso estocástico a partir de Razonamiento Basado en Casos está for- 4.2. REPRESENTACIÓN E INDEXACIÓN DE CASOS 81 mado por mas de un componente estocástico ocurre un encadenamiento entre ellos, donde el valor de la serie, dado por el componente estocástico de un periodo, forma parte de la ventana temporal de entradas del componente estocástico del siguiente pe- riodo; el proceso estocástico a partir de Razonamiento Basado en Casos es clasificado como un modelo estocástico periódico auto-regresivo genérico. 4.2. Representación e Indexación de casos Como se menciono en la sección 2.4.3, la base de un sistema RBC es la memoria de casos, a diferencia de otros métodos que usan abstracciones o modelos basados en dominio (redes neuronales, inferenciales, clasificadores en general); se representan a partir de registros históricos de series temporales, organizados por el espacio temporal y/o geográfico. 4.2.1. Representación de Casos La entidad caso, para series temporales debe relacionar variables con caracteŕısticas comunes. Se presenta a continuación el diseño del esquema para una Base de Casos de registros temporales, una representación gráfica la tiene en la Figura 4.3. e = (x, y1, y2, z1, z2, ..., zn) (4.1) donde x es un indice. y1 es un atributo que describe la temporalidad del registro histórico. y2 es un atributo que describe la ubicación del registro histórico. z1, z2, ..., zn son atributos que describen las n dimensión relativas al registro histórico. 4.2. REPRESENTACIÓN E INDEXACIÓN DE CASOS 82 Figura 4.3: Registro de Caso Serie Temporal Genérico 4.2.2. Indexación de casos para series temporales Puesto que el RBC trabaja con la memoria de toda la serie histórica, la indexación es importante para obtener los casos similares en un tiempo rápido. Se sugiere que los ı́ndices sean abstractos para permitir la recuperación en varias circunstancias (Bonzano, Cunningham, y Smyth, 1997). De acuerdo a la sección 2.4.3: Indexación de casos, se indexa todos los valores de atributos numéricos que influyan en la generación de un dato para la serie temporal. para saber el grado de importancia, se pondera de acuerdo al coeficiente de correlación de los atributos. La clave primaria es asignada al registro a buscar en las consultas, y la clave secundaria a los atributos asociados. 4.3. RECUPERACIÓN DE CASOS PARA SERIES TEMPORALES 83 4.2.3. Indexación sobre una estructura de acceso métrico Se sugiere usar una estructura que soporte rangos y búsquedas multidimension- ales ponderadas, con un método de acceso métrico, se recomienda utilizar el Omni − secuencial con un memoria estructurada en flatmemory, para mas detalle sobre estos métodos, vea las secciones 2.4.3, 2.5.4. 4.3. Recuperación de casos para series temporales Para que el proceso de recuperación en un RBC, representado en la Figura 2.7, se comporte como un modelo de procesamiento temporal, es necesario que presente habilidades de memoria de corto plazo, para ello en la formulación de un caso se debe incluir retrasos temporales, con una ponderación basada en el coeficiente de correlación y una técnica de “ventana” (Gutierrez, 2003). Esta técnica introduce memoria en el razonador, a través de las series de tiempo pasadas; por eso el proceso estocástico es clasificado como un modelo auto-regresivo. El razonador de cada componente estocástico del proceso posee un numero deter- minado de términos pasados de la serie, se llamará orden o grado del razonador. El orden del razonador, del componente estocástico del periodo m, es representado por pm. Para obtener un valor de la serie en un instante de tiempo t, el proceso accede al componente estocástico m correspondiente y su razonador recibe los pm; asociado al orden se tiene dimensiones d, la primera dimensión corresponde a los datos históricos de las serie trabajada (d = 1), las dimensiones adicionales son series de temporales asociadas por el coeficiente de correlación w a la primera dimensión, el razonador tra- baja con todas d dimensiones; a mas dimensiones, mejores resultados. La Figura 4.4 muestra la estructura de un razonador de orden pm y dimensión d. Se tiene una nueva formulación de las variables: Sea Z1(t) una serie temporal con un periodo estacionario s y con n observaciones simultáneas en todos los periodos, 4.3. RECUPERACIÓN DE CASOS PARA SERIES TEMPORALES 84 Figura 4.4: Proceso Estocástico Genérico a partir de Razonamiento Basado en Casos de orden pm y d dimensiones. correlacionada a series asociadas Z2(t) ... Zd(t). Se describe un ı́ndice de tiempo t, vea la Ecuación 4.2 td = (r − 1) · s+m (4.2) donde: r = 1 . . . n es el número de observaciones de cada periodo de la serie. m = 1 . . . s corresponde a un periodo de la serie. s es el total de periodos de la serie sεN . 4.3. RECUPERACIÓN DE CASOS PARA SERIES TEMPORALES 85 d son las dimensiones de la series. βwd es la ponderación extráıdo del coeficiente de correlación de la serie d con la serie generada. En la Figura 4.2 se aprecia que la salida de un componente estocástico, corresponde a la recuperación de h series temporales con un mecanismo razonador y un valor aleato- rio proveniente de la distribución de probabilidad, asociado a un error del mecanismo razonador. La serie temporal Z(t) que posee como indice de tiempo t es simulada a través de la siguiente ecuación: Z(t) = yt + α(t) (4.3) donde α(t) es el valor aleatorio proveniente de la distribución de probabilidad asociado a los errores de los componentes estocásticos del periodo m. Yt es la salida del mecanismo razonador, el mecanismo razonador se basa en una medida de similitud. La expresión que expresa la nueva forma de modelar el proceso estocástico, teniendo en cuenta la medida de similitud, es: Zj+1 = Simj(Zj, BC),+α(j) (4.4) donde: Zj es el componente estocástico en el instante de tiempo j. Simj(Zj, BC) es la función de similitud para el mes j en base a los datos históricos registrados en las series temporales de BC. α(j) es un error aleatorio que proviene de una distribución de probabilidad para el instante de tiempo j generado. 4.3. RECUPERACIÓN DE CASOS PARA SERIES TEMPORALES 86 4.3.1. Concepto de similitud En el contexto de Generación sintética de series temporales, se asume que las series presentan un fenómeno de persistencia observable, el cual se encontrará por una me- dida de similitud de la persistencia sobre los datos históricos, se define como caso un subconjunto de una serie histórica observada. El trabajar con este concepto es posible por los enfoques siguientes: Se basa en el cálculo de la distancia, entre los casos en donde se determina el caso más similar por una medida (es decir métrica) de evaluación de similitud. El segundo enfoque está relacionado con las estructuras representación/indexación de los casos, el cual recorre en busca de un caso similar, aqúı se enfatiza la utilidad de los métodos de acceso métrico. 4.3.2. Distancia Euclidiana Ponderada Es forma mas directa para medir una distancia, esta basado en la ubicación de los objetos en el espacio Euclideano (es decir un conjunto ordenado de números reales). Formalmente la distancia Euclidiana entre los casos se expresará de la siguiente manera: BC = {e1, e2, ...eN} (4.5) donde BaseCasos es la libreŕıa de N casos correspondiente a las series históricas al- macenadas, y ei representa una medida en el instante i. Ademas se tiene la colección de atributos correspondientes a las dimensiones aso- ciadas {Fj(j = 1, 2, ..., n)} para indexar los registros; luego: ei = (xi1, xi2, ..., xin, θi) (4.6) 4.3. RECUPERACIÓN DE CASOS PARA SERIES TEMPORALES 87 donde: ei es el i-ésimo caso en la libreŕıa , se representado por un vector (n+ 1)− dimensional xij corresponde al valor de la dimensión Fj(1 ≤ j ≤ n) θi corresponde a los valores de ubicación no indexados V (i = 1, 2, ..., N). Para cada valor de la serie representada en el caso {Fj(j = 1, 2, ..., n)}, se asigna un peso wj(wj ∈ [0, 1]) asignado a la j-ésima dimensión para indicar la influencia de dicha observación en nuestro valor buscado, este se obtiene a partir del coeficiente de correlación entre los atributos, previamente calculado. Entonces, para la ventana temporal ep y la salida buscada eq en la libreŕıa de registros históricos, la distancia métrica ponderada se define como: ( ) d(w) = d(w) pq ep, eq (4.7) [∑ ] n 1/2 d(w) = w2(x − x )2 pq j pj qj (4.8) j=1(∑ ) n 1/2 d(w) = w2 pq jx 2 j (4.9) j=1 donde x2 j = (x 2 pj − xqj) . Cuando todos los pesos son iguales a 1, la distancia métrica ponderada definida anteriormente degenera a la medida Euclidiana d1 pq, esto quiere decir que es denotado por dpq. (w) La medida de similitud entre dos datos; SMpq , se define como: SM (w) 1 pq = (4.10) (w) 1 + αdpq (2) Donde α es una constante, cuanto más alto sea el valor de dpq , la similitud entre ep y eq es mas bajo. Cuando todos los pesos toman valor de 1, la medida de similitud (1) es denotado por SMpq , ∈ [0, 1]. Para cada caracteŕıstica una medida de distancia ha sido definida. La medida de 4.3. RECUPERACIÓN DE CASOS PARA SERIES TEMPORALES 88 distancia para el j-ésimo atributo esta denotado por ρj ; que es , ρj es un mapeo de FjxFja[0,∞] (donde Fj es denotado como el dominio del j-ésimo atributo) con las siguientes propiedades: ρj(a, b) = 0↔ a = b (4.11) ρj(a, b) = ρj(b, a) (4.12) ρj(a, b) ≤ ρj(a, c) + ρj(c, b) (4.13) Se pueden definir otros atributos como la transición diferencial, y otros numéricos generados a partir de los históricos se tiene: ρj(a, b) =| a− b |, a, b ∈ R. (4.14) donde ρj(A,B) = maxa∈A,b∈B | a− b | siAyBsonintervalos. (4.15) Para estos atributos, la distancia entre dos casos ep y eq se calcula por: √√√√∑ndw = w2ρ2 pq j j(epj, eqj) (4.16) j=1 4.3.3. Ponderación v́ıa coeficientes de correlación Según la sección 2.4.4 se ponderan las variables intervinientes en el mecanismo razonador asignándole un peso en función del impacto o influencia de estos en el resul- tado, para ello se puede usar un experimento o técnicas de agrupación a un coeficiente 4.3. RECUPERACIÓN DE CASOS PARA SERIES TEMPORALES 89 de correlación. El mecanismo razonador usa la distancia euclidiana ponderada de la salida del componente estocástico buscado contra los (n+d)−1 dimensiones y ordenes de las series asociadas, el peso de la ponderación es representada por w, el cual es generado por el coeficiente de correlación de Z con las dimensiones y ordenes asoci- adas. En procesos periódicos se puede definir valores que describen la estructura de correlación lineal de un periodo con los periodos anteriores, puede ser de orden 1 con el inmediato anterior, o una correlación de orden 2 que describe la dependencia del periodo m con respecto a los periodos m−2, o generalizando, una correlación de orden k que representa la dependencia del periodo k con respecto al periodo m− k. Cálculo del peso Los valores que puede tomar el coeficiente de correlación r son: −1 < r < 1; si se realiza una ponderación los valores negativos, generación valores inconsistentes, por lo que se usa una escala relativa de fuerza de [0 a 1] El signo indica la dirección de la correlación, positiva o directamente proporcional (a mayor A mayor B o a menor B menor A) y negativa o inversamente proporcional (a menor A mayor B o viceversa). La cifra indica la fuerza de la correlación. Una correlación perfecta tendŕıa una cifra cercana al 1 o -1, mientras que una ausencia de correlación tendŕıa una cifra cercana al 0. El coeficiente se calcula aplica∑ndo la siguiente fórmula: √ 1 n∑∗ ((Xi −Xm) ∗ (Yi∑− Ym)) r = (4.17) ( 1 ∗ (X −X )2) ∗ ( 1 i m ∗ (Yi − Ym)2) n n 4.3. RECUPERACIÓN DE CASOS PARA SERIES TEMPORALES 90 donde el numerador se denomina covarianza y se calcula de la siguiente manera: ∑N ( ) ( ) γ̂m 1 (k)= z(i−1)p+m−µ̂m z(i−1)p+m−k−µ̂m (4.18) N i=1 m(k) ρ̂m γ (k)= (4.19) σ̂mσ̂m−k donde m = 1, . . . , p y p = numero de periodos, en cada par de valores (x, y) se multiplica el valor de x menos su media, multiplicado por el valor de y menos su media. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamaño de la muestra. El denominador se calcula el producto de las varianzas de x y de y, y a este producto se le calcula la ráız cuadrada. 4.3.4. Formulación del nuevo proceso estocástico Concatenando las ecuaciones 4.10, 4.5, 4.8 y usando álgebra relacional para la proyección y selección de los casos sobre la base de casos BC indexada sobre la estruc- tura de acceso métrico; se tiene la descripción matemática de la componente estocástica (CE) para el periodo j del modelo de Proceso Estocástico Basado en Razonamiento Basado en Casos. Es la contribución mas importante de esta tesis. Zj+1 = {(ΠZ(σ (w) ≈ (BC)))}+ α(j) (4.20) SMpz ) 1 donde: Zj Es el componente estocástico en el periodo j. (ΠZA) es la proyección de la salida del mecanismo razonador sobre (σ (w) (BC). SMpz )≈1 4.4. REUTILIZACIÓN Y ADAPTACIÓN DE CASOS 91 (σ ) es la selección de los casos que cumplan el criterio SM (w) B pz ) ≈ 1 SM (w) pq ) ≈ 1 es la función de similitud del caso buscado pq, vea la ecuación 4.10. α(j) es un error aleatorio para el instante que proviene de la distribución de probabilidad de la ventana de similitud. BC es la base de casos de trabajo, vea la ecuación 4.5. Extendiendo la expresión se tiene Qj+1 = {(Π(Q(σa(B(C[)))}+ α(j) ] )) (4.21) ( ∑n 1/2 ) a = 1/ 1 + α w2 j (xpj − xqj )2 ≈ 1 (4.22) j=1 la obtención del α(j) se explica en la sección Adaptación de casos. 4.4. Reutilización y adaptación de casos La adaptación, en el contexto del RBC, se usa para corregir el error de la solución; en la propuesta se estudiara inversamente, es decir para generar un error, esto confiere al proceso la caracteŕıstica estocástica deseada. 4.4. REUTILIZACIÓN Y ADAPTACIÓN DE CASOS 92 Figura 4.5: Adaptación de casos con error aleatorio 4.4.1. Componente aleatorio La adaptación de casos transforma la salida del razonador en un componente es- tocástico, basado en la propuesta de (Awchi y cols., 2009) se propone la reutilización del componente aleatorio heredado del modelo de Thomas Fiering; Basado en el trabajo de (Campos, 2010), se sugiere también agregar un error aleatorio, que proviene de una distribución de probabilidad , asociada a las distancias del valor determińıstico contra los registros históricos, todo ello bajo un umbral de búsqueda, ambas propuestas son aceptables, se debe estudiar su comportamiento para evaluar su aplicación, registros densos pueden sugerir usar un componente a partir de las distancias. 4.5. RETENCIÓN 93 Figura 4.6: Umbral de 10 % para la generación de la distribución de probabilidad Umbrales El modelo usa un umbral para la generación de la distribución de probabilidad, después que el componente determińıstico propone un valor por similitud, se analizan los cercanos bajo el umbral de búsqueda para producir el componente aleatorio, vea en la Figura 4.6, si se usa un umbral de 100 el modelo se comportara similar a Thomas Fiering y la Figura 4.7, el umbral es determinado por la fuerza de la similitud, valores muy similares generarán un umbral pequeño; si la similaridad es cercana a 0 el umbral es el rango. 4.5. Retención 4.5.1. Encadenamiento de Componentes Estocásticas Puesto que se propone un Modelo de Proceso Estocástico genérico, es necesario encadenar los términos de las serie que son simulados. La Figura 4.8 muestra de forma genérica el encadenamiento de los componentes estocásticos del proceso estocástico a 4.6. CONSIDERACIONES FINALES 94 Figura 4.7: Umbral de 100 % para la generación de la distribución de probabilidad partir de RBC en un determinado tiempo t, si el encadenamiento es exitoso se procede a la retención de los valores y la generación del proceso estocástico para todos los periodos. 4.5.2. Generación de escenarios Finalmente, basado en la propuesta de (Campos, 2010) para la generación de esce- narios, se concatenan las salidas de los componentes estocásticos de cada periodo, la union de todos estos componentes se le llama ((Realización estocástica)) o serie temporal generada, vea la Figura 4.9. 4.6. Consideraciones Finales Luego de evaluar los modelos auto regresivos periódicos y ensayar una extensión con RBC, se espera evaluar todas las estrategias abordadas por la técnica para la generación de series temporales en un Proceso Estocástico y recuperar los componentes ocultos, se continuará con el análisis residual para incorporar la componente estocástica formal, y 4.6. CONSIDERACIONES FINALES 95 Figura 4.8: Encadenamiento entre las entradas/salidas de las Componentes Estocásticas del Proceso Estocástico a partir de Razonamiento Basado en Casos 4.6. CONSIDERACIONES FINALES 96 Figura 4.9: Generación de un escenario del Procesos estocástico, a partir de los com- ponentes estocásticos. 4.6. CONSIDERACIONES FINALES 97 la evaluación de los métodos de acceso métrico; a continuación se hará una exploración de otras técnicas para ajustar el modelo propuesto, y finalmente se probará en la generación de caudales sintéticos del caso de estudio. Caṕıtulo 5 Estudio de Caso La evaluación del modelo aplica la generación de variables hidrometeorológicas (Caudales, Evaporación, Precipitación) en la cuenca del Chili, se escogieron tres esta- ciones de medición: el Pañe, Aguada blanca y el Frayle, se estudiaron periodos men- suales. Los modelos de comparación utilizados son el Modelo de Thomas Fiering y el Modelo Estocástico Neuronal de Luciana. los parámetros utilizados para evaluar a nivel mensual son la media, desviación estándar, el coeficiente de asimetŕıa, máximos y mı́nimos. A continuación se presenta la caracterización de la cuenca, el contexto de aplicación, los experimentos y finalmente la discusión de los resultados. 5.1. Caracterización del área de estudio La cuenca del ŕıo Chili se encuentra ubicada al sur del Perú, y su ámbito está com- prendido entre las coordenadas geográficas siguientes: 15◦37′ y 16◦47′ de Latitud Sur. 70◦49′ y 72◦26′ de Longitud Oeste. 98 5.1. CARACTERIZACIÓN DEL ÁREA DE ESTUDIO 99 Poĺıticamente, se encuentra en la región de Arequipa, abarcando las provincias de Arequipa, Caylloma y Camaná, y algunos pequeños sectores ubicados en las regiones de Puno, Cusco y Moquegua. El área de la cuenca, hasta su desembocadura en el Océano Paćıfico y sin incluir la sub cuenca del Rı́o Siguas, es de 12,542 km2 . Sus altitudes vaŕıan de los 0 a 6,056 msnm. A continuación, se describe la climatoloǵıa de las zonas geográficas donde se ubican las estaciones de medición tomadas en consideración para realizar las pruebas en esta investigación y las caracteŕısticas de éstas (Ver Figura 5.1). 5.1.1. Estaciones de medición El Pañe Ubicada en la sub-cuenca El Pañe, que está localizada en el extremo norte de la cuenca del ŕıo Chili, está sobre los 4 585 m.s.n.m. presenta un clima húmedo (tropi- cal). Tiene una extensión de 198 Km2, una precipitación media diaria de 2.21 mm/d, la evapotranspiración promedio es de 4 mm/d y el caudal medio diario es de 2.66 m3/s. La estación El Pañe, cuenta con una estación climatológica y limnimétrica. Real- izando mediciones desde 1950, hasta 1964 las descargas naturales de las lagunas de El Pañe. A partir de 1965, hasta la fecha, en que la presa El Pañe entró en funcionamiento, la estación mide las descargas reguladas, con cortos periodos de interrupción a media- dos de la década de los 70. Actualmente, la estación llamada también Oscollo, que es operada por AUTODE- MA, está ubicada en el inicio del canal de derivación Pañe-Bamputañe, aproximada- mente a unos 100 m de la presa. La sección del canal en este lugar es rectangular, con 5.1. CARACTERIZACIÓN DEL ÁREA DE ESTUDIO 100 Figura 5.1: Localización de las estaciones de medición consideradas para la investi- gación. 5.1. CARACTERIZACIÓN DEL ÁREA DE ESTUDIO 101 paredes de concreto de 2.00 m de alto y piso de concreto; su ancho es de 2.70 m y tiene una mira de 2.00 m de alto, ubicada en su margen izquierda (Oviedo T., Umeres R., Franco R., Vı́lchez, y Butrón, 2001) (Oviedo Tejada, 2004). Estación El Frayle Ubicada en la sub-cuenca El Fraile, que abarca desde el nacimiento de los ŕıos Ya- manayo, Collpamayo, Paltimayo, Cancusane, Pasto Grande (entre otros ŕıos menores); hasta el ŕıo Blanco (que nace de la confluencia de los ŕıos ya mencionados) presentando un área de drenaje de 1041 Km2 y finaliza en el embalse El Fraile ubicado sobre el ŕıo Blanco a una altitud media de 4000 m.s.n.m., regulando los recursos h́ıdricos. Teniendo una precipitación media anual de 386 mm, un caudal medio anual de 3.32 m3/s La estación El Frayle, cuenta con una estación climatológica y limnimétrica. Real- izó mediciones durante desde 1953 hasta 1957 de las descargas naturales de El Frayle, luego, dejó de operar, y desde 1964 hasta la fecha, mide las descargas reguladas del reservorio El Frayle, cuya construcción finalizó en 1959 y entró en funcionamiento en 1964. Esta estación de aforos, mide las descargas reguladas por el embalse El Frayle y se encuentra ubicada en el cauce del ŕıo Blanco, aproximadamente a unos 50.00 m aguas abajo, del lugar en que ingresan, las filtraciones se ocurren en la represa lateral conocida como Dique de Bloques (Oviedo T. y cols., 2001) (Oviedo Tejada, 2004). Estación Aguada Blanca Ubicada en la subcuenca mismo nombre, que presenta una climatoloǵıa semiárida. La estación Aguada Blanca, hasta antes de 1989 med́ıa las descargas reguladas y no reguladas del embalse Aguada Blanca. Desde 1989, las descargas reguladas del embalse se miden en la Central Hidroeléctrica de Charcani V. Desde 1989, la estación mide la 5.2. CONTEXTO DEL CASO DE ESTUDIO 102 suma de derrames que se producen en el aliviadero Morning Glory y las descargas que se efectúan por la compuerta de regulación. Consecuentemente, desde 1989, las salidas totales del embalse Aguada Blanca, son la suma de lo que mide la estación Aguada Blanca (ó mas precisamente, la estimación que se hace de las salidas por la compuerta de regulación, y los caudales que se obtienen del limńıgrafo ubicado en la cresta del vertedero) mas el caudal turbinado por la Central Hidroeléctrica. Cuenta con una estación climatológica y limnimétrica (Oviedo T. y cols., 2001) (Oviedo Tejada, 2004). 5.2. Contexto del caso de estudio La generación de series temporales se da en el contexto de una arquitectura para la planificación de Recursos Hı́dricos, vinculada a un Sistema de Soporte de Decisiones, las salidas del Nuevo Proceso Estocástico son probadas en el Generador de escenarios. 5.2.1. Generador de escenarios Dentro del caso de estudio se enmarca el generador de escenarios de series temporales (GST), este permite encontrar posibles series de datos (precipitación y evaporación) para simulaciones a futuro, que permitirán proyectar posibles escenarios de condiciones climáticas y de demanda de agua; son usadas técnicas matemáticas (estad́ısticas, es- tocásticas), inteligentes (redes neuronales) y complementariamente la propuesta para la generación de estos registros. Se puede ver el flujo de datos en la Figura 5.2, Alĺı se toman los registros históricos de la cuenca, luego son almacenados en la base de datos y mediante el uso de modelos matemáticos (estad́ısticos o estocásticos), inteligentes (redes neuronales), y la prop- uesta; se generan datos sintéticos, que luego son almacenados en una base de datos: 5.3. FORMULACIÓN DEL RBC 103 Figura 5.2: Arquitectura del sistema de planificación que incluye la generación es- tocástica de escenarios “BD Series Generadas”, que pueden ser usados para la generación de los diferentes escenarios climatológicos. 5.3. Formulación del RBC Para el casos de estudio se debe formular la entidad caso, para ello se relaciona los atributos precipitación, evaporación y caudales de una estación, vea la Figura 5.3: Registro de Caso Serie Temporal. Se propone un diseño de esquema para la Base de Casos: e = {T,XY,E,E1, E2, Q,Q1, Q2, P, P1, P2} (5.1) donde: 5.3. FORMULACIÓN DEL RBC 104 e : es el esquema de los casos T : es la referencia temporal para mes=(modulo(RT, 12)) y año=(RT ) XY : es la geo-referencia del dato registrado E : Evaporación E1 : Evaporación con un retraso E2 : Evaporación con dos retrasos Q : Caudal Q1 : Caudal con un retraso Q2 : Caudal con dos retrasos P : Precipitación P1 : Precipitación con un retraso P2 : Precipitación con dos retrasos El orden del razonador es 2. las dimensiones son 5, se debe resaltar que si las dimensiones tienden a infinito, el umbral de búsqueda sera cercano a 1 y el modelo se convertirá en determińıstico, pudiendo ser usado en tareas de pronóstico. 5.3. FORMULACIÓN DEL RBC 105 Figura 5.3: Registro de Caso Serie Temporal 5.4. EXPERIMENTOS 106 5.4. Experimentos 5.4.1. Procesos Estocástico de Thomas-Fiering Los valores generados por el modelo estocástico Neuronal de TF 3.1 corresponden a las variables hidrometeorológicas: Caudales, Evaporación y Precipitación, el área de estudio es la cuenca del rio Chili, las estaciones de medición son El Pañe, Aguada blanca y el Frayle, se generan 100 realizaciones en periodos mensuales, el año de pronostico es el el año 2000, finalmente los registros históricos corresponden al periodo de 1970 a 1999. En la figura 5.4 muestra los caudales, precipitaciones, evaporaciones y la compara- ción de las medias de los datos observados de la subcuenca de Aguada Blanca. En la figura 5.5 muestra los caudales, precipitaciones, evaporaciones y la compara- ción de las medias de los datos observados de la subcuenca del Frayle. En la figura 5.6 muestra los caudales, precipitaciones, evaporaciones y la compara- ción de las medias de los datos observados de la subcuenca del Pañe. 5.4. EXPERIMENTOS 107 ThomasFieringcaudal ThomasFieringcaudal 120 60 escenarios media real 100 50 80 40 60 30 40 20 20 10 0 −20 0 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (a) Series temporales de caudal (b) Series temporales de caudal media ThomasFieringevaporacion ThomasFieringevaporacion 260 220 escenarios media real 240 200 220 180 200 160 180 140 160 120 140 100 120 80 100 80 60 60 40 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (c) Series temporales de evaporación (d) Series temporales de evaporación media ThomasFieringprecipitacion ThomasFieringprecipitacion 250 140 escenarios media real 120 200 100 150 80 100 60 50 40 0 20 −50 0 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (e) Series temporales de precipitación (f) Series temporales de precipitación media Figura 5.4: Series generadas por el modelo Thomas Fiering, data histórica de Aguada Blanca : años 1970-1999, data sintetizada: 2000. precipitacion evaporacion caudal precipitacion evaporacion caudal 5.4. EXPERIMENTOS 108 ThomasFieringcaudal ThomasFieringcaudal 35 20 escenarios media real 18 30 16 25 14 12 20 10 15 8 10 6 4 5 2 0 0 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (a) Series temporales de caudal (b) Series temporales de caudal media ThomasFieringevaporacion ThomasFieringevaporacion 280 240 escenarios media real 260 220 240 200 220 180 200 160 180 140 160 120 140 120 100 100 80 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (c) Series temporales de evaporación (d) Series temporales de evaporación media ThomasFieringprecipitacion ThomasFieringprecipitacion 250 140 escenarios media real 120 200 100 150 80 60 100 40 50 20 0 0 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (e) Series temporales de precipitación (f) Series temporales de precipitación media Figura 5.5: Series generadas por el modelo Thomas Fiering, data histórica del Frayle : años 1970-1999, data sintetizada: 2000. precipitacion evaporacion caudal precipitacion evaporacion caudal 5.4. EXPERIMENTOS 109 ThomasFieringcaudal ThomasFieringcaudal 25 20 escenarios media real 18 20 16 14 15 12 10 10 8 6 5 4 2 0 0 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (a) Series temporales de caudal (b) Series temporales de caudal media ThomasFieringevaporacion ThomasFieringevaporacion 220 180 escenarios media real 200 160 180 140 160 140 120 120 100 100 80 80 60 60 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (c) Series temporales de evaporación (d) Series temporales de evaporación media ThomasFieringprecipitacion ThomasFieringprecipitacion 450 250 escenarios media real 400 200 350 300 150 250 200 100 150 100 50 50 0 0 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (e) Series temporales de precipitación (f) Series temporales de precipitación media Figura 5.6: Series generadas por el modelo Thomas Fiering, data histórica del Pañe : años 1970-1999, data sintetizada: 2000. precipitacion evaporacion caudal precipitacion evaporacion caudal 5.4. EXPERIMENTOS 110 5.4.2. Proceso Estocástico Neuronal (PEN) Los valores generados por el modelo estocástico Neuronal (PEN) de Luciana (Campos, 2010) corresponden a las variables hidrometeorológicas: Caudales, Evaporación y Pre- cipitación, el área de estudio es la cuenca del rio Chili, las estaciones de medición son El Pañe, Aguada blanca y el Frayle, se generan 100 realizaciones en periodos mensuales, el año de pronostico es el el año 2000, finalmente los registros históricos corresponden al periodo de 1970 a 1999. En la figura 5.7 muestra los caudales, precipitaciones, evaporaciones y la compara- ción de las medias de los datos observados de la subcuenca de Aguada Blanca. En la figura 5.8 muestra los caudales, precipitaciones, evaporaciones y la compara- ción de las medias de los datos observados de la subcuenca del Frayle. En la figura 5.9 muestra los caudales, precipitaciones, evaporaciones y la compara- ción de las medias de los datos observados de la subcuenca del Pañe. 5.4. EXPERIMENTOS 111 PENcaudal PENcaudal 140 30 escenarios media real 120 25 100 20 80 15 60 10 40 5 20 0 0 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (a) Series temporales de caudal (b) Series temporales de caudal media PENevaporacion PENevaporacion 300 220 escenarios media real 200 250 180 160 200 140 120 150 100 80 100 60 50 40 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (c) Series temporales de evaporación (d) Series temporales de evaporación media PENprecipitacion PENprecipitacion 350 120 escenarios media real 300 100 250 80 200 60 150 40 100 20 50 0 0 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (e) Series temporales de precipitación (f) Series temporales de precipitación media Figura 5.7: Series generadas por el modelo PEN, data histórica de Aguada Blanca: años 1970-1999, data sintetizada: 2000. precipitacion evaporacion caudal precipitacion evaporacion caudal 5.4. EXPERIMENTOS 112 PENcaudal PENcaudal 25 18 escenarios media real 16 20 14 12 15 10 8 10 6 4 5 2 0 0 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (a) Series temporales de caudal (b) Series temporales de caudal media PENevaporacion PENevaporacion 350 220 escenarios media real 200 300 180 250 160 200 140 150 120 100 100 50 80 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (c) Series temporales de evaporación (d) Series temporales de evaporación media PENprecipitacion PENprecipitacion 300 100 escenarios media real 90 250 80 70 200 60 150 50 40 100 30 20 50 10 0 0 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (e) Series temporales de precipitación (f) Series temporales de precipitación media Figura 5.8: Series generadas por el modelo PEN, data histórica del Frayle: años 1970- 1999, data sintetizada: 2000. precipitacion evaporacion caudal precipitacion evaporacion caudal 5.4. EXPERIMENTOS 113 PENcaudal PENcaudal 35 20 escenarios media real 18 30 16 25 14 12 20 10 15 8 10 6 4 5 2 0 0 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (a) Series temporales de caudal (b) Series temporales de caudal media PENevaporacion PENevaporacion 220 180 escenarios media real 200 160 180 160 140 140 120 120 100 100 80 60 80 40 20 60 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (c) Series temporales de evaporación (d) Series temporales de evaporación media PENprecipitacion PENprecipitacion 400 250 escenarios media real 350 200 300 250 150 200 100 150 100 50 50 0 0 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (e) Series temporales de precipitación (f) Series temporales de precipitación media Figura 5.9: Series generadas por el modelo PEN, data histórica del Pañe: años 1970- 1999, data sintetizada: 2000. precipitacion evaporacion caudal precipitacion evaporacion caudal 5.4. EXPERIMENTOS 114 5.4.3. Proceso Estocástico a partir de Razonamiento Basado en Casos Los valores generados por la propuesta, el modelo estocástico a partir de Razon- amiento Basado en Casos, corresponden a las variables hidrometeorológicas: Caudales, Evaporación y Precipitación, el área de estudio es la cuenca del rio Chili, las estaciones de medición son El Pañe, Aguada blanca y el Frayle, se generan 100 realizaciones en periodos mensuales, el año de pronostico es el el año 2000, finalmente los registros históricos corresponden al periodo de 1970 a 1999. En la figura 5.10 muestra los caudales, precipitaciones, evaporaciones y la compara- ción de las medias de los datos observados de la subcuenca de Aguada Blanca. En la figura 5.11 muestra los caudales, precipitaciones, evaporaciones y la compara- ción de las medias de los datos observados de la subcuenca del Frayle. En la figura 5.12 muestra los caudales, precipitaciones, evaporaciones y la compara- ción de las medias de los datos observados de la subcuenca del Pañe. 5.4. EXPERIMENTOS 115 PERBCcaudal PERBCcaudal 100 70 escenarios media real 90 60 80 70 50 60 40 50 30 40 30 20 20 10 10 0 0 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (a) Series temporales de caudal (b) Series temporales de caudal media PERBCevaporacion PERBCevaporacion 220 220 escenarios media real 200 200 180 180 160 160 140 140 120 120 100 100 80 80 60 60 40 40 20 20 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (c) Series temporales de evaporación (d) Series temporales de evaporación media PERBCprecipitacion PERBCprecipitacion 300 200 escenarios media real 180 250 160 140 200 120 150 100 80 100 60 40 50 20 0 0 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (e) Series temporales de precipitación (f) Series temporales de precipitación media Figura 5.10: Series generadas por el modelo PERBC, data histórica de Aguada Blanca : años 1970-1999, data sintetizada: 2000. precipitacion evaporacion caudal precipitacion evaporacion caudal 5.4. EXPERIMENTOS 116 PERBCcaudal PERBCcaudal 30 20 escenarios media real 18 25 16 14 20 12 15 10 8 10 6 4 5 2 0 0 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (a) Series temporales de caudal (b) Series temporales de caudal media PERBCevaporacion PERBCevaporacion 250 220 escenarios media real 200 180 200 160 140 150 120 100 100 80 60 50 40 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (c) Series temporales de evaporación (d) Series temporales de evaporación media PERBCprecipitacion PERBCprecipitacion 250 160 escenarios media real 140 200 120 100 150 80 100 60 40 50 20 0 0 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (e) Series temporales de precipitación (f) Series temporales de precipitación media Figura 5.11: Series generadas por el modelo PERBC, data histórica del Frayle : años 1970-1999, data sintetizada: 2000. precipitacion evaporacion caudal precipitacion evaporacion caudal 5.4. EXPERIMENTOS 117 PERBCcaudal PERBCcaudal 12 20 escenarios media real 18 10 16 14 8 12 6 10 8 4 6 4 2 2 0 0 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (a) Series temporales de caudal (b) Series temporales de caudal media PERBCevaporacion PERBCevaporacion 180 180 escenarios media real 160 160 140 140 120 120 100 100 80 80 60 60 40 20 40 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (c) Series temporales de evaporación (d) Series temporales de evaporación media PERBCprecipitacion PERBCprecipitacion 600 350 escenarios media real 300 500 250 400 200 300 150 200 100 100 50 0 0 0 2 4 6 8 10 12 0 2 4 6 8 10 12 mes mes (e) Series temporales de precipitación (f) Series temporales de precipitación media Figura 5.12: Series generadas por el modelo PERBC, data histórica del Pañe : años 1970-1999, data sintetizada: 2000. precipitacion evaporacion caudal precipitacion evaporacion caudal 5.5. ANALISIS DE RESULTADOS 118 5.5. Analisis de resultados 5.5.1. Estimadores de primer orden Un análisis detallado de la media: Cuadro 5.1, desviación estándar: Cuadro 5.2 y la asimetŕıa: Cuadro 5.3 para todos los experimentos de los modelos TF, PEN y PERBC muestran que se conservan satisfactoriamente las caracteŕısticas de la serie histórica, sin embargo se ven generaciones leptocúrticas para el modelo PERBC (el propuesto) respecto a sus similares, incluso la serie histórica, esto se debe por las multidimensionalidad de la propuesta, el modelo ajusta los pronósticos y reduce la incertidumbre, una propiedad del RBC (Pal y Shiu, 2004; Loucks y cols., 2005). Media Hist TF PEN PERBC Estacion Variable Pañe Caudal 2.6698 4.2776 2.5228 1.8015 Evaporación 115.5414 130.6950 116.2029 113.8477 Precipitación 62.9222 94.6741 64.4482 113.7261 Frayle Caudal 2.9951 5.4106 2.4860 4.3828 Evaporación 161.0736 175.4696 154.8506 146.2414 Precipitación 25.1347 35.8219 24.1087 39.6004 Aguada Blanca Caudal 7.7259 12.9597 8.2448 14.5204 Evaporación 144.8400 172.4811 149.1352 132.1097 Precipitación 23.4403 42.1531 23.8099 34.4451 Cuadro 5.1: Comparación anualizada de Medias para el Caudal, Evaporación, Pre- cipitación de la serie Histórica (Hist), el modelo de Thomas Fiering (TF) el modelo Estocástico Neuronal (PEN) y la propuesta (PERBC) 5.5. ANALISIS DE RESULTADOS 119 Desviación Estándar Hist TF PEN PERBC Estacion Variable Pañe Caudal 1.2905 0.7628 1.5330 0.3990 Evaporación 5.6919 3.8721 5.9567 2.1740 Precipitación 19.7444 8.4634 15.7573 11.8989 Frayle Caudal 2.2584 1.5651 1.2745 1.1454 Evaporación 4.9789 3.8990 6.3512 2.5545 Precipitación 10.8996 9.1974 13.3485 8.8962 Aguada Blanca Caudal 6.7306 3.2589 6.1120 3.1942 Evaporación 6.4658 5.5242 7.8475 2.5269 Precipitación 14.4746 9.6855 15.3894 10.2891 Cuadro 5.2: Comparación anualizada de la Desviación Estándar para el Caudal, Evaporación, Precipitación de la serie Histórica (Hist), el modelo de Thomas Fiering (TF) el modelo Estocástico Neuronal (PEN) y la propuesta (PERBC) Asimetŕıa Hist TF PEN PERBC Estacion Variable Pañe Caudal 0.1036 0.3775 0.2683 0.1818 Evaporación 0.3662 -0.1889 -0.1015 0.116 Precipitación 1.8423 0.1232 0.1510 0.5295 Frayle Caudal -0.7527 0.1723 -0.0386 -0.0838 Evaporación 0.2947 -0.0942 0.2497 -0.0108 Precipitación 0.0029 0.2603 0.5279 0.3729 Aguada Blanca Caudal -0.3793 0.0018 0.0449 0.8721 Evaporación -1.1077 -1.2389 0.0209 -0.4597 Precipitación 0.1656 0.5924 0.3319 -0.3132 Cuadro 5.3: Comparación anualizada de la Asimetŕıa para el Caudal, Evaporación, Precipitación de la serie Histórica (Hist), el modelo de Thomas Fiering (TF) el modelo Estocástico Neuronal (PEN) y la propuesta (PERBC) 5.5. ANALISIS DE RESULTADOS 120 5.5.2. Máximos y mı́nimos Los eventos máximos y mı́nimos fueron reproducidos satisfactoriamente, PERBC genera mı́nimos extremos; el Cuadro 5.5.2 muestra el comportamiento de los mı́nimos sobre las precipitaciones del Pañe, Frayle y Aguada Blanca observándose que el modelo PERBC consigue generar mı́nimos 0, lo cual representan a la serie histórica (TF y PEN tienen valores aproximados), esto permite inferir un buen desempeño para generar series que contemplen seqúıas del modelo PERBC sobre el TF y el PEN. 5.5.3. MSE y RMSE El Error Medio Cuadrático (MSE) y la Ráız del Error Medio Cuadrático (RMSE), permiten una comparación sobre el error medio de las las generaciones sobre el valor observado. Luego de analizar el MSE y el RMSE para (TF), el Proceso Estocástico Neuronal (PEN) y el Proceso Estocástico Basado en Casos (PERBC) se puede ob- servar en los Cuadros 5.5, 5.6 que todos los modelos son malos predictores, esto se debe directamente al componente aleatorio agregado; sin embargo, en varios casos, el PERBC presenta una ligera ventaja sobre los otros (vea caudal y precipitación en el Pañe, y todas en Aguada Blanca), esto se debe a su naturaleza multidimensional que finalmente genera series temporales leptocúrticas; el PEN también tiene ventajas sobre TF. 5.5. ANALISIS DE RESULTADOS 121 Cuadro 5.4: Comparación anualizada de los Máximos y mı́nimos para el Caudal, Evaporación, Precipitación de la serie Histórica (Hist), el modelo de Thomas Fiering (TF) el modelo Estocástico Neuronal (PEN) y la propuesta (PERBC) Maximos Minimos Hist TF PEN PERBC Hist TF PEN PERBC Estacion Variable Pañe Caudal 20.0480 21.5023 30.6604 11.5438 0.0030 0.5233 0.0016 0.0550 Evaporación 195.0000 213.7827 213.3103 166.9922 55.0000 69.0000 38.1141 34.7000 Precipitación 331.3000 410.4703 383.6119 516.2470 0 2.7337 0.0010 0 Frayle Caudal 32.2200 32.0925 23.0862 28.6761 0.0390 1.2670 0.0381 0.1950 Evaporación 246.0000 274.0724 305.8154 241.7700 87.5000 118.2000 75.1152 50.5215 Precipitación 210.4000 247.4411 288.4087 219.2043 0 1.6128 0.0010 0 Aguada Blanca Caudal 105.1480 91.2014 129.6086 95.5330 1.3410 -6.8586 0.1044 1.0900 Evaporación 240.0000 244.1905 269.6172 212.2295 72.0000 60.8776 59.4493 27.0500 Precipitación 240.3000 253.4967 348.6200 275.0995 0 -39.806 0.0013 0 5.5. ANALISIS DE RESULTADOS 122 TF PEN PERBC Estacion Variable Pañe Caudal 6.6861 11.6363 6.2 Evaporación 968.6778 554.3066 869.1 Precipitación 1453.9 889.9396 643.1 Frayle Caudal 9.1 9.8539 10.9 Evaporación 1224.1 439.8503 1180.3 Precipitación 345.6 242.5547 561.7 Aguada Blanca Caudal 62.2868 4.3 19.2 Evaporación 2412.4 1611.3 2127.7 Precipitación 1209 224.9 811.9 Cuadro 5.5: Error Medio Cuadrático TF PEN PERBC Estacion Variable Pañe Caudal 2.5857 3.4112 2.4900 Evaporación 31.1236 23.5437 29.4805 Precipitación 38.1295 29.8319 25.3594 Frayle Caudal 3.0118 3.1391 3.3015 Evaporación 34.9867 20.9726 34.3555 Precipitación 18.5898 15.5742 23.7002 Aguada Blanca Caudal 7.8922 2.0821 4.3818 Evaporación 49.1167 40.1414 46.1270 Precipitación 34.7712 14.9969 28.4939 Cuadro 5.6: Ráız del Error Medio Cuadrático Caṕıtulo 6 Conclusiones y trabajo futuro 6.1. General El uso del Razonamiento Basado en Casos para la formulación de un nuevo modelo de Proceso Estocástico para la generación de series temporales, genera razonablemente realizaciones que muestran información que TF y PEN aproximan, particularmente para el caso de valores mı́nimos extremos, Luego el uso de casos multidimensionales y de grados superiores genera series leptocúrticas, lo que en ciertos casos no reproduce las caracteŕısticas de la serie histórica, pero que reduce la incertidumbre. Computa- cionalmente una estructura de datos de acceso secuencial permite la indexación en memoria de todos los casos facilitando las tareas de búsqueda de datos y relaciones ocultas; finalmente, gracias a la aplicación del Álgebra Relacional y sus operadores de Proyección y Selección, junto a la medida de similaridad como restricción de búsque- da, permite proponer un modelo, genérico, que puede ser implementado en una amplia variedad de Lenguajes de Programación y Bases de Datos con soporte a búsqueda mul- tidimensional; que finalmente, puede ser aplicado en una amplia gama de fenómenos de persistencia observable, de comportamiento estocástico no lineal. 123 6.2. ESPECÍFICAS 124 6.2. Espećıficas 1. Se ha descrito teóricamente los procesos estocásticos, conceptos de variable aleato- ria, modelos lineales ARMA, PARMA, se ha visto la importancia del ruido blanco como un bloque que describe un Proceso Estocástico básico; Luego la definición de series temporales y algunos estimadores usados para describirlos. 2. Se ha presentado los modelos usados en la literatura para la generación de se- ries temporales asociadas a variables climatológicas, el modelo lineal de Thomas Fiering, luego un modelo basado en redes neuronales propuesto por Luciana Con- ceicao Campos, que trabaja sin información a priori y que no requieren una for- mulación compleja, se evidenciaron las limitaciones sobre la aplicabilidad de las propuestas para caracterizar información oculta. Luego se presentaron los traba- jos Maria Malek, Ning Xiong, Pei-Chann Chang, donde se muestra la capacidad del Razonamiento Basado en Casos para descubrir información oculta, sobre se- ries temporales y tareas de pronóstico. 3. Se ha detallado y descrito, significativamente, el Razonamiento Basado en Ca- sos, mostrando su capacidad para trabajar con múltiples dimensiones y grados de información, registrando de manera formal información y relaciones ocultas, finalmente se discutió su aplicabilidad en la generación de series temporales es- tocásticas. 4. Se ha logrado formular un nuevo modelo llamándose ((Modelo Estocástico a partir de Razonamiento Basado en Casos para la Generación de Series Temporales)) (PERBC), siendo un modelo genérico que puede ser implementado en una amplia gama de fenómenos no lineales de comportamiento estocástico; con la capacidad de manejar todos los casos incorporados a la memoria; Auto-regresivo, en series temporales que presenten un fenómeno de persistencia observable. 6.2. ESPECÍFICAS 125 5. Se Aplicó el modelo propuesto (PERBC) en la generación de series temporales para la generación de escenarios en la Cuenca del Rio Chili, en las estaciones de El Pañe, Aguada Blanca, El Frayle, para las variables hidrometeorológicas: Caudal, Evaporación y Precipitación. los resultados muestran que el modelo , en algunos casos tiene una baja capacidad para reproducir las caracteŕısticas generales de la serie observada, lo cual es generado aceptablemente por el modelo TF y el PEN, sin embargo en la mayoŕıa de los casos logra mostrar eventos extremos, lo que evidencia su habilidad para mostrar detalles ocultos que los modelos TF y PEN no logran. 6. Un análisis detallado de la media, Cuadro 5.1; desviación estándar, Cuadro 5.2 y la asimetŕıa, Cuadro 5.3 para todos los experimentos de los modelos TF, PEN muestran que conservan satisfactoriamente las caracteŕısticas de la serie histórica, Sin embargo se observan generaciones leptocúrticas para el modelo PERBC (el propuesto) respecto a sus similares (vea la desviación estándar), no siendo tan descriptivo como los otros, ahora bien se puede concluir que el modelo ajusta los pronósticos y reduce significativamente la incertidumbre, una propiedad del RBC por su manejo multidimensional (Pal y Shiu, 2004; Loucks y cols., 2005). Los eventos máximos y mı́nimos fueron reproducidos satisfactoriamente, PERBC genera mı́nimos extremos, en el Cuadro 5.5.2 el comportamiento de los mı́nimos sobre las precipitaciones del Pañe, Frayle y Aguada Blanca representan a la serie histórica (el modelo PERBC consigue generar mı́nimos 0); TF y PEN tienen val- ores aproximados, para los máximos TF y PEN son mas generosos que PERBC; sin embargo en lineas generales se puede inferir un mejor desempeño para generar series que contemplen valores extremos (seqúıas) del modelo PERBC sobre el TF y el PEN. 6.2. ESPECÍFICAS 126 Figura 6.1: a) Modelos Autoregresivos VS b) Proceso Estocástico Neural VS c) Proceso Estocástico RBC (Propuesta). 6.3. VENTAJAS DEL MODELO 127 6.3. Ventajas del modelo Como se muestra en el análisis de resultados el modelo PERBC tiene la habilidad de descubrir caracteŕısticas ocultas y reproducirlas en la generación de series tem- porales, particularmente los mı́nimos extremos, y algunos máximos; los modelos TF y PEN reproducen aproximaciones. El formularlo de manera genérica permite incluir mas dimensiones y grados, considere por ejemplo incluir una dimensión espacial, datos georeferenciados de imágenes satelitales, fenómenos paralelos en otras ubicaciones geográficas pero de similares caracteŕısticas, el modelado de fenómenos de otros áreas distintas a las presentadas en la Tesis. Adicionalmente, es un modelo que no requiere una formulación a priori, ni tareas de aprendizaje, el uso del ciclo de vida del RBC lo hacen relativamente au- tomático, vea la Figura 6.1. El Álgebra Relacional mejora la expresividad matemática de la propuesta, com- putacionalmente es un beneficio relativo ya que, siendo una expresión matemática, es factible de ser implementado en diferentes lenguajes informáticos, con difer- entes estructuras de indexación multidimensional Es una contribución complementaria en el área de representación planificación, desarrollo, administración, de muchos sistemas reales; vinculados a fenómenos hidrometeorológicos, financieros, biológicos y f́ısicos. 6.4. Desventajas del modelo Tiene generaciones leptocurticas, en algunos casos no representan a la serie histórica. 6.5. CONTRIBUCIONES 128 El uso de la memoria de todos los casos para la generación de las Series Tem- porales genera una dependencia a los métodos de acceso métrico; sino se usa, su desempeño es bajo para grandes volúmenes de información, considere el caso de incluir series temporales de imágenes. Existen modelos que tratan información extrema, véase los modelos de Régimen Extremo, se debe notar que un dato oculto no necesariamente siempre es extremo, luego el modelo no siempre encuentra datos extremos máximos. 6.5. Contribuciones Se puede usar el nuevo modelo PERBC como complemento en las tareas de análi- sis de escenarios junto a los modelos tradicionales, el modelo se destaca por la habilidad de incluir caracteŕısticas ocultas (ejemplo: datos extremos) en las re- alizaciones, lo que permite evaluar eventos extremos (seqúıas, heladas, lluvias torrenciales) esto permitirá a un tomador de decisión desarrollar acciones técni- cas de previsión, que finalmente puedan evitar pérdidas económicas y sociales (Construcción de defensas rivereñas para evitar inundaciones, implantación de poĺıticas de consumo de agua para mejorar la disponibilidad del recurso h́ıdrico, ajustando el impacto del evento sobre el área vulnerable correspondiente) La propuesta se clasifica como un modelo estocástico periódico auto-regresivo genérico. 6.6. Trabajo futuro 1. Es conocido que los estad́ısticos de primer orden (media, varianza, desviación t́ıpica) no contienen información suficiente para capturar detalles ocultos sobre los datos; por lo que se recomienda extender el modelo para trabajar con estad́ısticos 6.7. REFLEXIONES FINALES 129 de orden superior, considerando la existencia de investigaciones recientes en esta área (de la Rosa, Agüera-Pérez, Palomares-Salas, Sierra-Fernández, y Moreno- Muñoz, 2012). 2. La propuesta fue implementada sobre el lenguaje M, un lenguaje interpretado; para justificar plenamente el uso de la memoria plana sobre los registros alma- cenados es recomendable la implementación sobre un lenguaje compilado, este trabajo futuro permitirá la evaluación de diferentes estructuras de acceso métri- co. 3. Dada las caracteŕısticas de estimación por similaridad, el componente deter- mińıstico del modelo se puede extender para completación de datos, análisis de consistencia de datos, análisis de doble masa, y ciertas tareas de pronóstico. 4. Se debe considerar la estimación del componente aleatorio a partir de un análi- sis de las distancias de similaridad, basado en la propuesta de campos sobre la creación del componente aleatorio a partir de los residuos (Campos, 2010); se cree que mejoraŕıa las generaciones. 6.7. Reflexiones finales Se han generado 2700 series temporales, 32400 datos; en todas ellas la incertidum- bre esta presente; se sabe que en los sistemas de recursos h́ıdricos, esta incertidumbre se debe a factores que afectan el desempeño del sistema y que no son conocidos. El éxi- to y desempeño de cada componente frecuentemente depende de condiciones futuras en aspectos meteorológicos, demográficos, económicos, sociales, técnicos y poĺıticos; todos los cuales pueden influir en los beneficios futuros, costos, impacto ambiental, aceptación social. La incertidumbre también se debe a la naturaleza estocástica de los procesos meteorológicos, como la precipitación, evaporación, temperaturas, aśı como la 6.7. REFLEXIONES FINALES 130 población futura, consumo de agua por persona, patrones de irrigación, prioridades en el uso de agua; todo lo cual afecta la demanda y nunca se conoce con certeza. (Loucks y cols., 2005) Como se analizó, los modelos lineales tratan la incertidumbre, manejando estad́ısticos de primer orden, lo cual es aceptable si la incertidumbre es razonablemente pequeña y no afecta el desempeño; en estos casos el planificador puede evaluar la importancia de la incertidumbre mediante un análisis de sensibilidad. Ahora bien, usar modelos tradicionales, en un modelo complejo, puede generara una pobre representación del desempeño. Un análisis completo requiere de la evaluación tanto de los resultados esperados del proyecto, el riesgo y posible magnitud de las fallas del sistema en un contexto f́ısico, social, económico y ecológico; se puede ver que modelos como los de Luciana (Campos, 2010), Taymoor (Awchi y cols., 2009) y otros incluyen nuevos análi- sis para la generación de series temporales, sin embargo su formulación es compleja, luego los modelos basados en aprendizaje (redes neuronales) aveces no reproducen car- acteŕısticas ocultas debido a su habilidad para la generalización; finalmente, se puede sentenciar que es complejo lidiar con la incertidumbre, el modelo propuesto es un in- tento más por administrarla, si bien es cierto la habilidad de manejar información de múltiples variables reduce la incertidumbre, lo cierto es que humanamente aun es im- posible administrarla y todo se convierte en aproximaciones de una realidad subjetiva, se requiere de una inteligencia sobresaliente con naturaleza divina, aun no disponible, para gobernar y gerencias todos los fenómenos que rodean nuestra futura y escasa existencia. 6.8. PUBLICACIONES GENERADAS 131 6.8. Publicaciones generadas Se presenta las diferentes publicaciones logradas en el transcurso de esta investi- gación. 1. Modelo Estocástico a partir de Razonamiento Basado en Casos para la Gen- eración de Series Temporales, José Herrera Quispe, Yessenia Yari, Luis Alfaro, Yván Túpac. Jornadas Peruanas de Computación; Chiclayo PERU 2013. 2. Red Neuronal aplicada a la generación de caudales mensuales estocásticos, José Her- rera Quispe, Yessenia Yari, Yvan Túpac. Jornadas Peruanas de Computación; Chiclayo PERU 2013. 3. Stochastic Processes Using Case-based Reasoning for Generation of Time Series. A. José Herrera Quispe, B. Luis A. Alfaro Casas, C. Yessenia Yari 1, and Yvan Tupac. 12th Grace Hopper Celebration of Women in Computing, BALTIMORE USA Octubre 2012. 4. A Novel Stochastic processes using slope of correlation limited by thresholds and similarity for generation of time series flows A. José Herrera Quispe, B. Luis A. Alfaro Casas, C. Yessenia Yari 1, and Yvan Tupac. FCS’12 - The 2012 Inter- national Conference on Foundations of Computer Science, NEVADA USA Julio 2012. OTRAS RELATIVAS: 5. Optimización Inteligente de Reglas de Operación a partir de Series Temporales de Caudales, Jornadas Chilenas de Computación Santiago de Chile, 2012. 6. Razonamiento Basado en Casos en el reconocimiento de d́ıgitos manuscritos del MNIST, José Herrera Quispe, Luis Alfaro, Cesar Beltran Castañon. Jornadas Peruanas de Computación; Puno PERU 2012. 6.8. PUBLICACIONES GENERADAS 132 7. Case Based Reasoning in recognition of MNIST - The 2011 International Con- ference on Image Processing, Computer Vision, and Pattern Recognition; A. José Herrera Quispe, B. Luis A. Alfaro Casas, Cesar Beltran Castañon; Nevada USA 2011 8. Optimal Calibration of Parameter of a Conceptual Rainfall-Runoff Model Using Genetic Algorithm, A. José Herrera Quispe, B. Luis A. Alfaro Casas, C.Jorge Luis Suaña, WORLDCOMP’11 ; Las Vegas USA 2011 9. Modelo Gr4j usando Algoritmos Genéticos. Caso: Cuenca Del Rio Chili INTER- COM - IEEE, PERU 2010. Referencias Awchi, T. A., Srivastava, D., y cols. (2009). Analysis of drought and storage for mula project using artificial neural network and stochastic generation models. Hydrology Research, 40 (1), 79–91. Baeza-Yates, R. A., Cunto, W., Manber, U., y Wu, S. (1994). Proximity matching using fixed-queries trees. En Cpm (p. 198-212). Bao, H., y Cao, J. (2011, January). Delay-distribution-dependent state estimation for discrete-time stochastic neural networks with random delay. Journal of Neu- ral Networks & Computer Science, 24 , 19–28. doi: http://dx.doi.org/10.1016/ j.neunet.2010.09.010 Bareiss, R. (1989). Exemplar-based knowledge acquisition. Perspectives in artificial intelligence, 2 , 1–169. Beard, L. R., y Kub̂ık, H. (1967). Monthly streamflow simulation. Computer Program, 1–6. Bonzano, A., Cunningham, P., y Smyth, B. (1997). Using introspective learning to improve retrieval in cbr: A case study in air traffic control. Case-Based Reasoning Research and Development , 291–302. Bozkaya, T., y Özsoyoglu, Z. M. (1997). Distance-based indexing for high-dimensional metric spaces. En Sigmod conference (p. 357-368). Brillinger, D. (2001). Time series: data analysis and theory. Society for Industrial and Applied Mathematics. Brin, S. (1995). Near neighbor search in large metric spaces. En 21th international conference on very large data bases (vldb 1995) (p. 574-584). Brittan, M. R. (1961). Probability analysis applied to the development of synthetic hydrology for the colorado river. Bureau of Economic Research, University of Colorado. Brockwell, P., y Davis, R. (2009). Time series: Theory and methods. Springer. Cadavid, J., y Salazar, J. (2008). Generación de series sinteticas de caudales usando un modelo matalas con medias condicionadas. Avances en Recursos Hidráulicos , 17–24. Campos, L. C. D. (2010). Modelo estocastico periodico baseado em redes neurais. Tesis Doctoral no publicada, Pontificia Universidade Catolica do rio de Janeiro, Rio de 133 Referencias 134 Janeiro - Brasil. Chang, P.-C., Tsai, C.-Y., Huang, C.-H., y Fan, C.-Y. (2009). Application of a case base reasoning based support vector machine for financial time series data forecasting (Vol. 5755; D.-S. Huang, K.-H. Jo, H.-H. Lee, H.-J. Kang, y V. Bevilacqua, Eds.). Springer Berlin, Heidelberg. Chávez, E., Navarro, G., Baeza-Yates, R., y Marroqúın, J. L. (2001, septiembre). Searching in metric spaces. ACM Comput. Surv., 33 (3), 273–321. Cheng, A., y Bear, J. (2008). Modeling time series of groundwater flow and contaminant transport. Springer. Ciaccia, P., Patella, M., y Zezula, P. (1997). M-tree: An efficient access method for similarity search in metric spaces. En Proceedings of the 23rd international conference on very large data bases (pp. 426–435). San Francisco, CA, USA: Morgan Kaufmann Publishers Inc. Colston, N., y Wiggert, J. (1970). A technique of generating a synthetic flow record to estimate the variability of dependable flows for a fixed reservoir capacity. Water Resources Research, 6 (1), 310–315. Craw, S., Jarmulak, J., y Rowe, R. (2001). Maintaining retrieval knowledge in a case-based reasoning system. Computational Intelligence, 17 (2), 346–363. de la Rosa, J. J. G., Agüera-Pérez, A., Palomares-Salas, J. C., Sierra-Fernández, J. M., y Moreno-Muñoz, A. (2012). A novel virtual instrument for power quality surveil- lance based in higher-order statistics and case-based reasoning. Measurement , 45 (7), 1824 - 1835. doi: http://dx.doi.org/10.1016/j.measurement.2012.03.036 De Mantaras, R., McSherry, D., Bridge, D., Leake, D., Smyth, B., Craw, S., . . . others (2005). Retrieval, reuse, revision and retention in case-based reasoning. Knowl- edge Engineering Review , 20 (3), 215. Dohnal, V., Gennaro, C., Savino, P., y Zezula, P. (2003). D-Index: Distance Searching Index for Metric Data Sets. Multimedia Tools Appl., 21 (1), 9–33. Elmasri, R., y Navathe, S. (2010). Database systems: Models, languages, design, and application programming. Pearson. Elmasri, R., y Navathe, S. (2011). Fundamentals of database systems. Addison Wesley Publishing Company Incorporated. El-Shafie, A., y El-Manadely, M. (2011). An integrated neural network stochastic dynamic programming model for optimizing the operation policy of aswan high dam. Hydrology research, 42 (1), 50–67. Fiering, M. B. (1967). Streamflow synthesis. Cambridge, Harvard University Press, 1967. 139 P . Filho, R. F. S., Traina, A. J. M., Jr., C. T., y Faloutsos, C. (2001). Similarity search without tears: The omni family of all-purpose access methods. En Icde (p. 623- 630). Funk, P., y Xiong, N. (2006). Case-based reasoning and knowledge discovery in medical applications with time series. Computational Intelligence, 22 (3-4), 238–253. Referencias 135 Gangyan, Z., Goel, N., y Bhatt, V. (2002). Stochastic modelling of the sediment load of the upper yangtze river (China). Hydrological sciences journal , 47 (S1), 93–105. Gutierrez, J. (2003). Monitoramento da instrumentaco da barragem de corumbai por redes neurais e modelos de box and jenkins. Dissertacao de mestrado pontifica universidade catolica do rio de janeiro, Departamento de Engenharia Civil. Hajdinjak, M., y Bierman, G. (2011). Extending the relational algebra with similarities. Poslano v Mathematical Structures in Computer Science. Hammond, K. (1989). Case-based planning: viewing planning as a memory task. Aca- demic Press Professional, Inc. Han, M., y Wang, Y. (2009). Analysis and modeling of multivariate chaotic time series based on neural network. Expert Systems with Applications , 36 (2, Part 1), 1280 - 1290. doi: DOI:10.1016/j.eswa.2007.11.057 Haykin, S. (2001). Redes neurais: Prinćıpios e prática. (Bookman, Ed.). Porto Alegre, RS. He, W., Xu, L. D., Means, T., y Wang, P. (2009). Integrating web 2.0 with the case- based reasoning cycle: A systems approach. Systems Research and Behavioral Science, 26 (6), 717–728. doi: 10.1002/sres.976 Hinrichs, T. (1992). Problem solving in open worlds: A case study in design. Lawrence Erlbaum. Hjaltason, G. R., y Samet, H. (2003). Index-driven similarity search in metric spaces. ACM Trans. Database Syst., 28 (4), 517-580. Hochreiter, R., y Pflug, G. (2007). Financial scenario generation for stochastic multi- stage decision processes as facility location problems. Annals of Operations Re- search, 152 (1), 257–272. Jaeger, H. (2000). Observable operator models for discrete stochastic time series. Neural Computation, 12 (6), 1371–1398. Jr., C. T., Traina, A. J. M., Seeger, B., y Faloutsos, C. (2000). Slim-trees: High performance metric trees minimizing overlap between nodes. En Edbt (p. 51- 65). Julian, P. R. (1961). A study of the statistical predictability of stream-runoff in the upper colorado river basin. Kantz, H., y Schreiber, T. (2004). Nonlinear time series analysis. Cambridge University Press. Kjeldsen, T. R., y Rosbjerg, D. (2004). Choice of reliability, resilience and vulnerability estimators for risk assessments of water resources systems/choix destimateurs de fiabilite, de resilience et de vulnerabilite pour les analyses de risque de systemes de ressources en eau. Hydrological sciences journal , 49 (5). Kolodner, J. (1983a). Maintaining organization in a dynamic long-term memory*. Cognitive science, 7 (4), 243–280. Kolodner, J. (1983b). Reconstructive memory: A computer model*. Cognitive Science, 7 (4), 281–328. Referencias 136 Lajmi, S., Ghedira, C., y Benslimane, D. (2006). Wesco cbr: Web services via case based reasoning. En Icebe 06. ieee international conference (pp. 618–622). Lee, C., Cheng, K., y Liu, A. (2008). A case-based planning approach for agent-based service-oriented systems. En Systems, man and cybernetics, 2008. smc 2008. ieee international conference on (pp. 625–630). (Dept. of Computer Science & Inf. Eng., Nanhua Univ., Chiayi) Lee, C., Liu, A., y Huang, H. (2010). Using planning and case-based reasoning for web service composition. Journal ref: Journal of Advanced Computational Intelligence and Intelligent Informatics , 14 (5), 540–548. Loor, P. D., Bénard, R., y Chevaillier, P. (2011). Real-time retrieval for case-based reasoning in interactive multiagent-based simulations. Expert Systems with Ap- plications , 38 (5), 5145 - 5153. doi: DOI:10.1016/j.eswa.2010.10.048 Loucks, D., Van Beek, E., Stedinger, J., Dijkman, J., y Villars, M. (2005). Water resources systems planning and management: an introduction to methods, models and applications. Paris: UNESCO. Malek, M., y Kanawati, R. (2009). Case-based reasoning in knowledge discovery and data mining (Tesis Doctoral, Wiely). Recherche. Meng, T., Somani, S., y Dhar, P. (2004). Modeling and simulation of biological systems with stochasticity. Silico Biol , 4 (3), 293–309. Navarro, G. (2002, agosto). Searching in metric spaces by spatial approximation. The VLDB Journal , 11 (1), 28–46. Ochoa-Rivera, J. C. (2008). Prospecting droughts with stochastic artificial neural networks. Journal of Hydrology , 352 (1-2), 174 - 180. doi: DOI:10.1016/j.jhydrol .2008.01.006 Oviedo T., J., Umeres R., H., Franco R., R., Vı́lchez, G., y Butrón, D. (2001). Di- agnóstico de gestión de la oferta de agua de la cuenca quilca - chili (Inf. Téc.). INADE - AUTODEMA. Oviedo Tejada, J. M. (2004). Propuesta de asignaciones de agua en bloque (volúmenes anuales y mensuales) para la formalización de los derechos de uso de agua en los valles chili regulado y chili no regulado del programa de formalización de derechos de uso de agua - profodua (Inf. Téc.). Ministerio de Agricultura - Instituto Na- cional de Recursos Naturales - Intendencia de Recursos Hı́dricos - Administración Técnica del Distrito de Riego Chili. Pal, S., y Shiu, S. (2004). Foundations of soft case-based reasoning. John Wiley & Sons. Peng, C.-s., y Buras, N. (2000). Dynamic operation of a surface water resources system. Water Resources Research, 36 (9), 2701–2709. Prudencio, R. (2002). Projeto h́ıbrido de redes neurais. Tesis de Master no publicada, Mestrado em ciencias da computacao - Universidade Federal de Pernambuco. Raman, H., y Sunilkumar, N. (1995). Multivariate modelling of water resources time series using artificial neural networks. Hydrological Sciences Journal , 40 (2), 145– Referencias 137 163. Ramirez, F. O. P. (2007). Introducción a las series de tiempo. métodos paramétricos. Editora Correo Restrepo. Romero, O., Marcel, P., Abelló, A., Peralta, V., y Bellatreche, L. (2011). Describing analytical sessions using a multidimensional algebra. Data Warehousing and Knowledge Discovery , 224–239. Ruiz, E. V. (1986, julio). An algorithm for finding nearest neighbours in (approxi- mately) constant average time. Pattern Recogn. Lett., 4 (3), 145–157. Salas, J. D., Tabios III, G. Q., y Bartolini, P. (1985). Approaches to multivariate modeling of water resources time series1. JAWRA Journal of the American Water Resources Association, 21 (4), 683–708. Schank, R. (1982). Dynamic memory: A theory of reminding and learning in computers and people. New York . Schank, R., Abelson, R., y cols. (1977). Scripts, plans, goals and understanding: An inquiry into human knowledge structures (Vol. 2). Lawrence Erlbaum Associates Nueva Jersey. Sebag, M., y Schoenauer, M. (1994). A rule-based similarity measure. Topics in case-based reasoning , 119–131. Simoudis, E. (1992). Using case-based retrieval for customer technical support. IEEE Expert , 7 (5), 7–12. Simpson, R. (1985). A computer model of case-based reasoning in problem solving: an investigation in the domain of dispute mediation. Singh, V., y Yadava, R. (2003). Water resources system operation: proceedings of the international conference on water and environment (we-2003), december 15-18, 2003, bhopal, india (n.o v. 1). Allied Publishers. Smyth, B., y Champin, P. (2009). The experience web: A case-based reasoning per- spective. En Grand challenges for reasoning from experiences, workshop at ijcai (Vol. 9). Srikanthan. (2002). Stochastic generation of monthly rainfall data. CRC for Catchment Hydrology. Sumathi, S., y Esakkirajan, S. (2007). Fundamentals of relational database management systems. Springer. Sycara, K. (1988). Using case-based reasoning for plan adaptation and repair. En Proceedings of the darpa case-based reasoning workshop (Vol. 425, p. 434). Tang, C. F. P. A., Z.; Almeida. (1991). Time series forecasting using neural networks vs box-jenkins methodology. SIMULATION , 57 , 303-310. Taylor, S. (2008). Modelling financial time series. World Scientific Pub Co Inc. Thomas, H., y Fiering, M. (1962). Mathematical synthesis of streamflow sequences for the analysis of river basins by simulation. Design of water resource systems , 459–493. Referencias 138 Tokdemir, O., y Arditi, D. (1999). Comparison of case-based reasoning and artificial neural networks. Journal of computing in civil engineering , 13 , 162. Tversky, A. (1977). Features of similarity. Psychological review , 84 (4), 327. Uhlmann, J. K. (1991). Satisfying general proximity/similarity queries with metric trees. Inf. Process. Lett., 40 (4), 175-179. Ünal, N., Aksoy, H., y Akar, T. (2004). Annual and monthly rainfall data generation schemes. Stochastic Environmental Research and Risk Assessment , 18 (4), 245– 257. Vieira, C., de Carvalho Júnior, W., y Solos, E. (s.f.). Utilização de redes neurais artificiais para predição de classes de solo em uma bacia hidrográfica no domı́nio de mar de morros césar da silva chagas elṕıdio inácio fernandes filho 2. Weber, G. (1995). Examples and remindings in a case-based help system. Advances in Case-Based Reasoning , 165–177. Wei, W. W.-S. (1994). Time series analysis. Addison-Wesley Redwood City, Califor- nia. Wilkinson, D. (2009). Stochastic modelling for quantitative description of heteroge- neous biological systems. Nature Reviews Genetics , 10 (2), 122–133. Zadeh, L. (2003). Foreword of foundations of soft case-based reasoning. Berkely, CA. Zezula, P., Amato, G., Dohnal, V., y Batko, M. (2006). Similarity search: The metric space approach (Vol. 32). Springer.