Exponentially Weighted Moving Average Charts For Detecting Concept Drift
Ponderado exponencialmente gráficos cambiantes de promedios para detectar la deriva concepto abstracto de clasificación de los datos de streaming requiere el desarrollo de métodos que son computacionalmente eficiente y capaz de hacer frente a los cambios en la distribución subyacente de la corriente, un fenómeno conocido en la literatura como concepto deriva. Proponemos un nuevo método para detectar la deriva concepto que utiliza un promedio móvil ponderado exponencialmente (EWMA) gráfico para controlar la tasa de errores de clasificación de un clasificador de streaming. Nuestro enfoque es modular y por lo tanto se puede ejecutar en paralelo con cualquier clasificador subyacente para proporcionar una capa adicional de detección concepto deriva. Además nuestro método es computacionalmente eficiente con O en cabeza (1) y funciona de una manera completamente en línea sin necesidad de almacenar los puntos de datos en la memoria. A diferencia de muchos enfoques existentes sobre la detección concepto de deriva, nuestro método permite que la tasa de detecciones falsas positivas para ser controlado y se mantiene constante en el tiempo. Se presentan aspectos más destacados de una sola pasada y el algoritmo computacionalmente eficiente de detección concepto de deriva. Adecuado para la implementación en los flujos de datos de alta frecuencia. Permite que la tasa de detecciones falsas positivas para ser controlado, a diferencia de los métodos existentes. Los experimentos en tanto los datos reales y sintéticas muestran resultados alentadores. Palabras clave Transmisión Concepto clasificación deriva Cambio detectionarXiv. org gt gt stat arXiv: 1212.6018 Estadísticas Aprendizaje Automático Título: exponencial media móvil ponderada Gráficas para la detección Concepto Drift (Enviado el 25 dic 2012) Resumen: La clasificación de flujo de datos requiere el desarrollo de métodos que son computacionalmente eficiente y capaz de hacer frente a los cambios en la distribución subyacente de la corriente, un fenómeno conocido en la literatura como concepto de deriva. Proponemos un nuevo método para detectar la deriva concepto que utiliza un promedio móvil ponderado exponencialmente carta (EWMA) para controlar la tasa de errores de clasificación de un clasificador de streaming. Nuestro enfoque es modular y por lo tanto se puede ejecutar en paralelo con cualquier clasificador subyacente para proporcionar una capa adicional de detección concepto deriva. Además nuestro método es computacionalmente eficiente con O en cabeza (1) y funciona de una manera completamente en línea sin necesidad de almacenar los puntos de datos en la memoria. A diferencia de muchos enfoques existentes sobre la detección concepto de deriva, nuestro método permite que la tasa de detecciones falsas positivas para ser controlado y se mantiene constante en el tiempo. Machine Learning (stat. ML) Aprendizaje (cs. LG) Aplicaciones (stat. AP) Un estudio comparativo sobre los detectores de deriva concepto Un diseño factorial 2 k se utilizan para indicar los mejores parámetros para cada método. Las pruebas en comparación precisión, tiempo de evaluación, alarma falsa y las tasas de detección de pérdida. Una distancia de Mahalanobis se propone como una métrica para comparar los métodos de deriva. DDM fue el método que presenta los mejores resultados promedio en todos los conjuntos de datos analizados. Resumen En entornos de flujo de datos, se utilizan métodos de detección para identificar la deriva cuando el contexto ha cambiado. En este trabajo se evalúa ocho detectores concepto de deriva diferentes (DDM. DEMS. PHT. Paso D.. Do f. Adwin. Emparejados Estudiantes y ECDD) y lleva a cabo pruebas utilizando conjuntos de datos artificiales afectadas por derivas conceptuales bruscos y graduales, con varias velocidades de la deriva, con y sin ruido y atributos irrelevantes, y también utilizando conjuntos de datos del mundo real. Además, un diseño factorial 2 k 2 k se usa para indicar los parámetros que más influyen en el rendimiento que es una novedad en la zona. Además, se utilizó una variación de la prueba estadística no paramétrica de Friedman para identificar los mejores métodos. Los experimentos en comparación precisión, tiempo de evaluación, así como las tasas de detección de alarmas falsas y se pierda. Además, se utilizó la distancia de Mahalanobis para medir la similitud de los métodos son en comparación con la mejor salida de detección posible. Este trabajo puede, en cierta medida, también ser visto como un estudio de investigación de métodos de detección de deriva existentes. arroyos palabras clave concepto datos de datos detectores de desviación de la hora de cambio de ComparisonDepartment de Matemáticas pasado la acidificación y la recuperación de las aguas superficiales, los suelos y la ecología en el Reino Unido: Las perspectivas para el futuro en virtud de la deposición actual y los protocolos de uso de la tierra (2013) R. C. Helliwell, J. Aherne, G. MacDougall, T. R. Nisbet, D. Lawson, B. J. Cosby y C. D. Evans ecológica Indicadores DOI: URL dx. doi. org/10.1016/j. ecolind.2013.02.005 proporcionado por el autor Un método estadístico para determinar el volumen de los depósitos volcánicos de otoño (2013) R. E. Carga, L. Chen, JC Comunicaciones Phillips sobre el análisis estocástico DOI: 10.1007 / s00445-013-0707-4 URL proporcionada por las matrices de similitud autor y algoritmos de agrupamiento para identifcación población a partir de datos genéticos (2012) Daniel Lawson y Daniel Falush Annual Review of la genómica humana, vol: 13, Páginas: 337-361 DOI: abs / 10.1146 / annurev-genoma-08241 URL proporcionada por el Inferencia autor de estructura de la población a partir de datos de haplotipos densos (2012) Daniel Lawson, Garrett Hellenthal, Simon Myers, y Daniel Falush PLoS Genetics, vol: 8, Número: 1, Página: e1002453 URL proporcionado por el autor de Seguimiento secuencial de una secuencia de Bernoulli cuando el Pre-modificación de parámetros es desconocido (2012) GJ Ross, DK Tasoulis, NM Adams Computacional Estadísticas Movimiento ponderado exponencialmente Gráficas promedio para detectar Concepto Drift (2012) GJ Ross, DK Tasoulis, NM Adams, patrón DJ Mano Recognition Letters, vol: 33, Edición: 2, Páginas: 191 - 198 Dos cartas del control no paramétricas para detectar cambios distribución arbitraria (2012) GJ Ross, NM Adams Journal of Quality Technology, vol: 44, Edición: 2, Páginas: 102 - 116 implicaciones de cambiar el mínimo beneficio de supervivencia en el trasplante hepático (2012) Caballero, M, Barber, K. Gimson, A. Collet, D . Neuberger, J. trasplante de hígado DOI: DOI: 10.1002 / lt.23380 análisis bayesiano de modelos de ecuaciones diferenciales no lineales con aplicación a un ecosistema microbiano intestinal (2011) Daniel Lawson, Grietje Holtrop y Harry Flint La Biométrica Journal, vol: 53 , páginas 543 - 556 URL proporcionada por el autor no paramétrica de Monitoreo de flujos de datos para los cambios de ubicación y escala (2011) GJ Ross, DK Tasoulis, NM Adams Technometrics, vol: 53, 4ª Edición, Páginas de: 379 - 389 Likelihood - estimación libre de evidencia modelo (2011) Xavier Didelot Richard G. Everitt, Adam M. Johansen y Daniel J. Lawson Análisis bayesiano, vol: 6, páginas 49 - 76 URL proporcionada por los modelos gráficos de autor para la inferencia bajo muestreo depende de resultado ( 2010) Didelez, Kreiner, Statistical Science Keiding, vol 25, páginas 368 - 387 DOI: 10.1214 / 10-STS340 URL proporcionada por el autor en la solución de las ecuaciones integrales utilizando la cadena de Markov métodos de Monte Carlo (2010) Doucet, un Johansen, AM Tadic, VB Matemáticas Aplicadas. y Comp. vol: 216, Edición: 10, Páginas: 2869-2880 La urna armónico simple (2010) Edward Crane, Nicholas Georgiou, Stanislav Volkov, Andrew Wade y Robert Waters Annals of posterior de probabilidad pesada aprendizaje por refuerzo con la incertidumbre de Estado (2010) Larsen, T Leslie, DS Collins, EJ, et al. Neural Computation, vol: 22, Páginas: 1149-1179 Responder a Robert et al. la crítica modelo informa a la elección del modelo y la comparación de modelos (2010) Ratmann, O Andrieu, C Wiuf, C, et al. Actas de la Academia Nacional de Ciencias, EE. UU., vol: 107, Edición: 3, Páginas: E6 - E7 estabilidad de un proceso de crecimiento generado por monómero de llenado con efectos del vecino más cercano cooperativos (2010) Procesos Stanislav Volkov y Vadim Shcherbakov estocásticos y su aplicaciones. Páginas: na - na URL proporcionada por el autor La probabilidad de fijación de dos mutaciones beneficiosas en competencia (2010) Yu, Feng Etheridge, Alison teórico biología de la población, vol: 78, Issue: 1, Páginas: 36 - 45 Inferencia de recombinación homóloga en bacterias utilizando todo el genoma secuencias (2010) Avier Didelot, Daniel Lawson, Aaron querido y Daniel Falush Genética, vol: 186, Páginas: 1435-1449 URL proporcionado por el autor de Expertos conocimiento y multivariado emulación: el modelo de circulación Termosfera-ionosfera electrodinámica general (TIE - GCM) (2009) JC Rougier, S. Guillas, A. Maute, AD Richmond Technometrics, vol: 51, páginas 414 - 424 DOI: doi: 10.1198 / TECH.2009.07123 métodos multiescala para los datos en los gráficos y situaciones irregulares (multidimensionales 2009) Jansen, M. Nason, GP y Silverman, B. W. Revista de la Royal Statistical Society Serie B, vol: 71, Páginas: 97 - 126 DOI: 10.1111 / URL j.1467-9868.2008.00672.x proporcionado por el autor Una nondecimated elevación de transformación (2009) Caballero MI, Nason Estadísticas y GP Computing, vol: 19, Páginas: 1 - 16 DOI: 10.1007 / s11222-008-9062-2 Un nondecimated elevación de transformación (2009) Caballero, M. y Nason, GP Estadística y Computación, vol: 19, Páginas: 1 - 16 DOI: 10.1007 / s11222-008-9062-2 URL proporcionada por el basado en la agrupación aplicación eficiente de autor sobre los espacios de partición de alta dimensión (2009) Liverani, S. Anderson, PE Edwards , KD Millar, AJ y Smith, Análisis bayesiano JQ, vol: 4, Número: 3, páginas 539 - 572 URL proporcionada por el autor en el uso de los sistemas dinámicos simples para las predicciones climáticas: Una predicción bayesiana de la próxima creación glacial ( 2009) M. crucifijo y JC Rougier La Revista Europea de Física - Temas especiales, vol: 174, Páginas: 11 - el 31 de DOI: DOI: 10.1140 / epjst / e2009-01087-5 aprender a contar: estimaciones robustas para las distancias marcadas entre las secuencias moleculares (2009) OBrien, JD, Minin, VN Suchard, Biología MA Molecular y Evolución DOI: 10.1093 incendios / molbev / msp003 bosque en Z con encendido solamente a 0 (2009) Stanislav Volkov ALEA Revista Latinoamericana de Probabilidad y Estadística Matemática, vol: 6, páginas 399 - 414 URL proporcionada por el autor en la estabilidad de los procesos de adsorción (2009) Stanislav Volkov y Vadim Shcherbakov Problemas Contemporáneos de Matemáticas y Mecánica. Editores: Shiryaev, A. N. Los números de páginas 166 - 174 Editorial: URL Moscow State University Press proporcionado por el autor de colas con los vecinos (2009) Stanislav Volkov y Vadim Shcherbakov Probabilidad y Matemática Genética: Papeles en honor de Sir John Kingman Editores: NH Bingham y CM Goldie página números: 463-481 Editorial: London Mathematical Society Lecture Notes URL serie proporcionado por el autor EAKF-CMAQ: Introducción y evaluación de una asimilación de datos para CMAQ basado en el filtro de Kalman Ajuste Ensemble (2008) A. Zubrow, L. Chen y VR Kotamarthi J. Geophys. Res. vol: 113 DOI: 10.1029 / 2007JD009267 URL proporcionada por el autor en Potts modelo de clústeres, núcleo K-means y estimación de la densidad, en prensa (2008) A. Murua, L. I.Stanberry, W. Stuetzle. Diario de calculo y gráficos Estadísticas SMCTC: secuencial Monte Carlo en C (2008) Adam M. Johansen Informe de Investigación Grupo de Estadística 08:16 URL proporcionada por el autor cadenas de Markov (2008) Adam M. Johansen Enciclopedia de Ciencias de la Computación e Ingeniería Editorial: Wiley URL proporcionada por el autor Una nota sobre los filtros de partículas auxiliares (2008) Adam M. Johansen y Arnaud Estadísticas Doucet amplificador de probabilidad Letters, vol: 78, Número: 12, Páginas: 1498-1504 URL proporcionada por el autor Utilizando el momento de autocorrelación y concesionarios - validating métodos para mejorar el rendimiento de los algoritmos de Monte Carlo (2008) Everitt, RG URL tesis doctoral proporcionado por el autor Un modelo de urna de fase adaptativo basado III de ensayos odds ratio clínicos (2008) Gopal Basak, Atanu Biswas, Procesos Stanislav Volkov Markov y URL campos relacionados proporcionados por el mapeo de la conectividad autor funcional utilizando el modelo de giro Potts ferromagnético. (2008) L. I.Stanberry, A. Murua, D. Cordes. Human Brain Mapping, vol: 29, 4ª Edición, páginas 422 - 440 DOI: 10.1002 / hbm.20397 propiedades teóricas de algoritmo de reducción de la dimensión de los cocineros PFC para la regresión lineal (2008) Journal Oliver Johnson electrónica de Estadística, vol: 2, Páginas : 807-828 DOI: 10.1214 / URL 08-EJS255 proporcionado por el autor Aprender a señal: análisis de un modelo de reforzamiento a nivel micro (2008) Raffaele Argiento, Robin Pemantle, Brian Skyrms, Procesos Stanislav Volkov estocásticos y sus Aplicaciones, URL proporcionada por las medidas de separación de autor y la geometría de la selección del factor de Bayes para la clasificación (2008) Smith, JQ Anderson, PE y Liverani, SJ Real estatistas. Soc. B (metodológico), vol: 70, Número: 5, páginas 957 - 980 Evaluación de las predicciones probabilísticas de cantidades variables múltiples, con aplicaciones a Ensemble predicciones de vientos de superficie. documento de debate invitado. (2008) T. Gneiting, L. I.Stanberry, E. Grimit, L. Held, N. Johnson. PRUEBA, vol: 17, Edición: 2, páginas 211 - 235 DOI: 10.1007 / s11749-008-0114-x análisis a nivel de una sola molécula de la composición de la subunidad del receptor de células T en células T en vivo (2007) y JR James SS White y RW Clarke y AM Johansen et al. Actas de la Academt Nacional de Ciencias, EE. UU., vol: 104, Edición: 45, Páginas: 17662 - 17667 URL proporcionada por el autor funciones lisas y valores extremos locales (2007) Kovac, A. estadística computacional y análisis de datos, vol: a 51, páginas: 5156 - 5171 URL proporcionada por el medio ambiente aleatoria autor en los árboles de color (2007) Mikhail Menshikov, Dimitri Petritis, Stanislav Volkov Bernoulli, vol: 13, Páginas: 966 - 980 URL proporcionada por el autor estimación de la densidad bivariante utilizando BV regularización (2007) Obereder, A. Scherzer, O. y Kovac, A. Estadística Computacional y Análisis de datos, vol: que aparezcan URL proporcionada por el autor el Comportamiento de Retiro de los trabajadores independientes en Gran Bretaña (2007) SC Parker y JC Rougier Aplicada economía, vol: 39, páginas 697 - 713 espaciotemporal de modelización estadística y predicción de processe del Medio Ambiente (2006) L. Chen, M. Fuentes y J. Davis Aplicaciones de la Estadística Computacional en las Ciencias ambientales: jerárquicas editores Bayes y MCMC Métodos James S Clark y Alan Gelfand Editorial: Oxford University Press cambios señal de baja frecuencia reflejan las diferencias en la conectividad funcional entre los buenos lectores disléxicos y el análisis gráfico del fonema continua. (2006) L. I.Stanberry, T. Richards, V. W.Berninger, R. R.Nandy, E. Aylward, K. Maravilla, D. Cordes. Imagen de Resonancia Magnética, vol: 24, Número: 3, páginas 217 - 229 DOI: doi: 10.1016 / j. mri.2005.12.006 Periodicidad en el régimen transitorio de los sistemas de votación exhaustivos (2006) Mikhail Menshikov, Iain MacPhee, Serguei Popov , Stanislav Volkov Anales de Probabilidad Aplicada, vol: 16, 4ª Edición, Páginas: 1816-1850 URL proporcionado por el autor de elevación adaptable para la regresión no paramétrica (2006) Nunes, M. Caballero, M. y Nason, GP Estadística y Computación, vol: 16, páginas 143 - 159 URL proporcionada por las extensiones de autor de suavizado a través de Taut Cuerdas (2005) Duumlmbgen, L. y Kovac, A. Técnica URL informe proporcionado por el autor del volumen de comercio y contrato de volcadura en Futuros contratos (2005) PR Holmes y JC Rougier Journal of Empirical Finanzas, vol: 12, Páginas: 317 - 338, densidades espectrales densidades y Modalidad (2004) Davies, PL y Kovac, A. Anales de Estadística, vol: 32, Páginas: 1093 - 1136 URL proporcionada por el autor la cuantificación del coste de aproximación no paramétrica simultáneo de varias muestras (2004) Davies, PL y Kovac, URL A. informe técnico proporcionado por el análisis Cluster autor de los datos de resonancia magnética funcional utilizando el afilado dendrograma. (2003) L. I.Stanberry, R. R.Nandy, D. Cordes. Human Brain Mapping, vol: 20, 4ª Edición, páginas 201 - 219 DOI: 10.1002 / hbm.10143 de regresión no paramétrica robusta y la modalidad (2002) Kovac, A. Evolución estadística robusta Editores: R. Dutter, P. Filmozer, U. Gather, números de P. Rousseeuw Página 218 - 227 Editorial: Physica, Heidelberg URL proporcionada por el autor Extremos local, los funcionamientos, Cuerdas y multirresolución (con discusión) (2001) Davies, PL y Kovac, A. Anales de Estadística, vol: 29, Páginas: 1 - 65 URL proporcionada por el autor medir la movilidad social como imprevisibilidad (2001) SC Parker y JC Rougier Económica, vol: 68, Páginas: 63 - 76Abstract En esta página, hacemos clasificadores del conjunto de flujos de datos disponibles diseñados para hacer frente a las derivas conceptuales (Aprender. NSE, de mayoría ponderada dinámico, Ensemble de construcción, y el RCD), detectores concepto de deriva (emparejados Estudiantes, ECDD y PHT) y conjuntos de datos (Sine y mixto). Sus parámetros y papeles correspondientes se describen a continuación. Documentación Para utilizar esta extensión, es necesario descargar moa. jar y sizeofag. jar, disponible en el sitio web marco MOA. A continuación, añadir los archivos JAR a continuación en la ruta de clase en el lanzamiento de MOA. Por ejemplo, en Linux: java - cp EnsembleClassifiers. jar: moa. jar: weka. jar - javaagent: sizeofag. jar moa. gui. GUI El archivo JAR, básicamente, tienen los archivos de clases que implementan cada clasificador. Otra opción es descomprimir moa. jar, incluirá los archivos de origen en el paquete moa. classifiers y recompilar MOA. Los clasificadores del conjunto dinámico de mayoría ponderada Los parámetros disponibles para este clasificador son los indicados en los documentos de referencia: alumno Base: - l. - p: Período entre la extracción de expertos, creación y actualización de peso. - b: Factor de castigar los errores de los clasificadores. - g: Mínima fracción de peso por clasificador. Referencias Jeremy Zico Kolter y Marcus A. Maloof. El uso de conjuntos de expertos sobre aditivos para hacer frente a la deriva concepto. En Actas de la Conferencia Internacional sobre Aprendizaje de Máquinas 22, ICML 05, páginas 449-456, Nueva York, Nueva York, EE. UU., 2005. ACM. ISBN 1-59593-180-5. URL doi. acm. org/10.1145/1102351.1102408~~V~~singular~~3rd Jeremy Zico Kolter y Marcus A. Maloof. mayoría ponderada dinámica: Un método de conjunto de conceptos a la deriva. El diario de la máquina de aprendizaje de la investigación. 8: 2755-2790, 2007. ISSN 1532-4435 diciembre. dl. acm. org/citation. cfmid1314498.1390333 URL Learn. NSE Los parámetros disponibles para este clasificador son los indicados en los documentos de referencia: alumno Base: - l. - p: Tamaño de los entornos. Después de cuántos ejemplos se creará un nuevo clasificador. - a: Pendiente de la función sigmoide controlar el número de períodos anteriores tomadas en cuenta durante la ponderación. - b: A medio camino punto de la función sigmoide controlar el número de períodos anteriores tomadas en cuenta durante la ponderación de cruce. - s: estrategia de poda clasificadores a utilizar (NO: ninguna poda, EDAD: basada en la edad, ERROR: basado en el error). - e: Ensemble tamaño máximo. Referencias Mateo Karnick, Metin Ahiskali, Michael D. Muhlbaier, y Robi Polikar. Concepto del aprendizaje deriva en entornos no estacionarios utilizando un conjunto de clasificadores basados ap-abordaje. En IEEE Conferencia Internacional Conjunta sobre Redes Neuronales (IEEE Congreso Mundial de Inteligencia Computacional), IJCNN 08, páginas 3455 a 3462, 2008a junio. URL dx. doi. org/10.1109/IJCNN.2008.4634290 Mateo Karnick, Michael D. Muhlbaier, y Robi Polikar. aprendizaje incremental en entornos no estacionarios con el concepto de deriva usando un enfoque basado en múltiples clasificador. En 19ª Conferencia Internacional sobre Reconocimiento de Patrones, CIPR 08, páginas 1-4, 2008b diciembre. URL dx. doi. org/10.1109/ICPR.2008.4761062 Michael Muhlbaier y Robi Polikar. Un enfoque conjunto para el aprendizaje gradual en entornos no estacionarios. En Michal Haindl, Josef Kittler, y Fabio Roli, editores, Sistemas Clasificadores múltiples, volumen 4472 de Lecture Notes in Computer Science, páginas 490-500. Springer Berlin / Heidelberg, 2007. ISBN 978-3-540-72481-0. URL dx. doi. org/10.1007/978-3-540-72523-749~~V~~singular~~3rd Ryan Elwell y Robi Polikar. aprendizaje incremental del concepto de deriva en entornos no estacionarios. IEEE Transactions on Neural Networks, 22 (10): 1517-1531, 2011. ISSN 1045-9227 octubre. URL dx. doi. org/10.1109/TNN.2011.2160459 R. y R. Elwell Polikar. aprendizaje incremental en entornos no estacionarios con olvido con-controlada. En IEEE Conferencia Conjunta Internacional sobre Redes Neuronales, IJCNN 09, páginas 771-778, Los Alamitos, CA, USA, 2009b junio. IEEE Computer Society. URL dx. doi. org/10.1109/IJCNN.2009.5178779 RCD recurrentes concepto derivas (RCD) es un marco desarrollado para hacer frente a los contextos que se vuelvan a producir. Después de la identificación de un concepto de deriva por un método de detección de derivas, que utiliza un no-paramétricos pruebas estadísticas multivariantes para comprobar si el contexto es nuevo o uno viejo que se está produciendo de nuevo. Los parámetros utilizados en el RCD son los siguientes: - l: Base alumno. - b: Tamaño del búfer. Es una muestra de contextos reales y almacenados y son utilizados por las pruebas estadísticas para identificar recurrente contexto. - t: Frecuencia de prueba. En la fase de prueba, que es la tasa de las pruebas estadísticas se realizan para mantener el clasificador real en relación con este contexto. - d: método de detección de la deriva de su uso. - a: prueba estadística que se utilizarán. - s: La similitud porcentual mínima entre las distribuciones (p-valor). - c: El importe máximo de los clasificadores para almacenar. - m: El tamaño del grupo de subprocesos, lo que indica cómo se permiten muchas pruebas simultáneas. Referencias Paulo Gonçalves Mauricio Jr. y Roberto Souto Maior de Barros. RCD: un concepto recurrente deriva marco. Las cartas de reconocimiento de patrones. 34 (9), páginas 1018-1025, 2013. Elsevier. URL dx. doi. org/10.1016/j. patrec.2013.02.005 Ensemble Edificio Clasificador adaptan mejor a manejar recurrentes derivas conceptuales. Sus parámetros son: alumno Base: - l. - e: error admisible. - a: factor de aceptación. - c: tamaño del fragmento. - r: El número máximo de clasificadores para almacenar y elegir al crear un conjunto. - n: El número máximo de clasificador en un conjunto. Referencias Sasthakumar Ramamurthy y Raj Bhatnagar. El seguimiento recurrente concepto de deriva en el flujo de datos usando clasificadores Ensemble. En Sexta Conferencia Internacional sobre Aprendizaje de Máquinas y Aplicaciones, pp. 404-409, 2007. URL dx. doi. org/10.1109/ICMLA.2007.80. Detectores concepto de deriva ECDD (Incluido en MOA 2015) EWMA para el concepto de detección de Drift (CEF) es un detector de deriva que utiliza una tabla de promedio móvil ponderado exponencialmente (EWMA) para controlar la tasa de errores de clasificación de un clasificador de streaming. Se puede utilizar como DDM y DEMS en la clase SingleClassifierDrift. Sus parámetros son: - a: La longitud promedio de carreras. Informa la tasa de alarmas falsas positivas por puntos de datos. - m: Controla la cantidad de peso se da a los datos más recientes en comparación con los datos más antiguos. Los valores más bajos significan menos peso dado a los datos más recientes. - w: umbral de advertencia. Referencias Gordon J. Ross, Niall M. Adams, Dimitris K. Tasoulis y David J. mano. Ponderado exponencialmente gráficos cambiantes de promedios para detectar concepto de deriva. Reconocimiento de patrones Cartas, 33, páginas 191-198, 2012. Elsevier. URL dx. doi. org/10.1016/j. patrec.2011.08.019 Estudiantes emparejados (Incluido en MOA 2015) Un detector de clasificador y la deriva. Crea dos clasificadores: un establo y un reactivo. El primero de ellos es responsable de representar el concepto real estable, mientras que el reactivo se entrenó en los datos más recientes. Si la precisión del reactivo es superior a la estable, que significa que el concepto ha cambiado. El clasificador estable es sustituido por el reactivo y el reactivo se reseted. Sus parámetros son: - s: Estable alumno. - r: alumno reactiva. - w: Tamaño de la ventana para que el alumno reactiva. - t: threashold para la creación de un nuevo alumno estable. Referencias Stephen H. Bach y Marcus A. Maloof, Estudiantes emparejados para el concepto de la deriva, en la octava Conferencia Internacional IEEE sobre minería de datos, pp. 23-32, 2008. URL dx. doi. org/10.1109/ICDM.2008.119~~number=plural. PHT (Incluido en MOA 2015) La prueba Página-Hinkley (HTP) es una técnica de análisis secuencial se utiliza típicamente para la detección de cambios en el seguimiento de la media de una señal de Gauss. Se puede utilizar como DDM y DEMS en la clase SingleClassifierDrift. Sus parámetros son: Umbral de detección: - d. - w: umbral de advertencia. - m: umbral de magnitud. Referencias DOF DOF El método detecta desviaciones mediante el procesamiento de los datos trozo por trozo, calculando el vecino más cercano en el lote anterior para cada instancia en el lote actual y comparando sus correspondientes etiquetas. Un mapa de distancia se crea, asociando el índice de la instancia en el lote anterior y la etiqueta calculada por el vecino más cercano. Un grado llamada métrica de la deriva se calcula en base a la distancia en el mapa. La media y la desviación estándar de todos los grados de desviación se calculan y, si el valor actual está lejos de la media de más de s desviaciones estándar, se eleva un concepto de deriva. Sus parámetros son: Tamaño de la ventana de cada trozo de datos: - w. - s: Número de desviaciones estándar para la detección de derivas. Referencias Parinaz Sobhani y Hamid Beigy: Método de detección de Nueva deriva de flujos de datos. Sistemas adaptativos e inteligentes, 2011: Volumen 6943, pp 88-97. dx. doi. org/10.1007/978-3-642-23857-412 URL. Paso D. paso D. calcula la precisión de la base de aprendiz en los casos más recientes W y lo compara con su precisión global desde el principio del proceso de aprendizaje. Sus parámetros son: nivel de significación para la deriva: - d. - m: El nivel de significación para la alerta. Referencias Kyosuke Nishida y Koichiro Yamauchi: Detectando Concepto Tierra utilizando la prueba estadística. Discovery Science 2007: 264-269. dx. doi. org/10.1007/978-3-540-75488-627 URL. datos Artificial corrientes Sine Este conjunto de datos se puede utilizar para crear las cuatro versiones de Sine presentados en Gama et al. (2004), dos versiones en Baena-García et al. (2006). Sus parámetros se basan en los trabajos que utilizan este conjunto de datos: - i: Semillas para la generación aleatoria de los casos. - f: la función de clasificación utilizados (1 a 4). Un (1) es la inversión de dos (2) y tres (3) es la inversión de cuatro (4). - s: Reducir los datos que sólo contienen 2 atributos numéricos correspondientes. De lo contrario, se crean dos atributos irrelevantes. - b: Equilibrar el número de instancias de cada clase. Referencias Joo Gama, Pedro Medas, Gladys Castillo y Pedro Pereira Rodrigues. El aprendizaje con detección de derivas. En Bazzan, Ana L. C. y Labidi, Sofiane, editores, Advances in Artificial Intelligence - EISB de 2004, volumen 3171 de Lecture Notes in Computer Science, páginas 286-295. Springer Berlin / Heidelberg, 2004. ISBN 978-3-540-23237-7. dx. doi. org/10.1007/978-3-540-28645-529 URL. Manuel Baena-García, José del Campo-Vila, Raul Fidalgo, Albert Bifet, Ricard Gavald y Rafael Morales-Bueno. En: CELV PKDD 2006 Taller de descubrimiento de conocimiento a partir de secuencias de datos. 18 Conjunto de 2006. Berlín, Alemania. URL eprints. pascal-network. org/archive/00002509/ mezcladas Este conjunto de datos se puede utilizar para crear las versiones se presentan en Gama et al. (2004) y Baena-García et al. (2006). Sus parámetros se basan en los trabajos que utilizan este conjunto de datos: - i: Semillas para la generación aleatoria de los casos. - f: función de clasificación utilizado (1 y 2), donde uno (1) es la inversión de dos (2). - b: Equilibrar el número de instancias de cada clase. Referencias Joo Gama, Pedro Medas, Gladys Castillo y Pedro Pereira Rodrigues. El aprendizaje con detección de derivas. En Bazzan, Ana L. C. y Labidi, Sofiane, editores, Advances in Artificial Intelligence - EISB de 2004, volumen 3171 de Lecture Notes in Computer Science, páginas 286-295. Springer Berlin / Heidelberg, 2004. ISBN 978-3-540-23237-7. dx. doi. org/10.1007/978-3-540-28645-529 URL. Manuel Baena-García, José del Campo-Vila, Raul Fidalgo, Albert Bifet, Ricard Gavald y Rafael Morales-Bueno. En: CELV PKDD 2006 Taller de descubrimiento de conocimiento a partir de secuencias de datos. 18 Conjunto de 2006. Berlín, Alemania. URL eprints. pascal-network. org/archive/00002509/~~number=plural Contacto Comentarios, sugerencias, mejoras, correcciones son muy apreciados. paulomgj en gmail punto com
Comments
Post a Comment