jueves, 3 de mayo de 2012
miércoles, 2 de mayo de 2012
EXTRACCION DE CONOCIMIENTO
Descubrimiento de patrones, relaciones y tendencias mediante análisis de gran cantidad de datos
Toma de decisiones
– Cuándo concedo un crédito hipotecario? por cuánto? Qué
tipo de solicitante no devolverá el crédito?
– Un cliente de tarjeta de crédito está realizando una compra,
pagará? se la han robado?
Diagnósticos
– Determinación de enfermedades
– Fallos en procesos industriales
Marketing y ventas
– Hábitos y fidelidad de clientes. Cuál es el perfil de los clientes
que se gastan al mes más dinero?
– Análisis de compras. Qué productos de nuestra empresa es
el que compran los clientes junto al detergente?
– Análisis de perfil más adecuado para publicidad directa.
Análisis de datos en Internet
• Web Mining: análisis de páginas para extraer
automáticamente información
• e-Mining: análisis de las interacciones de los clientes
con mis páginas
• Web para extraer información
• Tipo de información que busco:
– Qué tipo de clientes tengo
– Cómo interacciona cada tipo de cliente con las páginas Web
– Qué banners son los que siguen mis clientes (publicidad)
– Descubrimiento de patrones de compra/navegación.
Almacén de datos (data warehouse)
Técnicas para almacenar y manejar datos provenientes
de varias fuentes de una organización como medio de
soporte a la decisión.
El Proceso de KDD
• Contexto de un aplicación con Análisis de Datos.
– Proceso interactivo e iterativo. Ensayo y error
METODOLOGÍA
1. Formular el problema
2. Determinar la representación (atributos y clases)
– directamente
– hablando con expertos
– a partir de otras técnicas (filtros)
3. Identificar y recolectar datos de entrenamiento (bases de datos,
ficheros, …)
4. Preparar datos para análisis
5. Selección de modelo, construcción y entrenamiento
6. Evaluar lo aprendido
– validación cruzada, expertos
7. Integrar la base de conocimiento a la espera de nuevos datos
tras acciones.
Tipos de técnicas
• Paramétricas, no paramétricas
• Grado de supervisión
– Supervisadas, no supervisadas, por refuerzo
• Tipo de información resultante
– Simbólica, subsimbólica/numérica, mixta
• Número de técnicas empleadas
– Sencillos, meta-clasificadores
• Tipo de clases
– Discretas, continuas, desconocidas
Elementos básicos de entrada
• Concepto: qué se quiere aprender (estructura inteligible y útil para
cada tipo de problema). Salida: descripción del concepto
Clasificación
Predicción/Estimación
Asociación
Agrupamiento
• Atributo: qué características (variables) se van a utilizar para
describir el concepto
– Ej.: salario, crédito solicitado, categoría a la que pertenece, ...
– Tipos: continuos, nominales/categóricos
• Clase: diferentes valores (etiquetas) del concepto aprendido
– Ej.:sí, no, necesita-aval, etc.
• Instancia o ejemplo: cada muestra a partir de la cual se extrae el
concepto
TALLER
Desarrollar el siguiente cuestionario para afianzar los conocimientos adquiridos
Suscribirse a:
Entradas (Atom)