Guía docente de Obtención, Almacenamiento y Procesamiento de Datos Sociales Digitales (MD6/56/1/6)
Máster
Módulo
Rama
Centro Responsable del título
Semestre
Créditos
Tipo
Tipo de enseñanza
Profesorado
- Ignacio José Blanco Medina
- Carlos Alberto Cruz Corona
- Salvador García López
Horario de Tutorías
Ignacio José Blanco Medina
Email- Tutorías 1º semestre
- Martes 10:00 a 13:00 (D27 (Etsiit))
- Jueves 10:00 a 13:00 (D27 (Etsiit))
- Tutorías 2º semestre
- Miércoles 10:00 a 13:00 (D27 (Etsiit))
- Jueves 10:00 a 13:00 (D27 (Etsiit))
Carlos Alberto Cruz Corona
Email- Tutorías 1º semestre
- Martes 10:00 a 13:00 (M2 (Fciencia))
- Miércoles 10:00 a 13:00 (M2 (Fciencia))
- Tutorías 2º semestre
- Martes 8:00 a 12:00 (D16 (Etsiit))
- Martes 17:00 a 19:00 (D16 (Etsiit))
Salvador García López
Email- Tutorías 1º semestre
- Lunes 16:30 a 18:30 (D 26 (Etsiit))
- Lunes 9:30 a 11:30 (Mect (Fciencia))
- Jueves 9:30 a 11:30 (Mect (Fciencia))
- Tutorías 2º semestre
- Martes 9:00 a 12:00 (D26 (Etsiit))
- Jueves 9:00 a 12:00 (D26 (Etsiit))
Breve descripción de contenidos (Según memoria de verificación del Máster)
- Obtención de datos
- Procesos de extracción, transformación y carga de datos estructurados
- Introducción a las tecnologías de documentos y buscadores web
- Introducción a scrapers y crawlers
- Almacenamiento de datos
- Introducción a las bases de datos relacionales
- Otras bases de datos (NoSQL)
- Preprocesamiento de datos
- Normalización y discretización
- Reducción de dimensionalidad: selección de características
- Reducción y ampliación de datos: muestreo y generación sintética
- Calidad de los datos: tratamiento de valores perdidos y con ruido
- Transformación de datos
Prerrequisitos y/o Recomendaciones
Ninguno.
Competencias
Competencias Básicas
- CB6. Poseer y comprender conocimientos que aporten una base u oportunidad de ser originales en desarrollo y/o aplicación de ideas, a menudo en un contexto de investigación.
- CB7. Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.
- CB8. Que los estudiantes sean capaces de integrar conocimientos y enfrentarse a la complejidad de formular juicios a partir de una información que, siendo incompleta o limitada, incluya reflexiones sobre las responsabilidades sociales y éticas vinculadas a la aplicación de sus conocimientos y juicios.
- CB9. Que los estudiantes sepan comunicar sus conclusiones y los conocimientos y razones últimas que las sustentan a públicos especializados y no especializados de un modo claro y sin ambigüedades.
- CB10. Que los estudiantes posean las habilidades de aprendizaje que les permitan continuar estudiando de un modo que habrá de ser en gran medida autodirigido o autónomo.
Resultados de aprendizaje (Objetivos)
- Conocer los diversos procesos para la obtención de información de varias fuentes y la adaptación de la misma para su tratamiento posterior por uno o varios sistemas de procesamiento.
- Conocer y manejar las herramientas para la búsqueda de información en Internet así como diversas técnicas para la extracción de información estructurada a partir de la web (no estructurada) o documentos en la web (semi-estructurados).
- Manejar los conceptos básicos y técnicas para la representación, el almacenamiento y la recuperación de información en sistemas gestores de bases de datos estructurados y no estructurados.
- Conocer y manejar las diferentes técnicas de preprocesamiento de datos existentes para la selección, limpieza, enriquecimiento, reducción y transformación de datos mediante discretización, tratamiento de datos perdidos, reducción de la dimensionalidad, selección y generación sintética de datos.
- Saber aplicar las técnicas para modelar y resolver problemas reales o académicos y conocer las principales herramientas software existentes para modelar y resolver problemas de búsqueda, representación, almacenamiento y preprocesamiento de datos.
Programa de contenidos Teóricos y Prácticos
Teórico
- Conceptos básicos: dato, colección e información
- Introducción a la extracción, transformación y carga de datos (ETL)
- Carga de datos tabulares
- Reorganización, selección y filtrado
- Agrupamiento y resumen
- Fuentes de datos:
- Estructuradas
- Semi-estructuradas
- No estructuradas
- Extracción de información:
- Desde fuentes de datos estructuradas
- Desde fuentes de datos semi-estructuradas y no estructuradas
- Preprocesamiento de datos
- Normalización y discretización
- Reducción de dimensionalidad: selección de características, análisis de componentes principales (PCA), reducción no lineal.
- Reducción y ampliación de datos: muestreo y generación sintética de datos
- Calidad de los datos: tratamiento de valores perdidos y con ruido
- Transformación de datos avanzada
Práctico
- Herramientas de extracción de información a partir de documentos y desde la web
- Lenguaje de manejo y consulta de bases de datos relacionales
- Manejo y consulta de bases de datos no relacionales
- Lenguajes para la extracción, transformación y carga de datos en entornos distribuidos
- Programación en preprocesamiento de datos: Bibliotecas para análisis, mejora de calidad y transformación de los datos.
- Resolución de problemas con preprocesamiento de datos.
Bibliografía
Bibliografía fundamental
- S. García, J. Luengo, F. Herrera. Data preprocessing in Data Mining. Springer, 2015.
- A. Silberschatz, H. F. Korth, S. Sudarshan. Database Systems Concepts (7ª edición). McGraw-Hill, 2020.
- V. Smith. Go Web Scraping Quick Start Guide (1st edition). Packt Publishing, 2019.
- D. Lewandowski. Understanding Search Engines. Springer, 2023.
- A. Sarasa Cabezuelo. Introducción a las Bases de Datos NoSQL usando MongoDB. Editorial UOC, 2016.
Bibliografía complementaria
- R. Núñez. Gestión de Bases de Datos. RA-MA Editorial, 2023.
- A. Sarasa Cabezuelo. Introducción a las Bases de Datos NoSQL usando Cassandra. Ediciones Complutense, 2019.
- A. Sarasa Cabezuelo. Introducción a las Bases de Datos NoSQL Clave-Valor usando Redis. Editorial UOC, 2019.
- D. Pyle. Data Preparation for Data Mining. Morgan Kaufmann, 1999.
- R. Jafari. Hands-On Data Preprocessing in Python: Learn How to Effectively Prepare Data for Successful Data Analytics. Packt Publishing, 2022.
- AI Publishing. Data Preprocessing with Python for Absolute Beginners: Step-by-Step Guide with Hands-on Projects and Exercises. Self Publishing, 2020.
Enlaces recomendados
- Coursera, Data Science Fundamentals: https://www.coursera.org/specializations/data-science-fundamentals
- Towards Data Science: https://towardsdatascience.com
- Guide to Data Minig: http://guidetodatamining.com/
- Data Mining Book: http://www.dataminingbook.info/pmwiki.php/Main/BookDownload
- Plataformas Kaggle (https://www.kaggle.com/) y DrivenData (https://www.drivendata.org/)
Metodología docente
Evaluación (instrumentos de evaluación, criterios de evaluación y porcentaje sobre la calificación final.)
Evaluación Ordinaria
Siguiendo las normativas de Evaluación y Calificación del Estudiantado de la Universidad de Granada y la Universidad de Salamanca se establece que la convocatoria ordinaria estará basada preferentemente en la evaluación continua del estudiante, excepto para quienes se le haya reconocido el derecho a la evaluación única final.
La calificación final de cada alumno/a se obtendrá mediante la evaluación de:
- Test de evaluación sobre metodologías de preprocesamiento (20%) [SE3]
- Test de evaluación sobre manejo de bases de datos relacionales (15%) [SE3]
- Test de evaluación sobre manejo de bases de datos no relacionales (15%) [SE3]
- Trabajo práctico sobre extracción de información de documentos (10%) [SE1, SE9]
- Trabajo práctico sobre extracción de información de la web (10%) [SE1, SE9]
- Trabajo práctico sobre análisis de datos con técnicas de preprocesamiento (30%) [SE1, SE9]
CRITERIOS DE EVALUACIÓN:
Se tendrá en cuenta que en el proceso de aprendizaje cada estudiante haya aprendido los siguientes aspectos:
- Análisis de datos y manejo de técnicas correctas de preprocesamiento de datos
- Transformación y mejora de la calidad de conjuntos de datos
- Manejo de bases de datos relacionales
- Manejo de bases de datos no relacionales
- Extracción de información de documentos
- Extracción de información de la web
Evaluación Extraordinaria
Siguiendo las normativas de Evaluación y Calificación del Estudiantado de la Universidad de Granada y la Universidad de Salamanca se establece que los estudiantes que no hayan superado la asignatura en la convocatoria ordinaria dispondrán de una convocatoria extraordinaria. A ella podrán concurrir todos los estudiantes, con independencia de haber seguido o no un proceso de evaluación continua. De esta forma, el estudiante que no haya realizado la evaluación continua tendrá la posibilidad de obtener el 100% de la calificación mediante:
- Trabajo práctico sobre análisis de datos con técnicas de preprocesamiento (50%)
- Test de evaluación sobre manejo de bases de datos relacionales y no relacionales (30%)
- Trabajo práctico individual sobre extracción de información de documentos y de la web (20%)
CRITERIOS DE EVALUACIÓN:
Se tendrá en cuenta que en el proceso de aprendizaje cada estudiante haya aprendido los siguientes aspectos:
- Análisis de datos y manejo de técnicas correctas de preprocesamiento de datos
- Transformación y mejora de la calidad de conjuntos de datos
- Manejo de bases de datos relacionales
- Manejo de bases de datos no relacionales
- Extracción de información de documentos
- Extracción de información de la web
Evaluación única final
Siguiendo las normativas de Evaluación y Calificación del Estudiantado de la Universidad de Granada y la Universidad de Salamanca se establece que podrán acogerse a la evaluación única final, el estudiantado que no pueda cumplir con el método de evaluación continua por causas justificadas.
Para acogerse a la evaluación única final, el estudiante, en las dos primeras semanas de impartición de la asignatura o en las dos semanas siguientes a su matriculación si ésta se ha producido con posterioridad al inicio de las clases o por causa sobrevenidas. Lo solicitará, a través del procedimiento electrónico, a la Coordinación del Máster, quien dará traslado al profesorado correspondiente, alegando y acreditando las razones que le asisten para no poder seguir el sistema de evaluación continua.
Prueba de la asignatura donde se valorará que el estudiantado haya interiorizado los siguientes aspectos:
- Trabajo práctico sobre análisis de datos con técnicas de preprocesamiento (50%)
- Test de evaluación sobre manejo de bases de datos relacionales y no relacionales (30%)
- Trabajo práctico individual sobre extracción de información de documentos y de la web (20%)
Información adicional
Información de interés para estudiantado con discapacidad y/o Necesidades Específicas de Apoyo Educativo (NEAE): Gestión de servicios y apoyos (https://ve.ugr.es/servicios/atencion-social/estudiantes-con-discapacidad).