Guía docente de Obtención, Almacenamiento y Procesamiento de Datos Sociales Digitales (MD6/56/1/6)

Curso 2024/2025
Fecha de aprobación por la Comisión Académica 21/06/2024

Máster

Máster Universitario en Ciencia de Datos Aplicada a las Ciencias Sociales

Módulo

Herramientas de la Ciencia de Datos Aplicada a las Ciencias Sociales

Rama

Ciencias Sociales y Jurídicas

Centro Responsable del título

Escuela Internacional de Posgrado

Semestre

Primero

Créditos

4.5

Tipo

Obligatorio

Tipo de enseñanza

Enseñanza Virtual

Profesorado

  • Ignacio José Blanco Medina
  • Carlos Alberto Cruz Corona
  • Salvador García López

Horario de Tutorías

Ignacio José Blanco Medina

Email
  • Tutorías 1º semestre
    • Martes 10:00 a 13:00 (D27 (Etsiit))
    • Jueves 10:00 a 13:00 (D27 (Etsiit))
  • Tutorías 2º semestre
    • Miércoles 10:00 a 13:00 (D27 (Etsiit))
    • Jueves 10:00 a 13:00 (D27 (Etsiit))

Carlos Alberto Cruz Corona

Email
  • Tutorías 1º semestre
    • Martes 10:00 a 13:00 (M2 (Fciencia))
    • Miércoles 10:00 a 13:00 (M2 (Fciencia))
  • Tutorías 2º semestre
    • Martes 8:00 a 12:00 (D16 (Etsiit))
    • Martes 17:00 a 19:00 (D16 (Etsiit))

Salvador García López

Email
  • Tutorías 1º semestre
    • Lunes 16:30 a 18:30 (D 26 (Etsiit))
    • Lunes 9:30 a 11:30 (Mect (Fciencia))
    • Jueves 9:30 a 11:30 (Mect (Fciencia))
  • Tutorías 2º semestre
    • Martes 9:00 a 12:00 (D26 (Etsiit))
    • Jueves 9:00 a 12:00 (D26 (Etsiit))

Breve descripción de contenidos (Según memoria de verificación del Máster)

  1. Obtención de datos
  • Procesos de extracción, transformación y carga de datos estructurados
  • Introducción a las tecnologías de documentos y buscadores web
  • Introducción a scrapers y crawlers
  1. Almacenamiento de datos
  • Introducción a las bases de datos relacionales
  • Otras bases de datos (NoSQL)
  1. Preprocesamiento de datos
  • Normalización y discretización
  • Reducción de dimensionalidad: selección de características
  • Reducción y ampliación de datos: muestreo y generación sintética
  • Calidad de los datos: tratamiento de valores perdidos y con ruido
  • Transformación de datos

Prerrequisitos y/o Recomendaciones

Ninguno.

Competencias

Competencias Básicas

  • CB6. Poseer y comprender conocimientos que aporten una base u oportunidad de ser originales en desarrollo y/o aplicación de ideas, a menudo en un contexto de investigación.
  • CB7. Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.
  • CB8. Que los estudiantes sean capaces de integrar conocimientos y enfrentarse a la complejidad de formular juicios a partir de una información que, siendo incompleta o limitada, incluya reflexiones sobre las responsabilidades sociales y éticas vinculadas a la aplicación de sus conocimientos y juicios.
  • CB9. Que los estudiantes sepan comunicar sus conclusiones y los conocimientos y razones últimas que las sustentan a públicos especializados y no especializados de un modo claro y sin ambigüedades.
  • CB10. Que los estudiantes posean las habilidades de aprendizaje que les permitan continuar estudiando de un modo que habrá de ser en gran medida autodirigido o autónomo.

Resultados de aprendizaje (Objetivos)

  • Conocer los diversos procesos para la obtención de información de varias fuentes y la adaptación de la misma para su tratamiento posterior por uno o varios sistemas de procesamiento.
  • Conocer y manejar las herramientas para la búsqueda de información en Internet así como diversas técnicas para la extracción de información estructurada a partir de la web (no estructurada) o documentos en la web (semi-estructurados).
  • Manejar los conceptos básicos y técnicas para la representación, el almacenamiento y la recuperación de información en sistemas gestores de bases de datos estructurados y no estructurados.
  • Conocer y manejar las diferentes técnicas de preprocesamiento de datos existentes para la selección, limpieza, enriquecimiento, reducción y transformación de datos mediante discretización, tratamiento de datos perdidos, reducción de la dimensionalidad, selección y generación sintética de datos.
  • Saber aplicar las técnicas para modelar y resolver problemas reales o académicos y conocer las principales herramientas software existentes para modelar y resolver problemas de búsqueda, representación, almacenamiento y preprocesamiento de datos.

Programa de contenidos Teóricos y Prácticos

Teórico

  1. Conceptos básicos: dato, colección e información
  2. Introducción a la extracción, transformación y carga de datos (ETL)
  • Carga de datos tabulares
  • Reorganización, selección y filtrado
  • Agrupamiento y resumen
  1. Fuentes de datos:
  • Estructuradas
  • Semi-estructuradas
  • No estructuradas
  1. Extracción de información:
  • Desde fuentes de datos estructuradas
  • Desde fuentes de datos semi-estructuradas y no estructuradas
  1. Preprocesamiento de datos
  • Normalización y discretización
  • Reducción de dimensionalidad: selección de características, análisis de componentes principales (PCA), reducción no lineal.
  • Reducción y ampliación de datos: muestreo y generación sintética de datos
  • Calidad de los datos: tratamiento de valores perdidos y con ruido
  • Transformación de datos avanzada

Práctico

  1. Herramientas de extracción de información a partir de documentos y desde la web
  2. Lenguaje de manejo y consulta de bases de datos relacionales
  3. Manejo y consulta de bases de datos no relacionales
  4. Lenguajes para la extracción, transformación y carga de datos en entornos distribuidos
  5. Programación en preprocesamiento de datos: Bibliotecas para análisis, mejora de calidad y transformación de los datos.
  6. Resolución de problemas con preprocesamiento de datos.

Bibliografía

Bibliografía fundamental

  • S. García, J. Luengo, F. Herrera. Data preprocessing in Data Mining. Springer, 2015.
  • A. Silberschatz, H. F. Korth, S. Sudarshan. Database Systems Concepts (7ª edición). McGraw-Hill, 2020.
  • V. Smith. Go Web Scraping Quick Start Guide (1st edition). Packt Publishing, 2019.
  • D. Lewandowski. Understanding Search Engines. Springer, 2023.
  • A. Sarasa Cabezuelo. Introducción a las Bases de Datos NoSQL usando MongoDB. Editorial UOC, 2016.

Bibliografía complementaria

  • R. Núñez. Gestión de Bases de Datos. RA-MA Editorial, 2023.
  • A. Sarasa Cabezuelo. Introducción a las Bases de Datos NoSQL usando Cassandra. Ediciones Complutense, 2019.
  • A. Sarasa Cabezuelo. Introducción a las Bases de Datos NoSQL Clave-Valor usando Redis. Editorial UOC, 2019.
  • D. Pyle. Data Preparation for Data Mining. Morgan Kaufmann, 1999.
  • R. Jafari. Hands-On Data Preprocessing in Python: Learn How to Effectively Prepare Data for Successful Data Analytics. Packt Publishing, 2022.
  • AI Publishing. Data Preprocessing with Python for Absolute Beginners: Step-by-Step Guide with Hands-on Projects and Exercises. Self Publishing, 2020.

Enlaces recomendados

Metodología docente

Evaluación (instrumentos de evaluación, criterios de evaluación y porcentaje sobre la calificación final.)

Evaluación Ordinaria

Siguiendo las normativas de Evaluación y Calificación del Estudiantado de la Universidad de Granada y la Universidad de Salamanca se establece que la convocatoria ordinaria estará basada preferentemente en la evaluación continua del estudiante, excepto para quienes se le haya reconocido el derecho a la evaluación única final.

La calificación final de cada alumno/a se obtendrá mediante la evaluación de:

  • Test de evaluación sobre metodologías de preprocesamiento (20%) [SE3]
  • Test de evaluación sobre manejo de bases de datos relacionales (15%) [SE3]
  • Test de evaluación sobre manejo de bases de datos no relacionales (15%) [SE3]
  • Trabajo práctico sobre extracción de información de documentos (10%) [SE1, SE9]
  • Trabajo práctico sobre extracción de información de la web (10%) [SE1, SE9]
  • Trabajo práctico sobre análisis de datos con técnicas de preprocesamiento (30%) [SE1, SE9]

CRITERIOS DE EVALUACIÓN:

Se tendrá en cuenta que en el proceso de aprendizaje cada estudiante haya aprendido los siguientes aspectos:

  • Análisis de datos y manejo de técnicas correctas de preprocesamiento de datos
  • Transformación y mejora de la calidad de conjuntos de datos
  • Manejo de bases de datos relacionales
  • Manejo de bases de datos no relacionales
  • Extracción de información de documentos
  • Extracción de información de la web

Evaluación Extraordinaria

Siguiendo las normativas de Evaluación y Calificación del Estudiantado de la Universidad de Granada y la Universidad de Salamanca se establece que los estudiantes que no hayan superado la asignatura en la convocatoria ordinaria dispondrán de una convocatoria extraordinaria. A ella podrán concurrir todos los estudiantes, con independencia de haber seguido o no un proceso de evaluación continua. De esta forma, el estudiante que no haya realizado la evaluación continua tendrá la posibilidad de obtener el 100% de la calificación mediante:

  • Trabajo práctico sobre análisis de datos con técnicas de preprocesamiento (50%)
  • Test de evaluación sobre manejo de bases de datos relacionales y no relacionales (30%)
  • Trabajo práctico individual sobre extracción de información de documentos y de la web (20%)

CRITERIOS DE EVALUACIÓN:

Se tendrá en cuenta que en el proceso de aprendizaje cada estudiante haya aprendido los siguientes aspectos:

  • Análisis de datos y manejo de técnicas correctas de preprocesamiento de datos
  • Transformación y mejora de la calidad de conjuntos de datos
  • Manejo de bases de datos relacionales
  • Manejo de bases de datos no relacionales
  • Extracción de información de documentos
  • Extracción de información de la web

Evaluación única final

Siguiendo las normativas de Evaluación y Calificación del Estudiantado de la Universidad de Granada y la Universidad de Salamanca se establece que podrán acogerse a la evaluación única final, el estudiantado que no pueda cumplir con el método de evaluación continua por causas justificadas.

Para acogerse a la evaluación única final, el estudiante, en las dos primeras semanas de impartición de la asignatura o en las dos semanas siguientes a su matriculación si ésta se ha producido con posterioridad al inicio de las clases o por causa sobrevenidas. Lo solicitará, a través del procedimiento electrónico, a la Coordinación del Máster, quien dará traslado al profesorado correspondiente, alegando y acreditando las razones que le asisten para no poder seguir el sistema de evaluación continua.

Prueba de la asignatura donde se valorará que el estudiantado haya interiorizado los siguientes aspectos:

  • Trabajo práctico sobre análisis de datos con técnicas de preprocesamiento (50%)
  • Test de evaluación sobre manejo de bases de datos relacionales y no relacionales (30%)
  • Trabajo práctico individual sobre extracción de información de documentos y de la web (20%)

Información adicional

Información de interés para estudiantado con discapacidad y/o Necesidades Específicas de Apoyo Educativo (NEAE): Gestión de servicios y apoyos (https://ve.ugr.es/servicios/atencion-social/estudiantes-con-discapacidad).