Guía docente de Obtención, Almacenamiento y Procesamiento de Datos Sociales Digitales (MD6/56/1/6)

Curso 2024/2025
Fecha de aprobación por la Comisión Académica 21/06/2024

Máster

Máster Universitario en Ciencia de Datos Aplicada a las Ciencias Sociales

Módulo

Herramientas de la Ciencia de Datos Aplicada a las Ciencias Sociales

Rama

Ciencias Sociales y Jurídicas

Centro Responsable del título

Escuela Internacional de Posgrado

Semestre

Primero

Créditos

4.5

Tipo

Obligatorio

Tipo de enseñanza

Enseñanza Virtual

Profesorado

  • Ignacio José Blanco Medina
  • Carlos Alberto Cruz Corona
  • Salvador García López

Horario de Tutorías

Ignacio José Blanco Medina

Email
No hay tutorías asignadas para el curso académico.

Carlos Alberto Cruz Corona

Email
No hay tutorías asignadas para el curso académico.

Salvador García López

Email
No hay tutorías asignadas para el curso académico.

Breve descripción de contenidos (Según memoria de verificación del Máster)

  1. Obtención de datos
  • Procesos de extracción, transformación y carga de datos estructurados
  • Introducción a las tecnologías de documentos y buscadores web
  • Introducción a scrapers y crawlers
  1. Almacenamiento de datos
  • Introducción a las bases de datos relacionales
  • Otras bases de datos (NoSQL)
  1. Preprocesamiento de datos
  • Normalización y discretización
  • Reducción de dimensionalidad: selección de características
  • Reducción y ampliación de datos: muestreo y generación sintética
  • Calidad de los datos: tratamiento de valores perdidos y con ruido
  • Transformación de datos

Prerrequisitos y/o Recomendaciones

Ninguno.

Competencias

Competencias Básicas

  • CB6. Poseer y comprender conocimientos que aporten una base u oportunidad de ser originales en desarrollo y/o aplicación de ideas, a menudo en un contexto de investigación.
  • CB7. Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.
  • CB8. Que los estudiantes sean capaces de integrar conocimientos y enfrentarse a la complejidad de formular juicios a partir de una información que, siendo incompleta o limitada, incluya reflexiones sobre las responsabilidades sociales y éticas vinculadas a la aplicación de sus conocimientos y juicios.
  • CB9. Que los estudiantes sepan comunicar sus conclusiones y los conocimientos y razones últimas que las sustentan a públicos especializados y no especializados de un modo claro y sin ambigüedades.
  • CB10. Que los estudiantes posean las habilidades de aprendizaje que les permitan continuar estudiando de un modo que habrá de ser en gran medida autodirigido o autónomo.

Resultados de aprendizaje (Objetivos)

  • Conocer los diversos procesos para la obtención de información de varias fuentes y la adaptación de la misma para su tratamiento posterior por uno o varios sistemas de procesamiento.
  • Conocer y manejar las herramientas para la búsqueda de información en Internet así como diversas técnicas para la extracción de información estructurada a partir de la web (no estructurada) o documentos en la web (semi-estructurados).
  • Manejar los conceptos básicos y técnicas para la representación, el almacenamiento y la recuperación de información en sistemas gestores de bases de datos estructurados y no estructurados.
  • Conocer y manejar las diferentes técnicas de preprocesamiento de datos existentes para la selección, limpieza, enriquecimiento, reducción y transformación de datos mediante discretización, tratamiento de datos perdidos, reducción de la dimensionalidad, selección y generación sintética de datos.
  • Saber aplicar las técnicas para modelar y resolver problemas reales o académicos y conocer las principales herramientas software existentes para modelar y resolver problemas de búsqueda, representación, almacenamiento y preprocesamiento de datos.

Programa de contenidos Teóricos y Prácticos

Teórico

  1. Conceptos básicos: dato, colección e información
  2. Introducción a la extracción, transformación y carga de datos (ETL)
  • Carga de datos tabulares
  • Reorganización, selección y filtrado
  • Agrupamiento y resumen
  1. Fuentes de datos:
  • Estructuradas
  • Semi-estructuradas
  • No estructuradas
  1. Extracción de información:
  • Desde fuentes de datos estructuradas
  • Desde fuentes de datos semi-estructuradas y no estructuradas
  1. Preprocesamiento de datos
  • Normalización y discretización
  • Reducción de dimensionalidad: selección de características, análisis de componentes principales (PCA), reducción no lineal.
  • Reducción y ampliación de datos: muestreo y generación sintética de datos
  • Calidad de los datos: tratamiento de valores perdidos y con ruido
  • Transformación de datos avanzada

Práctico

  1. Herramientas de extracción de información a partir de documentos y desde la web
  2. Lenguaje de manejo y consulta de bases de datos relacionales
  3. Manejo y consulta de bases de datos no relacionales
  4. Lenguajes para la extracción, transformación y carga de datos en entornos distribuidos
  5. Programación en preprocesamiento de datos: Bibliotecas para análisis, mejora de calidad y transformación de los datos.
  6. Resolución de problemas con preprocesamiento de datos.

Bibliografía

Bibliografía fundamental

  • S. García, J. Luengo, F. Herrera. Data preprocessing in Data Mining. Springer, 2015.
  • A. Silberschatz, H. F. Korth, S. Sudarshan. Database Systems Concepts (7ª edición). McGraw-Hill, 2020.
  • V. Smith. Go Web Scraping Quick Start Guide (1st edition). Packt Publishing, 2019.
  • D. Lewandowski. Understanding Search Engines. Springer, 2023.
  • A. Sarasa Cabezuelo. Introducción a las Bases de Datos NoSQL usando MongoDB. Editorial UOC, 2016.

Bibliografía complementaria

  • R. Núñez. Gestión de Bases de Datos. RA-MA Editorial, 2023.
  • A. Sarasa Cabezuelo. Introducción a las Bases de Datos NoSQL usando Cassandra. Ediciones Complutense, 2019.
  • A. Sarasa Cabezuelo. Introducción a las Bases de Datos NoSQL Clave-Valor usando Redis. Editorial UOC, 2019.
  • D. Pyle. Data Preparation for Data Mining. Morgan Kaufmann, 1999.
  • R. Jafari. Hands-On Data Preprocessing in Python: Learn How to Effectively Prepare Data for Successful Data Analytics. Packt Publishing, 2022.
  • AI Publishing. Data Preprocessing with Python for Absolute Beginners: Step-by-Step Guide with Hands-on Projects and Exercises. Self Publishing, 2020.

Enlaces recomendados

Metodología docente

Evaluación (instrumentos de evaluación, criterios de evaluación y porcentaje sobre la calificación final.)

Evaluación Ordinaria

Siguiendo las normativas de Evaluación y Calificación del Estudiantado de la Universidad de Granada y la Universidad de Salamanca se establece que la convocatoria ordinaria estará basada preferentemente en la evaluación continua del estudiante, excepto para quienes se le haya reconocido el derecho a la evaluación única final.

La calificación final de cada alumno/a se obtendrá mediante la evaluación de:

  • Test de evaluación sobre metodologías de preprocesamiento (20%) [SE3]
  • Test de evaluación sobre manejo de bases de datos relacionales (15%) [SE3]
  • Test de evaluación sobre manejo de bases de datos no relacionales (15%) [SE3]
  • Trabajo práctico sobre extracción de información de documentos (10%) [SE1, SE9]
  • Trabajo práctico sobre extracción de información de la web (10%) [SE1, SE9]
  • Trabajo práctico sobre análisis de datos con técnicas de preprocesamiento (30%) [SE1, SE9]

CRITERIOS DE EVALUACIÓN:

Se tendrá en cuenta que en el proceso de aprendizaje cada estudiante haya aprendido los siguientes aspectos:

  • Análisis de datos y manejo de técnicas correctas de preprocesamiento de datos
  • Transformación y mejora de la calidad de conjuntos de datos
  • Manejo de bases de datos relacionales
  • Manejo de bases de datos no relacionales
  • Extracción de información de documentos
  • Extracción de información de la web

Evaluación Extraordinaria

Siguiendo las normativas de Evaluación y Calificación del Estudiantado de la Universidad de Granada y la Universidad de Salamanca se establece que los estudiantes que no hayan superado la asignatura en la convocatoria ordinaria dispondrán de una convocatoria extraordinaria. A ella podrán concurrir todos los estudiantes, con independencia de haber seguido o no un proceso de evaluación continua. De esta forma, el estudiante que no haya realizado la evaluación continua tendrá la posibilidad de obtener el 100% de la calificación mediante:

  • Trabajo práctico sobre análisis de datos con técnicas de preprocesamiento (50%)
  • Test de evaluación sobre manejo de bases de datos relacionales y no relacionales (30%)
  • Trabajo práctico individual sobre extracción de información de documentos y de la web (20%)

CRITERIOS DE EVALUACIÓN:

Se tendrá en cuenta que en el proceso de aprendizaje cada estudiante haya aprendido los siguientes aspectos:

  • Análisis de datos y manejo de técnicas correctas de preprocesamiento de datos
  • Transformación y mejora de la calidad de conjuntos de datos
  • Manejo de bases de datos relacionales
  • Manejo de bases de datos no relacionales
  • Extracción de información de documentos
  • Extracción de información de la web

Evaluación única final

Siguiendo las normativas de Evaluación y Calificación del Estudiantado de la Universidad de Granada y la Universidad de Salamanca se establece que podrán acogerse a la evaluación única final, el estudiantado que no pueda cumplir con el método de evaluación continua por causas justificadas.

Para acogerse a la evaluación única final, el estudiante, en las dos primeras semanas de impartición de la asignatura o en las dos semanas siguientes a su matriculación si ésta se ha producido con posterioridad al inicio de las clases o por causa sobrevenidas. Lo solicitará, a través del procedimiento electrónico, a la Coordinación del Máster, quien dará traslado al profesorado correspondiente, alegando y acreditando las razones que le asisten para no poder seguir el sistema de evaluación continua.

Prueba de la asignatura donde se valorará que el estudiantado haya interiorizado los siguientes aspectos:

  • Trabajo práctico sobre análisis de datos con técnicas de preprocesamiento (50%)
  • Test de evaluación sobre manejo de bases de datos relacionales y no relacionales (30%)
  • Trabajo práctico individual sobre extracción de información de documentos y de la web (20%)

Información adicional

Información de interés para estudiantado con discapacidad y/o Necesidades Específicas de Apoyo Educativo (NEAE): Gestión de servicios y apoyos (https://ve.ugr.es/servicios/atencion-social/estudiantes-con-discapacidad).