Skip to main content

Curso de bases de datos para biólogos

Biól. Bernardo Serrano Estrada

Egresado de la carrera de Biología por la Facultad de Estudios Superiores Iztacala de la UNAM, Bernardo Serrano Estrada es un profesional independiente con más de 15 años de experiencia en el desarrollo de sistemas web, bases de datos y aplicaciones móviles. A lo largo de su trayectoria ha liderado y concluido más de 100 proyectos, aplicando soluciones tecnológicas en áreas como informática de la biodiversidad, informática biomédica, ingeniería ambiental y distintos sectores empresariales. Su enfoque integra el conocimiento biológico con herramientas de programación, algoritmos informáticos y técnicas estadísticas para el análisis y visualización de datos, aplicando su formación científica a la solución de problemas.


A lo largo de su trayectoria, ha participado como ponente en diversos congresos nacionales e internacionales, y ha contribuido como autor de publicaciones científicas en áreas como botánica, biomedicina y ciencias computacionales, dando a conocer los resultados y alcances de sus desarrollos interdisciplinarios.


Entre sus logros más relevantes destaca el desarrollo y programación de bases de datos para algunos de los sistemas de información biológica más consultados en México, entre ellos IBdata del Instituto de Biología de la UNAMSIPMX (Sistema de Información de Plantas Vasculares de México) y AbaTax, una plataforma para la creación y consulta en línea de claves taxonómicas, incluyendo FAMEX.


Gracias a la relevancia de algunos de los proyectos en los que ha participado, estos han sido difundidos en diversos medios de comunicación, incluyendo televisión, radio, revistas y periódicos.

¿Por qué empezar aquí?

Porque muchos no saben que están haciendo algo mal, solo “funciona… hasta que no”.


Contenidos

  • ¿Qué es una base de datos y qué NO es?
  • Diferencias entre:
    • Excel vs Base de datos relacional
    • Archivo vs sistema
  • Errores típicos en biología:
    • Una fila = una especie (mal)
    • Columnas como “familia / género / especie” duplicadas
    • Celdas con múltiples valores (“Canis lupus, Vulpes vulpes”)
  • Ejemplos reales de datasets biológicos mal estructurados


Actividad

Analizar un Excel real de biodiversidad y detectar errores estructurales.

Contenidos

  • ¿Qué es una entidad?
    • Especie
    • Individuo
    • Registro de ocurrencia
    • Localidad
    • Muestreo
    • Gen / Secuencia
  • ¿Qué es un atributo?
  • ¿Qué es una relación?
    • 1 a 1
    • 1 a muchos
    • Muchos a muchos


Ejemplos biológicos clave

  • Una especie puede estar en muchos estados
  • Un muestreo tiene muchas observaciones
  • Un individuo puede tener muchas mediciones
  • Una secuencia pertenece a un gen y a un organismo


Conceptos clave

  • Claves primarias
  • Claves foráneas
  • Por qué los IDs son mejores que los nombres

Objetivo

Evitar redundancia y errores sin matemáticas ni jerga innecesaria.


Contenidos

  • ¿Qué es la normalización?
  • Primera, segunda y tercera forma normal (explicadas con ejemplos biológicos)
  • Cuándo y cuándo no normalizar demasiado
  • Redundancia biológica vs redundancia informática


Ejemplo

Pasar de una tabla gigante de Excel a:

  • especies
  • localidades
  • ocurrencias
  • taxonomía

Contenidos

  • Diagramas entidad–relación (ER)
  • Casos de estudio:
    • Base de datos de biodiversidad
    • Base de datos de muestreos ecológicos
    • Base de datos genómica básica
  • Antipatrones comunes:
    • “tabla de todo”
    • columnas dinámicas
    • usar texto para todo


Actividad

Diseñar en papel una base de datos para:

“Registros de especies en México por estado y año”

Contenidos

  • Valores nulos vs cero
  • Datos faltantes
  • Inconsistencias taxonómicas
  • Duplicados
  • Estándares biológicos:
    • Darwin Core (introducción)
    • ISO para fechas
    • Coordenadas geográficas


Actividad

Detectar y corregir errores en un dataset real.

Contenidos

  • Cómo preparar Excel para importar
  • Separar tablas correctamente
  • Importación paso a paso
  • Validar que los datos se importaron bien

Cada persona:

  • Toma un dataset biológico real, preferentemente del trabajo que actualmente realizan
  • Diseña la base de datos
  • La implementa

Contenidos

  • ¿Qué es SQL?
  • SELECT, FROM, WHERE
  • ORDER BY, LIMIT
  • DISTINCT
  • Alias


Enfoque

Siempre con preguntas biológicas, por ejemplo:

  • ¿Qué especies hay en Durango?
  • ¿Cuántos registros por familia?
  • ¿Cuántos muestreos por año?

Contenidos

  • INNER JOIN
  • LEFT JOIN
  • Relaciones reales entre tablas
  • Errores comunes con JOIN


Ejemplos

  • Especies + ocurrencias + estados
  • Muestreos + localidades
  • Genes + organismos

Contenidos

  • COUNT, SUM, AVG
  • GROUP BY
  • HAVING
  • Errores típicos con GROUP BY


Ejemplos reales

  • Número de especies por estado
  • Número de registros por familia
  • Riqueza de especies por año

Contenidos

  • Nombres de tablas y columnas
  • Documentación de la base de datos
  • Versionado de datos
  • Seguridad básica
  • Cómo usar:
    • SQLite (local, proyectos pequeños)
    • PostgreSQL (estándar científico)
    • MySQL (casos específicos)

Cada persona:

  • Toma un dataset biológico real, preferentemente del trabajo que actualmente realizan
  • Diseña la base de datos
  • La implementa
  • Responde preguntas biológicas reales con SQL

Contenidos

  • DBI, RPostgres / RSQLite
  • Consultas reproducibles
  • Integración con dplyr, ggplot2

Contenidos

  • psycopg2 / SQLAlchemy
  • Pandas + SQL
  • Automatización de análisis

Cada persona:

  • Toma un dataset biológico real, preferentemente del trabajo que actualmente realizan
  • Diseña la base de datos
  • La implementa
  • La conecta con R o Python
  • Responde preguntas biológicas reales