GUÍA DE DATASETS WIFI

WiFi Sensing Dataset: cómo elegir datos CSI para RuView, HAR y presencia

Un buen dataset de WiFi sensing no es solo una carpeta de archivos CSI. Debe explicar hardware, etiquetas, línea base, límites de tarea y particiones de evaluación.

Infografía de datos WiFi que pasan de una habitación a etiquetas, línea base y validación
Un dataset útil conecta CSI bruto, contexto de habitación, etiquetas, línea base y particiones de validación.

Quien busca un WiFi sensing dataset suele necesitar datos CSI públicos para actividad humana, un benchmark para comparar modelos o muestras realistas para probar una demo sin cámara. Esos objetivos se parecen, pero no piden el mismo dataset.

Para usuarios de RuView, el dataset importa porque está debajo de la interfaz. La demo muestra una experiencia, GitHub muestra el código y la guía ESP32 explica captura; el dataset define lo que el modelo pudo aprender.

Qué debe tener un buen dataset WiFi sensing

Un buen dataset WiFi sensing documenta cómo se capturó el CSI, no solo las clases disponibles. Debe indicar hardware, banda, antenas, ritmo de paquetes, sala, participantes, protocolo, sincronización y split de evaluación.

La tarea es el filtro principal. HAR necesita acciones repetidas; presencia necesita sala vacía y sala ocupada; respiración requiere referencia independiente; multiusuario necesita etiquetas que describan interacción y no solo acciones individuales.

  • Prefiere datasets con hardware, sala, participantes y etiquetas explícitas.
  • Busca baseline vacía y pruebas negativas, no solo clips correctos.
  • Comprueba si el split separa personas, salas, sesiones o dispositivos.

Benchmarks públicos que conviene comparar

Los recursos públicos tienen formas distintas. Awesome-WiFi-CSI-Sensing funciona como directorio de papers, repositorios y datasets. SenseFi ayuda a comparar modelos PyTorch sobre datasets públicos. WiMANS es útil para actividad multiusuario. CSI-Bench apunta a pruebas reales con dispositivos WiFi comerciales.

No los trates como equivalentes. Un directorio sirve para descubrir, una biblioteca para reproducir y un dataset en campo para medir robustez.

Recurso Mejor uso Qué revisar
Awesome-WiFi-CSI-Sensing Encontrar papers y datasets Acceso y documentación actual
SenseFi Benchmark de modelos Datasets, modelos y splits
WiMANS Actividad multiusuario Etiquetas, usuarios y video de referencia
CSI-Bench WiFi sensing realista Tareas, dispositivos y condiciones de acceso

Cómo elegir datos para RuView

Empieza con la pregunta que quieres responder en RuView. Si buscas presencia, no empieces con gestos finos. Si buscas generalización, evita splits donde train y test vienen de la misma sesión.

La checklist práctica incluye CSI bruto, metadatos, etiquetas, baseline y splits. Sin esos elementos, la precisión puede ser memoria de una sala.

  • Registra baseline local aunque uses datos públicos.
  • Conserva tiempos y pruebas negativas para movimiento o pose.
  • Documenta consentimiento y límites si hay video sincronizado.

Errores frecuentes

El error más común es creer que una alta precisión en un dataset significa que el sistema funcionará en otra sala. El CSI cambia con paredes, muebles, antenas, firmware y tráfico.

También se mezclan tareas incompatibles. Un dataset de gestos no prueba presencia multiusuario, y un dataset con video puede ser demasiado sensible para una demo ligera.

Error Riesgo Mejor enfoque
Usar una sola sala El modelo memoriza multipath Probar salas y sesiones distintas
Sin baseline Aumentan falsos positivos Capturar sala vacía y negativos
Ignorar privacidad Video o rutinas son sensibles Explicar consentimiento y acceso
Comparar tareas distintas Las etiquetas no coinciden Elegir dataset por tarea

Plan pequeño con ESP32 y RuView

Si ningún dataset público coincide, crea uno pequeño: sala vacía, entrada, salida, caminar, sentarse, puerta sin persona y tráfico de router sin movimiento.

Guarda CSI bruto, features filtradas, etiquetas, notas de sala y splits por separado. Así cada predicción puede rastrearse hasta una sesión.

  • Nombra sesiones por fecha, sala, dispositivo, banda y escenario.
  • Separa CSI bruto de features procesadas.
  • Reserva una sesión o sala para test.
WiFi sensing dataset checklist with raw CSI, labels, baseline, and validation stages
Dataset quality improves when capture, labels, baseline, and validation are planned before modeling.

Por qué no compite con otras páginas RuView

Esta guía no compite con la home, la guía GitHub, la guía ESP32 ni la página de motion capture. Su intención es elegir datasets, comparar benchmarks, revisar etiquetas y planificar validación.

Quien busca “ruview github” debe llegar a la guía GitHub. Quien busca “wifi sensing dataset” necesita criterios de datos antes de decidir si RuView, ESP32 o un corpus público es el siguiente paso.

Fuentes y referencias de datasets

Preguntas frecuentes sobre datasets WiFi sensing

¿Cuál es el mejor dataset para empezar?

Para aprender modelos, empieza con un benchmark bien documentado como SenseFi. Para una demo RuView real, añade una línea base local.

¿Puedo entrenar RuView con cualquier dataset CSI?

No con seguridad. Debe coincidir con hardware, tarea, sala y etiquetas.

¿Por qué importa la sala vacía?

Permite detectar cambios del entorno y falsos positivos.

¿Son sensibles estos datasets?

Sí. CSI puede revelar presencia y rutinas, y los videos sincronizados requieren más cuidado.