WIFI DATASET GUIDE

WiFi Sensing Dataset: RuView, HAR, 존재 감지를 위한 CSI 데이터 선택법

좋은 WiFi sensing dataset에는 하드웨어 정보, 라벨, 빈 방 기준선, 작업 범위, 평가 분할이 필요합니다.

방에서 나온 WiFi sensing 데이터가 라벨, 기준선, 검증으로 이어지는 인포그래픽
신뢰할 수 있는 dataset은 raw CSI, 공간 맥락, 라벨, 기준선, 평가 분할을 함께 제공해야 합니다.

WiFi sensing dataset을 찾는 사람은 보통 공개 CSI 데이터, 모델 비교 benchmark, 또는 카메라 없는 데모 검증용 샘플을 원합니다. 목적이 다르면 필요한 데이터도 달라집니다.

RuView에서는 dataset이 모델이 실제로 학습한 내용을 결정합니다. 데모는 경험을, GitHub는 코드를, ESP32 가이드는 수집 방식을 보여주지만 검증의 한계는 데이터가 정합니다.

좋은 WiFi sensing dataset의 조건

좋은 WiFi sensing dataset은 label 목록뿐 아니라 CSI가 어떻게 수집되었는지 설명해야 합니다. 하드웨어, WiFi band, antenna, packet rate, 공간, 참여자, protocol, synchronization, evaluation split이 필요합니다.

가장 중요한 기준은 목표 작업과의 일치입니다. HAR은 반복 행동 label, 존재 감지는 빈 방과 점유 방 trial, 호흡은 독립 reference, multi-user sensing은 상호작용 label이 필요합니다.

  • 하드웨어, 공간, 참여자, label 문서가 명확한 dataset을 우선합니다.
  • 성공 clip뿐 아니라 빈 방 baseline과 negative trial을 확인합니다.
  • split이 사람, 공간, session, device를 분리하는지 봅니다.

비교할 만한 공개 benchmark

공개 resource는 역할이 다릅니다. Awesome-WiFi-CSI-Sensing은 paper와 dataset directory, SenseFi는 PyTorch benchmark, WiMANS는 multi-user activity, CSI-Bench는 실제 환경 WiFi sensing에 가깝습니다.

directory는 발견, benchmark는 재현, in-the-wild dataset은 robustness 검증에 적합합니다.

Resource 적합한 용도 확인할 점
Awesome-WiFi-CSI-Sensing paper와 dataset 탐색 접근성과 문서
SenseFi model benchmark dataset, model, split
WiMANS multi-user activity label, 사용자 수, reference video
CSI-Bench 현실적 WiFi sensing task, device, access 조건

RuView 워크플로에 맞는 데이터 선택

먼저 RuView가 답해야 할 질문을 정합니다. 존재 감지라면 세밀한 gesture dataset부터 시작하지 마세요. 일반화를 보려면 같은 session 안의 random split은 약합니다.

실용 checklist는 raw CSI, metadata, scenario label, baseline, validation split입니다. 이것이 없으면 높은 정확도는 한 공간을 외운 결과일 수 있습니다.

  • 공개 데이터를 쓰더라도 local baseline을 기록합니다.
  • motion이나 pose에는 timing과 negative trial을 보존합니다.
  • 동기화 video가 있으면 동의와 access 제한을 문서화합니다.

흔한 dataset 실수

가장 흔한 실수는 한 dataset의 높은 정확도를 새 공간의 보장으로 보는 것입니다. CSI는 벽, 가구, antenna, firmware, traffic에 크게 좌우됩니다.

작업을 섞는 것도 문제입니다. gesture dataset은 multi-user presence를 증명하지 않고, video가 포함된 benchmark는 가벼운 demo에 privacy 부담이 될 수 있습니다.

실수 위험 더 안전한 접근
한 공간 정확도 multipath를 외움 공간과 session 분리
baseline 없음 false positive 누락 빈 방과 negative 수집
privacy 무시 video와 routine 민감 동의와 access 설명
작업 혼합 label 불일치 작업 기준으로 dataset 선택

ESP32와 RuView를 위한 작은 수집 계획

공개 dataset이 맞지 않으면 작은 local dataset을 만드세요. 빈 방, 입실, 퇴실, 걷기, 앉기, 사람 없는 문 움직임, 움직임 없는 router traffic을 기록합니다.

raw CSI, filtered feature, label, room note, split definition을 분리해 저장합니다. 모든 예측은 capture session까지 추적 가능해야 합니다.

  • session 이름에 날짜, 공간, device 배치, band, scenario를 넣습니다.
  • raw CSI와 처리 feature를 분리합니다.
  • 최소 한 session 또는 공간을 test로 남깁니다.
WiFi sensing dataset checklist with raw CSI, labels, baseline, and validation stages
Dataset quality improves when capture, labels, baseline, and validation are planned before modeling.

기존 RuView 페이지와 충돌하지 않는 이유

이 페이지는 homepage, GitHub guide, ESP32 guide, motion capture page를 대체하지 않습니다. dataset 선택, benchmark 비교, label, split, validation planning을 다룹니다.

“ruview github” 검색자는 GitHub guide로, “wifi sensing dataset” 검색자는 RuView나 ESP32 전에 데이터 기준을 확인하는 것이 맞습니다.

데이터셋 참고 자료

WiFi Sensing Dataset FAQ

초보자에게 좋은 dataset은 무엇인가요?

모델 학습에는 SenseFi처럼 문서화된 benchmark가 좋습니다. 실제 RuView 데모에는 로컬 기준선 데이터도 필요합니다.

아무 CSI dataset으로 RuView를 학습할 수 있나요?

안전하지 않습니다. 하드웨어, 공간, 라벨, 작업이 맞아야 합니다.

빈 방 기준선은 왜 중요한가요?

환경 변화와 사람 활동을 구분하고 false positive를 줄이기 위해 필요합니다.

WiFi sensing dataset은 민감한가요?

그렇습니다. CSI도 존재와 생활 패턴을 드러낼 수 있고, 동기화된 영상은 더 신중해야 합니다.