Cámara de conferencias (OEM 4K USB / NDI)
Cámara PTZ de conferencias 4K OEM, autoseguimiento por IA, zoom óptico 12x, USB3/HDMI/NDI, PoE+. Compatible con clase UVC, certificada CE y FCC.
Cumplimiento de la clase USB UVC vs. SDK propietario
USB Video Class (UVC) es el estándar definido por el USB Implementers Forum que permite que los dispositivos de captura de vídeo se enumeren y transmitan sin controladores personalizados. Las cámaras compatibles con UVC funcionan de forma nativa en Windows 10+, macOS 10.14+, kernel de Linux 4.x+, Chrome OS e iOS/iPadOS 17+. Para el departamento de TI de una empresa, esta es la característica decisiva: una cámara UVC se conecta y aparece inmediatamente como fuente de vídeo en Zoom, Microsoft Teams, Google Meet, Cisco Webex y cualquier aplicación basada en WebRTC — sin paquetes de software, instaladores de controladores ni permisos de nivel administrador. A escala, en cientos de salas de reuniones, la diferencia entre cámaras compatibles con UVC y cámaras de SDK propietario se mide en horas de tiempo de implementación de TI por sala.
La distinción de protocolo importante es UVC 1.1 frente a UVC 1.5. UVC 1.1 transmite vídeo sin comprimir o comprimido en MJPEG. A 4K/30fps, el vídeo sin comprimir requiere aproximadamente 1,4 Gbps — más de lo que el ancho de banda teórico de 5 Gbps de USB 3.0 puede sostener de forma fiable junto con el resto de la sobrecarga USB. En la práctica, la mayoría de las cámaras UVC 1.1 limitan el 4K a 15fps o recurren a 1080p/30fps por USB. UVC 1.5, ratificado en 2012, añade vídeo comprimido en H.264 como formato de transporte nativo. Con H.264 a un bitrate típico de cámara de conferencias de 15–20 Mbps, el 4K/30fps cabe holgadamente dentro del ancho de banda de USB 3.0. Al evaluar muestras OEM, verifica explícitamente que la cámara se enumera como dispositivo UVC 1.5 y expone un tipo de carga útil H.264 a 4K/30fps — no solo MJPEG. Una cámara que lista “4K USB” en su ficha técnica pero solo exporta MJPEG en bruto no entregará 4K a 30fps por USB 3.0 en la práctica.
Las cámaras que dependen de un SDK propietario para la salida USB — común en algunos diseños primarios NDI o SDI donde el USB es algo secundario — requieren instalar el controlador de captura del fabricante en cada máquina host. Esto crea dependencia de la versión de software, riesgos de compatibilidad con Windows Update e incompatibilidad con endpoints gestionados y bloqueados. Evita estos diseños para implementaciones empresariales salvo que haya una razón técnica específica para preferir el transporte propietario.
La elección del conector USB es una decisión práctica de aprovisionamiento. USB Type-A (USB 3.0) es compatible con el mayor abanico de PC de sala y barras de conferencia existentes sin adaptadores. USB-C es cada vez más común en portátiles modernos, pero a menudo requiere un adaptador activo para infraestructura AV heredada. Para tiradas de cable de más de 5m, los cables pasivos USB 3.0 introducen degradación de señal a 5 Gbps; especifica cables de extensión USB 3.0 ópticos activos para tiradas de 5m a 15m. Más allá de 15m, los extensores USB-sobre-fibra o el cambio a NDI como transporte principal son las opciones fiables. Para buscar cámaras de conferencias con la variante USB correcta para tu instalación, incluye las distancias de tirada de cable en tu RFQ.
NDI vs. SRT vs. RTSP — Selección del protocolo de salida de vídeo en red
La selección del protocolo de salida de vídeo en red determina la compatibilidad de la cámara con el software de producción posterior, el presupuesto de latencia y el coste de licencia. Las cámaras de conferencias del mercado OEM suelen ofrecer RTSP como base con NDI|HX o SRT como opciones premium — habilitadas de fábrica o mediante licencia de firmware.
NDI (Network Device Interface) es el estándar de vídeo IP desarrollado por NewTek y mantenido ahora por Vizrt. Las cámaras NDI aparecen como fuentes de vídeo nombradas en una red local y pueden ser consumidas por cualquier aplicación compatible con NDI sin configuración de stream — vMix, OBS Studio (mediante el plugin NDI), Wirecast, Microsoft Teams Rooms (mediante codificador hardware) y sistemas hardware Zoom Rooms. NDI|HX3, la variante comprimida actual, usa codificación H.264 o H.265 para lograr una latencia de extremo a extremo de <200ms sobre Gigabit Ethernet, suficiente para la conmutación en directo en producción de eventos. El NDI de ancho de banda completo (sin comprimir) apunta a <100ms pero exige aproximadamente 125 Mbps por stream 1080p/60fps y es poco práctico en switches empresariales estándar compartidos con otro tráfico. NDI requiere una licencia por dispositivo de Vizrt. Las fábricas OEM chinas o bien compran estas licencias e incluyen el coste en el precio unitario, o bien envían las cámaras sin NDI habilitado y exigen que el comprador adquiera y aplique las licencias por separado. Aclara esto antes de comprometer el MOQ — el coste de licencia ($15–40 por unidad a volumen OEM) afecta de forma significativa al coste final.
SRT (Secure Reliable Transport) es un protocolo de código abierto desarrollado por Haivision y mantenido ahora por la SRT Alliance. La capacidad distintiva de SRT es la corrección de errores y retransmisión sobre redes con pérdidas, lo que lo convierte en la opción preferida para enlaces de contribución sobre internet público donde se espera pérdida de paquetes. Para una cámara de conferencias que transmite desde una sucursal remota a través de una WAN corporativa o internet público hacia una ubicación de producción central, SRT proporciona una entrega fiable que RTSP y NDI (optimizados para LAN) no pueden garantizar. SRT añade aproximadamente 100–300ms de latencia adicional respecto a NDI según la configuración del búfer de retransmisión — aceptable para grabación y monitorización no interactiva, pero perceptible para interacción en directo.
RTSP (Real Time Streaming Protocol) cuenta con soporte universal de las plataformas VMS, los NVR y el software de grabación. La latencia es típicamente >500ms de extremo a extremo debido a los requisitos de búfer, lo que lo descalifica para uso interactivo en conferencias. RTSP es apropiado cuando la cámara se graba en un servidor central o se muestra en un muro de monitorización donde la latencia de interacción no importa.
Para una implementación estándar de sala de reuniones — una sala, un codec, Zoom o Teams Rooms — USB UVC es suficiente y NDI añade un coste innecesario. NDI se vuelve necesario en entornos de producción multicámara (eventos de toda la empresa, estudios de webcast, salas de formación con conmutación) donde un mezclador de vídeo necesita acceder a la cámara por red. Define el flujo de señal antes de seleccionar el protocolo de salida y verifica que la fábrica puede enviar la cámara con el protocolo requerido habilitado al precio unitario acordado.
Autoseguimiento por IA — Calidad de implementación y casos límite
El autoseguimiento por IA en las cámaras de conferencias OEM ejecuta la inferencia en un SoC embebido con una NPU dedicada — típicamente un MediaTek MT9950, Ambarella CV2 o un procesador de visión equivalente. El algoritmo detecta rostros y cuerpos, genera cajas delimitadoras y controla el controlador del motor PTZ para mantener al sujeto detectado centrado en el encuadre. Los materiales de marketing de las cámaras OEM exageran de forma constante la calidad del seguimiento; la evaluación significativa requiere una prueba estructurada de muestras frente a escenarios definidos.
La latencia de seguimiento es el tiempo transcurrido desde el movimiento de una persona hasta que la cámara completa el reposicionamiento. Apunta a <500ms para un contexto de conferencia donde los participantes esperan que la cámara siga con naturalidad. Las cámaras de gama económica suelen presentar latencias de 1–2 segundos, algo visualmente molesto en el extremo remoto. La latencia depende del tiempo de ciclo de inferencia, la capacidad de respuesta del controlador del motor y de si el seguimiento se ejecuta en el SoC principal o en un coprocesador dedicado. Pide una demostración grabada de pantalla (no un vídeo de marketing pulido) que muestre a una persona cruzando una sala a paso ligero de un extremo a otro, de modo que la latencia de seguimiento sea directamente observable.
El manejo de varias personas varía significativamente entre implementaciones. Enfoques comunes: (1) Bloqueo de una sola persona — la cámara sigue a quien entró primero en el encuadre e ignora a los demás hasta que esa persona se va. Esto falla en mesas redondas. (2) Conmutación por zonas — la sala se divide en zonas espaciales y la cámara cambia a la zona activa según el movimiento o la actividad de audio. Los límites de zona y el tiempo de permanencia antes de conmutar suelen ser configurables. (3) Autoencuadre de grupo — la cámara se aleja para encuadrar a todas las personas detectadas a la vez. Esto da buenos resultados con grupos pequeños (2–4 personas), pero produce un plano ancho y lejano en salas más grandes. Determina qué modo soporta la cámara y si es configurable mediante VISCA o una interfaz web.
El comportamiento del zoom durante el seguimiento determina si el encuadre se siente natural. Un algoritmo bien ajustado mantiene un encuadre de cabeza y hombros para un único orador. Las implementaciones mal ajustadas hacen un zoom cerrado a un recorte de rostro que resulta incómodo en pantallas grandes, o se alejan tanto que el orador queda como una figura pequeña en un encuadre amplio. Comprueba los parámetros configurables: nivel mínimo de zoom, nivel máximo de zoom, margen entre el sujeto y el borde del encuadre. Verifica también que la cámara respeta un límite máximo de zoom definido por el usuario — importante si la sala tiene una pizarra física o una pantalla de presentación que debe permanecer visible.
Casos límite que probar antes de aprobar muestras: una televisión o pantalla de señalización digital con contenido en movimiento al fondo activa con frecuencia falsas detecciones, haciendo que la cámara siga la pantalla en lugar del presentador. Los cambios de iluminación de alto contraste (una pantalla de proyección que se enciende, persianas que se abren) pueden causar pérdida de detección. El rendimiento con poca luz por debajo de <10 lux — relevante para uso nocturno con las luces principales apagadas y solo un foco sobre el presentador — debe evaluarse al nivel de luminancia previsto de la sala. Estos modos de fallo son comunes en los diseños OEM porque los modelos de detección subyacentes se entrenan con conjuntos de datos controlados. Solicita pruebas frente a estos escenarios concretos como condición para la aprobación de la muestra, y considera incluir una prueba funcional de seguimiento en un entorno de sala representativo en el alcance de la inspección previa al envío.
La mayoría de las cámaras de conferencias OEM chinas de esta categoría usan algoritmos de detección y seguimiento derivados de diseños de referencia similares de SoC de visión suministrados por el fabricante del chip. La diferenciación de rendimiento entre fabricantes a precios equivalentes refleja el esfuerzo de ajuste de firmware, la calidad del controlador del motor y la precisión del conjunto óptico — no algoritmos de IA fundamentalmente distintos. El mercado de sourcing de electrónica de consumo para cámaras de conferencias es lo bastante maduro como para que las diferencias reales de calidad de seguimiento sean más estrechas de lo que sugiere el lenguaje de marketing; la prueba estructurada de muestras, más que la comparación de especificaciones, es el método de selección fiable.
¿Tienes un proyecto de sourcing en mente?
Cuéntanos qué necesitas. Respondemos en 24 horas, incluidos los fines de semana.