Saltar a contenido

Librerías

PyTorch

PyTorch Logo de PyTorch

PyTorch es una librería de software de código abierto diseñada en el Aprendizaje Automático (Machine Learning), y, en particular para el Aprendizaje Profundo (Deep Learning). PyTorch se ha convertido en uno de los frameworks más populares para el desarrollo de las IA [1].

Al igual que muchas de las librerías ya mencionadas, PyTorch es bastante útil cuando se trata de desarrollar un programa que involucre Visión por Computadoras, o el Aprendizaje por Refuerzo. Ya que, facilitan el desarrollo de modelos de Inteligencia Artificial.

Ultralytics YOLO

Ultralytics Logo de Ultralytics

La librería Ultralytics YOLO está construida sobre PyTorch y se caracteriza por su modularidad y su enfoque en la eficiencia y la facilidad de uso. Todo gira en torno a la clase YOLO, que encapsula todas las funcionalidades clave. En su núcleo se basa en los modelos You Only Look Once (YOLO) originales, que, a diferencia de los algoritmos de dos etapas (primero proponen regiones y luego la clasifica) los modelos YOLO se caracterizan por su detección de objetos de una pasada en la red neuronal, dándole una gran velocidad de detección.

Clase YOLO

Es la interfaz principal para interactuar con los modelos. Permite cargar modelos preentrenados, construir nuevos modelos desde cero, entrenar, validar, realizar inferencias, exportar y rastrear objetos. Además de la clase, la librería contiene múltiples modos para poder organizar todas sus funciones (como train, val, predict o export).

Detección de Objetos

La tarea central de YOLO. Identifica la ubicación de objetos en una imagen/video mediante cajas delimitadoras (bounding boxes) y asigna una clase a cada objeto. Los modelos están disponibles en diferentes tamaños (Nano n, Small s, Medium m, Large l, XLarge x) para escalar según las necesidades de rendimiento y precisión. Si bien la librería contiene múltiples usos, en el caso de Klevor utilizamos la Detección de Objetos para poder detectar e identificar los obstáculos [2].

OpenCV

OpenCV Logo de OpenCV

Open Source Computer Vision Library (OpenCV) es una de las librerías de software más populares y potentes del mundo para la visión por computadora y el aprendizaje automático (Machine Learning). Fue desarrollada inicialmente por Intel y ahora es mantenida por una comunidad global activa. En su esencia, OpenCV es una colección masiva de algoritmos y funciones que te permiten procesar imágenes y videos, extraer información de ellos y hacer que las computadoras "vean" y "entiendan" el mundo visual de una manera similar a como lo hacen los humanos.

Su propósito principal es proporcionar una infraestructura común para aplicaciones de visión por computadora y acelerar el uso de la percepción automática en productos comerciales, investigación y desarrollo [3].

NumPy

Numpy Logo de NumPy

La librería NumPy o Numerical Python es una librería la cual contiene muchísimas funciones utilizadas ampliamente en el ecosistema de Python, gracias a esta librería, otras más populares y más flexibles como TensorFlow y PyTorch pudieron ser construidas. Esta librería se basa en la computación numérica y científica en Python.

El propósito general es permitir operaciones numéricas rápidas y eficientes en grandes cantidades de datos [4]. Estos cálculos tan extensos, se utilizan para el procesamiento de imágenes de Klevor, aunque también tiene usos como el análisis de datos.

PiCamera 2

Picamera 2 Logo de Raspberry Pi

La librería PiCamera 2 es la sucesora de la picamera original, desarrollada por Raspberry Pi Foundation [5]. Esta librería permite la conexión entre la RPi Camera Module 3 y el Modelo de Detección de Obstáculos. Entre sus múltiples funciones se encuentran:

  • Obtener streams de video para procesamiento en tiempo real (por ejemplo, con OpenCV o NumPy).
  • Controlar diversos parámetros de la cámara (exposición, ganancia, balance de blancos, modos de enfoque, etc.).

Además de, obviamente, permitir la toma de imágenes y videos

Hailo Platform

Hailo Platform Logo de Hailo Platform

Hailo Platform es un ecosistema tanto de hardware y software desarrollado por la empresa Hailo, este ecosistema está diseñado para llevar un modelo de Deep Learning desde su entrenamiento hasta su aplicación en tiempo real en periféricos [6].

Además de esto, la Hailo Platform también incluye múltiples librerías, el objetivo principal de estas librerías (como HailoRT o PyHailoRT) es la de acelerar el proceso de desarrollo de extremo a extremo, tanto en la compilación y optimización hasta su uso en tiempo real.

Referencias Bibliográficas

  1. PyTorch Documentation. (2025). PyTorch Contributors. https://docs.pytorch.org/docs/stable/index.html

  2. Ultralytics Docs. (2025). Ultralytics Inc. https://docs.ultralytics.com/#where-to-start

  3. OpenCV Documentation. (2025). OpenCV. https://docs.opencv.org/4.11.0/d1/dfb/intro.html

  4. NumPy Documentation. (2024). NumPy Developers. https://numpy.org/doc/stable/user/index.html

  5. The PiCamera 2 Library. (2025). Raspberry Pi Ltd. https://datasheets.raspberrypi.com/camera/picamera2-manual.pdf

  6. Hailo AI Software Suite. (2025). Hailo Technologies Ltd. https://hailo.ai/products/hailo-software/hailo-ai-software-suite/#sw-overview