Proyecto Final Yolo
Proyecto Final Yolo
Proyecto Final Yolo
Heredia
Integrantes:
Julio, 2023
Lima, Perú
INTRODUCCIÖN
2
de objetos en sus aplicaciones. Con este estudio, se pretende brindar una visión
más clara sobre la efectividad de YOLO y su capacidad para abordar la detección
y clasificación de objetos en fotografı́as. Se espera que esta investigación con-
tribuya al avance de esta área y sirva como referencia para proyectos futuros
que deseen incorporar técnicas de reconocimiento de objetos en sus desarrollos.
YOLOV8:
¿QUÉ ES YOLO V8?
YOLOv8 representa la evolución más reciente de la serie YOLO. Al igual que sus
predecesores, YOLOv8 tiene la capacidad única de predecir todos los objetos
presentes en una imagen mediante un solo pase hacia adelante. Esta carac-
terı́stica revolucionaria se debe a que YOLOv8 aborda la detección de objetos
como un problema de regresión, donde se predice directamente el cuadro delim-
itador de cada objeto en lugar de realizar una clasificación. Un factor crucial
para el éxito de los modelos YOLO es su entrenamiento en grandes conjuntos
de datos, como COCO e ImageNet.
Esto les confiere una doble capacidad: por un lado, ofrecen predicciones al-
tamente precisas para las clases en las que están preentrenados (habilidad de
maestro); por otro lado, tienen la capacidad de aprender nuevas clases de man-
era más sencilla (habilidad de estudiante).
3
backbone y un neck como parte de su arquitectura. El backbone es una red
convolucional profunda, como CSPDarknet53, que extrae caracterı́sticas signi-
ficativas de la imagen. El neck es una estructura que fusiona y refina las car-
acterı́sticas para obtener una representación más precisa de los objetos. Antes
de entrenar YOLOv5, se requiere un conjunto de datos anotado que contenga
imágenes y las etiquetas de los objetos presentes en ellas. Las etiquetas general-
mente incluyen las coordenadas de las cajas delimitadoras, la clase del objeto
y la confianza de la detección. Para mejorar la generalización del modelo y
evitar el sobreajuste, se aplican técnicas de aumento de datos durante el entre-
namiento. Estas técnicas pueden incluir el cambio de escala, rotación, recorte
y cambios de color. YOLOv5 utiliza una función de pérdida que mide la dis-
crepancia entre las predicciones del modelo y las etiquetas reales en el conjunto
de entrenamiento. La función de pérdida tiene varios términos, incluyendo la
pérdida de coordenadas (bounding box loss), la pérdida de confianza (confidence
loss) y la pérdida de clasificación (classification loss). Una vez que el modelo ha
sido entrenado, se puede utilizar para realizar inferencias en nuevas imágenes o
videos. Durante la inferencia, YOLOv5 divide la imagen en una cuadrı́cula y re-
aliza predicciones para cada celda. Se filtran las detecciones con baja confianza
y se aplican técnicas de no-maximum suppression para eliminar detecciones re-
dundantes. Una de las ventajas clave de YOLOv5 es su capacidad para realizar
detección de objetos en tiempo real con alta precisión. Esto lo hace adecuado
para aplicaciones como sistemas de vigilancia, vehı́culos autónomos y otras tar-
eas que requieren una detección rápida y confiable.
4
3 ¿QUÉ PROBELMAS PODEMOS TENER CON
YOLOV5?
-Debido al enfoque de detección en una sola pasada y al tamaño de las celdas de
la cuadrı́cula, YOLOV5 puede tener dificultades para detectar objetos pequeños
en la imagen o aquellos que están muy cercanos o superpuestos a otros objetos.
Esto puede llevar a una precisión reducida en ciertos escenarios.
-Como cualquier modelo de aprendizaje profundo, YOLOv5 puede tener dificul-
tades para generalizar a objetos o escenas que no se encuentran en el conjunto
de entrenamiento. Si el modelo no ha sido expuesto a una amplia variedad de
objetos y escenas durante el entrenamiento, su rendimiento puede ser deficiente
en situaciones desconocidas.
-El entrenamiento efectivo de YOLOv5 requiere un conjunto de datos grande y
diverso con una amplia variedad de objetos, ángulos de visión, condiciones de
iluminación, etc. Obtener y etiquetar un conjunto de datos adecuado puede ser
un proceso costoso y laborioso.
-Al igual que con cualquier arquitectura de aprendizaje profundo, YOLOv5
puede ser sensible a los hiperparámetros de entrenamiento, como la tasa de
aprendizaje, el tamaño de lote y el número de épocas. Ajustar correctamente
estos hiperparámetros puede requerir experiencia y experimentación.
-Aunque YOLOV5 es relativamente eficiente en términos de recursos computa-
cionales, todavı́a puede requerir una cantidad significativa de potencia de proce-
samiento y memoria, especialmente en tareas de detección en tiempo real en
dispositivos con recursos limitados.
-Las arquitecturas de aprendizaje profundo, incluida YOLOv5, están sujetas a
5
cambios y actualizaciones en función de la investigación en curso. Mantenerse
al dı́a con las últimas versiones y mejoras puede requerir un esfuerzo continuo
para mantener el modelo actualizado y optimizado.
6
5 ¿QUÉ PROBELMAS PODEMOS TENER CON
YOLOV8
Aunque YOLOV8 representa una evolución y mejoras en comparación con ver-
siones anteriores, aún puede tener algunos problemas y desafı́os asociados como
los siguientes:
Como muchos modelos de aprendizaje profundo, YOLOV8 también requiere una
gran cantidad de datos de entrenamiento para lograr un buen rendimiento. Si
no se tiene acceso a un conjunto de datos lo suficientemente grande y diverso, el
modelo puede tener dificultades para generalizar a nuevas situaciones y objetos
no vistos durante el entrenamiento.
La precisión y el rendimiento de YOLOV8 están fuertemente influenciados por
la calidad y cantidad de datos etiquetados disponibles para el entrenamiento.
Si los datos están etiquetados incorrectamente o insuficientemente, el modelo
puede tener dificultades para detectar objetos correctamente.
Los modelos de detección de objetos, incluido YOLOV8, a menudo pueden
tener dificultades para detectar objetos pequeños o altamente superpuestos, es-
pecialmente si estos objetos representan una pequeña parte de la imagen total.
Mejorar la detección de estos objetos puede requerir técnicas de aumento de
datos adecuadas y ajustes de hiperparámetros.
Como cualquier modelo de detección de objetos, YOLOV8 puede tener falsos
positivos (objetos que se detectan incorrectamente) y falsos negativos (obje-
tos que no se detectan cuando deberı́an). Esto puede ser especialmente prob-
lemático en aplicaciones crı́ticas donde la precisión es fundamental.
Aunque YOLOV8 es más rápido que algunas de sus versiones anteriores, todavı́a
7
puede enfrentar desafı́os para lograr una detección en tiempo real en imágenes
de alta resolución o en escenarios con múltiples objetos y alta complejidad vi-
sual.
La configuración y ajuste de hiperparámetros para YOLOV8 pueden ser un
desafı́o, especialmente para usuarios con poca experiencia en el campo de la
detección de objetos y el aprendizaje profundo.