Día a día se registran avances en gran cantidad de sectores aplicando inteligencia artificial, y desde luego no es la excepción el sector de aprendizaje en visión por computador. Hace unos días, el equipo de Google Research publicó un artículo con la propuesta de #Tensorflow API para detección de objetos. Por este motivo, me gustaría dejar un desafío. Podríamos detectar de forma automática los elementos en una cena con amigos? Para este objetivo, lo ideal sería, utilizar un modelo pre entrenado. Siguiendo este concepto tenemos algunas opciones listas para utilizar:
- ssd_mobilenet_v1_coco_11_06_2017
- ssd_inception_v2_coco_11_06_2017
- rfcn_resnet101_coco_11_06_2017
- faster_rcnn_resnet101_coco_11_06_2017
- faster_rcnn_inception_resnet_v2_atrous_coco_11_06_2017
Todos los modelos utilizan COCO, (common objects in context) pueden ver los detalles aquí.
Veamos nuestra imagen original, que hipotéticamente se acaba de capturar por uno de los participantes de la cena:
Image reference COCO database
Y veamos nuestro rápido procesamiento con #TensorFlow, para este análisis, la mejor respuesta que obtuve fué utilizando faster_rcnn_inception_resnet_v2_atrous_coco_11_06_2017. [faster_rcnn y inception_resnet]
De esta forma tenemos las clases detectadas, el número de ocurrencias, las etiquetas y desde luego podemos pintar sobre la foto para hacerlo más gráfico. Por ahora este modelo es limitado ya que utiliza COCO, pero sin duda, esperamos que más modelos se sumen a este y se encuentren nuevas utilidades.
*Por cierto, muy rápidamente podemos contar la cantidad de botellas que propone la foto…
Aquí les dejo el segmento de implementación que hace esta operaciones en #TensorFlow. Pueden ver toda la implementación en la documentación oficial.