Numa discussão na lista OSM Brasil no Telegram, aventou-se a possibilidade de importar para o Mapillary vídeos de motoristas dirigindo no YouTube, após pedir autorização aos autores. Após mandarmos algumas mensagens, um dos usuários a autorizar a importação de seus vídeos foi o Everton Silva. Seus vídeos tem uma camada mostrando a latitude e longitude, o que possibilita a geolocalização das imagens.
Para isso, faz-se necessário digitalizar as imagens, o que faremos com o software tesseract-ocr. Ele necessita ser calibrado com a fonte utilizada.
Os comandos assumem um sistema Ubuntu, mas os softwares são multiplataforma.
sudo apt-get install youtube-dl libav-tools tesseract-ocr imagemagick
youtube-dl https://www.youtube.com/watch?v=Qkg32qsbmC8
mkdir 1
avconv -i São\ Paulo\ a\ Maceió\ -\ Inicio\ da\ Viagem\ Parte\ 1-Qkg32qsbmC8.mp4 -qscale:v 2 -r 1/1 1/% 03d.jpg
Video 1 | Video 2 |
---|---|
cd 1
mkdir crop
for i in *jpg ; do echo "Convertendo $i" ; convert $i -crop 864x486+208+117 crop/$i ; done
mkdir coord
for i in *jpg ; do echo "Convertendo coordenadas $i" ; convert $i -crop [loc] coord/$i ; done
Video 1 loc=183x97+861+15
Video 2 loc=115x65+980+825
convert [img] -level 0%,250% [out]
convert [out] +level 150%,-250% [final]
mkdir data
for i in *jpg ; do echo "Convertendo datas $i" ; convert $i -crop 196x87+1056+21 data/$i ; done
tesseract [img] [out] -l dsdigital --tessdata-dir ./tessdata/ -psm 6 --user-patterns ./tessdata/latlng.user-patterns -c tessedit_char_whitelist=-,0123456789
tesseract [img] [out] -l helvetica --tessdata-dir ./tessdata/ -psm 6 --user-patterns ./tessdata/latlng.user-patterns -c tessedit_char_whitelist=-,0123456789 -c language_model_penalty_punc=0.1