《面向计算机视觉的深度学习》是一本书,适合希望学习基于深度学习的计算机视觉技术用于各种应用的读者。 本书将为读者提供开发基于计算机视觉的产品的工具和技术。 书中涵盖了许多遵循该理论的实际例子。
读者想知道如何将深度学习应用于计算机视觉问题,例如分类,检测,检索,分割,生成,字幕和视频分类。 读者还希望了解如何在各种约束下(例如更少的数据,不平衡的类别和噪声)获得良好的准确率。 然后,读者还想知道如何在各种平台(AWS,Google Cloud,Raspberry Pi 和移动电话)上部署经过训练的模型。 读完本书后,读者应该能够开发出有关人员检测,人脸识别,产品搜索,医学图像分割,图像生成,图像字幕生成,视频分类等问题的代码。
第 1 章,“入门”介绍了深度学习的基础知识,并使读者熟悉该词汇表。 读者将安装遵循其余各章所必需的包。
第 2 章,“图像分类”讨论图像分类问题,该问题将整个图像标记为图像。 读者将学习图像分类技术,并训练用于宠物分类的深度学习模型。 他们还将学习提高准确率的方法,并深入研究各种先进的架构。
第 3 章,“图像检索”涵盖了深层特征和图像检索。 读者将学习获得模型可视化,视觉特征,使用 TensorFlow 进行推理以及服务和使用视觉特征进行产品检索的各种方法。
第 4 章,“对象检测”讨论了检测图像中的对象。 读者将学习各种对象检测技术,并将其应用于行人检测。 本章将使用用于对象检测的 TensorFlow API。
第 5 章,“语义分割”涵盖了像素级图像分割。 读者将获得有关分割技术的知识,并训练用于医学图像分割的模型。
第 6 章,“相似性学习”讨论了关于相似性学习的。 读者将学习相似度匹配以及如何训练人脸识别模型。 示出了训练人脸标志的模型。
第 7 章,“图像字幕生成”是关于生成或选择图像字幕生成的 。 读者将学习自然语言处理技术以及如何使用这些技术为图像生成字幕。
第 8 章,“生成模型”讨论了关于出于各种目的生成合成图像的问题。 读者将了解什么是生成模型,并将其用于图像生成应用,例如样式转换,训练数据等。
第 9 章,“视频分类”涵盖了用于视频数据的计算机视觉技术。 读者将了解解决视频与图像问题之间的主要区别,并实现视频分类技术。
第 10 章,“部署”讨论了深度学习模型的部署步骤。 读者将学习如何在各种平台上部署训练有素的模型并优化速度。
本书涵盖的示例可以在 Windows,Ubuntu 或 Mac 上运行。 涵盖了所有安装说明。 需要具备 Python 和机器学习的基础知识。 读取器最好具有 GPU 硬件,但这不是必需的。
本书中使用了许多文本约定。
CodeInText
:表示文本中的词,数据库表名称,文件夹名称,文件名,文件扩展名,路径名,伪 URL,用户输入和 Twitter 句柄。 这里是一个示例:“ 请注意,图是用 summary_writer
编写的。
代码块设置如下:
merged_summary_operation = tf.summary.merge_all()
train_summary_writer = tf.summary.FileWriter('/tmp/train', session.graph)
test_summary_writer = tf.summary.FileWriter('/tmp/test')
任何命令行输入或输出的编写方式如下:
wget http://www.robots.ox.ac.uk/~vgg/data/pets/daimg.tar.gz
wget http://www.robots.ox.ac.uk/~vgg/data/pets/data/annotations.tar.gz
粗体:表示您在屏幕上看到的新术语,重要单词或顺序。 例如,菜单或对话框中的单词会出现在这样的文本中。 这是一个示例:“完成后,通过单击‘操作 | 实例状态 | 终端’来终止实例。”
警告或重要提示如下所示。
提示和技巧如下所示。