Google 最新語義圖像分割模型 DeepLab-v3+ 已開源

2018-3-28 05:01 PM| 發佈者: SophieWeng@G| 查看: 819| 評論: 0|來自: linuxpilot

摘要: Google 研究團隊開源在 Tensorflow 中進行語義圖像分割（Semantic Image Segmentation）模型 DeepLab-v3+，包括 Google Pixel 2 和 Pixel 2XL 手機上的人像模式（Portrait Mode），以及 YouTube 為影片實時更換背景 ...

Google 研究團隊開源在 Tensorflow 中進行語義圖像分割（Semantic Image Segmentation）模型 DeepLab-v3+，包括 Google Pixel 2 和 Pixel 2XL 手機上的人像模式（Portrait Mode），以及 YouTube 為影片實時更換背景功能，都是這項技術的應用。

Google 研究軟體工程師 Liang-Chieh Chen 以及 Yukun Zhu 表示，語義圖像分割的主要目的是為每個像素指定語義標籤，例如路、天空、人或是狗等物體，不少的程式需要這樣的功能，像是合成淺景深效果（Synthetic Shallow Depth-of-field）效果，應用在手機 Pixel 2 和 Pixel 2XL 上提供的人像模式（Portrait Mode），能自動模糊人物的背景，作出類似單鏡頭反光相機的景深效果。另外，在多數攝影 App 都會提供的實時影像分割（Video Segmentation），例如最近 YouTube 發表的新功能，為影片換背景的功能，也是語義影像分割的應用。

DeepLab-v3+ 在 Tensorflow 上進行，使用部署於伺服器端的卷積神經網路（CNN）骨幹架構，以獲取最佳的結果。除了代碼之外，研究團隊也同時公開了 Tensorflow 模型訓練以及評估程序，以及使用 Pascal VOC 2012 與 Cityscapes 資料集訓練的模型。

DeepLab-v3+ 技術是基於三年前的 DeepLab 模型，期間改進了卷積神經網路特徵萃取器、物體比例塑造模型以及同化前後內容的技術，再加上進步的模型訓練過程，還有軟硬體的升級，從 DeepLab-v2 到 DeepLab-v3，直到現在發表的 DeepLab-v3+，效果一代比一代好。

DeepLab-v3+ 是由 DeepLab-v3 擴充而來，研究團隊增加瞭解碼器模組，能夠細化分割結果，能夠更精準的處理物體的邊緣，並進一步將深度卷積神經網路應用在空間金字塔池化（Spatial Pyramid Pooling，SPP）和解碼器上，大幅提升處理物體大小以及不同長寬比例的能力，最後得到強而有力的語義分割編碼解碼器網路。Liang-Chieh Chen 以及 Yukun Zhu 特別提到，隨著軟硬體的升級，建構在卷積神經網路上的現代語義圖像分割功能，可以達到的水準已經遠遠超過 5 年前的水平。

收藏分享邀請

上一篇：Linux 基金會推出開源物聯網管理程式 ACRN下一篇：小改款Raspberry Pi 3 Model B+ 網路效能再增強

		自動登錄	找回密碼
密碼			申請會員

Google 最新語義圖像分割模型 DeepLab-v3+ 已開源

相關閱讀

相關分類