電腦視覺第一原理專業課程

掌握電腦視覺的基本原理。推進賦予電腦視覺能力的數學和物理演算法

關於此專業課程

該專業課首次全面介紹了電腦視覺的基礎。它側重於視覺的數學和物理基礎，專為對電腦視覺知之甚少或根本不了解的學習者、從業者和研究人員而設計。該計劃包括一系列 5 門課程。任何完成本專業的學習者都有可能在電腦視覺領域取得成功，這個蓬勃發展的領域預計在未來幾十年會變得越來越重要。

到官方網站了解本課程與上課

應用學習專案

學習者將通過應用模型和工具來發展電腦視覺的基礎知識，包括：圖像處理、圖像特徵、構建 3D 場景、圖像分割和對象識別。該專業包括大約 250 個評估問題。精通電腦視覺基礎知識受到眾多技術公司和研究組織的重視。

你將學到的內容有

掌握數位相機的工作原理，學習影像處理的基本原理
創建特徵檢測理論並開發從圖像中提取特徵的演算法
探索使用視覺線索（陰影、散焦等）從多個圖像或視點恢復對象的 3D 形狀的新方法
接觸基本的感知任務，例如圖像分割、對象追蹤和對象識別

你將獲得的技能：

感知	特徵與邊界	對象識別
相機和成像	3D 重建	傅立葉轉換
高動態範圍(HDR)成像	圖像形成	卷積與反卷積
相機的工作原理	擴展空間	活動輪廓

字幕

英文

製作方

Columbia University 哥倫比亞大學 ( 看更多 Columbia 提供的課程 )

250 多年來，哥倫比亞大學一直是美國乃至世界高等教育領域的領導者。我們廣泛的學術探究的核心是致力於吸引和吸引最優秀的人才，以追求更深入的人類理解、開拓新發現和為社會服務。

第 1 門課程相機和成像

本課程涵蓋成像的基礎知識——創建可供人或機器使用或處理的圖像。成像有著悠久的歷史，跨越了幾個世紀。但過去三年中取得的進步徹底改變了相機，並顯著提高了電腦視覺系統的健全和準確性。我們描述了成像的基本原理，以及最近對電腦視覺產生深遠影響的成像創新。

本課程首先檢查如何使用鏡頭相機形成圖像。我們探索了相機的光學特性，例如其放大倍率、F 值、景深和視野。接下來，我們將描述固態圖像傳感器（CCD 和 CMOS）如何記錄圖像，以及圖像傳感器的關鍵屬性，例如其分辨率、噪聲特性和動態範圍。我們描述瞭如何使用圖像傳感器來感知顏色以及捕捉具有高動態範圍的圖像。在某些結構化環境中，可以對圖像進行閾值處理以生成二進製圖像，從中可以計算對象的各種幾何屬性並用於識別和定位對象。最後，我們介紹了圖像處理的基礎知識——開發計算工具來處理捕獲的圖像，使其更清晰（去噪、去模糊等）並更易於電腦視覺系統分析（線性和非線性圖像過濾方法） .

第 2 門課程特徵和邊界

本課程側重於圖像中特徵和邊界的檢測。特徵和邊界檢測是各種視覺任務的關鍵預處理步驟，包括物體檢測、物體識別和計量——物體的物理尺寸和其他屬性的測量。本課程介紹了多種檢測特徵和邊界的方法，並展示瞭如何使用從圖像中提取的特徵來解決重要的視覺任務。

我們從檢測簡單但重要的特徵開始，例如邊緣和角落。我們表明使用基於圖像的一階和二階導數的運算子可以可靠地檢測到這些特徵。接下來，我們探索“興趣點”的概念——圖像中獨特且有用的局部外觀。我們描述瞭如何使用 SIFT 檢測器穩健地檢測興趣點。使用該檢測器，我們描述了拼接場景重疊圖像以獲得廣角全景的端到端解決方案。最後，我們描述了在圖像中尋找人臉的重要問題，並展示了人臉檢測的幾種應用。

第 3 門課程 3D 重建 – 單視點

本課程側重於從 2D 圖像中恢復場景的 3D 結構。特別是，我們對從固定相機（相同視點）拍攝的圖像中對剛性場景進行 3D 重建感興趣。這個問題很有趣，因為我們希望場景的多個圖像捕捉互補資訊，儘管場景是剛性的並且相機是固定的。為此，我們探索了幾種捕獲圖像的方法，其中每個圖像都提供有關場景的附加資訊。

為了估計場景屬性（深度、表面方向、材料屬性等），我們首先定義幾個重要的輻射測量概念，例如光源強度、表面照明、表面亮度、圖像亮度和表面反射率。然後，我們解決了陰影形狀的挑戰性問題——從單個圖像中的陰影中恢復表面的形狀。接下來，我們展示如果在改變照明方向的同時拍攝已知反射率場景的多個圖像，則可以計算每個場景點的表面法線。這種稱為光度立體的方法提供了密集的表面法線貼圖，可以對其進行整合以獲得表面形狀。

接下來，我們討論離焦深度，它使用相機的有限景深來估計場景結構。從通過改變鏡頭的焦點設置拍攝的少量圖像中，恢復場景的密集深度。最後，我們提出了一套使用主動照明（將光圖案投影到場景上）來獲得場景的精確 3D 重建的技術。這些主動照明方法是工廠自動化的主力軍。它們在生產線上用於組裝產品並檢查其視覺品質。它們還廣泛用於其他領域，如無人駕駛汽車、機器人、監控、醫學成像和電影特效。

第 4 門課程 3D 重建 – 多視點

本課程側重於從不同視點拍攝的圖像中恢復場景的 3D 結構。我們首先構建相機的綜合幾何模型，然後開發一種方法來查找(校準)相機模型的內部和外部參數。然後，我們展示瞭如何使用兩個這樣的校準相機（其相對位置和方向已知）來恢復場景的 3D 結構。這就是我們所說的簡單雙目立體( simple binocular stereo )。接下來，我們解決了兩個相機鏡頭的相對位置和方向未知的未校準立體問題。有趣的是，僅僅從相機拍攝的兩張圖像中，我們就可以確定相機的相對位置和方向，然後使用這些資訊來估計場景的 3D 結構。

接下來，我們關注動態場景的問題。給定包含移動物體的場景的兩個圖像，我們展示了如何計算圖像中每個點的運動。圖像中點的這種明顯運動稱為光流( optical flow )。光流估計使我們能夠追蹤視訊序列上的場景點。接下來，我們考慮使用移動相機拍攝的場景視頻，其中相機的運動是未知的。我們從運動中呈現結構，在這樣的視訊中將其作為輸入追蹤特徵，不僅確定場景的 3D 結構，還確定相機如何相對於場景移動。我們在課程中開發的方法廣泛用於對象建模、3D 站點建模、機器人技術、自主導航、虛擬現實和增強現實。

第 5 門課程視覺感知

電腦視覺系統的最終目標是為顯示的每個圖像生成詳細的符號描述。本課程側重於最重要的感知( perception )問題。

我們首先描述在複雜場景中追蹤對象的問題。在這種情況下，我們著眼於兩個關鍵挑戰。第一種是使用稱為變化檢測的技術將圖像分離為對象和背景。第二種是追蹤視訊中的一個或多個對象。接下來，我們研究將圖像分割成有意義的區域的問題。特別是，我們採用自下而上的方法，將具有相似屬性的像素組合在一起以獲得一個區域。

最後，我們解決了對象識別的問題。我們描述了解決這個問題的兩種方法。第一個直接使用對象的外觀識別對象及其姿勢。該方法基於降維的概念，通過主成分分析實現。第二種方法是使用神經網路來解決識別問題，即學習從輸入（圖像）到輸出（對像類別、對象身份、活動等）的映射。我們描述如何構建神經網路以及如何使用反向傳播演算法對其進行訓練。