CS231N：電腦視覺與深度學習演進史

Keefer's Substack

CS231N：電腦視覺與深度學習演進史

0:00

-21:54

Apr 04, 2026

史丹佛大學的 CS231N：用於電腦視覺的深度學習（Deep Learning for Computer Vision）。李飛飛教授與 Ehsan Adeli 教授在首堂課中詳述了電腦視覺（CV）與深度學習（DL）的交織發展史、核心科學挑戰以及該領域的未來願景。

1. 視覺與智慧的演化關聯

視覺被視為智慧的基石。大約 5.4 億年前的「寒武紀大爆發」期間，生物（如三葉蟲）發展出初步的視覺感官，使生命從被動代謝轉為與環境主動互動，進而驅動了神經系統與智慧的演化。人類是高度視覺化的動物，大腦中超過一半的皮層細胞都參與視覺處理。

2. 電腦視覺的早期歷史與挑戰

神經科學啟發：1959 年 Hubel 和 Wiesel 對貓進行的實驗揭示了視覺皮層神經元的感受野（Receptive Fields）層級處理機制，這成為後來類神經網路建模的重要基礎。
學術起點：1963 年 Larry Roberts 發表了第一篇關於形狀理解的視覺博士論文。1966 年 MIT 的夏季計畫曾樂觀地試圖在一個暑假內「解決視覺問題」，但最終演變成一個龐大的電腦科學領域。
數學難題：視覺是一個病態問題（ill-posed problem），因為必須從 2D 的影像投影中還原真實的 3D 物理世界，而自然界透過進化（如雙眼三角測量）解決了這個難題。

3. 深度學習革命與 ImageNet 的轉折點

深度學習的演進曾經歷過「AI 冬眠期」，但在 1980 年代迎來了關鍵突破，如 反向傳播（Backpropagation） 學習規則的提出。儘管如此，早期的模型因缺乏大規模數據而難以處理複雜影像。

數據驅動：李飛飛教授的實驗室開發了 ImageNet，包含 1,500 萬張標註影像，強調數據應與演算法同等重要。
2012 年時刻：AlexNet 演算法在 ImageNet 挑戰賽中利用卷積神經網路（CNN）將錯誤率減半，這被視為現代 AI 爆發與深度學習革命的歷史性時刻。

4. 現代視覺任務與應用

電腦視覺已從簡單的影像分類擴展到更複雜的空間理解任務：