史丹佛大學的 CS231N:用於電腦視覺的深度學習(Deep Learning for Computer Vision)。李飛飛教授與 Ehsan Adeli 教授在首堂課中詳述了電腦視覺(CV)與深度學習(DL)的交織發展史、核心科學挑戰以及該領域的未來願景。
1. 視覺與智慧的演化關聯
視覺被視為智慧的基石。大約 5.4 億年前的「寒武紀大爆發」期間,生物(如三葉蟲)發展出初步的視覺感官,使生命從被動代謝轉為與環境主動互動,進而驅動了神經系統與智慧的演化。人類是高度視覺化的動物,大腦中超過一半的皮層細胞都參與視覺處理。
2. 電腦視覺的早期歷史與挑戰
神經科學啟發:1959 年 Hubel 和 Wiesel 對貓進行的實驗揭示了視覺皮層神經元的感受野(Receptive Fields)層級處理機制,這成為後來類神經網路建模的重要基礎。
學術起點:1963 年 Larry Roberts 發表了第一篇關於形狀理解的視覺博士論文。1966 年 MIT 的夏季計畫曾樂觀地試圖在一個暑假內「解決視覺問題」,但最終演變成一個龐大的電腦科學領域。
數學難題:視覺是一個病態問題(ill-posed problem),因為必須從 2D 的影像投影中還原真實的 3D 物理世界,而自然界透過進化(如雙眼三角測量)解決了這個難題。
3. 深度學習革命與 ImageNet 的轉折點
深度學習的演進曾經歷過「AI 冬眠期」,但在 1980 年代迎來了關鍵突破,如 反向傳播(Backpropagation) 學習規則的提出。儘管如此,早期的模型因缺乏大規模數據而難以處理複雜影像。
數據驅動:李飛飛教授的實驗室開發了 ImageNet,包含 1,500 萬張標註影像,強調數據應與演算法同等重要。
2012 年時刻:AlexNet 演算法在 ImageNet 挑戰賽中利用卷積神經網路(CNN)將錯誤率減半,這被視為現代 AI 爆發與深度學習革命的歷史性時刻。
4. 現代視覺任務與應用
電腦視覺已從簡單的影像分類擴展到更複雜的空間理解任務:
核心任務:包括語義分割(每個像素分類)、物件偵測(畫出邊界框)以及實例分割(區分同類別的不同個體)。
進階領域:涵蓋影片理解、3D 重建、醫學影像分析以及最新的生成式 AI(如 DALL-E 和擴散模型)。
5. 社會責任與課程目標
由於 AI 模型是由人類產生的數據驅動,因此不可避免地會攜帶人類偏見,這引發了關於面部辨識公平性及 AI 決策倫理的討論。本課程除了教授從零建構模型(如 CNN、Transformer)的技術外,也強調以人為本的 AI,如在老齡化護理與醫療保健中的應用。
2012 年的 AlexNet 具體實現了哪些技術突破?
語義分割與實例分割在實際應用中有什麼差別?
Search the web for 卷積神經網路在醫療影像分析的最新應用案例









