首頁(yè) > AI資訊 > 最新資訊 > 推薦!最適合初學(xué)者的18個(gè)經(jīng)典開(kāi)源計(jì)算機(jī)視覺(jué)項(xiàng)目

推薦!最適合初學(xué)者的18個(gè)經(jīng)典開(kāi)源計(jì)算機(jī)視覺(jué)項(xiàng)目

新火種    2023-10-28

字幕組雙語(yǔ)原文:推薦!最適合初學(xué)者的18個(gè)經(jīng)典開(kāi)源計(jì)算機(jī)視覺(jué)項(xiàng)目

英語(yǔ)原文:18 All-Time Classic Open Source Computer Vision Projects for Beginners

翻譯:雷鋒字幕組(小哲)

概述

開(kāi)源計(jì)算機(jī)視覺(jué)項(xiàng)目是在深度學(xué)習(xí)領(lǐng)域中獲得一席之地的絕佳路徑

開(kāi)始學(xué)習(xí)這18個(gè)非常受歡迎的經(jīng)典開(kāi)源計(jì)算機(jī)視覺(jué)項(xiàng)目

引言

計(jì)算機(jī)視覺(jué)的應(yīng)用現(xiàn)在無(wú)處不在。 老實(shí)說(shuō),我已經(jīng)不記得上次一整天沒(méi)有遇到或者沒(méi)有與至少一樣計(jì)算機(jī)視覺(jué)使用樣例進(jìn)行交互時(shí)什么時(shí)候了(手機(jī)上的人臉識(shí)別)

但是有一件事情就是 一 想要學(xué)習(xí)計(jì)算機(jī)視覺(jué)的人傾向與陷入理論的概念, 這是所能采取的最糟糕的路。 為了真正的學(xué)習(xí)掌握計(jì)算機(jī)視覺(jué), 我們需要將理論與實(shí)踐相結(jié)合。

并且這就是開(kāi)源計(jì)算機(jī)視覺(jué)項(xiàng)目存在的地方。 不需要花一分錢(qián)就可以練習(xí)計(jì)算機(jī)視覺(jué)技術(shù)——你可以坐在現(xiàn)在的位置上完成這些工作。

所以在這篇文章中, 我結(jié)合并創(chuàng)建了一個(gè)基于計(jì)算機(jī)視覺(jué)各種應(yīng)用的開(kāi)源計(jì)算機(jī)視覺(jué)項(xiàng)目列表。有很多事情要做,這是一個(gè)相當(dāng)全面的清單,所以讓我們深入研究!

如果你是一個(gè)完全的計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)的新手并且更想要通過(guò)視頻學(xué)習(xí), 請(qǐng)參考下邊:

使用深度學(xué)習(xí)2.0 的計(jì)算機(jī)視覺(jué)

18個(gè)開(kāi)源的計(jì)算機(jī)視覺(jué)項(xiàng)目分為下邊的這些類(lèi):

圖像分類(lèi)

人臉識(shí)別

使用GAN的自然風(fēng)格轉(zhuǎn)換

場(chǎng)景文字檢測(cè)

使用DETR的目標(biāo)檢測(cè)

語(yǔ)義分割

自動(dòng)駕駛的道路交通線檢測(cè)

圖像標(biāo)注

人類(lèi)姿勢(shì)估計(jì)

通過(guò)面部表情的情感識(shí)別

圖像分類(lèi)的開(kāi)源計(jì)算機(jī)視覺(jué)項(xiàng)目

圖像分類(lèi)是計(jì)算機(jī)視覺(jué)領(lǐng)域的基礎(chǔ)任務(wù), 目標(biāo)是通過(guò)給每張圖片分配一個(gè)標(biāo)簽來(lái)區(qū)分圖像。對(duì)人類(lèi)來(lái)說(shuō)理解區(qū)分我們看到的圖像很容易。 單是對(duì)于機(jī)器來(lái)說(shuō)時(shí)非常不同的。 對(duì)于機(jī)器來(lái)說(shuō)區(qū)分大象和汽車(chē)都是一件繁重的任務(wù)。

下邊是幾個(gè)最突出的圖像分類(lèi)開(kāi)源項(xiàng)目:

Cifar10

CIFAR-10是一個(gè)在訓(xùn)練機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)算法常用的數(shù)據(jù)集,它是機(jī)器學(xué)習(xí)最受歡迎的數(shù)據(jù)集。 包含了60000張圖像, 分為10類(lèi), 每張圖像的的尺寸為32x32。 類(lèi)別有飛機(jī)、汽車(chē)、鳥(niǎo)、貓、鹿、狗、青蛙、馬、船和卡車(chē)。

ImageNet

ImageNet數(shù)據(jù)集是一個(gè)為計(jì)算機(jī)視覺(jué)研究的巨大圖像數(shù)據(jù)集, 這個(gè)數(shù)據(jù)集中有多于140萬(wàn)張圖像被手供標(biāo)注, 并且這些標(biāo)注說(shuō)明了圖像中含有那些物體。并且有多余1萬(wàn)張圖像標(biāo)注了物品的邊界框。 ImageNet包含了多余20000類(lèi)的物品。

作為初學(xué)者,你可以使用keras或者pytorch從頭開(kāi)始學(xué)習(xí)神經(jīng)網(wǎng)絡(luò), 為了能夠得到更好的效果提升學(xué)習(xí)的層次, 我建議使用遷移學(xué)習(xí)預(yù)訓(xùn)練模型,例如CGG-16, Resnet-50,GoogleNet等等。

top4的圖像分類(lèi)的python代碼

建議通讀下邊的文章更好的理解圖像分類(lèi):

使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行ImageNet的圖像分類(lèi)

卷積層數(shù)加深(VGG)

圖像識(shí)別的深度殘差網(wǎng)絡(luò)(ResNet)

人臉識(shí)別的開(kāi)源計(jì)算機(jī)視覺(jué)代碼

人臉識(shí)別是計(jì)算機(jī)視覺(jué)最廣泛的應(yīng)用。人臉識(shí)別被應(yīng)用在安全, 監(jiān)控或者解鎖手機(jī)。 這是一個(gè)在預(yù)先存在的數(shù)據(jù)集中在圖像或者視頻中確認(rèn)你的人臉。 我們可以使用深度學(xué)習(xí)的方法來(lái)學(xué)習(xí)這些人臉的特征并且識(shí)別他們。

這是一個(gè)多個(gè)步驟的過(guò)程,這個(gè)過(guò)程由以下的步驟構(gòu)成:

人臉檢測(cè): 這用來(lái)定位一個(gè)或者多個(gè)在圖像或者視頻中的人臉

人臉對(duì)齊: 對(duì)齊是用來(lái)規(guī)范化人臉在集合上與數(shù)據(jù)集一致

特征提取: 后來(lái),提取特征并且用在識(shí)別任務(wù)中。

特征識(shí)別: 與數(shù)據(jù)庫(kù)中的特征相匹配

下面的開(kāi)放源數(shù)據(jù)集將為您提供良好的人臉識(shí)別機(jī)會(huì):

MegaFace

MegaFace是一個(gè)大規(guī)模的公共人臉識(shí)別訓(xùn)練數(shù)據(jù)集,它是商業(yè)人臉識(shí)別問(wèn)題最重要的基準(zhǔn)之一。它包括4753320個(gè)人臉,672057個(gè)身份

Labeled faces in wild home

Labeled faces in wild home(LFW)是一個(gè)人臉照片數(shù)據(jù)庫(kù),旨在研究無(wú)約束人臉識(shí)別問(wèn)題。它有13233張5749人的圖片,是從網(wǎng)上發(fā)現(xiàn)和收集的。另外,1680名照片中的人在數(shù)據(jù)集中有兩張或兩張以上不同的照片。

此外, 為了更好的利用這些項(xiàng)目, 你可以使用像FaceNet這樣的預(yù)訓(xùn)練模型。

Facenet是一種深度學(xué)習(xí)模型,它為人臉識(shí)別、驗(yàn)證和聚類(lèi)任務(wù)提供了統(tǒng)一的嵌入。網(wǎng)絡(luò)將每個(gè)人臉都映射在一個(gè)歐幾里德網(wǎng)絡(luò)中,每個(gè)圖像之間的距離是相似的。

資源

也可以使用keras或者pytorch的預(yù)訓(xùn)練模型來(lái)構(gòu)建自己的人臉識(shí)別系統(tǒng)。

還有一些更先進(jìn)的人臉識(shí)別模型可供使用。Deepface是由Facebook的研究人員開(kāi)發(fā)的基于CNN的Deep網(wǎng)絡(luò)。這是在人臉識(shí)別任務(wù)中使用深度學(xué)習(xí)的一個(gè)重要里程碑。

為了更好地了解近30年來(lái)人臉識(shí)別技術(shù)的發(fā)展,我建議您閱讀一篇有趣的論文,題目是:

Deep Face Recognition: A Survey

開(kāi)源的計(jì)算機(jī)視覺(jué)項(xiàng)目 一 使用GAN進(jìn)行自然風(fēng)格轉(zhuǎn)換

自然風(fēng)格轉(zhuǎn)換是一種使用一張圖像的風(fēng)格重建另一張圖像的內(nèi)容的計(jì)算機(jī)視覺(jué)技術(shù)。這是生成對(duì)抗網(wǎng)絡(luò)(GAN)的應(yīng)用, 這兒,我們輸入了兩張圖像, 一張內(nèi)容圖像,另一張時(shí)風(fēng)格參考圖像, 然后將二者混合在一起以至于輸出圖像看起來(lái)像使用風(fēng)格參考圖像繪制出來(lái)的油畫(huà)。

這是通過(guò)優(yōu)化輸出圖像與內(nèi)容圖像匹配的內(nèi)容統(tǒng)計(jì)和樣式參考圖像的樣式統(tǒng)計(jì)來(lái)實(shí)現(xiàn)的。

資源

下邊是一些用來(lái)練習(xí)非常令人驚嘆的數(shù)據(jù)集:

COCO數(shù)據(jù)集

COCO是一個(gè)大規(guī)模的對(duì)象檢測(cè)、分割和標(biāo)注的數(shù)據(jù)集。數(shù)據(jù)集中的圖像是從日常場(chǎng)景中捕獲的日常對(duì)象。此外,它提供了多對(duì)象標(biāo)記、分割掩碼標(biāo)注、圖像標(biāo)注和關(guān)鍵點(diǎn)檢測(cè),共有81個(gè)類(lèi)別,使其成為一個(gè)非常通用和多用途的數(shù)據(jù)集。

ImageNet

上邊已經(jīng)提到過(guò) 一 ImageNet非常靈活多用。

如果你還不知道如何應(yīng)用風(fēng)格轉(zhuǎn)換模型,這兒是一個(gè)tensorflow的教程可以幫助你, 而且, 如果你像更加升入了解這個(gè)技術(shù)我建議你閱讀接下來(lái)的論文。

藝術(shù)風(fēng)格的學(xué)術(shù)表達(dá)

使用循環(huán)一致對(duì)抗網(wǎng)絡(luò)的無(wú)需配對(duì)的圖像到圖像的轉(zhuǎn)換

使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像分割轉(zhuǎn)換

用于場(chǎng)景文本檢測(cè)的開(kāi)源計(jì)算機(jī)視覺(jué)項(xiàng)目

在任何給定的場(chǎng)景中檢測(cè)給定的場(chǎng)景是另外的一個(gè)非常有趣的問(wèn)題。 場(chǎng)景文字就是出現(xiàn)在戶外拍攝的圖像中出現(xiàn)的字符。 例如, 道路上的車(chē)牌號(hào), 道路上的公告牌等等。

場(chǎng)景圖像中的文字在形狀, 字體, 顏色和位置上都是變化的。由于光照和聚焦的不均勻性,使得場(chǎng)景文本識(shí)別的復(fù)雜度進(jìn)一步增加。

下邊這些流行的數(shù)據(jù)集將會(huì)豐富你分析場(chǎng)景文字檢測(cè)的技能:

SVHN

街景門(mén)牌號(hào)碼(SVHN)數(shù)據(jù)集是其中最受歡迎的開(kāi)源數(shù)據(jù)集之一。它已用于Google創(chuàng)建的神經(jīng)網(wǎng)絡(luò)中,以讀取門(mén)牌號(hào)并將其與地理位置匹配。這是一個(gè)很好的基準(zhǔn)數(shù)據(jù)集,可用于練習(xí), 學(xué)習(xí)和訓(xùn)練可準(zhǔn)確識(shí)別街道編號(hào)的模型。此數(shù)據(jù)集包含從Google街景視圖中獲取的超過(guò)60萬(wàn)張帶標(biāo)簽的真實(shí)房門(mén)圖像。

SceneText數(shù)據(jù)集

場(chǎng)景文本數(shù)據(jù)集包含在不同環(huán)境中捕獲的3000張圖像,包括在不同光照條件下的室外和室內(nèi)場(chǎng)景。圖像是通過(guò)使用高分辨率數(shù)碼相機(jī)或低分辨率移動(dòng)電話相機(jī)捕獲的。此外,所有圖像均已調(diào)整為640×480。

此外,場(chǎng)景文本檢測(cè)是一個(gè)兩步過(guò)程,包括圖像中的文本檢測(cè)和文本識(shí)別。對(duì)于文本檢測(cè),我發(fā)現(xiàn)了最先進(jìn)的深度學(xué)習(xí)方法EAST(高效準(zhǔn)確場(chǎng)景文本檢測(cè)器)。它可以找到水平和旋轉(zhuǎn)邊界框。您可以將其與任何文本識(shí)別方法結(jié)合使用。

這是有關(guān)場(chǎng)景文本檢測(cè)的其他一些有趣的論文:

使用鏈接主義文本提議網(wǎng)絡(luò)檢測(cè)自然圖像中的文本

COCO-Text:用于自然圖像中文本檢測(cè)和識(shí)別的數(shù)據(jù)集和基準(zhǔn)

使用DETR進(jìn)行目標(biāo)檢測(cè)的開(kāi)源計(jì)算機(jī)視覺(jué)項(xiàng)目

目標(biāo)檢測(cè)是通過(guò)邊界框以及圖像上的適當(dāng)標(biāo)簽預(yù)測(cè)圖像中存在的每個(gè)感興趣對(duì)象的任務(wù)。

幾個(gè)月前,F(xiàn)acebook開(kāi)源了其對(duì)象檢測(cè)框架DEtection TRansformer(DETR)。DETR是針對(duì)目標(biāo)檢測(cè)問(wèn)題的高效創(chuàng)新解決方案。通過(guò)將對(duì)象檢測(cè)視為直接設(shè)置的預(yù)測(cè)問(wèn)題,它簡(jiǎn)化了訓(xùn)練管道。此外,它采用基于變壓器的編碼器-解碼器架構(gòu)。

要了解有關(guān)DERT的更多信息,請(qǐng)參見(jiàn)論文和Colab notebook。

通過(guò)處理以下用于對(duì)象檢測(cè)的開(kāi)源數(shù)據(jù)集來(lái)使您的資料多樣化:

open Images

Open Image是約900萬(wàn)張圖像的數(shù)據(jù)集,其中標(biāo)注了圖像級(jí)標(biāo)簽,對(duì)象邊界框,對(duì)象分割掩碼,視覺(jué)關(guān)系和本地化描述。數(shù)據(jù)集分為訓(xùn)練集(9,011,219張圖像),驗(yàn)證集(41,620張圖像)和測(cè)試集(125,436張圖像)。

MSCOCO

MS-COCO是廣泛用于目標(biāo)檢測(cè)問(wèn)題的大規(guī)模數(shù)據(jù)集。它由33萬(wàn)張圖像組成,其中包含80個(gè)對(duì)象類(lèi)別,每個(gè)圖像有5個(gè)標(biāo)注,并有25萬(wàn)關(guān)鍵點(diǎn)。

您可以閱讀以下資源以了解有關(guān)對(duì)象檢測(cè)的更多信息:

基本對(duì)象檢測(cè)算法的分步介紹

使用流行的YOLO框架進(jìn)行對(duì)象檢測(cè)的實(shí)用指南

Facebook AI推出檢測(cè)轉(zhuǎn)換器(DETR)–一種基于transformer的對(duì)象檢測(cè)方法!

用于語(yǔ)義分割的開(kāi)源計(jì)算機(jī)視覺(jué)項(xiàng)目

當(dāng)我們談?wù)撚?jì)算機(jī)視覺(jué)技術(shù)中對(duì)場(chǎng)景的完全理解時(shí),語(yǔ)義分割就出現(xiàn)了。任務(wù)是將圖像中的所有像素分類(lèi)為相關(guān)對(duì)象類(lèi)別。

以下是實(shí)踐該主題的開(kāi)源數(shù)據(jù)集的列表:

CamVid

該數(shù)據(jù)庫(kù)是開(kāi)源的第一個(gè)按語(yǔ)義分割的數(shù)據(jù)集之一。這通常用于(實(shí)時(shí))語(yǔ)義分割研究中。數(shù)據(jù)集包含:

367個(gè)訓(xùn)練對(duì)

101個(gè)驗(yàn)證對(duì)

233個(gè)測(cè)試對(duì)

Cityscapes

該數(shù)據(jù)集是原始城市景觀的經(jīng)過(guò)處理的子樣本。數(shù)據(jù)集具有原始視頻的靜止圖像,并且語(yǔ)義分割標(biāo)簽顯示在原始圖像旁邊的圖像中。這是用于語(yǔ)義分割任務(wù)的最佳數(shù)據(jù)集之一。它具有2975個(gè)訓(xùn)練圖像文件和500個(gè)驗(yàn)證圖像文件,每個(gè)圖像文件均為256×512像素

要進(jìn)一步了解語(yǔ)義分段,我將推薦以下文章:

語(yǔ)義分割:Google Pixel相機(jī)背后的深度學(xué)習(xí)技術(shù)簡(jiǎn)介!

以下是一些可用于語(yǔ)義分割的代碼的論文:

帶有空洞可分離卷積的編碼器-解碼器用于語(yǔ)義圖像分割

DeepLab:使用深度卷積網(wǎng)絡(luò),空洞卷積和完全連接的CRF的語(yǔ)義圖像分割

用于自動(dòng)駕駛車(chē)輛道路車(chē)道檢測(cè)的開(kāi)源計(jì)算機(jī)視覺(jué)項(xiàng)目

一個(gè)自主轎車(chē)是能夠感知周?chē)h(huán)境,并無(wú)需人類(lèi)干預(yù)就能操作的交通工具。他們根據(jù)適合車(chē)輛不同部分的各種傳感器創(chuàng)建并維護(hù)周?chē)h(huán)境的地圖。

這些車(chē)輛具有監(jiān)視附近車(chē)輛位置的雷達(dá)傳感器。攝像機(jī)檢測(cè)交通信號(hào)燈,讀取路標(biāo),跟蹤其他車(chē)輛以及激光雷達(dá)(光檢測(cè)和測(cè)距)傳感器從汽車(chē)周?chē)瓷涔饷}沖以測(cè)量距離,檢測(cè)道路邊緣并識(shí)別車(chē)道標(biāo)記

車(chē)道檢測(cè)是這些車(chē)輛的重要組成部分。在公路運(yùn)輸中,車(chē)道是行車(chē)道的一部分,被指定用于單行車(chē)輛來(lái)控制和引導(dǎo)駕駛員并減少交通沖突。

在您的數(shù)據(jù)科學(xué)家的簡(jiǎn)歷中添加一個(gè)令人興奮的項(xiàng)目。以下是一些可用于實(shí)驗(yàn)的數(shù)據(jù)集-

TUsimple

該數(shù)據(jù)集是Tusimple車(chē)道檢測(cè)挑戰(zhàn)賽的一部分。它包含3626個(gè)視頻片段,每個(gè)片段1秒。這些視頻剪輯中的每一個(gè)都包含20幀,并帶有帶注釋的最后一幀。它包含訓(xùn)練和測(cè)試數(shù)據(jù)集,其中包含3626個(gè)視頻片段,訓(xùn)練數(shù)據(jù)集中的3626個(gè)帶注釋的幀和2782個(gè)用于測(cè)試的視頻片段。

如果您正在尋找一些開(kāi)發(fā)項(xiàng)目的教程,請(qǐng)查看下面的文章-

使用OpenCV進(jìn)行實(shí)時(shí)車(chē)道檢測(cè)的動(dòng)手教程(無(wú)人駕駛汽車(chē)項(xiàng)目!)

用于圖像標(biāo)注的開(kāi)源計(jì)算機(jī)視覺(jué)項(xiàng)目

您是否曾經(jīng)希望過(guò)一些可以為社交媒體圖像添加標(biāo)注的技術(shù),因?yàn)槟湍呐笥讯紵o(wú)法提出超酷的標(biāo)注?用于圖像標(biāo)注的深度學(xué)習(xí)助您一臂之力。

圖像標(biāo)注是為圖像生成文本描述的過(guò)程。它是計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理(NLP)的組合任務(wù)。

計(jì)算機(jī)視覺(jué)方法有助于理解并從輸入圖像中提取特征。此外,NLP以正確的單詞順序?qū)D像轉(zhuǎn)換為文本描述。

以下是一些有用的數(shù)據(jù)集,可幫助您使用圖像標(biāo)注:

COCO Caption

COCO是大規(guī)模的對(duì)象檢測(cè),分割和標(biāo)注數(shù)據(jù)集。它由330萬(wàn)張圖像(標(biāo)有> 200K)組成,具有150萬(wàn)個(gè)對(duì)象實(shí)例和80個(gè)對(duì)象類(lèi)別,每個(gè)圖像有5個(gè)標(biāo)題。

Ficker 8K 數(shù)據(jù)集

它是一個(gè)圖像標(biāo)注語(yǔ)料庫(kù),由158,915個(gè)眾包字幕組成,描述了31,783張圖像。這是Flickr 8k數(shù)據(jù)集的擴(kuò)展 。新的圖像和標(biāo)注集中于進(jìn)行日常活動(dòng)和事件的人們。

如果您正在尋找項(xiàng)目的實(shí)施,我建議您看下面的文章:

在PyTorch中使用深度學(xué)習(xí)(CNN和LSTM)進(jìn)行自動(dòng)圖像字幕

另外,我建議您閱讀有關(guān)圖像標(biāo)注的著名論文。

用于人體姿勢(shì)估計(jì)的開(kāi)源計(jì)算機(jī)視覺(jué)項(xiàng)目

人體姿勢(shì)估計(jì)是計(jì)算機(jī)視覺(jué)的有趣應(yīng)用。您一定已經(jīng)聽(tīng)說(shuō)過(guò)Posenet,它是用于人體姿勢(shì)估計(jì)的開(kāi)源模型。簡(jiǎn)而言之,姿勢(shì)估計(jì)是一種計(jì)算機(jī)視覺(jué)技術(shù),可以推斷圖像/視頻中存在的人或物體的姿勢(shì)。

在討論姿勢(shì)估計(jì)的工作之前,讓我們首先了解“人體姿勢(shì)骨架”。它是定義一個(gè)人的姿勢(shì)的一組坐標(biāo)。一對(duì)坐標(biāo)是肢體。此外,通過(guò)識(shí)別,定位和跟蹤圖像或視頻中人類(lèi)姿勢(shì)骨架的關(guān)鍵點(diǎn)來(lái)執(zhí)行姿勢(shì)估計(jì)。

資源

如果要開(kāi)發(fā)姿勢(shì)估計(jì)模型,以下是一些數(shù)據(jù)集:

MPII

MPII Human Pose數(shù)據(jù)集是評(píng)估關(guān)節(jié)式姿勢(shì)估計(jì)的最新基準(zhǔn)。該數(shù)據(jù)集包含約25K圖像,其中包含超過(guò)4 萬(wàn)名帶注釋的人體關(guān)節(jié)的人。總體而言,數(shù)據(jù)集涵蓋410種人類(lèi)活動(dòng),每個(gè)圖像都有一個(gè)活動(dòng)標(biāo)簽。

HUMANEVA

HumanEva-I數(shù)據(jù)集包含與3D人體姿勢(shì)同步的7個(gè)校準(zhǔn)視頻序列。該數(shù)據(jù)庫(kù)包含執(zhí)行6個(gè)常見(jiàn)動(dòng)作(例如,步行,慢跑,打手勢(shì)等)的4個(gè)主題,這些動(dòng)作被分為訓(xùn)練,驗(yàn)證和測(cè)試集。

我發(fā)現(xiàn)Google的DeepPose是一篇使用深度學(xué)習(xí)模型進(jìn)行姿勢(shì)估計(jì)非常有趣的研究論文。此外,您可以訪問(wèn)有關(guān)姿勢(shì)估計(jì)的多個(gè)研究論文,以更好地理解它。

通過(guò)面部表情進(jìn)行情感識(shí)別的開(kāi)源計(jì)算機(jī)視覺(jué)項(xiàng)目

面部表情在非語(yǔ)言交流以及識(shí)別人的過(guò)程中起著至關(guān)重要的作用。它們對(duì)于識(shí)別人的情緒非常重要。因此,關(guān)于面部表情的信息通常用于情緒識(shí)別的自動(dòng)系統(tǒng)中。

情緒識(shí)別是一項(xiàng)具有挑戰(zhàn)性的任務(wù),因?yàn)榍榫w可能會(huì)因環(huán)境,外觀,文化和面部反應(yīng)而異,從而導(dǎo)致數(shù)據(jù)不明確。

面部表情識(shí)別系統(tǒng)是一個(gè)多階段過(guò)程,包括面部圖像處理,特征提取和分類(lèi)。

資源

以下是您可以用來(lái)練習(xí)的數(shù)據(jù)集:

Real-world Affective Faces Database

真實(shí)世界的情感面孔數(shù)據(jù)庫(kù)(RAF-DB)是一個(gè)大規(guī)模的面部表情數(shù)據(jù)庫(kù),包含約3萬(wàn)張多種多樣的面部圖像。它由29672個(gè)真實(shí)世界的圖像和每個(gè)圖像的7維表情分布矢量組成,

您可以閱讀這些資源,以進(jìn)一步了解您的內(nèi)容-

用于視頻中的面部表情識(shí)別框架注意力網(wǎng)絡(luò)

姿勢(shì)和遮擋魯棒面部表情識(shí)別的區(qū)域注意網(wǎng)絡(luò)

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。

熱門(mén)文章