Closed Luiz-Henrique03 closed 4 months ago
Autores: Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich
Objetivo: Este artigo apresenta a arquitetura GoogLeNet (também conhecida como Inception v1), que é uma rede neural convolucional projetada para melhorar a eficiência computacional e a precisão na classificação de imagens em larga escala. O objetivo é explorar diferentes tamanhos e tipos de convoluções para melhorar a capacidade da rede de aprender representações hierárquicas complexas.
Banco de dados: O conjunto de dados utilizado para treinamento e avaliação é o ImageNet, que é um conjunto de dados de referência com milhões de imagens em milhares de categorias.
Modelo: O GoogLeNet introduz a ideia de módulos Inception, que consistem em múltiplos caminhos de convolução de diferentes tamanhos de filtro, permitindo que a rede capture características em várias escalas.
Principais ferramentas utilizadas: O treinamento do GoogLeNet foi realizado usando o framework Caffe, e foram empregadas GPUs para acelerar o processo de treinamento.
Principais resultados: O GoogLeNet alcançou uma precisão significativamente melhor do que os modelos anteriores na classificação de imagens do conjunto de dados ImageNet, ao mesmo tempo em que reduziu a complexidade computacional em comparação com arquiteturas mais profundas.
Título: "Very Deep Convolutional Networks for Large-Scale Image Recognition" Autores: Karen Simonyan, Andrew Zisserman Objetivo: Este artigo apresenta a arquitetura VGGNet, que consiste em redes neurais convolucionais profundas com uma estrutura simples e uniforme. O objetivo é investigar o impacto da profundidade da rede na precisão da classificação de imagens em grandes conjuntos de dados.
Banco de dados: O conjunto de dados utilizado é o ImageNet, que é um dos maiores conjuntos de dados disponíveis para a classificação de imagens em várias categorias.
Modelo: A VGGNet é caracterizada por sua arquitetura com várias camadas convolucionais empilhadas, com pequenos filtros de convolução 3x3 e pooling 2x2.
Principais ferramentas utilizadas: O treinamento da VGGNet foi realizado usando o framework Caffe, e foram utilizadas GPUs para acelerar o processo de treinamento.
Principais resultados: A VGGNet alcançou resultados de precisão de classificação de imagem competitivos no conjunto de dados ImageNet, demonstrando a importância da profundidade da rede e da utilização de filtros convolucionais pequenos.
Autores: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun
Objetivo: Este artigo apresenta a ResNet, uma arquitetura de rede neural profunda que utiliza conexões residuais para resolver o problema de degradação do desempenho conforme a rede fica mais profunda. O objetivo é melhorar a precisão do reconhecimento de imagens em conjuntos de dados desafiadores, como o ImageNet.
Banco de dados: O artigo menciona o uso do conjunto de dados ImageNet para treinamento e validação da rede.
Modelo: A ResNet é uma arquitetura de rede neural convolucional profunda, composta por camadas residuais que facilitam o treinamento de redes profundas.
Principais ferramentas utilizadas: O treinamento da ResNet foi realizado utilizando a estrutura do framework Caffe, mas desde então, implementações em outras ferramentas, como TensorFlow e PyTorch, tornaram-se populares.
Principais resultados: A ResNet alcançou resultados significativamente melhores em termos de precisão de classificação de imagens em comparação com outras arquiteturas existentes na época do seu lançamento. A utilização de conexões residuais permitiu treinar redes mais profundas com menos degradação no desempenho.
Autores: Karen Simonyan, Andrew Zisserman
Objetivo: Este artigo apresenta a arquitetura VGGNet, que consiste em redes neurais convolucionais profundas com uma estrutura simples e uniforme. O objetivo é investigar o impacto da profundidade da rede na precisão da classificação de imagens em grandes conjuntos de dados.
Banco de dados: O conjunto de dados utilizado é o ImageNet, que é um dos maiores conjuntos de dados disponíveis para a classificação de imagens em várias categorias.
Modelo: A VGGNet é caracterizada por sua arquitetura com várias camadas convolucionais empilhadas, com pequenos filtros de convolução 3x3 e pooling 2x2.
Principais ferramentas utilizadas: O treinamento da VGGNet foi realizado usando o framework Caffe, e foram utilizadas GPUs para acelerar o processo de treinamento.
Principais resultados: A VGGNet alcançou resultados de precisão de classificação de imagem competitivos no conjunto de dados ImageNet, demonstrando a importância da profundidade da rede e da utilização de filtros convolucionais pequenos.
Autores: Dhong Fhel K
O objetivo deste estudo é investigar o uso de imagens coloridas de profundidade na classificação de frutas com quatro modelos CNN, nomeadamente, AlexNet, GoogleNet, ResNet101, e VGG16, e compare seu desempenho e cálculo eficiência, bem como o impacto da aprendizagem por transferência.
Banco: Imagens de profundidade de maçã, laranja, manga, banana e rambutan (Nephelium Lappaceum) foram coletados manualmente usando um sensor de profundidade com precisão submilimétrica e sujeito a jato, uniforme e colorização inversa para produzir três conjuntos de conjuntos de dados
Os resultados mostram que imagens de profundidade podem ser usadas para treinar modelos CNN para frutas classificação com ResNet101 alcançando a melhor precisão de 96% no conjunto de dados inverso. Alcançou 100% de precisão após a transferência aprendizado. GoogleNet mostrou a melhoria mais significativa após transferência de aprendizagem no conjunto de dados uniforme, em 12,27%
Uma descrição sucinta (1 parágrafo) de cada artigo contendo o objetivo, o banco de dados, o modelo, as principais ferramentas utilizadas e os principais resultados