Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization
Presentation Date: 2022–05-15
Table of contents
- Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization
- 0. Abstract
- 1. Introduction
- 2. Related Work(관련작업)
- 3. Grad-CAM
- 4. Evaluating Localization Ability of Grad-CAM(Grad-CAM의 국산화 능력 평가)
- 5. Evaluating Visualizations (시각화 평가 )
- 6. Diagnosing image classification CNNs with Grad-CAM (Grad-CAM을 사용하여 이미지 분류 CNN 진단 )
- 7. Textual Explanations with Grad-CAM (Grad-CAM을 사용한 7가지 텍스트 설명 )
- 8. Grad-CAM for Image Captioning and VQA(이미지 캡션 및 VQA용 Grad-CAM)
- 9. Conclusion (결론)
- 10. Acknowledgements
- Appendix(부록)
- A. Appendix Overview(부록 개요)
- B. Ablation studies (절제 연구 )
- C. Qualitative results for vision and language tasks (시각 및 언어 작업에 대한 정성적 결과)
- D. More details of Pointing Game (포인팅 게임에 대한 자세한 정보)
- E. Qualitative comparison to Excitation Backprop (c-MWP) and CAM (Excitation Backprop(c-MWP) 및 CAM과의 질적 비교)
- F. Visual and Textual explanations for Places dataset(장소 데이터 세트에 대한 시각적 및 텍스트 설명)
- G. Analyzing Residual Networks (잔류 네트워크 분석 )
0. Abstract
We propose a technique for producing ‘visual explanations’ for decisions from a large class of Convolutional Neural Network (CNN)-based models, making them more transparent and explainable.
우리는 대규모 클래스의 컨볼루션 신경망(CNN) 기반 모델에서 의사결정에 대한 ‘시각적 설명’을 생성하는 기술을 제안하여 보다 투명하고 설명 가능하게 한다.
Our approach – Gradient-weighted Class Activation Mapping (Grad-CAM), uses the gradients of any target concept (say ‘dog’ in a classification network or a sequence of words in captioning network) flowing into the final convolutional layer to produce a coarse localization map highlighting the important regions in the image for predicting the concept.
우리의 접근 방식 – 그레이디언트 가중 클래스 활성화 매핑(Grad-CAM)은 최종 컨볼루션 레이어로 흐르는 모든 대상 개념의 그레이디언트(예: 분류 네트워크의 ‘dog’ 또는 캡션 네트워크의 단어 시퀀스)를 사용하여 개념 예측을 위한 이미지에서 중요한 영역을 강조하는 거친 현지화 맵을 생성한다..
Unlike previous approaches, Grad-CAM is applicable to a wide variety of CNN model-families:
이전의 접근 방식과 달리 Grad-CAM은 다양한 CNN 모델 제품군에 적용할 수 있다.
(1) CNNs with fully- connected layers (e.g. VGG),
(1) 계층이 완전히 연결된 CNN(예: VGG),
(2) CNNs used for structured outputs (e.g. captioning),
(2) 구조화된 출력에 사용되는 CNN(예: 캡션),
(3) CNNs used in tasks with multi- modal inputs (e.g. visual question answering) or reinforcement learning, all without architectural changes or re-training.
(3) 다중 모드 입력(예: 시각적 질문 답변) 또는 강화 학습과 관련된 작업에 사용되는 CNN은 모두 아키텍처 변경이나 재교육 없이 사용된다.
We combine Grad-CAM with existing fine-grained visualizations to create a high-resolution class-discriminative visualization, Guided Grad-CAM, and apply it to image classification, image captioning, and visual question answering (VQA) models, including ResNet-based architectures.
우리는 Grad-CAM을 기존의 세분화된 시각화와 결합하여 고해상도 클래스 차별 시각화인 Guided Grad-CAM을 생성하고 ResNet 기반 아키텍처를 포함한 이미지 분류, 이미지 캡션 및 시각적 질문 응답(VQA) 모델에 적용한다.
In the context of image classification models, our visualizations
이미지 분류 모델의 맥락에서, 우리의 시각화는
(a) lend insights into failure modes of these models (showing that seemingly unreasonable predictions have reasonable explanations),
(a) 이러한 모델의 고장 모드에 대한 통찰력을 제공한다(비합리해 보이는 예측이 합리적인 설명을 가지고 있다는 점을 고려하면).
(b) outperform previous methods on the ILSVRC-15 weakly-supervised localization task,
(b) ILSVRC-15 약하게 감독되는 현지화 작업에서 이전 방법을 능가한다.
(c) are robust to adversarial perturbations,
(c) 적대적인 동요에 강하고,
(d) are more faithful to the underlying model, and
(d) 기본 모델에 더 충실하고,
(e) help achieve model generalization by identifying dataset bias.
(e) 데이터 세트 편견을 식별하여 모델 일반화를 달성하는 데 도움이 된다.
For image captioning and VQA, our visualizations show that even non-attention based models learn to localize discriminative regions of input image.
이미지 캡션 및 VQA의 경우, 우리의 시각화는 비주의 기반 모델도 입력 이미지의 차별적 영역을 현지화하는 방법을 학습한다는 것을 보여준다.
We devise a way to identify important neurons through Grad-CAM and combine it with neuron names to provide textual explanations for model decisions.
우리는 Grad-CAM을 통해 중요한 뉴런을 식별하고 뉴런 이름과 결합하여 모델 결정에 대한 텍스트 설명을 제공하는 방법을 고안한다.
Finally, we design and conduct human studies to measure if Grad-CAM explanations help users establish appropriate trust in predictions from deep networks and show that Grad-CAM helps untrained users successfully discern a ‘stronger’ deep network from a ‘weaker’ one even when both make identical predictions.
마지막으로, 우리는 Grad-CAM 설명이 심층 네트워크의 예측에 대한 적절한 신뢰를 확립하는 데 도움이 되는지 측정하고, Grad-CAM이 훈련되지 않은 사용자가 동일한 예측을 하더라도 ‘더 강한’ 심층 네트워크와 ‘더 약한’ 네트워크를 성공적으로 식별하는 데 도움이 된다는 것을 보여주기 위해 인간 연구를 설계하고 수행한다.
Our code is available at https://github.com/ramprs/grad-cam/, along with a demo on CloudCV, and a video at youtu.be/COjUB9Izk6E.
우리의 코드는 https://github.com/ramprs/grad-cam/,에서 CloudCV에 대한 데모와 youtu.be/COjUB9Izk6E에서 이용할 수 있다.
1. Introduction
Deep neural models based on Convolutional Neural Net- works (CNNs) have enabled unprecedented breakthroughs in a variety of computer vision tasks, from image classification, object detection, semantic segmentation to image captioning, visual question answering and more recently, visual dialog and embodied question answering.
컨볼루션 신경망(CNN)을 기반으로 하는 심층 신경 모델은 이미지 분류, 객체 감지, 의미 분할에서 이미지 캡션, 시각적 질문 답변 및 최근에는 시각적 대화와 구체화된 질문 답변에 이르기까지 다양한 컴퓨터 비전 작업에서 전례 없는 획기적인 발전을 가능하게 했다.
While these models enable superior performance, their lack of decomposability into individually intuitive components makes them hard to interpret.
이러한 모델은 우수한 성능을 가능하게 하지만, 개별적으로 직관적인 구성 요소로 분해할 수 없기 때문에 해석하기 어렵다.
Consequently, when today’s intelligent systems fail, they often fail spectacularly disgracefully without warning or explanation, leaving a user staring at an incoherent output, wondering why the system did what it did.
결과적으로, 오늘날의 지능형 시스템이 고장 나면 경고나 설명 없이 엄청나게 망신스럽게 고장나는 경우가 많아, 사용자는 일관성 없는 출력을 보고 시스템이 왜 그랬는지 궁금해하게 된다.
Interpretability matters. In order to build trust in intelligent systems and move towards their meaningful integration into our everyday lives, it is clear that we must build ‘transparent’ models that have the ability to explain why they predict what they predict.
해석성이 중요합니다. 지능형 시스템에 대한 신뢰를 쌓고 우리의 일상생활에 의미 있는 통합을 향해 나아가기 위해서는 예측되는 것을 왜 예측하는지 설명할 수 있는 능력을 갖춘 ‘투명’ 모델을 구축해야 한다는 것은 분명하다.
Broadly speaking, this transparency and ability to explain is useful at three different stages of Artificial Intelligence (AI) evolution.
넓게 말하면, 이러한 투명성과 설명 능력은 인공지능(AI) 진화의 세 가지 다른 단계에서 유용하다.
First, when AI is significantly weaker than humans and not yet reliably deployable (e.g. visual question answering), the goal of transparency and explanations is to identify the failure modes, thereby helping researchers focus their efforts on the most fruitful research directions.
첫째, AI가 인간보다 현저히 약하고 아직 안정적으로 배포할 수 없는 경우(예: 시각적 질문 답변), 투명성과 설명의 목표는 실패 모드를 식별하여 연구자가 가장 알찬 연구 방향에 노력을 집중할 수 있도록 돕는 것이다.
Second, when AI is on par with humans and reliably deployable (e.g., image classification trained on sufficient data), the goal is to establish appropriate trust and confidence in users.
둘째, AI가 인간과 동등하고 신뢰할 수 있는 배포 가능(예: 충분한 데이터에 대해 훈련된 이미지 분류)할 때 목표는 사용자에 대한 적절한 신뢰와 신뢰를 확립하는 것이다.
Third, when AI is significantly stronger than humans (e.g. chess or Go), the goal of explanations is in machine teaching – i.e., a machine teaching a human about how to make better decisions.
셋째, AI가 인간(예: 체스 또는 바둑)보다 훨씬 강할 때, 설명의 목표는 기계 교육 즉, 인간에게 더 나은 결정을 내리는 방법에 대해 가르치는 기계에 있다.
There typically exists a trade-off between accuracy and simplicity or interpretability.
일반적으로 정확성과 단순성 또는 해석 가능성 사이에는 절충이 존재한다.
Classical rule-based or expert systems are highly interpretable but not very accurate (or robust).
고전적인 규칙 기반 또는 전문가 시스템은 해석성이 높지만 매우 정확하지는 않다(또는 견고하지 않다).
Decomposable pipelines where each stage is handdesigned are thought to be more interpretable as each individual component assumes anatural intuitive explanation.
각 단계가 직접 설계되는 분해 가능한 파이프라인은 각 개별 구성요소가 자연스러운 직관적 설명을 가정하므로 더 해석 가능한 것으로 생각된다.
By using deep models, we sacrifice interpretable modules for uninterpretable ones that achieve greater performance through greater abstraction (more layers) and tighter integration (end-to-end training).
심층 모델을 사용함으로써, 우리는 더 큰 추상화(더 많은 레이어)와 더 긴밀한 통합(엔드 투 엔드 훈련)을 통해 더 큰 성능을 달성하는 해석 불가능한 모듈을 희생한다.
Recently introduced deep residual networks (ResNets) are over 200-layers deep and have shown state-of-the-art performance in several challenging tasks.
최근에 도입된 심층 잔류 네트워크(ResNets)는 200층 이상의 깊이가 있으며 몇 가지 어려운 작업에서 최첨단 성능을 보여주었다.
Such complexity makes these models hard to interpret.
이러한 복잡성은 이러한 모델을 해석하기 어렵게 만든다.
As such, deep models are beginning to explore the spectrum between interpretability and accuracy.
이와 같이, 심층 모델은 해석 가능성과 정확성 사이의 스펙트럼을 탐구하기 시작하고 있다.
Zhou et al. [59] recently proposed a technique called Class Activation Mapping (CAM) for identifying discriminative regions used by a restricted class of image classification CNNs which do not contain any fully-connected layers.
저우 외. [59] 최근 완전히 연결된 레이어를 포함하지 않는 제한된 등급의 이미지 분류 CNN에서 사용하는 차별적 영역을 식별하기 위해 클래스 활성화 매핑(CAM)이라는 기술을 제안하였다.
In essence, this work trades off model complexity and performance for more transparency into the working of the model.
본질적으로, 이 작업은 모델 작업의 투명성을 높이기 위해 모델 복잡성과 성능을 절충한다.
In contrast, we make existing state-of-the-art deep models interpretable without altering their architecture, thus avoiding the interpretability vs. accuracy trade-off.
대조적으로, 우리는 기존의 최첨단 심층 모델을 아키텍처를 변경하지 않고 해석 가능하게 만들어 해석 가능성 대 정확성 트레이드오프를 피한다.
Our approach is a generalization of CAM [59] and is applicable to a significantly broader range of CNN model families:
우리의 접근 방식은 CAM[59]의 일반화이며 훨씬 더 광범위한 CNN 모델 제품군에 적용할 수 있다.
(1) CNNs with fully-connected layers (e.g. VGG),
(1) 계층이 완전히 연결된 CNN(예: VGG),
(2) CNNs used for structured outputs (e.g. captioning),
(2) 구조화된 출력에 사용되는 CNN(예: 캡션),
(3) CNNs used in tasks with multi-modal inputs (e.g. VQA) or reinforcement learning, without requiring architectural changes or re-training.
(3) CNN은 아키텍처 변경이나 재교육을 요구하지 않고 다중 모드 입력(예: VQA) 또는 강화 학습이 있는 작업에 사용된다.
What makes a good visual explanation?
무엇이 좋은 시각적 설명을 만드는가?
Consider image classification – a ‘good’ visual explanation from the model for justifying any target category should be
이미지 분류를 고려합니다 – 대상 범주를 정당화하기 위한 모델의 ‘좋은’ 시각적 설명은 다음과 같아야 합니다.
(a) class- discriminative (i.e. localize the category in the image) and
(a) 등급 판별(즉, 이미지의 범주를 현지화) 및
(b) high-resolution (i.e. capture fine-grained detail).
(b) 고해상도(예: 세분화된 세부 정보 캡처)
Fig. 1 shows outputs from a number of visualizations for the ‘tiger cat’ class (top) and ‘boxer’ (dog) class (bottom).
그림 1은 ‘호랑이 고양이’ 등급(위) 및 ‘복서’(개) 등급(아래)에 대한 여러 시각화 결과입니다.
Pixel-space gradient visualizations such as Guided Backpropagation and Deconvolution are high-resolution and highlight fine-grained details in the image, but are not class-discriminative (Fig. 1b and Fig. 1h are very similar).
Guided Back propagation 및 Deconvolution과 같은 픽셀 공간 그레이디언트 시각화는 고해상도이고 이미지에서 세밀한 디테일을 강조하지만 클래스 차별적이지 않다(그림 1b와 그림 1h는 매우 유사하다).
In contrast, localization approaches like CAM or our proposed method Gradient-weighted Class Activation Mapping (Grad-CAM), are highly class-discriminative (the ‘cat’ explanation exclusively highlights the ‘cat’ regions but not ‘dog’ regions in Fig. 1c, and vice versa in Fig. 1i).
대조적으로, CAM 또는 제안된 방법인 그레이디언트 가중 클래스 활성화 매핑(Grad-CAM)과 같은 현지화 접근법은 매우 차별적이다(그림 1c에서는 ‘cat’ 설명이 ‘dog’ 영역이 아니라 ‘cat’ 영역을 독점적으로 강조한다, 그림 1i에서는 그 반대).
In order to combine the best of both worlds, we show that it is possible to fuse existing pixel-space gradient visualizations with Grad-CAM to create Guided Grad-CAM visualizations that are both high-resolution and class-discriminative.
두 세계의 장점을 결합하기 위해 기존의 픽셀 공간 그레이디언트 시각화를 Grad-CAM과 결합하여 고해상도이면서 클래스 차별적인 Guided Grad-CAM 시각화를 만들 수 있음을 보여준다.
As a result, important regions of the image which correspond to any decision of interest are visualized in high-resolution detail even if the image contains evidence for multiple possible concepts, as shown in Figures 1d and 1j.
결과적으로, 그림 1d와 1j에서와 같이, 이미지에 여러 가능한 개념에 대한 증거가 포함되어 있더라도 관심 있는 결정에 해당하는 이미지의 중요한 영역은 고해상도 세부로 시각화된다.
When visualized for ‘tiger cat’, Guided Grad-CAM not only highlights the cat regions, but also highlights the stripes on the cat, which is important for predicting that particular variety of cat.
‘호랑이 고양이’를 시각화하면, Guided Grad-CAM은 고양이 영역을 강조할 뿐만 아니라 고양이의 줄무늬도 강조하는데, 이는 특정 고양이 종류를 예측하는 데 중요합니다.
To summarize, our contributions are as follows:
요약하자면, 우리의 기여는 다음과 같습니다.
(1) We introduce Grad-CAM, a class-discriminative localization technique that generates visual explanations for any CNN-based network without requiring architectural changes or re-training.
(1) 우리는 아키텍처 변경이나 재교육을 요구하지 않고 CNN 기반 네트워크에 대한 시각적 설명을 생성하는 클래스 차별적 현지화 기술인 Grad-CAM을 소개한다.
We evaluate Grad-CAM for localization (Sec. 4.1), and faithfulness to model (Sec. 5.3), where it outperforms baselines.
우리는 Grad-CAM이 기준선을 능가하는 현지화(4.1절) 및 모델에 대한 충실도(5.3절)를 평가한다.
(2) We apply Grad-CAM to existing top-performing classification, captioning (Sec. 8.1), and VQA (Sec. 8.2) models.
(2) 우리는 기존의 최고 성능 분류, 캡션(8.1절) 및 VQA(8.2절) 모델에 Grad-CAM을 적용한다.
For image classification, our visualizations lend insight into failures of current CNNs (Sec. 6.1), showing that seemingly unreasonable predictions have reasonable explanations.
이미지 분류의 경우, 우리의 시각화는 현재 CNN(6.1절)의 실패에 대한 통찰력을 제공하며, 겉으로 보기에 불합리한 예측이 합리적인 설명을 가지고 있음을 보여준다.
For captioning and VQA, our visualizations expose that common CNN + LSTM models are often surprisingly good at localizing discriminative image regions despite not being trained on grounded image-text pairs.
캡션과 VQA의 경우, 우리의 시각화는 일반적인 CNN + LSTM 모델이 접지된 이미지 텍스트 쌍에 대해 훈련되지 않았음에도 불구하고 종종 차별적인 이미지 영역을 현지화하는 데 놀랍도록 뛰어나다는 것을 보여준다.
(3) We show a proof-of-concept of how interpretable Grad- CAM visualizations help in diagnosing failure modes by uncovering biases in datasets.
(3) 우리는 데이터 세트에서 편견을 발견하여 해석 가능한 Grad-CAM 시각화가 고장 모드를 진단하는 데 어떻게 도움이 되는지의 개념 증명을 보여준다.
This is important not just for generalization, but also for fair and bias-free outcomes as more and more decisions are made by algorithms in society.
이는 일반화뿐만 아니라 사회에서 알고리즘에 의해 점점 더 많은 결정이 내려짐에 따라 공정하고 편견이 없는 결과에도 중요하다.
(4) We present Grad-CAM visualizations for ResNets [24] applied to image classification and VQA (Sec. 8.2).
(4) 이미지 분류 및 VQA(8.2절)에 적용된 ResNets[24]에 대한 Grad-CAM 시각화를 제시한다.
(5) We use neuron importance from Grad-CAM and neuron names from [4] and obtain textual explanations for model decisions (Sec. 7).
(5) Grad-CAM의 뉴런 중요도와 [4]의 뉴런 이름을 사용하고 모델 결정에 대한 텍스트 설명을 얻는다(7절).
(6) We conduct human studies (Sec. 5) that show Guided Grad-CAM explanations are class-discriminative and not only help humans establish trust, but also help untrained users successfully discern a ‘stronger’ network from a ‘weaker’ one, even when both make identical predictions.
(6) 우리는 Guided Grad-CAM 설명이 클래스 차별적이며 인간이 신뢰를 확립하는 데 도움이 될 뿐만 아니라 훈련되지 않은 사용자가 동일한 예측을 하더라도 ‘더 강한’ 네트워크와 ‘더 약한’ 네트워크를 성공적으로 식별하는 데 도움이 된다는 인간 연구(5절)를 수행한다.
Paper Organization:
The rest of the paper is organized as follows. In section 3 we propose our approach Grad-CAM and Guided Grad-CAM.
나머지 논문은 다음과 같이 구성되어 있다. 섹션 3에서 우리는 Grad-CAM 및 Guided Grad-CAM 접근 방식을 제안한다.
In sections 4 and 5 we evaluate the localization ability, class-discriminativeness, trustworthyness and faithfulness of Grad-CAM.
섹션 4와 5에서 Grad-CAM의 현지화 능력, 클래스 차별성, 신뢰성과 충실성을 평가한다.
In section 6 we show certain use cases of Grad-CAM such as diagnosing image classification CNNs and identifying biases in datasets.
섹션 6에서는 이미지 분류 CNN 진단 및 데이터 세트에서 편향 식별과 같은 Grad-CAM의 특정 사용 사례를 보여준다.
In section 7 we provide a way to obtain textual explanations with Grad- CAM.
섹션 7에서는 Grad-CAM으로 텍스트 설명을 얻는 방법을 제공한다.
In section 8 we show how Grad-CAM can be applied to vision and language models – image captioning and Visual Question Answering (VQA).
섹션 8에서는 Grad-CAM을 비전 및 언어 모델인 이미지 캡션 및 VQA(Visual Question Answering)에 적용하는 방법을 보여준다.
Fig. 1: (a) Original image with a cat and a dog.
(b-f) Support for the cat category according to various visualizations for VGG-16 and ResNet.
(b) Guided Backpropagation [53]: highlights all contributing features.
(c, f) Grad-CAM (Ours): localizes class-discriminative regions,
(d) Combining (b) and (c) gives Guided Grad-CAM, which gives high-resolution class-discriminative visualizations.
Interestingly, the localizations achieved by our Grad-CAM technique,
(c) are very similar to results from occlusion sensitivity
(e), while being orders of magnitude cheaper to compute.
(f, l) are Grad-CAM visualizations for ResNet-18 layer.
Note that in (c, f, i, l), red regions corresponds to high score for class, while in (e, k), blue corresponds to evidence for the class.
Figure best viewed in color.
그림 1: (a) 고양이와 개가 있는 원본 이미지
(b-f) VGG-16 및 ResNet의 다양한 시각화에 따른 고양이 범주 지원.
(b) Guided Back propagation [53]: 기여하는 모든 기능을 강조 표시합니다.
(c, f) Grad-CAM (Ours): 계급 차별 지역을 현지화한다.
(d) (b)와 (c)를 결합하면 고해상도 클래스 차별 시각화를 제공하는 Guided Grad-CAM이 제공된다.
흥미롭게도, Grad-CAM 기술을 통해 달성된 현지화는
(c) 폐색 민감도의 결과와 매우 유사합니다.
(e)계산 비용이 훨씬 저렴합니다.
(f, l) ResNet-18 레이어에 대한 Grad-CAM 시각화입니다.
(c, f, i, l)에서 빨간색 영역은 클래스에 대한 높은 점수를 나타내며 (e, k)에서는 파란색은 클래스에 대한 증거를 나타냅니다.
색상으로 가장 잘 보이는 그림입니다.
2. Related Work(관련작업)
Our work draws on recent work in CNN visualizations, model trust assessment, and weakly-supervised localization.
우리의 연구는 CNN 시각화, 모델 신뢰 평가 및 약하게 감독되는 현지화에 대한 최근 연구에 의존한다.
Visualizing CNNs
A number of previous works [51,53,57, 19] have visualized CNN predictions by highlighting ‘important’ pixels (i.e. change in intensities of these pixels have the most impact on the prediction score).
많은 이전 작품[51,53,57,19]은 ‘중요한’ 픽셀을 강조하여 CNN 예측을 시각화했다(즉, 이러한 픽셀의 강도 변화는 예측 점수에 가장 큰 영향을 미친다).
Specifically, Simonyan et al. [51] visualize partial derivatives of predicted class scores w.r.t. pixel intensities, while Guided Backpropagation [53] and Deconvolution [57] make modifications to ‘raw’ gradients that result in qualitative improvements. These approaches are compared in [40].
구체적으로, 시모니아 외. [51] 예측 클래스 점수 w.r.t. 픽셀 강도의 부분 도함수를 시각화하는 한편, Guided Back 전파[53]와 Deconvolution[57]은 질적 개선을 초래하는 ‘raw’ 그레이디언트를 수정한다. 이러한 접근법은 [40]에서 비교된다.
Despite producing fine-grained visualizations, these methods are not classdiscriminative.
세분화된 시각화를 생성함에도 불구하고, 이러한 방법은 등급 차별적이지 않다.
Visualizations with respect to different classes are nearly identical (see Figures 1b and 1h).
다른 클래스에 대한 시각화는 거의 동일합니다(그림 1b 및 1h 참조).
Other visualization methods synthesize images to maximally activate a network unit [51,16] or invert a latent representation [41,15].
다른 시각화 방법은 이미지를 합성하여 네트워크 장치[51,16]를 최대 활성화하거나 잠재 표현[41,15]을 반전시킨다.
Although these can be high-resolution and class-discriminative, they are not specific to a single input image and visualize a model overall.
이것들은 고해상도이고 클래스 차별적일 수 있지만, 그것들은 단일 입력 이미지에 특정되지 않고 전체적으로 모델을 시각화한다.
Assessing Model Trust(모델 신뢰도 평가)
Motivated by notions of interpretability [36] and assessing trust in models [47], we evaluate Grad-CAM visualizations in a manner similar to [47] via human studies to show that they can be important tools for users to evaluate and place trust in automated systems.
해석 가능성[36]의 개념과 모델[47]에 대한 신뢰 평가에 동기 부여되어, 우리는 인간 연구를 통해 Grad-CAM 시각화를 평가하여 사용자가 자동화된 시스템을 평가하고 신뢰하는 데 중요한 도구가 될 수 있음을 보여준다.
Aligning Gradient-based Importances(기울기 기반 중요도 조정)
Selvaraju et al. [48] proposed an approach that uses the gradient-based neuron importances introduced in our work, and maps it to class- specific domain knowledge from humans in order to learn classifiers for novel classes. In future work, Selvaraju et al. [49] proposed an approach to align gradient-based importances to human attention maps in order to ground vision and language models.
셀바라주 외. [48]은 우리의 연구에서 도입된 그레이디언트 기반 뉴런의 중요성을 사용하고, 새로운 클래스를 위한 분류기를 학습하기 위해 인간의 클래스별 도메인 지식에 매핑하는 접근법을 제안했다. 미래의 작품에서, 셀바라주 외. [49]는 지면 비전과 언어 모델을 만들기 위해 그레이디언트 기반 중요성을 인간 주의 지도에 정렬하는 접근법을 제안했다.
Weakly-supervised localization(취약하게 감독된 현지화)
Another relevant line of work is weakly-supervised localization in the context of CNNs, where the task is to localize objects in images using holistic image class labels only [8,43,44,59].
또 다른 관련 작업 라인은 CNN의 맥락에서 약하게 감독되는 현지화인데, 여기서 작업은 전체론적 이미지 클래스 레이블만 사용하여 이미지의 개체를 현지화하는 것이다[8,43,44,59].
Most relevant to our approach is the Class Activation Map- ping (CAM) approach to localization [59].
우리의 접근 방식과 가장 관련이 있는 것은 현지화에 대한 CAM(Class Activation Mapping) 접근 방식이다[59].
This approach modifies image classification CNN architectures replacing fully-connected layers with convolutional layers and global average pooling [34], thus achieving class-specific feature maps.
이 접근 방식은 완전히 연결된 레이어를 컨볼루션 레이어와 글로벌 평균 풀링으로 대체하는 이미지 분류 CNN 아키텍처를 수정하여 클래스별 기능 맵을 달성한다[34].
Others have investigated similar methods using global max pooling [44] and log-sum-exp pooling [45].
다른 사람들은 글로벌 최대 풀링[44]과 log-sum-exp 풀링[45]을 사용하여 유사한 방법을 조사했다.
A drawback of CAM is that it requires feature maps to directly precede softmax layers, so it is only applicable to a particular kind of CNN architectures performing global average pooling over convolutional maps immediately prior to prediction (i.e. conv feature maps → global average pooling → softmax layer).
CAM의 단점은 기능 맵이 직접 소프트맥스 레이어에 선행하도록 요구하기 때문에 예측 직전에 컨볼루션 맵을 통해 글로벌 평균 풀링을 수행하는 특정 종류의 CNN 아키텍처에만 적용할 수 있다(즉, 컨볼루션 피쳐 맵 → 글로벌 평균 풀링 → 소프트맥스 레이어).
Such architectures may achieve inferior accuracies compared to general networks on some tasks (e.g. image classification) or may simply be inapplicable to any other tasks (e.g. image captioning or VQA).
이러한 아키텍처는 일부 작업(예: 이미지 분류)에서 일반 네트워크에 비해 낮은 정확도를 달성하거나 다른 작업(예: 이미지 캡션 또는 VQA)에는 적용할 수 없을 수 있다.
We introduce a new way of combining feature maps using the gradient signal that does not require any modification in the network architecture.
우리는 네트워크 아키텍처에서 어떠한 수정도 필요하지 않은 그레이디언트 신호를 사용하여 피처 맵을 결합하는 새로운 방법을 소개한다.
This allows our approach to be applied to off-the-shelf CNN-based architectures, including those for image captioning and visual question answering. For a fully-convolutional architecture, CAM is a special case of Grad-CAM.
이를 통해 이미지 캡션 및 시각적 질문 응답을 포함한 기성 CNN 기반 아키텍처에 우리의 접근 방식을 적용할 수 있다. 완전 컨볼루션 아키텍처에서 CAM은 Grad-CAM의 특별한 경우이다.
Other methods approach localization by classifying perturbations of the input image.
다른 방법은 입력 이미지의 섭동을 분류하여 현지화에 접근한다.
Zeiler and Fergus [57] perturb inputs by occluding patches and classifying the occluded image, typically resulting in lower classification scores for relevant objects when those objects are occluded. This principle is applied for localization in [5].
Zeiler와 Fergus [57]는 패치를 닫고 닫힌 이미지를 분류하여 입력을 교란하며, 일반적으로 이러한 개체가 가려질 때 관련 개체에 대한 분류 점수가 낮아진다. 이 원리는 [5]의 현지화에 적용됩니다.
Oquab et al. [43] classify many patches containing a pixel then average these patch-wise scores to provide the pixel’s class-wise score.
네. 좋습니다. [43] 픽셀을 포함하는 많은 패치를 분류한 다음 이러한 패치별 점수를 평균하여 픽셀의 클래스별 점수를 제공한다.
Unlike these, our approach achieves localization in one shot; it only requires a single forward and a partial backward pass per image and thus is typically an order of magnitude more efficient.
이러한 접근 방식과 달리, 우리의 접근 방식은 한 번의 촬영으로 현지화를 달성한다. 이미지당 단일 전방 및 부분 후방 패스만 필요하므로 일반적으로 훨씬 더 효율적이다.
In recent work, Zhang et al. [58] introduce contrastive Marginal Winning Probability (c-MWP), a probabilistic Winner-Take- All formulation for modelling the top-down attention for neural classification models which can highlight discriminative regions.
최근 작품에서, Zhang. [58] 차별적 영역을 강조할 수 있는 신경 분류 모델에 대한 하향식 주의를 모델링하기 위한 확률적 승자-테이크-모든 공식인 대조적 한계 승리 확률(c-MWP)을 도입한다.
This is computationally more expensive than Grad-CAM and only works for image classification CNNs.
이것은 Grad-CAM보다 계산적으로 더 비싸며 이미지 분류 CNN에서만 작동한다.
Moreover, Grad-CAM outperforms c-MWP in quantitative and qualitative evaluations (see Sec. 4.1 and Sec. D).
또한 Grad-CAM은 정량적 및 정성적 평가에서 c-MWP를 능가한다(제4.1절 및 제4절 참조). D).
Fig. 2: Grad-CAM overview: Given an image and a class of interest (e.g., ‘tiger cat’ or any other type of differentiable output) as input, we forward propagate the image through the CNN part of the model and then through task-specific computations to obtain a raw score for the category.
그림 2: 그레이드-CAM 개요: 입력으로 이미지와 관심 클래스(예: ‘호랑이 고양이’ 또는 다른 유형의 미분 가능한 출력)가 주어지면, 우리는 모델의 CNN 부분을 통해 이미지를 전달한 다음 작업별 계산을 통해 범주에 대한 원시 점수를 얻는다.
The gradients are set to zero for all classes except the desired class (tiger cat), which is set to 1.
그레이디언트는 1로 설정된 원하는 클래스(호랑이 고양이)를 제외한 모든 클래스에 대해 0으로 설정됩니다.
This signal is then backpropagated to the rectified convolutional feature maps of interest, which we combine to compute the coarse Grad-CAM localization (blue heatmap) which represents where the model has to look to make the particular decision.
그런 다음 이 신호는 관심 있는 수정된 컨볼루션 기능 맵으로 역전파되며, 이를 결합하여 모델이 특정 결정을 내리기 위해 살펴봐야 하는 위치를 나타내는 거친 Grad-CAM 위치화(파란색 열 지도)를 계산한다.
Finally, we pointwise multiply the heatmap with guided backpropagation to get Guided Grad-CAM visualizations which are both high-resolution and concept-specific.
마지막으로, 우리는 고해상도 및 개념별 Guided Grad-CAM 시각화를 얻기 위해 열 지도를 가이드 역전파로 포인트 곱한다.
3. Grad-CAM
A number of previous works have asserted that deeper representations in a CNN capture higher-level visual constructs [6, 41].
많은 이전 연구는 CNN의 더 깊은 표현이 더 높은 수준의 시각적 구조를 포착한다고 주장했다[6, 41].
Furthermore, convolutional layers naturally retain spatial information which is lost in fully-connected layers, so we can expect the last convolutional layers to have the best com- promise between high-level semantics and detailed spatial information.
또한, 컨볼루션 레이어는 완전히 연결된 레이어에서 손실된 공간 정보를 자연스럽게 유지하므로 마지막 컨볼루션 레이어는 높은 수준의 의미론과 상세한 공간 정보 사이에서 최상의 절충을 기대할 수 있다.
The neurons in these layers look for semantic class-specific information in the image (say object parts).
이러한 레이어의 뉴런은 이미지에서 의미론적 클래스별 정보(예: 객체 부분)를 찾습니다.
Grad-CAM uses the gradient information flowing into the last convolutional layer of the CNN to assign importance values to each neuron for a particular decision of interest.
Grad-CAM은 CNN의 마지막 컨볼루션 레이어로 흐르는 그레이디언트 정보를 사용하여 특정 관심 결정을 위해 각 뉴런에 중요도 값을 할당한다.
Although our technique is fairly general in that it can be used to explain activations in any layer of a deep network, in this work, we focus on explaining output layer decisions only.
우리의 기술은 심층 네트워크의 모든 계층에서 활성화를 설명하는 데 사용될 수 있다는 점에서 상당히 일반적이지만, 이 작업에서는 출력 계층 결정만 설명하는 데 중점을 둔다.
As shown in Fig. 2, in order to obtain the class-discriminative localization map Grad-CAM L(Grad-CAM) ∈ R^(u×v) of width u and height v for any class c, we first compute the gradient of the score for class c, y^c (before the softmax), with respect to feature map activations A^k of a convolutional layer
그림 2에서와 같이, 임의의 클래스 c에 대한 폭 u 및 높이 v의 클래스 판별 국소화 맵 Grad-CAML(Grad-CAM) ∈ R^(u×v)을 얻기 위해, 먼저 컨볼루션 레이어의 특징 맵 활성 A^k에 대해 클래스 c, y^c(소프트맥스 이전)에 대한 점수의 기울기를 계산한다.
These gradients flowing back are global-average-pooled 2 over the width and height dimensions (indexed by i and j respectively) to obtain the neuron importance weights α:
역류하는 이러한 그레이디언트는 뉴런 중요도 가중치 α를 얻기 위해 폭과 높이 치수(각각 i와 j로 색인됨)에 대해 전역 평균 풀링 2이다.
During computation of αck while backpropagating gradients with respect to activations, the exact computation amounts to successive matrix products of the weight matrices and the gradient with respect to activation functions till the final convolution layer that the gradients are being propagated to.
활성화와 관련하여 그레이디언트를 역전파하는 동안, 정확한 계산은 그레이디언트가 전파되는 최종 컨볼루션 계층까지 가중치 행렬과 활성화 함수와 관련된 그레이디언트의 연속적인 행렬 곱에 해당한다.
Hence, this weight α represents a partial linearization of the deep network downstream from A, and captures the ‘importance’ of feature map k for a target class c.
따라서, 이 가중치 α는 A로부터 다운스트림의 심층 네트워크의 부분 선형화를 나타내며, 대상 클래스 c에 대한 특징 맵의 ‘중요성’을 포착한다.
We perform a weighted combination of forward activation maps, and follow it by a ReLU to obtain,
우리는 전방 활성화 맵의 가중 조합을 수행하고 ReLU에 따라 다음을 얻는다.
Notice that this results in a coarse heatmap of the same size as the convolutional feature maps (14 × 14 in the case of last convolutional layers of VGG [52] and AlexNet [33] networks).
이로 인해 컨볼루션 기능 맵과 동일한 크기의 거친 열 맵이 생성된다는 점에 주목하십시오(VGG [52] 및 AlexNet [33] 네트워크의 마지막 컨볼루션 레이어의 경우 14 × 14).
(We find that Grad-CAM maps become progressively worse as we move to earlier convolutional layers as they have smaller receptive fields and only focus on less semantic local features. )
(우리는 Grad-CAM 맵이 수용 필드가 작고 의미론적 로컬 기능에만 초점을 맞추기 때문에 이전 컨볼루션 레이어로 이동할수록 점차 악화된다는 것을 발견했다. )
We apply a ReLU to the linear combination of maps because we are only interested in the features that have a positive influence on the class of interest, i.e. pixels whose intensity should be increased in order to increase y^c.
우리는 관심 클래스에 긍정적인 영향을 미치는 특징, 즉 y^c를 증가시키기 위해 강도를 높여야 하는 픽셀에만 관심이 있기 때문에 지도의 선형 조합에 ReLU를 적용한다.
Negative pixels are likely to belong to other categories in the image.
음의 픽셀은 이미지의 다른 범주에 속할 가능성이 있습니다.
As expected, without this ReLU, localization maps sometimes highlight more than just the desired class and perform worse at localization.
예상대로, 이 ReLU가 없으면 현지화 맵은 때때로 원하는 클래스 이상을 강조하며 현지화에서 더 나쁜 성능을 발휘한다.
Figures 1c, 1f and 1i, 1l show Grad-CAM visualizations for ‘tiger cat’ and ‘boxer (dog)’ respectively. Ablation studies are available in Sec. B.
그림 1c, 1f 및 1i, 1l는 각각 ‘호랑이 고양이’와 ‘복서(개)’에 대한 Grad-CAM 시각화를 보여준다. 절제 연구는 단원에서 확인할 수 있습니다. b.
In general, y^c need not be the class score produced by an image classification CNN.
일반적으로 y^c는 이미지 분류 CNN에 의해 생성된 클래스 점수일 필요는 없다.
It could be any differentiable activation including words from a caption or answer to a question.
그것은 자막이나 질문에 대한 대답에서 나오는 단어들을 포함한 어떤 구별 가능한 활성화일 수 있다.
3.1 Grad-CAM generalizes CAM (Grad-CAM 일반화)
In this section, we discuss the connections between Grad-CAM and Class Activation Mapping (CAM) [59], and formally prove that Grad-CAM generalizes CAM for a wide variety of CNN-based architectures.
이 섹션에서는 Grad-CAM과 Class Activation Mapping(CAM) 사이의 연결에 대해 논의하고 [59] Grad-CAM이 다양한 CNN 기반 아키텍처에 대해 CAM을 일반화한다는 것을 공식적으로 증명한다.
Recall that CAM produces a localization map for an image classification CNN with a specific kind of architecture where global average pooled convolutional feature maps are fed directly into softmax.
CAM이 전역 평균 풀링된 컨볼루션 기능 맵이 직접 소프트맥스에 공급되는 특정 종류의 아키텍처로 이미지 분류 CNN을 위한 현지화 맵을 생성한다는 것을 기억하라.
Specifically, let the penultimate layer produce K feature maps, Ak ∈ Ru×v, with each element indexed by i,j.
특히, 두 번째 층이 각 원소를 i,j로 색인화한 K 피처 맵 Ak ru Ru ×v를 생성하도록 하자.
So Akij refers to the activation at location (i, j) of the feature map Ak.
그래서 아키즈는 특징 지도 Ak의 위치 (i, j)에서 활성화되는 것을 말한다.
These feature maps are then spatially pooled using Global Average Pooling (GAP) and linearly transformed to produce a score Y c for each class c,
그런 다음 이러한 특징 맵은 글로벌 평균 풀링(GAP)을 사용하여 공간적으로 풀링되고 각 클래스 c에 대한 점수 Yc를 생성하도록 선형 변환된다.
Let us define F k to be the global average pooled output,
Fk를 글로벌 평균 풀링 출력으로 정의하자.
CAM computes the final scores by,
CAM은 다음과 같이 최종 점수를 계산합니다.
where wkc is the weight connecting the kth feature map with the cth class. Taking the gradient of the score for class c (Y c) with respect to the feature map F k we get,
여기서 wkc는 k번째 피쳐 맵과 c번째 클래스를 연결하는 가중치입니다. 우리가 얻은 특징 지도 FK에 대한 클래스 c(Yc) 점수의 기울기를 취하면,
Taking partial derivative of (4) w.r.t. Akij, we can see that ∂F k ∂ Akij = 1 . Substituting this in (6), we get,
(4) w.r.t.의 부분 도함수를 취한다. 아키즈, 우리는 fFk ak 아키즈 = 1. (6)에 이것을 대입하면,
From (5) we get that, ∂Y c = wc . Hence,
(5)로부터 yY c = wc를 얻습니다. 이런 이유로,
Summing both sides of (8) over all pixels (i, j),
모든 픽셀(i, j)에 대해 (8)의 양쪽을 합하면,
Since Z and wkc do not depend on (i, j), rewriting this as
Z와 wkc는 (i, j)에 의존하지 않기 때문에, 이것을 다음과 같이 다시 쓴다.
Note that Z is the number of pixels in the feature map. Thus, we can re-order terms and see that
Z는 피처 맵의 픽셀 수입니다. 따라서 항을 다시 정렬하여
Up to a proportionality constant (1/Z) that gets normalized out during visualization, the expression for wkc is identical to αk used by Grad-CAM (1). Thus, Grad-CAM is a strict generalization of CAM.
시각화 중에 정규화되는 비례 상수(1/Z)까지 wkc에 대한 표현은 Grad-CAM(1)에서 사용하는 µk와 동일합니다. 따라서 Grad-CAM은 CAM의 엄격한 일반화이다.
This generalization allows us to generate visual explanations from CNN-based models that cascade convolutional layers with much more complex interactions, such as those for image captioning and VQA (Sec. 8.2).
이 일반화를 통해 이미지 캡션 및 VQA(제8.2절)와 같이 훨씬 복잡한 상호 작용으로 컨볼루션 레이어를 캐스케이드하는 CNN 기반 모델에서 시각적 설명을 생성할 수 있다.
3.2 Guided Grad-CAM
While Grad-CAM is class-discriminative and localizes rel- evant image regions, it lacks the ability to highlight finegrained details like pixel-space gradient visualization methods (Guided Backpropagation [53], Deconvolution [57]).
Grad-CAM은 클래스 차별적이며 관련된 이미지 영역을 국소화하지만 픽셀 공간 구배 시각화와 같은 세밀한 세부 사항을 강조 할 수있는 능력이 부족합니다 (유도 역 전파 예 [53], Deconvolution [57]).
Guided Backpropagation visualizes gradients with respect to the image where negative gradients are suppressed when backpropagating through ReLU layers.
Guided Back 전파는 ReLU 레이어를 통해 역전파할 때 음의 그라데이션이 억제되는 영상에 대한 그라데이션(gradient)을 시각화한다.
Intuitively, this aims to capture pixels detected by neurons, not the ones that suppress neurons.
직관적으로, 이것은 뉴런을 억제하는 픽셀이 아니라 뉴런에 의해 감지되는 픽셀을 포착하는 것을 목표로 한다.
See Figure 1c, where Grad-CAM can easily localize the cat;
Grad-CAM이 고양이의 위치를 쉽게 파악할 수 있는 그림 1c를 참조하십시오.
however, it is unclear from the coarse heatmap why the network predicts this particular instance as ‘tiger cat’.
그러나 네트워크가 이 특정 인스턴스를 ‘고양이’로 예측하는 이유는 대략적인 열 지도에서 불분명하다.
In order to combine the best aspects of both, we fuse Guided Backpropagation and Grad-CAM visualizations via element-wise multiplication (LcGrad-CAM is first upsampled to the input image resolution using bilinear interpolation). Fig. 2 bottom-left illustrates this fusion.
두 가지 최고의 측면을 결합하기 위해 요소별 곱셈을 통해 Guided Back-CAM 시각화를 결합한다(LcGrad-CAM은 먼저 이중 선형 보간을 사용하여 입력 이미지 해상도로 업샘플링된다). 왼쪽 아래 그림 2는 이러한 융합을 보여줍니다.
This visualization is both high-resolution (when the class of interest is ‘tiger cat’, it identifies important ‘tiger cat’ features like stripes, pointy ears and eyes) and class-discriminative (it highlights the ‘tiger cat’ but not the ‘boxer (dog)’).
이 시각화는 고해상도(관심 있는 클래스가 ‘호랑이 고양이’일 때, 줄무늬, 뾰족한 귀, 눈과 같은 중요한 ‘호랑이 고양이’ 특징을 식별함)와 클래스 차별적(호랑이 고양이(개)을 강조함) 둘 다이다.
Replacing Guided Backpropagation with Deconvolution gives similar results, but we found Deconvolution visualizations to have artifacts and Guided Backpropagation to be generally less noisy.
Guided Back 전파를 Deconvolution으로 대체하면 유사한 결과가 나오지만, 우리는 Deconvolution 시각화에는 아티팩트가 있고 Guided Back 전파는 일반적으로 소음이 덜하다는 것을 발견했다.
3.3 Counterfactual Explanations(반사실적 설명)
Using a slight modification to Grad-CAM, we can obtain explanations that highlight support for regions that would make the network change its prediction.
Grad-CAM에 대한 약간의 수정을 사용하면 네트워크가 예측을 변경하도록 하는 영역에 대한 지원을 강조하는 설명을 얻을 수 있다.
As a consequence, removing concepts occurring in those regions would make the model more confident about its prediction.
결과적으로, 그러한 지역에서 발생하는 개념을 제거하면 모델이 예측에 대해 더 자신감을 가질 수 있을 것이다.
We refer to this explanation modality as counterfactual explanations.
우리는 이 설명 양식을 반사실적 설명이라고 부른다.
Specifically, we negate the gradient of y^c (score for class c) with respect to feature maps A of a convolutional layer. Thus the importance weights α^c_k now become
구체적으로, 우리는 컨볼루션 레이어의 피처 맵 A에 대한 y^c(클래스 c에 대한 점수)의 기울기를 부정한다. 따라서 중요도 가중치 a^c_k는 다음과 같다
As in (2), we take a weighted sum of the forward activation maps, A, with weights αck, and follow it by a ReLU to obtain counterfactual explanations as shown in Fig. 3.
(2)와 같이, 우리는 전방 활성화의 가중 합계를 취한다. 그림 3과 같이, 가중치가 a^c_k인 지도 A와 ReLU를 따라 반사실적 설명을 구한다.
4. Evaluating Localization Ability of Grad-CAM(Grad-CAM의 국산화 능력 평가)
4.1 Weakly-supervised Localization (약하게 감독되는 현지화 )
In this section, we evaluate the localization capability of Grad- CAM in the context of image classification.
이 섹션에서는 이미지 분류의 맥락에서 Grad-CAM의 현지화 기능을 평가한다.
The ImageNet localization challenge [14] requires approaches to provide bounding boxes in addition to classification labels.
ImageNet 현지화 과제[14]에는 분류 레이블 외에 경계 상자를 제공하는 접근 방식이 필요하다.
Similar to classification, evaluation is performed for both the top-1 and top-5 predicted categories.
분류와 유사하게, 평가는 상위 1개 및 상위 5개 예측 범주에 대해 모두 수행됩니다.
Given an image, we first obtain class predictions from our network and then generate Grad-CAM maps for each of the predicted classes and binarize them with a threshold of 15% of the max intensity.
이미지가 주어지면 먼저 네트워크에서 클래스 예측을 얻은 다음 각 예측 클래스에 대한 Grad-CAM 맵을 생성하고 최대 강도의 15%의 임계값으로 이진화한다.
This results in connected segments of pixels and we draw a bounding box around the single largest segment.
이것은 픽셀의 연결된 세그먼트를 만들고 우리는 가장 큰 단일 세그먼트 주위에 경계 상자를 그린다.
Note that this is weakly-supervised localization – the models were never exposed to bounding box annotations during training.
이것은 약하게 감독되는 현지화이며, 모델은 훈련 중에 경계 상자 주석에 노출되지 않았다.
We evaluate Grad-CAM localization with off-the-shelf pretrained VGG-16 [52] , AlexNet [33] and GoogleNet [54] (obtained from the Caffe [27] Zoo).
우리는 사전 훈련된 기성 VGG-16[52], 알렉스넷[33] 및 구글넷[54] (카페[27] 동물원에서 얻은)을 사용하여 Grad-CAM 현지화를 평가한다.
Following ILSVRC-15 evaluation, we report both top-1 and top-5 localization errors on the val set in Table. 1.
ILSVRC-15 평가 후 표 1에 설정된 밸브에 대한 상위 1개 및 상위 5개 국소화 오류를 보고한다.
Grad-CAM localization errors are significantly better than those achieved by c-MWP [58] and Simonyan et al. [51], which use grab-cut to post-process image space gradients into heat maps.
그레이드-CAM 국소화 오류는 c-MWP[58] 및 시모니아 외 연구진에서 달성한 오류보다 훨씬 낫다. [51], 이미지 공간 그레이디언트를 열 지도에 후처리하기 위해 그래브 컷을 사용합니다.
Grad-CAM for VGG-16 also achieves better top-1 localization error than CAM [59], which requires a change in the model architecture, necessitates re-training and thereby achieves worse classification errors (2.98% worse top-1), while Grad-CAM does not compromise on classification performance.
VGG-16용 Grad-CAM은 또한 모델 아키텍처의 변경이 필요한 CAM[59]보다 더 나은 상위 1위 현지화 오류를 달성하며, 따라서 더 나쁜 분류 오류(2.98% 더 나쁜 top-1)를 달성하지만 Grad-CAM은 분류 성능을 저하시키지 않는다.
Fig. 3: Counterfactual Explanations with Grad-CAM
그림 3: Grad-CAM을 사용한 반사실적 설명
Table 1: Classification and localization error % on ILSVRC-15 val (lower is better) for VGG-16, AlexNet and GoogleNet.
표 1: VGG-16, AlexNet 및 GoogleNet의 경우 ILSVRC-15 val에 대한 분류 및 현지화 오류 %(낮을수록 좋습니다)
We see that Grad-CAM achieves superior localization errors without compromising on classification performance.
Grad-CAM은 분류 성능을 저하시키지 않고 우수한 현지화 오류를 달성한다는 것을 알 수 있다.
4.2 Weakly-supervised Segmentation (약하게 감독되는 세분화 )
Semantic segmentation involves the task of assigning each pixel in the image an object class (or background class).
의미 분할은 이미지의 각 픽셀을 객체 클래스(또는 배경 클래스)로 지정하는 작업을 포함한다.
Being a challenging task, this requires expensive pixel-level annotation.
어려운 작업이기 때문에, 이것은 값비싼 픽셀 레벨 주석을 필요로 한다.
The task of weakly-supervised segmentation involves segmenting objects with just image-level annotation, which can be obtained relatively cheaply from image classification datasets.
약하게 감독되는 분할 작업은 이미지 레벨 주석만으로 객체를 분할하는 것을 포함하며, 이는 이미지 분류 데이터 세트에서 비교적 저렴하게 얻을 수 있다.
In recent work, Kolesnikov et al. [32] introduced a new loss function for training weakly-supervised image segmentation models.
최근 연구에서, 콜레스니코프 외. [32] 약하게 조정된 영상 분할 모델을 훈련하기 위해 새로운 손실 기능을 도입했다.
Their loss function is based on three principles
이들의 손실 함수는 세 가지 원칙에 기초한다.
1) to seed with weak localization cues, encouraging segmentation network to match these cues,
1) 약한 국소화 단서로 씨앗을 뿌리고, 분할 네트워크가 이러한 단서들과 일치하도록 장려한다.
2) to expand object seeds to regions of reasonable size based on information about which classes can occur in an image,
2) 이미지에서 발생할 수 있는 클래스에 대한 정보를 기반으로 적절한 크기의 영역으로 개체 시드를 확장합니다.
3) to constrain segmentations to object boundaries that alleviates the problem of imprecise boundaries already at training time.
3) 훈련 시간에 이미 부정확한 경계 문제를 완화하는 객체 경계로 분할을 제한한다.
They showed that their proposed loss function, consisting of the above three losses leads to better segmentation.
그들은 위의 세 가지 손실로 구성된 제안된 손실 함수가 더 나은 분할로 이어진다는 것을 보여주었다.
However, their algorithm is sensitive to the choice of weak localization seed, without which the network fails to localize objects correctly.
그러나, 그들의 알고리듬은 약한 현지화 시드의 선택에 민감하며, 그렇지 않으면 네트워크가 개체를 올바르게 현지화하지 못한다.
In their work, they used CAM maps from a VGG-16 based network which are used as object seeds for weakly localizing foreground classes.
연구에서 그들은 전경 클래스를 약하게 현지화하기 위한 객체 시드로 사용되는 VGG-16 기반 네트워크의 CAM 맵을 사용했다.
We replaced the CAM maps with Grad-CAM obtained from a standard VGG-16 network and obtain a Intersection over Union (IoU) score of 49.6 (compared to 44.6 obtained with CAM) on the PASCAL VOC 2012 segmentation task. Fig. 4 shows some qualitative results.
우리는 CAM 맵을 표준 VGG-16 네트워크에서 얻은 Grad-CAM으로 대체하고 PASCAL VOC 2012 분할 작업에서 49.6(CAM으로 얻은 44.6과 비교)의 Intersection over Union(IoU) 점수를 얻었다. 그림 4는 질적인 결과를 보여줍니다.
Fig. 4: PASCAL VOC 2012 Segmentation results with Grad-CAM as seed for SEC [32].
그림 4: PASCAL VOC 2012 SEC의 시드로 Grad-CAM을 사용한 분할 결과 [32]
4.3 Pointing Game (포인팅 게임)
Zhang et al. [58] introduced the Pointing Game experiment to evaluate the discriminativeness of different visualization methods for localizing target objects in scenes.
장 외. [58]은 장면에서 대상 물체를 위치시키기 위한 다양한 시각화 방법의 차별성을 평가하기 위해 포인팅 게임 실험을 도입했다.
Their evaluation protocol first cues each visualization technique with the ground-truth object label and extracts the maximally activated point on the generated heatmap.
그들의 평가 프로토콜은 먼저 실측 실측 객체 레이블을 사용하여 각 시각화 기법에 신호를 주고 생성된 열 지도에서 최대 활성화 지점을 추출한다.
It then evaluates if the point lies within one of the annotated instances of the target object category, thereby counting it as a hit or a miss.
그런 다음 점이 대상 개체 범주의 주석이 달린 인스턴스 중 하나에 있는지 평가하여 적중 또는 누락으로 계산한다.
The localization accuracy is then calculated as
그런 다음 위치 측정 정확도는 다음과 같이 계산됩니다.
However, this evaluation only measures precision of the visualization technique.
그러나 이 평가는 시각화 기법의 정밀도만 측정한다.
We modify the protocol to also measure recall – we compute localization maps for top-5 class predictions from the CNN classifiers(We use GoogLeNet finetuned on COCO, as provided by [58]. ) and evaluate them using the pointing game setup with an additional option to reject any of the top-5 predictions from the model if the maximally activated point in the map is below a threshold, i.e. if the visualization correctly rejects the predictions which are absent from the ground-truth categories, it gets that as a hit.
또한 리콜을 측정하도록 프로토콜을 수정한다. CNN 분류기에서 상위 5개 클래스 예측에 대한 현지화 맵을 계산한다(우리는 [58]에서 제공하는 대로 COCO에 튜닝된 GoogLeNet을 사용한다). ) 및 지도에서 최대 활성화 지점이 임계값 미만일 경우, 즉 시각화가 실측 범주에서 없는 예측을 올바르게 거부할 경우, 모델에서 상위 5개 예측을 거부하는 추가 옵션을 사용하여 포인팅 게임 설정을 사용하여 이를 평가한다.
We find that Grad-CAM out- performs c-MWP [58] by a significant margin (70.58% vs. 60.30%).
Grad-CAM이 c-MWP[58]를 상당한 차이(70.58% 대 60.30%)로 능가한다는 것을 발견했다.
Qualitative examples comparing c-MWP [58] and Grad-CAM on can be found in Sec. D (c-MWP [58] highlights arbitrary regions for predicted but nonexistent categories, unlike Grad-CAM maps which typically do not. )
c-MWP[58]와 Grad-CAMon을 비교한 정성적 예는 절에서 확인할 수 있다. D(c-MWP [58])는 일반적으로 그렇지 않은 Grad-CAM 맵과 달리 예측되었지만 존재하지 않는 범주의 임의 영역을 강조한다. )
5. Evaluating Visualizations (시각화 평가 )
In this section, we describe the human studies and experiments we conducted to understand the interpretability vs. faithfulness tradeoff of our approach to model predictions.
이 섹션에서는 모델 예측에 대한 접근 방식의 해석 가능성 대 충실도 트레이드오프를 이해하기 위해 수행한 인간 연구와 실험에 대해 설명한다.
Our first human study evaluates the main premise of our approach – are Grad-CAM visualizations more class discriminative than previous techniques? Having established that, we turn to understanding whether it can lead an end user to trust the visualized models appropriately.
우리의 첫 번째 인간 연구는 우리의 접근 방식의 주요 전제를 평가한다. 즉, Grad-CAM 시각화는 이전 기술보다 더 등급 차별적인가? 이를 확립한 후, 우리는 최종 사용자가 시각화 모델을 적절히 신뢰하도록 할 수 있는지 여부를 이해하는 것으로 눈을 돌린다.
For these experiments, we compare VGG-16 and AlexNet finetuned on PASCAL VOC 2007 train and visualizations evaluated on val.
이러한 실험을 위해, 우리는 PASCAL VOC 2007 트레인에 튜닝된 VGG-16과 AlexNet을 비교하고 val에 대해 평가된 시각화를 비교한다.
5.1 Evaluating Class Discrimination (등급차별 평가 )
In order to measure whether Grad-CAM helps distinguish between classes, we select images from the PASCAL VOC 2007 val set, which contain exactly 2 annotated categories and create visualizations for each one of them.
Grad-CAM이 클래스를 구별하는 데 도움이 되는지 여부를 측정하기 위해 정확히 2개의 주석이 달린 범주를 포함하는 PASCAL VOC 2007 밸브 세트에서 이미지를 선택하고 각 범주에 대한 시각화를 생성한다.
For both VGG-16 and AlexNet CNNs, we obtain category-specific visualizations using four techniques: Deconvolution, Guided Backpropagation, and Grad-CAM versions of each of these methods (Deconvolution Grad-CAM and Guided Grad-CAM).
VGG-16과 AlexNet CNN 모두에 대해 다음 네 가지 기술을 사용하여 범주별 시각화를 얻는다. 이러한 각 방법(디콘볼루션 Grad-CAM 및 Guided Grad-CAM)의 디콘볼루션, Guided Back-Propagation 및 Grad-CAM 버전.
We show these visualizations to 43 workers on Amazon Mechanical Turk (AMT) and ask them “Which of the two object categories is depicted in the image?” (shown in Fig. 5).
우리는 Amazon Mechanical Turk(AMT)의 43명의 작업자에게 이러한 시각화를 보여주고 그들에게 “이미지에 묘사된 두 개의 객체 범주 중 어느 것이냐?”고 묻는다(그림 5 참조).
Intuitively, a good prediction explanation is one that pro- duces discriminative visualizations for the class of interest.
직관적으로, 좋은 예측 설명은 관심 클래스에 대한 차별적 시각화를 생성하는 것이다.
The experiment was conducted using all 4 visualizations for 90 image-category pairs (i.e. 360 visualizations); 9 ratings were collected for each image, evaluated against the ground truth and averaged to obtain the accuracy in Table. 2.
실험은 90개의 이미지 범주 쌍(즉 360개의 시각화)에 대해 4개의 시각화를 모두 사용하여 수행되었다. 각 이미지에 대해 9개의 등급이 수집되어 실측 진실에 대해 평가되고 표 2의 정확도를 얻기 위해 평균화되었다.
When viewing Guided Grad-CAM, human subjects can correctly identify the category being visualized in 61.23% of cases (compared to 44.44% for Guided Backpropagation; thus, Grad-CAM improves human performance by 16.79%).
Guided Grad-CAM을 볼 때, 인간 피험자는 61.23%의 사례에서 시각화되고 있는 범주를 올바르게 식별할 수 있다(Grad-CAM은 Guided Back 전파의 경우 44.44%에 비해, 인간 성능을 16.79% 향상시킨다).
Similarly, we also find that Grad-CAM helps make Deconvolution more class-discriminative (from 53.33% → 60.37%). Guided Grad-CAM performs the best among all methods.
마찬가지로, Grad-CAM이 디콘볼루션(53.33% → 60.37%)을 더 클래스 차별적으로 만드는 데 도움이 된다는 사실도 발견했다. Guided Grad-CAM은 모든 방법 중 가장 성능이 우수하다.
Interestingly, our results indicate that Deconvolution is more class-discriminative than Guided Backpropagation (53.33% vs. 44.44%), although Guided Backpropagation is more aesthetically pleasing.
흥미롭게도, 우리의 결과는 Deconvolution이 Guided Back 전파(53.33% 대 44.44%)보다 더 계급 차별적이라는 것을 보여준다. 비록 Guided Back 전파가 더 미적으로 만족스럽기는 하지만 말이다.
To the best of our knowledge, our evaluations are the first to quantify this subtle difference.
우리가 아는 한, 우리의 평가는 이 미묘한 차이를 정량화하는 첫 번째이다.
Fig. 5: AMT interfaces for evaluating different visualizations for class discrimination (b) and trustworthiness (c).
그림 5: 클래스 차별(b) 및 신뢰도(c)에 대한 다양한 시각화를 평가하기 위한 AMT 인터페이스.
Guided Grad-CAM outperforms baseline approaches (Guided-backprop and Deconvolution) showing that our visualizations are more class-discriminative and help humans place trust in a more accurate classifier.
Guided Grad-CAM은 우리의 시각화가 더 계급 차별적이며 인간이 더 정확한 분류기에 신뢰를 두는 데 도움이 된다는 것을 보여주는 기본 접근 방식(Guid-backprop 및 Deconvolution)을 능가한다.
Table 2: Quantitative Visualization Evaluation. Guided Grad-CAM enables humans to differentiate between visualizations of different classes (Human Classification Accuracy) and pick more reliable models (Relative Reliability).
표 2: 정량적 시각화 평가 Guided Grad-CAM을 통해 인간은 다양한 클래스의 시각화(인간 분류 정확도)를 구분하고 보다 신뢰할 수 있는 모델(상대적 신뢰성)을 선택할 수 있다.
It also accurately reflects the behavior of the model (Rank Correlation w/ Occlusion).
또한 모델의 동작을 정확하게 반영합니다(폐색 포함 순위 상관 관계).
5.2 Evaluating Trust (신뢰도 평가 )
Given two prediction explanations, we evaluate which seems more trustworthy.
두 가지 예측 설명을 감안할 때, 우리는 어느 것이 더 신뢰할 수 있을 것 같은지 평가한다.
We use AlexNet and VGG-16 to compare Guided Backpropagation and Guided Grad-CAM visualizations, noting that VGG-16 is known to be more reliable than AlexNet with an accuracy of 79.09 mAP (vs. 69.20 mAP) on PASCAL classification.
우리는 AlexNet과 VGG-16을 사용하여 PASCAL 분류에서 VGG-16이 79.09 mAP(vs. 69.20 mAP)의 정확도로 AlexNet보다 더 신뢰할 수 있는 것으로 알려져 있다.
In order to tease apart the efficacy of the visualization from the accuracy of the model being visualized, we consider only those instances where both models made the same prediction as ground truth.
시각화의 효과를 시각화되는 모델의 정확성과 분리하기 위해, 우리는 두 모델이 모두 실측 진실과 동일한 예측을 한 사례만 고려한다.
Given a visualization from AlexNet and one from VGG-16, and the predicted object category, 54 AMT workers were instructed to rate the reliability of the models relative to each other on a scale of clearly more/less reliable (+/-2), slightly more/less reliable (+/-1), and equally reliable (0). This interface is shown in Fig. 5. To eliminate any biases, VGG-16 and AlexNet were assigned to be ‘model-1’ with approximately equal probability.
AlexNet과 VGG-16의 시각화 및 예측 객체 범주를 고려할 때, 54명의 AMT 작업자는 분명히 더/더 덜 신뢰할 수 있는(+/-2), 약간 더/더 덜 신뢰할 수 있는(+/-1), 그리고 똑같이 신뢰할 수 있는(0) 척도로 서로 상대적인 모델의 신뢰성을 평가하도록 지시받았다. 이 인터페이스는 그림 5에 나와 있습니다. 편견을 제거하기 위해 VGG-16과 AlexNet은 거의 동일한 확률로 ‘모델-1’로 지정되었다.
Remarkably, as can be seen in Table. 2, we find that human subjects are able to identify the more accurate classifier (VGG-16 over AlexNet) simply from the prediction explanations, despite both models making identical predictions.
놀랍게도, 표 2에서 볼 수 있듯이, 우리는 인간 피험자가 두 모델 모두 동일한 예측을 하더라도 예측 설명에서 더 정확한 분류기(AlexNet에 비해 VGG-16)를 식별할 수 있다는 것을 발견했다.
With Guided Backpropagation, humans assign VGG-16 an average score of 1.00 which means that it is slightly more reliable than AlexNet, while Guided Grad-CAM achieves a higher score of 1.27 which is closer to saying that VGG-16 is clearly more reliable.
Guided Back 전파를 사용하면 인간은 VGG-16을 평균 1.00으로 할당하는데, 이는 AlexNet보다 약간 더 신뢰할 수 있다는 것을 의미하며 Guided Grad-CAM은 VGG-16이 확실히 더 신뢰할 수 있다는 것에 가까운 1.27의 높은 점수를 달성한다.
Thus, our visualizations can help users place trust in a model that generalizes better, just based on individual prediction explanations.
따라서, 우리의 시각화는 단지 개별 예측 설명에 기초하여 사용자가 더 잘 일반화되는 모델에 신뢰를 두는 데 도움이 될 수 있다.
5.3 Faithfulness vs. Interpretability (충실도 대 해석 가능성 )
Faithfulness of a visualization to a model is its ability to accurately explain the function learned by the model.
모델에 대한 시각화의 충실성은 모델에 의해 학습된 기능을 정확하게 설명하는 능력이다.
Naturally, there exists a trade-off between the interpretability and faithfulness of a visualization – a more faithful visualization is typically less interpretable and vice versa.
당연히, 시각화의 해석 가능성과 충실성 사이에는 절충이 존재한다. 즉, 보다 충실한 시각화는 일반적으로 해석하기 어렵고 그 반대의 경우도 마찬가지다.
In fact, one could argue that a fully faithful explanation is the entire description of the model, which in the case of deep models is not interpretable/easy to visualize.
사실, 완전한 충실한 설명은 모델의 전체 설명이며, 심층 모델의 경우 해석할 수 없고 시각화하기 쉽다고 주장할 수 있다.
We have verified in previous sections that our visualizations are reasonably interpretable.
이전 섹션에서 우리의 시각화가 합리적으로 해석 가능하다는 것을 확인했다.
We now evaluate how faithful they are to the underlying model.
우리는 이제 그들이 기본 모델에 얼마나 충실한지 평가한다.
One expectation is that our explanations should be locally accurate, i.e. in the vicinity of the input data point, our explanation should be faithful to the model [47].
한 가지 예상은 우리의 설명이 국소적으로 정확해야 한다는 것이다. 즉, 입력 데이터 지점 근처에서 우리의 설명은 모델에 충실해야 한다[47].
For comparison, we need a reference explanation with high local-faithfulness.
비교를 위해 현지 충실도가 높은 참고 설명이 필요하다.
One obvious choice for such a visualization is image occlusion [57], where we measure the difference in CNN scores when patches of the input image are masked.
이러한 시각화를 위한 한 가지 분명한 선택은 이미지 폐색[57]이며, 여기서 입력 이미지의 패치를 마스킹할 때 CNN 점수의 차이를 측정한다.
Interestingly, patches which change the CNN score are also patches to which Grad-CAM and Guided Grad-CAM assign high intensity, achieving rank correlation 0.254 and 0.261 (vs. 0.168, 0.220 and 0.208 achieved by Guided Back- propagation, c-MWP and CAM respectively) averaged over 2510 images in the PASCAL 2007 val set.
흥미롭게도, CNN 점수를 변경하는 패치는 Grad-CAM과 Guided Grad-CAM이 높은 강도를 할당하는 패치로, PASCAL 2007 밸브 세트에서 평균 2510개 이상의 이미지에서 0.254, 0.261(각각 0.168, 0.220 및 0.208)의 순위 상관관계를 달성한다.
This shows that Grad-CAM is more faithful to the original model compared to prior methods.
이는 Grad-CAM이 이전 방법에 비해 원래 모델에 더 충실하다는 것을 보여준다.
Through localization experiments and human studies, we see that Grad-CAM visualizations are more interpretable, and through correlation with occlusion maps, we see that Grad-CAM is more faithful to the model.
현지화 실험과 인간 연구를 통해 Grad-CAM 시각화가 더 해석 가능하며, 폐색 지도와의 상관관계를 통해 Grad-CAM이 모델에 더 충실하다는 것을 알 수 있다.
6. Diagnosing image classification CNNs with Grad-CAM (Grad-CAM을 사용하여 이미지 분류 CNN 진단 )
In this section we further demonstrate the use of Grad-CAM in analyzing failure modes of image classification CNNs, understanding the effect of adversarial noise, and identifying and removing biases in datasets, in the context of VGG-16 pretrained on imagenet.
이 섹션에서는 이미지넷에서 사전 훈련된 VGG-16의 맥락에서 이미지 분류 CNN의 실패 모드를 분석하고, 적대적 노이즈의 영향을 이해하고, 데이터 세트에서 편견을 식별하고 제거하는 데 Grad-CAM의 사용을 추가로 보여준다.
6.1 Analyzing failure modes for VGG-16 (VGG-16의 고장 모드 분석 )
In order to see what mistakes a network is making, we first get a list of examples that the network (VGG-16) fails to classify correctly.
네트워크가 어떤 실수를 저지르고 있는지 보기 위해, 우리는 먼저 네트워크(VGG-16)가 올바르게 분류하지 못하는 예들의 목록을 얻는다.
For these misclassified examples, we use Guided Grad-CAM to visualize both the correct and the predicted class.
이러한 잘못 분류된 예제의 경우 Guided Grad-CAM을 사용하여 올바른 클래스와 예측 클래스를 모두 시각화한다.
As seen in Fig. 6, some failures are due to ambiguities inherent in ImageNet classification.
그림 6에서 보는 바와 같이, 일부 실패는 ImageNet 분류에 내재된 모호성으로 인해 발생합니다.
We can also see that seemingly unreasonable predictions have reasonable explanations, an observation also made in HOGgles [56].
우리는 또한 겉으로 보기에 불합리해 보이는 예측에 합리적인 설명이 있다는 것을 알 수 있는데, 이는 HOGgles[56]에서도 관찰된 것이다.
A major advantage of Guided Grad-CAM visualizations over other methods is that due to its high-resolution and ability to be class-discriminative, it readily enables these analyses.
다른 방법에 비해 Guided Grad-CAM 시각화의 주요 장점은 고해상도 및 클래스 차별 능력으로 인해 이러한 분석을 쉽게 할 수 있다는 것이다.
Fig. 6: In these cases the model (VGG-16) failed to predict the correct class in its top 1 (a and d) and top 5 (b and c) predictions.
그림 6: 이러한 경우 모델(VGG-16)은 상위 1(a 및 d) 및 상위 5(b 및 c) 예측에서 올바른 클래스를 예측하지 못했습니다.
Humans would find it hard to explain some of these predictions without looking at the visualization for the predicted class.
인간은 예측된 클래스에 대한 시각화를 보지 않고 이러한 예측 중 일부를 설명하는 것을 어려워할 것이다.
But with Grad-CAM, these mistakes seem justifiable.
그러나 Grad-CAM을 사용하면 이러한 실수는 정당해 보인다.
6.2 Effect of adversarial noise on VGG-16 (VGG-16에 대한 적대적 소음의 영향 )
Goodfellow et al. [22] demonstrated the vulnerability of current deep networks to adversarial examples, which are slight imperceptible perturbations of input images that fool the network into misclassifying them with high confidence.
좋은 친구 등. [22] 적대적 예에 대한 현재 심층 네트워크의 취약성을 입증했는데, 이는 네트워크가 높은 신뢰도로 잘못 분류하도록 속이는 입력 이미지의 약간 감지할 수 없는 섭동이다.
We generate adversarial images for an ImageNet-pretrained VGG-16 model such that it assigns high probability (> 0.9999) to a category that is not present in the image and low probabilities to categories that are present.
이미지에 없는 범주에 높은 확률(> 0.9999)을 할당하고 존재하는 범주에 낮은 확률을 할당하도록 ImageNet 사전 훈련된 VGG-16 모델에 대한 적대적 이미지를 생성한다.
We then compute Grad-CAM visualizations for the categories that are present.
그런 다음 존재하는 범주에 대한 Grad-CAM 시각화를 계산한다.
As shown in Fig. 7, despite the network being certain about the absence of these categories (‘tiger cat’ and ‘boxer’), Grad-CAM visualizations can correctly localize them.
그림 7에 나타난 바와 같이, 네트워크는 이러한 범주(‘호랑이 고양이’ 및 ‘복서’)의 부재를 확신함에도 불구하고 Grad-CAM 시각화는 이러한 범주를 올바르게 국소화할 수 있다.
This shows that Grad-CAM is fairly robust to adversarial noise.
이는 Grad-CAM이 적대적 노이즈에 상당히 강하다는 것을 보여준다.
Fig. 7: (a-b) Original image and the generated adversarial image for category “airliner”. (c-d) Grad-CAM visualizations for the original categories “tiger cat” and “boxer (dog)” along with their confidence.
그림 7: (a-b) 범주 “항공기”에 대한 원본 이미지와 생성된 적대적 이미지. (c-d) 원래 범주 “호랑이 고양이” 및 “복서(개)”에 대한 Grad-CAM 시각화 및 신뢰도.
Despite the network being completely fooled into predicting the dominant category label of “airliner” with high confidence (>0.9999), Grad-CAM can localize the original categories accurately.
네트워크가 높은 신뢰도로 “항공기”의 지배적인 범주 레이블을 예측하도록 완전히 속았음에도 불구하고(>0.9999) Grad-CAM은 원래 범주를 정확하게 현지화할 수 있다.
(e-f) Grad-CAM for the top-2 predicted classes “airliner” and “space shuttle” seems to highlight the background.
(e-f) 상위 2개 예측 등급 “항공기” 및 “우주 왕복선”에 대한 Grad-CAM은 배경을 강조하는 것 같다.
6.3 Identifying bias in dataset (데이터 집합의 편향 식별 )
In this section, we demonstrate another use of Grad-CAM: identifying and reducing bias in training datasets. Models trained on biased datasets may not generalize to real-world scenarios, or worse, may perpetuate biases and stereotypes (w.r.t. gender, race, age, etc.).
이 섹션에서는 교육 데이터 세트의 편견을 식별하고 줄이는 Grad-CAM의 또 다른 사용을 보여준다. 편향된 데이터 세트에 대해 훈련된 모델은 실제 시나리오로 일반화되지 않거나 더 나쁜 모델은 편견과 고정관념(성별, 인종, 나이 등)을 영구화할 수 있다.
We finetune an ImageNet pretrained VGG-16 model for a “doctor” vs. “nurse” binary classification task.
우리는 ImageNet 사전 훈련된 VGG-16 모델을 “의사”와 “이진 분류” 작업입니다.
We built our training and validation splits using the top 250 relevant images (for each class) from a popular image search engine.
우리는 인기 있는 이미지 검색 엔진의 상위 250개 관련 이미지를 사용하여 교육 및 검증 분할을 구축했다.
And the test set was controlled to be balanced in its distribution of genders across the two classes.
그리고 테스트 세트는 두 클래스에 걸쳐 성별 분포가 균형을 이루도록 조정되었습니다.
Although the trained model achieves good validation accuracy, it does not generalize well (82% test accuracy).
훈련된 모델은 좋은 검증 정확도를 달성하지만, 잘 일반화되지 않는다(테스트 정확도 82%).
Grad-CAM visualizations of the model predictions (see the red box(The green and red boxes are drawn manually to highlight correct and incorrect focus of the model. ) regions in the middle column of Fig. 8) revealed that the model had learned to look at the person’s face / hairstyle to distinguish nurses from doctors, thus learning a gender stereotype.
모델 예측의 Grad-CAM 시각화(그림 8의 중간 열의 빨간색 상자(녹색 및 빨간색 상자는 모델의 정확하고 잘못된 초점을 강조하기 위해 수동으로 그려집니다.) 영역 참조)는 모델이 간호사와 의사를 구별하기 위해 사람의 얼굴/머리 모양을 보는 법을 배웠다는 것을 밝혀내 성별 고정관념을 학습했다.
Indeed, the model was misclassifying several female doctors to be a nurse and male nurses to be a doctor.
실제로, 모델은 몇몇 여성 의사들을 간호사로, 남성 간호사를 의사로 잘못 분류하고 있었다.
Clearly, this is problematic.
분명히, 이것은 문제가 있다.
Turns out the image search results were gender-biased (78% of images for doctors were men, and 93% images for nurses were women).
이미지 검색 결과는 성별 편향(의사 이미지의 78%가 남성, 간호사 이미지의 93%)인 것으로 나타났다.
Through these intuitions gained from Grad-CAM visualizations, we reduced bias in the training set by adding in images of male nurses and female doctors, while maintaining the same number of images per class as before.
Grad-CAM 시각화에서 얻은 이러한 직관을 통해, 우리는 이전과 마찬가지로 학급당 이미지 수를 유지하면서 남성 간호사와 여성 의사의 이미지를 추가하여 훈련 세트의 편견을 줄였다.
The re-trained model not only generalizes better (90% test accuracy), but also looks at the right regions (last column of Fig. 8).
재교육된 모델은 더 잘 일반화될 뿐만 아니라(90% 테스트 정확도), 올바른 영역(그림 8의 마지막 열)도 살펴봅니다.
This experiment demonstrates a proof-of-concept that Grad-CAM can help detect and remove biases in datasets, which is important not just for better generalization, but also for fair and ethical outcomes as more algorithmic decisions are made in society.
이 실험은 Grad-CAM이 데이터 세트에서 편견을 감지하고 제거하는 데 도움이 될 수 있다는 개념 증명을 보여주는데, 이는 사회에서 더 나은 일반화를 위해뿐만 아니라 더 많은 알고리듬 결정이 내려짐에 따라 공정하고 윤리적인 결과에도 중요하다.
Fig. 8: In the first row, we can see that even though both models made the right decision, the biased model (model1) was looking at the face of the person to decide if the person was a nurse, whereas the unbiased model was looking at the short sleeves to make the decision.
그림 8: 첫 번째 줄에서는 두 모델 모두 옳은 결정을 내렸음에도 불구하고, 편향된 모델(모델1)은 그 사람이 간호사인지 결정하기 위해 그 사람의 얼굴을 보고 있는 반면, 편향되지 않은 모델은 결정을 내리기 위해 반팔을 보고 있는 것을 볼 수 있다.
For the example image in the second row, the biased model made the wrong prediction (misclassifying a doctor as a nurse) by looking at the face and the hairstyle, whereas the unbiased model made the right prediction looking at the white coat, and the stethoscope.
두 번째 줄의 예제 이미지의 경우, 편향된 모델은 얼굴과 헤어스타일을 보고 잘못된 예측(의사를 간호사로 잘못 분류)을 한 반면, 편향되지 않은 모델은 흰색 외투와 청진기를 보고 올바른 예측을 했다.
7. Textual Explanations with Grad-CAM (Grad-CAM을 사용한 7가지 텍스트 설명 )
Equation. (1) gives a way to obtain neuron-importance, α, for each neuron in a convolutional layer for a particular class.
식 (1)은 특정 클래스에 대한 컨볼루션 레이어의 각 뉴런에 대해 뉴런 중요도 α를 구하는 방법을 제공한다.
There have been hypotheses presented in the literature [60, 57] that neurons act as concept ‘detectors’.
뉴런이 ‘검출기’ 개념으로 작용한다는 가설이 문헌[60, 57]에 제시되어 왔다.
Higher positive values of the neuron importance indicate that the presence of that concept leads to an increase in the class score, whereas higher negative values indicate that its absence leads to an increase in the score for the class.
뉴런 중요도의 높은 양의 값은 해당 개념의 존재가 클래스 점수의 증가로 이어진다는 것을 의미하며, 높은 음의 값은 해당 개념의 부재가 클래스에 대한 점수의 증가로 이어진다는 것을 의미한다.
Given this intuition, let’s examine a way to generate textual explanations.
이러한 직관을 고려하여 텍스트 설명을 생성하는 방법을 알아보겠습니다.
In recent work, Bau et al. [4] proposed an approach to automatically name neurons in any convolutional layer of a trained network.
최근 연구에서, 바우 외. [4] 는 훈련된 네트워크의 모든 컨볼루션 레이어에서 뉴런의 이름을 자동으로 지정하는 접근법을 제안했다.
These names indicate concepts that the neuron looks for in an image.
이 이름들은 뉴런이 이미지에서 찾는 개념을 나타냅니다.
Using their approach. we first obtain neuron names for the last convolutional layer.
먼저 마지막 컨볼루션 레이어에 대한 뉴런 이름을 구한다. 뉴런 이름을 얻는다
Next, we sort and obtain the top-5 and bottom-5 neurons based on their class-specific importance scores, α_k.
다음으로, 우리는 클래스별 중요도 점수인 α_k를 기반으로 상위 5개 및 하위 5개 뉴런을 분류하고 얻는다.
The names for these neurons can be used as text explanations.
이 뉴런들의 이름은 텍스트 설명으로 사용될 수 있다.
Fig. 9 shows some examples of visual and textual explanations for the image classification model (VGG-16) trained on the Places365 dataset [61].
그림 9는 Places365 데이터 세트에 대해 훈련된 이미지 분류 모델(VGG-16)에 대한 시각적 및 텍스트 설명의 몇 가지 예를 보여준다[61].
In (a), the positively important neurons computed by (1) look for intuitive concepts such as book and shelf that are indicative of the class ‘Book-store’. Also note that the negatively important neurons look for concepts such as sky, road, water and car which don’t occur in ‘Book-store’ images.
(a)에서, (1)에 의해 계산된 양의 중요한 뉴런은 ‘책가게’ 클래스를 나타내는 책이나 선반과 같은 직관적인 개념을 찾는다. 또한 부정적으로 중요한 뉴런은 ‘책방’ 이미지에서는 나타나지 않는 하늘, 도로, 물, 자동차와 같은 개념을 찾는다는 점에 유의하십시오.
In (b), for predicting ‘waterfall’, both visual and textual explanations highlight ‘water’ and ‘stratified’ which are descriptive of ‘waterfall’ images. (e) is a failure case due to misclassification as the network predicted ‘rope-bridge’ when there is no rope, but still the important concepts (water and bridge) are indicative of the predicted class.
(b)에서 ‘폭포’를 예측하기 위해 시각적 설명과 텍스트 설명 모두 ‘폭포’ 이미지를 설명하는 ‘폭포’와 ‘층화’를 강조한다. (e) 네트워크가 로프가 없을 때 ‘로프 브리지’를 예측했지만 여전히 중요한 개념(물과 브리지)은 예측 클래스를 나타내기 때문에 오분류로 인한 실패 사례이다.
In (f), while Grad-CAM correctly looks at the door and the staircase on the paper to predict ‘Elevator door’, the neurons detecting doors did not pass the IoU threshold(Area of overlap between ground truth concept annotation and neuron activation over area of their union.
(f)에서 Grad-CAM은 ‘엘리베이터 도어’를 예측하기 위해 종이 위의 문과 계단을 올바르게 보는 동안, 문을 감지하는 뉴런은 IoU 임계값(지상 진실 개념 주석과 뉴런 활성화 사이의 중복 영역)을 통과하지 못했다.
More details of this metric can be found in [4] of 0.05 (chosen in order to suppress the noise in the neuron names), and hence are not part of the textual explanations.
이 메트릭스에 대한 자세한 내용은 0.05의 [4]에서 확인할 수 있으며(뉴런 이름에서 노이즈를 억제하기 위해 선택됨), 따라서 텍스트 설명의 일부가 아니다.
More qualitative examples can be found in the Sec. F.
더 많은 질적인 예들은 Sec. F에서 찾을 수 있다.
8. Grad-CAM for Image Captioning and VQA(이미지 캡션 및 VQA용 Grad-CAM)
Finally, we apply Grad-CAM to vision & language tasks such as image captioning and Visual Question Answering (VQA).
마지막으로 이미지 캡션 및 시각적 질문 응답(VQA)과 같은 비전 및 언어 작업에 Grad-CAM을 적용한다.
We find that Grad-CAM leads to interpretable visual explanations for these tasks as compared to baseline visualizations which do not change noticeably across changing predictions.
우리는 Grad-CAM이 변화하는 예측에서 눈에 띄게 변하지 않는 기준 시각화와 비교하여 이러한 작업에 대한 해석 가능한 시각적 설명을 이끌어낸다는 것을 발견했다.
Note that existing visualization techniques either are not class-discriminative (Guided Backpropagation, Deconvolution), or simply cannot be used for these tasks/architectures, or both (CAM, c-MWP).
기존의 시각화 기술은 클래스 차별적이지 않거나(Guided Back Propagation, Deconvolution), 단순히 이러한 작업/아키텍처 또는 둘 다(CAM, c-MWP)에 사용할 수 없다.
8.1 Image Captioning (이미지 캡션 )
In this section, we visualize spatial support for an image captioning model using Grad-CAM.
이 섹션에서는 Grad-CAM을 사용하여 이미지 캡션 모델에 대한 공간 지원을 시각화한다.
We build Grad-CAM on top of the publicly available neuraltalk28 implementation [31] that uses a finetuned VGG-16 CNN for images and an LSTM-based language model.
이미지에 미세 조정된 VGG-16 CNN과 LSTM 기반 언어 모델을 사용하는 공개적으로 사용 가능한 신경 토크 28 구현[31] 위에 Grad-CAM을 구축한다.
Note that this model does not have an explicit attention mechanism. Given a caption, we compute the gradient of its log probability w.r.t. units in the last convolutional layer of the CNN (conv5_3 for VGG- 16) and generate Grad-CAM visualizations as described in Sec. 3. See Fig. 10a.
이 모델에는 명시적인 주의 메커니즘이 없습니다. 캡션이 주어지면 CNN의 마지막 컨볼루션 레이어(vGG-16의 경우 conv5_3)에서 로그 확률 w.r.t. 단위의 기울기를 계산하고 3절에 설명된 대로 Grad-CAM 시각화를 생성한다. 그림 10a를 참조한다.
In the first example, Grad-CAM maps for the generated caption localize every occurrence of both the kites and people despite their relatively small size.
첫 번째 예에서, 생성된 캡션을 위한 Grad-CAM 맵은 상대적으로 작은 크기에도 불구하고 연과 사람 모두의 모든 발생을 현지화한다.
In the next example, Grad-CAM correctly highlights the pizza and the man, but ignores the woman nearby, since ‘woman’ is not mentioned in the caption. More examples are in Sec. C.
다음 예제에서 Grad-CAM은 피자와 남자를 올바르게 강조 표시하지만 ‘woman’이 캡션에 언급되지 않기 때문에 근처의 여자를 무시합니다. 더 많은 예는 섹션의 C예입니다.
Fig. 9: Examples showing visual explanations and textual explanations for VGG-16 trained on Places365 dataset [61].
그림 9: Places365 데이터 세트에 대해 훈련된 VGG-16에 대한 시각적 설명과 텍스트 설명을 보여주는 예[61].
For textual explanations we provide the most important neurons for the predicted class along with their names.
텍스트 설명을 위해 우리는 예측된 클래스에 가장 중요한 뉴런과 이름을 제공한다.
Important neurons can be either be persuasive (positive importance) or inhibitive (negative importance).
중요한 뉴런은 설득력이 있거나(긍정적 중요성), 억제적(부정적 중요성)일 수 있다.
The first 2 rows show success cases, and the last row shows 2 failure cases.
첫 번째 두 행은 성공 사례를 보여 주고 마지막 행은 두 개의 실패 사례를 보여 줍니다.
We see that in (a), the important neurons computed by (1) look for concepts such as book and shelf which are indicative of class ‘Book-store’ which is fairly intuitive.
우리는 (a)에서 (1)에 의해 계산된 중요한 뉴런이 상당히 직관적인 클래스 ‘책가게’를 나타내는 책 및 선반과 같은 개념을 찾는 것을 본다.
Fig. 10: Interpreting image captioning models: We use our class-discriminative localization technique, Grad-CAM to find spatial support regions for captions in images.
그림 10: 이미지 캡션 모델 해석: 우리는 클래스 차별적 현지화 기술인 Grad-CAM을 사용하여 이미지에서 캡션을 위한 공간 지원 영역을 찾는다.
Fig. 10a Visual explanations from image captioning model [31] highlighting image regions considered to be important for producing the captions.
그림 10a 캡션 모델 [31]에서 캡션을 제작하는 데 중요한 것으로 간주되는 이미지 영역을 강조하는 시각적 설명
Fig. 10b Grad-CAM localizations of a global or holistic captioning model for captions generated by a dense captioning model [29] for the three bounding box proposals marked on the left.
그림 10b 왼쪽에 표시된 세 개의 경계 상자 제안에 대해 고밀도 캡션 모델[29]에 의해 생성된 캡션에 대한 전역 또는 전체 캡션 모델의 Grad-CAM 현지화.
We can see that we get back Grad-CAM localizations (right) that agree with those bounding boxes – even though the captioning model and Grad-CAM techniques do not use any bounding box annotations.
캡션 모델과 Grad-CAM 기법이 경계 상자 주석을 사용하지 않더라도 이러한 경계 상자에 일치하는 Grad-CAM 현지화(오른쪽)를 다시 얻을 수 있음을 알 수 있다.
Comparison to dense captioning (고밀도 캡션과의 비교 )
Johnson et al. [29] recently introduced the Dense Captioning (DenseCap) task that requires a system to jointly localize and caption salient regions in a given image.
존슨 외 [29] 최근 주어진 이미지의 돌출 영역을 공동으로 현지화하고 캡션을 지정하는 시스템이 필요한 고밀도 캡션(DenseCap) 작업을 도입했다.
Their model consists of a Fully Convolutional Localization Network (FCLN) that produces bounding boxes for regions of interest and an LSTM-based language model that generates associated captions, all in a single forward pass.
그들의 모델은 관심 영역에 대한 경계 상자를 생성하는 FCLN(Full Convolutional Localization Network)과 관련 캡션을 생성하는 LSTM 기반 언어 모델로 구성되어 있으며, 이 모든 것이 단일 전방 경로로 이루어진다.
Using DenseCap, we generate 5 regionspecific captions per image with associated ground truth bounding boxes.
DenseCap을 사용하여 관련 지상 진실 경계 상자를 사용하여 이미지당 5개 영역별 캡션을 생성한다.
Grad-CAM for a whole-image captioning model (neuraltalk2) should localize the bounding box the region-caption was generated for, which is shown in Fig. 10b.
전체 이미지 캡션 모델(neuraltalk2)에 대한 Grad-CAM은 그림 10b에 표시된 영역 캡션이 생성된 경계 상자를 국소화해야 한다.
We quantify this by computing the ratio of mean activation in- side vs. outside the box.
우리는 내부와 외부 평균 활성화 비율을 계산하여 이를 정량화한다.
Higher ratios are better because they indicate stronger attention to the region the caption was generated for.
비율이 높을수록 캡션이 생성된 영역에 더 많은 주의를 기울이는 것을 나타내기 때문에 더 좋습니다.
Uniformly highlighting the whole image results in a baseline ratio of 1.0 whereas Grad-CAM achieves 3.27 ± 0.18.
전체 이미지를 균일하게 강조하면 기준 비율이 1.0인 반면 Grad-CAM은 3.27 ± 0.18을 달성한다
Adding high-resolution detail gives an improved baseline of 2.32 ± 0.08 (Guided Backpropagation) and the best localization at 6.38 ± 0.99 (Guided Grad-CAM).
고해상도 세부 정보를 추가하면 2.32 ± 0.08(유도 역전파)의 향상된 기준선과 6.38 ± 0.99(유도 그레이드-CAM)의 최상의 현지화가 제공된다.
Thus, Grad-CAM is able to localize regions in the image that the DenseCap model describes, even though the holistic caption- ing model was never trained with bounding-box annotations.
따라서 Grad-CAM은 전체론적 캡션 모델이 경계 상자 주석을 사용하여 훈련되지 않았음에도 불구하고 DenseCap 모델이 설명하는 이미지에서 영역을 현지화할 수 있다.
8.1.1 Grad-CAM for individual words of caption (개별 자막 단어에 대한 Grad-CAM )
In our experiment we use the Show and Tell model [55] pretrained on MSCOCO without fine-tuning through the visual representation obtained from Inception [54] architecture.
우리의 실험에서 우리는 Inception [54] 아키텍처에서 얻은 시각적 표현을 통해 미세 조정하지 않고 MSCOCO에서 사전 훈련된 Show and Tell 모델 [55]을 사용한다.
In order to obtain Grad-CAM map for individual words in the ground-truth caption we one-hot encode each of the visual words at the corresponding time-steps and compute the neuron importance score using Eq. (1) and combine with the convolution feature maps using Eq. (2).
지상 진실 캡션에서 개별 단어에 대한 Grad-CAM 맵을 얻기 위해 해당 시간 단계에서 각 시각적 단어를 원핫 인코딩하고 식 (1)을 사용하여 뉴런 중요도 점수를 계산하고 식 (2)를 사용하여 컨볼루션 기능 맵과 결합한다.
Comparison to Human Attention (인간의 주의력과의 비교 )
We manually created an object category to word mapping that maps object categories like
우리는 수동으로 객체 카테고리와 단어 매핑을 만들어
We then use the segmentation annotations for the 80 categories as human attention for this subset of matching words.
그런 다음 80개 범주에 대한 분할 주석을 이 일치하는 단어 하위 집합에 대한 인간의 주의로 사용한다.
We then use the pointing evaluation from [58].
그런 다음 [58]의 포인팅 평가를 사용한다.
For each visual word from the caption, we generate the Grad-CAM map and then extract the maximally activated point.
캡션의 각 시각적 단어에 대해 Grad-CAM 맵을 생성한 다음 최대 활성화 지점을 추출한다.
We then evaluate if the point lies within the human attention mapsegmentation for the corresponding COCO category, thereby counting it as a hit or a miss.
그런 다음 해당 COCO 범주에 대한 인간 주의 지도 분할 내에 점이 있는지 평가하여 적중 또는 누락으로 계산한다.
The pointing accuracy is then calculated as
그런 다음 포인팅 정확도는 다음과 같이 계산됩니다.
We perform this experiment on 1000 randomly sampled images from COCO dataset and obtain an accuracy of 30.0%.
우리는 COCO 데이터 세트에서 무작위로 샘플링된 1000개의 이미지에 대해 이 실험을 수행하고 30.0%의 정확도를 얻는다.
Some qualitative examples can be found in Fig. 11.
일부 정성적인 예는 도 11에서 확인할 수 있다.
Fig. 11: Qualitative Results for our word-level captioning experiments:
그림 11: 단어 수준 캡션 실험에 대한 정성적 결과:
(a) Given the image on the left and the caption, we visualize Grad-CAM maps for the visual words “bike”, “bench” and “bus”.
(a) 왼쪽 이미지와 캡션을 고려하여 시각적 단어 “bike”, “bench” 및 “bus”에 대한 Grad-CAM 맵을 시각화한다.
Note how well the Grad-CAM maps correlate with the COCO segmentation maps on the right column.
Grad-CAM 맵이 오른쪽 열에 있는 COCO 분할 맵과 얼마나 잘 관련되어 있는지 주목하십시오.
(b) shows a similar example where we visualize Grad-CAM maps for the visual words “people”, “bicycle” and “bird”.
(b) 는 시각적 단어 “사람”, “자전거” 및 “새”에 대한 Grad-CAM 맵을 시각화하는 유사한 예를 보여줍니다.
8.2 Visual Question Answering (시각적 질문 답변 )
Typical VQA pipelines consist of a CNN to process images and an RNN language model for questions.
일반적인 VQA 파이프라인은 이미지를 처리하기 위한 CNN과 질문을 위한 RNN 언어 모델로 구성된다.
The image and the question representations are fused to predict the answer, typically with a 1000-way classification (1000 being the size of the answer space).
이미지와 질문 표현은 답변을 예측하기 위해 융합되며, 일반적으로 1000방향 분류(1000은 답변 공간의 크기)를 사용한다.
Since this is a classification problem, we pick an answer (the score y^c in (3)) and use its score to compute Grad-CAM visualizations over the image to explain the answer.
이것은 분류 문제이기 때문에, 우리는 대답(3)의 점수 y^c를 선택하고 그 점수를 사용하여 이미지에 대한 Grad-CAM 시각화를 계산하여 답을 설명한다.
Despite the complexity of the task, involving both visual and textual components, the explanations (of the VQA model from Lu et al. [38]) de- scribed in Fig. 12 are surprisingly intuitive and informative.
시각적 구성 요소와 텍스트 구성 요소를 모두 포함하는 작업의 복잡성에도 불구하고, (Lu 등의 VQA 모델에 대한) 설명은 다음과 같다. [38]) 그림 12에 설명된 것은 놀라울 정도로 직관적이고 유익하다.
We quantify the performance of Grad-CAM via correlation with occlusion maps, as in Sec. 5.3. Grad-CAM achieves a rank correlation (with occlusion maps) of 0.60 ± 0.038 whereas Guided Backpropagation achieves 0.42 ± 0.038, indicating higher faithfulness of our Grad-CAM visualization.
우리는 5.3절과 같이 폐색 지도와의 상관 관계를 통해 Grad-CAM의 성능을 정량화한다. Grad-CAM은 0.60 ± 0.038의 순위 상관 관계를 달성하는 반면 Guided Back 전파는 0.42 ± 0.038을 달성하여 Grad-CAM 시각화의 더 높은 충실도를 나타낸다.
Fig. 12: Qualitative Results for our VQA experiments: (VQA 실험에 대한 정성적 결과)
(a) Given the image on the left and the question “What color is the firehydrant?”, we visualize Grad-CAMs and Guided Grad-CAMs for the answers “red”, “yellow” and “yellow and red”.
(a) 왼쪽에 있는 이미지와 “화전물은 무슨 색입니까?”라는 질문에 대해 “빨간색”, “노란색” 및 “노란색과 빨간색”에 대한 Grad-CAM 및 Guided Grad-CAM을 시각화합니다.
Grad-CAM visualizations are highly interpretable and help explain any target prediction – for “red”, the model focuses on the bottom red part of the firehydrant; when forced to answer “yellow”, the model concentrates on it‘s top yellow cap, and when forced to answer “yellow and red”, it looks at the whole firehydrant!
그래드-CAM 시각화는 매우 해석 가능하며 목표 예측을 설명하는 데 도움이 된다. 즉, “빨간색”의 경우 모델은 소화전의 아래쪽 빨간색 부분에 초점을 맞추고, “노란색”과 “빨간색”을 선택해야 할 경우 모델은 위쪽 노란색 캡에 초점을 맞추고, “노란색과 빨간색”을 강제로 대답해야 할 경우 전체 소화전을 살펴본다.
(b) Our approach is capable of providing interpretable explanations even for complex models.
(b) 우리의 접근 방식은 복잡한 모델에 대해서도 해석 가능한 설명을 제공할 수 있다.
Comparison to Human Attention. (인간의 주의력과의 비교. )
Das et al. [9] collected human attention maps for a subset of the VQA dataset [3].
데이즈 외. [9] VQA 데이터 세트의 하위 집합에 대한 인간 주의 지도를 수집했다[3].
These maps have high intensity where humans looked in the image in order to answer a visual question.
이 지도들은 시각적인 질문에 답하기 위해 이미지에서 사람들이 본 높은 강도를 가지고 있다.
Human attention maps are compared to Grad-CAM visualizations for the VQA model from [38] on 1374 val question-image (QI) pairs from [3] using the rank correlation evaluation protocol as in [9].
인간 주의 맵은 [9]와 같은 순위 상관 평가 프로토콜을 사용하여 [3]의 1374 val 질문-이미지(QI) 쌍에서 [38]의 VQA 모델에 대한 Grad-CAM 시각화와 비교된다.
Grad-CAM and human attention maps have a correlation of 0.136, which is higher than chance or random attention maps (zero correlation).
그래드-CAM과 인간 주의 지도의 상관관계는 0.136으로 우연 또는 무작위 주의 지도보다 높다(상관 없음).
This shows that despite not being trained on grounded image-text pairs, even non-attention based CNN + LSTM based VQA models are surprisingly good at localizing regions for predicting a particular answer.
이는 접지된 이미지 텍스트 쌍에 대해 교육을 받지 않았음에도 불구하고 비주의 기반 CNN + LSTM 기반 VQA 모델도 특정 답변을 예측하기 위한 영역을 현지화하는 데 놀라울 정도로 능숙하다는 것을 보여준다.
Visualizing ResNet-based VQA model with co-attention. (공동 주의를 통해 ResNet 기반 VQA 모델 시각화)
Lu et al. [39] use a 200 layer ResNet [24] to encode the image, and jointly learn a hierarchical attention mechanism on the question and image. Fig. 12b shows Grad-CAM visualizations for this network.
루 외 [39] 200 레이어 ResNet [24]을 사용하여 이미지를 인코딩하고 질문과 이미지에 대한 계층적 주의 메커니즘을 공동으로 학습한다. 그림 12b는 이 네트워크에 대한 Grad-CAM 시각화를 보여줍니다.
As we visualize deeper layers of the ResNet, we see small changes in Grad-CAM for most adjacent layers and larger changes between layers that involve dimensionality reduction.
ResNet의 더 깊은 레이어를 시각화하면 대부분의 인접 레이어에 대한 Grad-CAM의 작은 변화와 차원 감소를 수반하는 레이어 간의 더 큰 변화를 볼 수 있다.
More visualizations for ResNets can be found in Sec. G. To the best of our knowledge, we are the first to visualize decisions from ResNet-based models.
ResNets에 대한 자세한 시각화는 섹션 G에서 확인할 수 있습니다. 우리가 아는 한, ResNet 기반 모델에서 결정을 시각화하는 것은 우리가 처음이다.
9. Conclusion (결론)
In this work, we proposed a novel class-discriminative localization technique – Gradient-weighted Class Activation Mapping (Grad-CAM) – for making any CNN-based model more transparent by producing visual explanations.
본 연구에서는 시각적 설명을 생성하여 CNN 기반 모델을 보다 투명하게 만들기 위한 새로운 클래스 차별적 현지화 기술인 그레이디언트 가중 클래스 활성화 매핑(Grad-CAM)을 제안하였다.
Further, we combined Grad-CAM localizations with existing highresolution visualization techniques to obtain the best of both worlds – high-resolution and class-discriminative Guided Grad-CAM visualizations.
또한 Grad-CAM 현지화를 기존의 고해상도 시각화 기술과 결합하여 고해상도 및 클래스 차별 Guided Grad-CAM 시각화라는 두 가지 장점을 모두 얻었다.
Our visualizations outperform existing approaches on both axes – interpretability and faithfulness to original model.
우리의 시각화는 해석 가능성과 원래 모델에 대한 충실도라는 두 축 모두에서 기존 접근 방식을 능가한다.
Extensive human studies reveal that our visualizations can discriminate between classes more accurately, better expose the trustworthiness of a classifier, and help identify biases in datasets.
광범위한 인간 연구는 우리의 시각화가 클래스들을 더 정확하게 구별할 수 있고, 분류기의 신뢰성을 더 잘 노출시킬 수 있으며, 데이터 세트에서 편견을 식별하는 데 도움이 된다는 것을 보여준다.
Further, we devise a way to identify important neurons through Grad-CAM and provide a way to obtain textual explanations for model decisions.
또한 Grad-CAM을 통해 중요한 뉴런을 식별하는 방법을 고안하고 모델 결정에 대한 텍스트 설명을 얻는 방법을 제공한다.
Finally, we show the broad applicability of Grad-CAM to various off-the-shelf architectures for tasks such as image classification, image captioning and visual question answering.
마지막으로, 우리는 이미지 분류, 이미지 캡션 및 시각적 질문 답변과 같은 작업을 위해 다양한 기성 아키텍처에 Grad-CAM의 광범위한 적용 가능성을 보여준다.
We believe that a true AI system should not only be intelligent, but also be able to reason about its beliefs and actions for humans to trust and use it.
우리는 진정한 AI 시스템은 지능적일 뿐만 아니라 인간이 믿고 사용할 수 있도록 그 신념과 행동에 대해 추론할 수 있어야 한다고 믿는다.
Future work includes explaining decisions made by deep networks in domains such as reinforcement learning, natural language processing and video applications.
향후 작업에는 강화 학습, 자연어 처리 및 비디오 응용 프로그램과 같은 영역에서 심층 네트워크에 의한 결정을 설명하는 것이 포함된다.
10. Acknowledgements
This work was funded in part by NSF CAREER awards to DB and DP, DARPA XAI grant to DB and DP, ONR YIP awards to DP and DB, ONR Grant N00014-14-1-0679 to DB, a Sloan Fellowship to DP, ARO YIP awards to DB and DP, an Allen Distinguished Investigator award to DP from the Paul G. Allen Family Foundation, ICTAS Junior Faculty awards to DB and DP, Google Faculty Research Awards to DP and DB, Amazon Academic Research Awards to DP and DB, AWS in Education Research grant to DB, and NVIDIA GPU donations to DB.
The views and conclusions contained herein are those of the authors and should not be interpreted as necessarily representing the official policies or endorsements, either expressed or implied, of the U.S. Government, or any sponsor.
Appendix(부록)
A. Appendix Overview(부록 개요)
In the appendix, we provide: 부록에서는 다음을 제공합니다.
I - Ablation studies evaluating our design choices (설계 선택을 평가하는 절제 연구)II - More qualitative examples for image classification, captioning and VQA (이미지 분류, 캡션 및 VQA)III - More details of Pointing Game evaluation technique (포인팅 게임 평가 기법에 대한 자세한 정보)
IV - Qualitative comparison to existing visualization techniques (기존 시각화 기법과의 질적 비교)V - More qualitative examples of textual explanations (텍스트 설명의 질적 예)
B. Ablation studies (절제 연구 )
We perform several ablation studies to explore and validate our design choices for computing Grad-CAM visualizations.
Grad-CAM 시각화 계산을 위한 설계 선택을 탐색하고 검증하기 위해 몇 가지 절제 연구를 수행한다.
This includes visualizing different layers in the network, understanding importance of ReLU in (2), analyzing different types of gradients (for ReLU backward pass), and different gradient pooling strategies.
여기에는 네트워크에서 다양한 계층을 시각화, (2)에서 ReLU의 중요성 이해, 다양한 유형의 그레이디언트 분석(ReLU 역방향 패스에 대한), 다양한 그레이디언트 풀링 전략이 포함된다.
1. Grad-CAM for different layers (층별 그레이드-CAM )
We show Grad-CAM visualizations for the “tiger-cat” class at different convolutional layers in AlexNet and VGG-16.
우리는 AlexNet과 VGG-16의 서로 다른 컨볼루션 레이어에서 “호랑이-캣” 클래스에 대한 Grad-CAM 시각화를 보여준다.
As expected, the results from Fig. 13 show that localization becomes progressively worse as we move to earlier convolutional layers.
예상한 바와 같이, 그림 13의 결과는 초기 컨볼루션 레이어로 이동할수록 국재화가 점차 악화된다는 것을 보여준다.
This is because later convolutional layers better capture high-level semantic information while retaining spatial information than earlier layers, that have smaller receptive fields and only focus on local features.
이는 후기 컨볼루션 레이어가 수용 필드가 작고 로컬 기능에만 집중하는 이전 레이어보다 공간 정보를 유지하면서 높은 수준의 의미 정보를 더 잘 포착하기 때문이다.
Fig. 13: Grad-CAM at different convolutional layers for the ‘tiger cat’ class.
그림 13: ‘호랑이 고양이’ 클래스에 대해 서로 다른 컨볼루션 레이어의 Grad-CAM.
This figure analyzes how localizations change qualitatively as we perform Grad-CAM with respect to different feature maps in a CNN (VGG16 [52]).
이 그림은 CNN(VGG16 [52])의 다양한 기능 맵과 관련하여 Grad-CAM을 수행함에 따라 현지화가 어떻게 질적으로 변화하는지 분석한다.
We find that the best looking visualizations are often obtained after the deepest convolutional layer in the network, and localizations get progressively worse at shallower layers.
우리는 네트워크에서 가장 깊은 컨볼루션 레이어 후에 가장 잘 보이는 시각화가 종종 얻어지며, 로컬라이제이션은 더 낮은 레이어에서 점진적으로 악화된다는 것을 발견했다.
This is consistent with our intuition described in Section 3 of main paper, that deeper convolutional layer capture more semantic concepts.
이는 더 깊은 컨볼루션 레이어가 더 많은 의미론적 개념을 포착한다는 주요 논문의 섹션 3에 설명된 우리의 직관과 일치한다.
2. Design choices (설계 선택 )
We evaluate different design choices via top-1 localization errors on the ILSVRC-15 val set [14]. See Table. 3.
우리는 ILSVRC-15 밸브 세트의 상위 1개 현지화 오류를 통해 다양한 설계 선택을 평가한다[14]. 표 3.를 참조한다.
Table 3: Localization results on ILSVRC-15 val for the ablations.
표 3: 절제에 대한 ILSVRC-15 밸브의 국소화 결과
Note that this evaluation is over 10 crops, while visualizations are single crop.
이 평가는 10개 이상의 작물이며 시각화는 단일 작물입니다.
2.1. Importance of ReLU in (3) ((3)에서 ReLU의 중요성 )
Removing ReLU ((3)) increases error by 15.3%.
ReLU(3)를 제거하면 오차가 15.3% 증가합니다.
Negative values in Grad-CAM indicate confusion between multiple occurring classes.
Grad-CAM의 음수 값은 여러 발생 클래스 간의 혼동을 나타냅니다.
2.2. Global Average Pooling vs. Global Max Pooling (글로벌 평균 풀링 대 글로벌 최대 풀링 )
Instead of Global Average Pooling (GAP) the incoming gradients to the convolutional layer, we tried Global Max Pooling (GMP).
컨볼루션 레이어에 들어오는 그레이디언트(GAP) 대신 글로벌 최대 풀링(GMP)을 시도했다.
We observe that using GMP lowers the localization ability of Grad-CAM.
우리는 GMP를 사용하는 것이 Grad-CAM의 현지화 능력을 낮춘다는 것을 관찰한다.
An example can be found in Fig. 15 below.
하나의 예는 아래의 도 15에서 찾을 수 있다.
This may be due to the fact that max is statistically less robust to noise compared to the averaged gradient.
이는 max가 평균 그레이디언트에 비해 통계적으로 노이즈에 덜 강력하다는 사실 때문일 수 있다.
2.3. Effect of different ReLU on Grad-CAM (Grad-CAM에 대한 다른 ReLU의 영향)
We experiment with Guided-ReLU [53] and Deconv-ReLU [57] as modifications to the backward pass of ReLU.
우리는 Guided-Re로 실험한다.LU [53] 및 Deconv-ReReLU의 후방 패스에 대한 수정으로서 LU [57].
Guided-ReLU: Springenberg et al. [53] introduced Guided Backprop, where the backward pass of ReLU is modified to only pass positive gradients to regions of positive activations.
가이드 리루: 스프링넨버그 외. [53] Guided Backprop이 도입되었는데, ReLU의 역방향 패스는 포지티브 활성화 영역에만 포지티브 그레이디언트를 전달하도록 수정되었다.
Applying this change to the computation of Grad-CAM introduces a drop in the class-discriminative ability as can be seen in Fig. 16, but it marginally improves localization performance as can be seen in Table. 3.
이러한 변화를 Grad-CAM 계산에 적용하면 그림 16에서 볼 수 있는 바와 같이 등급 판별 능력이 떨어지지만 표 3에서 볼 수 있는 바와 같이 국재화 성능이 약간 향상된다.
Deconv-ReLU: In Deconvolution [57], Zeiler and Fergus introduced a modification to the backward pass of ReLU to only pass positive gradients.
디콘브레LU: Deconvolution [57]에서, Zeiler와 Fergus는 ReLU의 역방향 패스를 양의 그레이디언트만 통과하도록 수정하였다.
Applying this modification to the computation of Grad-CAM leads to worse results (Fig. 16).
이 수정을 Grad-CAM 계산에 적용하면 결과가 더 나빠진다(그림 16).
This indicates that negative gradients also carry important information for class-discriminativeness.
이는 음의 그레이디언트가 클래스 차별성에 대한 중요한 정보를 전달한다는 것을 나타낸다.
C. Qualitative results for vision and language tasks (시각 및 언어 작업에 대한 정성적 결과)
In this section we provide more qualitative results for Grad- CAM and Guided Grad-CAM applied to the task of image classification, image captioning and VQA.
이 섹션에서는 이미지 분류, 이미지 캡션 및 VQA 작업에 적용된 Grad-CAM 및 Guided Grad-CAM에 대한 보다 질적인 결과를 제공한다.
1. Image Classification (이미지 분류)
We use Grad-CAM and Guided Grad-CAM to visualize the regions of the image that provide support for a particular prediction.
우리는 Grad-CAM과 Guided Grad-CAM을 사용하여 특정 예측을 지원하는 이미지의 영역을 시각화한다.
The results reported in Fig. 17 correspond to the VGG-16 [52] network trained on ImageNet.
그림 17에 보고된 결과는 ImageNet에서 훈련된 VGG-16 [52] 네트워크에 해당한다.
Fig. 17 shows randomly sampled examples from COCO [35] validation set.
그림 17은 COCO [35] 유효성 검사 세트에서 무작위로 샘플링된 예를 보여줍니다.
COCO images typically have multiple objects per image and Grad-CAM visualizations show precise localization to support the model’s prediction.
COCO 이미지는 일반적으로 이미지당 여러 개체를 가지고 있으며 Grad-CAM 시각화는 모델의 예측을 지원하기 위해 정확한 현지화를 보여준다.
Guided Grad-CAM can even localize tiny objects.
Guided Grad-CAM은 작은 물체도 위치시킬 수 있다.
For example our approach correctly localizes the predicted class “torch” (Fig. 17.a) inspite of its size and odd location in the image.
예를 들어, 우리의 접근 방식은 이미지에서 크기와 홀수 위치에도 불구하고 예측된 클래스 “토치”(그림 17.a)를 정확하게 위치시킨다.
Our method is also class-discriminative – it places attention only on the “toilet seat” even when a popular ImageNet category “dog” exists in the image (Fig. 17.e).
우리의 방법은 또한 클래스 차별적이다. 이미지에 인기 있는 ImageNet 범주 “개”가 존재하는 경우에도 “화장실 시트”에만 주의를 기울인다(그림 17.e).
We also visualized Grad-CAM, Guided Backpropagation (GB), Deconvolution (DC), GB + Grad-CAM (Guided Grad- CAM), DC + Grad-CAM (Deconvolution Grad-CAM) for images from the ILSVRC13 detection val set that have at least 2 unique object categories each.
또한 각각 최소 2개의 고유한 개체 범주를 갖는 ILSVRC13 탐지 세트의 이미지에 대해 Grad-CAM, 유도 백프로그래밍(GB), 디콘볼루션(DC), GB + Grad-CAM(Guid Grad-CAM), DC + Grad-CAM(디콘볼루션 Grad-CAM)을 시각화했다.
The visualizations for the mentioned class can be found in the following links.
언급된 클래스의 시각화는 다음 링크에서 확인할 수 있습니다.
Fig. 14: Grad-CAM localizations for “tiger cat” category for different rectified convolutional layer feature maps for AlexNet.
그림 14: AlexNet을 위한 다양한 수정 컨볼루션 레이어 특징 맵에 대한 “호랑이 고양이” 카테고리의 Grad-CAM 현지화.
Fig. 15: Grad-CAM visualizations for “tiger cat” category with Global Average Pooling and Global Max Pooling.
그림 15: 글로벌 평균 풀링 및 글로벌 최대 풀링을 사용한 “호랑이 고양이” 범주에 대한 Grad-CAM 시각화
Fig. 16: Grad-CAM visualizations for “tiger cat” category for different modifications to the ReLU backward pass. The best results are obtained when we use the actual gradients during the computation of Grad-CAM.
그림 16: ReLU 후방 패스에 대한 다양한 수정에 대한 “호랑이 고양이” 범주에 대한 Grad-CAM 시각화. Grad-CAM 계산 중에 실제 그레이디언트를 사용할 때 최상의 결과를 얻는다.
2. Image Captioning (이미지 캡션 )
We use the publicly available Neuraltalk2 code and model9 for our image captioning experiments.
우리는 이미지 캡션 실험을 위해 공개적으로 사용 가능한 Neuraltalk2 코드와 모델 9를 사용한다.
The model uses VGG- 16 to encode the image.
모델은 VGG-16을 사용하여 이미지를 인코딩합니다.
The image representation is passed as input at the first time step to an LSTM that generates a caption for the image.
이미지 표현은 제1 시간 단계에서 입력으로서 이미지에 대한 캡션을 생성하는 LSTM으로 전달된다.
The model is trained end-to-end along with CNN finetuning using the COCO [35] Captioning dataset.
이 모델은 COCO [35] 캡션 데이터 세트를 사용하여 CNN 미세 조정과 함께 엔드 투 엔드로 훈련된다.
We feedforward the image to the image captioning model to obtain a caption.
우리는 이미지를 이미지 캡션 모델로 전달하여 캡션을 얻는다.
We use Grad-CAM to get a coarse localization and combine it with Guided Backpropagation to get a high-resolution visualization that highlights regions in the image that provide support for the generated caption.
Grad-CAM을 사용하여 대략적인 현지화를 얻고 Guided Back 전파와 결합하여 생성된 캡션을 지원하는 이미지에서 영역을 강조하는 고해상도 시각화를 얻는다.
3. Visual Question Answering (VQA) 시각적 질문 답변(VQA)
We use Grad-CAM and Guided Grad-CAM to explain why a publicly available VQA model [38] answered what it answered.
우리는 Grad-CAM과 Guided Grad-CAM을 사용하여 공개적으로 사용 가능한 VQA 모델[38]이 응답한 것에 응답한 이유를 설명한다.
The VQA model by Lu et al. uses a standard CNN followed by a fully connected layer to transform the image to 1024- dim to match the LSTM embeddings of the question.
Lu 등의 VQA 모델입니다. 표준 CNN에 이어 완전히 연결된 레이어를 사용하여 질문의 LSTM 임베딩과 일치하도록 이미지를 1024-dim으로 변환한다.
Then the transformed image and LSTM embeddings are pointwise multiplied to get a combined representation of the image and question and a multi-layer perceptron is trained on top to predict one among 1000 answers.
그런 다음 변환된 이미지와 LSTM 임베딩을 포인트 단위로 곱하여 이미지와 질문의 결합된 표현을 얻고 위에서 다층 퍼셉트론을 훈련하여 1000개의 답변 중 하나를 예측한다.
We show visualizations for the VQA model trained with 3 different CNNs - AlexNet [33], VGG-16 and VGG-19 [52].
우리는 알렉스넷[33], VGG-16 및 VGG-19[52]의 세 가지 다른 CNN으로 훈련된 VQA 모델에 대한 시각화를 보여준다.
Even though the CNNs were not finetuned for the task of VQA, it is interesting to see how our approach can serve as a tool to understand these networks better by providing a localized high-resolution visualization of the regions the model is looking at.
CNN이 VQA 작업에 맞게 미세 조정되지 않았음에도 불구하고 모델이 보고 있는 영역의 현지화된 고해상도 시각화를 제공함으로써 우리의 접근 방식이 이러한 네트워크를 더 잘 이해하는 도구로 어떻게 작용할 수 있는지 보는 것은 흥미롭다.
Note that these networks were trained with no explicit attention mechanism enforced.
이러한 네트워크는 명시적 주의 메커니즘이 시행되지 않은 상태에서 훈련되었습니다.
Notice in the first row of Fig. 19, for the question, “Is the person riding the waves?”, the VQA model with AlexNet and VGG-16 answered “No”, as they concentrated on the person mainly, and not the waves.
그림 19의 첫 번째 줄에서 “파도를 타고 있는 사람은 누구인가?”라는 질문에 AlexNet과 VGG-16의 VQA 모델은 파도가 아닌 사람에게 집중되었기 때문에 “아니오”라고 대답했습니다.
On the other hand, VGG- 19 correctly answered “Yes”, and it looked at the regions around the man in order to answer the question.
반면, VGG-19는 “예”라고 정확하게 답했고, 질문에 답하기 위해 남성 주변 지역을 살펴보았다.
In the second row, for the question, “What is the person hitting?”, the VQA model trained with AlexNet answered “Tennis ball” just based on context without looking at the ball.
두 번째 줄에서는 ‘그 사람이 치는 게 뭐냐’는 질문에 알렉스넷으로 훈련받은 VQA 모델은 공을 보지 않고 문맥만 보고 ‘테니스볼’이라고 답했다.
Such a model might be risky when employed in real-life scenarios.
그러한 모델은 실제 시나리오에 사용될 때 위험할 수 있다.
It is difficult to determine the trustworthiness of a model just based on the predicted answer.
예측된 답변만으로는 모델의 신뢰도를 판단하기 어렵다.
Our visualizations provide an accurate way to explain the model’s predictions and help in determining which model to trust, without making any architectural changes or sacrificing accuracy.
우리의 시각화는 아키텍처 변경이나 정확성을 희생하지 않고 모델의 예측을 설명하고 신뢰할 모델을 결정하는 데 도움을 준다.
Notice in the last row of Fig. 19, for the question, “Is this a whole orange?”, the model looks for regions around the orange to answer “No”.
그림 19의 마지막 행에서, “이것이 오렌지 전체입니까?”라는 질문에 대해, 모델은 “아니오”라고 답하기 위해 오렌지 주위의 영역을 찾습니다.
Fig. 17: Visualizations for randomly sampled images from the COCO validation dataset.
그림 17: COCO 유효성 검사 데이터 세트에서 무작위로 샘플링된 이미지에 대한 시각화.
Predicted classes are mentioned at the top of each column.
예측 클래스는 각 열의 맨 위에 언급됩니다.
D. More details of Pointing Game (포인팅 게임에 대한 자세한 정보)
In [58], the pointing game was setup to evaluate the discriminativeness of different attention maps for localizing ground-truth categories.
[58]에서 포인팅 게임은 실측-진실 범주를 현지화하기 위해 서로 다른 주의 맵의 차별성을 평가하도록 설정되었다.
In a sense, this evaluates the precision of a visualization, i.e. how often does the attention map intersect the segmentation map of the ground-truth category.
어떤 의미에서, 이것은 시각화의 정밀도, 즉 주의 지도가 실측-실측 범주의 분할 지도와 얼마나 자주 교차하는지 평가한다.
This does not evaluate how often the visualization technique produces maps which do not correspond to the category of interest.
이것은 시각화 기법이 관심 범주에 해당하지 않는 지도를 얼마나 자주 생산하는지 평가하지 않는다.
Hence we propose a modification to the pointing game to evaluate visualizations of the top-5 predicted category.
따라서 우리는 상위 5개 예측 범주의 시각화를 평가하기 위해 포인팅 게임에 대한 수정을 제안한다.
In this case the visualizations are given an additional option to reject any of the top-5 predictions from the CNN classifiers.
이 경우 시각화는 CNN 분류기에서 상위 5개 예측을 거부할 수 있는 추가 옵션이 제공된다.
For each of the two visualizations, Grad-CAM and c-MWP, we choose a threshold on the max value of the visualization, that can be used to determine if the category being visualized exists in the image.
Grad-CAM과 c-MWP라는 두 가지 시각화에 대해 시각화 중인 범주가 이미지에 존재하는지 여부를 결정하는 데 사용할 수 있는 시각화의 최대 값에 대한 임계값을 선택한다.
We compute the maps for the top-5 categories, and based on the maximum value in the map, we try to classify if the map is of the GT label or a category that is absent in the image.
우리는 상위 5개 범주에 대한 지도를 계산하고, 지도의 최대값을 기반으로 지도가 GT 레이블인지 이미지에 없는 범주인지 분류하려고 한다.
As mentioned in Section 4.2 of the main paper, we find that our approach Grad-CAM outperforms c-MWP by a significant margin (70.58% vs 60.30% on VGG-16).
본 논문의 섹션 4.2에서 언급한 바와 같이, 우리는 Grad-CAM 접근 방식이 c-MWP를 상당히 능가한다는 것을 발견했다(VGG-16의 경우 70.58% 대 60.30%).
Fig. 18: Guided Backpropagation, Grad-CAM and Guided Grad-CAM visualizations for the captions produced by the Neuraltalk2 image captioning model.
그림 18: Neuraltalk2 이미지 캡션 모델에 의해 생성된 캡션에 대한 Guided Back Propagation, Grad-CAM 및 Guided Grad-CAM 시각화.
Fig. 19: Guided Backpropagation, Grad-CAM and Guided Grad-CAM visualizations for the answers from a VQA model.
그림 19: VQA 모델의 답변을 위한 Guided Back 전파, Grad-CAM 및 Guided Grad-CAM 시각화.
For each image-question pair, we show visualizations for AlexNet, VGG-16 and VGG-19.
각 이미지-질문 쌍에 대해 AlexNet, VGG-16 및 VGG-19에 대한 시각화를 보여준다.
Notice how the attention changes in row 3, as we change the answer from Yellow to Green.
3행에서 노란색에서 녹색으로 답을 변경할 때 주의력이 어떻게 변화하는지 주목하십시오.
Fig. 20: Visualizations for ground-truth categories (shown below each image) for images sampled from the PASCAL [17] validation set.
그림 20: PASCAL [17] 유효성 검사 세트에서 샘플링된 이미지에 대한 실측 범주(각 이미지 아래에 표시)의 시각화.
Fig. 21: More Qualitative examples showing visual explanations and textual explanations for VGG-16 trained on Places365 dataset ([61]).
그림 21: Places365 데이터 세트에서 훈련된 VGG-16에 대한 시각적 설명과 텍스트 설명을 보여주는 더 많은 정성적 예([61])
For textual explanations we provide the most important neurons for the predicted class along with their names.
텍스트 설명을 위해 우리는 예측된 클래스에 가장 중요한 뉴런과 이름을 제공한다.
Important neurons can be either be persuasive (positively important) or inhibitive (negatively important).
중요한 뉴런은 설득력이 있거나(긍정적으로 중요함) 억제력이 있을 수 있다.
The first 3 rows show positive examples, and the last 2 rows show failure cases.
처음 세 행은 긍정적인 예를 보여 주고 마지막 두 행은 고장 사례를 보여 줍니다.
E. Qualitative comparison to Excitation Backprop (c-MWP) and CAM (Excitation Backprop(c-MWP) 및 CAM과의 질적 비교)
In this section we provide more qualitative results comparing Grad-CAM with CAM [59] and c-MWP [58] on Pascal [17].
이 섹션에서는 Grad-CAM을 Pascal [17]에서 CAM [59] 및 c-MWP [58]와 비교한 보다 질적인 결과를 제공한다.
We compare Grad-CAM, CAM and c-MWP visualizations from ImageNet trained VGG-16 models finetuned on PAS- CAL VOC 2012 dataset.
우리는 PAS-CAL VOC 2012 데이터 세트에서 미세 조정된 ImageNet 훈련된 VGG-16 모델의 Grad-CAM, CAM 및 c-MWP 시각화를 비교한다.
While Grad-CAM and c-MWP visualizations can be directly obtained from existing models, CAM requires an architectural change, and requires retraining, which leads to loss in accuracy.
Grad-CAM 및 c-MWP 시각화는 기존 모델에서 직접 얻을 수 있지만, CAM은 아키텍처 변경이 필요하며 재교육이 필요하므로 정확도가 떨어진다.
Also, unlike Grad- CAM, c-MWP and CAM can only be applied for image classification networks.
또한 Grad-CAM과 달리 c-MWP와 CAM은 영상분류 네트워크에만 적용이 가능하다.
Visualizations for the ground-truth categories can be found in Fig. 20.
실측 실측 범주의 시각화는 그림 20에서 확인할 수 있다.
F. Visual and Textual explanations for Places dataset(장소 데이터 세트에 대한 시각적 및 텍스트 설명)
Fig. 21 shows more examples of visual and textual explanations (Sec. 7) for the image classification model (VGG-16) trained on Places365 dataset ([61]).
그림 21에는 Places365 데이터 세트([61])에 대해 훈련된 이미지 분류 모델(VGG-16)에 대한 시각적 및 텍스트 설명(7절)의 더 많은 예가 나와 있다.
Fig. 22: We observe that the discriminative ability of Grad-CAM significantly reduces as we encounter the downsampling layer.
그림 22: 우리는 다운샘플링 레이어에 접함에 따라 Grad-CAM의 판별 능력이 크게 감소함을 관찰한다.
G. Analyzing Residual Networks (잔류 네트워크 분석 )
In this section, we perform Grad-CAM on Residual Networks (ResNets).
이 섹션에서는 잔류 네트워크(ResNets)에서 Grad-CAM을 수행한다.
In particular, we analyze the 200-layer architecture trained on ImageNet10.
특히 ImageNet10에서 훈련된 200층 아키텍처를 분석한다.
Current ResNets [24] typically consist of residual blocks.
Current ResNets [24]는 일반적으로 잔여 블록으로 구성됩니다.
One set of blocks use identity skip connections (shortcut connections between two layers having identical output dimensions).
하나의 블록 집합은 아이덴티티 스킵 연결(출력 치수가 동일한 두 레이어 사이의 바로 가기 연결)을 사용합니다.
These sets of residual blocks are interspersed with downsampling modules that alter dimensions of propagating signal.
이러한 잔류 블록들의 세트는 전파 신호의 치수를 변경하는 다운샘플링 모듈로 나뉜다.
As can be seen in Fig. 22 our visualizations applied on the last convolutional layer can correctly localize the cat and the dog.
그림 22에서 볼 수 있듯이 마지막 컨볼루션 레이어에 적용된 우리의 시각화는 고양이와 개를 정확하게 국소화할 수 있다.
Grad-CAM can also visualize the cat and dog correctly in the residual blocks of the last set.
Grad-CAM은 또한 마지막 세트의 잔여 블록에서 고양이와 개를 올바르게 시각화할 수 있다.
However, as we go towards earlier sets of residual blocks with different spatial resolution, we see that Grad-CAM fails to localize the category of interest (see last row of Fig. 22).
그러나 공간 분해능이 다른 초기 잔차 블록 세트로 갈수록 Grad-CAM이 관심 범주를 국소화하는 데 실패함을 알 수 있다(그림 22의 마지막 행 참조).
We observe similar trends for other ResNet architectures (18 and 50-layer).
우리는 다른 ResNet 아키텍처(18층 및 50층)에 대해서도 유사한 추세를 관찰한다.