Vision Transformer with graphical segmentation

Creator

Creator

Seonglae Cho

Created

Created

2024 Nov 18 19:38

Editor

Editor

Seonglae Cho

Edited

Edited

2024 Nov 18 19:40

Refs

Refs

image sementation

build image nearest feature graph generation

graphical positional embedding

vision transformer inference

인간은 pixel기반이지만 convolution 하지 않고 selective attention 한다는 intuition

Recommendations

///