Paper 7

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

IntroductionMamba는 기존 Transformer 기반 시퀀스 모델의 한계, 특히 긴 시퀀스에 대한 비효율적인 계산 복잡도와 문맥 기반 선택 추론 능력 부족를 해결하기 위해 제안된 새로운 선택적 상태공간 모델(Selective State Space Model, SSM)이다. 기존 SSM 방식의 단점으로 입력에 따라 유동적으로 정보를 선택하거나 무시하지 못하는 문제가 있었는데 mamba는 이를 해결하기 위해 파라미터를 입력에 따라 동적으로 생성하는 selective 메커니즘을 도입하고, 기존의 시간 불변 LTI 구조를 가변적 구조로 확장한다. 다만 이 선택성으로 인해 convolution 연산을 사용할 수 없어 계산 효율성이 떨어질 우려가 있었지만, Mamba는 병렬 scan 알고리즘, 커널 퓨..

OctFormer: Octree-based Transformers for 3D Point Clouds

IntroductionOctFormer는 Octree 기반의 Transformer 아키텍처를 제안한 모델로, 기존 Transformer의 비효율적인 연산 복잡도(O(N²)) 문제를 해결하고, 대규모 포인트 클라우드에 확장 가능한 구조(스케일 업)를 갖는 것을 목표로 한다.요약하면, 세 가지 핵심 특징이 있다:1. Octree Attention 제안기존 윈도우 어텐션은 정해진 크기의 정육면체 윈도우로 나누기 때문에, 윈도우마다 포함되는 포인트 수가 불균형해 연산 효율이 떨어진다.반면, OctFormer는 Octree 기반으로 포인트를 정렬하고, 각 윈도우에 동일한 수(K)의 포인트만 포함되도록 하여 균일한 연산 단위를 만들고 GPU 병렬 처리에 유리한 구조를 갖춘다.2. Dilated Octree Atte..

Paper/Point Cloud 2025.05.20

Point Transformer V3: Simpler, Faster, Stronger

IntroductionPoint transformer v3는 기존 Transformer 기반 Point Cloud 모델들이 정확도와 효율성 사이의 trade-off 문제를 해결하기 위해, 복잡한 설계 보다는 단순성과 확장성을 우선적으로 한 구조를 제안한다. 저자는 모델의 성능이 복잡한 구조 보다는 스케일에 더 큰 영향을 받는다고 주장한다. 그에 따라 Point Cloud Serialization 방식을 도입하여 효율화 시키고, Serialized Attention을 적용해 receptive field를 확보한다. 그 과정에서 새로운 Position encoding 방식도 적용한다. 자세한 내용은 아래에서 다루겠다.결과적으로 전작에 비해 추론 속도, 메모리 사용량 부분에서 우수한 성능을 달성했다. 기존 ..

Paper/Point Cloud 2025.05.18

Point Transformer V2: Grouped Vector Attention and Partition-based Pooling

Introduction본 논문은 기존 Point Transformer의 한계를 개선하기 위해 제안된 Point Transformer V2(PTv2)에 관한 연구이다.기존 Point Transformer는 네트워크가 깊어지고 채널 수가 증가함에 따라, 가중치 인코딩에 사용되는 MLP 파라미터 수가 급격히 증가하게 되고, 이로 인해 과적합 및 연산량 증가 문제가 발생한다.이를 해결하기 위해 PTv2에서는 그룹 단위의 벡터 어텐션(Grouped Vector Attention, GVA) 구조를 도입하여 파라미터 효율성과 연산 효율을 동시에 확보하였다.또한, 기존의 FPS나 KNN 기반의 풀링 방식은 시간이 오래 걸리고 공간적으로 정렬이 부정확하다는 문제점이 있다. 이를 대신하여, PTv2는 포인트 클라우드를 겹..

Paper/Point Cloud 2025.05.13

Point Transformer

IntroductionPoint Transformer는 자연어나 이미지 처리 분야에서 성공을 거둔 transformer를 point cloud 데이터에 적용한 논문이다.transformer의 핵심 연산인 self-attention이 set 연산자 이기 때문에 transformer 구조는 point cloud 데이터에 적합하다는 의견이다. 즉 입력의 순서나 개수에 영향을 받지 않기 때문에 점들의 집합 형태인 point cloud에 자연스럽게 적용 가능하다고 한다.효과는 결과적으로 기존 기법들을 뛰어 넘는 SOTA 달성. 끄적끄적기본적으로 transformer의 self-attention 수식 구조에 대해서 복습한다.기본적으로 Transformer에서 사용하는 self-attention 연산은 입력 데이터의..

Paper/Point Cloud 2025.05.11

PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space

IntroductionPointnet++은 기본적으로 Pointnet의 단점을 보완하기 위해 나온 방법이다. 기존 Pointnet은 구조 특성상 점들을 독립적으로 처리하기 때문에 local structure을 파악하지 못한다는 단점이 있다. 이를 보완하기 위해 저자는 입력된 데이터를 중첩된 영역으로 나누고, 그 위에 Pointnet을 반복적으로 적용함으로서 local feature를 학습한다. 지금까지 다른 후속 연구들에서도 계속 사용되고 있는 방법론인 만큼 효과는 보장되었다고 볼 수 있겠다. 끄적끄적1) Pointnet은 전제 점 집합을 하나로 요약하지만, Pointnet++은 점들을 hierarchical(계층적)으로 그룹화하고 점점 더 큰 local region을 추상화 함.2) 구조는 여러개..

Paper/Point Cloud 2025.05.10

PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation

Introduction3차원 포인트 클라우드는 자율주행, 로봇 비전, 증강현실 등 다양한 분야에서 중요한 데이터 형태로 자리잡고 있다. 하지만 기존의 3D 인식 모델들은 voxelization이나 2D projection을 통해 정형화된 입력으로 변환한 후 CNN을 적용하는 방식을 채택해왔다. 이러한 방식은 정보 손실과 연산 효율 저하를 유발하며, point cloud의 본질적인 특성(비정형성, 순서 무관성, 회전 불변성) 을 충분히 활용하지 못한다. 이에 본 논문의 저자는 point cloud를 변환 없이 직접 처리할 수 있는 새로운 신경망 구조인 PointNet을 제안한다. PointNet은 각 점에 독립적으로 MLP를 적용한 후, 전체 점들에 대해 대칭 함수인 max pooling을 사용하여 글로벌..

Paper/Point Cloud 2025.05.09