전체 글 10

PointMamba: A Simple State Space Model for Point Cloud Analysis

IntroductionPointMamba는 Mamba 방법론을 Point Cloud에 적용시킨 방법으로서, 낮은 연산량으로 높은 성능을 달성한다고 한다. 하지만 기존 Mamba는 단방향적 구조(RNN처럼 이전 시점만을 참고)로 인해 3D 포인트 클라우드처럼 비정형적이고 방향성이 불분명한 데이터에는 한계가 있기 때문에 PointMamba는 Hilbert 곡선 및 Trans-Hilbert 곡선이라는 공간 충전 곡선(space-filling curves)을 이용해 3차원 포인트들을 1차원 시퀀스로 순서화(serialization)하여 처리한다. 이처럼 두 방향에서 생성된 시퀀스를 구분하고 공간적 특성을 보존하기 위해, order indicator라는 매우 가벼운 구성 요소를 추가하여 각 시퀀스의 스캔 방식을 ..

Paper/Point Cloud 2025.06.03

Point-MAE : Masked Autoencoders for Point Cloud Self-supervised Learning

IntroductionPoint-MAE는 기존 MAE 방식의 장점을 point cloud에 적용시킨 방법론으로, BERT 기반 구조의 한계를 보완하고자 제안되었다. 핵심 아이디어로는 MAE의 랜덤 마스킹, 마스크 토큰의 디코더 이동, 그리고 표준 트랜스포머 기반의 비대칭 인코더-디코더 구조이다. 동작 구조는 입력 포인트 클라우드를 불규칙한 패치로 분할한 뒤, 높은 비율로 무작위 마스킹하고, 마스킹되지 않은 패치들만을 인코더가 처리하여 학습한다. 이후 디코더가 마스크 토큰과 인코더 출력을 함께 받아 마스킹된 포인트를 좌표 공간에서 복원한다. 자세한 내용은 아래에서 다루겠다. 끄적끄적3. Point-MAE3.1 Point Cloud Masking and Embedding포인트 클라우드는 이미지처럼 정규적인 ..

Paper/Point Cloud 2025.05.31

Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point Modeling

IntroductionPoint-BERT는 LLM의 BERT 구조에서 아이디어를 얻어, 이를 3D 포인트 클라우드에 적용한 사전학습 방법이다.BERT는 입력 데이터의 일부를 의도적으로 마스킹한 뒤, 그 내용을 복원하는 과정을 통해 학습하는 방식이고, 이러한 방식의 장점은 문맥 정보를 스스로 이해하고 예측하는 능력을 길러낼 수 있다는 점이다.하지만 LLM과 달리, 포인트 클라우드에서는 각 포인트가 단어처럼 뚜렷한 의미를 가지지 않기 때문에, Transformer 기반의 사전학습(BERT 방식)을 그대로 적용하기 어렵다는 문제가 있다. 왜냐하면 문장 속 단어는 문맥적 의미를 지니지만, 포인트 하나는 그 자체로 의미가 거의 없기 때문이다.이를 해결하기 위해 Point-BERT는 포인트 클라우드를 여러 개의 패..

Paper/Point Cloud 2025.05.30

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

IntroductionMamba는 기존 Transformer 기반 시퀀스 모델의 한계, 특히 긴 시퀀스에 대한 비효율적인 계산 복잡도와 문맥 기반 선택 추론 능력 부족를 해결하기 위해 제안된 새로운 선택적 상태공간 모델(Selective State Space Model, SSM)이다. 기존 SSM 방식의 단점으로 입력에 따라 유동적으로 정보를 선택하거나 무시하지 못하는 문제가 있었는데 mamba는 이를 해결하기 위해 파라미터를 입력에 따라 동적으로 생성하는 selective 메커니즘을 도입하고, 기존의 시간 불변 LTI 구조를 가변적 구조로 확장한다. 다만 이 선택성으로 인해 convolution 연산을 사용할 수 없어 계산 효율성이 떨어질 우려가 있었지만, Mamba는 병렬 scan 알고리즘, 커널 퓨..

OctFormer: Octree-based Transformers for 3D Point Clouds

IntroductionOctFormer는 Octree 기반의 Transformer 아키텍처를 제안한 모델로, 기존 Transformer의 비효율적인 연산 복잡도(O(N²)) 문제를 해결하고, 대규모 포인트 클라우드에 확장 가능한 구조(스케일 업)를 갖는 것을 목표로 한다.요약하면, 세 가지 핵심 특징이 있다:1. Octree Attention 제안기존 윈도우 어텐션은 정해진 크기의 정육면체 윈도우로 나누기 때문에, 윈도우마다 포함되는 포인트 수가 불균형해 연산 효율이 떨어진다.반면, OctFormer는 Octree 기반으로 포인트를 정렬하고, 각 윈도우에 동일한 수(K)의 포인트만 포함되도록 하여 균일한 연산 단위를 만들고 GPU 병렬 처리에 유리한 구조를 갖춘다.2. Dilated Octree Atte..

Paper/Point Cloud 2025.05.20

Point Transformer V3: Simpler, Faster, Stronger

IntroductionPoint transformer v3는 기존 Transformer 기반 Point Cloud 모델들이 정확도와 효율성 사이의 trade-off 문제를 해결하기 위해, 복잡한 설계 보다는 단순성과 확장성을 우선적으로 한 구조를 제안한다. 저자는 모델의 성능이 복잡한 구조 보다는 스케일에 더 큰 영향을 받는다고 주장한다. 그에 따라 Point Cloud Serialization 방식을 도입하여 효율화 시키고, Serialized Attention을 적용해 receptive field를 확보한다. 그 과정에서 새로운 Position encoding 방식도 적용한다. 자세한 내용은 아래에서 다루겠다.결과적으로 전작에 비해 추론 속도, 메모리 사용량 부분에서 우수한 성능을 달성했다. 기존 ..

Paper/Point Cloud 2025.05.18

Point Transformer V2: Grouped Vector Attention and Partition-based Pooling

Introduction본 논문은 기존 Point Transformer의 한계를 개선하기 위해 제안된 Point Transformer V2(PTv2)에 관한 연구이다.기존 Point Transformer는 네트워크가 깊어지고 채널 수가 증가함에 따라, 가중치 인코딩에 사용되는 MLP 파라미터 수가 급격히 증가하게 되고, 이로 인해 과적합 및 연산량 증가 문제가 발생한다.이를 해결하기 위해 PTv2에서는 그룹 단위의 벡터 어텐션(Grouped Vector Attention, GVA) 구조를 도입하여 파라미터 효율성과 연산 효율을 동시에 확보하였다.또한, 기존의 FPS나 KNN 기반의 풀링 방식은 시간이 오래 걸리고 공간적으로 정렬이 부정확하다는 문제점이 있다. 이를 대신하여, PTv2는 포인트 클라우드를 겹..

Paper/Point Cloud 2025.05.13

Point Transformer

IntroductionPoint Transformer는 자연어나 이미지 처리 분야에서 성공을 거둔 transformer를 point cloud 데이터에 적용한 논문이다.transformer의 핵심 연산인 self-attention이 set 연산자 이기 때문에 transformer 구조는 point cloud 데이터에 적합하다는 의견이다. 즉 입력의 순서나 개수에 영향을 받지 않기 때문에 점들의 집합 형태인 point cloud에 자연스럽게 적용 가능하다고 한다.효과는 결과적으로 기존 기법들을 뛰어 넘는 SOTA 달성. 끄적끄적기본적으로 transformer의 self-attention 수식 구조에 대해서 복습한다.기본적으로 Transformer에서 사용하는 self-attention 연산은 입력 데이터의..

Paper/Point Cloud 2025.05.11

PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space

IntroductionPointnet++은 기본적으로 Pointnet의 단점을 보완하기 위해 나온 방법이다. 기존 Pointnet은 구조 특성상 점들을 독립적으로 처리하기 때문에 local structure을 파악하지 못한다는 단점이 있다. 이를 보완하기 위해 저자는 입력된 데이터를 중첩된 영역으로 나누고, 그 위에 Pointnet을 반복적으로 적용함으로서 local feature를 학습한다. 지금까지 다른 후속 연구들에서도 계속 사용되고 있는 방법론인 만큼 효과는 보장되었다고 볼 수 있겠다. 끄적끄적1) Pointnet은 전제 점 집합을 하나로 요약하지만, Pointnet++은 점들을 hierarchical(계층적)으로 그룹화하고 점점 더 큰 local region을 추상화 함.2) 구조는 여러개..

Paper/Point Cloud 2025.05.10

PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation

Introduction3차원 포인트 클라우드는 자율주행, 로봇 비전, 증강현실 등 다양한 분야에서 중요한 데이터 형태로 자리잡고 있다. 하지만 기존의 3D 인식 모델들은 voxelization이나 2D projection을 통해 정형화된 입력으로 변환한 후 CNN을 적용하는 방식을 채택해왔다. 이러한 방식은 정보 손실과 연산 효율 저하를 유발하며, point cloud의 본질적인 특성(비정형성, 순서 무관성, 회전 불변성) 을 충분히 활용하지 못한다. 이에 본 논문의 저자는 point cloud를 변환 없이 직접 처리할 수 있는 새로운 신경망 구조인 PointNet을 제안한다. PointNet은 각 점에 독립적으로 MLP를 적용한 후, 전체 점들에 대해 대칭 함수인 max pooling을 사용하여 글로벌..

Paper/Point Cloud 2025.05.09