Paper/Point Cloud 11

Triple Point Masking

IntroductionTPM(Triple Point Masking)은 기존의 self-supervised leanring 기법에 간단히 추가 가능한 확장 모듈로, 마스킹 난이도에서의 학습을 시도한다. 기존의 마스킹 전략들은 60% 이상이라는 높은 비율로 적용하였는데, 저자는 여기서 "다양한 마스킹 비율을 학습하면 더 잘 학습할 수 있지않을까?"라는 질문을 던지고 이 방법을 제안한다.아이디어는 간단하다. 말 그대로 3가지 마스킹 수준을 적용하고, SVM 기반 가중치를 선택하여 fine-tuning에 사용한다고 한다.결론적으로 TPM에서 제안하는 것은 새로운 마스킹 구조, SVM 기반 가중치 선택 전략인 거 같다. 자세한 내용은 아래에서 다루겠다.끄적끄적제안하는 방법에 대해 요약하면 다음과 같다.1. Pr..

Paper/Point Cloud 2025.06.24

AdaptPoint : Sample-adaptive Augmentation for Point Cloud RecognitionAgainst Real-world Corruptions

IntroductionAdaptPoint는 실제 환경에서의 포인트 클라우드 인식 성능 저하 문제를 해결하기 위해 샘플 적응형 데이터 증강(auto-augmentation) 기법을 제안한 논문이다. 기존 증강 기법은 구조를 고려하지 않은 무작위 증강이 많아, 과도하거나 부족한 강화로 이어지는 문제가 있었다. 이를 해결하기 위해 AdaptPoint는 입력 구조를 고려한 자동 증강 방식을 도입하였다.주요 구성 요소로는 Sample-adaptive Imitator, Discriminator, Classifier이 있고 새로운 데이터셋인 ScanObjectNN-C도 제안한다.자세하 내용은 아래에서 다루겠다.끄적끄적입력 포인트 클라우드 P를 기반으로 현실적인 손상을 반영한 P′를 생성하여, 분류기의 손상 강건성(R..

Paper/Point Cloud 2025.06.18

PointMamba: A Simple State Space Model for Point Cloud Analysis

IntroductionPointMamba는 Mamba 방법론을 Point Cloud에 적용시킨 방법으로서, 낮은 연산량으로 높은 성능을 달성한다고 한다. 하지만 기존 Mamba는 단방향적 구조(RNN처럼 이전 시점만을 참고)로 인해 3D 포인트 클라우드처럼 비정형적이고 방향성이 불분명한 데이터에는 한계가 있기 때문에 PointMamba는 Hilbert 곡선 및 Trans-Hilbert 곡선이라는 공간 충전 곡선(space-filling curves)을 이용해 3차원 포인트들을 1차원 시퀀스로 순서화(serialization)하여 처리한다. 이처럼 두 방향에서 생성된 시퀀스를 구분하고 공간적 특성을 보존하기 위해, order indicator라는 매우 가벼운 구성 요소를 추가하여 각 시퀀스의 스캔 방식을 ..

Paper/Point Cloud 2025.06.03

Point-MAE : Masked Autoencoders for Point Cloud Self-supervised Learning

IntroductionPoint-MAE는 기존 MAE 방식의 장점을 point cloud에 적용시킨 방법론으로, BERT 기반 구조의 한계를 보완하고자 제안되었다. 핵심 아이디어로는 MAE의 랜덤 마스킹, 마스크 토큰의 디코더 이동, 그리고 표준 트랜스포머 기반의 비대칭 인코더-디코더 구조이다. 동작 구조는 입력 포인트 클라우드를 불규칙한 패치로 분할한 뒤, 높은 비율로 무작위 마스킹하고, 마스킹되지 않은 패치들만을 인코더가 처리하여 학습한다. 이후 디코더가 마스크 토큰과 인코더 출력을 함께 받아 마스킹된 포인트를 좌표 공간에서 복원한다. 자세한 내용은 아래에서 다루겠다. 끄적끄적3. Point-MAE3.1 Point Cloud Masking and Embedding포인트 클라우드는 이미지처럼 정규적인 ..

Paper/Point Cloud 2025.05.31

Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point Modeling

IntroductionPoint-BERT는 LLM의 BERT 구조에서 아이디어를 얻어, 이를 3D 포인트 클라우드에 적용한 사전학습 방법이다.BERT는 입력 데이터의 일부를 의도적으로 마스킹한 뒤, 그 내용을 복원하는 과정을 통해 학습하는 방식이고, 이러한 방식의 장점은 문맥 정보를 스스로 이해하고 예측하는 능력을 길러낼 수 있다는 점이다.하지만 LLM과 달리, 포인트 클라우드에서는 각 포인트가 단어처럼 뚜렷한 의미를 가지지 않기 때문에, Transformer 기반의 사전학습(BERT 방식)을 그대로 적용하기 어렵다는 문제가 있다. 왜냐하면 문장 속 단어는 문맥적 의미를 지니지만, 포인트 하나는 그 자체로 의미가 거의 없기 때문이다.이를 해결하기 위해 Point-BERT는 포인트 클라우드를 여러 개의 패..

Paper/Point Cloud 2025.05.30

OctFormer: Octree-based Transformers for 3D Point Clouds

IntroductionOctFormer는 Octree 기반의 Transformer 아키텍처를 제안한 모델로, 기존 Transformer의 비효율적인 연산 복잡도(O(N²)) 문제를 해결하고, 대규모 포인트 클라우드에 확장 가능한 구조(스케일 업)를 갖는 것을 목표로 한다.요약하면, 세 가지 핵심 특징이 있다:1. Octree Attention 제안기존 윈도우 어텐션은 정해진 크기의 정육면체 윈도우로 나누기 때문에, 윈도우마다 포함되는 포인트 수가 불균형해 연산 효율이 떨어진다.반면, OctFormer는 Octree 기반으로 포인트를 정렬하고, 각 윈도우에 동일한 수(K)의 포인트만 포함되도록 하여 균일한 연산 단위를 만들고 GPU 병렬 처리에 유리한 구조를 갖춘다.2. Dilated Octree Atte..

Paper/Point Cloud 2025.05.20

Point Transformer V3: Simpler, Faster, Stronger

IntroductionPoint transformer v3는 기존 Transformer 기반 Point Cloud 모델들이 정확도와 효율성 사이의 trade-off 문제를 해결하기 위해, 복잡한 설계 보다는 단순성과 확장성을 우선적으로 한 구조를 제안한다. 저자는 모델의 성능이 복잡한 구조 보다는 스케일에 더 큰 영향을 받는다고 주장한다. 그에 따라 Point Cloud Serialization 방식을 도입하여 효율화 시키고, Serialized Attention을 적용해 receptive field를 확보한다. 그 과정에서 새로운 Position encoding 방식도 적용한다. 자세한 내용은 아래에서 다루겠다.결과적으로 전작에 비해 추론 속도, 메모리 사용량 부분에서 우수한 성능을 달성했다. 기존 ..

Paper/Point Cloud 2025.05.18

Point Transformer V2: Grouped Vector Attention and Partition-based Pooling

Introduction본 논문은 기존 Point Transformer의 한계를 개선하기 위해 제안된 Point Transformer V2(PTv2)에 관한 연구이다.기존 Point Transformer는 네트워크가 깊어지고 채널 수가 증가함에 따라, 가중치 인코딩에 사용되는 MLP 파라미터 수가 급격히 증가하게 되고, 이로 인해 과적합 및 연산량 증가 문제가 발생한다.이를 해결하기 위해 PTv2에서는 그룹 단위의 벡터 어텐션(Grouped Vector Attention, GVA) 구조를 도입하여 파라미터 효율성과 연산 효율을 동시에 확보하였다.또한, 기존의 FPS나 KNN 기반의 풀링 방식은 시간이 오래 걸리고 공간적으로 정렬이 부정확하다는 문제점이 있다. 이를 대신하여, PTv2는 포인트 클라우드를 겹..

Paper/Point Cloud 2025.05.13

Point Transformer

IntroductionPoint Transformer는 자연어나 이미지 처리 분야에서 성공을 거둔 transformer를 point cloud 데이터에 적용한 논문이다.transformer의 핵심 연산인 self-attention이 set 연산자 이기 때문에 transformer 구조는 point cloud 데이터에 적합하다는 의견이다. 즉 입력의 순서나 개수에 영향을 받지 않기 때문에 점들의 집합 형태인 point cloud에 자연스럽게 적용 가능하다고 한다.효과는 결과적으로 기존 기법들을 뛰어 넘는 SOTA 달성. 끄적끄적기본적으로 transformer의 self-attention 수식 구조에 대해서 복습한다.기본적으로 Transformer에서 사용하는 self-attention 연산은 입력 데이터의..

Paper/Point Cloud 2025.05.11

PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space

IntroductionPointnet++은 기본적으로 Pointnet의 단점을 보완하기 위해 나온 방법이다. 기존 Pointnet은 구조 특성상 점들을 독립적으로 처리하기 때문에 local structure을 파악하지 못한다는 단점이 있다. 이를 보완하기 위해 저자는 입력된 데이터를 중첩된 영역으로 나누고, 그 위에 Pointnet을 반복적으로 적용함으로서 local feature를 학습한다. 지금까지 다른 후속 연구들에서도 계속 사용되고 있는 방법론인 만큼 효과는 보장되었다고 볼 수 있겠다. 끄적끄적1) Pointnet은 전제 점 집합을 하나로 요약하지만, Pointnet++은 점들을 hierarchical(계층적)으로 그룹화하고 점점 더 큰 local region을 추상화 함.2) 구조는 여러개..

Paper/Point Cloud 2025.05.10