Point Cloud 6

Point-MAE : Masked Autoencoders for Point Cloud Self-supervised Learning

IntroductionPoint-MAE는 기존 MAE 방식의 장점을 point cloud에 적용시킨 방법론으로, BERT 기반 구조의 한계를 보완하고자 제안되었다. 핵심 아이디어로는 MAE의 랜덤 마스킹, 마스크 토큰의 디코더 이동, 그리고 표준 트랜스포머 기반의 비대칭 인코더-디코더 구조이다. 동작 구조는 입력 포인트 클라우드를 불규칙한 패치로 분할한 뒤, 높은 비율로 무작위 마스킹하고, 마스킹되지 않은 패치들만을 인코더가 처리하여 학습한다. 이후 디코더가 마스크 토큰과 인코더 출력을 함께 받아 마스킹된 포인트를 좌표 공간에서 복원한다. 자세한 내용은 아래에서 다루겠다. 끄적끄적3. Point-MAE3.1 Point Cloud Masking and Embedding포인트 클라우드는 이미지처럼 정규적인 ..

Paper/Point Cloud 2025.05.31

Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point Modeling

IntroductionPoint-BERT는 LLM의 BERT 구조에서 아이디어를 얻어, 이를 3D 포인트 클라우드에 적용한 사전학습 방법이다.BERT는 입력 데이터의 일부를 의도적으로 마스킹한 뒤, 그 내용을 복원하는 과정을 통해 학습하는 방식이고, 이러한 방식의 장점은 문맥 정보를 스스로 이해하고 예측하는 능력을 길러낼 수 있다는 점이다.하지만 LLM과 달리, 포인트 클라우드에서는 각 포인트가 단어처럼 뚜렷한 의미를 가지지 않기 때문에, Transformer 기반의 사전학습(BERT 방식)을 그대로 적용하기 어렵다는 문제가 있다. 왜냐하면 문장 속 단어는 문맥적 의미를 지니지만, 포인트 하나는 그 자체로 의미가 거의 없기 때문이다.이를 해결하기 위해 Point-BERT는 포인트 클라우드를 여러 개의 패..

Paper/Point Cloud 2025.05.30

OctFormer: Octree-based Transformers for 3D Point Clouds

IntroductionOctFormer는 Octree 기반의 Transformer 아키텍처를 제안한 모델로, 기존 Transformer의 비효율적인 연산 복잡도(O(N²)) 문제를 해결하고, 대규모 포인트 클라우드에 확장 가능한 구조(스케일 업)를 갖는 것을 목표로 한다.요약하면, 세 가지 핵심 특징이 있다:1. Octree Attention 제안기존 윈도우 어텐션은 정해진 크기의 정육면체 윈도우로 나누기 때문에, 윈도우마다 포함되는 포인트 수가 불균형해 연산 효율이 떨어진다.반면, OctFormer는 Octree 기반으로 포인트를 정렬하고, 각 윈도우에 동일한 수(K)의 포인트만 포함되도록 하여 균일한 연산 단위를 만들고 GPU 병렬 처리에 유리한 구조를 갖춘다.2. Dilated Octree Atte..

Paper/Point Cloud 2025.05.20

Point Transformer V3: Simpler, Faster, Stronger

IntroductionPoint transformer v3는 기존 Transformer 기반 Point Cloud 모델들이 정확도와 효율성 사이의 trade-off 문제를 해결하기 위해, 복잡한 설계 보다는 단순성과 확장성을 우선적으로 한 구조를 제안한다. 저자는 모델의 성능이 복잡한 구조 보다는 스케일에 더 큰 영향을 받는다고 주장한다. 그에 따라 Point Cloud Serialization 방식을 도입하여 효율화 시키고, Serialized Attention을 적용해 receptive field를 확보한다. 그 과정에서 새로운 Position encoding 방식도 적용한다. 자세한 내용은 아래에서 다루겠다.결과적으로 전작에 비해 추론 속도, 메모리 사용량 부분에서 우수한 성능을 달성했다. 기존 ..

Paper/Point Cloud 2025.05.18

Point Transformer

IntroductionPoint Transformer는 자연어나 이미지 처리 분야에서 성공을 거둔 transformer를 point cloud 데이터에 적용한 논문이다.transformer의 핵심 연산인 self-attention이 set 연산자 이기 때문에 transformer 구조는 point cloud 데이터에 적합하다는 의견이다. 즉 입력의 순서나 개수에 영향을 받지 않기 때문에 점들의 집합 형태인 point cloud에 자연스럽게 적용 가능하다고 한다.효과는 결과적으로 기존 기법들을 뛰어 넘는 SOTA 달성. 끄적끄적기본적으로 transformer의 self-attention 수식 구조에 대해서 복습한다.기본적으로 Transformer에서 사용하는 self-attention 연산은 입력 데이터의..

Paper/Point Cloud 2025.05.11

PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation

Introduction3차원 포인트 클라우드는 자율주행, 로봇 비전, 증강현실 등 다양한 분야에서 중요한 데이터 형태로 자리잡고 있다. 하지만 기존의 3D 인식 모델들은 voxelization이나 2D projection을 통해 정형화된 입력으로 변환한 후 CNN을 적용하는 방식을 채택해왔다. 이러한 방식은 정보 손실과 연산 효율 저하를 유발하며, point cloud의 본질적인 특성(비정형성, 순서 무관성, 회전 불변성) 을 충분히 활용하지 못한다. 이에 본 논문의 저자는 point cloud를 변환 없이 직접 처리할 수 있는 새로운 신경망 구조인 PointNet을 제안한다. PointNet은 각 점에 독립적으로 MLP를 적용한 후, 전체 점들에 대해 대칭 함수인 max pooling을 사용하여 글로벌..

Paper/Point Cloud 2025.05.09