Introduction
TPM(Triple Point Masking)은 기존의 self-supervised leanring 기법에 간단히 추가 가능한 확장 모듈로, 마스킹 난이도에서의 학습을 시도한다. 기존의 마스킹 전략들은 60% 이상이라는 높은 비율로 적용하였는데, 저자는 여기서 "다양한 마스킹 비율을 학습하면 더 잘 학습할 수 있지않을까?"라는 질문을 던지고 이 방법을 제안한다.
아이디어는 간단하다. 말 그대로 3가지 마스킹 수준을 적용하고, SVM 기반 가중치를 선택하여 fine-tuning에 사용한다고 한다.
결론적으로 TPM에서 제안하는 것은 새로운 마스킹 구조, SVM 기반 가중치 선택 전략인 거 같다.
자세한 내용은 아래에서 다루겠다.
끄적끄적
![]() ![]() |
제안하는 방법에 대해 요약하면 다음과 같다. 1. Problem Statement(문제 정의) 2. TPM 과 SVM 기반 가중치 선택 방법을 제안3. 제안하는 TPM을 기존 자가지도 학습 기법에 통합하는 방법 |
![]() |
1. Problem Statement 복원 기반 자가지도 학습은 일반적으로 입력 데이터의 큰 부분을 마스킹하고, 오토인코더를 통해 일부 입력으로 전체 데이터를 복원하는 구조를 갖는다. 3d point cloud이 경우, 오토인코더는 인코더를 통해 특징점 추출, 디코더를 통해 복원하는 구조를 갖는다. 인코더는 포인트 클라우드를 c차원 특징 공간으로 변환하고, 디코더는 변환된 특징 공간의 정보를 다시 3d좌표로 복원한다. 이때 파라미터로 입력과 복원 결과 간의 거리를 최소화(ex_Chamfer 거)하는 방식으로 학습한다. |
![]() ![]() ![]() |
2. Triple Point Masking 포인트 클라우드의 자가지도 학습은 여전히 데이터 밀도 불균형, 샘플링 불안정성, 약한 감독 신호 등의 영향을 받는다고 한다. 제안하는 TPM에서는 하나의 네트워크에서 서로 다른 조건 하에 적응적인 표현을 학습한다고 한다. 핵심은 다양한 마스킹 비율에 맞춰 확장된 세 개의 오토인코더를 사용하는 것이다. 구체적으로는 m0, m1, m2로 구성되어 있으며, 비율은 m0 > m1 > m2 형태로 서로 다른 마스킹 비율로 정의되지만, 궁극적으로는 동일한 원본 입력 포인트 클라우드를 정답으로 삼아 학습한다. 이는 아무리 많은 부분이 마스킹되더라도 최종 목표는 원본 형상을 완벽하게 복원하는 것이기 때문이다. 각기 다른 마스크를 통해 생성된 복원 결과는 당연히 상이하며, 이에 따라 각 오토인코더는 고유한 최적 손실 값을 갖게 된다. 이러한 난이도 차이를 학습에 반영하기 위해, 마스크 비율이 높을수록 해당 오토인코더의 손실에 더 큰 가중치()를 부여한다. |
![]() |
3. SVM-기반 가중치 선택 제안하는 TPM(Triple Mask) 방식은 세 가지 다른 마스크()를 함께 사용하여 사전학습을 진행하며, 이 과정에서 각 에포크마다 다양한 가중치()가 생성한다. 기존 연구에서는 손실 값을 기준으로 최적 가중치를 선택하는 것이 일반적인 전략이었지만, 본 논문의 설계 목적에는 부합하지 않다. TPM 방식은 세 가지 마스크로부터 손실을 생성하며, 각 마스크마다 다른 손실 가중치를 부여하기 때문에, 단순히 단일 마스크의 손실 값만으로는 전체적인 가중치 모델의 성능을 제대로 평가하기 어렵다. 이에, 선형 SVM을 활용하여 사전학습된 가중치를 직접 평가하는 방법을 제안 특히, 가장 어려운 마스킹() 조건에서 생성된 가중치들만을 대상으로 평가를 진행하고, SVM의 선형 분류 정확도가 가장 높은 가중치()를 최적의 가중치로 선택 |
![]() ![]() ![]() |
4. 통합 베이스라인 (Integrated Baselines) TPM은 기존의 자가지도 학습 방식에 통합되어 구현된다. 기존 모델의 파라미터는 수정하지 않고 Point-MAE, Point-M2AE, Inter-MAE, PointGPT-S, PointGPT-B 등에 통합되어 구현 마스킹 비율을 다음 table처럼 구성 |
![]() ![]() |
classification |
![]() |
![]() segmentation |
마무리 개인생각 1. 다른 논문들에서 대부분 masking 비율을 높게 설정한다는 것은 인지하고 있었는데, 이렇게 비율을 나눠서 적용할 생각은 못했던 거 같다. 2. 논문에서는 연산량은 추가적으로 없다고 했는데 과연 정말 그런지 궁금하다. |