IntroductionMamba는 기존 Transformer 기반 시퀀스 모델의 한계, 특히 긴 시퀀스에 대한 비효율적인 계산 복잡도와 문맥 기반 선택 추론 능력 부족를 해결하기 위해 제안된 새로운 선택적 상태공간 모델(Selective State Space Model, SSM)이다. 기존 SSM 방식의 단점으로 입력에 따라 유동적으로 정보를 선택하거나 무시하지 못하는 문제가 있었는데 mamba는 이를 해결하기 위해 파라미터를 입력에 따라 동적으로 생성하는 selective 메커니즘을 도입하고, 기존의 시간 불변 LTI 구조를 가변적 구조로 확장한다. 다만 이 선택성으로 인해 convolution 연산을 사용할 수 없어 계산 효율성이 떨어질 우려가 있었지만, Mamba는 병렬 scan 알고리즘, 커널 퓨..