The Right Tool for the Job: Matching Model and Instance Complexities

[접기]

목차

  • 1. Easy Instance v.s. Hard Instance
  • 2. Model Architecture
  • 3. Results


The Right Tool for the Job: Matching Model and Instance Complexities
- Preprint 2020. 04. -
https://arxiv.org/pdf/2004.07453.pdf

1. Easy Instance v.s. Hard Instance


우리의 목표가 영화 감상평이 주어지면 별점(0~5)을 맞추는 것이라고 해봅시다. 그리고 주어진 문장들 중 하나가 다음과 같다고 해봅시다.
대체 누가 이 만화를 재미없다고 한거야?
- user1234 ☆★★★★

재미없다는 부정적인 표현이 포함되어있기 때문에, 이를 긍정적으로 예측하려면 복잡한 모델이 필요할 것입니다. 반면, 다음과 같은 경우도 있을 수 있습니다.

내가 본 만화중에 제일 재밌었다
- user5678 ★★★★★

이번에는 재밌었다는 단어를 통해 쉽게 긍정적인 표현임을 알 수 있으므로, 단순한 모델로도 맞출 수 있을 것입니다.

즉, 어떤 인스턴스는 단순한 모델로도 충분한 반면 어떤 인스턴스는 복잡한 모델이 필요한데, 실제로 그렇게 하면 어떨까?에 대한 실험이 논문에서 이루어집니다. 이렇게해서 얻고자하는 이득은 "정확도 향상을 위해서 복잡한 모델을 만들더라도 쉬운 인스턴스는 단순한 모델로 해결하면 되기 때문에 시간 절약을 할 수 있다."입니다. 즉, 모델의 복잡도와 시간 사이의 Trade off를 어느정도 해결하겠다는 것입니다.

2. Model Architecture


모델 구조
24개의 레이어로 구성된 BERT 모델을 기준으로 삼고, 1, 5, 13, 24번째 레이어 옆에 선형 분류기를 붙입니다. 각 분류기는 1번부터 현재 레이어까지 생성한 Representation들을 가중합하여 Confidence를 예측합니다. 이 Confidence가 미리 설정한 Threshold를 넘으면 Early exit을 하여 바로 답을 내고, 그렇지 않으면 다음 레이어로 넘어가도록 합니다.

3. Results


가로축:인퍼런스 시간 / 세로축: 예측 정확도
0.5%의 성능 하락을 감안한다면 인퍼런스 시간을 IMDB 데이터에서 40%, AG 데이터에서 80% 단축시켰습니다. 그리고 Threshold를 사용하는 사람이 적절이 조절할 수 있기 때문에, 어느정도의 성능 하락과 어느정도의 시간 이득을 취할 것인지를 필요에 따라 조절할 수 있다는 것도 장점입니다. 이런 방향으로 연구가 이어진다면 머지않아 실제 서비스용으로 딥러닝 모델을 도입하는 데 망설임이 적어질지도 모르겠습니다.

그리고 추가로 Oracle이 몇점일 지에 대해서도 값을 제시하였는데, 이는 각 인스턴스가 최대한 빨리 제대로 예측할 수 있는 분류기에서 분류될 때의 결과를 의미합니다. 즉, 최선의 경우인데, 그래프에서는 주황색 점으로 나타내었습니다. 눈여겨볼 점은 오히려 성능이 향상된다는 것인데, 좋게 생각하면 분류기를 잘 달아서 기존보다 더 높은 성능에 도달할 수 있겠지만, 다른 관점에서 보면, 당연히 각 인스턴스가 자신을 제대로 판단하는 분류기에서 분류된다는 것이므로, 모델에 붙인 4개의 분류기중에 하나라도 제대로 분류하는 분류기가 있다면 올바른 답을 냈다고 가정하는 것이니 정확도가 높게 나오는 건 당연해보이기도 합니다. 실제로 저렇게 정확한 분류기를 만드려면 분류기 자체가 BERT 이상의 복잡도를 요구할 수도 있습니다. 그렇기에 저자들 또한 Oracle의 성능 향상보다는 0.5%의 성능 차이만으로 많은 시간을 줄일 수 있다는 점을 중점적으로 이야기한 것 같습니다.