-
Notifications
You must be signed in to change notification settings - Fork 30k
🌐 [i18n-KO] Translated videomae.md
to Korean
#40064
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
base: main
Are you sure you want to change the base?
Conversation
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
안녕하세요! 번역 해주신 내용에 대해 잘 읽었습니다! 가독성 부분 위주로 코멘트 남겼습니다!
다만, line 32 부분 Kinetics-400
은 원문과 다른 부분이 있어서, 조심스럽지만 이 부분 한번 확인해주시면 감사하겠습니다!
## Scaled Dot Product Attention (SDPA) 사용하기[[using-scaled-dot-product-attention-sdpa]] | ||
|
||
PyTorch에는 `torch.nn.functional`의 일부로 네이티브 scaled dot-product attention (SDPA) 연산자가 포함되어 있습니다. 이 함수에는 | ||
입력 및 사용 중인 하드웨어에 따라 적용할 수 있는 여러 가지 구현이 포함되어 있습니다. |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
입력 및 사용 중인 하드웨어에 따라 적용할 수 있는 여러 가지 구현이 포함되어 있습니다. | |
입력과 사용 중인 하드웨어에 따라 서로 다른 구현을 사용합니다. |
|
||
최상의 속도 향상을 위해 모델을 half-precision(예: `torch.float16` 또는 `torch.bfloat16`)으로 로드하는 것을 권장합니다. | ||
|
||
로컬 벤치마크(A100-40GB, PyTorch 2.3.0, OS Ubuntu 22.04)에서 `float32`와 `MCG-NJU/videomae-base-finetuned-kinetics` 모델을 사용하여 추론 중 다음과 같은 속도 향상을 확인했습니다. |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
로컬 벤치마크(A100-40GB, PyTorch 2.3.0, OS Ubuntu 22.04)에서 `float32`와 `MCG-NJU/videomae-base-finetuned-kinetics` 모델을 사용하여 추론 중 다음과 같은 속도 향상을 확인했습니다. | |
로컬 벤치마크(A100-40GB, PyTorch 2.3.0, Ubuntu 22.04)에서 모델 `MCG-NJU/videomae-base-finetuned-kinetics`을 `float32` 설정으로 실행했을 때, 추론 성능은 다음과 같이 향상되었습니다. |
|
||
논문의 초록은 다음과 같습니다: | ||
|
||
*대규모 데이터셋에서 비디오 트랜스포머를 사전 학습하는 것은 일반적으로 상대적으로 작은 데이터셋에서 최고의 성능을 달성하는 데 필요합니다. 이 논문에서는 비디오 마스크드 오토인코더(VideoMAE)가 자기 지도 비디오 사전 학습(SSVP)을 위한 데이터 효율적인 학습기임을 보여줍니다. 우리는 최근의 ImageMAE에서 영감을 받아 맞춤형 비디오 튜브 마스킹과 재구성을 제안합니다. 이러한 간단한 디자인은 비디오 재구성 중 시간적 상관관계로 인한 정보 누출을 극복하는 데 효과적인 것으로 나타났습니다. SSVP에 대해 세 가지 중요한 발견을 했습니다: (1) 극도로 높은 마스킹 비율(즉, 90%~95%)에서도 VideoMAE는 양호한 성능을 보입니다. 시간적으로 중복된 비디오 콘텐츠는 이미지보다 높은 마스킹 비율을 가능하게 합니다. (2) VideoMAE는 추가 데이터 없이 매우 작은 데이터셋(약 3k-4k 비디오)에서 인상적인 결과를 달성합니다. 이는 부분적으로 고수준 구조 학습을 강제하는 비디오 재구성의 도전적인 작업 때문입니다. (3) VideoMAE는 SSVP에서 데이터 양보다 데이터 품질이 더 중요함을 보여줍니다. 사전 학습과 대상 데이터셋 간의 도메인 이동은 SSVP에서 중요한 문제입니다. 특히, 바닐라 ViT 백본을 사용한 우리의 VideoMAE는 추가 데이터 없이 Kinetics-400에서 83.9%, Something-Something V2에서 75.3%, UCF101에서 90.8%, HMDB51에서 61.1%를 달성할 수 있습니다.* |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
*대규모 데이터셋에서 비디오 트랜스포머를 사전 학습하는 것은 일반적으로 상대적으로 작은 데이터셋에서 최고의 성능을 달성하는 데 필요합니다. 이 논문에서는 비디오 마스크드 오토인코더(VideoMAE)가 자기 지도 비디오 사전 학습(SSVP)을 위한 데이터 효율적인 학습기임을 보여줍니다. 우리는 최근의 ImageMAE에서 영감을 받아 맞춤형 비디오 튜브 마스킹과 재구성을 제안합니다. 이러한 간단한 디자인은 비디오 재구성 중 시간적 상관관계로 인한 정보 누출을 극복하는 데 효과적인 것으로 나타났습니다. SSVP에 대해 세 가지 중요한 발견을 했습니다: (1) 극도로 높은 마스킹 비율(즉, 90%~95%)에서도 VideoMAE는 양호한 성능을 보입니다. 시간적으로 중복된 비디오 콘텐츠는 이미지보다 높은 마스킹 비율을 가능하게 합니다. (2) VideoMAE는 추가 데이터 없이 매우 작은 데이터셋(약 3k-4k 비디오)에서 인상적인 결과를 달성합니다. 이는 부분적으로 고수준 구조 학습을 강제하는 비디오 재구성의 도전적인 작업 때문입니다. (3) VideoMAE는 SSVP에서 데이터 양보다 데이터 품질이 더 중요함을 보여줍니다. 사전 학습과 대상 데이터셋 간의 도메인 이동은 SSVP에서 중요한 문제입니다. 특히, 바닐라 ViT 백본을 사용한 우리의 VideoMAE는 추가 데이터 없이 Kinetics-400에서 83.9%, Something-Something V2에서 75.3%, UCF101에서 90.8%, HMDB51에서 61.1%를 달성할 수 있습니다.* | |
*대규모 데이터셋에서 비디오 트랜스포머를 사전 학습하는 것은 일반적으로 상대적으로 작은 데이터셋에서 최고의 성능을 달성하는 데 필요합니다. 이 논문에서는 비디오 마스크드 오토인코더(VideoMAE)가 자기지도 비디오 사전 학습(SSVP)을 위한 데이터 효율적인 학습기임을 보여줍니다. 우리는 최근의 ImageMAE에서 영감을 받아 맞춤형 비디오 튜브 마스킹과 재구성을 제안합니다. 이러한 간단한 디자인은 비디오 재구성 중 시간적 상관관계로 인한 정보 누출을 극복하는 데 효과적인 것으로 나타났습니다. SSVP에 대해 세 가지 중요한 발견을 했습니다: (1) 극도로 높은 마스킹 비율(즉, 90%~95%)에서도 VideoMAE는 양호한 성능을 보입니다. 시간적으로 중복된 비디오 콘텐츠는 이미지보다 높은 마스킹 비율을 가능하게 합니다. (2) VideoMAE는 추가 데이터 없이 매우 작은 데이터셋(약 3k-4k 비디오)에서 인상적인 결과를 달성합니다. 이는 부분적으로 고수준 구조 학습을 강제하는 비디오 재구성의 도전적인 작업 때문입니다. (3) VideoMAE는 SSVP에서 데이터 양보다 데이터 품질이 더 중요함을 보여줍니다. 사전 학습과 대상 데이터셋 간의 도메인 이동은 SSVP에서 중요한 문제입니다. 특히, 바닐라 ViT 기반을 사용한 우리의 VideoMAE는 추가 데이터 없이 Kinects-400에서 83.9%, Something-Something V2에서 75.3%, UCF101에서 90.8%, HMDB51에서 61.1%를 달성할 수 있습니다.* | |
`` |
|
||
## VideoMAEForPreTraining[[transformers.VideoMAEForPreTraining]] | ||
|
||
`VideoMAEForPreTraining`은 자기 지도 사전 학습을 위한 디코더를 상단에 포함합니다. |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
`VideoMAEForPreTraining`은 자기 지도 사전 학습을 위한 디코더를 상단에 포함합니다. | |
`VideoMAEForPreTraining`은 자기지도 사전 학습을 위한 디코더를 상단에 포함합니다. |
또는 [GPU 추론](https://huggingface.co/docs/transformers/main/en/perf_infer_gpu_one#pytorch-scaled-dot-product-attention) | ||
페이지에서 자세한 정보를 확인하세요. | ||
|
||
구현이 가능한 경우 SDPA는 기본적으로 `torch>=2.1.1`에서 사용되지만, |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
구현이 가능한 경우 SDPA는 기본적으로 `torch>=2.1.1`에서 사용되지만, | |
사용 가능한 구현이 있을 경우 SDPA는 `torch>=2.1.1`에서 기본적으로 활성화되지만, |
|
||
## 개요[[overview]] | ||
|
||
VideoMAE 모델은 Zhan Tong, Yibing Song, Jue Wang, Limin Wang이 작성한 [VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training](https://huggingface.co/papers/2203.12602) 논문에서 제안되었습니다. |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
VideoMAE 모델은 Zhan Tong, Yibing Song, Jue Wang, Limin Wang이 작성한 [VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training](https://huggingface.co/papers/2203.12602) 논문에서 제안되었습니다. | |
VideoMAE 모델은 Zhan Tong, Yibing Song, Jue Wang, Limin Wang의 논문 VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training](https://huggingface.co/papers/2203.12602)에서 제안되었습니다. |
What does this PR do?
Translated the
videomae.md
file of the documentation to Korean.Thank you in advance for your review.
Part of #20179
Before reviewing
[[lowercased-header]]
)Who can review? (Initial)
May you please review this PR?
@yijun-lee, @songi104, @chhaewxn, @AhnJoonSung, @jihyun-0611, @seopp, @pyapyapya
Before submitting
Pull Request section?
to it if that's the case.
documentation guidelines, and
here are tips on formatting docstrings.
Who can review? (Final)