오늘날 사용 가능한 가장 효율적인 오디오 받아쓰기 기술을 경험해 보세요. NVIDIA의 고급 AI 음성 인식 모델을 사용하여 전례 없는 속도와 정확성으로 음성을 텍스트로 변환하세요.
직관적인 Parakeet TDT 플랫폼은 음성을 텍스트로 변환하는 과정을 놀랍도록 간단하게 만듭니다. 업계 최고의 속도와 정확성으로 오디오를 받아쓰려면 다음 단계를 따르세요.
일반적인 형식의 오디오 파일을 업로드하세요. 시스템은 짧은 클립부터 한 시간 길이의 녹음까지 모든 것을 동일한 효율성으로 처리합니다.
타임스탬프 정밀도, 구두점 기본 설정, 출력 형식 옵션 등 받아쓰기 매개변수를 선택하세요 (고급 통합 기능에서 사용 가능).
전례 없는 속도로 오디오를 처리하고 데모 또는 통합 솔루션에서 즉시 사용할 수 있도록 완벽하게 형식화된 텍스트 스크립트를 다운로드하세요.
최소한의 컴퓨팅 리소스를 필요로 하면서 놀라운 속도와 정밀도로 오디오를 받아쓰는 강력한 음성 인식 기술을 알아보세요.
효율적인 0.6B 파라미터 모델 아키텍처로 60분 분량의 오디오를 단 1초 만에 받아씁니다.
최첨단 인식 기능으로 최대 24분의 긴 오디오 파일에서도 높은 정확도(예: 벤치마크에서 ~6% WER)를 달성합니다.
추가 후처리 단계 없이 적절한 구두점과 대문자가 포함된 텍스트를 생성합니다.
오디오와 받아쓴 텍스트 간의 완벽한 동기화를 위해 정확한 단어 수준 타임스탬프를 받습니다.
단 0.6B 파라미터로 효율적으로 배포하여 유사 모델보다 훨씬 적은 컴퓨팅 리소스를 필요로 합니다.
영어에 대한 업계 표준 OpenASR 벤치마크에서 최고 순위의 음성 인식 모델을 활용하세요.
Parakeet TDT의 혁신적인 음성 인식 기능이 받아쓰기 워크플로우를 어떻게 변화시키고 다양한 산업 분야에서 새로운 가능성을 열어주고 있는지 확인해 보세요.
팟캐스트 프로듀서
"Parakeet TDT는 저희 오디오 받아쓰기 과정을 혁신했습니다. 60분짜리 에피소드를 단 몇 초 만에 처리할 수 있어 즉시 정확한 스크립트를 만들 수 있습니다. 인식 품질은 놀랍습니다 — 여러 화자와 배경 소음이 있어도 말이죠. 자동 구두점과 대문자 표기는 몇 시간의 수동 편집 작업을 없애주었습니다."
컨퍼런스 기획자
"몇 시간 분량의 녹화된 프레젠테이션을 다루는 사람으로서, Parakeet TDT 0.6B의 음성 인식 접근 방식은 혁신적입니다. 정확한 타임스탬프와 뛰어난 정확성은 이전에는 볼 수 없었던 것입니다. 일관된 품질로 전체 컨퍼런스를 받아쓸 수 있어 완전히 새로운 접근성 옵션을 열어주었습니다."
콘텐츠 크리에이터
"Parakeet TDT 0.6B의 인식 기능은 제 워크플로우를 변화시켰습니다. 긴 인터뷰를 업로드하고 거의 즉시 완벽하게 형식화된 스크립트를 받을 수 있습니다. 경량 모델은 표준 하드웨어에서도 효율적으로 실행됩니다. 게다가 높은 정확도 덕분에 게시 전 편집이 최소한으로 필요합니다."
이러닝 개발자
"Parakeet TDT의 받아쓰기 일관성은 업계 최고입니다. 여러 화자에 걸친 출력 품질은 놀라운 정확성과 세부 사항을 보여줍니다. 긴 교육 콘텐츠를 처리할 수 있는 능력 덕분에 저희 코스 개발 과정이 크게 간소화되었습니다. 저희 교육 콘텐츠 제작에 필수적인 도구가 되었습니다."
연구 책임자
"Parakeet TDT의 속도와 품질은 놀랍습니다. 연구 프로젝트를 위해 여러 인터뷰를 신속하게 받아쓸 수 있으며, 내내 일관된 정확성을 유지합니다. 기술 용어를 자연스럽게 처리하여 저희 작업을 훨씬 쉽게 만듭니다. 질적 연구 데이터 처리 방식에 대한 저희의 접근 방식을 완전히 바꾸어 놓았습니다."
미디어 접근성 전문가
"Parakeet TDT 음성 인식 기술은 저희 자막 제작 과정을 혁신했습니다. 정확한 타임스탬프가 포함된 정확한 스크립트를 생성할 수 있는 능력은 저희에게 전례 없는 효율성을 제공합니다. 즉각적인 처리와 뛰어난 정확성은 저희 미디어 접근성 워크플로우에 필수적인 부분이 되었습니다."
Parakeet TDT 음성 인식 기술에 대한 일반적인 질문에 대한 답변을 찾아보세요. 도움이 더 필요하신가요? [email protected]으로 지원팀에 문의하세요.
인터페이스를 통해 오디오 파일을 업로드하기만 하면 정확하게 받아쓴 텍스트로 변환됩니다. 시스템은 놀라운 속도로 오디오를 처리하고 스크립트를 생성합니다. 타임스탬프 정밀도, 구두점 기본 설정, 출력 형식과 같은 매개변수를 조정할 수 있습니다(고급 통합 기능에서). 초고속 처리 덕분에 거의 즉시 결과를 받을 수 있습니다.
Parakeet TDT 0.6B는 적절한 하드웨어에서 약 60분 분량의 오디오를 단 1초 만에 처리하는 전례 없는 속도로 오디오를 처리합니다. 긴 녹음도 거의 즉시 받아써집니다. 받아쓰기가 완료되면 정확한 타임스탬프가 포함된 고품질 텍스트 출력을 보고, 다운로드하거나 공유할 수 있습니다.
저희는 귀하의 개인 정보를 중요하게 생각합니다. 내장된 Hugging Face 데모의 경우 해당 개인 정보 보호 정책을 참조하십시오. NVIDIA NeMo 또는 기타 자체 호스팅 솔루션을 통해 모델을 사용하는 경우 데이터 처리는 귀하의 통제 하에 있습니다. 이 사이트에서 직접 제공되는 서비스(향후 해당되는 경우)의 경우 모든 오디오 입력은 전송 및 처리 중에 암호화됩니다. 명시적으로 저장하지 않는 한 현재 세션을 넘어 오디오 파일이나 생성된 스크립트를 저장하지 않습니다. 저희 시스템은 귀하의 데이터를 보호하기 위해 업계 표준 보안 프로토콜을 준수합니다.
Parakeet TDT는 MP3, WAV, M4A, FLAC, OGG 등 일반적인 오디오 형식을 지원합니다. 시스템은 다양한 오디오 품질을 처리할 수 있지만 배경 소음이 최소화된 깨끗한 녹음이 가장 정확한 결과를 제공합니다. 이 모델은 다양한 화자의 자연스러운 대화 패턴을 처리하도록 훈련되었습니다.
예, Parakeet TDT 모델은 일반적으로 CC-BY-4.0과 같은 허용 라이선스로 출시되어 모델 출력의 상업적 사용을 허용합니다. 귀하는 생성된 콘텐츠의 완전한 소유권을 보유하며 추가 라이선스 비용 없이 제품, 서비스, 문서 또는 기타 상업적 응용 프로그램에 사용할 수 있습니다.
Parakeet TDT 0.6B는 표준 벤치마크(예: Hugging Face Open ASR Leaderboard에서 단어 오류율 ~6.05%)에서 우수한 정확도를 달성합니다. 성능은 오디오 품질, 화자 명료도, 배경 소음에 따라 약간 다를 수 있습니다. 이 모델은 자연스러운 대화 음성 인식에 뛰어나며 적절한 구두점과 대문자를 자동으로 추가합니다.
Parakeet-TDT-0.6B-v2 모델은 6억 개의 매개변수를 특징으로 합니다. FastConformer 인코더와 Token-and-Duration Transducer(TDT) 디코더를 결합합니다. 이 아키텍처는 NVIDIA GPU(예: A100, H100, T4, V100)에 최적화되어 있으며 배치 크기 128로 약 1초 만에 1시간 분량의 오디오를 받아쓸 수 있어 약 3386의 실시간 계수(RTFx)를 달성합니다.
Granary 데이터셋(약 120,000시간의 영어 오디오)과 같은 다양하고 대규모 데이터셋에서 훈련되어 다양한 억양과 소음 조건에서 견고성을 보장합니다. 이 모델은 구두점, 대문자 표기, 상세한 단어 수준 타임스탬핑을 지원합니다.
GPU에 최적화되어 있지만 성능은 달라질 수 있지만 더 광범위한 배포 시나리오를 위해 2GB만큼 적은 RAM이 있는 시스템에도 로드할 수 있습니다.