Lectores como tú ayudan a apoyar a MUO. Cuando realiza una compra utilizando enlaces en nuestro sitio, podemos ganar una comisión de afiliado. Leer más. Whisper de OpenAI es una nueva solución impulsada por IA que puede convertir su voz en texto. Lo mejor de todo es que tiene un costo cero. Sin embargo, hay un problema: es más difícil de instalar y usar que la utilidad promedio de Windows. Especialmente si desea utilizar los núcleos tensoriales de su GPU Nvidia para darle un buen impulso. Sin embargo, no te preocupes. ¡Por eso estamos aquí! Siga leyendo para saber cómo instalarlo y usarlo, pero también, si tiene uno, para que Whisper aproveche su GPU Nvidia. googletag.cmd.push(function() { googletag.display(‘div-gpt-ad-1494450502098-primis’); }); ¿Qué es el susurro de OpenAI? ChatGPT está de moda hoy en día, y ya vimos cómo puedes usar ChatGPT de OpenAI. Y, sin embargo, no es el único proyecto interesante de OpenAI. Con tecnología de aprendizaje profundo y redes neuronales, Whisper es un sistema de procesamiento de lenguaje natural que puede “entender” el habla y transcribirla en texto. Pero también es algo propio, ubicado en un lugar justo entre todas las soluciones similares: Whisper es una solución de IA “entrenada” en lenguaje natural. Por lo tanto, es mejor para comprender el habla humana “normal” que las soluciones más antiguas. Whisper no viene con una interfaz, ni puede grabar audio. Solo puede tomar archivos de audio existentes y archivos de texto de salida. Dado que es bueno para “darle sentido al lenguaje”, Whisper también tiene el superpoder de la traducción automática en un solo paso. Whisper no es un servicio en línea y puede funcionar completamente fuera de línea. Si tiene una GPU Nvidia relativamente moderna (GTX970 o más nueva), Whisper puede ejecutarse en “modo acelerado por hardware” para aumentar su velocidad. No hay requisitos para registrarse, comprar una licencia o comprar una suscripción. googletag.cmd.push(function() { googletag.display(‘adsninja-ad-unit-characterCountRepeatable-636c2cc1cf2a8-REPEAT2’); }); ¿Por qué no son compatibles las GPU de AMD? Para que las GPU sean útiles para algo más que gráficos, tendrían que actuar como procesadores totalmente programables. Es por eso que Nvidia creó CUDA, considerado oficialmente “una plataforma de computación paralela y un modelo de programación”. Para obtener más información sobre CUDA y el hardware relacionado (“núcleos CUDA”), lea nuestro artículo sobre qué son los núcleos CUDA y cómo mejoran los juegos de PC. CUDA es una tecnología patentada de Nvidia, solo compatible con las GPU de Nvidia. Las alternativas más cercanas para el hardware de AMD son OpenCL y Radeon Compute Platform. Para obtener más información sobre cómo se comparan las soluciones de cada empresa, consulte nuestro artículo sobre unidades de cómputo de AMD frente a núcleos CUDA de Nvidia. En comparación con las alternativas, CUDA se considera más maduro, eficaz y fácil de usar. Por lo tanto, la mayoría de los desarrolladores solo se enfocan en CUDA, lo que, a su vez, significa que su software solo aprovecha las características del hardware en las GPU de Nvidia. Y eso incluye Susurro. Cómo descargar e instalar Whisper Lamentablemente, Whisper no es una aplicación independiente que pueda descargar, instalar y ejecutar. Se basa en otro software, que también debe instalarse. googletag.cmd.push(function() { googletag.display(‘adsninja-ad-unit-characterCountRepeatable-636c2cc1cf2a8-REPEAT3’); }); Para Windows, para simplificar esta guía, utilizaremos Chocolatey de forma extensiva para instalar la mayoría de las partes de software necesarias. Consulte nuestra guía sobre la forma más rápida de instalar el software de Windows para obtener más información sobre Chocolatey. Para Linux y Mac, el proceso de instalación (excluyendo la variable de ruta de Windows y los archivos por lotes fáciles de usar que crearemos) debería ser similar. Para instalar y usar Whisper, debe tener Python y su herramienta PIP instalados y agregados a la variable “Ruta” de Windows. Para obtener información al respecto, consulte nuestro artículo sobre cómo instalar Python PIP en Windows, Mac y Linux. Instale FFMPEG a través de Chocolatey con este comando: choco install ffmpeg Además, instale su versión de Python con: pip3 install python-ffmpeg Finalmente, instale Whisper desde su página de Github con: pip3 install git+https://github.com/openai/whisper. git Obtener la versión habilitada para CUDA de Whisper Aunque Whisper no usa GPU Nvidia, el paquete torch en el que se basa ofrece una versión acelerada por CUDA. Usar esto en lugar de la versión “simple” puede ayudar a Whisper a completar sus transcripciones mucho más rápido con la ayuda de su GPU Nvidia. googletag.cmd.push(function() { googletag.display(‘adsninja-ad-unit-characterCountRepeatable-636c2cc1cf2a8-REPEAT4’); }); Para que Whisper use los núcleos CUDA de su GPU Nvidia: Si ya tiene instalada la versión “vainilla” de torch, desinstálela y elimine los restos con: pip3 desinstalar torch Una vez hecho esto, siga con: pip cache purge Install torch’s Versión habilitada para CUDA con: pip3 install torch torchvision torchaudio –extra-index-url https://download.pytorch.org/whl/cu117 Para verificar si Whisper puede usar su GPU Nvidia, use:susurro –help | findstr -i pytorch Debería ver (predeterminado: cuda) en lugar de (predeterminado: cpu). Qué hacer si Torch no se instala Si encuentra el error “no se encontró ninguna versión” al instalar Torch, es posible que deba instalar una versión anterior de Python paralela a la actual. Use este comando para hacer eso: choco install python –version OLDER_VERSION –side-by-side Reemplace “OLDER_VERSION” con una versión, como 3.10. Luego, use la ruta de la versión secundaria para todos los comandos de Whisper “genéricos” (p. ej., “c:\Python310\Scripts\pip.exe” en lugar de solo “pip”). Cómo grabar tu voz Puedes usar cualquier aplicación de grabación de sonido para convertir tu voz en un archivo WAV o MP3. Windows incluye una aplicación de este tipo; para obtener más información al respecto, consulte cómo usar la aplicación Grabadora de voz de Windows 10. Para obtener una opción más completa, pruebe Audacity. Aprende cómo hacerlo con nuestra guía sobre cómo usar Audacity para grabar audio en Windows y Mac. Cómo comenzar a transcribir con Whisper Aunque Whisper no viene con una GUI fácil de usar, su uso es muy simple. Digamos que tenemos el archivo LatestNote.mp3 que contiene voz en griego, en la carpeta c:\MyAudioFiles, y queremos para traducirlo al inglés y transcribirlo a un archivo de texto. Comenzamos ejecutando el símbolo del sistema o PowerShell. Hacemos “cambio de directorio” donde se almacena el archivo de audio con este comando: cd C:\MyAudioFiles Desatamos Whisper sobre el archivo con: susurro –modelo base –idioma gr –tarea traducir LatestNote.mp3 Una vez procesado, el archivo de texto (llamado “LatestNote.mp3.txt”) aparecerá en la misma carpeta. Ábralo en un editor de texto como el Bloc de notas para ver el texto traducido. Usamos un ejemplo de traducción porque la transcripción en inglés es aún más sencilla: solo tiene que “perder” los indicadores “–idioma” y “-tarea”. Por lo tanto, para una transcripción simple, el comando anterior sería: susurro –model base LatestNote.mp3 Se requiere el indicador “modelo” porque Whisper usa una de varias opciones. Vamos a ampliarlos para ayudarlo a elegir el mejor para sus necesidades. ¿Qué modelo elegir? Whisper ofrece varios modelos de lenguaje. Cuanto más grande sea el modelo, más mejorará su precisión, pero también mayores serán sus requisitos de hardware. Ellos son: Diminutos. Base. Pequeño. Medio. Grande. La mayoría de los hablantes nativos de inglés deberían estar de acuerdo con los modelos pequeños o básicos. Los hablantes no nativos de inglés pueden ver mejores resultados con modelos más grandes, como pequeños y medianos. Tenga en cuenta, sin embargo, que los modelos medianos y grandes requieren más de 8 GB de VRAM (es decir, “la memoria de su GPU”). Para seleccionar uno de ellos, especifique el modelo después del interruptor “–model” en el comando: susurro –modelo pequeño/pequeño/mediano/grande [file] Por ejemplo: susurro –model small My_Voice_Note.mp3 Cómo simplificar su transcripción Tener que escribir el comando Susurro completo cada vez que desea transcribir un audio puede volverse aburrido rápidamente. Hagamos un archivo por lotes accesible globalmente para agilizar el proceso. Ejecute el Explorador de Windows y visite su unidad C:. Cree una carpeta para sus scripts y copie su ruta al Portapapeles. En el menú Inicio de Windows, busque “ruta” y seleccione Editar las variables de entorno del sistema. Busque la variable Ruta en Variables de usuario para SU_NOMBRE DE USUARIO. Haga doble clic en él para editarlo. Haga clic en Nuevo y pegue la ruta a su carpeta de scripts. Haga clic en Aceptar para aceptar los cambios. Regrese a su carpeta de scripts en el Explorador de Windows. Cree un nuevo archivo por lotes allí llamado “wht.bat”. “Dentro”, coloque este comando: susurro –model tiny –language en %1 Cree dos archivos por lotes más, “whs” y “whm”. Coloque esto dentro de la primera secuencia de comandos: susurro –modelo pequeño –idioma en %1 Coloque esto dentro de la segunda: susurro –modelo medio –lenguaje en %1 Felicitaciones, ahora tiene tres secuencias de comandos para usar fácilmente el pequeño, pequeño, pequeño, y modelos medianos con sus archivos de audio! Para transcribir cualquier archivo de audio a texto: Ubique el archivo con el Explorador de archivos de Windows. Haga clic con el botón derecho en un lugar vacío y elija Abrir en terminal. Escriba este comando, reemplazando “wht” con “whs” o “whm” para usar los modelos de lenguaje pequeño o mediano: wht YOUR_AUDIO_FILE.mp3 Escribir a la velocidad del sonido con Whisper Incluso los mecanógrafos más rápidos no pueden igualar la velocidad en que hablamos. Sin embargo, hasta hace poco, hablar en lugar de escribir no era óptimo para crear documentos. La mayoría de las soluciones de voz a texto producían resultados mediocres. Puede encontrar algunas soluciones que valga la pena probar, pero son complicadas de usar o costosas. Afortunadamente, Whisper cambió todo eso. Después de los pasos anteriores, debería estar listo para transcribir o traducir su voz con gran precisión, usando solo un comando. Read Now

Diposting pada

Whisper de OpenAI es una nueva solución impulsada por IA que puede convertir su voz en texto. Lo mejor de todo es que tiene un costo cero.


Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *