Trascrizione e Sintesi Vocale su Raspberry Pi

Uno degli sviluppi più utili derivati dal machine learning è la capacità di eseguire strumenti offline che possono fornire la trascrizione di testo in modo accurato da audio parlato e che possono leggere testi per te. Questi strumenti sono particolarmente utili in differenti .

In questo articolo, ti guiderò attraverso l’installazione di Speech Note, un potente strumento neurale per la sintesi vocale (TTS), la trascrizione vocale (STT) e la traduzione automatica, tutto eseguito localmente per garantire la tua privacy. Inoltre, configureremo il lettore di schermo Orca con Piper TTS per offrire uno strumento di accessibilità più moderno.

Cos’è Speech Note e come si installa?

Speech Note è un’applicazione che fornisce funzionalità di trascrizione e sintesi vocale avanzate. Ecco come installarla sul tuo Raspberry Pi:

  1. Installa Flatpak:
  2. Riavvia il Raspberry Pi:
  3. Installa Speech Note tramite terminale:

    Conferma con “sì” tutte le richieste durante l’installazione.

  4. Configura le Lingue in Speech Note:
    1. Apri Speech Note dal menu “Sound & Video”.
    2. Vai al menu “Languages”, cerca “English” (e qualsiasi altra lingua necessaria) e seleziona i modelli che desideri utilizzare.

Come configurare Speech Note per la trascrizione e la sintesi vocale?

Ci sono diversi modi di configurare l’applicativo:

  1. Modelli di Trascrizione (Speech To Text):
    • Utilizza OpenAI’s Whisper, preferibilmente il modello “English Whisper Small”.
  2. Modelli di Sintesi Vocale (Text To Speech):
    • Consigliamo Piper Alba Medium, noto per la sua qualità sonora.
  3. Opzioni di Traduzione:
    • Disponibili solo per alcune coppie di lingue. Puoi provare in base alle tue esigenze di traduzione.
  4. Esempio di Trascrizione:
    • Scarica un file di test, ad esempio un audio di quattro secondi.
    • In Speech Note, vai su File > Transcribe a file e apri il file scaricato. La trascrizione inizierà automaticamente.

trascrizione

Come integrare Piper con Orca per migliorare l’accessibilità?

Piper è un avanzamento significativo rispetto alle voci sintetizzate di eSpeak, offrendo una qualità vocale più naturale.

  1. Installa Orca:

  2. Configura Piper:

    1. Clona il repository di Piper tools:
    2. Inserisci la tua password per installare le dipendenze.
  3. Configura Orca:
    1. Avvia Orca settings:
    2. Nella scheda Voice, seleziona ‘piper-generic default voice’.
    3. Deseleziona ‘Break speech into chunks between pauses’ e clicca su Apply. Puoi anche regolare la velocità di lettura.

Quali sono i vantaggi dell’utilizzo di Piper rispetto ad altri sintetizzatori vocali?

I vantaggi sono:

  • Qualità sonora migliorata: Piper offre una voce più naturale e piacevole.
  • Migliore esperienza utente: Se usi principalmente una GUI, Piper può rendere l’interazione più gradevole.
  • Compatibilità: Funziona con entrambi i sistemi Xorg e Wayland, anche se con prestazioni leggermente migliori su Xorg.

L’installazione e la configurazione di Speech Note e Piper sul tuo Raspberry Pi possono migliorare significativamente le capacità di trascrizione e sintesi vocale del dispositivo. Seguendo questi passaggi, potrai godere di strumenti avanzati mantenendo la tua privacy e migliorando l’accessibilità del sistema.

Iscriviti ai nostri gruppi Telegram

Link utili

Seguici per non perdere le prossime novità!

Simone Candido è un ragazzo appassionato del mondo tech nella sua totalità. Simone ama immedesimarsi in nuove esperienze, la sua filosofia si basa sulla irrefrenabile voglia di ampliare a 360° le sue conoscenze abbracciando tutti i campi del sapere, in quanto ritiene che il sapere umano sia il connubio perfetto tra cultura umanistica e scientifica.

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.