AF Speech: Offline Speech-to-Text AI Desktop App
Voice-to-text basato su GPU, completamente locale, senza costi ricorrenti e senza internet.

Dettagli
AI Software Developer
Industria:
Panoramica
AF Speech è un’applicazione desktop per Windows progettata per eliminare completamente la digitazione manuale, permettendo di scrivere in qualsiasi software semplicemente parlando.
Il progetto nasce da un problema concreto: la maggior parte dei software di dettatura oggi disponibili richiede abbonamenti mensili, connessione internet costante e l’invio dell’audio verso server esterni, con conseguenti limiti di costo, latenza e privacy.
AF Speech ribalta totalmente questo paradigma sfruttando la potenza del computer locale, in particolare CPU e GPU NVIDIA, per eseguire l’intelligenza artificiale interamente offline.
AF Speech è un sistema di dettatura vocale intelligente che converte la voce in testo utilizzando modelli AI avanzati eseguiti direttamente sul PC dell’utente.
L’utente può dettare contenuti in qualsiasi applicazione — browser, editor, CRM, chat, documenti — tramite una hotkey globale, senza interrompere il flusso di lavoro.
L’applicazione gira in background nel system tray di Windows, con overlay visivo durante l’ascolto e gestione intelligente delle risorse GPU.
Perché questo progetto ha un valore reale
💰 Nessun costo ricorrente
A differenza delle soluzioni cloud:
nessun costo a consumo
nessun abbonamento
nessuna API esterna
Una volta installata, l’app sfrutta l’hardware già presente nel PC, trasformando la GPU in un vero acceleratore AI personale.
🔒 Privacy totale (100% offline)
Tutta l’elaborazione avviene localmente:
nessun audio inviato online
nessun server esterno
nessun logging remoto
I dati vocali rimangono esclusivamente sul computer dell’utente, rendendo AF Speech ideale anche per contesti professionali e sensibili.
⚡ Performance elevate
Grazie all’accelerazione CUDA:
trascrizioni rapide anche con modelli AI avanzati
latenza minima
utilizzo ottimizzato della VRAM
L’esperienza rimane fluida anche utilizzando modelli di grandi dimensioni come Whisper Large-v3.
Tools Usati / Stack
Area | Tecnologia |
AI Speech Engine | Faster-Whisper (CTranslate2) |
Modello | Whisper Large-v3 |
Accelerazione | NVIDIA CUDA / cuBLAS / cuDNN |
Audio | SoundDevice + PyAudio |
Interfaccia | CustomTkinter |
System Tray | pystray |
Hotkey globali | keyboard |
Packaging | PyInstaller (EXE standalone) |
Key Features
🎙️ Dettatura vocale intelligente
attivazione tramite hotkey globale
rilevamento automatico del parlato
inserimento del testo nell’applicazione attiva
🤖 AI completamente locale
modello Whisper Large-v3 eseguito offline
supporto multilingua
alta precisione anche su frasi complesse
🎮 Sistema di protezione VRAM
Funzionalità pensata per utenti avanzati e gamer:
monitoraggio utilizzo memoria GPU
sospensione automatica oltre soglia
pulsante “Libera VRAM” dal system tray
Questo permette all’app di convivere senza problemi con videogiochi o software pesanti.
🖥️ Integrazione nativa Windows
avvio automatico con Windows
esecuzione silenziosa in background
menu rapido dal tray
overlay visivo durante la registrazione
Interfaccia & User Experience
L’interfaccia è progettata in dark mode moderno, coerente con l’ambiente Windows e con il branding AF Automations.
Include:
selezione del modello AI
selezione del microfono
toggle avvio automatico
protezione VRAM
area testo
overlay animato durante l’ascolto
L’obiettivo è offrire potenza AI avanzata con un’esperienza semplice e immediata.
Metriche Tecniche
Metrica | Valore |
Tempo medio trascrizione | < 2 secondi |
Accuratezza italiano | ~98% |
Utilizzo VRAM | 3–4 GB (large-v3) |
Funzionamento offline | 100% |
Sfide Tecniche Affrontate
gestione corretta dei dispositivi audio hot-plug
caricamento asincrono del modello AI
compatibilità Unicode (accenti e simboli)
integrazione hotkey globali Windows
stabilità GPU tramite protezione VRAM
Risultato
AF Speech dimostra come sia possibile creare:
un’applicazione AI desktop completamente locale
senza costi ricorrenti
con performance reali
massima privacy
integrazione profonda con il sistema operativo
Il progetto rappresenta un esempio concreto di AI applicata in modo pratico, sfruttando hardware consumer per generare valore reale.




