Italiano
Italiano

AF Speech: Offline Speech-to-Text AI Desktop App

Voice-to-text basato su GPU, completamente locale, senza costi ricorrenti e senza internet.

Dettagli

Ruolo:

Ruolo:

AI Software Developer

Servizio:

Servizio:

Industria:

Panoramica

AF Speech è un’applicazione desktop per Windows progettata per eliminare completamente la digitazione manuale, permettendo di scrivere in qualsiasi software semplicemente parlando.

Il progetto nasce da un problema concreto: la maggior parte dei software di dettatura oggi disponibili richiede abbonamenti mensili, connessione internet costante e l’invio dell’audio verso server esterni, con conseguenti limiti di costo, latenza e privacy.

AF Speech ribalta totalmente questo paradigma sfruttando la potenza del computer locale, in particolare CPU e GPU NVIDIA, per eseguire l’intelligenza artificiale interamente offline.

AF Speech è un sistema di dettatura vocale intelligente che converte la voce in testo utilizzando modelli AI avanzati eseguiti direttamente sul PC dell’utente.

L’utente può dettare contenuti in qualsiasi applicazione — browser, editor, CRM, chat, documenti — tramite una hotkey globale, senza interrompere il flusso di lavoro.

L’applicazione gira in background nel system tray di Windows, con overlay visivo durante l’ascolto e gestione intelligente delle risorse GPU.


Perché questo progetto ha un valore reale

💰 Nessun costo ricorrente

A differenza delle soluzioni cloud:

  • nessun costo a consumo

  • nessun abbonamento

  • nessuna API esterna

Una volta installata, l’app sfrutta l’hardware già presente nel PC, trasformando la GPU in un vero acceleratore AI personale.


🔒 Privacy totale (100% offline)

Tutta l’elaborazione avviene localmente:

  • nessun audio inviato online

  • nessun server esterno

  • nessun logging remoto

I dati vocali rimangono esclusivamente sul computer dell’utente, rendendo AF Speech ideale anche per contesti professionali e sensibili.


⚡ Performance elevate

Grazie all’accelerazione CUDA:

  • trascrizioni rapide anche con modelli AI avanzati

  • latenza minima

  • utilizzo ottimizzato della VRAM

L’esperienza rimane fluida anche utilizzando modelli di grandi dimensioni come Whisper Large-v3.

Tools Usati / Stack

Area

Tecnologia

AI Speech Engine

Faster-Whisper (CTranslate2)

Modello

Whisper Large-v3

Accelerazione

NVIDIA CUDA / cuBLAS / cuDNN

Audio

SoundDevice + PyAudio

Interfaccia

CustomTkinter

System Tray

pystray

Hotkey globali

keyboard

Packaging

PyInstaller (EXE standalone)

Key Features

🎙️ Dettatura vocale intelligente

  • attivazione tramite hotkey globale

  • rilevamento automatico del parlato

  • inserimento del testo nell’applicazione attiva


🤖 AI completamente locale

  • modello Whisper Large-v3 eseguito offline

  • supporto multilingua

  • alta precisione anche su frasi complesse


🎮 Sistema di protezione VRAM

Funzionalità pensata per utenti avanzati e gamer:

  • monitoraggio utilizzo memoria GPU

  • sospensione automatica oltre soglia

  • pulsante “Libera VRAM” dal system tray

Questo permette all’app di convivere senza problemi con videogiochi o software pesanti.


🖥️ Integrazione nativa Windows

  • avvio automatico con Windows

  • esecuzione silenziosa in background

  • menu rapido dal tray

  • overlay visivo durante la registrazione


Interfaccia & User Experience

L’interfaccia è progettata in dark mode moderno, coerente con l’ambiente Windows e con il branding AF Automations.

Include:

  • selezione del modello AI

  • selezione del microfono

  • toggle avvio automatico

  • protezione VRAM

  • area testo

  • overlay animato durante l’ascolto

L’obiettivo è offrire potenza AI avanzata con un’esperienza semplice e immediata.


Metriche Tecniche

Metrica

Valore

Tempo medio trascrizione

< 2 secondi

Accuratezza italiano

~98%

Utilizzo VRAM

3–4 GB (large-v3)

Funzionamento offline

100%


Sfide Tecniche Affrontate

  • gestione corretta dei dispositivi audio hot-plug

  • caricamento asincrono del modello AI

  • compatibilità Unicode (accenti e simboli)

  • integrazione hotkey globali Windows

  • stabilità GPU tramite protezione VRAM

Risultato

AF Speech dimostra come sia possibile creare:

  • un’applicazione AI desktop completamente locale

  • senza costi ricorrenti

  • con performance reali

  • massima privacy

  • integrazione profonda con il sistema operativo

Il progetto rappresenta un esempio concreto di AI applicata in modo pratico, sfruttando hardware consumer per generare valore reale.

Create a free website with Framer, the website builder loved by startups, designers and agencies.