Select Language

Italiano

Select Language

Italiano

AF Speech: Offline Speech-to-Text AI Desktop App

Voice-to-text basato su GPU, completamente locale, senza costi ricorrenti e senza internet.

Dettagli

Ruolo:

AI Software Developer

Servizio:

Industria:

Panoramica

AF Speech è un’applicazione desktop per Windows progettata per eliminare completamente la digitazione manuale, permettendo di scrivere in qualsiasi software semplicemente parlando.

Il progetto nasce da un problema concreto: la maggior parte dei software di dettatura oggi disponibili richiede abbonamenti mensili, connessione internet costante e l’invio dell’audio verso server esterni, con conseguenti limiti di costo, latenza e privacy.

AF Speech ribalta totalmente questo paradigma sfruttando la potenza del computer locale, in particolare CPU e GPU NVIDIA, per eseguire l’intelligenza artificiale interamente offline.

AF Speech è un sistema di dettatura vocale intelligente che converte la voce in testo utilizzando modelli AI avanzati eseguiti direttamente sul PC dell’utente.

L’utente può dettare contenuti in qualsiasi applicazione — browser, editor, CRM, chat, documenti — tramite una hotkey globale, senza interrompere il flusso di lavoro.

L’applicazione gira in background nel system tray di Windows, con overlay visivo durante l’ascolto e gestione intelligente delle risorse GPU.

Perché questo progetto ha un valore reale

💰 Nessun costo ricorrente

A differenza delle soluzioni cloud:

nessun costo a consumo
nessun abbonamento
nessuna API esterna

Una volta installata, l’app sfrutta l’hardware già presente nel PC, trasformando la GPU in un vero acceleratore AI personale.

🔒 Privacy totale (100% offline)

Tutta l’elaborazione avviene localmente:

nessun audio inviato online
nessun server esterno
nessun logging remoto

I dati vocali rimangono esclusivamente sul computer dell’utente, rendendo AF Speech ideale anche per contesti professionali e sensibili.

⚡ Performance elevate

Grazie all’accelerazione CUDA:

trascrizioni rapide anche con modelli AI avanzati
latenza minima
utilizzo ottimizzato della VRAM

L’esperienza rimane fluida anche utilizzando modelli di grandi dimensioni come Whisper Large-v3.

Tools Usati / Stack

Area	Tecnologia

AI Speech Engine

Faster-Whisper (CTranslate2)

Modello

Whisper Large-v3

Accelerazione

NVIDIA CUDA / cuBLAS / cuDNN

Audio

SoundDevice + PyAudio

Interfaccia

CustomTkinter

System Tray

pystray

Hotkey globali

keyboard

Packaging

PyInstaller (EXE standalone)

Key Features

🎙️ Dettatura vocale intelligente

attivazione tramite hotkey globale
rilevamento automatico del parlato
inserimento del testo nell’applicazione attiva

🤖 AI completamente locale

modello Whisper Large-v3 eseguito offline
supporto multilingua
alta precisione anche su frasi complesse

🎮 Sistema di protezione VRAM

Funzionalità pensata per utenti avanzati e gamer:

monitoraggio utilizzo memoria GPU
sospensione automatica oltre soglia
pulsante “Libera VRAM” dal system tray

Questo permette all’app di convivere senza problemi con videogiochi o software pesanti.

🖥️ Integrazione nativa Windows

avvio automatico con Windows
esecuzione silenziosa in background
menu rapido dal tray
overlay visivo durante la registrazione

Interfaccia & User Experience

L’interfaccia è progettata in dark mode moderno, coerente con l’ambiente Windows e con il branding AF Automations.

Include:

selezione del modello AI
selezione del microfono
toggle avvio automatico
protezione VRAM
area testo
overlay animato durante l’ascolto

L’obiettivo è offrire potenza AI avanzata con un’esperienza semplice e immediata.

Metriche Tecniche

Metrica	Valore
Tempo medio trascrizione	< 2 secondi
Accuratezza italiano	~98%
Utilizzo VRAM	3–4 GB (large-v3)
Funzionamento offline	100%

Sfide Tecniche Affrontate

gestione corretta dei dispositivi audio hot-plug
caricamento asincrono del modello AI
compatibilità Unicode (accenti e simboli)
integrazione hotkey globali Windows
stabilità GPU tramite protezione VRAM

Risultato

AF Speech dimostra come sia possibile creare:

un’applicazione AI desktop completamente locale
senza costi ricorrenti
con performance reali
massima privacy
integrazione profonda con il sistema operativo

Il progetto rappresenta un esempio concreto di AI applicata in modo pratico, sfruttando hardware consumer per generare valore reale.

Disponibile Per Lavoro

alefede6991@

gmail.com

Home

About

Portfolio

Contact

Disponibile Per Lavoro

alefede6991@

gmail.com

Disponibile Per Lavoro

alefede6991@

Home

About

Portfolio

Contact

Home

About

Portfolio

Contact