G

Simon Poghosyan, fondatore e CEO di GSpeech

Simon Poghosyan, fondatore e CEO di GSpeech

Simon Poghosyan è il fondatore e CEO di GSpeech, una piattaforma di intelligenza artificiale basata sul web che aiuta a rendere i contenuti online più accessibili convertendo il testo in audio dal suono naturale in oltre 70 lingue. Con un background in progettazione VLSI e un forte interesse per la programmazione e l'esperienza utente, Simon ha creato GSpeech per semplificare il modo in cui i siti web possono offrire contenuti vocali.

Oggi, GSpeech genera circa 200 milioni di caratteri audio al mese ed è utilizzato in oltre 70 paesi, con i suoi lettori audio personalizzabili che gestiscono oltre 200,000 ascolti al mese. Avendo recentemente superato il miliardo di caratteri audio generati in totale, GSpeech continua a crescere rapidamente. La piattaforma è progettata per essere facile da integrare, richiedendo solo una singola riga di codice, e supporta creatori, educatori e aziende nel rendere i loro contenuti più inclusivi e coinvolgenti.

Il tuo background nella progettazione VLSI (Very Large Scale Integration) e le tue prime esperienze di programmazione hanno gettato solide basi tecniche. Cosa ti ha ispirato a passare dalla microelettronica allo sviluppo di software basato sull'intelligenza artificiale e come questo ha portato alla creazione di GSpeech?

La mia passione per la risoluzione dei problemi è nata al liceo, alimentata dalla passione per la matematica e la fisica. Questo interesse mi ha portato a conseguire una laurea triennale (2009) e una magistrale (2011) in Progettazione VLSI presso l'Università Statale di Ingegneria dell'Armenia, in collaborazione con Synopsys Armenia. Studiare fisica mi ha insegnato la precisione e il pensiero analitico, ma è stato durante il secondo anno che ho scoperto la programmazione, iniziando con il linguaggio Pascal, e me ne sono innamorato all'istante. Io e il mio amico completavamo i compiti assegnati non appena li ricevevamo, anche se avevamo sei mesi per finirli. Poi, per divertimento, abbiamo iniziato a fare i compiti degli altri studenti.

Questa passione mi ha portato ad approfondire lo sviluppo software. Ho iniziato con la creazione di siti web, poi ho sviluppato il mio CMS. Dopo aver completato diversi progetti di automazione dei processi e progettazione di architetture per la gestione dei dati, ho capito quanto mi piacesse creare soluzioni digitali per interfacce web. Attraverso il progetto 2GLux, ho collaborato con Edvard Ananyan, creatore del popolare GTranslate servizio di traduzione e un compagno di scuola del Quantum Gymnasium. Mi ha introdotto agli ecosistemi WordPress e Joomla e al concetto di GSpeech è nato da lui. Quel lavoro iniziale ha portato alla prima versione del nostro strumento, che consente agli utenti di ascoltare il testo su una pagina web, gettando le basi per quella che sarebbe poi diventata una piattaforma di intelligenza artificiale completa. Nel 2023, ho fondato SmartsClub LLC scalare GSpeech in una soluzione audio AI globale, che supporta oltre 70 lingue. Humanity UnionL'elogio di per il ruolo di GSpeech nel migliorare l'accessibilità della loro piattaforma di impegno civico riflette la mia missione di colmare il divario digitale attraverso l'intelligenza artificiale, una visione radicata nei miei primi giorni di programmazione.

GSpeech è nato originariamente come strumento di supporto per utenti ipovedenti. In che modo questa missione iniziale ha influenzato l'evoluzione della piattaforma in una soluzione di sintesi vocale basata su intelligenza artificiale completa?

L'attenzione all'accessibilità ha guidato lo sviluppo di audio AI di alta qualità in tempo reale, la traduzione in oltre 70 lingue e una perfetta integrazione con i siti web tramite un semplice frammento di codice. Questa missione ha portato alla creazione di funzionalità come lettori audio personalizzabili, pannelli di selezione di lingua e voce, riproduzione contestuale, download di audio e statistiche di utilizzo dettagliate, inclusi dati su paese, città, dispositivo e analisi della riproduzione nel tempo, il tutto progettato per rendere i contenuti più inclusivi e coinvolgenti. Dopo aver scritto oltre 100,000 righe di codice, nel 2023 ho lanciato la GSpeech Cloud Console, una soluzione scalabile che bilancia inclusività e funzionalità avanzate, consentendo ad aziende e creatori di contenuti di rendere i propri contenuti accessibili, multilingue e interattivi sul web.

Quali sono state le maggiori sfide tecniche che hai dovuto affrontare durante lo sviluppo di GSpeech Cloud Console?

Una delle maggiori sfide nello sviluppo della GSpeech Cloud Console è stata la progettazione di un'architettura scalabile per la generazione di audio AI in tempo reale, sicuro e di alta qualità. Ciò richiedeva soluzioni innovative per recuperare contenuti rilevanti dal web, elaborare l'audio sui nostri server e archiviarlo nel cloud per una distribuzione rapida e affidabile. L'implementazione di robuste misure di sicurezza, come crittografia e controlli di accesso, era fondamentale per proteggere i contenuti dinamici generati dagli utenti.

Un altro ostacolo era consentire la traduzione in tempo reale utilizzando motori neurali avanzati. Dovevamo garantire traduzioni accurate e a bassa latenza, creando al contempo un'interfaccia intuitiva che permettesse agli utenti di selezionare le lingue e i profili vocali preferiti per la riproduzione, dando priorità al comfort e alla personalizzazione. Infine, abbiamo sviluppato una procedura guidata per la creazione di modelli audio con diverse visualizzazioni personalizzabili del player, consentendo agli utenti di progettare player unici e visivamente accattivanti, personalizzati per i propri siti web. Trovare un equilibrio tra flessibilità, prestazioni e facilità d'uso su tutti i dispositivi è stata una sfida gratificante.

Con traduzioni in tempo reale in oltre 70 lingue e oltre 230 voci dal suono naturale, come si garantisce la qualità della voce e la precisione in un set linguistico così diversificato?

Per mantenere una qualità vocale costante, integriamo diversi modelli avanzati di sintesi vocale (TTS) che vengono costantemente ottimizzati e aggiornati. Questi motori multilingue gestiscono contenuti in diverse lingue con elevata precisione. Stiamo inoltre lanciando oltre 100 nuove vibrazioni vocali per offrire agli utenti opzioni ancora più espressive e naturali. Ogni mese, GSpeech genera oltre 200 milioni di caratteri audio, servendo utenti in più di 70 paesi, con i nostri lettori online utilizzati oltre 200,000 volte al mese, un numero in continua crescita. Questa scalabilità garantisce un feedback continuo e test pratici, che influenzano direttamente i nostri controlli di ottimizzazione e qualità.

Puoi spiegarci come GSpeech sfrutta l'intelligenza artificiale e l'apprendimento automatico per offrire una sintesi vocale realistica? Come ti tieni al passo con i rapidi progressi della tecnologia vocale neurale?

GSpeech utilizza intelligenza artificiale avanzata e apprendimento automatico, integrando diversi modelli text-to-speech all'avanguardia per produrre una sintesi vocale realistica. Questi modelli, ottimizzati per garantire naturalezza e supporto multilingue, elaborano gli input testuali per generare audio di alta qualità con intonazione e ritmo realistici, anche per contenuti multilingua. Miglioriamo l'esperienza utente offrendo stili vocali personalizzabili per diverse lingue. Abbiamo anche integrato alias TTS, che consentono agli utenti di definire regole personalizzate per la resa audio di determinate parole o frasi, ad esempio sostituendo termini specifici per ottenere una pronuncia o un fraseggio più accurati. Per rimanere al passo con la tecnologia della voce neurale, valutiamo e integriamo costantemente i più recenti progressi, collaboriamo con i leader del settore e prevediamo di sviluppare modelli proprietari in futuro, garantendo che GSpeech rimanga all'avanguardia nell'innovazione della sintesi vocale.

Quanto sono importanti per i tuoi utenti l'ottimizzazione della voce, il controllo del tono e la personalizzazione della riproduzione? E qual è il caso d'uso di cui vai più orgoglioso, in cui queste funzionalità eccellono davvero?

L'accordatura della voce, il controllo del tono e la personalizzazione della riproduzione sono fondamentali per i nostri utenti, consentendo loro di creare stili vocali unici e di alta qualità, su misura per le loro esigenze specifiche, dai siti web di notizie e blog ai contenuti di e-learning accessibili. La continua integrazione di oltre 100 nuove vibrazioni vocali migliora ulteriormente questo aspetto, offrendo agli utenti una flessibilità senza pari per creare voiceover davvero distintivi. Sono particolarmente orgoglioso di GSpeech Studio, una nuova piattaforma di editing e generazione audio che sto sviluppando. Permette agli utenti di creare più canali audio, mixarli con musica di sottofondo ed esportare voiceover rifiniti, consentendo ai creatori di produrre audio di qualità professionale per diverse applicazioni. La lettera di uno studente ipovedente, che ringraziava GSpeech per aver permesso lo studio indipendente attraverso audio personalizzato, mi ha profondamente toccato. Questo caso d'uso mostra come queste funzionalità rendano i contenuti accessibili e trasformativi, un obiettivo che perseguo fin dai miei primi anni da programmatore.

GSpeech offre integrazioni perfette con WordPress, Shopify, Wix e altri. Qual è stata la vostra strategia per rendere la piattaforma plug-and-play per creatori e aziende in diversi ecosistemi?

La nostra strategia per le integrazioni plug-and-play di GSpeech con piattaforme come WordPress, Shopify e Wix si è concentrata su semplicità, compatibilità e scalabilità. Abbiamo sviluppato plugin e frammenti di codice leggeri e modulari che si integrano perfettamente, richiedendo una configurazione minima, spesso solo pochi clic. Questo significa che migliaia di articoli e blocchi di contenuti dinamici possono ottenere immediatamente il supporto vocale, senza alcun intervento manuale. Offriamo player altamente flessibili e dal design accattivante che si adattano a tutti i dispositivi, inclusi dispositivi mobili, tablet e desktop. I nostri player non sono solo personalizzabili, ma anche ottimizzati per l'accessibilità e il coinvolgimento degli utenti. Per WordPress, abbiamo integrato la dashboard cloud di GSpeech direttamente nel pannello di amministrazione tramite il nostro plugin, semplificando la gestione per gli utenti. Documentazione dettagliata e dashboard intuitive guidano gli utenti non tecnici attraverso l'installazione e la personalizzazione. Test regolari garantiscono prestazioni costanti in diversi ecosistemi, consentendo a creatori e aziende di aggiungere facilmente funzionalità di sintesi vocale basate sull'intelligenza artificiale.

Ripensando al percorso dal 2012 a oggi, qual è stata la tappa più importante per te, a livello personale e professionale, nella creazione di GSpeech?

Il traguardo più importante per GSpeech è stato generare 1 miliardo di caratteri di audio AI di alta qualità, a dimostrazione del nostro impatto globale sull'accessibilità. Altrettanto significativi sono stati i feedback ricevuti da organizzazioni come l'Humanity Union, che ha elogiato GSpeech per il miglioramento della propria piattaforma di responsabilità sociale, e dai blogger che l'hanno definita una "rivoluzione" per il coinvolgimento degli utenti. Oltre 110 recensioni a cinque stelle su piattaforme come WordPress e AppSumo negli ultimi mesi riflettono questa crescente fiducia.

GSpeech è ora utilizzato attivamente anche da Dipartimento di statistica regionale di Namangan in Uzbekistan — un'istituzione governativa con un traffico significativo e visibilità a livello nazionale. Vedere un ente pubblico adottare la nostra tecnologia su larga scala è stato un traguardo significativo e un forte segnale di fiducia nella nostra soluzione.

Come cristiano e membro attivo della Chiesa armena, cerco anche di sostenere, ove possibile, altre iniziative di fede. Offro spesso GSpeech gratuitamente ai siti web cristiani per contribuire a diffondere il loro messaggio in modo più efficace e rendere la Scrittura più accessibile tramite l'audio. È il mio piccolo contributo a qualcosa di più grande. Allo stesso tempo, sono onorato di collaborare con ministeri dedicati come Il cordone — una congregazione messianica e stimato cliente di GSpeech — la cui missione e il cui contenuto riflettono la potenza della Scrittura in azione.

Questi momenti, in cui la tecnologia diventa un ponte per la fede, la comprensione e l'inclusione, mi ricordano il motivo per cui abbiamo creato GSpeech in primo luogo.

Quale ruolo ritieni che giocherà GSpeech nel futuro dei media digitali, in particolare ora che i contenuti audio e le interfacce vocali stanno diventando sempre più dominanti?

Immagino GSpeech come leader nel rendere i media digitali più accessibili e coinvolgenti, consentendo l'accesso vocale al web tramite intelligenza artificiale. Il nostro obiettivo è trasformare l'intera esperienza online, in modo che i siti web diventino naturalmente interattivi con la voce, inclusivi e multilingue per impostazione predefinita. Con una sola riga di codice, i proprietari di siti possono trasformare migliaia di articoli in contenuti vocali. Guardando al futuro, stiamo sviluppando GSpeech Studio in una piattaforma potente e unica per la generazione e l'editing audio, consentendo agli utenti di creare contenuti vocali multilivello con musica di sottofondo, effetti e accordatura precisa. Vogliamo rendere il web veramente udibile, intuitivo e universalmente accessibile.

GSpeech è stato recentemente lanciato su AppSumo e ha già ottenuto una valutazione quasi perfetta dai primi utenti. Cosa ha significato per voi la risposta della community di AppSumo e come intendete sfruttare questo slancio in futuro?

Il lancio su AppSumo ha presentato GSpeech a milioni di persone e la sua valutazione pressoché perfetta è incredibilmente incoraggiante. Gli utenti, come quelli che gestiscono corsi online, elogiano i nostri strumenti intuitivi e il supporto reattivo, facendo eco al feedback di Humanity Union. Un blogger ha definito le nostre voci "genuinamente coinvolgenti" e le traduzioni "impressionanti". Il loro feedback positivo conferma il valore della nostra soluzione text-to-speech basata sull'intelligenza artificiale e alimenta la mia passione per il progetto. Il supporto ai clienti durante il lancio ha anche stimolato nuove idee, in particolare per GSpeech Studio, che è stato ispirato dalle richieste degli utenti di funzionalità avanzate di editing ed esportazione audio. In futuro, intendo sfruttare questo slancio ascoltando attivamente la nostra community, integrando il loro feedback e sviluppando funzionalità innovative per migliorare l'accessibilità e il coinvolgimento, garantendo che GSpeech continui a evolversi come strumento trasformativo per creatori e aziende.

Infine, quale consiglio daresti ai giovani sviluppatori o imprenditori che vogliono creare strumenti accessibili e basati sull'intelligenza artificiale nell'attuale panorama tecnologico in rapida evoluzione?

Ai giovani sviluppatori e imprenditori, il mio consiglio è di dedicare il cuore al proprio lavoro e identificare un problema reale a cui offrire una soluzione unica e intelligente. Iniziate in piccolo, fate passi avanti costanti e ascoltate attentamente il feedback dei clienti: sarà lui a guidarvi. Trattate i vostri utenti come amici fidati, date il massimo e siate pazienti. Accogliete le tecnologie di intelligenza artificiale come potenti alleate: se usate con saggezza, amplificano la vostra capacità di creare strumenti efficaci e accessibili. Costruite con passione, perseveranza e l'impegno a fare la differenza e creerete soluzioni che contano davvero.

Grazie a voi Antonio Tardif per l'intervista. Puoi leggere l'intervista completa qui: unire.ai.

🎬 Video

🎬 GSpeech - Tour video
🎬 Scopri GSpeech: trasforma il testo in audio con la magia dell'intelligenza artificiale!
Porta i tuoi contenuti al livello successivo! Prova GSpeech adesso!
Ottieni GSpeech