W 1971 roku, Defense Advanced Research Projects Agency – szerzej znana jako DARPA, rozpoczęła pięcioletnie finansowanie projektu badawczego na Uniwersytecie Carnegie Mellon w Pittsburgu (Pensylwania, USA). Miał on na celu stworzenie urządzenia zdolnego rozpoznać mowę, nie tylko pojedyncze wyrazy i komendy, ale całe zdania. Doprowadził, w 1976 roku, on do powstania i uruchomienia urządzenia Harpy. Maszyna była wyposażona w słownik zawierający 1011 wyrazów i mogła zrozumieć także bardziej skomplikowane zwroty. Jej algorytmy rozpoznawały też miejsca, w których zaczynały się i kończyły poszczególne zdania. Harpy przetwarzał mowę, która spełniała kryteria wcześniej zaprogramowanych wyrazów, wymowy oraz struktur gramatycznych. Już na tym etapie rozwoju urządzeń pojawiła się funkcja obezna w asystentach głosowych dostępnych w 2019 roku. W przypadku, kiedy maszyna nie była w stanie zrozumieć słów wypowiedzianych przez użytkownika, zwracała komunikat „Nie wiem, co powiedziałeś. Proszę, powtórz”.
Dziesięć lat po skonstruowaniu Harpy’ego uprzednio omawiane urządzenie – Shoebox – doczekało się aktualizacji. Nowa wersja, zamiast być podłączona do kalkulatora, została wyposażona w maszynę do pisania. Z racji tej zmiany, nawet jej nazwa została zmieniona na „Tangora”, na cześć ówczesnego najszybszego na świecie operatora maszyny do pisania.
Zobacz pierwszą część cyklu: Historia asystentów głosowych (cz. 1).
Albert Tangora, bo o nim mowa, ustanowił 22 października 1923 r. rekord świata w prędkości ciągłego pisania na maszynie pisząc przez godzinę średnio 147 słów na minutę. Maksymalna wartość, jaką osiągnął w ciągu jednej minuty nieprzerwanego pisania, to 159 słów. Jego rekord nigdy nie został pobity.
Maszyna rozpoznawała około 20 tysięcy słów oraz przetwarzała mowę przewidując najbardziej prawdopodobny wynik w oprarciu o to, co dotychczas miała za zadanie interpretować, ukazując zasadność podejścia statystycznego w rozpoznawaniu mowy. Niestety, wciąż każdy użytkownik musiał indywidualnie trenować urządzenie, w celu zwiększenia rozpoznawalności swojego głosu, a także był zmuszony do robienia krótkich pauz pomiędzy wypowiadanymi słowami. Sercem obliczeniowym Tangory był ówcześnie powszechnie używany komputer osobisty IBM PC/AT(model IBM 5170), który oparty był na mikroprocesorze taktowanym 8 MHz.
Z czasem, wraz z rozwojem i popularyzacją technologii, a także z zmniejszającymi się cenami, co miało miejsce w latach 90. XX wieku, konsumenci zaczęli zyskiwać szerszy dostęp do komputerów osobistych i technologii rozpoznawania mowy. Oprogramowanie NaturallySpeaking firmy Dragon, które zawitało na rynek w 1997 roku było pierwszym zdolnym do rozpoznawania i zapisywania ludzkiej mowy w trybie ciągłym. Oznaczało to, że użytkownicy nie musieli robić pauz pomiędzy wypowiadanymi słowami. Program osiągał wydajność do 100 słów na minutę sprawiając, że pionierskie rozwiązanie postawiło wysoko poprzeczkę swoim konkurentom i przyszłym następcom. Koszt programu ówcześnie wynosił 695 dolarów, co było kwotą przystępną dla amerykańskiej klasy średniej oraz zdecydowanie niższą w stosunku do uprzedni istniejących rozwiązań. Co ciekawe, oprogramowanie to jest wciąż dostępne do pobrania i przetestowania w praktyce.
Pierwszym nowoczesnym asystentem cyfrowym, który został zainstalowany na smartfonie była Siri, która została wprowadzona jako funkcja iPhone’a 4S w 2011 roku. Firma Apple opracowała Siri po przejęciu Siri Inc. w 2010 roku, która to firma była spin-offem SRI International, instytutu badawczego finansowanego przez DARPA i Departament Obrony Stanów Zjednoczonych. W międzyczasie także firma Google pracowała nad swoim asystentem głosowym, będącym na początku rozszerzeniem pozwalającym za głosowe wysyłanie zapytań do przeglądarki z poziomu telefonu wyposażonego w system z rodziny Android. Na początku usługa ta funkcjonowała samoistnie pod nazwą „Google Voice Search”. W lipcu 2012 roku została włączona do innej usługi, będącej już bezpośrednim protoplastą asystenta głosowego – Google Now – aplikacji dostarczającej użytkownikowi informacje bazujące na przewidywanych jego zachowaniach. Przez swoją proaktywną postawę, Google stało się liderem w zakresie rozpoznawania mowy i wykorzystywania jej do sterowania urządzeniami.
Zarówno dokonania firmy IBM jak i Google wprowadziły do realnego świata to, co wcześniej było możliwe tylko w sferze science-fiction. Kiedy Watson, komputer zdolny do odpowiadania na pytania oparte na języku naturalnym pokonał w amerykańskim teleturnieju „Jeopardy!” jego mistrza, Kena Jenningsa, zostało to uznane za wielki krok naprzód w dziedzinie oprogramowania do rozpoznawania głosu. Watson i jego oprogramowanie jest ukierunkowanie na zastosowanie w rozwiązaniach biznesowych, gdzie potrzebne są takie funkcje jak rozumienie języka naturalnego, i w których analizie podlegają duże zbiory danych. Dlatego też, to firma Google postanowiła skupić się na użytkowniku indywidualnym, koncentrując swoją uwagę na konsumenckich asystentach głosowych. Dzięki temu po raz pierwszy przeciętny użytkownik mógł wykorzystać w praktyce sztuczną inteligencję wyposażoną w rozpoznawanie głosu. Był to też pierwszy krok, ku przygotowaniu sceny pod zbliżające się nowinki technologiczne – inteligentne produkty i urządzenia domowe, które można sterować za pomocą swojego głosu. Z prostej maszyny, stopniowo poprzez wyspecjalizowane programy, asystenci głosowi stali się usługą, która będąc zlokalizowaną chmurze, zapewnia stały kontakt użytkownika z producentem, będącym dostawcą usługi, agregatorem treści oraz często też, pośrednikiem pomiędzy innymi podmiotami i firmami.