Już wiele lat temu, zanim oprogramowanie, które obecnie znamy pod nazwą asystenta głosowego, zostało umieszczone w inteligentnych głośnikach i przystosowanie do rozumienia naszej mowy celu obsługi rozkazów takich jak odtwarzanie muzyki, włączanie i wyłączanie żarówek czy przypominania o zbliżającym się locie, maszyny musiały rozpocząć naukę jak słuchać, rozpoznawać i przetwarzać ludzką mowę. Technologia, będąca dzisiaj w powszechnym użyciu ma ponad sto lat historii i przebyła daleką drogę od pierwszych, prymitywnych urządzeń słuchających i nagrywających. Opis historii urządzeń służących do rozpoznawania mowy – protoplastów asystentów głosowych – podzieliłem na dwa etapy: przed oraz po pojawieniu się urządzenia Harpy.

Wczesne systemy rozpoznawania mowy

Zanim Thomas Edison opatentował swój najbardziej znany wynalazek – żarówkę – stworzył on jedną z pierwszych maszyn, które służyły do nagrywania głosu. Fonograf, który został zbudowany po raz pierwszy w 1877 roku składał się z rysika, który rył rowki w obracającym się cylindrze pokrytym cienką folią cynkową. Działo się to pod wpływem zmian ciśnienia powodowanych przez odbierane fale dźwiękowe. Wytłoczony w ten sposób cylinder pełnił także rolę materiału wyjściowego do odsłuchu. Można było go użyć w celu wzbudzenia wibracji w rysiku, który następnie poprzez prosty mechanizm wbudowany w tubę rezonansową wprawiał membranę w rezonans powodując odtworzenie nagrania. Te pierwsze urządzenia mogły jedynie nagrywać i odtwarzać ludzką mowę, ale nie były w stanie podejmować żadnych działań jak przetwarzanie mowy i reakcja na nią. Niewątpliwym minusem była niska jakość nagrań, które zostawały utrwalone na delikatnym, cynowym nośniku.

Aleksander Graham Bell, rówieśnik i konkurent Edisona w kilkanaście lat po jego odkryciu opracował odpowiedź – ulepszoną wersję fonografu, która została opatentowana przez jego firmę Volta Graphophone Company w 1886 roku. Grafofon używał zamiast cynowej folii wosku, który pozwalał na dłuższe nagrania w wyższej jakości, co przekładało się również na lepszą jakość odtwarzanego dźwięku. Co warte wspomnienia, Edison także opracował woskową wersję fonografu, a oba urzędzenia używane były głównie do dyktowania listów oraz innych dokumentów.

https://upload.wikimedia.org/wikipedia/commons/c/c0/Graphophone1901.jpg
Grafofon „Precision”, model wykorzystujący cylinder. Źródło: Maison de la Bonne Presse.

Kilkadziesiąt lat później, w 1952 roku, naukowcy pracujący w Bell Laboratories skonstruowali urządzenie o wdzięcznej nazwie Audrey. Była to pierwsza w historii maszyna zdolna do rozpoznawania mowy. Rozróżniała ona cyfry od 0 do 9 – o ile użytkownik robił pomiędzy nimi wystarczająco długie pauzy. Wymagała jednak ona czasu poświęconego na adaptację do głosu danej osoby, zanim wychwytała właściwe cyfry z wykraczającą, jak na ówczesne czasy, dokładnością. Audrey, przynamniej czysto teoretycznie, mogła zostać wykorzystana do stworzenia pierwszego systemu, który wybierałby głosowo numer telefonu, na przeszkodzie jednak stały jej rozmiary. Zajmowała ona szafę wysoką na 180 centymetrów, co sprawiało, że nie każde przedsiębiorstwo mogło sobie pozwolić na umieszczenie jej w swoim biurze. Dodatkowo jej wysokie koszty – zarówno zakupu jak i późniejszego utrzymania, a także równie wysokie zużycie energii sprawiły, że nie była szeroko wykorzystywana. Na dokładkę, tradycyjne, ręczne, wybieranie numerów telefonicznych okazało się nie dość, że szybsze, to jeszcze bardziej niezawodne niż oferowane przez Audrey.

https://www.ibm.com/ibm/history/ibm100/images/icp/F684540R16232R72/us__en_us__ibm100__pioneering_speech__shoebox__900x660.jpg
IBM Shoebox wykonujący polecenia użytkownika. Źródło: IBM.

Kolejnym kamieniem milowym w historii asystentów głosowych było zaprezentowane szerokiej publiczności na Targach Światowych w 1962 roku w Seattle przez IBM urządzenie Shoebox. Był to kalkulator sterowany w pełni głosowo. Rozumiał dziesięć cyfr a także sześć komend – plus, minut, suma, suma częściowa, fałsz i wyłącz. Wyniki obliczeń były drukowane na wbudowanej drukarce. Podobnie jak w Audrey, algorytm urządzenia próbował rozpoznać i dopasować określone częstotliwości samogłosek w każdym wypowiadanym przez użytkownika zdaniu.

Prawie dekadę później, bo w 1971 roku, rozpoczęły się badania nad pierwszym cyfrowym, w pełni tego słowa znaczeniu, asystentem wirtualnym. O tym jednak, w kolejnej części cyklu.

One Comment

Skomentuj