Optimalizácia a testovanie rečových aplikácií

Úvod

Cieľom optimalizácie a testovania rečových aplikácií je dosiahnutie kvality služby (Quality of service). Je zrejmé, že návrh reálnej služby musí byť vykonaný tak, aby sa k reálnym zákazníkom dostala vždy plne funkčná, ergonomická služba. Pre akceptáciu služby zákazníkmi je najdôležitejšia práve prvá skúsenosť s poskytovanou službou.

Pri vývoji rečových interaktívnych služieb môžeme identifikovať tieto fázy:

Analýza. Vo fáze analýzy je potrebné zanalyzovať reálne potreby zákazníkov, doménu poskytovanej služby a preskúmať dostupné dáta. Je ideálne, ak máme záznamy z poskytovania danej služby živými operátormi, ktoré môžu byť výborným vodítkom pre skonštruovanie dialógu a rečových gramatík.
Základný návrh. Na základe výsledkov analýzy zväčša pristúpime k vytvoreniu vývojového diagramu služby, definícií výziev a návrhu gramatík ako aj spôsobu získavania informácií, ktoré majú byť používateľovi poskytnuté.
Evaluácia na testovacej skupine/Wizard of Oz. Po základnom návrhu je potrebné vykonať jeho evaluáciu. Iba pomocou testovania sa dajú často odhaliť aspekty, na ktoré tvorcovia nemysleli, alebo také, na ktoré potenciálni zákazníci reagujú inak, ako sa predpokladalo. Výbornou pomôckou v tejto fáze je technika Wizard of Oz, kde je automatický systém simulovaný človekom - expertom. Ten rozhoduje o reakciách systému manuálne, avšak bez toho, aby testovací subjekt o tom vedel. Používateľ sa domnieva, že komunikuje s automatickým systémom. To umožňuje získať cenné skúsenosti a vedomosti o tom, ako používatelia reagujú na zamýšľaný systém a tiež to umožňuje otestovať rôzne scenáre interakcie, bez toho, aby boli plne vyvinuté.
Redizajn a implementácia. Po testovaní na testovacej skupine je zväčša potrebné pristúpiť na redizajn služby a následnú plnú implementáciu služby.
Evaluácia. Vo fáze evaluácie opäť prebieha testovanie služby na testovacej skupine, avšak tentokrát na reálnom systéme a reálnej službe. Zároveň sa uskutočnené interakcie vyhodnocujú pomocou objektívnych a subjektívnych evaluačných metód.
Redizajn. Výsledky evaluácie môžu priniesť nové poznatky, ktoré vedú k ďalšiemu redizajnu.
Nasadenie. Po sérií testovaní a úprav môže konečne dôjsť k nasadeniu vytvorenej služby.

V rámci tohto cvičenia sa budeme venovať bodu 5., teda evaluácii. Zameriame sa na opis a realizáciu metód evaluácie.

Rozširovanie používania hlasom ovládaných systémov v súčasnosti prináša so sebou aj potrebu vyhodnocovania, porovnávania a kategorizácie týchto systémov a automatických hlasových služieb. Jednou z najdôležitejších úloh evaluácie je determinovanie kvality služieb. Kvalita služby je kompromisom medzi tým čo používateľ od služby očakáva a charakteristikami, ktoré používateľ vníma pri jej používaní.

Kvalitu rečových interaktívnych systémov často chápeme práve cez kvalitu poskytovanej služby, avšak po jej dekompozícií môžeme oddeliť rôzne faktory kvality, ktoré ovplyvňujú výslednú kvalitu vnímanú používateľom.

"Merať kvalitu" poskytovanej rečovej interaktívnej služby je možné objektívnymi alebo subjektívnymi metódami evaluácie.

Objektívne evaluačné metódy realizujú vyhodnocovanie kvality služby cez meranie tzv. interakčných parametrov (napr. dĺžka trvania interakcie a pod.)
Subjektívne evaluačné metódy sú zamerané na získavanie informácií o úrovni kvality vnímanej používateľom (na subjektívne vnímanie). Tieto metódy sa zväčša realizujú dotazníkovou formou.

Objektívne evaluačné metódy

Objektívne evaluačné metódy sa zameriavajú na automatizovaný výpočet tzv. interakčných parametrov. Tieto parametre nemusia byť v korelácií so subjektívne vnímanou kvalitou. Sú iba nepriamou informáciou o parametroch daného systému a služby. Medzi často vyhodnocované parametre patria napr.:

dĺžka trvania interakcie
počet výziev systému počas interakcie
počet odpovedí používateľa počas interakcie
priemerné skóre dôveryhodnosti rozpoznaného výsledku počas interakcie
počet noinput udalostí počas interakcie
počeť nomatch udalostí počas interakcie

Subjektívne evaluačné metódy

Subjektívne evaluačné metódy sú založené na vyplňaní dotazníkov testovacími subjektmi po vykonaní interakcie so systémom. Existuje viacero prístupov, ktorých výsledkom sú rôzne typy dotazníkov a rôzne spôsoby ich vyhodnotenia, napr. metodiky SASSI, SERVQUAL, a neposlednom rade ITU-T štandard Rec. P.851.

ITU-T štandard Rec. P. 851

Tento štandard opisuje metódy a postupy vykonávania evaluačných experimentov na automatických hlasových službách. Definuje nastavenie a realizáciu príslušných evaluačných experimentov a poskytuje dotazníky pre kvantifikovanie relevantných dimenzií kvality, ktoré môžu byť vnímané používateľom. Evaluačný proces determinuje aspekty kvality z pohľadu používateľa tak, že sa pozerá na rečový interaktívny systém ako na čiernu skrinku (black box). Dôležitými aspektmi kvality sú:

použiteľnosť služby (usability)
komunikačná schopnosť (communication efficiency)
efektivita úlohy a služby (task and service efficiency)
spokojnosť používateľa (user satisfaction)
vnímaná kvalita rečového vstupu a výstupu (perceived speech input and output quality)
kooperativita systému (system’s cooperativity)
symetria interakcie (symetry of the interaction)
vnímaná plynulosť interakcie (smoothness of the interaction)

Použité metódy sú založené na laboratórnych experimentoch, v ktorých subjekt interaguje s hlasom ovládaným telekomunikačným systémom za účelom vykonania preddefinovanej, reálnej úlohy. Názor používateľa sa potom získa pomocou dotazníkov vyplnených po interakcii so systémom.

Pre hodnotenie kvality hlasových služieb poskytovaných HOTS sú nevyhnutné subjektívne experimenty s reálnymi alebo testovacími používateľmi a s plne vyvinutým systémom. Takéto experimenty, okrem determinovania kvality, slúžia aj na získanie informácií o interakcii medzi používateľom a systémom (napríklad formou zbierania interakčných parametrov). Oba typy informácií (o kvalite a parametroch interakcie) môžu byť získané paralelne. Po ich získaní je možné definovať tzv. predikčné modely kvality (quality prediction model). Jedným z najznámejších prístupov smerujúcich k vytvoreniu takéhoto modelu je systém PARADISE (PARAdigm for DIalogue System Evaluation).

Za najvýznamnejšiu časť štandardu možno považovať spôsob koncipovania dotazníkov. Definuje tri typy evaluačných dotazníkov – prvý dotazník je zameraný na zozbieranie informácií o používateľovi (testovacom subjekte) a jeho vzťahu k doméne služby a skúsenostiam s dialógovými systémami. Druhý typ dotazníka je určený na ohodnotenie práve uskutočnenej interakcie. Posledný, tretí typ hodnotí celkový dojem z viacnásobnej interakcie testovacieho subjektu so systémom. Štandard odporúča viacnásobnú interakciu medzi systémom a používateľom za účelom reálneho vyhodnotenia kvality systému a jeho služby, nakoľko je zrejmé, že môže byť skresľujúce hodnotiť kvalitu na základe jedinej interakcie. V štandarde nie je definovaná presná podoba dotazníkov, ale zoznam otázok, z ktorých je možné koncipovať dané typy dotazníkov.

Úloha: Vykonajte evaluáciu pre svoje rečové aplikácie vytvorené ako zadanie tohto predmetu. Najprv navrhnite dotazník typu B (podľa priloženého linku). Potom poproste kolegov, aby vykonali interakciu s vašou službou a vyplnili dotazník. Následne vykonajte štatistickú analýzu výsledkov a pokúste sa urobiť závery, resp. návrhy na zlepšenie vašej služby.

Príloha č_2_Navrhnute dotazniky pre evaluaciu.pdf