Cieľom optimalizácie a testovania rečových aplikácií je dosiahnutie kvality služby (Quality of service). Je zrejmé, že návrh reálnej služby musí byť vykonaný tak, aby sa k reálnym zákazníkom dostala vždy plne funkčná, ergonomická služba. Pre akceptáciu služby zákazníkmi je najdôležitejšia práve prvá skúsenosť s poskytovanou službou.
Pri vývoji rečových interaktívnych služieb môžeme identifikovať tieto fázy:
V rámci tohto cvičenia sa budeme venovať bodu 5., teda evaluácii. Zameriame sa na opis a realizáciu metód evaluácie.
Rozširovanie používania hlasom ovládaných systémov v súčasnosti prináša so sebou aj potrebu vyhodnocovania, porovnávania a kategorizácie týchto systémov a automatických hlasových služieb. Jednou z najdôležitejších úloh evaluácie je determinovanie kvality služieb. Kvalita služby je kompromisom medzi tým čo používateľ od služby očakáva a charakteristikami, ktoré používateľ vníma pri jej používaní.
Kvalitu rečových interaktívnych systémov často chápeme práve cez kvalitu poskytovanej služby, avšak po jej dekompozícií môžeme oddeliť rôzne faktory kvality, ktoré ovplyvňujú výslednú kvalitu vnímanú používateľom.
"Merať kvalitu" poskytovanej rečovej interaktívnej služby je možné objektívnymi alebo subjektívnymi metódami evaluácie.
Objektívne evaluačné metódy sa zameriavajú na automatizovaný výpočet tzv. interakčných parametrov. Tieto parametre nemusia byť v korelácií so subjektívne vnímanou kvalitou. Sú iba nepriamou informáciou o parametroch daného systému a služby. Medzi často vyhodnocované parametre patria napr.:
Subjektívne evaluačné metódy sú založené na vyplňaní dotazníkov testovacími subjektmi po vykonaní interakcie so systémom. Existuje viacero prístupov, ktorých výsledkom sú rôzne typy dotazníkov a rôzne spôsoby ich vyhodnotenia, napr. metodiky SASSI, SERVQUAL, a neposlednom rade ITU-T štandard Rec. P.851.
Tento štandard opisuje metódy a postupy vykonávania evaluačných experimentov na automatických hlasových službách. Definuje nastavenie a realizáciu príslušných evaluačných experimentov a poskytuje dotazníky pre kvantifikovanie relevantných dimenzií kvality, ktoré môžu byť vnímané používateľom. Evaluačný proces determinuje aspekty kvality z pohľadu používateľa tak, že sa pozerá na rečový interaktívny systém ako na čiernu skrinku (black box). Dôležitými aspektmi kvality sú:
Použité metódy sú založené na laboratórnych experimentoch, v ktorých subjekt interaguje s hlasom ovládaným telekomunikačným systémom za účelom vykonania preddefinovanej, reálnej úlohy. Názor používateľa sa potom získa pomocou dotazníkov vyplnených po interakcii so systémom.
Pre hodnotenie kvality hlasových služieb poskytovaných HOTS sú nevyhnutné subjektívne experimenty s reálnymi alebo testovacími používateľmi a s plne vyvinutým systémom. Takéto experimenty, okrem determinovania kvality, slúžia aj na získanie informácií o interakcii medzi používateľom a systémom (napríklad formou zbierania interakčných parametrov). Oba typy informácií (o kvalite a parametroch interakcie) môžu byť získané paralelne. Po ich získaní je možné definovať tzv. predikčné modely kvality (quality prediction model). Jedným z najznámejších prístupov smerujúcich k vytvoreniu takéhoto modelu je systém PARADISE (PARAdigm for DIalogue System Evaluation).
Za najvýznamnejšiu časť štandardu možno považovať spôsob koncipovania dotazníkov. Definuje tri typy evaluačných dotazníkov – prvý dotazník je zameraný na zozbieranie informácií o používateľovi (testovacom subjekte) a jeho vzťahu k doméne služby a skúsenostiam s dialógovými systémami. Druhý typ dotazníka je určený na ohodnotenie práve uskutočnenej interakcie. Posledný, tretí typ hodnotí celkový dojem z viacnásobnej interakcie testovacieho subjektu so systémom. Štandard odporúča viacnásobnú interakciu medzi systémom a používateľom za účelom reálneho vyhodnotenia kvality systému a jeho služby, nakoľko je zrejmé, že môže byť skresľujúce hodnotiť kvalitu na základe jedinej interakcie. V štandarde nie je definovaná presná podoba dotazníkov, ale zoznam otázok, z ktorých je možné koncipovať dané typy dotazníkov.
Úloha: Vykonajte evaluáciu pre svoje rečové aplikácie vytvorené ako zadanie tohto predmetu. Najprv navrhnite dotazník typu B (podľa priloženého linku). Potom poproste kolegov, aby vykonali interakciu s vašou službou a vyplnili dotazník. Následne vykonajte štatistickú analýzu výsledkov a pokúste sa urobiť závery, resp. návrhy na zlepšenie vašej služby.