W3C

World Wide Web Consortium julkaisee suosituksen SSML 1.0

Korkealaatuinen syntetisoitu puhe tukevoittaa puherajapinta-arkkitehtuuria

Amerikka ja Austaria --
Karen Myers, <karen@w3.org>, +1.617.253.5884 or +1.978.502.6218
Eurooppa --
Marie-Claire Forgue, <mcf@w3.org>, +33.492.38.75.94
Aasia --
Yasuyuki Hirakawa <chibao@w3.org>, +81.466.49.1170

(also available in English)

Julkilausumia (testimonial) on myös saatavilla.


http://www.w3.org/ -- 8 syyskuuta 2004 -- World Wide Web Consortium (W3C) on julkaissut suosituksen Speech Synthesis Markup Language (SSML) 1.0. SSML 1.0 on eräs puherajapinta-arkkitehtuurin (W3C Speech Interface Framework) ydinmäärityksistä joka kehittää syntetisoidun puheen laatua ja roolia Web-sovelluksissa. SSML 1.0 tarjoaa mahdollisuuden syntetisoidun puheen ohjaamiseen eri tasoilla, mm. ääntämisen, äänenvoimakkuuden ja äänenkorkeuden suhteen. Spesifikaatio soveltuu mm. matkapuhelinten ja kämmentietokoneiden (PDA) avulla käytettävien sovellusten toteuttamiseen ja luo pohjaa myös täysin uudentyyppisille sovelluksille. SSML 1.0 on suunniteltu integroitavaksi yhteen muiden Web-teknologioiden kanssa ja parantaa yhteensopivuutta myös erilaisten puhesynteesiä hyödyntävien ratkaisujen välillä, aivan kuten W3C:n ääniselaintyöryhmän (W3C Voice Browser Working Group) julkaisemat muut suosituksetkin, VoiceXML 2.0 ja Speech Recognition Grammar Specification (SRGS).

"Olen erittäin innoissani ääniselaintyöryhmän tekemästä työstä ja edistysaskeleista jotka lisäävät Web-teknologioiden käyttömahdollisuuksia puhelimiin perustuvien sovellusten kehittämisessä", sanoo W3C:n johtaja Tim Berners-Lee, joka esiintyy pääpuhujana SpeechTEK Conference -tapahtumassa ensi viikolla. Hän lisää: "Yritykset voivat nyt tarjota asiakkailleen Web-palveluja paitsi tietokoneen, myös puhelimen välityksellä."

Maailmassa on arviolta kaksi miljardia lanka- ja matkapuhelinta. W3C:n puherajapinta-arkkitehtuuri — joukko spesifikaatioita ääneen perustuvien Web-sovellusten kehittämiseen — mahdollistaa sopivasti suunnitellun Web-sovelluksen käytön puhelimen välityksellä. Vuorovaikutus perustuu tällöin näppäinkomentoihin, puhuttuihin komentoihin, nauhoitetun ja syntetisoidun puheen, sekä musiikin hyödyntämiseen.

W3C-suositus (recommendation, suom.huom) tarkoittaa teollisuudelle ja Web-yhteisölle käytännössä Web-standardia. Jokainen suositus on pysyvä ja ylläpidetty spesifikaatio, jonka W3C-työryhmä on kehittänyt ja joka on W3C-jäsenten (ks. W3C Membership) toimesta tarkastettu. Suositukset edistävät Web-teknologioiden yhteensopivuutta, välittäen työryhmän rakentaman teollisuuden yhteisymmärryksen asiassa.

Monipuolinen sanasto laadukkaan puheen tuottamiseen

Eräs Webin äänisovellusten kehittämisen haasteista on ääntäminen. Miten esimerkiksi "1/2" tulisi ääntää? SSML 1.0 -määritys käyttää tätä yksinkertaista esimerkkiä havainnollistaakseen niitä haasteita joita liittyy tekstin kääntämiseen syntetisoiduksi puheeksi. Ilman kontekstin tuntemusta, ei esimerkiksi ole mahdollista päätellä, pitääkö "1/2" sanoa "puoli", "ensimmäinen helmikuuta", "toinen tammikuuta" vai "yksi jaettuna kahdella". SSML 1.0 tarjoaa välineitä tämäntyyppisen epämääräisyyden poistamiseen. SSML-sanasto mahdollistaa puhesynteesin tuloksen ohjaamisen sanan, äänteen tai jopa ääniaallon tasolla. Tämä monipuolisuus palvelee useita erityyppisiä käyttötilanteita ja tarpeita.

"SSML hyödyntää puhesynteesin pioneerien työtä. Se tarjoaa sovelluskehittäjille tehokkaan ja joustavan tavan yhdistää ja välittää korkealaatuista nauhoitettua ja syntetisoitua puhetta osana vuorovaikutteisia äänipalveluja", sanoo Dave Raggett, W3C:n ääniselainaktiviteetin johtaja ja W3C Fellow (Canon). Hän lisää: "SSML mahdollistaa VoiceXML-perustaisten palvelujen käytön puhelimen välityksellä. Tällä on merkitystä myös esim. käyttäjille joilla on kuulovaikeuksia tai vaikeuksia puheen tuottamisessa. Tämän lisäksi SSML näyttää erittäin lupaavalta myös muissa kuin VoiceXML-sovelluksissa, esim. multimodaaliseen vuorovaikutuksen tuleviin standardeihin liittyen".

Kuten XHTML, SSML on merkkauskieli joka perustuu laajasti käytettyyn XML-standardiin. XML-dokumentin SSML-sisältö voidaan myös puhesynteesin parantamiseksi sisällyttää toiseen XML-dokumenttiin. SSML soveltuu tietenkin myös erittäin hyvin käytettäväksi osana VoiceXML-kääreettä vuorovaikutteisten äänisovellusten toteutuksessa.

SSML 1.0 on rakennettu Web-integraatioon soveltuvaksi myös muilla tavoilla. Ääniselaintyöryhmä on tehnyt tiivistä yhteistyötä muiden työryhmien kanssa varmistaakseen että SSML 1.0 on yhtäpitävä saavutettavuuden, kansainvälisyyden ja yleisen Web-arkkitehtuurin suunnitteluperiaatteiden kanssa. Eräitä tärkeitä SSML-sovelluksia ovatkin "tekstipuhelimet" ("text phones") jotka palvelevat käyttäjiä joilla on kuulovaikeuksia. Sama sisältö voidaan myös välittää puheena puhelimen välityksellä. SSML 1.0 on johdonmukainen myös suhteessa W3C:n aikaisempaan ääntämiseen liittyvään kehitystyöhön CSS-tyylien avulla. W3C:n CSS-työryhmä kehittää moduulia CSS3:een mahdollistaen XML-dokumenttien esittämisen SSML-pohjaisten puhejärjestelmien avulla.

Nopea siirtyminen tuotantokäyttöön

W3C:n ääniselaintyöryhmä on ollut erityisen menestyksekäs varmistamalla tuottamiensa spesifikaatioiden käyttöönoton jo ennen kuin ne saavuttavat suosituksen statuksen. Testiaineisto (jota käsiteltiin SSML:n implementointiraportissa heinäkuussa 2004, ks. July 2004 SSML implementation report) on auttanut varmistamaan eri SSML 1.0 -implementaatioiden johdonmukaisen toiminnallisuuden ja laadun. Lukuisia työryhmään osallistuneita laite- ja ohjelmistotoimittajia on jo rakentanut SSML 1.0 -toteutuksia, mm. Aspect Communications, France Telecom, Hewlett-Packard, IBM, Loquendo, Microsoft, MITRE, Nuance Communications, SAP, ScanSoft, Sun Microsystems, VoiceGenie Technologies, Voxeo, and Voxpilot.

Työryhmä keskittää nyt voimavaransa puhearkkitehtuurin vielä kehitteillä olevan osan toteuttamiseen. Spesifikaatioiden VoiceXML 2.0 ja Speech Recognition Grammar Specification (SRGS) ohella, SSML on kolmas W3C:n puherajapinta-arkkitehtuurin kieli joka saavutti nyt suosituksen statuksen", sanoo Jim Larson (manager, advanced human input/output, Intel ja W3C:n ääniselaintyöryhmän toinen johtaja). "Työskentelemme saattaaksemme valmiiksi työn muihin W3C:n puherajapinta-arkkitehtuurin kieliin, mm. VoiceXML 2.1, Semantic Interpretation, ja Call Control eXtensible Markup Language (CCXML)."

Työryhmä on ollut yksi W3C:n laajimmista ja aktiivisimmista. Työhön ovat osallistuneet mm. Aspect Communications, BeVocal, Brooktrout Technology, Canon, Comverse Technology, Convedia, Electronic Data Systems, France Telecom, Genesys Telecommunications Laboratories, HeyAnita, Hitachi, Hewlett-Packard, IBM, Intel, IWA-HWG, Korea Association of Information and Telecommunication, Loquendo, Microsoft, MITRE, Mitsubishi Electric, Motorola, Nokia, Nuance Communications, Openstream, SAP, ScanSoft, Siemens, Sun Microsystems, Syntellect, Tellme Networks, Verascape, Vocalocity, VoiceGenie Technologies, Voxeo ja Voxpilot.

Tietoja World Wide Web Consortiumsta (W3C)

W3C perustettiin ohjaamaan Webin kehittymistä täyteen mittaansa. Se kehittää yhteisiä sopimuksia jotka edistävät Webin kehitystä ja varmistavat sen eri osien yhteensopivuuden. W3C on kansainvälinen liikeyritysten ja organisaatioiden muodostama yhteistyökonsortio jonka toiminnasta vastaavat MIT Computer Science and Artificial Intelligence Laboratory Yhdysvalloissa, European Research Consortium for Informatics and Mathematics (ERCIM) Ranskassa ja Keio University Japanissa. W3C tarjoaa mm. seuraavia palveluja: sovelluskehittäjille ja loppukäyttäjille tarkoitettu World Wide Web -tietopankki, standardien esittelemiseksi ja niiden käytön edistämiseksi tarkoitettuja koodien referenssitoteutuksia sekä useita erilaisia uuden teknologian esittelyyn kehitettyjä prototyyppi- ja esimerkkisovelluksia. Nykyään W3C:n jäseninä on lähes 400 organisaatioita. Saadaksesi lisätietoja World Wide Web Consortiumista, katso http://www.w3.org/