Annons

söndag 5 februari 2012vecka 5
twitterfblinkedin
HEM Analogt Digitalt Distribution Energi Fordonselektronik FPGA, asic & EDA Inbyggda system Kommunikation Medicinteknik Opto Passivt & förbindning Produktion Strömförsörjning Test & mät
JAVASCRIPT

Visa endast artikeln (för utskrift)
Av Jan TÃ¥ngring, red (jan@etn.se)

parakeet17/12 2009 Att diktera sms
snart lika snabbt
som att skriva

Den svenske forskaren bakom Shapewriter – textinmatningsmetoden som gör succe på både Android och Iphone – experimenterar idag med teknik för att diktera sms med rösten. Enligt Per Ola Kristensson står talteknik inför sitt genombrott, paradoxalt nog delvis på grund av pekskärmarnas intåg – de underlättar felrättning.


– Jag tror taligenkänning har blivit tillräckligt bra för att kunna användas praktiskt, säger Per Ola Kristensson.

Per Ola Kristenssons experiment utgår från realistiska förhållanden för en mobiltelefon. Testpersonerna har bland annat fått promenera omkring samtidigt som de dikterar.

– Vi har visat att mobil taligenkänning kan vara lika snabb som topphastigheter för andra mobiltextinmatningstekniker, berättar Per Ola Kristensson.

POK
Per Ola Kristensson
para
Felrättning på pekskärm
– Och detta samtidigt som försökspersonerna vandrar utomhus i blåsten!

Parakeet, som systemet kallas, nådde i experimenten en inmatningshastighet på i snitt 18 ord per minut sittande inomhus och 13 ord per minut under promenad utomhus. En expertanvändare nådde 45 ord per minut.

Nyckel till snabbheten är en metod att korrigera de taligenkänningsfel som trots allt uppstår.

– Vi har utvecklat ett pekgränssnitt baserat på ett så kallat word confusion network, vilket gör det lätt för användare att reparera fel.

Hela systemet körs i mobilen. Experimentutrustningen, en Nokia 800, har en teknisk flaskhals – det tar tid att koda det inspelade ljudet till det format som klassificeraren kräver. Den avkodningen utförs i N800:s applikationsprocessor som är en 400 MHz ARM11.

Det som forskarna undersöker härnäst är hur snabb tekniken kan bli om det inspelade ljudet istället skickas till en server och sedan tillbaka till mobilen i form av text. Detta görs idag i det kommersiella diktafonprogrammet Dragon för Iphone från amerikanska Nuance.

– Nuance är state of the art inom taligenkänningsfältet överlag, i alla fall när det gäller precisionen på själva igenkänningen, säger Per Ola Kristensson.

Per Ola Kristensson och hans kollegor försöker vi inte tävla mot kommersiella aktörer utan utvecklar system för att testa hypoteser om hur människor kan använda taligenkänning effektivt i olika situationer.

Enligt Per Ola Kristensson finns flera orsaker till att taligenkänning börjar fungera praktiskt just nu. Forskningen kring taligenkänningsalgoritmer har mognat och det finns bra databaser att träna systemen mot.

– Hårdvaran spelar också roll. Först nu är mobila nätverk tillräckligt snabba för att man ska kunna överföra ljud och få resultat tillbaka från servern tillräckligt snabbt.

Sist men inte minst är pekskärmarna en nyckelteknologi. De kan användas för att rätta fel.

– Jag tror den stora pusselbiten som fattas kommersiellt just är bra användargränssnitt för att lätt låta användaren fixa fel. Taligenkänningsfel är oundvikliga och det är viktigt att hela inmatningsprocessen är smidig, säger Per Ola Kristensson.

Per Ola Kristensson är tidigare känd för en märklig metod att skriva text på pekskärmstangentbord: istället för att trycka ner tangent efter tangent, drar du slarvigt en sammanhängande linje genom tangenterna. Också här är sms-skrivade en viktig tillämpning.

Tekniken kallas Shapewriting och är patenterad av Per Ola Kristensson. En implementation för Android vann Google Developer challenge år 2008. En implementation för Iphone valdes ut som en av de bästa Iphoneapplikationerna av Time Magazine år 2008 och har laddats ner två miljoner gånger .

Den liknande tekniken Swype används idag på Samsungs Windowsmobil Omnia II och företaget bakom Swype har just fått nya investeringar från Nokia och Samsung.

– Intresset visar att shape writing är en vettig idé. Jag skulle gissa det kommer bli en mainstreamprodukt inom de närmaste två till fem åren bredvid fysiska tumtangentbord, säger Per Ola Kristensson.

Skribenterna ansvarar för sina egna texter (3)
En liten korrigering och en kommentar 18/12 2009 Per Ola Kristensson
Länk:
"Experimentutrustningen, en Nokia 800, har en teknisk flaskhals – det tar tid att koda det inspelade ljudet till det format som klassificeraren kräver."

Det som tar tid är att utforska sökrymden och konstruera den graf som representerar de ordsekvenserna som bäst matchar akustisk indata. Själva särdragsextraheringen från talsignalen är relativt snabb.

Ang. voice messaging är det viktigt att komma ihåg att dagens mobiler är mer som minidatorer. Med en modern mobil kan du skriva email till kolleger, blogga, söka på Internet och redigerara dokument. Sådana aktiviteter kräver effektiv textinmatning. Det är framförallt där bl.a. taligenkänning har stor potential.
Bra fråga 18/12 2009 Jan Tångring, redaktionen
Länk:
Jag har googlat en stund på om det finns forskning på varför sms-meddelanden blivit en sådan succe, till skillnad från voice messaging. Jag har inte hittat ett svar, men misstänker att det – som vanligt – kan handla om användargränssnitt.

Jag testade nyss att skicka ett röstmeddelande med min mobil. Mottagaren fick som resultatet ett vanligt sms med instruktioner om att ringa upp ett visst nummer och mata in en viss kod. Detta system slösar med mottagarens tid och det är ju inte artigt.

Jag länkar till en text i NYT som släpper fram flera kritiska röster mot voice messaging.
Varför? 17/12 2009 telefonsvararen
Och hos mottagaren kan sen textmeddelandet talas upp med syntetiskt tal :-)
 
Mjukvaruingenjör
Mjukvaruutvecklare
Elektronikkonstruktörer
Virtuell hårdvara för inbyggda system
Analogkonstruktör för utveckling av nästa generations eyetracker
KOMMENTERAT
Comments powered by Disqus
MEST LÄST JUST NU

Adam Anna Fredrik Jan Per
© Elektroniktidningen Sverige AB
Ansvarig utgivare för etn.se är Adam Edström, på uppdrag av Elektroniktidningen Sverige AB
Publiceringssystem Joomla • Webbhotell Glesys • Övervakas av mon.itor.us
Administration Jan Tångring • Annonser Fredrik Söderberg • Redaktion red@etn.se

Sök komponent




DRIVS AV

Användningsvillkor

Annons
Annons
Annons
Annons