Vastaus: Kinect - Koko kehon liiketunnistus 360:lle (Natal)
Wiredin verkkolehdessä on tosi mielenkiintoinen viiden sivun artikkeli Kinectin syntyhistoriasta. Laitteen taustalla on paljon erilaista teknologiaa ja nk. luonnollisten käyttöliittymien asiantuntijoiden tutkimuksia. Tarina alkaa vuoden 2007 puolivälin paikkeilta, jolloin MS:n peliosaston pomo, Don Mattrick, oli vahvasti sitä mieltä, että Xbox 360 tarvitsee uudenlaisia interaktiotapoja. Mukaan haluttiin mm. liikkeen, puheen ja kasvojen tunnistusta. Ongelma oli, ettei missään ollut laitetta, joka tekisi tuon kaiken yhdessä sievässä paketissa ja vieläpä kuluttajan kukkarolle sopivaan hintaan. Niin, ja pitipä kokonaisuuden toimia 3D-avaruudessa ilman merkittävää viivettä.
The problem wasn’t vision. It was the task’s sheer impossibility. Finding cameras that could map a living-room in 3D was easy. Getting one reliably to decode the flailing limbs and shouts of 40 million Xbox users was a whole other dream. To pull this off, the hardware would require software “brain” capable of interpreting what the team calculated was a crushing 1023 spatial and aural variables at any given moment. And it would have to do this on the fly, with no perceptible on-screen lag.
Vuonna 2008 palat alkoivat hiljalleen loksahdella paikoilleen. Microsofilta löytyi sen omaa puheentunnistusteknologiaa, jota käytettiin Windows 7:ssä, PrimeSenseltä saatiin liikkeentunnistusta ja 3DV:ltä mukaan ostettiin 3D-kamera. Samoihin aikoihin mukaan liittyyi myös Kudo Tsunoda, joka oli Natal-prototyypin nähtyään aivan innostunut, ja alkoi heti jo visioida Star Trekin holokannen tyyppisistä ratkaisuista.
Matkaan mahtui kuitenkin ongelmiakin: miten ottaa huomioon se, että ihmiset eivät ole jatkuvasti saman näköisiä tai edes kokoisia? Lisäksi taustamelu aiheutti omat murheensa äänentunnistukselle. Apua löytyi jo aiemmin 2000-luvulla tehdyistä tutkimuksista kuten
Probabilistic Tracking in a Metric Space, jossa balettitanssijan liikkeitä arvailtiin erilaisin algoritmein.
Äänentunnistusta hiottiin keräämällä ääninäytteitä eri kielistä ja murteista, ja testilaboratorioissa luotiin mitä erilaisimpia olosuhteita säätelemällä erityisin "uunein" jopa huoneiden lämpötilaa ja ilmankosteutta.
Rigorous testing was vital -- of hardware, software and the games that were starting to emerge. Hardware testing involved gamers playing in a variety of temperatures, humidities and light conditions. “We have huge ovens where we keep the product at high and low temperatures to simulate different user conditions,” Raghu Murthi says. “We have anechoic chambers, where there is no external noise coming in, and we test microphone arrays and audio systems.”
Milo-esittelydemo herätti huomiota E3 2009 -messuilla, mutta nyt Raren Nick Burton myöntää, että todellinen puhetta ymmärtävä tekoäly on vielä vuosien päässä ja vaatisi käytännössä paljon jatkuvasti verkossa olevia konsoleita.
What off the expectation, raised in the Milo demos, that players might have full conversations with on-screen characters? “Realistically, if you want a one-to- one conversation with an AI-driven character, that’s at least five years away,” Andreas says. “But thinking about where that tech is going,” Burton adds, “if it’s cloud-based, passing the Turing test becomes much easier. You just need a huge internet-like database, then work out how to data mine that.
Ja ai niin, se holokansi, se tulee parin vuoden päästä.
And the full holodeck. Did we announce that yet? I think it’s coming in 2012…
Lähde:
Wired