Információtömörítő algoritmusok a gondolkozás során

2018. február 17. - Edmonton2

Létezik egy információtömörítő eljárás, amely képes arra, hogy megtalálja egy vizsgált objektum informatikai leírásában szereplő mintázatok többszöri előfordulásait és a teljes adatrendszerre (képzelhetünk magunk elé egy sor számot, vagy egy táblázatot, ez utóbbi reprezentálhat akár egy képet vagy egy térképet; vagy akár egy háromdimenziós adattömböt, amely például a gravitációs, vagy bármilyen más fizikai tér erősségének pontonkénti leírására képes) megtalálja azokat, és ezekkel a mintákkal helyettesítse az eredeti objektumot. Például az 1, 4, 6, 5, 3, 1 adatsor helyettesíthető az 1, 2, 1 sor (amit nevezzünk minta1-nek) többszöri előfordulásaként (valójában lineáris kombinációjaként) :

1*minta1	1	2	1
2*minta1		2	4	2
1*minta1			1	2	1
+1*minta1				1	2	1
=	1	4	6	5	3	1

Tehát az 1, 4, 6, 5, 3, 1 sort felírhatjuk 1, 2, 1, 1 sorként is, ha az utóbbit úgy értelmezzük, hogy az egyes tagjaival egyenként megszorozzuk az 1, 2, 1 alakú minta1-et, majd az így kapott számsorokat (azaz vektorokat) elcsúsztatjuk a megfelelő helyre, majd az így kapott vektorokat összeadjuk. Egyes programok képesek arra, hogy a számsorokban, táblázatokban, három dimenziós tömbökben megkeressenek ilyen mintázatokat, és így egyszerűbb (tehát memóriatakarékosabb) alakra hozzák őket. Ezt a műveletet nevezzük dekonvolúciónak. Néha az adatrendszerben szereplő számokra némi zaj terhelődik, például elképzelhető, hogy az előbbi adatsorban nem pontosan 1; 4; 6; 5; 3; 1 szerepel, hanem 1,002; 4,001; 5,997; 5,003; 2,999; 0,999. Az algoritmus ekkor is képes felismerni minta1 többszöri előfordulását, a zajt (jelen esetben ez: 0,002; 0,001; -0,003; 0,003; -0,001; -0,001) hibának tekinti, elhagyja, kivonja az adatsorból hogy alkalmazható legyen a dekonvolúció - ez esetben ez az információ, ha mégiscsak információt jelentett volna a számunkra, elveszett, feláldoztuk az adattömörítés oltárán.

Tulajdonképpen azt tettük, hogy az 1-es szám mintaként való alkalmazásáról áttértünk a minta1, tehát az 1, 2, 1-sor mintaként való alkalmazásához (vegyük észre, hogy az eredeti adatsort tekinthetjük úgy is, mint ha az 1-et, mint egy számból álló számsort használtuk volna mintaként). Tulajdonképpen az eredetitől eltérő koordinátarendszerbe tértünk át a vektorunk leírásához. Ezért mondhatjuk el, hogy a dekonvolúciós eljárás egy speciális esete az úgynevezett SVD- (ún. szinguláris érték) felbontásnak, amely a koordinátarendszerek közötti áttérés segítségével tömörít, és tulajdonképpen ugyanazt jelenti, mint a dekonvolúció, csak ekkor már többféle mintát ismer fel a tömörítő algoritmus, nemcsak minta1-et, hanem minta2-t, 3-at, stb...

Amikor adattömörítő programot használunk, az valószínűleg SVD-felbontást végző algoritmust fog használni feladatának elvégzéséhez. De ezen alapul például a földi gravitációs tér (vagy bármilyen másféle tér: a mágneses tér, vagy akár a fizikai földfelszín, tehát a domborzat) leírása, de pl. a teljes kvantummechanika elmélete is. Ez utóbbiak a Descartes-féle x, y, z koordinátákon alapuló koordinátarendszert cserélik a szélesség, hosszúság, tengerszint fölötti magasság (értelemszerűen így a Föld paramétereinek leírásakor hívjuk így ezeket a koordinátákat, a kvantummechanikában más a nevük) koordinátarendszerre. Onnan jött az ötlet, hogy térjünk át új koordinátarendszerre, hogy felismertük: a Föld, vagy akár egy atommag körüli terek gömbszimmetrikusak, így jól leírhatók gömbi koordinátarendszerben. Az SVD felbontás nemcsak információtömörítésre alkalmas, hanem azt felhasználva bizonyos matematikai műveleteket hatékonyabban tudunk végezni.

Az agyunk is ilyen adattömörítő eljárásokat alkalmaz, amikor észleli a valóságot. A világról alkotott képünket az észlelés, majd a gondolkozás különböző részek sokaságára bontja: amikor nézünk, nem fényfrekvencia-értékek (színek számszerű leírása) sokaságát látjuk a látómező pontjaihoz rendelve (amely információhalmaz egyébként befut az agyba), hanem asztalt, lámpát, füzetet, laptopot, stb... Felismerjük a mintákat. Legalábbis némi tapasztalatszerzés után, újszülött korunkban bizonyára még csak a színeket látjuk a látómező pontjaihoz rendelve. Így egyszerűsítjük, tömörítjük, és tesszük alkalmassá az észlelést követő agyi műveletek alkalmazására a hozzánk érkező információt.

Így bontjuk elemeire az objektumokat, így helyezzük el alkalmas koordináta-rendszerben a hozzánk érkező információt. Ilyenkor számokat (amik annak a mértékét írják le, hogy a hozzájuk tartozó tulajdonságok mennyire jellemzők az objektumra) szorzunk a hozzájuk tartozó tulajdonságokkal, hogy jellemezzük az általunk leírt tárgyat (vagy személyt). Hogy "milyen" az illető objektum, és az, hogy mennyire "olyan". Amennyi tulajdonságot használunk a tárgy leírására, annyi tengelyből áll az azt leíró koordináta-rendszerünk. Például egy várost egy turistakönyvben nem úgy írunk le, hogy az összes ház összes pontjának megadjuk a térbeli helyzetét (a geodézia viszont ezt teszi - ha nem mérték volna fel Drezda belvárosának homlokzatait nagyon pontosan a II. világháború előtt, nem lehetett volna újraépíteni), hanem például megadjuk a korát, amelyben építették, a jellemző építészeti stílusjegyeit, a főbb épületeit, azok korát, stílusjegyeit, térbeli helyzeteiket. Alaprajzot mellékelünk hozzá, elmeséljük a történetét. És, ha mindezt ismerjük a városról, és láttuk a fontosabb épületeit, azt mondjuk, hogy "láttuk a várost". Pedig lehetséges, hogy csupán a város utcáinak 0,1%-án sétáltunk végig, és akkor még nem is beszéltünk az udvarokról, belső terekről.

A poszt következő posztban folytatódik.

Szólj hozzá!

Gondoljuk át még egyszer!

Gondoljuk át még egyszer!

Információtömörítő algoritmusok a gondolkozás során

A bejegyzés trackback címe:

Kommentek:

Gondoljuk át még egyszer!

Információtömörítő algoritmusok a gondolkozás során

Ajánlott bejegyzések:

A bejegyzés trackback címe:

Kommentek: