Hogyan segíti a gépi látás az automatizálás fejlesztését

By Jody Muelaner

A gépi látás olyan technikák gyűjteménye, amelyek képek alapján lehetővé teszik az (ipari vagy egyéb) automatizált berendezések számára a közvetlen környezet magas szintű megértését. A gépi látási szoftverek nélkül a digitális képek nem lennének mások az ilyen berendezések számára, mint egyszerű, egymáshoz sehogyan sem kapcsolódó, különböző színértékű és fényerejű képpontokból álló képponthalmazok. A gépi látás lehetővé teszi, hogy a számítógépek (jellemzően gépvezérlő egységekhez kapcsolva) érzékeljék az ilyen képeken az éleket és a formákat, hogy aztán a magasabb szintű feldolgozási rutinok azonosíthassák az előre meghatározott, érdeklődésre számot tartó objektumokat. A képek ebben az értelemben nem feltétlenül korlátozódnak a látható színtartományban készült fényképekre, lehetnek infravörös, lézer-, röntgen- és ultrahangjelek segítségével készült képek is.

A gépi látás igényesebb robotikai berendezésekben történő felhasználását szemléltető kép1. ábra: A kifinomultabb robotikai berendezésekben egyre inkább terjed a gépi látás használata (kép: John6863373 | Dreamstime.com)

A gépi látás egyik ipari környezetben meglehetősen gyakori példája egy adott alkatrész azonosítása egy alkatrészek véletlenszerű elrendezésű (összekevert) elegyét tartalmazó tárolóban. Itt a gépi látás segítségével a felszedő- és elhelyezőrobotok képesek automatikusan felvenni a megfelelő alkatrészt. Természetesen az ilyen alkatrészek képalkotó visszajelzéssel történő felismerése viszonylag egyszerű lenne, ha mindegyik alkatrész szépen elrendezve és azonos irányba állítva lenne elhelyezve egy tálcán. A hatékony gépi látási algoritmusok azonban képesek felismerni a kamerától különböző távolságban lévő (és ezért a képalkotó érzékelőn különböző méretűnek tűnő), valamint különböző irányokban álló objektumokat is.

A legkifinomultabb gépi látásos rendszerek ma már a tárolóból való kiemelésnél sokkal kifinomultabb új és friss megoldásokat tesznek lehetővé – erre talán nem is kell jobb példa az önvezető járműveknél.

Kép: a gépi látás a környezet magas szintű megértését teszi lehetővé a rendszerek számára2. ábra: A gépi látás képek segítségével teszi lehetővé a környezet magas szintű megértését az (ipari vagy egyéb) rendszerek számára (kép: Wikimedia)

A gépi látáshoz kapcsolódó technikák és eljárások

A gépi látás kifejezést esetenként az adatok képekből történő kinyerésének bevált és hatékony matematikai módszerei számára tartják fenn. Ezzel szemben a számítógépes látás kifejezés jellemzően korszerűbb és számításigényesebb rendszereket jelöl, beleértve a gépi tanulást vagy mesterséges intelligenciát (MI vagy az artificial intelligence angol kifejezésből alkotott betűszóval AI) használó fekete dobozos megközelítéseket is. A gépi látás szolgálhat azonban gyűjtőfogalomként is, amely magában foglalja a képekből történő magas szintű adatkinyerés valamennyi módszerét. Ebben az összefüggésben a számítógépes látás a mögöttes működési elvekre utal.

A képekből magas szintű jelentéstartalmak kinyerésére szolgáló technikák sokfélék lehetnek. A kutatóközösségen belül az ilyen technikákat gyakran a gépi látástól elkülönülőnek tekintik. Gyakorlati értelemben azonban mindegyik a gépi látás megvalósításának különböző módja, ráadásul sok esetben átfedésben is vannak.

A digitális képfeldolgozás a digitális jelfeldolgozás egy formája, amely magában foglalja a kép javítását, helyreállítását, kódolását és tömörítését. Az analóg képfeldolgozással szembeni előnyök közé tartozik a minimálisra csökkentett zaj és torzítás, valamint a lényegesen több rendelkezésre álló algoritmus. A képjavítás egyik korai felhasználási területe a Hold felszínéről készült első közeli felvételek helyesbítése volt. Ehhez fotogrammetrikus térképkészítést, valamint zajszűrőket és a képalkotó kamerának a holdfelszínhez való igazításából eredő geometriai torzulások korrekcióját használták.

A Texas Instruments DLPC350 integrált áramkörös (IC) vezérlőegység képe3. ábra: A DLPC350 integrált áramkörös (IC) vezérlőegység be- és kimeneti indítójeleket szolgáltat a megjelenített minták kamerával való szinkronizálásához. Digitális mikrotükrös eszközöket (DMD, digital micromirror device) használ, amelyeket arra terveztek, hogy 3D gépi látást tegyenek lehetővé ipari, gyógyászati és biztonsági berendezések számára. A gyakorlatban a felhasználási területek közé tartoznak a 3D beolvasás (szkennelés) és a metrológiai rendszerek is (kép: Texas Instruments)

A digitális képjavítás gyakran magában foglalja a kontraszt növelését, valamint a látószög és a lencsetorzítás geometriai helyesbítését is. A tömörítést általában úgy érik el, hogy egy komplex jelet koszinuszfüggvények kombinációjához közelítenek – ez a Fourier-transzformáció diszkrét koszinusztranszformációnak (DCT, discrete cosine transform) nevezett típusa. A diszkrét koszinusztranszformáció legnépszerűbb alkalmazása a JPEG fájlformátum. A kép helyreállításához szintén Fourier-transzformációkat lehet használni a zaj és az elmosódás eltávolítására.

A fotogrammetria valamilyen jellemzőazonosítást használ a méretek képekből történő kinyeréséhez. Ha ugyanarról a jelenetről több képet készítettek különböző helyzetekből, akkor ezek a méretek 3D-s információkat is tartalmazhatnak. A legegyszerűbb fotogrammetriai rendszerek a kép két pontja közötti távolságot mérik egy skála segítségével. Ehhez rendszerint valamilyen ismert méretarányt kell a képen feltüntetni referenciaként.

A jellemzők felismerése lehetővé teszi a számítógépek számára, hogy azonosítsák a képen lévő éleket és sarkokat vagy pontokat. Ez a fotogrammetriához, valamint az objektumok és a mozgás azonosításához szükséges első lépés. A foltérzékelés olyan területeket azonosíthat, amelyeknek az élei túl lágyak (fényképészeti értelemben) az él- vagy sarokérzékeléshez.

A mintafelismerést konkrét objektumok azonosítására használják. A legegyszerűbb esetben ez jelentheti azt, hogy egy adott, jól meghatározott mechanikus alkatrészt keresünk egy futószalagon.

A 3D rekonstrukció 2D-s képekből határozza meg a tárgyak 3D-s formáját. Ez fotogrammetriai módszerekkel érhető el, amelyekben a (különböző megfigyelési pontokból származó képeken azonosított) általános jellemzők magasságát háromszögeléssel határozzák meg. A 3D rekonstrukció egyetlen 2D-s kép felhasználásával is lehetséges. Ekkor a szoftver (többek között) az élek vagy árnyékos területek közti geometriai kapcsolatokat értelmezi.

Kép: a 3D szkennerek 2D-s képeket rögzítenek a tárgyakról4. ábra: A 3D szkennerek 2D-s képeket rögzítenek a tárgyakról ahhoz, hogy 3D-s modellt készítsenek róluk. Egyes esetekben a digitális modelleket ezután 3D nyomtatásra használják (kép: Shenzhen Creality 3D Technology Co.)

Az emberek fejben könnyedén rekonstruálnak egy kockát egy egyszerű vonalas ábrázolásból és egy gömböt egy árnyékolt körből. Az árnyékolás mutatja a felületek lejtését. Az ilyen levezetés folyamata azonban bonyolultabb, mint amilyennek látszik, mert az árnyékolás egydimenziós paraméter, míg a lejtés két dimenzióban jelentkezik. Ez kétértelműségekhez vezethet – ezt a tényt a fizikailag lehetetlen tárgyakat ábrázoló művészet is bizonyítja.

A munkadarab 3D-s alakjának 2D-s kép alapján történő számítógépes meghatározását szemléltető ábra5. ábra: A munkadarab 3D-s alakjának 2D-s kép alapján történő számítógépes meghatározása komoly kihívásokkal jár

A gépi látásos feladatok sorrendje

Számos gépi látásos rendszer lépésről lépésre haladva kombinálja a fenti technikákat, úgy, hogy az alacsony szintű műveletekkel kezdi, majd egyenként halad a magasabb szintű műveletek felé. A legalacsonyabb szinten a kép összes képpontja nagy sávszélességű adatként van tárolva. Ezután a műveleti sorrend minden egyes művelete azonosítja a kép jellemzőit, és viszonylag kis adatmennyiséggel ábrázolja a feladat szempontjából érdekes adatokat.

Először a képjavítás és -helyreállítás alacsony szintű műveletei történnek meg, majd a jellemzők felismerése következik. Több érzékelő használata esetén ezért az alacsony szintű műveleteket az egyes érzékelőkhöz rendelt elosztott folyamatok is elvégezhetik. Miután az egyes képek jellemzőinek felismerése megtörtént, magasabb szintű fotogrammetriai mérések végezhetők – például egy objektum azonosítása vagy valamilyen más, több kép és érzékelő kombinált adataira támaszkodó feladat.

Közvetlen számítások és tanulási algoritmusok

A gépi látás esetében a közvetlen számítás olyan matematikai függvények halmaza, amelyeket egy programozó (azaz ember) kézzel definiál. Ezek olyan bemeneti adatokat fogadnak, mint például a kép képpontjainak értékei, hogy olyan kimeneti adatokat adjanak eredményül, mint például az objektum éleinek koordinátái. Ezzel szemben a tanulási algoritmusokat nem közvetlenül emberek írják, hanem a bemeneti adatokat a kívánt kimeneti adatokhoz társító mintaadathalmazok segítségével képezi ki őket a rendszer. Emiatt a tanulási algoritmusok fekete dobozokként működnek. A legtöbb ilyen gépi tanulás ma már mesterséges neurális hálózatokon alapuló mélytanulást használ a számítások elvégzéséhez.

A Banner Engineering iVu sorozatú képérzékelőinek képe6. ábra: Az iVu sorozatú képérzékelők képesek azonosítani a munkadarabokat típus, méret, elhelyezkedés, térbeli helyzet és szín alapján. A gépi látásban részt vevő alkatrészek beállítását és felügyeletét beépített képernyőn, távoli adatbeviteli eszközön vagy számítógépen lehet elvégezni. A kamera, a vezérlőegység, az objektív és a világítás gyárilag be van építve (kép: Banner Engineering Corp.)

Az ipari felhasználási területeken szokványos egyszerű gépi tanulás gyakran megbízhatóbb és kevésbé számításigényes, ha közvetlen számításokon alapul. Természetesen megvannak annak is a határai, hogy mit lehet közvetlen számítással elérni. Például remélni sem lehet, hogy valaha is olyan fejlett mintafelismerést lehet majd vele végrehajtani, amilyen az emberek arc alapján történő azonosításához szükséges, különösen nem egy zsúfolt közterületről készült videófelvétel alapján. Ezzel szemben a gépi tanulás ügyesen kezeli az ilyen feladatokat. Nem csoda tehát, hogy a gépi tanulást egyre gyakrabban használják alacsonyabb szintű gépi látásos műveletekhez, például a képjavításhoz és -helyreállításhoz, valamint a jellemzők felismeréséhez.

A betanítási módszerek (nem az algoritmusok) javítása

Ahogy a mélytanulási technika egyre kiforrottabb lett, nyilvánvalóvá vált, hogy nem maguk a tanulási algoritmusok szorulnak fejlesztésre, hanem a betanításuk módja. Az egyik ilyen továbbfejlesztett betanítási rutint adatközpontú számítógépes látásnak nevezik. Itt a mélytanulási rendszer nagyon nagy, több ezer, több millió vagy akár több milliárd képből álló betanítóhalmazokat kap, majd tárolja az algoritmusok által az egyes képekből kinyert adatokat. Az algoritmusok hatékonyan tanulnak azáltal, hogy kidolgozott mintákon gyakorolnak, majd egy a helyes megoldásokat tartalmazó „tanári kézikönyvhöz” fordulva ellenőrzik, hogy a helyes értékeket kapták-e.

Elrettentő példaként jöjjön egy régi történet még a digitális mintafelismerés kezdeti időszakából. Az amerikai hadsereg a gépi látást kívánta használni a célpontok felismerésére, és a védelmi beszállító bemutatóin a rendszerek megbízhatóan azonosították az amerikai és orosz gyártmányú harckocsikat. A különböző harckocsikat egymás után mind helyesen különböztették meg a szállító légi fényképein. Amikor azonban a Pentagon saját képkönyvtárával újra ellenőrizték, a rendszer egyre csak rossz válaszokat adott. A gond az volt, hogy a védelmi beszállító képein az amerikai harckocsik egytől egyik a sivatagban, az orosz harckocsik pedig zöld mezőn voltak láthatóak. A rendszer ahelyett, hogy a különböző harckocsikat ismerte volna fel, inkább a különböző színű háttereket ismerte fel. A tanulság? A tanulási algoritmusok csak akkor lehetnek hasznosak, ha gondosan összeállított betanítási adatokat kapnak.

Következtetés: gépi látás a robotcellák biztonsága érdekében

A gépi látás ma már nem egy elérhetetlen műszaki vágyálom. A legnagyobb mértékben szemmel láthatóan az ipari felhasználási területeken terjedt el. Itt a leglátványosabb fejlődés az, ahogyan a gépi látás most kiegészíti az ipari üzemek biztonsági rendszereit, amelyek riasztást vagy hangjelzést adnak ki, ha valaki védősisak, maszk vagy más előírt védőfelszerelés nélkül lép be valamelyik munkaterületre. A gépi látás olyan rendszereket is kiegészíthet, amelyek figyelmeztetnek, ha mozgó gépek, például targoncák túl közel kerülnek az emberekhez.

Az ilyen és hasonló gépi látásos rendszerek néha helyettesíthetik az ipari robotok körüli fizikai védőburkolatokat, és így hatékonyabb működést tesznek lehetővé. Kiválthatják, illetve magasabb szintre emelhetik a fényfüggönyökön alapuló biztonsági rendszereket is, amelyek egyszerűen leállítják a gépeket, ha valaki belép a munkacellába. Ha gépi látás figyeli az üzem munkacellát körülvevő területét, akkor az ilyen cellákban lévő robotok fokozatosan lassulhatnak le, ha emberek közelednek feléjük.

Ahogy az ipari környezetek fejlődnek, hogy helyet adjanak az együttműködő robotoknak és más munkacellás berendezéseknek, amelyek teljesen biztonságosak a közelükben (akár a berendezés működése közben is) tevékenykedő emberek számára, ezek és a gépi látáson alapuló egyéb rendszerek sokkal hétköznapibb részévé válnak a gyári folyamatoknak.

Disclaimer: The opinions, beliefs, and viewpoints expressed by the various authors and/or forum participants on this website do not necessarily reflect the opinions, beliefs, and viewpoints of DigiKey or official policies of DigiKey.

About this author

Image of Dr. Jody Muelaner

Jody Muelaner

Dr. Jody Muelaner is an engineer who has designed sawmills and medical devices; addressed uncertainty in aerospace manufacturing systems; and created innovative laser instruments. He has published in numerous peer-reviewed journals and government summaries … and has written technical reports for Rolls-Royce, SAE International, and Airbus. He currently leads a project to develop a e-bike detailed at betterbicycles.org. Muelaner also covers developments related to decarbonization technologies.