Was ist der Unterschied zwischen Bildsegmentierung, Klassifizierung und Erkennung?


Antwort 1:

Ich werde Omry Sendiks Antwort ergänzen

Die Klassifizierung kann für Pixel oder Bilder gelten. Bei der Klassifizierung von Pixeln versuchen wir zu entscheiden, ob ein bestimmtes Pixel zu einer bestimmten Klasse gehört, wie in Omrys Antwort angegeben.

Bei der Klassifizierung von Bildern versuchen Sie, die Art des Bildes zu identifizieren, das Sie haben, z. B. das Hauptthema des Bildes (Person, Hund, Bus, Gebäude) oder ob das Bild eine bestimmte Komposition aufweist (Porträt, Landschaft, Nachtlandschaft, Stadtbild, Nahaufnahme usw.) oder Identifizieren von Objekten / Zeichen, die erkannt und aus einem größeren Bild extrahiert wurden (wie der MNIST-Datensatz).

Im Allgemeinen transformiert die Segmentierung die Pixel des Bildes (eine Rasterdarstellung) in einen Satz von Umrissen oder Polygonen (eine Vektordarstellung). Die Vektordarstellung ist eine kompaktere Beschreibung des Bildes und erfordert eine gewisse Vereinfachung durch die Software. In Google Maps ist beispielsweise die Kartenansicht die Vektordarstellung und die Satellitenansicht die Rasterdarstellung. Für die Segmentierung müssen Sie definieren, welche Attribute oder Merkmale verschiedenen Segmenttypen zugeordnet werden sollen, z. B. Straßen, Wälder, Städte, Wasser usw. Wie Omry betonte, klassifizieren wir für die Segmentierung im Allgemeinen zuerst die Pixel in einem Bild und dann das Segment das Bild durch "Zeichnen" eines Umrisses um die Pixel, die zu derselben oder ähnlichen Klassen gehören.

Bei der Erkennung geht es darum, nach Objekten oder Merkmalen in Bildern zu suchen und deren Position zu bestimmen. Zum Beispiel die Gesichter, Schilder oder Nummernschilder in einem Bild finden.

Eine weitere ähnliche Sache ist die „Erkennung“ (oder „Identifikation“), bei der Sie nicht nur versuchen, die Klasse zu identifizieren, zu der ein Objekt gehört, sondern auch versuchen, die spezifische Sache in einem Bild zu benennen. Wenn Sie beispielsweise ein Gesicht erkannt haben und herausfinden möchten, wem dieses Gesicht gehört, verwenden Sie einen Erkennungsalgorithmus, um eine Datenbank mit Gesichtern zu durchsuchen. Dies wird in der Biometrie verwendet.


Antwort 2:

Die Bildsegmentierung ist die Aufgabe, das Bild in Segmente / Regionen zu unterteilen, die zu demselben Teil / Objekt / Inhalt gehören.

Die Bildklassifizierung ist die Aufgabe, das, was in einem Bild angezeigt wird, in eine aus einer Reihe vordefinierter Klassen zu klassifizieren. Wenn Sie beispielsweise antworten, dass das, was in einem Bild erscheint, ein Hund ist.

Die Erkennung ist die Aufgabe, zu lokalisieren, wo sich Objekte befinden. Das Ziel der Gesichtserkennung besteht beispielsweise darin, festzustellen, wo sich Gesichter in einem Bild befinden.

Beachten Sie, dass die semantische Bildsegmentierung die Aufgabe ist, jedes Pixel in einem Bild in eines aus einer Reihe vordefinierter Klassen zu klassifizieren. Eine solche Ausgabe ergibt eine Segmentierung des Bildes, da benachbarte Pixel häufig derselben Klasse angehören und daher ein solches Klassifizierungsbild dazu neigt, die Eingabe zu segmentieren.


Antwort 3:

Die Bildsegmentierung ist die Aufgabe, das Bild in Segmente / Regionen zu unterteilen, die zu demselben Teil / Objekt / Inhalt gehören.

Die Bildklassifizierung ist die Aufgabe, das, was in einem Bild angezeigt wird, in eine aus einer Reihe vordefinierter Klassen zu klassifizieren. Wenn Sie beispielsweise antworten, dass das, was in einem Bild erscheint, ein Hund ist.

Die Erkennung ist die Aufgabe, zu lokalisieren, wo sich Objekte befinden. Das Ziel der Gesichtserkennung besteht beispielsweise darin, festzustellen, wo sich Gesichter in einem Bild befinden.

Beachten Sie, dass die semantische Bildsegmentierung die Aufgabe ist, jedes Pixel in einem Bild in eines aus einer Reihe vordefinierter Klassen zu klassifizieren. Eine solche Ausgabe ergibt eine Segmentierung des Bildes, da benachbarte Pixel häufig derselben Klasse angehören und daher ein solches Klassifizierungsbild dazu neigt, die Eingabe zu segmentieren.