od PandaWild » 15. únor 2018 12:15
Nezvládl by u vás nějaký programátor to automatické vyhledávání obrázků v portfoliu? Je to docela nutnost, jinak do toho lidi nepůjdou. Uvažoval jsem udělat na to program (který by se spouštěl u klienta), ale vůbec se k tomu časově nedostávám. Znamenalo by to:
- uživatel pošle zmenšené obrázky a buď u sebe spustí program, který projde portfolia a pak pošle jen data v CSV, nebo se to udělá na serveru (ale asi by to server dost zatěžovalo).
- pro porovnání si uložit i obrázky v normalizovaném rozměru např. 256x256 pixelů (bez vodoznaku).
- sestavit databázi obrázků uživatele (=obrázky nahrávané do Pixcoll), obsahovala by i hash informaci obsahu = obrázek zmenšený např. na 8x8 pixelů, převedený na HSL (protože některé fotobanky zvyšují saturaci, tak se musí dělat korekce) a vyjádřený kódem 1 z 64 (písmena, číslice) jako string, tedy délka textu hashe 8x8x3=192 znaků.
- procházet portfolio uživatele (přes www, není potřeba přihlášení) a hledat obrázky, které ještě nejsou známé v databázi
- stáhnout náhledový obrázek (může být ještě nutný nějaký ořez, např. ShutterStock přidává dole pruh), sestavit z něho hash informaci z 8x8 HSL. Může být nutné u některých fotobank zkorigovat hodnoty saturace.
- hash se vyhledává v databází obrázků uživatele, ne na přesnou shodu, ale s danou tolerancí - tj. pro každé "písmeno" se vypočte rozdíl (pozor na přetečení krajních mezi), sčítat druhé mocniny. Vyhledají se tak možní kandidáti podle povolené odchylky, hranice musí zohlednit i zkreslení vodoznakem, např. 700 (=pro každé písmeno možná odchylka 2).
- po nalezení kandidáta se vezme náhled z portfolia převedený na normalizovaný rozměr 256x256 v HSL barvách. Počítají se rozdíly hodnot pixelů, přičítá se korekce pro fotobanku (zvýšená saturace). Sčítají se druhé mocniny rozdílů. Výsledkem je int číslo představující odchylku obrázků. Vodoznak se bude buď ignorovat (zahrne se do povolené tolerance), nebo se pro fotobanku použije maska, která řekne které pixely (s vodoznakem) se mají přeskakovat.
- vyhovující kandidát (s dostatečně nízkou odchylkou) se uchová a hledá se další, použije se obrázek s nejmenší nalezenou odchylkou (při správném nastavení parametrů by se měl nalézt vždy právě 1 kandidát). Ale možná by se mohli uvádět všichni nalezení kandidáti, ať si kupec vybere konkrétní podobný obrázek sám, to by bylo ještě lepší.
----------------------------------
Pak by chtělo automatizovat ještě ty kategorie. Pixcoll jistě nebude patřit mezi trháky, které zajistí stejné zvednutí výdělků jako fotobanka. Nedá se proto očekávat, že kontributoři tam budou nahrávat tisíce souborů stejným způsobem jako na fotobanky, to by se jim nevyplatilo. Význam to může mít jen v případě, že kontributora to nebude stát skoro žádnou práci, jen pošle obrázky a vše ostatní se udělá samo. Vyhledání odkazů do portfolií se dá zautomatizovat. Kategorie mohou být užitečné, ale aby to nemusel kontributor u každého obrázku vyplňovat, to by bylo neúnosně pracné (při tisícech obrázků).
Zajímavé řešení, které používají některé fotobanky - sice používají kategorie, ale nezadává je uživatel, kategorie znamená jen vyhledávání určitých typických klíčových slov, např. "background" (resp. více slov). I tahle varianta je pro kupce přínosem, usnadní mu vyhledávání.
Nebo konfigurovatelné automatické kategorie, protože každý uživatel to může mít jinak - v konfiguraci nastaví, která klíčová slova (nebo slova v titulku) hledat pro zařazení do příslušné kategorie. Jedna kategorie může mít více pravidel. Mít možnost i vylučování slov. A po změně pravidel mít možnost aktualizovat to u všech obrázků.