Nacházíte se zde: Úvod / Hledáme programátora

Hledáme programátora

Národní technická knihovna hledá programátora na projekt "Vývoj technologie rozpoznávání a indexování knižních obsahů".

Cíl projektu

U mnoha monografií, zejm. z vědecko-technické oblasti, název plně nevypovídá o všech obsažených tématech. Např. z názvu knihy „XML technologie: Principy a aplikace v praxi“ nepoznáme, jestli se v ní píše o jazyce XQuery. V těchto případech selhává i věcný popis, protože katalogizátor často nezná do hloubky popisovanou problematiku, navíc počet a jemnost předmětových hesel jsou pro tyto připady nedostatečné. Naopak obsah knihy (table of content) u vědecko-technických dokumentů vytváří velmi přesně definované obsahy jednotlivých kapitol a podkapitol, takže z nich můžeme úspěšně dolovat klíčová slova s vysokou relevancí.

Cílem popisovaného projektu je vytvořit technologii, která bude schopna automaticky rozpoznávat klíčová slova obsažená v obsahu monografií. Taková klíčová slova se pak mohou stát vstupními daty pro indexování ve vyhledávacích nástrojích typu OPAC nebo discovery systém, kde uživatel získá možnost vyhledávat i podle slov a frází vyskytujících se v obsahu díla.

Popis řešení

Plánovaná technologie počítá s tím, že na vstupu bude systému dodáván naskenovaný obsah knihy v obrazovém formátu. Následně bude obraz zpracován pomocíOCR, kdy bude jednak rozpoznáván a analyzován text, ale budou také rozlišovány textové zóny, aby bylo možné z textu odfiltrovat veškerý obsah, který netvoří hledaná klíčová slova. Výsledkem bude textový soubor klíčových slov, který může být např. uložen do pole 505 ve formátu MARC nebo využit jiným způsobem k indexování.

Dosáhnout vysoké míry úspěšnosti vytěžování klíčových slov z obsahu monografií je poměrně náročný úkol. Prakticky každý knižní obsah je odlišný, a to jak z hlediska struktury, tak typografie a layoutu. Možnosti rozpoznávání také často komplikuje grafická vizualizace spojená s uměleckým počinem grafika, i když to není pro vědecko-technickou knižní tvorbu tak typické jako u krásné literatury. U opticky rozpoznávaných textů obsahů je nutné rozlišovat, o jaký typ textového objektu se jedná (položka obsahu, číselné označení položky, označení stránek, speciální znaky mezi položkou a číslem stránky atd.), jaké jsou vztahy mezi objekty (typicky kapitola a podkapitola), v jaké zóně se daný textový objekt nachází apod. Pro tyto účely bude vyvinuta programová metoda, která bude tuto funkcionalitu zajišťovat. 

Preferovaná technologie

python, HTML/CSS, jQuery

Kontakt

V případě zájmu kontaktujte Jana Pokorného na adrese jan.pokorny@techlib.cz, následně dohodneme schůzku, kde domluvíme podrobnosti.

Akce dokumentů

Oborové brány spadající pod Jednotnou informační bránu (JIB)
Knihovnictví a informační věda | Musica | Právo
Umění a architektura | Mezinárodní vztahy