Strojové učení

Přidáno: 14.02.2014 | Autor: Vincent Kríž

Základní ideou strojového učení je automatické dolování vědomostí z dat a používání těchto vědomostí při zpracování dat nových, dosud neviděných. Více podrobností naleznete v dalším textu.

Strojové učení je dalším druhem činnosti, kterým se v softwerovém ateliéru Kamadu zabýváme.

Typickým úkolem, který algoritmy strojového učení dokážou řešit, je tvorba klasifikátorů. Jako klasifikátor si můžete představit aplikaci, která na vstupu čeká popis nejakého objektu, například řetězec textu, soubor fyzikálnych měření, nebo digitální záznam mluveného slova. Klasifikátor o daném objektu na výstupu prohlásí nějakou novou informaci, například, zda je řetězec zmysluplná věta v češtině, zda je daná kombinace fyzikálnich měření možná, nebo může vypsat text, který mluvčí řekl ve vstupném digitalizovaném záznamu.

Vědomosti, na základě kterých klasifikátor objekty klasifikuje, získává v trénovací fáze strojového učení. V této fáze algoritmus vyžaduje dodání trénovacích dat - objektů, ke kterým je už požadovaná výstupní informace známá. Trénovací data jsou vytvářena lidskými experty, kteří každému trénovacímu objektu manuálne přiradí výstupní klasifikaci.

Algoritmy strojového učení pak s určitou přesností dokážou klasifikaci lidí napodobit, právě na základě dodaných trénovacích dat. To, s jakou přesností to dokážou, je možné vyjádřit matematicky přesně pomocí několika výkonových měr.

Vincent Kríž, který je jedním ze zakladatelů ateliéru Kamadu, se momentálně strojovým učením zabírá také v rámci jeho doktorského studia. S implementací strojového učení máme řadu zkušenosti i mimo akademickou sféru.

Implementace

Podíleli jsme se na přípravě trénovacích dat pro aplikace na zpracování životopisů. Následně jsme tyto trénovací data použili pro trénování a testovací softwéru pro zpracování životopisů v českém a slovenském jazyce.

Příprava trénovacích dat pro aplikace na zpracování pracovních nabídek. V rámci tohto projektu jsme vyškolili desítku anotátorů, z řad studentů češtiny na Masarykově univerzite v Brně, kteří pak vytvořili trénovací data pro další fáze projektu.

Aplikace na hromadné rozesílaní e-mailů (modul Newsletter v informačním systému VincIS) dokáže pomocí metod strojového učení zpracovat navrácené e-maily a vyhodnotit, zda je adresát na dovolené, zda je e-mail neplatný, nebo adresát už v dané společnosti nepracuje a další.

Každá aplikace strojového učení představuje dlouhý proces, který musí začít úplným pochopením potřeb potenciálního zákazníka. Pokud si myslíte, že by nějaký proces ve Vaší firmě šlo řešit strojovým učením, rádi si s Vámi o tom promluvíme.

Novinky

Poštovní služby

30.12.2014

Posílení kapacity a vlastností

Více
DNSSEC

08.01.2015

Dokončena fáze zavedení DNSSEC

Více
Profesionální DATA CLOUD pro Váš podnik

30.01.2015

Více
Emailové služby

27.03.2014

Emailové služby Kamadu s antispamovou, antivirovou ochranou.

Více
Judikáty nejvyššího soudu ČR

15.12.2014

Vyhledávání soudních rozhodnutí

Více
NetDruid - Data Retention pro ISP

15.03.2014

Uchovávání a poskytování provozních a lokalizačních údajů

Více
Překlad do slovenštiny

30.10.2013

Překlad do slovenštiny a korektura slovenského textu výhodně, kvalitně, rychle

Více
Certifikační autorita Kamadu Atelieru

17.05.2013

Certifikační autorita Kamadu Atelier je privátní certifikační autorita, která splňuje současné bezpečnostní požadavky.

Více