Jazykový korpus je zdrojom informácií o systéme slovenského jazyka a reálnom používaní jazykových prostriedkov vo veľkom rozsahu textov rôznych štýlov, žánrov, vecných oblastí, regiónov, vydavateľstiev, generácií a pod.
Slovenský národný korpus zahŕňa:
- hlavnú, primárnu databázu veľkého národného korpusu - písané texty z roku 1955 až 2008 v rozsahu 350 miliónov textových jednotiek s lematizáciou a morfologickou anotáciiou
- ručne morfologicky anotovaný korpus v rozsahu 1,2 milióna textových jednotiek
- ručne syntakticky anotovaný korpus v rozsahu 50 000 viet
- paralelné korpusy - francúzsko-slovenský, rusko-slovenský
- Slovenskú terminologickú databázu v rozsahu 3 500 terminologických záznamov
- Slovenský hovorený korpus - aktuálne disponuje 150 000 textovými jednotkami





