Hizkuntza corpusa datu-bilduma handia da, liburutegi erraldoi baten parekoa, egitaratuta, erabilera errealetan oinarrituta eta linguistikoki prozesatua, hizkuntzaren atal baten erakusgarri legez erabiltzen dena. Proiektua duela 4 urte ipini zuten martxan, corpus handiagoa eta orekatuagoa izatea beharrezkotzat jo zutelako.
Euskaltzaindiak Euskal Herriko 68 erakunde pribatu eta publikogaz batera lan egin du hori sortzeko, horien artean, HIRUKA komunikabideagaz ere. 123.124 dokumentu bildu dituzte lehen bertsioan.
Testuak lematizatu eta sailkatu dira, lema, forma eta kategoria gramatikalen bidezko kontsultak egin ahal izateko. Urtero eguneratuko da, testuak gehitzeko, hutsuneak osatzeko eta ahalik eta erreferentzialtasunik handiena lortzeko. Liburuetatik datozen testu-hitzak 68,42 milioi dira (% 44,37), HIRUKA gisako aldizkako argitalpenetatik 72,49 milioi (% 47,01), sarerako berariaz idatzitakoak 4 milioi (% 2,59) eta bestelako edukiak (argitalpen bereziak, liburuxkak, gidoiak…) 9,3 milioi (% 6,03) testu-hitz.