‘Tá 100 milliún focal bailithe againn - ní beag an méid é sin’

Tá breis agus 170,000 doiciméad ó 800 foinse, le níos mó ná 2,150 údar, san áireamh i gCorpas Náisiúnta na Gaeilge

Láithreoirí na hAimsire ar TG4: Caitríona Nic an tSaoir, Darragh Ó Caoimh agus Orla Ní Fhinneadha. Tá breis agus 100,000 focal sa Chorpas a bhaineann leis an aimsir. Grianghraf: le caoinchead ó TG4.
Láithreoirí na hAimsire ar TG4: Caitríona Nic an tSaoir, Darragh Ó Caoimh agus Orla Ní Fhinneadha. Tá breis agus 100,000 focal sa Chorpas a bhaineann leis an aimsir. Grianghraf: le caoinchead ó TG4.

FOCLÓIR: Tomhas - guess; comhghairdeas - congratulations; leaganacha malartacha - alternative versions; sult - pleasure; docht - rigid; meaisín-ionchódaithe - machine encoded; comhlogaíochtaí - collocations.

Ar thomhais tú riamh cé acu den dá fhocal ‘comhghairdeas’ nó ‘comhghairdeachas’ is ceart a úsáid agus tú ag tréaslú le duine éigin?

Tá an-chuid focal mar iad sa Ghaeilge a eascraíonn ón bhfréamh chéanna agus arb ionann iad ó thaobh brí de. Ach, de bharr foirmeacha éagsúla a bheith sna canúintí réigiúnacha, deirtear agus litrítear iad ar bhealaí eile.

Samplaí iad práta, preáta agus fata; madra, mada agus madadh; leanacht agus leanúint; nóiméad, nóimeat agus bomaite.

READ SOME MORE

I bhFoclóir Gaeilge-Béarla Uí Dhónaill (FGB), a foilsíodh in 1977, tugadh aitheantas caighdeánach mar cheannfhocal do cheann amháin de na focail i gcnuasaigh focal den chineál seo (comhghairdeas, práta, leanúint, madra agus nóiméad sna samplaí thuas), agus tugadh ‘leaganacha malartacha’ ar an gcuid eile.

Má bhreathnaíonn tú ar ‘comhghairdeas’ san fhoclóir, feicfidh tú ‘var: comhghairdeachas’ luaite taobh leis. Tugann an ‘var’ sin, nó an crostagairt ‘=’ i gcásanna eile, le fios gur leagan malartach atá ann.

Ní hé go bhfuil na leaganacha malartacha mícheart nó go bhfuil toirmeasc ar na foirmeacha canúnacha seo a úsáid sa scríbhneoireacht nó sa chaint, níl ann ach nach mbaintear úsáid astu i dtéacsanna foirmiúla.

In 1979, breis agus fiche bliain tar éis fhoilsiú An Chaighdeáin Oifigiúil (1958), scríobh Niall Ó Dónaill, údar FGB, san iris Comhar faoin gcontúirt go gcuirfí an Caighdeán Oifigiúil i bhfeidhm “chomh docht sin agus go mbacfadh sé fás na teanga”.

“Ar feadh tamaill sna caogaidí bhí an chuma air gur síleadh nach raibh focal ar bith ceadaithe ach an méid a luadh i lámhleabhar [Rannóg an Aistriúcháin].

“Ach de réir a chéile d’aithin daoine go scriosfaí leath na teanga leis an dearcadh sin,” a scríobh sé.

Mar a tharla sé, níor plúchadh na leaganacha malartacha le caighdeánú na Gaeilge, agus is minic iad le cloisteáil sa chaint.

Agus tá tábhacht leo. Tugann siad tuiscint dúinn ar shaibhreas teanga, ar fhoirmeacha ársa atá fós beo sa chaint, agus spléachadh ar ghné thábhachtach teangeolaíochta den teanga a chuireann le féiniúlacht an phobail labhartha.

Anois, le cabhair ó Chorpas Náisiúnta na Gaeilge (corpas.ie) - acmhainn cheannródaíoch a seoladh go hoifigiúil Dé hAoine seo caite - is féidir le haon duine spléachadh a fháil ar úsáid fhoirmeacha éagsúla, ar nós na leaganacha malartacha sa Ghaeilge chomhaimseartha.

Meascán d’ábhar scríofa agus d’ábhar labhartha tras-scríofa a bhaineann leis an tréimhse 2000-2024 atá san áireamh.

An grúpa taighde Gaois, Fiontar & Scoil na Gaeilge, DCU, le tacaíocht ó choiste comhairliúcháin idir-ollscoile, a rinne an obair.

“Is éard atá ann go bunúsach ná bailiúchán ollmhór téacsanna atá roghnaithe ar bhealach go dtugann siad pictiúr duit ar an teanga mar atá sí in úsáid,” a dúirt an Dr Úna Bhreathnach, Bainisteoir Eagarthóireachta agus Ollamh Cúnta le Fiontar & Scoil na Gaeilge, DCU.

“Tugtar léargas ar shaghsanna éagsúla téacsanna - ábhar béaloidis, leabhair, reachtaíocht, tuairiscí, scrúduithe, cáipéisí oifigiúla agus neamhoifigiúla - gach réimse den teanga mar a úsáidtear í.”

Tá an t-ábhar eagraithe i mórchorpas agus i dtrí fho-chorpas: Corpas Náisiúnta na Gaeilge (100 milliún focal), Corpas na Gaeilge Scríofa (130 milliún focal), Corpas na Gaeilge Labhartha (9 milliún focal) agus Corpas Monatóireachta na Gaeilge (milliún focal in aghaidh na bliana ón mbliain 2000 ar aghaidh).

Tá breis agus 170,000 doiciméad ó 800 foinse, le níos mó ná 2,150 údar, san áireamh.

“Tá muid ag obair ar seo le trí bliana,” a mhínigh an Dr Bhreathnach.

“Cuid mhaith oibre bleachtaireachta agus póirseála a bhí ann. Tá 100 milliún focal bailithe againn - ní beag an méid é sin.”

“Fuaireamar cuid den ábhar ó fhoilsitheoirí, agus cuid eile i bhformáid PDF nó Quark. Bhí orainn OCR [próiseas aistriúcháin go cód meaisín-ionchódaithe] a dhéanamh, slacht a chur air, an téacs a ghlanadh, briseadh línte a cheartú, agus léaráidí a bhaint amach. Bhí cuid mhaith próiseála i gceist leis sin.”

Is féidir eolas a fháil maidir le minicíocht na bhfocal, chomh maith le hiniúchadh a dhéanamh ar ghnéithe ar nós úsáid na mbriathra, ar fhoirmeacha éagsúla de bhriathra agus ar phatrúin úsáide focal.

“Sin an rud atá i gceist le corpas, gur féidir taighde a dhéanamh ar an teanga mar a bhíonn sí in úsáid sa lá atá inniu ann,” a dúirt an Dr Bhreathnach.

Ní hamháin go mbainfidh taighdeoirí agus teangeolaithe leas as an áis seo, ach beidh sí fíorluachmhar do nuachainteoirí agus d’fhoghlaimeoirí na Gaeilge freisin.

“Má tá tú ag iarraidh an teanga a fhoghlaim, is bealach maith é le breathnú ar an chaoi a oibríonn an teanga,” a dúirt an Dr Bhreathnach.

“Tá an leabhar gramadaí go maith, agus tugann sé sin na rialacha duit, ach tugann sé seo an fhianaise duit, ó thaobh cén chaoi atá an teanga in úsáid.”

“An Ghaeilge mar a labhraítear í atá ann, mar a déarfá,” a dúirt sí.

“Tá Bailiúchán Béaloidis Árann ann, tá béaloideas ó Thír Chonaill agus roinnt drámaí le hAisteoirí Bulfin ann, tá ábhar tras-scríofa ón Saol ó Dheas ann, ó Bharrscéalta agus ó Iris Aniar chomh maith leis na scripteanna ó Ros na Rún.”

Tá ábhar eile ann freisin a bailíodh ó ábhar reachtaíochta, tuairiscí oifigiúla, tvuíteanna agus ábhar ó Facebook, chomh maith le hirisí, úrscéalta, blaganna, tráchtais, díospóireachtaí parlaiminte, leabhair do pháistí agus amhráin Ghaeilge.

Ceann de na réimsí eile a dhírigh na taighdeoirí orthu i mbliana ná ábhar ó mhíreanna aimsire TG4 agus tá breis agus 100,000 focal sa Chorpas a bhaineann leis an aimsir.

“Tá sé an-spéisiúil. Is léir gur tugadh an-saoirse do na láithreoirí, agus tá sé an-chanúnach sa chaoi a gcuireann siad síos ar an aimsir,” a dúirt an Dr Bhreathnach.

“Tá sé sin an-mhaith mar fhianaise ar an teanga labhartha. Má chuardaíonn tú an focal ‘báisteach’ sa Chorpas mar shampla, tiocfaidh tú ar gach cineál cur síos ar an mbáisteach.”

Chuardaigh bhur gcolúnaí an focal ‘báisteach’, agus i measc na gcomhlogaíochtaí - sé sin na focail eile a luadh leis sa Chorpas - bhí múraíl, stealladh, bogha, díle, cith, brádán, ráig, clagarnach, agus ar ndóigh, ‘braon’.

Ach ainneoin líon na bhfocal atá bailithe, an bhfuil baol ann ó thaobh saibhris na teanga de, nuair nach féidir ach na blianta 2000-2024 a mheas?

“Tá, agus tuigimid é sin,” a dúirt an Dr Bhreathnach.

“Is roimh an mbliain 2000 a scríobhadh cuid mhór den Ghaeilge is saibhre, agus níl aon cheist faoi sin.

“Ach, os a choinne sin, tabharfaidh obair an Acadaimh Ríoga - agus an foclóir stairiúil atá á chruthú acu - tú suas go dtí an bhliain 2000. Ní raibh muid ag iarraidh an obair a dhéanamh faoi dhó.”

Agus í ag seoladh an Chorpais go hoifigiúil i Leabharlann Uí Chreagáin in Ollscoil Chathair Bhaile Átha Cliath ar an Aoine, dúirt iar-Cheann Scoile Fiontar agus foilsitheoir Cois Life, an Dr Caoilfhionn Nic Pháidín, gur “prionsabal tábhachtach” é go mbeadh idir-inoibritheacht idir an Corpas “agus aon chorpas eile Gaeilge atá ann nó a bheidh ann san am atá le teacht.”

Tá an teicneolaíocht dhigiteach ina dlúthchuid dár ngnáthshaol laethúil anois, agus creideann an Dr Bhreathnach go bhfuil ‘an-tábhacht’ ag baint le huirlisí mar seo i gcomhthéacs teanga mionlaithe ar nós na Gaeilge.

“Ar ndóigh, tá gá le hacmhainní digiteacha do gach teanga chun cumarsáide agus sa chaoi gur féidir saol iomlán - as líne agus ar líne - a chaitheamh sna teangacha sin.”

Dúirt an Dr Nic Pháidín go bhfuil réabhlóid na teicneolaíochta “tar éis scéal na n-acmhainní teanga a athrú ó bhonn.”

“Tá corpais chuimsitheacha, dea-dheartha, agus rochtain éasca orthu, bunriachtanach do theanga ar bith inniu a bhfuil todhchaí in ann di.

“Agus, tús maith ar an mbóthar sin is ea Corpas seo na Gaeilge.”

Tá sé i gceist go leanfar ar aghaidh le hobair an Chorpais an bhliain seo chugainn, agus béim a chur ar an stóras focal a mhéadú.

“Tá maoiniú againn anois ó Roinn na Gaeltachta don bhliain seo chugainn, agus tá sé i gceist againn níos mó leabhar a bhailiú,” a dúirt an Dr Bhreathnach.

“Sin é an príomhthasc atá againn don bhliain seo chugainn.”

Éanna Ó Caollaí

Éanna Ó Caollaí

Iriseoir agus Eagarthóir Gaeilge An Irish Times. Éanna Ó Caollaí is The Irish Times' Irish Language Editor, editor of The Irish Times Student Hub, and Education Supplements editor.