gaois / Tearma

An Bunachar Náisiúnta Téarmaíochta don Ghaeilge
http://www.tearma.ie/
3 stars 0 forks source link

Suíomh Téarma á ransú le seoltaí ina bhfuil ionchódú na gcarachtar lochtach #27

Closed rodoch closed 5 years ago

rodoch commented 5 years ago

Is ceist é seo atá ar lean ó cheist eile a osclaíodh i stórlann Gaois.QueryLogger. Tá mionchur síos ar bhunús na faidhbe agus an fabhtcheartú a rinneadh go dtí seo ansin.

Bíonn innill chuardaigh i mbun ransaithe agus innéacsaithe ar shuíomh Téarma. Tugadh faoi deara sna logaí ar chuardaigh a choinníonn muid go mbíonn ionchódú lochtach ar charachtair a bhfuil sínte fada orthu i gcás iarratas áirithe ó innill chuardaigh áirithe (ag amharc ortsa a Mhicrosoft Bing):

logaí ar chuardaigh

Is cosúil gurb éard a tharlaíonn ná seo:

Chruinnigh mé liosta de na carachtair lochtacha a bhíonn ann agus a gcomhionainn in UTF-8:

UTF-8 Windows-1252
Á Ã
á á
Ó Ã“
ó ó
Ú Ãš
ú ú
Í Ã
í í
É Ã‰
é é

Más ea, ní fadhb dár ndéantús féin atá anseo; níl an suíomh ach ag déileáil leis na hiarratais sa riocht a dtagann siad chuige. An cheist dúinne ná ar mhaith linn 'cuidiú' leis na ransaitheoirí i gcásanna mar seo. Seo na roghanna atá ar fáil go bhfios domsa:

  1. Gan aon rud a dhéanamh - Ar Bing agus a mhacasamhla atá an locht anseo agus níl á dhéanamh againn ach ag freastal ar na hiarratais a sheolann siad chugainn.
  2. Na hiarratais lochtacha a athscríobh - Is féidir riail nó rialacha athscríofa a chur i bhfeidhm a d'aithneodh carachtar lochtach mar á agus a dhéanfadh athscríobh air mar á (agus, go roghnach, atreorú chuig an URL ceart). Ach tá deacracht anseo, cuid de na carachtair a aithníonn muid go bhfuil ionchódú lochtach orthu is carachtair dhlisteanacha iad i gcomhthéacsanna eile. Cuirim i gcás URL mar https://www.tearma.ie/q/as São Tomé agus Príncipe/ga/ a bhfuil toradh cuí ag freagairt dó. Dá mbeadh athscríobh i bhfeidhm dhéanfaí São Tomé a athscríobh mar Sáo Tomé, rud nach bhfuil ceart i ndáiríre.
  3. Ionchódú URL a dhéanamh ar gach nasc ar an suíomh - Faoi láthair léirítear formhór na nasc ar an suíomh le carachtair UTF-8 ghlana agus carachtair speisialta aistrithe ina HTML entities, ar nós /q/as São Tomé agus Príncipe/ga/. Dá ndéanfaí ionchódú URL orthu (trí leithéid Uri.EscapeDataString() a úsáid), is é sin gur /q/asS%C3%A3o%20Tom%C3%A9%20agus%20Pr%C3%ADncipe/ga/ a bheadh ann, is dóigh nach mbacfadh nó gur chuma dá n-aistreodh Bingbot go hionchódú carachtair eile iad.

Is dócha go molfainn an tríú rogha. Is é an ceann is mó oibre sa mhéid is go mba ghá breith ar gach áit a bhfuil nasc dinimicúil ann agus an t-athrú a dhéanamh ach ní dócha go bhfuil an t-uasfás acu ann. Ní shílim go bhfuil ceachtar den dá rogha eile iomlán sásúil.

Comhairle @oraghalb @michmech?

oraghalb commented 5 years ago

Nílim róthógtha le Rogha 3. Mholfainn Rogha 1. @michmech?

rodoch commented 5 years ago

Cén fáth nach bhfuil tú tógtha leis an tríú rogha @oraghalb? (Díreach ar eagla nár mhínigh mé rud éigin go soiléir.)

oraghalb commented 5 years ago

Má thuigim i gceart thú, chuirfeadh Rogha 3 cuma ghránna ar na URLanna. Ní theastódh sé seo uainn. An bhfuil dul amú orm?

rodoch commented 5 years ago

Ní bheadh sé sin le feiceáil ag an úsáideoir. Déanann an brabhsálaí seoltaí atá ionchódaithe mar sin a thiontú ar ais i bhfoirm atá inléite ag daoine (bain triail as https://www.tearma.ie/q/asS%C3%A3o%20Tom%C3%A9%20agus%20Pr%C3%ADncipe/ga/ a chur isteach i do bhrabhsálaí - ní fheicfidh an t-úsáideoir an méid seo fiú nuair a chliceálann siad ar an nasc ar an suíomh).

oraghalb commented 5 years ago

Tá go maith. Níl fadhb agam le Rogha 3 mar sin!

oraghalb commented 5 years ago

Actually, céard faoi má chóipeálann tú nasc sa treo eile, ón mbrabhsálaí isteach i rphost, mar shampla? Bheadh cuma ghránna air ansin, nach mbeadh? Ní bheadh sin sásúil dar liom.

rodoch commented 5 years ago

Má dhéanann tú cóipeáil trí dheaschliceáil > Cóipeáil suíomh an naisc, is ea, seo an chuma a bheadh air:

image

Mar sin, arbh fhearr leat cloí le Rogha 1? Bhí fonn orm cúrsaí a éascú do ransaitheoirí dlisteanacha mar seo ach aontaím leat nár cheart go mbeadh taithí an úsáideora thíos leis sin.

I gcas go mbíonn tuairisciú le déanamh ar staitisticí cuardaigh, bheadh sé furast go leor na hiarratais ó Bing a eisiamh nó a mhíniú ach na torthaí a scagadh leis na seoltaí IP nó na carachair lochtacha chuí.

rodoch commented 5 years ago

...Ar an láimh eile, áfach, feicim go bhfuil an nós sin i bhfad níos coitianta ná mar a cheapfá. Bain triail, mar shampla, as nasc ar bith de chuid GitHub ina bhfuil carachtair speisialta a chóipeáil.

oraghalb commented 5 years ago

Actually, seo mar atá ar Téarma cheana, mar sin is cuma.

rodoch commented 5 years ago

Tá go maith. Tá rogha (3) thuas curtha i bhfeidhm ar shuíomh Téarma anois. Coinneoimis an cheist seo ar oscailt ar feadh lá nó dhó eile agus déanfaidh muid an toradh a mheas ansin.

rodoch commented 5 years ago

Ócé, is cosúil go bhfuil an fhadhb seo fós ann. Braithim go bhfuil minicíocht na samplaí lochtacha níos ísle ach seans ach mbaineann sé sin leis an scéal. Is léir, áfach, go mbaineann an scéal seo le Microsoft Bing i gcónaí (is féidir é sin a dheimhniú ach féachaint ar na seoltaí IP) agus ba cheart go mbeadh sé indéanta go leor na ceisteanna seo a thuairisciú dá réir sin. Molaim an cheist seo a dhruideadh muna bhfuil moltaí ag aon duine eile?