fivefilters / ftr-site-config

Site-specific article extraction rules to aid content extractors, feed readers, and 'read later' applications.
https://www.fivefilters.org/full-text-rss/
Other
370 stars 259 forks source link

tweakers.net pattern doesn't work anymore #887

Open CypherNL opened 3 years ago

CypherNL commented 3 years ago

Version of Full-Text RSS: 3.9.11 Version of Site Patterns: 2021-05-26T01:09:01Z

Most of the time i get [unable to retrieve full-text content] error using Tweakers.net. Since the script is from 2018 and the website got redesigned in that time, the pattern should be updated.

With the point-and-click interface, i could select the body in 3 types of articles on the site. Test links in the pattern here below:

News article:

# Generated by FiveFilters.org's web-based selection tool
# Place this file inside your site_config/custom/ folder
# Source: http://siteconfig.fivefilters.org/grab.php?url=https%3A%2F%2Ftweakers.net%2Fnieuws%2F182324%2Fgoogle-probeerde-telefoonmakers-privacy-instellingen-te-laten-verstoppen.html

body: //div[contains(concat(' ',normalize-space(@class),' '),' article ')]
test_url: https://tweakers.net/nieuws/182324/google-probeerde-telefoonmakers-privacy-instellingen-te-laten-verstoppen.html

Multi-page articles (not every page can be parsed so i think the best is just do the first page one):

# Generated by FiveFilters.org's web-based selection tool
# Place this file inside your site_config/custom/ folder
# Source: http://siteconfig.fivefilters.org/grab.php?url=https%3A%2F%2Ftweakers.net%2Freviews%2F9040%2Fbluetooth-trackers-round-up-zoekt-en-gij-zult-niet-altijd-vinden.html

body: //div[contains(concat(' ',normalize-space(@class),' '),' centeredContent ')]
test_url: https://tweakers.net/reviews/9040/bluetooth-trackers-round-up-zoekt-en-gij-zult-niet-altijd-vinden.html

Software updates:

# Generated by FiveFilters.org's web-based selection tool
# Place this file inside your site_config/custom/ folder
# Source: http://siteconfig.fivefilters.org/grab.php?url=https%3A%2F%2Ftweakers.net%2Fdownloads%2F56134%2Fparallels-desktop-160.html

body: //div[contains(concat(' ',normalize-space(@class),' '),' articleColumn ')]
test_url: https://tweakers.net/downloads/56134/parallels-desktop-160.html

I'm not sure how to edit the pattern for all the 3 types of articles and test it since i use an RSS reader that uses this service (Bazqux) and not self-hosting this service by myself. I hope this helps updating the pattern.

HolgerAusB commented 1 year ago

The config is doing nice at the moment, exept for images. BUT it seems that the site insist, that you are grabing too many pages in little time. When I curl one of these links I got the following result after about the fifth try:

           <h1>Sorry, je gaat even iets te snel</h1>
            <div class=description>
                <p>Het komt geregeld voor dat vanaf een IP veel pageviews naar Tweakers.net worden gestuurd, meer dan
                    gebruikelijk - zelfs voor hele grote organisaties zoals KPN, de Belastingdienst en de diverse
                    ministeries. Om onszelf te behoeden tegen (verdere) overlast houden we deze request tegen.</p>

                <p>
                    In de meeste gevallen zal deze melding verdwijnen na een minuut.
                </p>

                <p>Hier staat een aantal gebruikelijke oorzaken:</p>
                <ul>
                    <li>Proxy-servers, linkcheckers of crawlers die foutief ingesteld zijn en/of onze robots.txt
                        negeren
                    </li>
                    <li>Te enthousiaste feed-readers die elke paar seconden een RSS-feed opvragen</li>
                    <li>Iets wat op je toetsenbord ligt en de F5-knop ingedrukt houdt (bijvoorbeeld een kat of een
                        koptelefoon)
                    </li>
                </ul>
                <p>Naast bovenstaande redenen zijn ook misdragingen op Tweakers.net aanleiding om een IP te blokkeren.
                    Dan gaat het meestal om zaken als het doen van hack-pogingen of herhaaldelijk lastigvallen van
                    medegebruikers.</p>

                <p>Als je deze melding gedurende langere tijd te zien krijgt en je weet niet waar dat aan ligt,
                    stuur ons dan een e-mail. Ook voor verdere vragen of opmerkingen kun je mailen. Dat doe je dan naar <i><a
                        href='mailto:gathering@tweakers.net?subject=Rate%20limit%20op%202003:d9:d71e:d400:b26e:bfff:fe1d:eeff%2007:59:04-2390A'>gathering@tweakers.net</a></i>,
                    <b>meld daarbij ook jouw IP: 2003:d9:d71e:d400:b26e:bfff:fe1d:eeff en deze string: 07:59:04-2390A</b>.</p>
            </div>

Translation by deepl.com:

Sorry, you're going a little too fast

It happens regularly that from an IP many pageviews are sent to Tweakers.net, more than usual - even for very large organizations like KPN, the Tax Office and the various ministries. To protect ourselves from (further) inconvenience, we block this request...

I can't see, how to prevent this.