Migration PHP

Website mit Markdown für AI-Crawler optimieren

Die Website wird von KI-Crawlern in einem Bruchteil einer Sekunde gelesen und ausgewertet. Aber selbst dies lässt sich noch weiter beschleunigen, wenn TYPO3 kein HTML sondern Markdown für den KI-Bot zurückliefert.

Denn Markdown enthält keine unnötigen optischen oder funktionale Resourcen sondern fokussiert sich auf den Inhalt. Auch die Vielzahl an HTML-Tags können bei der Übertragung ganz einfach eingespart werden.

Um das einzurichten, braucht es lediglich eine kleine Middleware in eurer Sitetemplate-Extension. In nachfolgendem Beispiel liefert die Website sofort MD statt HTML zurück, falls der anfragende Browser oder Crawler Markdown unterstützt:

<?php declare(strict_types=1); namespace In2code\In2template\Middleware; use League\HTMLToMarkdown\HtmlConverterInterface; use Psr\Http\Message\ResponseInterface; use Psr\Http\Message\ServerRequestInterface; use Psr\Http\Message\StreamFactoryInterface; use Psr\Http\Server\MiddlewareInterface; use Psr\Http\Server\RequestHandlerInterface; /** * Returns a Markdown representation of the rendered page when the client * announces `Accept: text/markdown`. The HTML pipeline runs unchanged; this * middleware only post-processes the resulting body. */ final class MarkdownContentNegotiation implements MiddlewareInterface { private const string ACCEPT_TOKEN = 'text/markdown'; private const string CONTENT_WRAPPER_ID = 'content'; private const int TOKEN_CHAR_RATIO = 4; public function __construct( private readonly HtmlConverterInterface $htmlConverter, private readonly StreamFactoryInterface $streamFactory, ) { } public function process(ServerRequestInterface $request, RequestHandlerInterface $handler): ResponseInterface { $response = $handler->handle($request); if ($this->isMarkdownNegotiated($request) && $this->isHtmlResponse($response)) { $response = $this->convertResponseToMarkdown($response); } return $response->withAddedHeader('Vary', 'Accept'); } private function isMarkdownNegotiated(ServerRequestInterface $request): bool { return str_contains($request->getHeaderLine('Accept'), self::ACCEPT_TOKEN); } private function isHtmlResponse(ResponseInterface $response): bool { return str_contains($response->getHeaderLine('Content-Type'), 'text/html'); } private function convertResponseToMarkdown(ResponseInterface $response): ResponseInterface { $html = (string)$response->getBody(); $contentFragment = $this->extractContentFragment($html); $markdown = trim($this->htmlConverter->convert($contentFragment)); return $response ->withHeader('Content-Type', 'text/markdown; charset=utf-8') ->withHeader('X-Markdown-Tokens', (string)$this->estimateTokenCount($markdown)) ->withHeader('ETag', '"' . md5($markdown) . '"') ->withoutHeader('Content-Length') ->withBody($this->streamFactory->createStream($markdown)); } private function extractContentFragment(string $html): string { $fragment = $html; $previousState = libxml_use_internal_errors(true); $dom = new \DOMDocument(); if ($dom->loadHTML('<?xml encoding="UTF-8">' . $html, LIBXML_NOERROR | LIBXML_NOWARNING)) { $contentNode = $dom->getElementById(self::CONTENT_WRAPPER_ID); if ($contentNode !== null) { $fragment = (string)$dom->saveHTML($contentNode); } } libxml_clear_errors(); libxml_use_internal_errors($previousState); return $fragment; } private function estimateTokenCount(string $markdown): int { return (int)ceil(mb_strlen($markdown) / self::TOKEN_CHAR_RATIO); } }

Damit das Ganze funktioniert, braucht es allerdings noch ein Drittpaket, das ihr via composer.json einfach hinzuladen könnt:

{ "name": "in2code/cms-boilerplate", "description": "in2code GmbH TYPO3 CMS Boilerplate", "license": "GPL-2.0", "require": { "league/html-to-markdown": "^5.1", ...

Tipp: Ob das Ganze auch wirklich funktioniert, könnt ihr anschließend mit einem einfachen CURL-Befehl selber testen:

curl -ks -H 'Accept: text/markdown' https:// local.website.de/

TYPO3: Unbenutzte Dateien im fileadmin finden

Ihr wollt unbenutzte oder verwaiste Dateien im fileadmin oder einer anderen Storage löschen? Leider gibt es hier nichts direkt vom Core. Aber ein kleiner Command in eurem Sitepackage hilft schnell...

Zum Beitrag
Code

TYPO3: Redakteure mit individuellen user_upload Folder

Vielleicht kennt ihr die Kundenanforderung? Redakteure sollen Videos über den Button "Add media by URL" hinzufügen können. Aber die Dateien sollen sich dann nicht in fileadmin/user_upload/ sondern in...

Zum Beitrag

TYPO3: Seiten im Mixed Mode finden

Mixed Mode bezeichnet man in TYPO3 übersetzte Seiten, auf denen sich Seiteninhalte befinden, die nur zum Teil eine Relation auf entsprechende Seiteninhalte in der Hauptsprache haben. Dies wird im...

Zum Beitrag
Code of the TYPO3 extension powermail

Extbase Extensions: An Erweiterbarkeit denken mit data, site und language

Heute mal eine kleine Bitte an die TYPO3-Extension-Autoren da draußen: Achtet auf Erweiterbarkeit eurer Extensions. Dies fördert dann auch die Verbreitung der entsprechenden Plugins.

Zum Beitrag

SQL: Zeige alle Tabellen absteigend nach Größe sortiert

Ich brauche in letzter Zeit häufiger den SQL-Befehl, um herauszufinden, welche Tabellen in der TYPO3-Datenbank am größten sind. Ich habe das Snippet einmal veröffentlicht.

Zum Beitrag
Hände tippen auf Laptop

TYPO3 12 mit CKEditor 5: Stile als Einfachauswahl

Wenn man im RTE in TYPO3 einen Link setzt, kann es sein, dass man zwischen verschiedenen Link-Klassen auswählen muss, um beispielsweise Buttons im Frontend zu erzeugen. Neu ist in TYPO3 12 dass man...

Zum Beitrag
Computerscreen with JavaScript code