www-pl-discuss
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [www-pl-discuss] NBSP; czyli niełamliwe spac je.


From: Paweł Różański
Subject: Re: [www-pl-discuss] NBSP; czyli niełamliwe spac je.
Date: Thu, 02 Sep 2010 20:22:03 +0200
User-agent: Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.1.11) Gecko/20100805 Icedove/3.0.6

On 01.09.2010 08:45, Paweł Różański wrote:

JO>> Jeśli ktoś dobrze znający sed napisałby filtr, który wyszukałby
JO>> spójników i przyimków:
JO>>
http://pl.wikipedia.org/wiki/Sp%C3%B3jnik_%28cz%C4%99%C5%9B%C4%87_mowy%29
JO>> http://pl.wikipedia.org/wiki/Przyimek
JO>> to mógłbym go stosować tuż przed wysłaniem pliku na serwer gnu.

Mogę skrobnąć skrypt do tego, ale potrzebuję dokładnych wytycznych
(warunki
wstawiania, kiedy wstawiać, kiedy nie wstawiać). Proponuję w Perlu,
bo po
pierwsze więcej da się zrobić, można używać warunków, ściągać plik ze
strony
(np. w celu weryfikacji, czy ma wstawione OK) i ma normalne wyrażenia
regularne (PCRE), a nie tę imitację, która jest w sed.

Czy jesteś w stanie napisać skrypt w Perlu, który by szukał spójnika
lub przyimka (lista spójników i przyimków na Wikipedii) nie
uwzględniając wielkości liter. Jeśli po spójniku/przyimku jest jedna
lub więcej spacja, zamienić spacje na ciąg znaków " "

Jestem (przy wstawianiu "na pałę" jest to wręcz trywialne), ale takie
podejście to typowy przykład, że "Każdy złożony problem ma proste,
błędne rozwiązanie".
Po pierwsze, lista spójników i przyimków na wiki nie jest kompletna. Po
drugie, nie jestem przekonany, że chcesz dawać &nbsp po takich
spójnikach jak: tudzież, aczkolwiek, jednak, natomiast, mianowicie,
jeżeli, ponieważ. Po trzecie, wspomniane teksty w <pre>.
Niemniej, w weekend postaram się skrobnąć coś, co ew. da się potem
rozwinąć do większej ilości reguł i wyjątków, oraz pozwoli na łatwe
modyfikacje reguł.

Skrypt w załączniku, opis w skrypcie. Lista z wiki - łatwo dopisać słowa samemu w pliku konfiguracyjnym. Nie uwzględnia obecności <pre> lub jej braku.
Czyta ze STDIN, pisze na STDOUT. Użycie:
cat plik.pl.po | perl insert_nbsp.pl
Plik konfiguracyjny musi być obecny w katalogu bieżącym (można zmienić w skrypcie ścieżkę). Czekam na uwagi, zwł. czy choć cień sensowności działania jest (sprawdziłem na jakimś pliku pl.po i na oko nie wyglądało źle, ale nie przyglądałem się szczegółowo).

Pozdrawiam,
Paweł

Attachment: insert_nbsp.tar.gz
Description: application/gzip


reply via email to

[Prev in Thread] Current Thread [Next in Thread]