[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
bug#56844: [PATCH] Refactor repunctuate-sentences to accommodate corner
From: |
Visuwesh |
Subject: |
bug#56844: [PATCH] Refactor repunctuate-sentences to accommodate corner case. |
Date: |
Tue, 02 Aug 2022 18:18:18 +0530 |
User-agent: |
Gnus/5.13 (Gnus v5.13) Emacs/29.0.50 (gnu/linux) |
[செவ்வாய் ஆகஸ்ட் 02, 2022] André A. Gomes wrote:
> Juri Linkov <juri@linkov.net> writes:
>
>>>> It now gracefully handles the case when abbreviations such as e.g. or
>>>> i.e. are used in sentences.
>>>
>>> [...]
>>>
>>>> + (regexp "\\([]\"')]?\\)\\([.?!]\\)\\([]\"')]?\\)
>>>> +\\([\"')[:upper:]]\\)")
>>>
>>> I'm not quite sure I understand this patch. Are you changing this to
>>> only consider punctuation that's followed by an upper-case character to
>>> be sentence-end punctuation?
>>
>> It would be better to add such heuristics to repunctuate-sentences-filter,
>> so anyone could customize it.
>
> In general I'd agree with you, but this patch is actually fixing a bug,
> not introducing a personal preference. That's how I see it at least.
This breaks repunctuate-sentences for languages that don't have the
concept of upper and lower case characters. Try repunctuate-sentences
with and without your patch for the following text,
தொழிற்சாலை யந்திரங்கள் தேவையான மட்டும் அந்தத் தொழிலாளர்களது சக்தியை உறிஞ்சித்
தீர்த்துவிடுவதோடு அந்த நாள் விழுங்கப்பட்டுவிடும். எந்தவிதமான எச்சமிச்சங்களும்
இல்லாமல்
அன்றையப் பொழுது அழிந்து கழியும்; மனிதனும் தனது சவக்குழியை நோக்கி ஓரடி
முன்னேறிவிடுவான். ஆனால் இப்போதோ ஒய்வின்