09 февраля 2011

Как создавать тексты для изучения языков

Disclaimer:

Это перевод статьи How to create parallel texts for language learning, оригинал которой находится здесь. Повествование от первого лица мужского пола сохранено переводчиком (то есть мной). За качество перевода прошу не судить строго.

Я хотел бы немного рассказать о двух способах создания параллельных текстов. Я считаю, что параллельные тексты это очень ценный ресурс для учебы, как я и писал ранее. Они дают возможность изучать язык намного быстрее, нежели по учебникам, т.к. они делают огромный объем контента мгновенно понятным.

К сожалению, параллельные тексты практически невозможно найти. Кажется, что купить можно только классическую литературу или поэзию. Назовите меня некультурным, но обычно мне быстро становится скучно от чтения книг, написанных в 19 веке. Я хочу читать что-нибудь с *интересным* сюжетом; обычно я читаю кучу фантастики и sci-fi, но для этих жанров даже платных текстов не найти. А еще платные тексты обычно не выровнены по предложениям или по абзацам… в лучшем случае они выровнены постранично, если вообще выровнены. Для легкого изучения нам нужно чтобы каждая маленькая частичка текста стояла рядом с переводом для более легкого сопоставления.

Думаю, будет более реалистичным предположить, что нам придется делать параллельные тексты самостоятельно, или можно кого-нибудь попросить сделать их для нас. В данном случае, я расскажу как я делаю параллельные тексты, а вы можете попробовать сделать их сами.

Теперь перейдем к основам. Начнем с того, что нам понадобится 2 электронные книги. Мне все равно где вы их возьмете, это не моя проблема. Можно найти их в библиотеке Проекта Гуттенберга, или купить современные электронные книги в сети (например я нашел несколько датских электронных книг и аудиокниг в формате mp3 здесь). Или можно взять на время у друга. Идеально, вам нужно место, которое не продает поврежденные файлы, как гады с audible.com. Я действительно очень хочу купить у них множество аудиокниг, но я просто не могу проиграть их на моей операционной системе т.к. они защищены DRM. Некоторые другие магазины тоже продают электронные книги, защищенные DRM, которые открываются только на определенных устройствах и которыми нельзя поделиться с соседом. Это плохо… соседям надо помогать :)

Так или иначе, вернемся к электронным книгам. Нам нужны две книги: первая на изучаемом языке, и вторая на языке, который вы действительно хорошо понимаете (будем надеяться, что это ваш родной язык, если перевод на него вообще существует). Следующим шагом будет создание текстовой версии этих книг, т.к. с ними легче работать чем с другими форматами, такими как PDF или EPUB. Существуют различные программы, которые умеют конвертировать в разные форматы электронных книг, но я использую просмотрщик документов Okular, который умеет читать PDF, EPUB и экспортировать в текст, давая на выходе «чистый» файл.

На следующем этапе, нам нужно выровнять эти тексты. Это значит, что нам нужно создать файл, в котором эквивалентные абзацы или предложения будут сопоставлены друг с другом. Например, файл, который я сейчас читаю, содержит отдельные предложения на голландском в левой колонке, и каждое предложение имеет пару в переводе на английский в правой колонке. Существует два способа сделать также: первый требует много времени, но технически очень простой, а второй более быстрый, но требует компьютерных навыков.

В этой статье, я опишу «простой» путь, а моя следующая статья будет для тех, кто знают что я подразумеваю под такими штуками как emacs, регулярные выражения и Makefile. Вы знаете кто вы. Те же, кто не узнает эти программные термины, но все равно желает протестировать свои растущие компьютерные способности, прочитайте статью, которую я опубликую через несколько дней. Тот метод требует гораздо меньше ручной рутинной работы. Но сейчас, менее технический способ!

Сначала, нам нужно заменить все пустые линии (напр. [ENTER][ENTER]) в книге на что-нибудь уникальное (например какую-нибудь странную букву Ĉ, которая не существует в этом языке), чтобы сохранить переносы между абзацами. Затем удаляем все оставшиеся [ENTER]ы из документа, чтобы он стал одной строкой. Теперь нам нужно восстановить переносы у абзацев заменой Ĉ на перенос строки, что даст нам возможность каждый абзац расположить на новой строке. Проделываем это с обеими книгами. На этом этапе мы избавились от кучи [ENTER]ов, которые лишь разделяли отдельные предложения на куски без необходимости. Нам сейчас нужно лишь отделить абзацы.

Теперь, когда у нас есть набор отдельных абзацев, открываем любой редактор таблиц (например openoffice.org, gnumeric, koffice или даже тот известный от Microsoft, если ничего друго нет), и создаем таблицу из двух колонок и одной строки. Вставляем один язык в левую колонку, и второй язык в правую колонку. Убедимся, что каждый абзац находится на одной линии со своим соседом на другом языке и добавим дополнительные [ENTER]ы, чтобы их выравнять. Иногда бывает нужно разделять абзацы на более мелкие куосчки, чтобы это сделать.

В конце, когда мы знаем, что все абзацы выравнены, удаляем лишние строки меняя [ENTER][ENTER] на просто [ENTER] (может быть даже несколько раз, если необходимо), и теперь у нас один абзац в каждой строке. Теперь копируем и вставляем как ячейки таблицы, так, что текст на каждом языке остается в одной колонке, а абзацы расположены построчно. Мы видим, что каждый абзац теперь в новой строке и сопоставленные абзацы встают рядом друг с другом!

Оговорюсь, что я никогда не пытался все это провернуть сам, так что возможно вам придется поэкспериментировать немного если что-то не будет получаться. Я просто хотел описать способ, который не требует быть хакером. Я слышал об этом методе от людей, которые успешно его использовали много раз, и я видел результат их работы (например выровненный по-абзацно китайско-английский Гарри Поттер), так что я знаю, что он неплохо сработал для них.

В следующий раз я расскажу больше о моем автоматизированном способе, но я хочу автоматизировать его немного больше. Я думаю, у меня получится убрать пару шагов на этапе разделения на предложения с использованием другого маленького скрипта, так что может быть я смогу автоматизировать все от начала и до конца. Будем надеяться, что этот способ станет более доступным для других.

А пока, продолжайте читать!

2 комментария:

aabram комментирует...

> К сожалению, параллельные тексты практически невозможно найти

Не совсем. Для русскоязычных имеетсья серия "Метод чтения Ильи Франка", см. http://www.franklang.ru. У них (у него?) целая серия книг параллелными текстьами. Книги разные по качеству но достаточно дешёвые. У меня около десяти в разных языков.

(Пардон мой русский язык, я давно им не ползовал)

Vera Surkova комментирует...

У вас отличный русский :)
К сожалению, далеко не все, что бы хотелось прочитать, доступно в сериях Ильи Франка. Про него я знаю, конечно же. Ситуацию еще осложняет то, что я уже не живу в России, а значит книги эти достать чуть сложнее.