Опыт перевода математических LaTeX-статей в HTML конвертором LaTeX2HTML.

В Институте математики имеханики УрО РАН для подготовки печатных версий математических статей широко используется пакет EMTEX, поддерживаются и адаптируются его новые версии. Авторы статей не ограничивают себя в выборе средств для оформления: используют разнообразные математические шрифты (например, готические и ажурные), любые математические символы AmsTeXa, дополнительные стилевые файлы LaTeXa, вставляют графику и рисунки различных форматов: BMP, PCX, PS и других.

Для полного перевода сложных математических статей из формата LaTeX в формат HTML не всегда подходят простые конверторы (например, TtH), конвертирующие математические выражения и формулы с помощью символьных шрифтов (symbol fonts), т.к. значительная часть текста будет потеряна. С этой работой, несморя на ряд недостатков, справляется конвертор LaTeX2HTML, который успешно сочетает текстовое изображение математических выражений и генерацию недостающих образов в формате GIF.

В институте используются несколько версий транслятора LaTeX2HTML (LaTeX2HTML 96.1, LaTeX2HTML 97.1, LaTeX2HTML 98.1), которые работают под управлением ОС LINUX.

Версии транслятора отличаются друг от друга возможностями по форматированию текста и представлению математических выражений. Эти возможности определяются версией языка HTML, в котором должны быть получены выходные HTML-файлы. Язык HTML развививается, но ни одна из его распостраненных версий не поддерживает в полной мере язык математики.

В LaTeX2HTML 96.1 за основу принят HTML 2.0 с ограниченным набором средств, но подходящий для просмотра многими распостраненными броузерами. Более поздние версии транслятора поддерживают HTML 3.2. "Тэги" HTML 3.2 <SUP> и <SUB> позволили сделать математику управляемой.

С помощью конвертора LaTeX2HTML 96.1 был переведен 4 том сборника научных трудов "Труды ИММ" (26 статей, 373 страницы печатного текста). Каждая статья, написанная на LaTeXе, была конвертирована в набор связанных HTML-файлов, которые могут быть просмотрены с помощью автоматически сгенерированной навигатационной панели. LaTeX2HTML конвертирует внутренние ссылки LaTeXa на литературу, таблицы, формулы во внутренние гиперсвязи, позволяющие легко перемещаться по тексту. Математические выражения, рисунки, таблицы преобразуются в GIF-образы, которые автоматически правильно размещаются в выходных HTML-файлах. Следует четко представлять, что подготовка русской статьи на языке LaTeX для печати и подготовка ее версии для конвертирования в HTML - задачи разные. Корректировка статьи неизбежна.

В процессе работы были сформулированы основные правила корректировки русских статей на LaTeXe для их успешного перевода на язык HTML 2.0 конвертором LaTeX2HTML 96.1:
1. Использовать стандартные команды и окружения LaTeXa при оформлении статьи

(\title, \author, \begin{abstarct}, \section и т.п.).
2. Нельзя использовать команды работы со счетчиками
\setcounter{}, \renewcommand{}.
в основной части статьи. Если в исходном тексте использованы автоматические ссылки на формулы
\label, \ref,
то в экранной версии конвертированного документа будет сквозная нумерация (1),(2),... через все секции статьи. В преамбуле документа допустимы команды
\newcounter{\equation}[section], \renewcommand{\theequation}
{\arabic{section}.\arabic{equation}}
для правильной нумерации формул внутри каждой секции (1.1),(1.2),(2.1)....

3. Нельзя использовать русский текст внутри математических выражений, т.к. он не переносится в текст на HTML.

4. Не работают окружения типа "theorem", если в них содержится русский текст. Эти команды заменить на

{\bf Теорема 1.}{\it русский текст}.

Конвертор LaTeX2HTML 96.1 дает хорошее качество GIF-образов, приемлемое как для просмотра статьи на экране,так и для просмотра HTML-статьи, распечатанной на лазерном принтере. Разброс GIF-образов относительно текста практически не затрудняет чтение статьи. В институте используется формат Postscript (PS) для подготовки высококачественной графики. Рисунки других форматов легко переводятся в PS-форматы с помощью оболочки 4TEX без потери размера и качества рисунка. В свою очередь, внешние образы формата PS успешно размещаются в исходном LaTeX-файле и соответственно конвертором в выходных HTML-файлах как внешние образы. Для этого можно использовать дополнительные стилевые файлы psfig.sty, html.sty.

\begin{figure}
\centering\includegraphics[width=5in]{pr3.ps}
\end{figure}


\begin{figure}
\centering\includegraphics[width=5in]{itt.ps}
\end{figure}

Рис. 1. Пример цветных графиков формата PS, вставленных в LaTeX-файл и конвертированных LaTeX2HTML в HTML-файл.

Если в статье много рисунков, то, чтобы не загромождать первичный просмотр статьи, можно уменьшить в несколько раз размер рисунка с помощью команды

\htmlimage{thumbnail=0.5}.

Непосредственно во время просмотра внешнего образа его можно распахнуть. Для труднопереводимых элементов статьи (например, очень длинных таблиц) можно также использовать вышеуказанный принцип (непереводимый элемент - PS-образ - внешний образ HTML-файла).

\begin{figure}
\centering\includegraphics[width=5in]{psf.ps}
\end{figure}

Рис. 2. Пример LaTeXовской страницы, вставленной как внешний образ.


Конвертор 96.1 может быть успешно использована для перевода небольшого числа сложных математических статей с LaTeXа на язык HTML.

Конверторы LaTeX2HTML 97.1-98.1 позволяют управлять математикой внутри текста. Используя разные комбинации ключей командной строки конвертора, можно получать разные способы конвертации математических выражений:

1. Текстовое изображение математических символов и выражений, при невозможности такого преобразования - графический образ всего выражения ("simple" math).

2. Только образы математических выражений (совместимость с LaTeX2HTML 96.1).

3. Сочетание текстового соответствия и образов подвыражений.

(ключи: -no_math -html_version 3.2,math}).

Выбор способа зависит от количества и значимости математических выражений внутри текста.

Третий способ предпочтительнее для получения хорошего качества сложных математических текстов при минимальных затратах ресурсов компьютера (времени и памяти). Окружениям и командам LaTeXа, имеющим аналоги в HTML, конвертор ставит в соответствие "тэги" HTML 3.2. Остальные элементы выделяются в отдельные файлы, компилируются с помощью LaTeXа, переводятся программой DVIPS пакета TeX в PS-образы, затем с помощью пакета Ghostscript и библиотеки графических программ NETPBM в GIF-образы и размещаются в нужном месте документа. Графические файлы PS-формата будут вставлены в HTML-файлы как внешние образы, если в LaTeX-файле будет использоваться следующая последовательность команд:

\begin{figure}
\htmlimage{thumbnail=0.5}
\includegraphics[width=5in]{имя файла.ps}
\end{figure}

Достоинства этого способа представления математических выражений:

Недостатки, которые были выявлены при переводе сложных математических текстов конверторами LaTeX2HTML97.1-98.1:



ИММ УрО РАН u1904@cs.imm.uran.ru