はじめに
WordファイルをMarkdownへ変換するために、pandocというツールを使用した。その実行方法について記載する。
環境
- Windows11(ホストOS)
- WSL2
- Ubuntu 22.04.3 LTS(WSL2上)
環境構築
pandocをUbuntuにインストールする。
$ apt install -y pandoc
実行
実行コマンド
$ pandoc -s 入力.docx --wrap=none --extract-media=media -t gfm -o 出力.md
以下は、Markdownへ変換する際のオプションの説明です。
- --wrap=none
出力時のwrap(枠を超えないように複数行に折り返し指定する処理)の設定をします noneを指定することで、1行を72文字で折り返す処理を無効化します デフォルトだと勝手にwrapされる。
- --extract-media=DIR
出力先のフォルダを引数で指定する。 docxに埋め込まれたpngなどが抽出されて、指定した DIR フォルダ内に格納される
- -t gfm
出力形式として、gfm (GitHub-Flavored Markdown) はGitHub形式のMarkdownでを指定する デフォルトだとPandoc形式のMarkdownになる。
実行例
実際に次のtest.docxというファイルに対して実行した場合を記載する。
$ ls test.docx #変換 $ pandoc -s test.docx --wrap=none --extract-media=media -t gfm -o test.md #確認 $ ls -la drwxrwxrwx 1 ubuntu ubuntu 512 Apr 20 09:16 media -rwxrwxrwx 1 ubuntu ubuntu 392082 Apr 20 09:14 test.docx -rwxrwxrwx 1 ubuntu ubuntu 70 Apr 20 09:16 test.md #markdownの中身を確認 $ cat test.md # Aaaa ## Iiiii テスト文章です ![](media/media/image1.jpeg) #画像の確認 $ ls media/media/ image1.jpeg