〜「記事を書く」=「動画完成」の仕組みで、本業に集中する技術〜
はじめに:なぜ「ブログ動画化」なのか?
企業や個人でブログやオウンドメディアを運営されている皆さん、こんな悩みはありませんか?
「せっかく良い記事を書いたんだから、YouTubeにも動画として出したい」 「でも、動画編集をする時間が全くない……」
私もまさにこの壁にぶつかっていました。 ブログ記事を書いて、さらにそこから台本を作り、素材を集め、編集ソフトで切り貼りして……とやっていると、肝心の本業(実務)がおろそかになってしまうのです。
「動画マーケティングは重要」と分かっていても、動画作りに時間を取られて売上を作るための実務が止まってしまっては本末転倒です。
そこで思い立ちました。 「ブログ記事をアップした瞬間に、それが勝手に動画の『下書き』になっていればいいのでは?」
今回、Pythonと生成AI(OpenAI/Gemini)を駆使して、**「ブログURLを入れるだけで、Adobe Premiere Pro等の編集タイムラインを自動生成するツール」**を開発しました。 その開発の裏側と、業務効率化のヒントを前後編でお届けします。
今回は【基礎編】です。
1. 目指したのは「修正可能な」自動化
世の中には「テキストから動画を作るAIツール」がたくさんあります。しかし、既存のツールの多くは「MP4ファイル」として完結してしまうため、後から「ここの間(ま)を詰めたい」「テロップの位置を変えたい」といった微調整ができません。
これでは、企業のブランディングに合うクオリティ担保が難しい。
そこで今回は、以下の技術スタックを採用しました。
- 司令塔:Python(全体の処理を自動化)
- 頭脳:OpenAI GPT-4o / Gemini(記事の要約・構成)
- 声:OpenAI TTS(自然なナレーション生成)
- 出口:Premiere Pro XML(編集ソフトへ引き継ぐための設計図)
こだわりは最後の**「XML連携」です。 動画そのものを作るのではなく、「プロが編集ソフトで素材を並べ終わった状態」**を全自動で作ることにしました。これなら、最後の仕上げ(演出)だけを人間がやればOKです。
※ちなみに開発環境には、話題のAIエディタ「Cursor」と「Claude 3.5 Sonnet」を使用しました。コードの8割はAIに書かせています。
2. ステップ1:素材の自動収集(スクレイピング)
まずは「素材集め」の自動化です。 ブログ記事には、すでに「良質なテキスト」と「関連画像」があります。これを再利用しない手はありません。
Pythonのライブラリ(BeautifulSoupなど)を使い、指定したブログURLから以下の要素を抽出する仕組みを作りました。
- 記事の本文テキスト
- 記事内で使われている画像
ここで重要なのが**「ゴミ捨て」のロジックです。 ただ画像を全部保存すると、SNSシェアボタンや著者のアイコン、広告バナーなど、動画に不要な画像まで混ざってしまいます。 そこで、「横幅が小さい画像は無視する」「ファイル名に’icon’が含まれていたら除外する」といったフィルタリング機能を実装し、「動画に使えるメイン画像だけ」**を自動収集できるようにしました。
3. ステップ2:AI構成作家による「台本」生成
次に、集めたテキストを「動画用の台本」に変換します。 ブログの文章をそのまま読み上げると、YouTube動画としては堅苦しく、長すぎて視聴者が離脱してしまいます。
そこで、GPT-4o(AI)に「優秀な構成作家」になってもらいました。
- 「視聴者の興味を惹く『フック』を冒頭に入れて」
- 「『です・ます』調ではなく、語りかけるような口調で」
- 「全体を3分程度に要約して」
このような指示(プロンプト)を与えることで、ブログ記事の内容を損なわず、かつYouTube向きの構成案を数秒で出力させることに成功しました。 さらに、その台本データをOpenAIの音声合成APIに渡し、驚くほど自然なナレーション音声も同時に生成します。
4. ステップ3:魔法のXML生成
ここが今回の開発のハイライトです。 集めた画像と、生成した音声を、どうやってPremiere Proに渡すか?
ここで**「XML(Extensible Markup Language)」**というファイル形式を使います。 これは編集ソフトにとっての「設計図」のようなものです。Pythonを使って、以下のような指示書を自動で書かせます。
「0分00秒から0分10秒までは、この画像を表示して、同時にこの音声を流してね」
このXMLファイルを書き出し、Premiere Proで読み込むと……
ドン!

何もなかったタイムラインに、画像とナレーションがズラッと階段状に並びました。 再生ボタンを押すと、もう動画になっています。
今まで私が時間かけて行っていた「素材のダウンロード」「配置」「タイミング合わせ」という虚無の作業が、たった数十秒でプログラム処理で完了しました。
実際に今回出力した動画↓
元の記事のURL
【無料】自宅の低スペノートPCで、職場の最強開発環境をそのまま使うリモート設定方法
画像のリサイズや音声の調整等まだ課題点はありますが、下書きとしては使える程度にはなりました。
まとめ:本業に集中するためのAI活用
これで、「ブログを書く」という普段の業務を行うだけで、動画制作の**9割の工程(素材集め・構成・配置)**が終わる仕組みができました。
残りの1割、つまり「BGMを入れる」「テロップを装飾する」といった**「クリエイティブな仕上げ」**だけを人間が行えば、高品質な動画が完成します。 これなら、本業をおろそかにせず、持続可能な動画発信ができそうです。
さて、基礎部分は完成しましたが、実運用するにはまだ課題があります。
- 「ブログに画像がない記事はどうする?」
- 「AIを使いすぎるとコストが高いのでは?」
- 「文字テキストを自動で入れ込みたい」
- 「管理画面を用意して操作性や設定等を手軽にしたい」
- 「管理画面を用意して操作性や設定等を手軽にしたい」
次回は上記の課題に対して修正をしてさらにブラッシュアップをしていきたいと思います。