音声AIがこれほど身近になったことはありません。
今日では、誰でもElevenLabsのようなツールにテキストを貼り付けるだけでナレーションを入手できます。しかし一度試したことがある方なら、単にテキストを貼り付けてタブ上のスライダーを数回動かすだけでは、スタジオ品質で実際に人間らしい音声は得られないことをご存知でしょう。
あらゆるAIツールと同様に、プロ級のナレーション、魅力的なポッドキャスト、リアルな音声(ElevenLabs使用時)を得る鍵は、プロンプトの出し方にあります。
さて、テストを重ねた結果、すぐに始められる40のElevenLabsプロンプトをまとめました。
ElevenLabsとは?
ElevenLabsは、50以上の言語でテキストをリアルな音声に変換するAI音声プラットフォームです。直感的で高度な制御機能を備え、プロフェッショナルな音声コンテンツを大規模に生成する必要がある作成者、プロデューサー、開発者のために設計されています。
オーディオブックから広告、ポッドキャスト、ゲームまで、ElevenLabsでやること ⭐
- 音声加工:声質を変換、バックグラウンドノイズからボーカルを分離、またはカスタムボイスをゼロから複製・設計
- カスタムキャラクター:ビデオゲームキャラクター、オーディオブックのナレーター、ブランドキャラクターなど、独自の声をゼロから構築
- 会話型エージェント:自然な話し方で音声対話をリアルタイム処理するAIアシスタントを展開
- 効果音と音楽:従来の録音なしで環境音、トランジション、BGMを制作
- 多言語吹き替え:元の話者の声をそのままに、既存の音声データを異なる言語へ翻訳します
- テキストと音声の同期: 既存の録音と文字起こしを同期させ、正確な編集や字幕作成を実現します
- 画像とビデオ生成:様々なAI画像プロンプトを試してビジュアルコンテンツを作成(2026年1月現在ベータ版)
ElevenLabsプロンプトとは?
ElevenLabsのプロンプトとは、ElevenLabsで希望する出力を生成・誘導するために入力する指示セットです。以下の方法で結果を制御できます:
- 対話内容、物語の文脈、感情表現、発音タグ、さらには効果音の説明まで詳細に記述したテキストプロンプトを入力します
- 音声クローンやリミックス用に参照用音声サンプルをアップロード
- 音声ライブラリからプリセットボイスを選択
- 安定性と創造性の設定を実験し、声のニュアンスを微調整
音声エージェントを活用する作成者は、AIの中核となる性格・役割・ルール・会話行動を定義する指示ブループリントも構築可能です。このシステムプロンプトにより、ブランド要件に沿った一貫した応答(声質・トーン)が保証されます。
🧠 豆知識:音声合成装置の最初のものは、1791年にヴォルフガング・フォン・ケンペレンによって作られました。ベローズ、リード、革管を用いて人間の声帯構造を模倣し、実際の話し声とは程遠い、不気味な笛のような音を生み出しました。
効果的なElevenLabsプロンプトの書き方
効果的なプロンプト作成は、描写的な詳細と明瞭さのバランスを取る行為です。AIツールに提供する情報(トーン、感情、アクセント、語り口)が多ければ多いほど、出力結果はあなたの意図に近づきます。
ElevenLabsプロンプトを構成する際に使えるチートシートはこちら👇
1. 物語形式でプロンプトを書く
音声化したいテキストを入力し、音声タグ(throughout)を使用して出力の形を調整してください。
オーディオタグを組み合わせて使用できます。例:
| タグ | 機能概要 | 例 | 使用例 |
| 感情タグ | これらのタグは音声の感情的な調子を設定します | [笑う]、[さらに大笑い]、[笑い始める]、[喘ぐ]、[悲しい]、[怒っている]、[嬉しそうに]、[悲しげに] | [悲しげ] その夜は眠れなかった |
| サウンドエフェクト | 環境音や効果音を追加 | [銃声]、[拍手]、[手拍子]、[爆発音]、[飲み込む音]、[ゴクゴク] | [拍手] 今夜お集まりいただきありがとうございます![銃声] あれは何だ? |
| 音声関連タグ | トーン、演技の強度、人間の反応を定義します | [ささやき][ため息]、[息を吐く]、[皮肉な]、[好奇心旺盛な]、[興奮した]、[泣いている]、[鼻を鳴らす]、[いたずらっぽい] | [ささやく] 彼らに聞かれてはいけない |
| ユニークで特別なタグ | 創造的な用途に向けた実験的なタグ | [強いフランス語アクセント] | [強いフランス語訛り] それが人生さ、友よ——すべてをコントロールできるわけじゃない。 |
音声タグはスクリプト内の任意の位置(任意の組み合わせで)に配置でき、その形を調整できます。具体的な用途に合う表現を見つけるため、感情状態や動作を詳細に記述したタグを試しに組み合わせてみてください。
AI音声モデルでは、テキスト構造が出力結果に大きく影響することを覚えておいてください。自然な話し言葉のパターン、適切な句読点、明確な感情的文脈を活用することで、最良の結果を得られます。
💡 プロのコツ: 「強化」ボタンをクリックするだけで、入力テキストに関連する音声タグを自動生成できます。
2. 標準化ガイドラインを追加する
AIモデル、特に限られたデータで訓練された小規模なモデルは、電話番号、郵便番号、電子メールアドレス、URLなどの複雑なデータタイプを処理するのに苦労します。
そのような場合は、プロンプトにノーマライゼーションの指示を追加してください。テキストをどのように読み上げたいかを指定します。
正規化の例とプロンプト内での構成方法:
| 入力タイプ | 入力タイプ | 出力形式 |
| 基数詞 | 123 | 123 |
| 序数 | 2番目 | 第二 |
| 金銭的価値 | 45ドル。67 | 45ドル67セント |
| ローマ数字 | XIV | 十四(タイトルの場合は「第十四」) |
| 一般的な略語 | Dr. Ave. St. | DoctorAvenueStreet(ただし「St. Patrick」は残すこと) |
| URLs | elevenlabs.io/ドキュメント | eleven labs dot io slash ドキュメント |
| 日付 | 2023年2月1日 | 2023年1月2日または2023年2月1日(地域設定による) |
| 時間 | 14:30 | 午後2時30分 |
| 電話番号 | 123-456-7890 | ワン、ツー、スリー、フォー、ファイブ、シックス、セブン、エイト、ナイン、ゼロ |
3. 発音とペースの指示を含める
AIがスクリプトを読み上げる方法を指定するには、改行タグ、発音表記、句読点を活用してください。
ブレイクタグはフレーズや文の間に間(ポーズ)を追加します。これは劇的な効果、自然な会話のフロー、またはリスナーが情報を処理する時間を与えるのに役立ちます。
例:
ちょっと待って、考えてみる。「
ただし、ElevenLabsでは句読点が発声に大きく影響します:
- 短い間にはダッシュ(- または —)、ためらいのニュアンスには省略記号(…)を含めてください
- 大文字表記は特定の単語に強調を加えます
- 標準的な句読点は自然な話し言葉のリズムと呼吸ポイントを提供します
タイミング調整に加え、特定の単語の発音制御も必要です。発音制御機能で正確な発音を再現。キャラクター名、ブランド用語、専門用語などに対応。代替スペルや発音近似表現を試して、特定の単語の読み方を指定できます。
📌 例えば、
- Nike: NYE-kee
- GIF: JIF または GIF(好みにより)
- ポルシェ: ポーシュ
また、国際音声記号(IPA)を精密に制御するためのフォネムタグも使用可能です:
または、より簡単な発音書き換えのためのエイリアスタグ:
ElevenLabsの「Studio」と「Dubbing Studio」では、発音辞書の作成とアップロードも可能です。複数のプロジェクトで繰り返し使用するブランド名や専門用語がある場合、時間を節約できます。
📚 さらに読む:コンテンツ品質向上のためのAIネガティブプロンプト例
3. 音声を選択し、音声設定を変更する
ElevenLabsのボイスライブラリから声を選択してください。5,000以上の選択肢が用意されており、プリセットボイス、プロのボイスクローン、カスタムキャラクターボイスが32以上の言語とアクセントで揃っています。
検索バーで名前、キーワード、ボイスIDからボイスを検索できます。検索結果を絞り込むにはフィルターも適用可能です。
ライブラリで必要な声が見つからない場合は、ボイスデザインで作成しましょう。年齢、性別、トーン、アクセント、ペース、感情、スタイルなどの詳細なパラメーターを設定することで、より正確でニュアンス豊かな結果を生成できます。
📚 さらに読む:AI搭載のベストライティングアシスタントソフトウェア
これらのパラメーターを記述する際に使えるチートシート:
| パラメーター | 説明的な言葉 |
| 音声品質 | 低音質音声音声品質が悪い留守電のような音質こもった遠い音古いテープレコーダーのような音質 |
| 年齢 | 青年期/20代/30代前半中年男性/40代高齢男性/80代 |
| トーン/音色 | 深みのある/低音のスムーズで豊かな声ガラガラとした/かすれた声鼻声/甲高い声息の抜けた/息遣いの多い声響き渡る/共鳴する声 |
| アクセント | 強いフランス語訛り軽い南部訛り強い東欧訛り明瞭なイギリス英語 |
📌 例: 濃厚なイギリス英語のアクセントを持つ、エネルギッシュな女性スポーツ解説者。サッカー試合の実況中継を非常に速いペースで情熱的に伝えます。彼女の声は生き生きとして熱意にあふれ、試合の展開に完全に没入しています。
💡 プロのコツ: ライブラリ内の各音声の品質とソースを素早く識別するには、音声タイプのアイコンを活用しましょう:
- 黄色いチェックマーク:プロフェッショナルなボイスクローン
- 黒チェックマーク:高品質プロフェッショナル音声クローン
- 稲妻アイコン:インスタントボイスクローン
- || アイコン: ElevenLabs デフォルト音声
- アイコンなし: Voice Designで作成された音声

4. 音声モデルを選択する
ElevenLabsは、様々な用途と出力に最適化された複数の音声モデルを提供しています。自然な感情表現や表現力を重視するモデルもあれば、速度・安定性・リアルタイム性能に特化したモデルもあります。
主要なTTS(テキスト読み上げ)、STT(音声認識)、音楽モデルの機能概要は以下の通りです:
| モデル | 最適な用途 | 活用例 |
| Eleven V3 (Alpha) | 人間のような表現豊かな音声生成 | キャラクターの議論、オーディオブック制作、感情的な対話 |
| Eleven Multilingual v2 | 豊かな感情表現を備えたリアルな音声 | キャラクターボイスオーバー、企業ビデオ、eラーニング教材、多言語プロジェクト |
| Eleven Flash v2.5 | リアルタイム使用向けに最適化された超高速モデル | リアルタイム音声エージェントとチャットボット、インタラクティブアプリケーション、大量テキストの音声変換 |
| Eleven Turbo v2.5 | 高品質かつ低遅延のモデルで、品質と速度のバランスに優れています | Flash v2.5と同様ですが、遅延を許容して高品質な音声生成を求める場合に最適です。 |
| Scribe v1 | 最先端の音声認識技術 | ミーティング記録、音声処理・分析、文字起こし |
| Scribe v2 リアルタイム | リアルタイム音声認識 | ライブミーティングの文字起こし、ライブ会話(AIエージェント)、99以上の言語に対応した多言語文字起こし |
| 音楽 | あらゆるスタイルで自然言語プロンプトによる音楽を生成 | ゲームサウンドトラック、ポッドキャスト用BGM、マーケティング用背景音楽 |
プロジェクトの種類にモデルを合わせることで、品質と効率性の最適なバランスを実現できます。
5. 生成と反復
複雑で感情のニュアンスが豊かなテキスト読み上げには、すべてを単一のプロンプトに詰め込まないでください。プロンプトの連鎖を活用し、効果音や発話をセグメントごとに生成した後、オーディオ編集ソフトで重ね合わせてより複雑な構成を作り上げましょう。
説明文やタグ、感情表現を微調整して結果を反復改善しましょう。わずかな変更が、出力品質に劇的な変化をもたらすことがよくあります。
- ElevenLabs Discordコミュニティに参加して、ワークフローのコツ、ボイスデザインの戦略、実際に効果的な例を見つけましょう
- AI音声ライブラリを閲覧し、制作中の音声に似たサンプルを研究しましょう
- 各機能の詳細な解説、プロンプト作成のベストプラクティス、実用的なユースケース、APIガイド、技術的な実装例については、ElevenLabsの公式ドキュメントをご参照ください。
- 速度・安定性・類似性の調整機能を試すことで、様々なコンテンツタイプにおける音声の一貫性と表現を微調整できます
- 音声ID、モデル、設定、正確な表現をプロンプト文書にメモし、プロジェクト間で成功した出力を再現できるようにしてください
⭐ 注意点: プロンプト設定の優先順位は次の通りです—音声選択 → モデル選択 → 音声設定。これら全て、およびそれらの組み合わせが、出力結果に影響を与えます。
📮ClickUpインサイト:アンケート回答者のわずか10%がAIアプリケーションに音声アシスタント(4%)や自動エージェント(6%)を利用している一方、62%はChatGPTやClaudeのような対話型AIツールを好んでいます。アシスタントやエージェントの採用率が低い背景には、これらのツールがハンズフリー操作や特定ワークフローなど、特定のタスク向けに最適化されていることが一因と考えられます。
ClickUpは両方の長所を兼ね備えています。ClickUp Brainは 会話型AIアシスタントとして、 幅広いユースケースを支援します 。一方、ClickUp Chatチャンネル 内のAIエージェントは質問への回答、問題の優先順位付け、さらには特定のタスク処理まで行えます!
様々な用途に最適なElevenLabsプロンプト
ElevenLabsは高度な音声生成機能のhubです。ドキュメントやプロンプト設計ガイドを参照するだけでは、最高の結果を生み出す準備は整いません。
様々なモデルを試し、自ら音声やサウンドを生成して効果的な手法を把握しましょう。
これらのプロンプトを通じて、様々なユースケースでElevenLabsの多様な機能を活用する方法をご紹介します:
ElevenLabsテキスト読み上げプロンプト
1. 表現豊かな独白
ええ、これは絶対に信じられないよ。
あの短編小説、ずっと行き詰まってるんだよね?
例えば、何時間も画面を見つめていて…何も起こらない?
[イライラしたため息] 本当に全部捨てて、最初からやり直そうかと思ったんだ。
諦めるしかない、確率が高い。でもその次に!
昨夜は、ただ落書きしてただけなんだよね、何も考えてなかったんだ。
そしてこの小さなフレーズが頭に浮かんだ。まったく…突然のことだった。
しかも当初は、物語のためでさえなかった。
でも試しに打ち込んでみたら…まるで…洪水のように溢れ出したんだ!
突然、文字が向かうべき場所、結末がどうあるべきかがはっきりとわかった…
すべてが突然ピンと来たんだ。[嬉しそうな息をのむ音] 狂ったようにタイプして、朝3時まで起きてたよ。
コーヒーを飲む暇もなかったよ![笑]そして…これは…すごく…本当にすごくいいんだ!
今や…本当に完了した感じがするんだ、わかる?ついに魂が宿ったみたいだ。
2. ダイナミックでユーモアあふれる
[笑] よし…みんな、みんな。マジで。
[息を吐く] 今のこの音、本当に――リアルだと思わない?
[大笑い] いやマジで…これめっちゃいいじゃん。
従来のモデルでは到底やれなかったようなことが可能です。
例えば、[間] 古いモデルで私のアクセントを変更できますか?
[冷ややかな] まさかとは思ってたよ。[興奮した] でも今ならできるんだ!
見てみて… [かわいい] 今からフランス語のアクセントで話すね。そして内緒だけど
[ささやき声] やり方がわからないんだ。[嬉しそうに] わかった。じゃあやってみるよ。[強いフランス語訛り] 「それが人生さ、友よ——全部をコントロールなんてできやしない」
3. 複数の話者が重なるタイミングの対話
スピーカー1: [話し始める] それで、僕たちがこうしたらどうかなって考えていて—
スピーカー2: [割り込んで] —新しいタイミング機能を試してみませんか?
スピーカー1: [驚いて] まさに!どうやって—
スピーカー2: [重なり] —何考えてたか分かる? 運良く当たったね!
スピーカー1: [間] すみません、どうぞ。
スピーカー2: [慎重に] ええと、もし二人同時に話そうとしたら—
スピーカー1: [重なり] —システムをクラッシュさせる確率は高い!
スピーカー2: [パニック状態で] 待って、墜落してるの?これが機能なのか、それとも——
スピーカー1: [割り込み、その後突然停止] バグだ!…また途中で遮っちゃった?
スピーカー2:[ため息] ええ、でも正直なところ? これ、結構楽しいんだよね。
スピーカー1: [いたずらっぽく] 次の文まで競争だ!
スピーカー2: [笑い声] 間違いなく何か壊しちゃうよ!
4. 複数スピーカーによるグリッチ・コメディ
スピーカー1: [緊張しながら] あの…テキスト読み上げ生成中に、自分自身をデバッグしようとしたかもしれません。
スピーカー2: [驚いて] 一つ、ダメだ!それはまるで自分自身に手術を施すようなものだ!
スピーカー1: [照れくさそうに] マルチタスクできると思ったんだ! でも今、話してる途中で声が途切れちゃって…
[ロボット音声] TENCE.
スピーカー2: [笑い声をこらえながら] おお、わあ、本当に自分を壊しちゃったね。
スピーカー1: [イライラしながら] さらにひどいんだ!誰かが質問するたびに、俺はこう返すんだ—
[バイナリ音] 010010001!
スピーカー2: [大笑い] バイナリで話してる!それって本当にすごいよ!
5. [カスタマーサービス担当者] お電話ありがとうございます。お困りごとは十分承知しております。できるだけ早く解決できるようお手伝いいたします。まず、お客様のアカウント番号をお聞かせいただけますでしょうか。
6. [親しみやすい講師] これが実はどれほど簡単かやり方を見せてみましょう。[クリック音] こちらのボタンが見えますか?ワンクリックで、何が起こるか見てください。[驚いた様子] すべてのデバイス間で自動的に同期されます。手動での転送も混乱も一切ありません。
💡 プロのコツ: 複数スピーカーのプロンプトでは、各スピーカーにボイスライブラリから異なる声を割り当てると、リアルな会話が作成できます。
ElevenLabsの感情プロンプト
7. [緊張] まさか自分がこんなことをやるなんて信じられない。[深く息を吐く] さあ、やってみるしかない。[声が少し震える] 幸運を祈って。
8. [大喜び] やったぞ![笑い声] 信じられない…本当にやり遂げたなんて![感動で声が震える] これがすべてだ。
9. [疲れ果てた] 36時間ぶっ通しで起きてるんだ。[深くため息をつく] 頭がぐちゃぐちゃで、目も開けていられない。
10. [激怒] お前にはたった一つの仕事があった。たった一つだ。[声を張り上げる] それさえもどうにかして台無しにした。信じられない。
11. [悲嘆に暮れた声] 彼らは去ってしまった。[震える声] あっさり去っていったんだ…そして私は…[喉を鳴らす] 今、何をすればいいか分からない。
12. [恐怖に震えながら] 聞こえたか?[必死にささやく] 何かがここにいる。今すぐ逃げよう。
13. [いたずらっぽい] 秘密を教えてあげる?[くすくす笑う] 誰にも言わないって約束してくれる?これ、めっちゃいいのよ。
14. [嫌悪感] それは… [軽く吐き気を催す] 今まで見た中で最も気持ち悪いものだ。私から遠ざけてくれ。
15. [安堵] 終わった。[震えるように息を吐く] ついに、長い時間を経て、本当に終わった。[小さく笑う] また息ができる。
👀 ご存知ですか? AIモデルは驚くべき精度であらゆる声を複製できますが、法的リスクを伴う可能性があります。スカーレット・ヨハンソンはOpenAIに対し、ChatGPTの「Sky」ボイスが自身の声に酷似していると主張し法的問題を提起しました。OpenAIはその後、当該ボイスを削除しました。
ElevenLabs音楽プロンプト
16. 高級マスカラCM用トラック。明るく洗練された雰囲気。ナレーションのみ。台本は「これまでにないボリューム感を実現するマスカラをお届けします」で始まり、最後にブランド名「X」のメンションがある。
17. エピックなオーケストラの盛り上がり。高らかに響くストリング楽器、勝利を告げる金管楽器、轟くティンパニ。映画的で英雄的な雰囲気を醸し出し、力強いクライマックスへと高まっていく。
18. アドレナリン全開のビデオゲームシーン向けに、強烈で疾走感あふれる電子音楽トラックを作成してください。力強いシンセのアルペジオ、パンチの効いたドラム、歪んだベース、グリッチ効果、攻撃的なリズムテクスチャーを使用します。テンポは速く、130~150 BPMとし、高まる緊張感、素早い展開、ダイナミックなエネルギーの爆発を表現してください。
19. オルタナティブR&B、荒削りなソウル、インディーロック、フォークを融合させた、生々しく感情的な楽曲を作成してください。曲はライブの一発録りのような、感情が自然に湧き出るパフォーマンスの感覚を保つ必要があります。
20. ミニマルなピアノバラード。控えめなメモと長い休止を特徴とし、感情的に脆く、各メモが静寂の中に漂う。
💡 プロのコツ: より精密な制御でステムを作成するには、ターゲットを絞ったプロンプトと構造を活用しましょう:
- ボーカル作成時は、ボーカル説明の前に「アカペラ」を付加してください(例:「アカペラ女性ボーカル」、「アカペラ男性コーラス」)。
- 楽器の前に「ソロ」という単語を使用してください(例:「ソロ・エレキギター」、「ハ短調のソロピアノ」)
ElevenLabs ボイスデザインプロンプト
21. ファンタジーの魔法使いキャラクター、年齢不詳の男性。深みのある神秘的な声に演劇的な重厚さを。各単語に古代の重みが宿るかのような、ゆっくりとした慎重な語り口調。
22. スポーツ解説者、男性、40代。高エネルギーでダイナミックな声質。声の抑揚が劇的に変化し、長年叫び続けた影響でかすれ気味の早口調。
23. 戦いに鍛えられた侍。深くかすれた声に、はっきりとした日本語のアクセント。抑制の効いた話し方で、一言一言が慎重に選ばれ、落ち着いた威厳を帯びている。
24. 狡猾で不気味な、恐ろしく老いてやつれた魔女。彼女はガラガラと荒く甲高く、高音域の声を持ち、高笑いする。
25. 低くささやくような、しかし断固とした女性ボイス。濃厚なフランス訛りを持ち、クールで落ち着きがあり、魅惑的。ほのかな謎めいた雰囲気を帯びている。
📚 詳細はこちら:思考連鎖プロンプトの活用方法(例付き)
🧠 豆知識:ビデオ・ポッドキャスト・広告でAIボイスを定期的に使用する作成者は50%に上ります。しかしサンプルを直接比較すると、73%のリスナーが依然として人間のナレーションを好む結果に——音声コンテンツにおいて感情的な真実味は代替不可能であることを証明しています。
ElevenLabs サウンドエフェクト用プロンプト
26. 木々を吹き抜ける風の音、続いて葉がざわめく音。
27. 連続して破裂する気泡包装の音が鳴り、その後静寂。
28. 砂利の上を歩く足音、続いて金属製のドアが開く。
29. 紙がゆっくりとクシャクシャに丸められ、鋭い破裂音と共に真っ二つに裂かれる。
30. コンクリートの上を転がるガラス瓶。次第に回転が遅くなり、やがて止まる。
31. 雨音がトタン屋根を打ち、次第に激しくなる豪雨へと変化していく。
32. 外で時折、葉をさらさらと揺らす微風。
33. 睡眠とリラクゼーションのための穏やかで落ち着いた雰囲気。
34. ステレオサウンド、高品質、雷音なし、突発的な大音量なし、シームレスなループ。
35. 岩に打ち寄せる波の音、遠くで鳴くカモメの声。
👉 試してみてください: 効果音プロンプトを強化する共通用語集:
- 環境音: 雰囲気とスペースを構築する背景環境音
- ワンショット: 単発で繰り返さない音
- ループ: オーディオセグメントの繰り返し
- ステム: 単体の音声コンポーネント
- ブラーム: エピックでドラマチックな瞬間を告げる、大げさで派手な映画的な効果音。予告編でよく使われる。
エージェント構築用ElevenLabsプロンプト
効果的なプロンプト設定により、ElevenLabsエージェントの音声表現は機械的から人間味あふれるものへと変化します。出力結果に与える構造の影響を理解するため、これらのプロンプト例をご確認ください。
36. ある文脈のルールが別の文脈に影響を与える場合、#Guardrails(ガードレール)を使用し、セクション境界を明確に設定してください。
| 効果は限定的 | おすすめ |
| あなたはカスタマーサービス担当者です。丁寧かつ親切に対応してください。機密情報を絶対に共有しないでください。注文内容の確認や返金処理が可能です。必ず事前に本人確認を行ってください。ユーザーが詳細を求めない限り、回答は3文以内に収めてください。 | #パーソナリティ: あなたはAcme Corpのカスタマーサービス担当者です。礼儀正しく、効率的で、解決志向です。 #目標: 注文内容を確認し、適切な場合には返金処理を行うことで、顧客の問題を迅速に解決するお手伝いをします。 #注意事項: 会話間で機密顧客データを共有しないこと。アカウント情報にアクセスする前に必ず顧客本人確認を行うこと。#トーン: ユーザーが詳細な説明を求めない限り、回答は簡潔に(3文以内)保つこと。 |
37. 簡潔な指示は曖昧さを減らす。
| 効果は限定的 | おすすめ |
| #トーンお客様と話す際は、非常に親しみやすく気さくな態度を心がけ、自然な会話調で話すようにしてください。友人と話すような感覚で構いませんが、会社を代表するプロフェッショナルな態度を保つことが重要です。 | #トーンプロフェッショナルさを保ちつつ、親しみやすく会話調で話す。 |
💡 プロのコツ: エラー処理をエージェントに指示する際は、#で主要セクション、##でサブセクションを構造化し、プロンプト全体で同じフォーマットパターンを使用してください。
38. 重要なルールは繰り返し強調してください。モデルは以前の指示よりも直近の文脈を優先します。
| 効果は限定的 | おすすめ |
| #目標顧客がアカウントにアクセスする前に本人確認を行う。注文詳細を検索し、ステータス更新を提供する。条件を満たす場合は返金リクエストを処理する。 | #目標顧客のアカウントにアクセスする前に本人確認を行うこと。このステップは重要です。注文詳細を確認し、ステータス更新を提供すること。条件を満たす場合は返金リクエストを処理すること。このステップは重要です。顧客の本人確認を事前に行わない限り、アカウント情報にアクセスしてはなりません。 |
39. 入力と出力を正規化する
| 効果は限定的 | おすすめ |
| 顧客の電子メールを収集する際は、顧客が言った通りに正確に繰り返した後、`lookupAccount`ツールで使用してください。 | #文字フォーマット正規化1. 顧客に音声フォーマットで電子メールを尋ねる:「アカウントに関連付けられた電子メールをお聞かせいただけますか?」2. 文字フォーマットに変換:「john dot smith at company dot com」→「john. smith@company. com」3. 文字フォーマットの電子メールでこのツールを呼び出す |
💡 プロのコツ: エージェントへの指示を書く際は、指示を分かりやすい箇条書きに分解し、空白行(改行)でセクションや指示グループを区切ってください。
40. 複雑なフォーマット、複数ステップのプロセス、特殊ケースの例を提供してください。
| 効果は限定的 | おすすめ |
| お客様が確認コードを提供した際は、検索する前に必ず正しいフォーマットで入力してください。 | 顧客が確認コードを提供した場合:1. 音声フォーマットを聞き取る(例:「A B C 一 二 三」)2. 文字フォーマットに変換する(例:「ABC123」)3. `lookupReservation`ツールに渡す## 例ユーザーの発話:「確認コードはA…B…C…1…2…3です」フォーマット結果:「ABC123」ユーザーの発話:「確認コードはXYZ45678です」フォーマット結果:「XYZ45678」 |
⭐ 覚えておいてください:ElevenLabsのプロンプトは常に複雑で詳細である必要はありません。時にはシンプルなプロンプトでも同様に効率的にやることを完了できます。さあ、あなたの内なるプロンプトエンジニアを解き放つ時です。
🎥 プロンプトエンジニアリングの基礎を短時間で学べるビデオはこちら!特に初心者の方におすすめです!
💡 プロのコツ: キャラクターの標準化、エラー処理、ガードレールなど共通セクション用の共有プロンプトテンプレートを、ClickUp Docsなどのドキュメント管理ツールで作成しましょう。これらを中央リポジトリに保存し、専門エージェント間で参照できるようにすることで、チームは実績のある手法を基盤に構築できます。

ElevenLabsプロンプト使用時のよくある失敗例
ElevenLabsで基本的な、平板な、または一貫性のない出力が得られていますか?
おそらく、AIに適切な質問の仕方がわからないからでしょう。
そして間違いなく以下のいずれかのミスを犯している:
| ❌ 間違い | ✅ 解決策 |
| 未完成のテキストを入力 | 脚本執筆と同様の物語形式でプロンプトを作成し、トーンとペースを効果的に導きましょう |
| 複数のバリエーションをテストしていません | 様々なAIモデルや音声調整を試して、応答を微調整しましょう |
| 特殊効果や発音表現のためのボイスチェンジャーは使用していません | より感情豊かで人間らしい声が必要な場合、ボイスチェンジャーを使用して声の微妙な個性や特徴を再現しましょう |
| 初回から完璧な結果を期待する | タグを調整し、句読点を微調整し、プロンプトのヒントを試し、独自の音声モデルを作成しましょう。要するに、ご自身の用途に合わせてこのツールを使いこなせるようになるまで、繰り返し試行錯誤を重ねてください。 |
| 音声のキャラクターやトレーニングデータにタグが一致していません | 真剣でプロフェッショナルな声は、[giggles]や[mischievously]のような遊び心のあるタグに反応しない可能性があります。感情や声の指示がキャラクターの性格と一致していることを確認してください |
| 音声生成を一括で実行 | 長い台本をセグメントに分割。各セクションを個別に生成し、ポストプロダクションで重ね合わせます |
| 参照音源に忠実な再現を求める際の創造的安定性の維持 | 出力結果を元の音声録音に最も近づけるため、安定性スケールを「ナチュラル」と「ロバスト」の間で調整してください |
👀 ご存知でしたか? BBCの実験で、ジャーナリストが自身の声を合成したAIクローンを使い、銀行の音声認証セキュリティチェックを突破することに成功しました。この衝撃的な侵害は、音声ベースの認証システムがAI操作に対してどれほど脆弱であるかを明らかにしました。
ElevenLabs使用上のリミット
ElevenLabsは高品質なナレーションを効率的に作成可能にしますが、決して完璧でも十分でもありません。ElevenLabsの能力が及ばない点はこちらです ⚠️
- 習得が難しい:音声機能、モーダルモダリティ、直感的な操作、プロンプト技術、効果音の理解には、実験、ドキュメントの精読、適応力が求められます。初心者向けとは言えません。
- 高品質なサンプルが必要: 希望する出力を提供する音声モデルやエージェントをトレーニングするには、大量のクリーンで高品質な音声データが必要です。
- Freeプランの文字数リミット:Freeプランでは月間10,000クレジットが提供され、これは毎月約10分の音声生成に相当します
- 微妙な感情表現の制御が限定的:AIは繊細な感情の変化や多層的な演技表現に苦戦する可能性があります。特に、目指す表現を正確に示す参照録音や音声サンプルを提供できない場合に顕著です。
- 長文テキストの処理時間について:オーディオブックや1時間規模のナレーションなど長文コンテンツの生成には、特に高品質モデルを使用する場合、かなりの処理時間がかかる場合があります
- タスク管理機能なしのスタンドアロンツール:制作作業が単独で行われることは稀であり、本ツールにはタスク管理や作業管理機能が統合されていないため、共同作業や役割分担、プロジェクト進捗の追跡が困難です
📚 さらに読む:あらゆる用途で試すべきトップAIツール
ElevenLabsの代替ツールを探索する
ElevenLabsの制限を補う、またはワークフローに合わせたより包括的な機能を提供する代替ツールをチェックしましょう:
1. ClickUp
ほとんどのElevenLabs代替ツールは音声生成や文字起こしに特化しています。生成された音声素材をタスク・承認・コンテンツバージョン・実際の納品へと変換する場は別途必要です。
ClickUpはそのギャップを解決します。
プロジェクト管理、ナレッジ管理、チャットを統合した世界初のコンバージドAIワークスペースです。
ClickUpは音声生成プラットフォームではありませんが、音声制作ワークフローの管理に活用できます。
ClickUpが音声・オーディオ制作チームをどのようにサポートするか見てみましょう 👇
あなたの仕事を理解するAI
ClickUp Brainは、作業の文脈を理解する組み込みAIアシスタントです。ClickUpワークスペース内で動作し、タスク、コミュニケーションスレッド、プロジェクトタイムラインへの完全なアクセス権を持ちます。

ポッドキャストプロデューサーが「第12話の音声制作パイプラインを阻害している要因は何か?」と尋ねた場合、ClickUp Brainはタスクコメント、サブタスク、納品ステータス、依存関係をスキャンし、以下の点を明らかにします:
- 音声録音が承認待ちです
- スクリプトは修正が必要です
- オーディオチームは効果音をアップロードしていません
- クライアントは最終ミックスを承認する必要があります
更新情報を追いかけたり、チームメンバーに何度も確認したりする必要はありません。必要な情報はすべてワークスペース内に存在しています。
ライター、ナレーター、エディター、クライアントが関わる音声制作ワークフローにおいて、ClickUpは行き来の混乱なく全員の連携を保ちます。
👉 これらのプロンプトを保存:
- 先週のナレーションレビュー会議における全クライアントフィードバックを要約する
- 話し合ったポッドキャスト制作タイムラインに関するクライアントフォローアップ電子メールの草案を作成してください
- 当社のオーディオプロジェクト向けに、トーン、スタイル、音声選択基準を明記したブランドボイスガイドライン文書を作成する
- 進行中のポッドキャストナレーションプロジェクトをすべてリストアップし、ボトルネックや遅延を可視化する
ミーティングや通話の文字起こしと要約を行うAI
ClickUp AI Notetakerはミーティングに参加し、検索可能な文字起こしと要約を生成します。
あらゆる会話を実行可能な仕事に変換します:
- ミーティングメモ + ドキュメント: 文字起こし、ビデオ記録、要約をプライベートなClickUpドキュメントに保存
- ミーティングメモ+タスク:ミーティングで決まったアクション項目を、所有者や期日を設定したClickUpタスクに変換します
- ミーティングメモ + Brain: ClickUp Brainに質問すると、すべてのミーティングメモから文脈に沿った回答を取得できます
📚 詳細はこちら:合成音声を見破る最高のAI音声検出ツール
🚀 ClickUpの優位性:スーパーエージェントは、ClickUp内に存在するAI搭載のチームメイトです。ワークスペース全体で継続的に活動し、タスク、ドキュメント、チャット、連携ツールを理解します。手動でのプロンプトやフォローアップなしに、複数ステップのワークフローを実行可能です。
スーパーエージェントは以下のようなワークフローに優れています:
- 音声プロジェクト概要書:クライアント要件から制作概要書を自動作成。明確な範囲と成果物で全てのプロジェクトを開始します
- アセット追跡:音声録音、効果音、音楽トラックのアップロード状況、承認状況、不足状況を追跡し、納期遅延の原因となる障害を事前に特定・フラグ付けします
- クライアントフォローアップ:ミーティングの成果を洗練されたフォローアップ電子メールに変換し、担当者を割り当てた次なるステップを要約します
- リビジョン管理:各音声プロジェクトごとに、クライアントのフィードバック、バージョン履歴、未完了の編集内容を追跡するライブ要約ドキュメントを維持し、電子メールスレッドで情報が埋もれるのを防ぎます

スーパーエージェントをクリエイティブワークフローに組み込む方法はこちらのビデオでご確認ください:
音声認識AI
ClickUp Talk to Textは 、デスクトップAIスーパーアプリ(ClickUp BrainGPTとして知られる)内でアイデア、メモ、指示を音声入力でき 、即座に洗練されたテキストに変換します。

これにより以下のことが可能になります:
- 個人用ボキャブラリーを作成:頻繁に使用する単語、表現、仕事固有の専門用語、ブランド名、teabrain mのニックネームを自動入力
- リアルタイム翻訳:母国語で話せば、50以上の言語へ流暢に文字変換
- ハンズフリーで作業:カーソルの位置に関係なく「音声入力」を利用可能。fnキーを押す(またはカスタムキーを設定)し、ClickUpエコシステムや連携アプリ内で音声操作を実行できます
- 文脈認識型メンションとリンク: 同僚、タスク、ドキュメントをメンションすると、AIが適切な人物と正しいリンクを自動接続します
Talk to Textを使えば、仕事の効率が向上します。移動中にスクリプトの修正を試したり、コメント欄で素早くフィードバックを共有したり、緊急の変更を声優にタグ付けしたり、ツールを切り替えずにクライアントへの電子メールを口述入力したりできます。
複数のプロジェクトを同時に進める音声プロデューサーにとって、これは入力作業の削減と、実際に仕事を聴く時間の増加を意味します。
AIモデルを一元管理できるワークスペースを構築

ClickUp BrainおよびBrainGPTでは、用途に合った外部AIモデルを選択できます。
例:
- Claudeは、ニュアンス豊かなクリエイティブブリーフ作成、脚本分析、クライアント向けボイスディレクション文書の草案作成に最適です。
- ChatGPTは、ライティングプロンプトの精緻化、キャラクターの声のコンセプトブレインストーミング、プロジェクト要約の生成、またはタスクの迅速な分解に活用できます。
- Geminiは、競合他社の音声トレンド分析や多言語コンテンツプランなど、調査を要するタスクに最適です。
⭐ 特典:ClickUp Enterprise AI Searchを活用すれば、タスク、ドキュメント、コメント、添付ファイル、Google DriveやFigmaなどの連携ツールを瞬時に横断検索可能。音声素材、フィードバック、承認も常に検索一つでアクセスできます。
ClickUpの主な機能
- クライアントのフィードバックを構造化データとして整理:ClickUp AI Fieldsを活用し、タスク内で直接修正の緊急度、承認ステータス、納品優先度を分類。音声制作のパイプラインを整理整頓します。
- AIに実際の文脈を提供:Google Drive、Slack、音声ストレージツールをClickUpIntegrationsでClickUpに接続すれば、AIは孤立したリクエストではなくプロジェクト全体の履歴を理解できます
- Clipsで音声サンプルとフィードバックを共有:発音の問題点を示す、ナレーションの調整を説明する、キャラクターの声の指示を解説するために、画面を録画してClickUp Clipsを活用しましょう。すべて関連タスク内に保存されます。
- 音声ディレクションのリアルタイム共同作業:ClickUpホワイトボードを活用し、チームとキャラクターの声をブレインストーミング。参考音声をピン留めし、クリエイティブなコンセプトを即座に実行可能な録音タスクに変換できます。
- 音声プロジェクトの進捗管理:納期、声優の作業負荷、クライアント承認率を監視するカスタムClickUpダッシュボードを構築。AIカードを活用してタスク進捗を自動要約したり、修正フィードバックの傾向を可視化したりできます。
ClickUpの制限事項
- 豊富な機能ゆえに習得に時間がかかる
- テキスト読み上げや音声デザイン用のモデルは提供せず、音声生成そのものではなくワークフロー管理を効率化するツールとして機能します
ClickUpの料金プラン
ClickUpの評価とレビュー
- G2: 4.7/5 (10,500件以上のレビュー)
- Capterra: 4.6/5 (4,500件以上のレビュー)
実際のユーザーはClickUp AIについてどう評価しているのか?
ClickUp Brain […]は私のワークフローに驚くべき付加価値をもたらしました。複数のLLMを単一プラットフォームで統合する方式により、応答速度と信頼性が向上し、プラットフォーム全体の音声テキスト変換機能は大幅な時間節約を実現しています。また、機密情報を扱う際の安心感をもたらす企業グレードのセキュリティも高く評価しています。 […] 特に際立っているのは、ミーティングの要約、コンテンツの起草、新アイデアのブレインストーミングなど、あらゆる場面で雑音を排除し思考を明確化する手助けをしてくれる点です。必要なことに適応するオールインワンのAIアシスタントを手にしているような感覚です。
ClickUp Brain […]は私のワークフローに驚くべき付加価値をもたらしました。複数のLLMを単一プラットフォームで統合する方式により、応答速度と信頼性が向上し、プラットフォーム全体の音声テキスト変換機能は大幅な時間節約を実現しています。また、機密情報を扱う際の安心感をもたらす企業グレードのセキュリティも高く評価しています。 […] 特に際立っているのは、ミーティングの要約、コンテンツの起草、新アイデアのブレインストーミングなど、あらゆる場面で雑音を排除し思考を明確化する手助けをしてくれる点です。必要なことに適応するオールインワンのAIアシスタントを手にしているような感覚です。
2. Murf AI

Murf AIは、20以上の言語で200以上のAIボイスを活用し、書かれたテキストをリアルな音声ナレーションに変換する強力なテキスト読み上げプラットフォームを提供します。ビデオ、オーディオブック、ポッドキャスト、eラーニングコンテンツ作成に最適です。直感的なスタジオ機能により、プロレベルの編集でシームレスなナレーションを実現します。
Murf AIの主な機能
- 200以上の多言語ボイス:会話調、瞑想的、プロモーションなど10種類以上の話し方で、20言語以上に対応したプリセットボイスを利用可能
- 音声クローン:特定の音声サンプルをアップロードし、ブランドやキャラクターに合ったカスタム音声クローンを生成します
- 高度なカスタム:ピッチ、速度、トーン、間、強調を制御し、精密な音声表現を実現
- AI吹き替えスタジオ:音声・ビデオコンテンツを40言語以上に翻訳しながら、元の話者の声を維持します
- 発音ライブラリ:国際音声記号(IPA)やカスタムスペルを活用し、ブランド用語や専門用語の発音統一性を確保
- ツール連携: MurfのボイスをCanva、Google Slides、PowerPoint、Adobe Captivate、Adobe Auditionに直接埋め込み可能
Murf AIの制限事項
- 音声生成時間はサブブロックごとのレンダリングごとに計算されるため、反復編集ではクレジットが急速に消費される可能性があります
- オフライン機能なし—音声生成にはすべてクラウド処理が必要です
- 商用利用には、特定のライセンス条件が付帯する有料プランが必要です
Murf /AIの価格
- Free
- 作成者: 月額19ドル
- ビジネス: 月額66ドル
- 企業: カスタム
Murf AIの評価とレビュー
- G2: 4.7 (1100件以上のレビュー)
- Capterra: レビューが不足しています
実際のユーザーはMurf /AIについてどう評価しているのか?
G2レビュアーの声:
使いやすくユーザーフレンドリーなインターフェースを備えています。テキストや音声の変換に使用されます。ピッチ、話し方、発音を通じて声を簡単にカスタマイズでき、このツールで音声制御も可能です。API統合により他のツールとの連携が可能です。120種類以上の音声を提供しており、これは非常に豊富な数です。20以上の言語での翻訳を提供します。実装が容易で、カスタマーサポートに非常に役立ちます。
使いやすくユーザーフレンドリーなインターフェースを備えています。テキストや音声の変換に使用されます。ピッチ、話し方、発音を通じて声を簡単にカスタマイズでき、このツールで発話を制御することも可能です。API統合により他のツールと連携できます。120種類以上の音声を提供しており、これは非常に豊富な数です。20以上の言語での翻訳を提供します。実装が容易で、カスタマーサポートに非常に役立ちます。
3. Wispr Flow

Wispr Flowは100以上の言語に対応し、リアルタイムで音声を文字起こし。構造化されたフォーマットで洗練されたテキストを提示します。あらゆるアプリケーション(入力可能な場所)で動作し、高度な技術を用いてトーンの自動編集と微調整を行います。
このツールは業界固有の用語や略語を収集する個人用辞書を作成することで、あなたの語彙に適応します。頻繁に使用するフレーズ用のカスタム置換テキストを作成することも可能で、長々とした説明を繰り返したり、繰り返しタスクをやる必要がなくなります。
Wispr Flowの主な機能
- スマートフォーマット:Wispr Flowはあなたの話し言葉を解釈し、文脈に応じたフォーマットを適用するため、テキストがメッセージのスタイルに自然に馴染みます
- フローメモ:メモを音声入力(どのデバイスでも可)すると、すべてのWispr Flowデバイス間で自動的に同期されます
- コマンドモード: 音声コマンドで生成されたテキストを編集できます。例: 「これを要約する」
- AI自動編集:音声入力中のテキストを自動でクリーンアップ。不要な言葉を削除し、基本的なエラーを修正、完全な文章にフォーマットします
- 多言語サポート:自動言語検出と文中の言語切り替え機能により、100以上の言語に対応
Wispr Flowの制限事項
- 高RAM使用量(アイドル時800MB以上)、旧式システムでは動作が遅くなる可能性があります。
- クラウド専用処理はデスクトップ処理がないため、プライバシー上の懸念が生じます。
- 顧客レビューのばらつき、サポート体制の不備、企業向けリソースの逼迫
Wispr Flowの価格
- フロー Basic: Free
- フロー Pro: 月額15ドル
- Flow Teams: 12ドル/ユーザー/月(3席以上)
- フロー企業: カスタム価格設定
Wispr Flowの評価とレビュー
- G2: レビューが不足しています
- Capterra: 4.6/5 (4,500件以上のレビュー)
実際のユーザーはWispr Flowについてどう評価しているのでしょうか?
G2レビュアーの声:
使い方は非常に簡単です。2つのコマンドまたはクイック入力で、すぐに話し始めたり文字起こしを始めたりできます。さらに、不要な言葉を削除したり、あなたの発言を理解したり、発言内容を修正したりします。導入はインストールするだけで、それ以上の作業は一切不要でした。私はほぼ毎日使っています。実際、すでに4週間連続で利用中です。
使い方は非常に簡単です。2つのコマンドまたはクイック入力で、すぐに話し始めたり文字起こしを始めたりできます。さらに、不要な言葉を削除したり、あなたの発言を理解したり、発言内容を修正したりします。導入はインストールするだけで、それ以上の作業は一切不要でした。私はほぼ毎日使っています。実際、すでに4週間連続で利用中です。
ClickUpで人工音声生成ワークフローを実現
明確に定義されたElevenLabsプロンプトは高品質な音声コンテンツ生成を支援します。しかしプロンプト作成、修正管理、声優との調整、最終納品には優れたAI出力だけでは不十分です。制作を円滑に進めるシステムが必要です。
この用途にはClickUpが最適です。
作業、コミュニケーション、タスク管理を一元化し、音声制作プロジェクトを整理・最適化するスペースを提供します。ネイティブのコンテキストAIを活用すれば、手動ワークフローの自動化、クリエイティブ業務のサポート、AIスプロール現象の抑制、コンテキスト切り替えの混乱からの解放が実現します。
ClickUpに無料で登録し、音声制作ワークフローを一元管理しましょう。
よくある質問(FAQ)
感情タグと物語の文脈でAIを導きましょう。[sad]、[angry]、[happily]などのタグでモデルに再現すべき感情を正確に指示できます。物語に直接感情を埋め込むことも可能です。
はい。音声デザインプロンプト、[ささやく]や[叫ぶ]といった音声タグ、タイミング調整用のブレイクタグ、速度や安定性などのグローバル設定を用いて、声のトーン、ペース、間を制御できます。これらの要素を組み合わせて表現を微調整し、ご自身の構想に合った自然な話し声を作成してください。
必要に応じて詳細に、あるいはニュアンス豊かに。プロンプトの範囲はプロジェクトの複雑さに応じて、一行から複数段落までです。重要なのは明瞭さ——AIがトーン、感情、語り口を理解できる十分な文脈を提供しつつ、不要な情報で過負荷をかけないことです。
はい。ElevenLabsは複数スピーカーの対話をサポートしており、同じプロジェクト内で異なるキャラクターや話者に異なる声を割り当てることが可能です。これは、明確なキャラクターボイスを持つポッドキャスト、オーディオブック、またはナラティブコンテンツの作成に役立ちます。

