תוכן עניינים

כמוכם, גם אני לא אוהב ששולחים לי שטויות. לכן אני משתף רק מה שנראה לי מעניין מספיק. תרשמו, מקסימום לא תאהבו :)

וואי וואי, איזה כיף שהצטרפת!
בפעם הבאה שיוצא ניוזלטר (שזה אחת לשבוע, או כשיש משהו מעניין ממש), אתם תקבלו אותו ישר למייל שלכם :)
משהו לא מסתדר. אולי המייל לא תקין?
תבדקו ותנסו שוב.

לא מזמן האנושות התברכה בהתקדמות נוספת במהפכה הדיגיטלית שקורית לנגד עינינו. הבינה המלאכותית הגיעה לחיינו בסערה (כמעט כמו כל מהפכה שקרתה עד היום) והעולם מתחלק לאלו שמאמצים אותה ולאלו שחושבים שהיא מקור כל הרוע. וכמובן גם כל אלו שבאמצע, כי אני לא אוהב להכליל. אלו שנמצאים איפשהו ב"אני לא סגור מה אני חושב על זה שמחשבים חושבים."

AI, כמו שאני אוהב להזכיר, לא הגיעה אלינו מהשנה האחרונה אלה קיימת כאן כבר עשרות שנים, אבל השנה יצאו לשוק כלים עם תכונות כמעט אנושיות, כלים ג'נרטיביים (Generative). אלו כלים שממש יכולים להבין מה שאנחנו אומרים. הצ'אט הכל יכול, ChatGPT, יצא ממש בתחילת השנה בסערה גדולה ואחריו הרבה תוכנות ובוטים מצאו את עצמם לשגרת היומיום שלנו - Midjourney וכלים נוספים ליצירת תמונות, גוגל בארד המתחרה ל-GPT ואינספור חברות נוספות. השוק גועש, הכספים של כולם משתוללים ואני רואה את זה ככה שאנחנו נהנים מיכולות שבקושי דמיינו אותן עד היום.

the artificial intelligence revolution, world of technology
מהתמונות האלה שרואים בכל האינטרנט כשמדברים על AI.

לא מזמן דיברתי כאן על השימוש במחוללי תמונות ליצירת סיפור בעזרת תמונה, וקצת על המקצוע החדש שנוצר בעקבות המהפכה הזאת - הנדסת פרומפטים - Prompt Engineering. זו אמנות מסוג חדש, כזו שמי שמתמקצע בה ידע לדעת איך לדבר עם הבינה המלאכותית ולשלוט בה ברמה מסוימת, וידע גם לתכנן כלים חדשים שמדברים בשפה הזאת, בפרומפטים.

למקצוע הזה מגיע פוסט נפרד, אז היום במקום לצלול למהות, אנחנו נתעסק בפיצ'ר אחד חשוב שיצא לאחרונה בכלי האהוב עליי - Midjourney.

כאמור, אני משתמש נלהב של הבוט הזה, מידג'רני. אני משתמש בו על בסיס יומי ורוב התמונות שאתם רואים בבלוג הזה מתחילות ממנו. למה מתחילות? כי לפעמים אני עושה שפצורים, אבל בגדול הרבה ממש שנמצא כאן מתחולל שם. אני יושב מול המחשב או הטלפון, מדמיין משהו, כותב אותו, ויוצאת תמונה. ככה פשוט.

אלא שהפעם אני רוצה ללכת הפוך.

איך להסביר את עצמנו

קורה לי הרבה שאני רוצה לייצר תמונה, אבל אני לא באמת יודע מה אני רוצה לייצר. קורה לי שאני מחפש רפרנסים, תמונות אחרות - אם זה בגלריה של מידג'רני או אתרי תמונות או גוגל - ורוצה לייצר משהו דומה. אז אני מתחיל בפרומפט, אבל יוצא לי משהו אחר לגמרי ממה שרציתי. למה, בעצם? אם אני כותב לתוכנה משהו, למה לא יוצא מה שאני רוצה?

תראו, זה לא תמיד ככה. לרוב אנחנו מבינים אחד את השניה, אבל יש פעמים שזה פשוט לא עובד. אבל כאן חשוב לומר - הבעיה לא במידג'רני אלא בי. אני כנראה לא מסביר טוב מה שאני רוצה ליצור.

לא מזמן שמעתי משפט - ואני באמת לא זוכר איפה - שהסיבה העיקרית שבגללה לגרפיקאים עדיין תהיה עבודה בעידן ה-AI היא בגלל שאם הלקוחות לא ירצו לשלם להם כי "אפשר לעשות הכל לבד ויותר מהר", הם מהר מאוד יגלו שהם צריכים אשכרה לדבר ולהסביר את מה שהם רוצים ליצור, והמשימה הזאת לא קלה כל כך.

אני לא הולך להסביר היום איך Midjourney עובד - בקרוב יצא מדריך נפרד. אבל היום אנחנו נלמד תכונה נוספת של מידג'רני - פקודה יחסית חדשה - שיכולה לעזור לנו להבין איך צריך לתקשר עם הבוט הזה, איך הוא מבין את התמונות שאנחנו נותנים לו, ואפילו לייצר תמונות בהתאם למה שהוא הבין.

מידג'רני עובד עם פקודות שמתחילות ב-/ (סלאש, Forward slash). הפקודה הראשית היא /imagine שאחריה אנחנו כותבים פרומפט שמייצג את התמונה שאנחנו רוצים לייצר, למשל:

/imagine a graphic designer talking to a computer in the era of artificial intelligence, line art

a graphic designer in the era of artificial intelligence
אם תשאלו אותי, ככה נראה מעצב גרפי בעידן ה-AI. חוץ מהעט באף.

אבל יש לנו עוד פקודות שאפשר להשתמש בהן. דיי הרבה האמת, והיום נתרכז באחת.

"תתאר". כלומר, הפקודה /describe.

איך להשתמש בפקודה Describe

מידג'רני מסבירים את פקודת Describe ככה:

The /describe command allows you to upload an image and generate four possible prompts based on that image.

ככה פשוט. תעלו תמונה, תקבלו 4 פרומפטים אפשריים שמתארים אותה. או יותר נכון 4 פרומפטים על סמך התמונה הזאת.

אוקיי, אז בואו נצא לדרך. עם הפיל שלא בתוך חדר.

שלב 1: לבחור ולהעלות תמונה

לשם ההדגמה הרצתי בראש כמה אפשרויות ובגלל כל מיני סיבות החלטתי להשתמש בתמונה של פיל. אם תשאלו אותי למה אתם לא תשמעו את התשובה האמיתית, אז בואו נזרום. זו התמונה שנבחרה.

photo of a normal elphant standing in nature by a tree

כדי לבצע עלייה אתה הפקודה אנחנו צריכים לפתוח את הדיסקורד שלנו, לגשת לבוט של Midjourney ולכתוב למטה /describe. נקיש אנטר ומיד תקפוץ לנו בקשה לבחור תמונה רצויה. נלחץ על אפשרות ההעלאה ונבחר את התמונה. אני בחרתי בפיל.

screenshot of an example for the describe command in midjourney bot

אחרי שהעלנו את התמונה הבוט יחשוב למשך שניה או שתיים ואנחנו נקבל רשימה של 4 פרומפטים על בסיס התמונה הזאת. תזכרו שזה פרשנות של בוט, ועם כמה שהוא רוצה להיות מדויק הוא כנראה עדיין יוסיף לנו כל מיני אלמנטים וסגנונות משונים לפרומפטים. בנוסף, לא משנה כמה פעמים תריצו את הפקודה /describe על אותה תמונה, תמיד - אבל תמיד - תקבלו פרומפטים שונים.

screenshot of prompts output of the describe command in midjourney bot

כמה הסברים חשובים:

  1. בכל אחד מהפרומפטים התווסף פרמטר בסוף: --ar 128:85 שזה בעצם יחס גובה-רוחב של התמונה (Aspect Ratio). היחס הזה הוא יחס שווה ל-3:2.
  2. בפרומפט יש המון ביטויים שלא הייתי קרוב ללחשוב עליהם.
  3. מידג'רני מוסיף הרבה פרטים שבכלל לא נמצאים בתמונה כי הפקודה הזאת מנסה להיות יצירתית מאוד. למשל בפרומפטים 2 ו-3 התווסף לנו מקור מים לתאור, מה שלא נמצא בתמונה המקורית.
  4. התווספו לנו כל מיני ביטויים כמו 8k, 32k, uhd, telephoto lens וכו', אלה נמצאים כאן כי בין היתר מידג'רני מנסה להבין את אופי התמונה עצמה ולא רק מה שהוא רואה בה, וזה מעניין מאוד.

שלב 2: לייצר או לשנות את הפרומפטים שהתקבלו

בתחתית התמונה אנחנו מקבלים 6 אפשרויות להמשך פעולות. אנחנו יכולים לייצר כל אחד מהפרומפטים (ממסופרים 1-4), לייצר את כולם (Imagine all) או לתת לפקודה לרוץ שוב.

אם נלחץ על אחד מהמספרים ונייצר את אחד מהפרומפטים שיצאו לנו יקפוץ לנו חלון שיאפשר לנו לשנות את הפרומפט שמידג'רני יצר עבורנו. זה טוב לדיוק של פרטים מסוימים, שינוי של AR, תוספת של פרמפטרים אחרים ובכלל נותן חופש מוחלט לשחק עם הפרומפט.

screenshot of a prompt text field in midjourney bot

אם נלחץ על Imagine all אנחנו לא נקבל את האפשרות לשחק עם הפרומפטים אלא מידג'רני פשוט יריץ את ארבעת הפרומפטים האלה באופן מיידי.

אז הנה כל התמונה שמידג'רני יצר לי מהפרומפטים האלה (אחרי שבחרתי אחת מכל פרומפט). כמו שרואים התמונה ההתחלתית שאני שמתי לו היא יחסית פשוטה, לא מורכבת מבחינת אור או קומפוזיציה, והתוצאות שונות לחלוטין.

פרומפט 1

/imagine a big elephant standing by a river, in the style of strong emotional impact, perceptive, distinctive noses --ar 3:2

a big elephant standing by a river, in the style of strong emotional impact, perceptive, distinctive noses

פרומפט 2

/imagine an elephant standing under a tree beside a lake, in the style of bold and energetic, 8k, 32k uhd, telephoto lens, ivory, candid, animalier --ar 3:2

an elephant standing under a tree beside a lake, in the style of bold and energetic, 8k, 32k uhd, telephoto lens, ivory, candid, animalier

פרומפט 3

/imagine a large elephant is standing near water next to a tree, in the style of carson grubaugh, magali villeneuve, 32k uhd, telephoto lens, edward cucuel, ivory, backlit photography --ar 3:2

a large elephant is standing near water next to a tree, in the style of carson grubaugh, magali villeneuve, 32k uhd, telephoto lens, edward cucuel, ivory, backlit photography

פרומפט 4

/imagine large elephant near water near trees, in the style of 8k, elegant, emotive faces, charly amani, soft-focus technique, jan van ravesteyn, adventure themed, charles willson peale --ar 3:2

large elephant near water near trees, in the style of 8k, elegant, emotive faces, charly amani, soft-focus technique, jan van ravesteyn, adventure themed, charles willson peale

שלב 3: (למתקדמים) ללמוד התאים את התמונה לצרכים שלנו

אם תשאלו אותי יש שתי דרכים עיקריות ללמוד איך לשפר את הפרומפטים שלנו:

  1. להיכנס לגלריה של מידג'רני (צריך להיות מנויים) ושם אפשר לראות את כל היצירות שנעשות על ידי אנשים אחרים במידג'רני למעט אלו שמייצרים במצב פרטי. יש שם כמות בלתי נגמרת של תמונות שאפשר לראות את הפרומפט המלא של כל אחת ואחת מהן.
  2. להשתמש בפקודה /describe ולתת למידג'רני לתאר לנו תמונות, להבין איך הוא רואה סגנונות מסוימים ואיך הוא מסביר את התמונות וככה לשאוב השראה. בפרומפטים שלנו Midjourney כלל ביטויים כמו edward cucuel למשל, שבחיפוש פשוט בגוגל מסתבר שזה צייר אמריקאי מהמאות 19 עד 20, ומשום מה מצא את הדרך לתמונת הפיל שלנו. עוד ביטויים כמו "bold and energetic", "strong emotional impact", "adventure themed" ועוד רבים - כולם משפיעים על הפרומפטים שלנו ולכן אפשר לשאוב השראה מטורפת מאיך שמידג'רני מייצר עבורנו פרומפטים.

עכשיו תחשבו על זה שאפשר לקחת את כל הפרומפטים האלה וליצור מהם פרומפט אחד מדויק יותר. בעצם לשלב בין כל מיני ביטויים שיצאו לנו בארבעת הפרומפטים שקיבלנו. למשל, אני יצרתי את הפרומפט הבא:

/imagine an elephant standing under a tree beside a lake, telephoto lens, soft-focus technique, adventure themed, 32k uhd, backlit photography, in the style of strong emotional impact, line art, vibrant pastel colors --ar 3:2

רוב הפרומפט זה איחוד של ארבעת הפרומפטים ואני הוספתי עוד שני ביטויים שנתנו לזה את הטאצ' הרגוע שאני יותר אוהב: line art, vibrant pastel colors.

והתוצאה:

an elephant standing under a tree beside a lake, telephoto lens, soft-focus technique, adventure themed, 32k uhd, backlit photography, in the style of strong emotional impact, line art, vibrant pastel colors

לסיכום

עיקר העבודה של כותבי פרומפטים הם להיות יצירתיים. ממש כמו אמנים אחרים. צריך להסביר את עצמו, לדעת באיזה מונחים להשתמש, איך ה-AI מבין את המונחים האלה, וגם לייצר לעצמנו סגנון שאנחנו יותר מתחברים אליו ולהבין יותר את המנוע שאנחנו משתמשים בו (מידג'רני בדוגמה שלנו).

שאיבת השראה היא דבר חשוב. היא מה שיהפוך את הפרומפטים שלנו מרגילים ללא שגרתיים. השראה היא מה שתאפשר לנו לפתח את הסגנון שלנו על ידי היכרות עם סגנונות אחרים. ממש כמו בכל תחום אחר. ואחר כך צריך פשוט לנסות. קחו לכם כמה תמונות שאתם אוהבים, תריצו על פקודת /describe ותנסו לייצר את הפרומפטים שתקבלו, אחר כך תקחו מזה השראה ותפתחו לעצמכם סגנון.

עד הפעם הבאה.