Tumgik
#スクレイピング
tsubakicraft · 8 months
Text
Webスクレイピング
モノづくり塾で動かすAIサーバーで学習に使うデータセットを作りたいと思っています。 文章生成AIは事前学習された事実に対して、事後学習した事実があまり影響されないとか。そんな論文があるようです。ただし表現の仕方を調整することは容易なのでしょう。 予算の少ないローカル環境でやれる学習なので、あまり大きなモデルを扱うわけではありませんが、それでも36億、70億というパラメーター数です。事前学習で使用した文章データも膨大です。 読んだ事のない文章を読ませると良いのかな? 事後学習のネタ作りをしようと思っていて、モノづくり関連のデータをたくさん用意しようと思いますが、打ち込むのは大変なのでスクレイピングして掻き集めることにします。1000件くらいのデータセットを作るのが目標です。 昨夜はPuppeteer…
Tumblr media
View On WordPress
0 notes
hiyoko-channnel · 2 years
Text
Pythonで商品再入荷やWebページの更新を自動検知するプログラムの作成
本動画では、Webページが更新されたかどうかを自動で検知するプログラムを作っていきます。通知や定期実行と行った重要な部分は参考動画をご紹介するため、今回は、更新を自動検知する仕組みの部分にフォーカスしてお伝えします。自動検知プログラムを作成すると、品切れ商品の再入荷がすぐにわかったり、公開時期未定のWebページの公開タイミングを把握することができます。日常生活にも便利なプログラムを一緒に作っていきましょう。 00:00 イントロ 00:31 最初の説明 01:55 更新自動検知 17:18 参考動画紹介 ■ 講義で使用するサイト ■ 参考動画 <通知> 【LINEチャットボット作成】毎朝美女からメッセージが届く方法をわかりやすく解説!Python×Messaging API×GitHub…
Tumblr media
View On WordPress
0 notes
nihongo · 9 months
Text
アップデート情報
🌟新機能
OpenAIのGPTBotがTumblrによるコンテンツのクロールを阻止しているのと同様に、Common CrawlクローラーがTumblrからコンテンツをスクレイピング(抽出)するのを阻止するようになりました。
Web版のダッシュボードで、スクリーンリーダーやその他のツールによるアクセシビリティを向上させるため、投稿ヘッダーのブログ名のリンクに「rel="author”」が追加されました。
Web版の「/search」ページで、検索バーがサイドバーからページ中央のメインセクションに移動されました。
先週お伝えしたリブログヘッダーのデザイン変更実験に参加された方に向けて、作成者のポートレートを表示するオプションが有効になっている場合、グループブログからの投稿にプロフィール画像が再び追加されました。
Web版で受信ボックスのゲスト投稿されたブログをブロックする場合、サブブログ(受信者の場合)とメインブログの両方からブロックできるようになりました。
Web版で、ローカライズされた数字の書式がすべてのサポート言語で改善されました。
Web版で、ログアウトしているユーザーがブログビューを閲覧している場合、しばらくスクロールすると、時々ログインするよう促されるようになりました。
「お気に入りをトップに表示する」を有効にしたユーザーに 「すべてチェック済みです!」のカルーセルを表示する実験を行なっています。
🛠️ バグ修正
ユーザーのブログに対するサブスクリプション数が正しく表示されないバグが修正されました。
Web版の投稿エディターで、「続きを読む」ブロックの後にフォトセットを配置すると正しく表示されない問題がありましたが、すでに修正済みです。
Web版で、コンパクトな投稿(例えば、探索ページのグリッドに表示される場合など)の投稿ヘッダーが改善されました。長いブログ名やバッジ、フォローボタンが単語の途中で改行されることはなくなり、各要素はヘッダー内で適切に整列されたままになります。
Safariを使用している時、ブログメニューアイテムの横に箇条書きが表示される問題が修正されました。
Web版の投稿エディターでの取り消し/やり直しに関する様々な問題が修正されました。エディターで取り消しとやり直しを使用する際の安定性が向上していることに気づかれた方もいるかもしれません。
Web版で、匿名の質問のプロフィール画像が空白になってしまう問題が修正されました。
Web版の投稿エディターで、すべてを選択するとエディター外のテキストが選択されることがあるという、HTMLおよびMarkdownモードに影響する問題が修正されました。
一部ユーザーに影響する、ハッシュタグ(#)を付けて検索を開始すると、そのタグの検索結果ではなく、検索結果に戻ってしまうという、一部ユーザーに影響する問題が修正されました。
🚧 現在対応中
アクティビティタブ/ハイライトのデザインが変更され、Android版ユーザーに徐々にロールアウトされています。
現在、懸命にTumblrのドキュメントの更新に取り組んでいます。分かりにくい点や古いままの箇所を見つけたら、フィードバックをお寄せください!
🏴‍☠️👒
🌱今後の予定
リブログのデザイン変更に関するフィードバックをしっかりと受け取りました。現在、次のステップについての話し合いを進めています。ありがとうございました!
問題が発生していませんか?そんな時は、サポートリクエストを送ってください(英語でのみ対応)。できるだけ迅速に対応させていただきます。
共有したいフィードバックがありますか?「Work in Progress」ブログ(英語のみ)をチェックして、コミュニティで議論を始めましょう。
36 notes · View notes
lastscenecom · 6 months
Quote
噂では『Midjourney』は『YouTube』でSFゲームの配信動画をひたすらスクレイピングしていたらしいと。ゴッホの絵の枚数はたかだか何百枚だけど、『YouTube』にアップロードされるゲーム配信は1日何百時間とあるので、『Midjourney』はそれを学習して、『Discord』上で展開してフィードバックを得ていたから良質なキュレーションが可能になったらしいです。
AI以降の人類が獲得しつつある「予測不可能性」への耐性|Real Sound|リアルサウンド テック
6 notes · View notes
kennak · 2 months
Quote
OpenAIとGoogleは、YouTubeビデオから転写されたテキストに基づいてAIモデルをトレーニングしており、クリエイターの著作権を侵害する可能性があるという ニューヨーク・タイムズ紙 。 この報告書は、OpenAI、Google、Metaが自社のAIに供給できるデータ量を最大化するためにどれだけの努力をしてきたかを説明しており、各社の実践に詳しい多くの関係者の話として引用している。 とのインタビューで、OpenAI が新しいテキストからビデオを生成するジェネレーターである Sora をトレーニングするために YouTube ビデオを使用しているとされるのは これは、YouTube CEO のニール・モハン氏がBloomberg Originals 述べた数日後のこと 、プラットフォームのポリシーに反すると だ。 によると NYT 、OpenAI は Whisper 音声認識ツールを使用して 100 万時間以上の YouTube ビデオを文字起こしし、その後 GPT-4 のトレーニングに使用しました。 The Informationは 、OpenAIが2つのAIシステムのトレーニングにYouTubeビデオとポッドキャストを使用していたと以前に報じた。 OpenAIの社長グレッグ・ブロックマンもこのチームのメンバーの一人だったと伝えられている。 Googleの規則に従い、「YouTubeコンテンツの不正なスクレイピングやダウンロード」は許可されていないと、Googleの広報担当マット・ブライアント氏は NYTに 語り、同社はOpenAIによるそのような使用については知らなかったとも述べた。 しかし報告書は、Googleが独自のAIモデルのトレーニングにYouTubeビデオを使用していたため、OpenAIに対して認識していながら行動を起こさなかった人々がGoogle内にいたと主張している。 Googleは NYT に対して、これに同意したクリエイターの動画に対してのみそうする、と語った。 EngadgetはGoogleとOpenAIにコメントを求めた。 NYT の 報告書はまた、GoogleがAIモデルや製品をトレーニングするためのGoogleドキュメントやGoogleスプレッドシートなどの公開コンテンツの使用をより広範囲にカバーするために、2023年6月にプライバシーポリシーを調整するようチームに要請したと主張している。 Googleによれば、この変更はわかりやすくするために加えられたもので、7月に公開された。 ブライアント氏は NYT に対し、この種のデータはGoogleの実験的機能テストにオプトインしたユーザーの許可を得てのみ使用されており、同社は「この言語変更に基づいて追加の種類のデータのトレーニングを開始したわけではない」と語った。 この変更により、そのデータの使用例として Bard が追加されました。
OpenAI と Google は、AI モデルのトレーニングに YouTube 動画の文字起こしを使用したと報告されています
2 notes · View notes
pudknocker · 1 year
Quote
規約で「うちの画像スクレイピングすんの禁止な」って定めてるpixivをヘルサイト呼ばわりして絵を非公開にして「投稿されたコンテンツは好きな時に弊社開発AIに食わせてもらうぜ」って規約のTwitterに絵を投下するの普通にギャグでしょ
ぺんぎん焼くなさんはTwitterを使っています
5 notes · View notes
774 · 11 months
Quote
短文投稿サイトのツイッターが日本時間1日午後10時ごろから、一部利用者の間でつながりにくくなっていたことがわかった。買収した米起業家のイーロン・マスク氏は日本時間2日、利用者が1日に読めるツイートの数を一時的に制限したとツイッター上で明らかにした。仕様の変更が影響している可能性がある。 インターネット上の障害を推定するサイト「ダウンディテクター」によると、つながらないという報告は一時5000件以上に及んだ。少なくとも米国、欧州、日本で利用者からサービスが使えないという声が出ていた。ツイッターを運営するX社からコメントは得られなかった。 ツイッターは6月30日ごろから、ウェブを通じて閲覧しようとすると、改めてログインが必要となる措置を実施していた。「スクレイピング」と呼ばれ、人工知能(AI)や自動プログラムが大量のデータをツイッターから集める手法に制限を加えるのが狙いだ。 マスク氏は自らのツイッターアカウントで「一時的な緊急措置だ。データが略奪されすぎて一般利用者のサービスが低下していた」と投稿し、AIが学習にデータを利用していることに不快感を示していた。 マスク氏はさらに「極端なレベルのデータスクレイピングとシステム操作に対応するため」として、認証済みの利用者は閲覧を1日当たり6000件、認証していない利用者は300〜600件に制限したと明らかにした。こうした措置は認証済み利用者で同8000件、非認証利用者で400〜800件にすぐに引き上げるという。 ツイッターはこれまで投稿のデータを外部の企業や研究者が自由に活用できるオープン戦略を貫いてきたが、マスク氏は本人認証や外部のソフト・データ連携への課金を強化して収益化を急いでいる。
Twitter、1日の閲覧数を制限 自動データ収集に対応 - 日本経済新聞
4 notes · View notes
alog4 · 11 months
Quote
データ・スクレイピングとは簡単に言えば、インターネットから情報を引き出すことを意味する。大規模な言語モデルの学習には、現実の人間の会話が大量に必要となる。チャトボッの成功には、高品質のデータから学習することが不��欠だ。ツイッターや掲示板サイト「レディット」などにある数十億件の投稿は、AIの訓練データとして非常に重要だとされており、AI企業も使用している。 しかしツイッターやレディットは、こうしたデータを有料にしたいと考えている。
ツイッターが閲覧制限、「データ強奪」への一時的対策とマスク氏 - BBCニュース
2 notes · View notes
enjoyexcel · 2 years
Text
VBAでWebスクレイピング 難しい初期設定を分かりやすく解説
MicrosoftがIEのサポートを終了させましたね。よって今までVBAからのWebスクレイピングはIEを経由して情報を取得するのが主流でしたが別の方法を考える時に来ています。
今後定番となるであろうSeleniumbasicを使ったWeb情報を取得する方法について紹介、解説していきます。
2 notes · View notes
tumnikkeimatome · 21 days
Text
Google ColabでWebスクレイピングしてNotion APIに自動追加するプログラムの作成マニュアル
はじめに このブログ記事では、Google ColabでWebスクレイピングを行い、取得したデータをNotion APIを使って自動的にNotionのデータベースに追加するPythonプログラムの作成手順を解説します。 プログラミング初心者でも理解しやすいよう、ステップバイステップで丁寧に説明していきます。 準備 前提条件として用意するのは、Google ColabとNotion APIの利用環境です。 Google Colab Google ColabはGoogle提供の無料のクラウドベースのJupyter Notebookサービスです。 ブラウザ上で実行できるため、ローカル環境の設定が不要で便利です。 Google アカウントさえあれば、すぐに使い始めることができます。 Notion API Notionはノートアプリケーションとしてだけでなく、APIも提供しています。 Notion…
Tumblr media
View On WordPress
0 notes
aya-azana · 2 months
Text
スクレイピング・ユア・ハート ― Access to SANUKI ―
あらすじ 平凡な大学院生である丸亀飛鳥。 新規気鋭のイラストレーターで、飛鳥の後輩である詩音。 四年ぶりの再会を経て、二人は奇妙な出来事に巻き込まれていく――――
 物語の始まりなんて、なんでもよかった。  偉人の言葉を引き合いに出して、壮大な問題を提起する冒頭が思いつかない。洒落た言い回しを使った、豪華絢爛な幕開けが思いつかない。ああ、思いつかない。とにかく、思いつかないの。  一般教養が足りないとか、センスがないとか、そんなんじゃない。  ただ、平坦。二十三年生きた人生に山も谷もない。  一般的な都内の中流家庭に産まれ、すくすくと成長し、苦難なく小中高大を卒業。  特に研究したいこともないが、働くのが嫌で大学院へ。研究生活の中で平均くらいの能力を身につけ、今でもゆるゆると日常を謳歌している。  そんな人間が想い描く物語だ。たとえ始まりを豪華絢爛にしたところで、面白くともなんともない。  だから、始まりなんてなんでもいいん『そんなことないわ』  ……そうかしら。それなら、もう少し頑張ってみ「お願いだから止まって、止まって!」  ……どっちよ。  これは、寝る前にするちょっとした妄想。クラスを占拠した悪漢を一人でやっつける、みたいなもの。  目を瞑っているのだから周囲は真っ暗だし、私以外の声が聞こえるわけ「先輩!先輩!しっかりして!」  うーん。うるさいわね。  聞き覚えがある女の子の声。少しガサついていて綺麗な声音ではないのだが、なぜか心地よくて、落ち着く。  ……寝る前に聞く、ちょっとえっちなASMRの切り忘れね「先輩!?」。面倒だけど一度起き『ダメよ』
 身体がビクン、ビクンと震える。
 表面上は高潔な雰囲気を纏っているものの、ねっとりとした厭らしさが滲みでて、根底にある魔性を隠しきれていない女性の声。  今まで一度も聞いたことがない。声の主なんて知るはずがない。それでも狂しいほど切なく、堪らないほど愛おしい。  そんな声が全身を駆け巡り、電撃のような痺れとなって身体を激しく愛撫したのだ。  『貴女の全てが欲しいの』  唐突に発せられた媚薬のような愛の囁きに、動悸が早くなって頬が火照る。恋愛感情に近い心の昂りが瞬く間にニューロンを焼き焦がして、身体にむず痒い疼きを与えた。  『貴女は快楽の熱で、ドロドロに蕩かされていく』  そう告げられると、容赦ない快感が次々と身体に打ちつけられ始めた。  堪らず身を捩ろうとするが、金縛りに遭ったように手足が動ない。舐めしゃぶられるように身体中が犯され、許しを乞うことすらできない。ただ一方的にジュクジュクとした甘ったるい快楽の波が全身に蓄積していく。  やがて許しを懇願することさえ忘れ、頭の中が真っ白に染まってしまう。もう耐えきれない、決壊してしまう。  『そして、深く深く流れ落ちていく』  そのタイミングを見透かしたように、許しの言葉が告げられる。同時に、心の器が壊れ、溜め込んだ全ての快感が濁流のように全身を駆け巡った。  意識が何度も飛びそうになって、頭のチカチカが止まらない。獣のように声にもならない嬌声をあげながら、やり場のない幸福感に身を委ねて甘く嬲られることしかできない。何もかもがどうでもよくなる程、気持ちがいい。  永遠に思えるような幸福な時間を経て、すぅっと暴力的な快楽が引いていくのを感じた。代わりに、深い陶酔の中へ身体が沈み始める。  そして、自然と強張って��た身体から力が、いや、もっと大切な何かが抜けていく。でも危機感はない。  たとえ声の主が猛獣で、彼女に捕食されている最中であっても、私は目を開けず身を任せてしまうだろう。  ゆっくりと身体の輪郭が曖昧になり、呼吸が浅くなっていく。意識が朦朧として何も考えられない。ただ、恍惚たる快楽の余韻に浸りながら、彼女の言葉の通り深く深く、流れ落ちていく。  『おやすみなさい、愛しい貴女』  赤ん坊に語りかけるような優しい声音で別れが告げられる。そして、私の意識はブレーカーが落ちたようにプツンと切れた。  遠くからぼんやり響いた悲痛な叫びは、もう私に届くことはなかった。
 ***    もしあたしにインタビュー取材依頼がきて、最も影響を受けた人物を聞かれたら、間違いなく先輩と答えて彼女への想いを語り続けるだろう。  コラム執筆依頼がきたら必ず先輩の金言を引き合いに出して最高のポエムに仕上げるし、ラジオに生出演したら「いぇい、先輩、聴いてるー?」が第一声と決めている。  現に初めて受賞した大きなイラストコンテストの授賞式の挨拶では、会場にいない先輩に向けて感謝の気持ちを述べた。それほどまで、高校で先輩と過ごした二年間はかけがえのない宝物だったのだ。  だから、あたしという物語の始まりは必ず先輩との思い出を引き合いに出すと決めている。  そんな小っ恥ずかしいことを寝巻き姿で平然と考えてしまう程、あたしこと讃岐詩音は浮かれていた。  なんせ今日は先輩と四年ぶりの再会である。  窓から差込む小春日和の暖かな日差しが、今日という素晴らしい日を祝福しているようにも思えた。
 「詩音、朝ごはんできてるわよー」  「うん」  一階から聞こえたママの呼びかけに応じる、蚊の鳴くような声。自分のガサついた地声が嫌で、どうしても声量が小さくなってしまう。  おそらくママには聞こえていないので急いで自室から出て階段を降り、リビングに移動する。閑静な高級住宅街に建つ一軒家に相応しくないドタバタ音が鳴り響いた。  「危ないからゆっくり降りてきなさいって言ってるでしょ」  ママのお小言に無言で頷きながら、焼きたてのバターロール一個とコップ一杯のスープをテーブルに運ぶ。いつものご機嫌な朝食だ。  「バターロールもう一個食べない?消費期限今日までなの」  ママの問いかけに対して首を横に振って拒否した。少食なあたしにとって、朝の食事はこの量が限界。これ以上摂取すると移動の際に嘔吐しかねない。  「高校でバスケやってた時はもっと食べてたのに。ママ心配よ」  そう言われてしまうと気まずいが断固としてNOだ。先輩との大切な再会をあたしの吐瀉物で汚したくない。  話題を逸らすためテレビをつけると、ニュースキャスターが神妙な面持ちで原稿を読み上げていた。  「横浜市のアトリエで画家の東堂善治さんが倒れているのが見つかり、病院に搬送されましたが意識不明の重体です」  たしか、以前参加したコンテストの審査員だったような。国際美術祭で油彩画を見たような。あと生成AI関連で裁判がうんたら。  「東堂さんは世界的に権威のあ……また、スポンサー契約を交わしていたFusionArtAI社に対して訴……捜査関係者によると奪われた絵……」  ニュースの内容を聞き流していると、概ねの内容は記憶と合致していた。どうやら、高校を卒業してから勉学の道には進まず、創作活動に勤しむようになったあたしの記憶力はまだ健在らしい。少しだけ、ホッとした。  「最近物騒ね。よく聞く闇バイト強盗かしら。ほら、この前も水墨画の先生が殺されたじゃない。詩音も今日のおでかけ、気をつけなさいよ」  「ん、気をつける」  ママを心配をさせないために少しだけ大きな声で返事をして、深く頷いた。  食事を終えた後、アイロンがけされた一張羅に着替えて身なりを整え、先輩が待つ喫茶店へ向かった。    ***    ――――ちょうど三週間前のこと。  本業のデジタルイラストの息抜きとして始めた水彩画にハマりにハマって、気がつけば丑三つ時。ふと先輩の顔が頭に浮かんだのだ。  丸筆とパレットを置いてから勢いよくベッドにダイブして寝転がり、流れるようにエプロンのポケットからスマホを取り出す。  先輩はSNSを実名で登録するタイプではない。それでも広大なネットのどこかに先輩の足跡みたいなものがないか、淡い期待を抱いて名前を検索してしまう。  そんな自分がちょっと気持ち悪い。  自己嫌悪に陥りつつ検索結果を眺めていると、思いもよらない見出し文を見つけたので間髪入れずにタップした。
 「情報システム工学専攻修士1年生の丸亀飛鳥さんが、AIによる雛の雌雄鑑別システムに関する研究で人工知能技術学会最優秀論文賞を受賞しました」
 ゆっくりとスクロールしながら情報を集める。やがて研究室のホームページに掲載された集合写真にたどり着く頃には、これが先輩の記事であることを確信した。  ……正直言って自分がだいぶ気持ち悪い。  「やっぱり先輩はすごい。うん、とてもすごい人だ」  先輩の活躍ぶりに足をばたつかせながら興奮していると、ピコンと仕事用のアドレス宛に一通のメール。見慣れないアドレスだったが、ユーザー名が目に入った瞬間飛び起き、正座になる。  「marugame.asuka0209って、これ絶対に飛鳥先輩だ!」  偶然にしては出来すぎているが、なんの警戒もなく開封をして内容を隈なく読み込み――――読み終える頃には呆然としていた。  要約すると研究協力の依頼であり、可能であれば一度会って話せないか、という非常に堅苦しい内容である。  気がつくと涙が頬を伝っていた。  四年ぶり、つまり先輩が卒業してから初めて貰った連絡。元気?今度ご飯でも行かない?みたいな、そういうのを期待していたあたしがおバカじゃないか。  ――――いいや、先輩が悪いわけではない。これが普通。むしろ、あたしがおかしい。  何を隠そう、あたしと先輩の間に特別な繋がりはない。友達でもなければ恋人でもない。ただ、バスケ部の先輩後輩というだけで、練習と試合だけが共に過ごした時間の全て。連絡も練習に関することだけ。そんな程度の仲。  「……それでも好き」  あたしに手を差し伸べてくれた先輩に対する想い。四年経ってもこの気持ちは色褪せていない。  でも、これが最後になるかも。もし拒絶されたら、ただの先輩後輩ですらなくなってしまったらどうしよう。そう思うと、胸が苦しくなる。だから今まで一度も自分から連絡できなかった。  ――――涙を拭い、ありったけの勇気を振り絞る。  先輩に会ってお話しがしたい、その気持ちだけで震える指をどうにか動かし、書いては消してを繰り返す。文面が完成しても、何度も声に出して読み上げ続け、早三時間。返信を完了する頃には外が薄明るくなりつつあった。  急にドッと疲れが出て、再びベッドに倒れうつ伏せになり、顔を枕に埋める。そのままうめき声を上げて、湧き出る混沌とした感情を擦り付けていく。  このあられもない姿がママに目撃されていたことは、あたしの人生最大の汚点となるのだった。    ***    ――――いつの間にか私はドアの前に立っていた。  温かみを感じるレトロな木製のガラスドア。ここは大学から離れた場所に佇む、少し寂れた喫茶店の玄関前だ。私の憩いの場の一つで、よく帰り道に訪れている。  ぼーっとしていると、店内が薄暗いからか自分の姿がガラスに反射していることに気がついた。  ガラスに映る、ケープを羽織ったおさげ姿の美少女。うどんのように白い肌が彼女の纏う儚さに拍車をかけている。    彼女の名は讃岐詩音。    私の一個下で、高校バスケ部の後輩だ。  某バスケ漫画に憧れて入部したという詩音は、初心者という点を考慮しても信じられないほど下手だった。  ドリブルやパスはへんてこだし、一番簡単なレイアップシュートすらろくに出来ない。おまけに口数が少ない不思議ちゃんで、趣味と特技がイラストときた。  そのため、次第に周囲から腫れ物のように扱われるようになる。  それでも詩音は部活を辞めず、直向きに人一倍努力を続けた。  しかし、周囲からの扱いは変わることはない。下手っぴが一人で頑張っても嘲笑の対象になるだけだ。  だから私は、詩音に手を差し伸べた。少しでも彼女が笑顔になれるように。  ――――精一杯頑張る彼女の姿が、どこか冷めていた私の憧れだったから。    原因は不明だが、今、私は『詩音』の姿になっている。まるでVRを体験しているようだ。なんにせよ、玄関前で棒立ちを続けるのは迷惑だ。  混乱しながらドアを開けて入店すると、店員がにこやかに迎え入れてくれた。  「いらっしゃいませ、讃岐さんですね。丸亀さんはあちらの席でお待ちです」  会釈をするも、妙な違和感。戸惑いながら店員の案内に従い、席に移動した。そして私は大っ嫌いな女と対面することになる。  緑色の黒髪が綺麗な、リクルートスーツ姿の美女。気品のある見た目をしているが、中身は空っぽ。連絡が来ないから嫌われたと思い込み、自分を慕う後輩を四年間も放置したクズ。そんな女性が私を見て微笑む。
 『久しぶりね、詩音』
 そう、『『私』』だ。まるで鏡を見ているかのように、『私』が机を挟んだ向こう側に存在している。  詩音と四年ぶりに再開したあの日の夢を見ているのだろうか。  唖然とする私を無視して、目の前に座っている『私』は一方的に話を進めていき、本題に移り始める。
 『研究室が推進するイラスト生成AIプロジェクトが難航しているの』
 原因は技術の普及と発展に伴って、目視であっても判別できないAIイラストがウェブ上に溢れかえったことだ。  その結果、クローラープログラムがウェブを巡回してイラストを収集するスクレイピング技術で作られた学習データにAIイラストが混入し、AIプログラムが崩壊する報告が多数出ている。  余談だが、私の研究は養鶏農家から提供される写真を使用しているため、全く影響を受けなかった。それゆえ、最優秀論文賞を繰り上げ受賞してしまったのだ。
 『研究用のデータ加工が大変なのよ』
 これはイラストレーター達が自衛として、データをそのままウェブにアップロードしなくなったからだ。  近頃はデジタル画像を紙に印刷した作品やアナログ作品を造花などで飾り付けてからカメラで撮影する、2.5次元作品が主流となっている。  イラスト本体の解像度劣化やカメラフィルターによる色合の変化、装飾物による境界の抽象化などが原因で、2.5次元作品はAIで学習できない。  修正AIで2.5次元作品を2次元作品に加工しようとしても、誤認識のパレードである。そのため、ゆうに一万を超える大量のデータを人力で加工するしか手立てがないのだ。
 『FusionArtAI社のデータも法外的な値段で八方塞がりなの』
 FusionArtAI社は唯一ピュアなイラストデータを扱っているユニコーン企業だ。東堂善治のような大御所アーティストらと契約し、安定して高品質なデータを取得しているらしい。  AIやらNFTやらを壮大に語っているが事業内容がよく理解できない。それに莫大な資金が何処から出ているのか非常に疑問である。  加えて詩音がモニターとして、AIの学習を阻害する絵具を貰ったのだとか。胡散臭すぎる。
 『だから詩音のイラストのデータを全て譲って欲しいの』
 「……は?ちょっと待ちなさい」
 今まで無言で頷いていたが、思わず声が出てしまう。
 『貴女の全てが欲しいの』  「そんなこと言っていない!私は研究協力の依頼を断るように警告したのよ!!」    ことの発端は詩音がイラストコンクールの授賞式で私の名前を出したことである。偶然その授賞式に私の指導教員も来賓として出席していたのだ。  後日、ゼミで彼女の挨拶が話題に出され、私は迂闊にも恥ずかしさのあまり過剰に反応してしまった。  指導教員は詩音が語った人物が私のことだと察した。そして詩音宛に研究協力の依頼を出すよう、私に指示を下したのだ。  なんせ、詩音は今や業界を席巻する超新星。その作品を利用できれば、データの質の担保だけでなく、研究に箔をつけることができる。  下手をすれば詩音が筆を折りかねないその指示に対し、私は強い憤りを感じた。  しかし、上の言う事は絶対。だから大学から離れた喫茶店に呼び出し、密かに依頼を断るように警告したのだ。  ……加えて、授賞式のようなオフィシャルな場で無闇矢鱈に人様の個人情報を出さないよう、情報リテラシーの講義もみっちり実施した。  詩音は私の言葉を素直に聞き入れてくれた。ただし、研究室の厄介事に巻き込んだお詫び?として、週末に作品撮影のアシスタントをする約束をした。    ――――その撮影日が今日。  そこは、誰も寄りつかない瓦礫まみれのビーチ。  遥か昔、海辺に栄える水族館だった場所。  青空の下、詩音が無我夢中になって作品の飾り付けをしている。  装飾材を補充するため、彼女が水彩画に背を向けた刹那。  額縁からコールタールに似た漆黒の液体が勢いよく溢れ出し、彼女を襲う。  だから私は彼女を突き飛ばして。  悍ましく蠢く闇に、『食われた』。    「……ようやく思い出したわ」  これは、妄想でも夢でもない。相対する『私』の皮を被る怪異が起こした現象だ。  理解不能な存在に生殺与奪の権を握られている。その事実を認識した途端、体に悪寒が走り、鳥肌が立つ。今にも腰が抜けそうだ。  怪異は恐れ慄く私の眼をじっとりと見つめながら、ブリーフケースから同意書とペンを取り出し、机の上に置いた。  『貴女とはいい関係になれると思うの』  そう言いながら、怪異は小指を立てながら厭らしく微笑む。  私の生存本能が、この文字化けした書類にサインをしてはいけないと警鐘を鳴らしている。サインをすれば、死ぬ。  それでも私は震える手でペンを掴んでしまう。    ……だって、私なんかが敵う相手じゃないもの。   怖くて泣きじゃくる無様な私に何ができるの。  そうね。きっと、あっけなく死ぬのよ。  ――――そうだとしても    「大切な後輩を襲ったお前だけは、絶対にぶっ殺してやる!!」    私は決死の覚悟を決め、一世一代の大啖呵を切った。瞬時に怪異に対する怒りの炎が燃え上がり、滞っていた思考が急激に動き始める。  相見えるは常識の埒外の存在。裏を返せば奇想天外な自由解釈が可能であり、不格好でもそれっぽい仮説を立ててしまえば、私にとっては常識の埒内の存在になる。  きっとそう強く信じなければ、目の前の『私』は倒せない。  唇に人差し指をあてながら、ただひたすらに、常識や記憶の間に無理やり関連性を見出して理屈をこじつけることを繰り返す。  やがて、その思考過程を経て、一つの結論に辿り着く。    この怪異の正体は、『クローラーを模した淫獣』だ。    こいつは複数回にわたって人を襲い、心の記憶から作品を抽出していくタチの悪い存在。全ての作品を取り込み終えると、獲物に大量の快楽成分を流し込んで再起不能にする恐ろしい習性を持つ。  おそらく詩音も何度か寄生されていて、今日が最後の日になるはずだった。  ところが、すんでのところで私が身代わりになったため、情報の吸い残しがあると誤認が生じてしまった。それは淫獣にとって重大なエラーである。  そこで、やり直しを試みるも、改めて詩音の同意が必要となってしまった。  だから先日の会話に基づいてこの空間を生成し、『私』の皮を被ってサインを迫っているのだ。――――今、自分が捕食している獲物が『丸亀飛鳥』であることに気が付かずに。  そして、最も重要なことは淫獣が人工的に作られた存在という点である。  これまでの同意書に重きを置くような言動を見ると、魑魅魍魎の類とは思えない。何より、元凶に心当たりがある。  そう、FusionArtAI社だ。淫獣の正体が例の胡散臭い絵の具であり、密かに多数のイラストレーターを襲っているとしたら、全て辻褄が合う。  ――――そうであると信じるの。そうすれば、こいつに一矢報いることができるはずよ。  汗ばんだ手で同意書を手繰り寄せ、ゆっくりとペン先を近づける。  すると、自分勝手に喋っていた淫獣が口を閉じ、紙面をじっと凝視し始めた。それだけではない。空間を構成する全てが、その瞬間を見逃すまいと監視している。  張り詰めた空気の中、私は素早く紙を裏返して、こう書き記す。    robots.txt  User-agent: *  Disallow: /    その意味は、『クローラーお断り』。  今や対魔の護符に等しい存在となった同意書を握りしめ、勢いよく席を立つ。  「私の全てが欲しい……そう言っていたかしら?」  沈黙。詩音の好意や才能を踏み躙った淫獣は、口を開かない。  『An error occurred. If this……』  どこからともなくアナウンスが聞こえるが今はどうでもいい。
 「これが私の答えよ」
 大っ嫌いなクソ女の顔面が吹き飛び、振り抜いた私の拳が漆黒の返り血に染まる。  一呼吸おいた後、心から詩音の無事を願い、静かに目を閉じた。    ***    茜色の空。漣の音。磯の香り……それと、ちょっと焦げ臭い。  そして、私の身体に縋って嗚咽する大切な後輩。  どうやら私は死の淵から生還できたらしい。無事を知らせるため、詩音の頭を優しく撫でる。それでも泣き止まないので、落ち着くまで背中をさすってあげた。  「心配かけたわね。詩音が無事でよかった」  詩音は私の胸に顔を埋めたまま、コクリと頷く。  「先輩も無事?」  「ええ、大丈夫よ」  これ以上、詩音を不安にさせないように気丈な態度をとるものの、重度の疲労を感じ、もはや立つことすらできない。  「ここはまだ危ないから、早く詩音だけでも逃げて」  「やっつけたから、モーマンタイだよ」  詩音が指差す方向を見ると、黒い液体に塗れた水彩画が静かに燃えていた。焦げ臭い匂いの原因はこれか。……やっつけたってどういうことかしら。  些細なことに気をとられている場合じゃない。  先ほどから微かに聞こえる、複数の物音。  何者かが物陰で息を潜め、私たちの様子を窺っている。  今や炭になりつつある淫獣の回収が目的か。いや、それは私がでっち上げた荒唐無稽な陰謀論にすぎない。  ここは、電波が届かない人里離れた廃墟。無防備な女二人がいつ襲われてもおかしくない、危険な場所だ。  詩音も気が付いたのか、私に抱きつく力が強くなる。意地でも私から離れないつもりのようだ。高校の時から感じていたが、この子は気が弱いわりに頑固だ。    ――――息が詰まるような空気を、遠くから鳴り響くサイレン音が切り裂いた。    同時に複数の人影が足音と共に遠ざかっていき、私は安堵の息を吐いた。  「もう大丈夫。定刻を過ぎても私から連絡がなかったら、警察と救急に通報するよう、母さんに頼んでいたの」  半分は今のような不足の事態に陥った時の保険として。  「やっぱり先輩はすごい。うん、とてもすごい」  もう半分は、尊敬の念を向けている後輩から刺された際の保険として。……絶対に黙っておきましょう。    ***    ――――事件から三か月後。  結局、私たちを襲った存在の正体は分からず終い。一方、あの場にいた不審な人影は東堂善治を襲撃した闇バイト強盗であった。そのため私達の不法侵入は霞んでしまい、一切お咎めなし。私達の身に何があったか、深く聞かれることもなかった。  まぁ、警察に事情を説明するにしても――――  FusionArtAI社が作ったスライム型の淫獣に襲われてデスアクメしそうになりました。奴らはアーティストの心の記憶に存在する作品データを狙っています。  という私の支離滅裂な説は口が裂けても言えない。それに、FusionArtAI社が不正会計絡みで呆気なく倒産したため、もう追及のしようがなかった。  ちなみに、詩音は黒い液体の正体が亡霊の祟りだと思い込んでいる。だから制汗スプレーとライターで除霊?しようとして、そのまま引火。あの有様となったそうな。  「貴女のおかげで助かったのかもしれないわね」  私の言葉に首を傾げる後輩は、今日も美少女だ。  あの事件以来、私達はお互いの身を案じて一週間に一回は会うようになった。といっても、毎回普通に遊んでいるだけだ。  今日は私の行きつけの喫茶店でまったりとお茶をしている。お紅茶がおいしい。  紅茶の香りの余韻を味わっていると、詩音の手招きが。  またか、と思いつつ耳を寄せる。
 「先輩のケーキ、一口欲しい」
 耳元で囁かれる妙に蠱惑的な声と熱の籠った吐息にゾクッとしてしまう。あの事件で私が晒した醜態から、余計なことを学んでしまったのだろう。  悪戯っぽく笑う詩音。本音を言ってしまうと非常に嬉しいのだが、どうも照れ臭くて顔を背けてしまう。  でも、これから時間をかけて慣れていけばいい。あの事件が私という物語の始まり、いや、――――私達という物語の始まりと決めたから。  二人に降り注ぐ優しい木漏れ日が、これからの日常を祝福しているように思える。  ――――そんな気恥ずかしいことを考えてしまうほど、私こと丸亀飛鳥は幸せだった。
0 notes
hiyoko-channnel · 2 years
Text
【PythonによるWebスクレイピング入門】vol.04:ランキングサイトの掲載情報を全て自動で取得する方法を徹底解説!
PythonによるWebスクレイピング入門第四弾です! 旅行検索サイト、ECサイト等やオススメ情報を掲載したサイトから掲載情報を自動で抽出する方法をお伝えします。 前回同様、Beautiful Soupを用いて情報を抽出する方法についてお伝えします!非常に実践的な内容となっております。是非お楽しみください! ◎講義で使用するページ ■ 本講座のベースになっているUdemy講座 PythonによるWebスクレイピング〜入門編〜 ■…
Tumblr media
View On WordPress
1 note · View note
lastscenecom · 6 months
Quote
欧州議会が発表したプレスリリースでは、以下の目的での AI の使用の全面禁止が含まれていることが確認されています。 ・デリケートな特性(政治的、宗教的、哲学的信念、性的指向、人種など)を使用する生体認証分類システム。 ・顔認識データベースを作成するために、インターネットまたは監視カメラの映像から顔画像をターゲットを絞らずにスクレイピングする。 ・職場や教育機関における感情認識。 ・社会的行動や個人的特徴に基づく社会的スコアリング。 ・人間の自由意志を回避するために人間の行動を操作する AI システム。 ・AI はかつて人々の(年齢、障害、社会的または経済的状況による)脆弱性を悪用していました。
EU議員、「世界初」のAIルールに関する深夜の合意を撤回 | テッククランチ
3 notes · View notes
kennak · 4 months
Quote
公開された Trello API を使用すると、プライベート電子メール アドレスを Trello アカウントにリンクできるため、公開情報と個人情報の両方を含む数百万のデータ プロファイルを作成できます。 Trello は、Atlassian が所有するオンライン プロジェクト管理ツールで、データやタスクをボード、カード、リストに整理するために企業で一般的に使用されています。 Trello データ漏洩のニュースは先週、「emo」という別名を使用する人物が人気のハッキング フォーラムで 15,115,516 人の Trello メンバーのデータを販売しようとしたときに起こりました。 ハッキング フォーラムの投稿には、「電子メール、ユーザー名、フルネーム、その他のアカウント情報が含まれています。15,115,516 行の一意の行が含まれています」と書かれています。 「欲しい人に1部販売します。興味があれば、現地または電報で私にメッセージを送ってください。」 ハッキング フォーラムへの Trello の投稿 出典: BleepingComputer これらのプロファイルのほとんどすべてのデータは公開されていますが、プロファイルに関連付けられている電子メール アドレスは公開されていません。 先週、BleepingComputer がデータ漏洩について Trello に問い合わせたところ、情報は Trello のシステムへの不正アクセスによって収集されたのではなく、公開データをスクレイピングすることによって収集されたものだと言われました。 Trello の所有者である Atlassian は先週、BleepingComputer に対し、「すべての証拠は、脅威アクターが既存の電子メール アドレスのリストを公開されている Trello ユーザー プロファイルと照合してテストしていることを示しています」と語った。 「私たちは徹底的な調査を行っていますが、Trello やユーザー プロファイルへの不正アクセスの証拠は見つかりませんでした。 しかし、攻撃者がどのようにして電子メール アドレスを確認できたのかについては、さらに詳しい話があったようです。 公開された API の悪用 BleepingComputer は、emo との会話の中で、電子メール アドレスを公開 Trello プロファイルに関連付けるために、公開されている API が使用されていることを知りました。 Trello は、開発者がサービスをアプリケーションに統合できるようにする REST API を提供します。 API エンドポイントの 1 つを使用すると、開発者はユーザーの Trello ID またはユーザー名に基づいてプロファイルに関する公開情報をクエリできます。 ただし、emo は、電子メール アドレスを使用してこの API エンドポイントをクエリすることもでき、関連付けられたアカウントがある場合はその公開プロフィール情報を取得できることを発見しました。 Emo氏はさらに、APIは公的にアクセス可能であり、TrelloアカウントにログインしたりAPI認証キーを使用したりせずにクエリできることを意味すると述べた。 次に、攻撃者は 5 億件の電子メール アドレスのリストを作成し、それらを API に入力して、それらが Trello アカウントに関連付けられているかどうかを判断しました。 BleepingComputer は、Trello の API は IP アドレスごとにレート制限されていると言われましたが、攻撃者は、API を常にクエリし続けるために接続をローテーションするためにプロキシ サーバーを購入したと述べました。 その後、API は認証を要求するように強化されましたが、無料アカウントを作成すれば誰でも引き続き利用できます。 BleepingComputer は、悪用を防ぐために API をさらに保護するかどうかを尋ねるために Trello に連絡し、次の声明を共有しました。 「Trello REST API によって有効になり、Trello ユーザーは電子メール アドレスでメンバーやゲストを公開ボードに招待できるようになりました。しかし、今回の調査で明らかになった API の���用を考慮して、認証されていないユーザーがアクセスできないように変更を加えました。ユーザー/サービスは、別のユーザーの公開情報を電子メールでリクエストできません。認証されたユーザーは、引き続きこの API を使用して、別のユーザーのプロフィールで公開されている情報をリクエストできます。この変更は、「公開ボードへの招待」を維持しながら、API の悪用を防止することとのバランスを取ります。 「電子メールによる」機能はユーザーのために機能しています。私たちは引き続き API の使用を監視し、必要な措置を講じます。」 公開データのスクレイピングは通常は問題になりませんが、データはすでに公開されていたため、Trello アカウントに関連付けられた電子メール アドレスはアカウント所有者のみが知ることになっていました。 したがって、電子メールなどのプライベート データをパブリック プロファイルにリンクすると、漏洩の重大度が高まります。 さらに、この情報は、Trello になりすまして、パスワードなどのより機密性の高い情報を盗む標的型フィッシング キャンペーンに使用される可能性があります。 関係者向けに、Trello の漏洩が 追加され データ侵害通知サービスに Have I Been Pwned 、漏洩した 1,500 万件の電子メール アドレスに自分が含まれているかどうかを誰でも確認できるようになりました。
Trello APIが悪用され、メールアドレスを1,500万のアカウントにリンク
3 notes · View notes
bearbench · 4 months
Text
0 notes
wantwant · 4 months
Text
Ruby, Nokogiriではエンコードを指定してあげたほうが良い。
ふしぎなこと とあるサイトをスクレイピング。 RubyでNokogiriしていたところある日変な事が起きた。 ``` ã è ½ç »å å³¶å °é ã ¯ã ã ã ã ã ã ®å °å é ²ç ½ã «ã ã ¾ã ã ¾ã ªèª²é¡ ã æ ã ã ã ã ã ã å¥¥è ½ç »ã ¨å ¼ã °ã ã å 島å é ¨ã §ã ¯æ æ°´ã é ·æ å ã ã ¦ã ã ã é …ã å °å ã §ã ¯ä»®å¾©æ §ã 4æ 以é ã «ã ªã è¦ è¾¼ã ¿ã  ã è é å·¥äº ã ã ã ã °è²»ç ¨ã æ°´é æ é ã «ä¸ ä¹ ã ã ã ã ã ã ã  ã §ã ã æ°´é ã ®ç¶ æ 㠳㠹ã ã é« ã é ç å °å ã §ã è é å ã é ²ã ã é £ã ã ã æµ®ã 彫ã 㠫㠪㠣ã ã ã ¾ã ã å¹´æ °ã ã ã £ã æ ¨é  ä½ å®…ã ¯å£ ã å° ã ªã ã é ã ç ¦ã å± æ ¹ã «å ºå® ã ã ã ã ã ¨ã §æ ºã ã «è å¼±ï¼ ã ã ã ã ã ï¼ ã «ã ªã ã ``` こういった文字列が取得されてしまった。なんで? 著作権に配慮して、原文は提示できないけど、本当は日本語の文章を取れたら良かった。 結論から言うと、下記の上の方が正解。エンコードを指定していなかったからだった。 ``` ruby doc = Nokogiri.HTML(URI.open(url), nil, "utf-8") # せいかい puts doc.xpath('//div[@id="shasetsu"]/p').text ``` ``` ruby doc = Nokogiri.HTML(URI.open(url)) # まちがい puts doc.xpath('//div[@id="shasetsu"]/p').text ``` でも、間違いの方でも、「.text」を抜いたらpタグ付きの日本語の文章を含んだコードがきちんと取れてるんだよな。 .textをつけると、pタグ内のテキストのみ取る事が出来る。はず、それが出来ないのはなんでか分からない。 ちなみにスクレイピング元のサイトは、HTMLのmetaタグでcharsetを指定していない。
0 notes