私は商業用不動産仲介会社の主任研究員です。 私はあなたが探しているもののための完璧なソースを知らないが、ここであなたが試すかもしれないいくつかのproxysがあります
有料オプション:Costarhttp://www.costar.com/ 時々、私は彼らが研究目的のためにデータアクセスを贈与することを聞いたことがあります。 私は彼らが米国全体をカバーするとは思わない、と彼らは唯一の特定のドルサイズ(something5,000のようなもの)の上にCREを見て
無料オプション:CraigslistScrape craigslist.org オフィスビルのリストのため。 たとえば、ニューヨークにリストされている最初の100のオフィススペースをURLhttp://newyork.craigslist.org/search/off
追加すると、”?s=100″そのURLの最後に(つまり、”http://newyork.craigslist.org/search/off?s=100″),あなたはリストを取得します100-199のうち2500. “を段階的に変更することにより、”オフ?s=x”部分、あなたはすべての2500を得ることができます。
もちろん、cリストは平均して小さいプロパティになりますが、私はカバレッジがかなり良いですし、バイアスは地域間で一貫しているだろう賭け
更新:aboutページからすべてのベースURLをスクレイピング
Rを使用する場合、rvest()を使用してページについてのclistからすべてのベースURLをスクレイピングする方法は次のとおりです。
library(rvest)url <- "http://www.craigslist.org/about/sites"aboutclist <- read_html(url)aboutclist %>% html_nodes(".colmask:nth-child(4) a") %>% html_attr("href")
次のようなURLのリストを返します。
"//auburn.craigslist.org/" "//bham.craigslist.org/" "//dothan.craigslist.org/" "//shoals.craigslist.org/" "//gadsden.craigslist.org/" "//huntsville.craigslist.org/" "//mobile.craigslist.org/" "//montgomery.craigslist.org/"